HTML Java را بخوانید

خواندن و تجزیه اسناد HTML به استخراج اطلاعات از محتوای آنلاین کمک می کند. چه در حال ساختن یک وب اسکراپر باشید، چه محتوای وب را تجزیه و تحلیل کنید، یا به سادگی نیاز به استخراج متنی از یک صفحه وب داشته باشید. بر این اساس، این مقاله نحوه خواندن HTML در جاوا را پوشش می دهد.

پیکربندی HTML Reader API در جاوا

می‌توانید API را از صفحات Downloads پیکربندی کنید یا Conholdate.Total for Java را با استفاده از تنظیمات Maven زیر پیکربندی کنید:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

چرا خواندن HTML در جاوا؟

قبل از اینکه به جنبه‌های فنی بپردازیم، اجازه دهید به طور خلاصه به این موضوع بپردازیم که چرا خواندن HTML در جاوا مهم است:

استخراج داده ها: HTML اساس وب است و بسیاری از وب سایت ها اطلاعات ارزشمندی را در ساختار HTML خود ذخیره می کنند. با تجزیه و استخراج داده ها از اسناد HTML، می توانید جمع آوری و تجزیه و تحلیل داده ها را خودکار کنید.

Web Scraping: هنگام ساخت ابزارهای خراش دادن وب، جاوا قابلیت دسترسی و خراش دادن محتوای HTML را فراهم می کند و به شما امکان می دهد داده ها را از وب سایت ها برای اهداف مختلف مانند تحقیقات بازار یا تجزیه و تحلیل داده ها جمع آوری کنید.

برنامه های کاربردی وب سفارشی: جاوا را می توان برای ایجاد برنامه ها و سرویس های وب سفارشی که با محتوای HTML تعامل دارند، استفاده کرد و به شما امکان می دهد ابزارهای مبتنی بر وب بسازید یا منابع داده خارجی را یکپارچه کنید.

یک فایل HTML را در جاوا بخوانید

HTML (زبان نشانه گذاری فرامتن) زبان استاندارد برای ایجاد صفحات وب است. هنگام کار با HTML در جاوا، هدف شما ممکن است استخراج داده از یک صفحه وب، دستکاری ساختار آن یا تجزیه و تحلیل محتوای آن باشد. برای انجام این کارها، باید HTML را به طور موثر بخوانید و تجزیه کنید. با دنبال کردن مراحل زیر می توانید یک فایل HTML را در جاوا بخوانید:

  • محتوای HTML ورودی را با استفاده از کلاس HTMLDocument دریافت کنید.
  • HTML را با ویژگی OuterHTML بخوانید.

کد نمونه زیر نحوه خواندن فایل های HTML در جاوا را نشان می دهد:

String documentPath = "document.html";

// یک فایل HTML را بارگیری کنید
var document = new com.aspose.html.HTMLDocument(documentPath);

// محتوای سند را در جریان خروجی بنویسید
System.out.println(document.getDocumentElement().getOuterHTML());

برای خواندن محتوای HTML در جاوا، فایل HTML را پیمایش کنید

می‌توانید با پیمایش در گره‌های مختلف، همانطور که در مراحل زیر توضیح داده شده است، از طریق داده‌های HTML تکرار کنید:

  • محتوای HTML را با کلاس HTMLDocument دریافت کنید.
  • به اولین فرزند محتوای بدن دسترسی پیدا کنید.
  • گره های بعدی را پیمایش کنید و محتوای HTML را بخوانید.

قطعه کد زیر نحوه پیمایش HTML برای خواندن HTML در جاوا را توضیح می دهد:

// کد HTML را آماده کنید
var html_code = "<span>Hello</span> <span>World!</span>";

// یک سند را از کد آماده شده اولیه کنید
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// مرجع اولین فرزند (اولین SPAN) BODY را دریافت کنید
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// ارجاع به فضای خالی بین عناصر html را دریافت کنید
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// ارجاع به عنصر دوم SPAN را دریافت کنید
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

فایل HTML را به صورت رشته در جاوا بخوانید

می‌توانید داده‌ها را از فایل‌های HTML به‌عنوان یک رشته تجزیه کنید و با مراحل ذکر شده در زیر، آن‌ها را به قالب متن صادر کنید:

  • یک شی از کلاس HTMLDocument ایجاد کنید.
  • محتوای متنی داده های HTML را تجزیه کنید.
  • فایل TXT خروجی را صادر کنید.

نمونه کد زیر نحوه خواندن یک فایل HTML را به صورت String در جاوا توضیح می دهد:

// شی HTMLDocument را با URL راه اندازی کنید
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// محتوای متنی فرمت HTML را بخوانید
String text = document.getBody().getTextContent();
            
// HTML را به فایل متنی صادر کنید
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

HTML آنلاین را بخوانید

شما می توانید صفحات و داده های HTML را برای استخراج متن یا تصاویر به صورت آنلاین بدون نیاز به نصب هیچ برنامه تخصصی تجزیه و تحلیل کنید. فقط از ابزار زیر HTML Reader and Parser Online استفاده کنید و مراحل ساده را برای خواندن داده های HTML دنبال کنید.

مجوز ارزیابی رایگان

می‌توانید برای ارزیابی ظرفیت کامل API، مجوز موقت رایگان درخواست کنید.

جمع بندی

خواندن HTML در جاوا یک مهارت ضروری برای کارهای مختلف مرتبط با وب است، از استخراج داده ها و خراش دادن وب تا ساخت برنامه های کاربردی وب سفارشی. با دنبال کردن مراحل و مثال های ذکر شده در این پست وبلاگ، می توانید کار با HTML در جاوا را شروع کنید و طیف وسیعی از امکانات را برای پروژه های خود باز کنید. در صورت وجود هرگونه سوال، لطفاً با ما در تالار گفتمان تماس بگیرید.

همچنین ببینید