قراءة HTML جافا

تساعد قراءة المستندات HTML وتحليلها في استخراج المعلومات من المحتوى عبر الإنترنت. سواء كنت تقوم بإنشاء أداة استخراج بيانات الويب، أو تحليل محتوى الويب، أو تحتاج ببساطة إلى استخراج بعض النص من صفحة الويب. وبناءً على ذلك، تتناول هذه المقالة كيفية قراءة HTML في Java.

تكوين HTML Reader API في Java

يمكنك تكوين واجهة برمجة التطبيقات من صفحات التنزيلات أو تكوين Conholdate.Total for Java باستخدام تكوينات Maven التالية:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

لماذا قراءة HTML في جافا؟

قبل أن نتعمق في الجوانب التقنية، دعونا نناقش بإيجاز سبب أهمية قراءة HTML في Java:

استخراج البيانات: HTML هو أساس الويب، وتقوم العديد من مواقع الويب بتخزين معلومات قيمة داخل بنية HTML الخاصة بها. ومن خلال تحليل البيانات واستخراجها من مستندات HTML، يمكنك أتمتة جمع البيانات وتحليلها.

تجريف الويب: عند إنشاء أدوات استخراج الويب، توفر Java القدرة على الوصول إلى محتوى HTML واستخراجه، مما يتيح لك جمع البيانات من مواقع الويب لأغراض مختلفة، مثل أبحاث السوق أو تحليل البيانات.

تطبيقات الويب المخصصة: يمكن استخدام Java لإنشاء تطبيقات وخدمات ويب مخصصة تتفاعل مع محتوى HTML، مما يسمح لك ببناء أدوات مستندة إلى الويب أو دمج مصادر البيانات الخارجية.

قراءة ملف HTML في جافا

HTML (لغة ترميز النص التشعبي) هي اللغة القياسية لإنشاء صفحات الويب. عند العمل باستخدام HTML في Java، قد يكون هدفك هو استخراج البيانات من صفحة ويب، أو معالجة بنيتها، أو تحليل محتواها. لإنجاز هذه المهام، تحتاج إلى قراءة HTML وتحليلها بشكل فعال. يمكنك قراءة ملف HTML في Java باتباع الخطوات التالية:

  • احصل على محتوى HTML المدخل باستخدام فئة HTMLDocument.
  • اقرأ HTML باستخدام الخاصية OuterHTML.

يوضح نموذج التعليمات البرمجية التالي كيفية قراءة ملفات HTML في Java:

String documentPath = "document.html";

// قم بتحميل ملف HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// اكتب محتوى المستند إلى دفق الإخراج
System.out.println(document.getDocumentElement().getOuterHTML());

انتقل إلى ملف HTML لقراءة محتويات HTML في Java

يمكنك التكرار عبر بيانات HTML من خلال التنقل عبر العقد المختلفة كما هو موضح في الخطوات التالية:

  • احصل على محتوى HTML باستخدام فئة HTMLDocument.
  • الوصول إلى الطفل الأول من محتوى الجسم.
  • انتقل إلى العقد اللاحقة واقرأ محتويات HTML.

يوضح مقتطف الشفرة أدناه كيفية التنقل في HTML لقراءة HTML في Java:

// قم بإعداد كود HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// تهيئة مستند من الكود المعد
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// احصل على المرجع إلى الطفل الأول (SPAN الأول) من الجسم
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// احصل على المرجع إلى المسافة البيضاء بين عناصر html
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// احصل على المرجع إلى عنصر SPAN الثاني
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

قراءة ملف HTML كسلسلة في Java

يمكنك تحليل البيانات من ملفات HTML كسلسلة وتصديرها إلى تنسيق نصي من خلال الخطوات المذكورة أدناه:

  • قم بإنشاء كائن من فئة HTMLDocument.
  • تحليل محتويات النص لبيانات HTML.
  • قم بتصدير ملف TXT الناتج.

يشرح نموذج التعليمات البرمجية التالي كيفية قراءة ملف HTML كسلسلة في Java:

// تهيئة كائن HTMLDocument باستخدام URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// اقرأ محتويات النص بتنسيق HTML
String text = document.getBody().getTextContent();
            
// تصدير HTML إلى ملف نصي
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

قراءة HTML على الانترنت

يمكنك تحليل صفحات وبيانات HTML لاستخراج النصوص أو الصور عبر الإنترنت دون الحاجة إلى تثبيت أي تطبيق متخصص. ما عليك سوى استخدام أداة [HTML Reader and Parser Online] التالية 5 واتباع الخطوات البسيطة لقراءة بيانات HTML.

رخصة التقييم المجانية

يمكنك طلب ترخيص مؤقت مجاني لتقييم واجهة برمجة التطبيقات (API) بكامل طاقتها.

تلخيص لما سبق

تعد قراءة HTML في Java مهارة أساسية لمختلف المهام المتعلقة بالويب، بدءًا من استخراج البيانات وتجميع الويب إلى إنشاء تطبيقات ويب مخصصة. باتباع الخطوات والأمثلة الموضحة في منشور المدونة هذا، يمكنك البدء في العمل باستخدام HTML في Java وفتح مجموعة واسعة من الإمكانيات لمشاريعك. في حالة وجود أية استفسارات، فلا تتردد في التواصل معنا على المنتدى.

أنظر أيضا