قراءة HTML C#

إن قراءة HTML في لغة C# تفتح لك عالمًا من الإمكانيات للتفاعل مع محتوى الويب في تطبيقات C# .NET. يمكنك بسهولة تحليل مستندات HTML أو التنقل فيها لاستخراج البيانات البسيطة أو مهام تجريف الويب المعقدة في C# لمعالجة محتوى HTML. وفقًا لذلك، يغطي منشور المدونة هذا كيفية قراءة HTML في C# مع تغطية الطرق المختلفة لتحميل محتوى HTML وتحليل سلسلة HTML بناءً على متطلباتك.

تكوين HTML Reader API في C#

يمكنك بسهولة تنزيل واجهة برمجة التطبيقات (API) من قسم الإصدارات الجديدة أو تثبيت Conholdate.Total for .NET من معرض NuGet عن طريق تشغيل أمر التثبيت التالي في Package Manager Console في Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

قراءة ملف HTML في C#

HTML (لغة ترميز النص التشعبي) هي العمود الفقري لصفحات الويب، وهي المسؤولة عن تحديد بنية ومحتوى مواقع الويب. وتتكون من عناصر ممثلة بالعلامات، كل منها يخدم غرضًا محددًا. عند الوصول إلى صفحة ويب، يفسر متصفحك كود HTML ويحوله إلى تخطيط مرئي يمكنك التفاعل معه. لقراءة محتوى HTML ومعالجته في لغة C#، يمكنك تحليل مستندات HTML والتنقل فيها باتباع الخطوات التالية:

  • قم بتحميل ملف HTML المصدر باستخدام مثيل فئة HTMLDocument.
  • اقرأ محتوى HTML باستخدام الخاصية OuterHTML.

يوضح مقتطف الكود أدناه كيفية قراءة ملف HTML باستخدام C#:

string documentPath = "document.html";

// قم بتحميل ملف HTML
var document = new HTMLDocument(documentPath);

// اكتب محتوى المستند إلى دفق الإخراج
Console.WriteLine(document.DocumentElement.OuterHTML);

انتقل إلى ملف HTML لقراءة محتويات HTML في C#

يتعين عليك اتباع الخطوات الموضحة أدناه للتنقل في ملف HTML وقراءة محتويات HTML في لغة C#:

  • قم بإعداد تعليمات HTML البرمجية وبدء كائن فئة HTMLDocument.
  • احصل على المرجع إلى الطفل الأول (SPAN الأول) من الجسم.
  • التنقل عبر العقد الفرعية واستخراج المعلومات.

يوضح نموذج التعليمات البرمجية التالي كيفية التنقل بين عقد HTML لقراءة محتويات HTML في C#:

// قم بإعداد كود HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// تهيئة مستند من الكود المعد
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // احصل على المرجع إلى الطفل الأول (SPAN الأول) من الجسم
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // احصل على المرجع إلى المسافة البيضاء بين عناصر html
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // احصل على المرجع إلى عنصر SPAN الثاني
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

قراءة ملف HTML كسلسلة في C#

يمكنك قراءة ملفات HTML كسلسلة في C# من أي عنوان URL بالخطوات التالية:

  • تهيئة كائن فئة HTMLDocument باستخدام URL.
  • اقرأ محتويات النص بتنسيق HTML.
  • اكتب ملف TXT مع النص المستخرج من HTML عبر URL.

يوضح نموذج التعليمات البرمجية أدناه كيفية قراءة ملف HTML كسلسلة في C# من أي عنوان URL:

// تهيئة كائن HTMLDocument باستخدام URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// اقرأ محتويات النص بتنسيق HTML
String text = document.Body.TextContent;
            
// اكتب ملف TXT بالنص المستخرج
File.WriteAllText("Webpage.txt", text);

رخصة التقييم المجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجنب أي قيود على التقييم.

تلخيص لما سبق

تعد القدرة على قراءة HTML في C# مهارة قيمة للعمل على المشاريع المتعلقة بالويب ومهام استخراج البيانات. في منشور المدونة هذا، قمنا بتغطية ثلاثة طرق مختلفة لقراءة HTML في لغة C#. يمكّنك هذا من استخراج المعلومات من صفحات HTML أو تحليلها لمزيد من المعالجة. ومع ذلك، يمكنك استكشاف العديد من الميزات الأخرى التي تقدمها واجهة برمجة التطبيقات ولا تتردد في التواصل معنا على المنتدى.

أنظر أيضا