خواندن HTML C#

خواندن HTML در C# دنیایی از امکانات را برای تعامل با محتوای وب در برنامه‌های C# .NET در اختیار شما قرار می‌دهد. برای پردازش محتوای HTML به راحتی می توانید اسناد HTML را برای استخراج داده های ساده یا کارهای پیچیده خراش دادن وب در سی شارپ تجزیه یا پیمایش کنید. بر این اساس، این پست وبلاگ نحوه خواندن HTML در سی شارپ را پوشش می دهد در حالی که رویکردهای مختلف برای بارگیری محتوای HTML و تجزیه رشته HTML بر اساس نیازهای شما را پوشش می دهد.

پیکربندی API HTML Reader در سی شارپ

با اجرای دستور نصب زیر در Package Manager Console در Visual Studio، می‌توانید API را به راحتی از بخش New Releases دانلود کنید یا Conholdate.Total for .NET را از گالری NuGet نصب کنید:

PM> NuGet\Install-Package Conholdate.Total

خواندن یک فایل HTML در سی شارپ

HTML (زبان نشانه گذاری فرامتن) ستون فقرات صفحات وب است که وظیفه تعریف ساختار و محتوای وب سایت ها را بر عهده دارد. این شامل عناصری است که با برچسب ها نشان داده می شوند و هر کدام هدف خاصی را انجام می دهند. هنگامی که به یک صفحه وب دسترسی پیدا می کنید، مرورگر شما کد HTML را تفسیر می کند و آن را به یک طرح بصری تبدیل می کند که می توانید با آن تعامل داشته باشید. برای خواندن و دستکاری محتوای HTML در سی شارپ، می‌توانید اسناد HTML را با دنبال کردن مراحل زیر تجزیه و پیمایش کنید:

  • فایل HTML منبع را با نمونه کلاس HTMLDocument بارگیری کنید.
  • محتوای HTML را با استفاده از ویژگی OuterHTML بخوانید.

قطعه کد زیر نحوه خواندن یک فایل HTML را با استفاده از C# نشان می دهد:

string documentPath = "document.html";

// یک فایل HTML را بارگیری کنید
var document = new HTMLDocument(documentPath);

// محتوای سند را در جریان خروجی بنویسید
Console.WriteLine(document.DocumentElement.OuterHTML);

پیمایش فایل HTML برای خواندن مطالب HTML در سی شارپ

برای پیمایش یک فایل HTML و خواندن محتوای HTML در سی شارپ باید مراحل زیر را دنبال کنید:

  • کد HTML را آماده کنید و شی کلاس HTMLDocument را شروع کنید.
  • مرجع اولین فرزند (اولین SPAN) BODY را دریافت کنید.
  • در میان گره های فرزند حرکت کنید و اطلاعات را استخراج کنید.

نمونه کد زیر نحوه پیمایش گره های HTML برای خواندن محتوای HTML در سی شارپ را نشان می دهد:

// کد HTML را آماده کنید
var html_code = "<span>Hello</span> <span>World!</span>";

// یک سند را از کد آماده شده اولیه کنید
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // مرجع اولین فرزند (اولین SPAN) BODY را دریافت کنید
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // ارجاع به فضای خالی بین عناصر html را دریافت کنید
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // ارجاع به عنصر دوم SPAN را دریافت کنید
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

خواندن فایل HTML به عنوان رشته در سی شارپ

شما می توانید فایل های HTML را به صورت رشته ای در سی شارپ از هر URL با مراحل زیر بخوانید:

  • شیء کلاس HTMLDocument را با URL راه اندازی کنید.
  • محتوای متنی فرمت HTML را بخوانید.
  • فایل TXT را با متن استخراج شده از HTML از طریق URL بنویسید.

نمونه کد زیر نحوه خواندن یک فایل HTML به عنوان رشته در سی شارپ را از هر URL توضیح می دهد:

// شی HTMLDocument را با URL راه اندازی کنید
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// محتوای متنی فرمت HTML را بخوانید
String text = document.Body.TextContent;
            
// فایل TXT را با متن استخراج شده بنویسید
File.WriteAllText("Webpage.txt", text);

مجوز ارزیابی رایگان

برای جلوگیری از هرگونه محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

جمع بندی

توانایی خواندن HTML در سی شارپ یک مهارت ارزشمند برای کار بر روی پروژه های مرتبط با وب و وظایف استخراج داده است. در این پست وبلاگ، سه روش مختلف برای خواندن HTML در سی شارپ را پوشش داده ایم. این به شما امکان می دهد اطلاعات صفحات HTML را برای پردازش بیشتر خراش یا تجزیه کنید. با این حال، ممکن است بسیاری از ویژگی‌های دیگر ارائه شده توسط API را بررسی کنید و با خیال راحت با ما در [فروم 6 تماس بگیرید.

همچنین ببینید