อ่าน HTML C#

การอ่าน HTML ใน C# จะเปิดโลกแห่งความเป็นไปได้ให้คุณโต้ตอบกับเนื้อหาเว็บในแอปพลิเคชัน C# .NET คุณสามารถแยกวิเคราะห์หรือนำทางเอกสาร HTML เพื่อการดึงข้อมูลอย่างง่ายหรืองานขูดเว็บที่ซับซ้อนใน C# เพื่อประมวลผลเนื้อหา HTML ดังนั้น โพสต์ในบล็อกนี้จึงครอบคลุมถึงวิธีการอ่าน HTML ใน C# ในขณะเดียวกันก็ครอบคลุมวิธีการต่างๆ ในการโหลดเนื้อหา HTML และแยกวิเคราะห์สตริง HTML ตามความต้องการของคุณ

กำหนดค่า HTML Reader API ใน C#

คุณสามารถดาวน์โหลด API ได้อย่างง่ายดายจากส่วน New Releases หรือติดตั้ง Conholdate.Total for .NET จากแกลเลอรี NuGet โดยการรันคำสั่งการติดตั้งต่อไปนี้ใน Package Manager Console ใน Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

อ่านไฟล์ HTML ใน C#

HTML (Hypertext Markup Language) เป็นแกนหลักของหน้าเว็บ รับผิดชอบในการกำหนดโครงสร้างและเนื้อหาของเว็บไซต์ ประกอบด้วยองค์ประกอบที่แสดงด้วยแท็ก ซึ่งแต่ละองค์ประกอบมีจุดประสงค์เฉพาะ เมื่อคุณเข้าถึงหน้าเว็บ เบราว์เซอร์ของคุณจะตีความโค้ด HTML และแสดงผลเป็นเค้าโครงภาพที่คุณสามารถโต้ตอบได้ หากต้องการอ่านและจัดการเนื้อหา HTML ใน C# คุณสามารถแยกวิเคราะห์และนำทางเอกสาร HTML โดยทำตามขั้นตอนด้านล่าง:

  • โหลดไฟล์ HTML ต้นฉบับด้วยอินสแตนซ์คลาส HTMLDocument
  • อ่านเนื้อหา HTML โดยใช้คุณสมบัติ OuterHTML

ข้อมูลโค้ดด้านล่างสาธิตวิธีการอ่านไฟล์ HTML โดยใช้ C#:

string documentPath = "document.html";

// โหลดไฟล์ HTML
var document = new HTMLDocument(documentPath);

// เขียนเนื้อหาเอกสารไปยังเอาท์พุตสตรีม
Console.WriteLine(document.DocumentElement.OuterHTML);

นำทางไฟล์ HTML เพื่ออ่านเนื้อหา HTML ใน C#

คุณต้องทำตามขั้นตอนด้านล่างเพื่อนำทางไฟล์ HTML และอ่านเนื้อหา HTML ใน C#:

  • เตรียมโค้ด HTML และเริ่มต้นวัตถุคลาส HTMLDocument
  • รับการอ้างอิงถึงลูกคนแรก (SPAN แรก) ของ BODY
  • นำทางผ่านโหนดย่อยและแยกข้อมูล

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการนำทางโหนด HTML เพื่ออ่านเนื้อหา HTML ใน C#:

// เตรียมโค้ด HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// เริ่มต้นเอกสารจากรหัสที่เตรียมไว้
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // รับการอ้างอิงถึงลูกคนแรก (SPAN แรก) ของ BODY
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // รับการอ้างอิงถึงช่องว่างระหว่างองค์ประกอบ html
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // รับการอ้างอิงถึงองค์ประกอบ SPAN ที่สอง
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

อ่านไฟล์ HTML เป็นสตริงใน C#

คุณสามารถอ่านไฟล์ HTML เป็นสตริงใน C# จาก URL ใดก็ได้โดยทำตามขั้นตอนต่อไปนี้:

  • เริ่มต้นวัตถุคลาส HTMLDocument ด้วย URL
  • อ่านเนื้อหาข้อความในรูปแบบ HTML
  • เขียนไฟล์ TXT พร้อมข้อความที่แยกจาก HTML ผ่าน URL

ตัวอย่างโค้ดด้านล่างนี้อธิบายวิธีอ่านไฟล์ HTML เป็นสตริงใน C# จาก URL ใดๆ อย่างละเอียด:

// เริ่มต้นวัตถุ HTMLDocument ด้วย URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// อ่านเนื้อหาข้อความในรูปแบบ HTML
String text = document.Body.TextContent;
            
// เขียนไฟล์ TXT พร้อมข้อความที่แยกออกมา
File.WriteAllText("Webpage.txt", text);

ใบอนุญาตการประเมินผลฟรี

คุณสามารถรับ [ใบอนุญาตชั่วคราวฟรี] ได้ 5 เพื่อหลีกเลี่ยงข้อจำกัดในการประเมิน

สรุป

ความสามารถในการอ่าน HTML ใน C# ถือเป็นทักษะที่มีคุณค่าในการทำงานในโครงการที่เกี่ยวข้องกับเว็บและงานแยกข้อมูล ในบล็อกโพสต์นี้ เราได้กล่าวถึงสามวิธีในการอ่าน HTML ใน C# ซึ่งช่วยให้คุณสามารถคัดลอกหรือแยกวิเคราะห์ข้อมูลจากหน้า HTML เพื่อการประมวลผลต่อไป อย่างไรก็ตาม คุณอาจสำรวจคุณลักษณะอื่นๆ มากมายที่ API นำเสนอ และติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย