
การอ่าน HTML ใน C# จะเปิดโลกแห่งความเป็นไปได้ให้คุณโต้ตอบกับเนื้อหาเว็บในแอปพลิเคชัน C# .NET คุณสามารถแยกวิเคราะห์หรือนำทางเอกสาร HTML เพื่อการดึงข้อมูลอย่างง่ายหรืองานขูดเว็บที่ซับซ้อนใน C# เพื่อประมวลผลเนื้อหา HTML ดังนั้น โพสต์ในบล็อกนี้จึงครอบคลุมถึงวิธีการอ่าน HTML ใน C# ในขณะเดียวกันก็ครอบคลุมวิธีการต่างๆ ในการโหลดเนื้อหา HTML และแยกวิเคราะห์สตริง HTML ตามความต้องการของคุณ
กำหนดค่า HTML Reader API ใน C#
คุณสามารถดาวน์โหลด API ได้อย่างง่ายดายจากส่วน New Releases หรือติดตั้ง Conholdate.Total for .NET จากแกลเลอรี NuGet โดยการรันคำสั่งการติดตั้งต่อไปนี้ใน Package Manager Console ใน Visual Studio:
PM> NuGet\Install-Package Conholdate.Total
อ่านไฟล์ HTML ใน C#
HTML (Hypertext Markup Language) เป็นแกนหลักของหน้าเว็บ รับผิดชอบในการกำหนดโครงสร้างและเนื้อหาของเว็บไซต์ ประกอบด้วยองค์ประกอบที่แสดงด้วยแท็ก ซึ่งแต่ละองค์ประกอบมีจุดประสงค์เฉพาะ เมื่อคุณเข้าถึงหน้าเว็บ เบราว์เซอร์ของคุณจะตีความโค้ด HTML และแสดงผลเป็นเค้าโครงภาพที่คุณสามารถโต้ตอบได้ หากต้องการอ่านและจัดการเนื้อหา HTML ใน C# คุณสามารถแยกวิเคราะห์และนำทางเอกสาร HTML โดยทำตามขั้นตอนด้านล่าง:
- โหลดไฟล์ HTML ต้นฉบับด้วยอินสแตนซ์คลาส HTMLDocument
- อ่านเนื้อหา HTML โดยใช้คุณสมบัติ OuterHTML
ข้อมูลโค้ดด้านล่างสาธิตวิธีการอ่านไฟล์ HTML โดยใช้ C#:
string documentPath = "document.html";
// โหลดไฟล์ HTML
var document = new HTMLDocument(documentPath);
// เขียนเนื้อหาเอกสารไปยังเอาท์พุตสตรีม
Console.WriteLine(document.DocumentElement.OuterHTML);
นำทางไฟล์ HTML เพื่ออ่านเนื้อหา HTML ใน C#
คุณต้องทำตามขั้นตอนด้านล่างเพื่อนำทางไฟล์ HTML และอ่านเนื้อหา HTML ใน C#:
- เตรียมโค้ด HTML และเริ่มต้นวัตถุคลาส HTMLDocument
- รับการอ้างอิงถึงลูกคนแรก (SPAN แรก) ของ BODY
- นำทางผ่านโหนดย่อยและแยกข้อมูล
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการนำทางโหนด HTML เพื่ออ่านเนื้อหา HTML ใน C#:
// เตรียมโค้ด HTML
var html_code = "<span>Hello</span> <span>World!</span>";
// เริ่มต้นเอกสารจากรหัสที่เตรียมไว้
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
// รับการอ้างอิงถึงลูกคนแรก (SPAN แรก) ของ BODY
var element = document.Body.FirstChild;
Console.WriteLine(element.TextContent); // output: Hello
// รับการอ้างอิงถึงช่องว่างระหว่างองค์ประกอบ html
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: ' '
// รับการอ้างอิงถึงองค์ประกอบ SPAN ที่สอง
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: World!
}
อ่านไฟล์ HTML เป็นสตริงใน C#
คุณสามารถอ่านไฟล์ HTML เป็นสตริงใน C# จาก URL ใดก็ได้โดยทำตามขั้นตอนต่อไปนี้:
- เริ่มต้นวัตถุคลาส HTMLDocument ด้วย URL
- อ่านเนื้อหาข้อความในรูปแบบ HTML
- เขียนไฟล์ TXT พร้อมข้อความที่แยกจาก HTML ผ่าน URL
ตัวอย่างโค้ดด้านล่างนี้อธิบายวิธีอ่านไฟล์ HTML เป็นสตริงใน C# จาก URL ใดๆ อย่างละเอียด:
// เริ่มต้นวัตถุ HTMLDocument ด้วย URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
// อ่านเนื้อหาข้อความในรูปแบบ HTML
String text = document.Body.TextContent;
// เขียนไฟล์ TXT พร้อมข้อความที่แยกออกมา
File.WriteAllText("Webpage.txt", text);
ใบอนุญาตการประเมินผลฟรี
คุณสามารถรับ [ใบอนุญาตชั่วคราวฟรี] ได้ 5 เพื่อหลีกเลี่ยงข้อจำกัดในการประเมิน
สรุป
ความสามารถในการอ่าน HTML ใน C# ถือเป็นทักษะที่มีคุณค่าในการทำงานในโครงการที่เกี่ยวข้องกับเว็บและงานแยกข้อมูล ในบล็อกโพสต์นี้ เราได้กล่าวถึงสามวิธีในการอ่าน HTML ใน C# ซึ่งช่วยให้คุณสามารถคัดลอกหรือแยกวิเคราะห์ข้อมูลจากหน้า HTML เพื่อการประมวลผลต่อไป อย่างไรก็ตาม คุณอาจสำรวจคุณลักษณะอื่นๆ มากมายที่ API นำเสนอ และติดต่อเราได้ที่ ฟอรัม