Đọc HTML C#

Đọc HTML bằng C# mở ra vô số khả năng để bạn tương tác với nội dung web trong các ứng dụng C# .NET. Bạn có thể dễ dàng phân tích cú pháp hoặc điều hướng các tài liệu HTML để trích xuất dữ liệu đơn giản hoặc các tác vụ quét web phức tạp trong C# để xử lý nội dung HTML. Theo đó, bài đăng trên blog này trình bày cách đọc HTML trong C# đồng thời đề cập đến các cách tiếp cận khác nhau để tải nội dung HTML và phân tích chuỗi HTML dựa trên yêu cầu của bạn.

Định cấu hình API trình đọc HTML trong C#

Bạn có thể dễ dàng tải xuống API từ phần Bản phát hành mới hoặc cài đặt Conholdate.Total cho .NET từ thư viện NuGet bằng cách chạy lệnh cài đặt sau trong Bảng điều khiển quản lý gói trong Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

Đọc tệp HTML trong C#

HTML (Ngôn ngữ đánh dấu siêu văn bản) là xương sống của các trang web, chịu trách nhiệm xác định cấu trúc và nội dung của trang web. Nó bao gồm các phần tử được biểu thị bằng các thẻ, mỗi phần tử phục vụ một mục đích cụ thể. Khi bạn truy cập một trang web, trình duyệt của bạn sẽ diễn giải mã HTML và hiển thị mã đó thành bố cục trực quan mà bạn có thể tương tác. Để đọc và thao tác nội dung HTML trong C#, bạn có thể phân tích và điều hướng các tài liệu HTML bằng cách thực hiện theo các bước bên dưới:

  • Tải tệp HTML nguồn với phiên bản lớp HTMLDocument.
  • Đọc nội dung HTML bằng thuộc tính OuterHTML.

Đoạn mã bên dưới minh họa cách đọc tệp HTML bằng C#:

string documentPath = "document.html";

// Tải một tập tin HTML
var document = new HTMLDocument(documentPath);

// Ghi nội dung tài liệu vào luồng đầu ra
Console.WriteLine(document.DocumentElement.OuterHTML);

Điều hướng tệp HTML để đọc nội dung HTML trong C#

Bạn cần làm theo các bước bên dưới để điều hướng tệp HTML và đọc nội dung HTML trong C#:

  • Chuẩn bị mã HTML và khởi tạo đối tượng lớp HTMLDocument.
  • Lấy tham chiếu đến phần tử con đầu tiên (SPAN đầu tiên) của BODY.
  • Điều hướng qua các nút con và trích xuất thông tin.

Mẫu mã sau đây cho biết cách điều hướng Nút HTML để đọc nội dung HTML trong C#:

// Chuẩn bị mã HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Khởi tạo một tài liệu từ mã đã chuẩn bị
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Lấy tham chiếu đến phần tử con đầu tiên (SPAN đầu tiên) của BODY
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Lấy tham chiếu đến khoảng trắng giữa các phần tử html
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Lấy tham chiếu đến phần tử SPAN thứ hai
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Đọc tệp HTML dưới dạng chuỗi trong C#

Bạn có thể đọc tệp HTML dưới dạng chuỗi trong C# từ bất kỳ URL nào bằng các bước sau:

  • Khởi tạo đối tượng lớp HTMLDocument bằng URL.
  • Đọc nội dung văn bản ở định dạng HTML.
  • Viết tệp TXT với văn bản được trích xuất từ HTML qua URL.

Mẫu mã bên dưới trình bày chi tiết về cách đọc tệp HTML dưới dạng Chuỗi trong C# từ bất kỳ URL nào:

// Khởi tạo đối tượng HTMLDocument bằng URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Đọc nội dung văn bản ở định dạng HTML
String text = document.Body.TextContent;
            
// Viết tệp TXT với văn bản được trích xuất
File.WriteAllText("Webpage.txt", text);

Giấy phép đánh giá miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để tránh mọi hạn chế về đánh giá.

Tổng hợp

Có thể đọc HTML bằng C# là một kỹ năng có giá trị để làm việc trên các dự án liên quan đến web và các tác vụ trích xuất dữ liệu. Trong bài đăng trên blog này, chúng tôi đã đề cập đến ba cách tiếp cận khác nhau để đọc HTML trong C#. Điều này cho phép bạn thu thập hoặc phân tích thông tin từ các trang HTML để xử lý thêm. Tuy nhiên, bạn có thể khám phá nhiều tính năng khác do API cung cấp và vui lòng liên hệ với chúng tôi tại diễn đàn.

Xem thêm