Đọc HTML Java

Đọc và phân tích tài liệu HTML giúp trích xuất thông tin từ nội dung trực tuyến. Cho dù bạn đang xây dựng một trình quét web, phân tích nội dung web hay chỉ cần trích xuất một số văn bản từ một trang web. Theo đó, bài viết này đề cập đến cách đọc HTML trong Java.

Định cấu hình API trình đọc HTML trong Java

Bạn có thể định cấu hình API từ các trang Tải xuống hoặc định cấu hình Conholdate.Total cho Java bằng cách sử dụng các cấu hình Maven sau:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Tại sao đọc HTML bằng Java?

Trước khi đi sâu vào các khía cạnh kỹ thuật, hãy thảo luận ngắn gọn tại sao việc đọc HTML trong Java lại quan trọng:

Trích xuất dữ liệu: HTML là nền tảng của web và nhiều trang web lưu trữ thông tin có giá trị trong cấu trúc HTML của chúng. Bằng cách phân tích cú pháp và trích xuất dữ liệu từ tài liệu HTML, bạn có thể tự động hóa việc thu thập và phân tích dữ liệu.

Quét web: Khi xây dựng các công cụ quét web, Java cung cấp khả năng truy cập và quét nội dung HTML, cho phép bạn thu thập dữ liệu từ các trang web cho nhiều mục đích khác nhau, chẳng hạn như nghiên cứu thị trường hoặc phân tích dữ liệu.

Ứng dụng web tùy chỉnh: Java có thể được sử dụng để tạo các ứng dụng và dịch vụ web tùy chỉnh tương tác với nội dung HTML, cho phép bạn xây dựng các công cụ dựa trên web hoặc tích hợp các nguồn dữ liệu bên ngoài.

Đọc tệp HTML trong Java

HTML (Ngôn ngữ đánh dấu siêu văn bản) là ngôn ngữ tiêu chuẩn để tạo các trang web. Khi làm việc với HTML trong Java, mục tiêu của bạn có thể là trích xuất dữ liệu từ một trang web, thao tác cấu trúc hoặc phân tích nội dung của nó. Để hoàn thành những nhiệm vụ này, bạn cần đọc và phân tích HTML một cách hiệu quả. Bạn có thể đọc tệp HTML bằng Java bằng cách thực hiện theo các bước bên dưới:

  • Nhận nội dung HTML đầu vào bằng lớp HTMLDocument.
  • Đọc HTML bằng thuộc tính OuterHTML.

Mã mẫu sau đây cho biết cách đọc tệp HTML trong Java:

String documentPath = "document.html";

// Tải một tập tin HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Ghi nội dung tài liệu vào luồng đầu ra
System.out.println(document.getDocumentElement().getOuterHTML());

Điều hướng tệp HTML để đọc nội dung HTML trong Java

Bạn có thể lặp qua dữ liệu HTML bằng cách điều hướng qua các nút khác nhau như được nêu trong các bước sau:

  • Nhận nội dung HTML với lớp HTMLDocument.
  • Truy cập con đầu tiên của nội dung Body.
  • Điều hướng các nút tiếp theo và đọc nội dung HTML.

Đoạn mã bên dưới trình bày chi tiết về cách điều hướng HTML để đọc HTML trong Java:

// Chuẩn bị mã HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Khởi tạo một tài liệu từ mã đã chuẩn bị
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Lấy tham chiếu đến phần tử con đầu tiên (SPAN đầu tiên) của BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Lấy tham chiếu đến khoảng trắng giữa các phần tử html
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Lấy tham chiếu đến phần tử SPAN thứ hai
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Đọc tệp HTML dưới dạng chuỗi trong Java

Bạn có thể phân tích dữ liệu từ tệp HTML dưới dạng chuỗi và xuất dữ liệu đó sang định dạng văn bản bằng các bước được liệt kê bên dưới:

  • Tạo một đối tượng của lớp HTMLDocument.
  • Phân tích nội dung văn bản của dữ liệu HTML.
  • Xuất tệp TXT đầu ra.

Mẫu mã sau đây giải thích cách đọc tệp HTML dưới dạng Chuỗi trong Java:

// Khởi tạo đối tượng HTMLDocument bằng URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Đọc nội dung văn bản ở định dạng HTML
String text = document.getBody().getTextContent();
            
// Xuất HTML sang tệp văn bản
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Đọc HTML trực tuyến

Bạn có thể phân tích các trang và dữ liệu HTML để trích xuất văn bản hoặc hình ảnh trực tuyến mà không cần cài đặt bất kỳ ứng dụng chuyên dụng nào. Chỉ cần sử dụng công cụ Trình đọc và phân tích cú pháp HTML trực tuyến sau đây và làm theo các bước đơn giản để đọc dữ liệu HTML.

Giấy phép đánh giá miễn phí

Bạn có thể yêu cầu giấy phép tạm thời miễn phí để đánh giá API ở mức tối đa.

Tổng hợp

Đọc HTML bằng Java là một kỹ năng cần thiết cho nhiều tác vụ liên quan đến web khác nhau, từ trích xuất dữ liệu và quét web đến xây dựng các ứng dụng web tùy chỉnh. Bằng cách làm theo các bước và ví dụ được nêu trong bài đăng blog này, bạn có thể bắt đầu làm việc với HTML trong Java và mở ra nhiều khả năng cho dự án của mình. Trong trường hợp có bất kỳ thắc mắc nào, vui lòng liên hệ với chúng tôi tại diễn đàn.

Xem thêm