Baca HTML Java

Membaca dan menguraikan dokumen HTML membantu mengekstraksi informasi dari konten online. Baik Anda sedang membuat web scraper, menganalisis konten web, atau sekadar perlu mengekstrak beberapa teks dari halaman web. Oleh karena itu, artikel ini membahas cara membaca HTML di Java.

Konfigurasikan API Pembaca HTML di Java

Anda dapat mengonfigurasi API dari halaman Unduhan atau mengonfigurasi Conholdate.Total for Java menggunakan konfigurasi Maven berikut:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Mengapa Membaca HTML di Java?

Sebelum kita mendalami aspek teknisnya, mari kita bahas secara singkat mengapa membaca HTML di Java itu penting:

Ekstraksi Data: HTML adalah dasar dari web, dan banyak situs web menyimpan informasi berharga dalam struktur HTML-nya. Dengan mengurai dan mengekstrak data dari dokumen HTML, Anda dapat mengotomatiskan pengumpulan dan analisis data.

Pengikisan Web: Saat membuat alat pengikisan web, Java menyediakan kemampuan untuk mengakses dan mengikis konten HTML, memungkinkan Anda mengumpulkan data dari situs web untuk berbagai tujuan, seperti riset pasar atau analisis data.

Aplikasi Web Khusus: Java dapat digunakan untuk membuat aplikasi dan layanan web khusus yang berinteraksi dengan konten HTML, memungkinkan Anda membuat alat berbasis web atau mengintegrasikan sumber data eksternal.

Membaca File HTML di Java

HTML (Hypertext Markup Language) adalah bahasa standar untuk membuat halaman web. Saat bekerja dengan HTML di Java, tujuan Anda mungkin mengekstrak data dari halaman web, memanipulasi strukturnya, atau menganalisis kontennya. Untuk menyelesaikan tugas ini, Anda perlu membaca dan mengurai HTML secara efektif. Anda dapat membaca file HTML di Java dengan mengikuti langkah-langkah di bawah ini:

  • Dapatkan input konten HTML menggunakan kelas HTMLDocument.
  • Baca HTML dengan properti OuterHTML.

Contoh kode berikut menunjukkan cara membaca file HTML di Java:

String documentPath = "document.html";

// Muat file HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Tulis konten dokumen ke aliran keluaran
System.out.println(document.getDocumentElement().getOuterHTML());

Anda dapat melakukan iterasi melalui data HTML dengan menavigasi melalui node yang berbeda seperti yang diuraikan dalam langkah-langkah berikut:

  • Dapatkan konten HTML dengan kelas HTMLDocument.
  • Akses konten anak pertama dari Tubuh.
  • Navigasikan node berikutnya dan baca konten HTML.

Cuplikan kode di bawah ini menguraikan cara menavigasi HTML untuk membaca HTML di Java:

// Siapkan kode HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Inisialisasi dokumen dari kode yang telah disiapkan
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Dapatkan referensi ke anak pertama (SPAN pertama) dari BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Dapatkan referensi spasi antar elemen html
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Dapatkan referensi ke elemen SPAN kedua
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Baca File HTML sebagai String di Java

Anda dapat mengurai data dari file HTML sebagai string dan mengekspornya ke format teks dengan langkah-langkah di bawah ini:

  • Buat objek kelas HTMLDocument.
  • Parsing isi teks dari data HTML.
  • Ekspor file TXT keluaran.

Contoh kode berikut menjelaskan cara membaca file HTML sebagai String di Java:

// Inisialisasi objek HTMLDocument dengan URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Membaca isi teks format HTML
String text = document.getBody().getTextContent();
            
// Ekspor HTML ke file Teks
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Baca HTML Daring

Anda dapat mengurai halaman dan data HTML untuk mengekstrak teks atau gambar secara online tanpa perlu menginstal aplikasi khusus apa pun. Cukup gunakan alat [Pembaca HTML dan Parser Online]]5 berikut dan ikuti langkah-langkah sederhana untuk membaca data HTML.

Lisensi Evaluasi Gratis

Anda dapat meminta lisensi sementara gratis untuk mengevaluasi API hingga kapasitas penuhnya.

Menyimpulkan

Membaca HTML di Java adalah keterampilan penting untuk berbagai tugas terkait web, mulai dari ekstraksi data dan pengikisan web hingga membangun aplikasi web khusus. Dengan mengikuti langkah-langkah dan contoh yang diuraikan dalam postingan blog ini, Anda dapat mulai bekerja dengan HTML di Java dan membuka berbagai kemungkinan untuk proyek Anda. Jika ada pertanyaan, silakan menghubungi kami di forum.

Lihat juga