Baca HTMLC#

Membaca HTML di C# membuka banyak kemungkinan bagi Anda untuk berinteraksi dengan konten web di aplikasi C# .NET. Anda dapat dengan mudah mengurai atau menavigasi dokumen HTML untuk ekstraksi data sederhana atau tugas pengikisan web yang kompleks di C# untuk memproses konten HTML. Oleh karena itu, postingan blog ini membahas cara membaca HTML dalam C# sekaligus mencakup berbagai pendekatan untuk memuat konten HTML dan mengurai string HTML berdasarkan kebutuhan Anda.

Konfigurasikan API Pembaca HTML di C#

Anda dapat dengan mudah mengunduh API dari bagian Rilis Baru atau menginstal Conholdate.Total for .NET dari galeri NuGet dengan menjalankan perintah instalasi berikut di Package Manager Console di Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

Membaca File HTML di C#

HTML (Hypertext Markup Language) adalah tulang punggung halaman web, bertanggung jawab untuk menentukan struktur dan konten situs web. Ini terdiri dari elemen yang diwakili oleh tag, masing-masing memiliki tujuan tertentu. Saat Anda mengakses halaman web, browser Anda menafsirkan kode HTML dan menyajikannya ke dalam tata letak visual yang dapat Anda gunakan untuk berinteraksi. Untuk membaca dan memanipulasi konten HTML di C#, Anda dapat mengurai dan menavigasi dokumen HTML dengan mengikuti langkah-langkah di bawah ini:

  • Muat file HTML sumber dengan instance kelas HTMLDocument.
  • Baca konten HTML menggunakan properti OuterHTML.

Cuplikan kode di bawah ini menunjukkan cara membaca file HTML menggunakan C#:

string documentPath = "document.html";

// Muat file HTML
var document = new HTMLDocument(documentPath);

// Tulis konten dokumen ke aliran keluaran
Console.WriteLine(document.DocumentElement.OuterHTML);

Anda perlu mengikuti langkah-langkah di bawah ini untuk menavigasi file HTML dan membaca konten HTML di C#:

  • Siapkan kode HTML dan mulai objek kelas HTMLDocument.
  • Dapatkan referensi ke anak pertama (SPAN pertama) dari BODY.
  • Navigasi melalui node anak dan ekstrak informasi.

Contoh kode berikut menunjukkan cara menavigasi Node HTML untuk membaca konten HTML di C#:

// Siapkan kode HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Inisialisasi dokumen dari kode yang telah disiapkan
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Dapatkan referensi ke anak pertama (SPAN pertama) dari BODY
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Dapatkan referensi spasi antar elemen html
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Dapatkan referensi ke elemen SPAN kedua
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Baca File HTML sebagai String di C#

Anda dapat membaca file HTML sebagai string dalam C# dari URL mana pun dengan langkah-langkah berikut:

  • Inisialisasi objek kelas HTMLDocument dengan URL.
  • Membaca isi teks format HTML.
  • Tulis file TXT dengan teks yang diekstraksi dari HTML melalui URL.

Contoh kode di bawah menguraikan cara membaca file HTML sebagai String di C# dari URL mana pun:

// Inisialisasi objek HTMLDocument dengan URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Membaca isi teks format HTML
String text = document.Body.TextContent;
            
// Tulis file TXT dengan teks yang diekstraksi
File.WriteAllText("Webpage.txt", text);

Lisensi Evaluasi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menghindari batasan evaluasi.

Menyimpulkan

Mampu membaca HTML dalam C# adalah keterampilan berharga untuk mengerjakan proyek terkait web dan tugas ekstraksi data. Dalam postingan blog ini, kami telah membahas tiga pendekatan berbeda untuk membaca HTML di C#. Hal ini memungkinkan Anda untuk mengikis atau mengurai informasi dari halaman HTML untuk diproses lebih lanjut. Namun, Anda dapat menjelajahi banyak fitur lain yang ditawarkan oleh API dan jangan ragu untuk menghubungi kami di forum.

Lihat juga