Pengikisan Web menggunakan C#

Web Scraping adalah teknik yang digunakan untuk mengekstrak data dari situs web. Ini membantu mengotomatiskan proses penggalian data dari situs web dan file HTML. Sebagai pengembang C#, kita dapat dengan mudah memeriksa, mengambil, dan mengekstrak data, seperti gambar, video, audio, dll., dari halaman web. Pada artikel ini, kita akan mempelajari cara melakukan web scraping dengan parsing HTML menggunakan C#. Topik-topik berikut akan dibahas dalam artikel ini:

C# API Pengikisan Web

Untuk pengikisan web dari file HTML atau URL, Kami akan menggunakan API Aspose.HTML for .NET. Ini adalah API pemrosesan HTML canggih yang memungkinkan untuk menghasilkan, memodifikasi, mengekstrak data, mengonversi, dan merender dokumen HTML tanpa perangkat lunak eksternal apa pun. Harap unduh DLL API atau instal menggunakan NuGet.

PM> Install-Package Aspose.Html

Baca dan Ekstrak HTML menggunakan C#

Kita dapat membaca dan mengekstrak HTML dari dokumen HTML apa pun dengan mengikuti langkah-langkah berikut:

  1. Muat dokumen HTML menggunakan kelas HTMLDocument.
  2. Tampilkan HTML bagian dalam file ke konsol. Contoh kode berikut menunjukkan cara membaca dan mengekstrak konten HTML menggunakan C#.
    Baca dan Ekstrak HTML menggunakan C#.

    Baca dan Ekstrak HTML menggunakan C#.

    Demikian pula, kita dapat membaca dan mengekstrak HTML dari situs web langsung seperti yang ditunjukkan di bawah ini:

Periksa Elemen Dokumen menggunakan C#

Kita dapat memeriksa dokumen dan elemen-elemennya dengan mengikuti langkah-langkah berikut:

  1. Muat dokumen HTML menggunakan kelas HTMLDocument.
  2. Dapatkan elemen HTML dari dokumen tersebut.
  3. Dapatkan elemen pertama/terakhir dari elemen HTML.
  4. Menampilkan detail elemen seperti TagName, TextContent. Contoh kode berikut menunjukkan cara memeriksa elemen dokumen menggunakan C#.

Temukan Elemen Tertentu menggunakan Filter di C#

Kita dapat menggunakan filter khusus untuk menemukan elemen tertentu seperti mendapatkan semua gambar, tautan, dll. Untuk tujuan ini, API menyediakan antarmuka TreeWalker. Ini memungkinkan navigasi pohon atau subpohon dokumen menggunakan tampilan dokumen yang ditentukan oleh bendera dan filter whatToShow mereka (jika ada). Kami dapat menemukan elemen tertentu menggunakan filter dengan mengikuti langkah-langkah berikut:

  1. Tentukan filter menggunakan kelas NodeFilter dan ganti metode AcceptNode().
  2. Muat dokumen HTML menggunakan kelas HTMLDocument.
  3. Panggil metode CreateTreeWalker(). Dibutuhkan root node, apa yang ditampilkan, dan NodeFilter sebagai argumen. Contoh kode berikut menunjukkan cara menemukan elemen tertentu menggunakan C#.

Meminta Data dari HTML menggunakan C#

Kami juga dapat menggunakan Kueri XPath untuk meminta data dari dokumen HTML dengan mengikuti langkah-langkah berikut:

  1. Muat dokumen HTML menggunakan kelas HTMLDocument.
  2. Panggil metode Evaluate(). Dibutuhkan string ekspresi XPath, dokumen, dan ketik sebagai argumen.
  3. Terakhir, lewati node yang dihasilkan dan tampilkan teks Contoh kode berikut menunjukkan cara membuat kueri data dengan kueri XPath menggunakan C#.

Ekstrak menggunakan Pemilih CSS di C#

Kami juga dapat mengekstrak konten HTML menggunakan pemilih CSS. Untuk tujuan ini, API menyediakan metode QuerySelectorAll() yang memungkinkan navigasi melalui dokumen HTML dan mencari elemen yang diperlukan. Dibutuhkan pemilih kueri sebagai parameter dan mengembalikan NodeList yang cocok dari semua elemen. Kami dapat meminta menggunakan pemilih CSS dengan mengikuti langkah-langkah yang diberikan di bawah ini:

  1. Muat dokumen HTML menggunakan kelas HTMLDocument.
  2. Panggil metode QuerySelectorAll(). Dibutuhkan pemilih kueri sebagai argumen.
  3. Terakhir, ulangi daftar elemen yang dihasilkan. Contoh kode berikut menunjukkan cara mengekstrak konten HTML menggunakan pemilih CSS di C#.

Dapatkan Lisensi Gratis

Silakan coba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.

Kesimpulan

Dalam artikel ini, kita telah mempelajari cara:

  • membaca dan mengekstrak konten dokumen HTML menggunakan C#;
  • periksa Elemen Dokumen dan temukan elemen tertentu dari HTML;
  • data khusus kueri dan ekstrak data menggunakan Pemilih CSS. Selain itu, Anda dapat mempelajari lebih lanjut tentang Aspose.HTML untuk .NET API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga