Ekstrak Teks dari DOCX

Sebagian besar data direpresentasikan sebagai teks visual dalam dokumen, gambar, dan di web sehingga ekstraksi data teks terkadang merupakan hal yang paling dibutuhkan. Anda mungkin perlu mengekstrak teks atau gambar dari dokumen Word atau PDF. Sebagai pengembang C#, Anda dapat dengan mudah mengekstrak teks dari dokumen secara terprogram. Pada artikel ini, Anda akan mempelajari cara mengekstrak teks dari dokumen DOC atau DOCX menggunakan C#. Topik-topik berikut dibahas/dibahas dalam artikel ini:

C# API untuk Ekstraksi Teks

Saya akan menggunakan GroupDocs.Parser for .NET API untuk mengekstrak teks dari dokumen DOCX. Ini memungkinkan mengekstraksi teks, metadata, dan gambar dari dokumen format file yang didukung seperti Word, PDF, Excel, dan Powerpoint. Ini juga mendukung ekstraksi teks mentah, terformat & terstruktur serta metadata dari file format yang didukung. Anda dapat mengunduh DLL API atau menginstalnya menggunakan NuGet.

Install-Package GroupDocs.Parser

Ekstrak Teks dari DOCX menggunakan C#

Anda dapat dengan mudah mengurai dokumen apa pun dan mengekstrak teks dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Buat instance kelas Parser
  • Tentukan jalur file
  • Panggil metode GetText dari kelas Parser untuk mengekstrak teks
  • Dapatkan hasil di objek kelas TextReader
  • Tampilkan hasil dengan memanggil metode ReadToEnd dari kelas TextReader Contoh kode berikut menunjukkan cara mengekstrak teks dari file DOCX menggunakan C#.
    Ekstrak Teks dari DOCX menggunakan C#

    Ekstrak Teks dari DOCX menggunakan C#

Kelas Parser adalah kelas utama yang menyediakan fungsi parsing dan ekstraksi teks dan gambar. Saya menentukan jalur file input di konstruktor kelas ini. Metode GetText() dari kelas Parser mengekstrak teks dari dokumen yang ditentukan.

Dapatkan Teks Terformat dari DOCX menggunakan C#

Anda dapat dengan mudah mengurai dokumen Word dan mengekstrak teks tanpa kehilangan format gaya dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Buat instance kelas Parser
  • Tentukan jalur file
  • Tentukan FormattedTextOptions
  • Atur FormattedTextMode ke HTML
  • Panggil metode GetFormattedText dari kelas Parser untuk mengekstrak teks
  • Dapatkan hasil di objek kelas TextReader
  • Tampilkan hasil dengan memanggil metode ReadToEnd dari kelas TextReader Contoh kode berikut menunjukkan cara mengekstrak teks berformat dari file DOCX menggunakan C#.
    Ekstrak Teks Terformat dari DOCX menggunakan C#

    Ekstrak Teks Terformat dari DOCX menggunakan C#

Kelas FormattedTextOptions menyediakan opsi yang digunakan untuk ekstraksi teks berformat seperti ekstraksi Mode. Saya menyetel mode ekstraksi ke HTML yang mengekstrak teks dokumen sebagai HTML . Metode GetFormattedText() dari kelas Parser mengekstrak teks yang diformat dari dokumen yang ditentukan.

Ekstrak Teks Terformat dari Halaman menggunakan C#

Anda dapat dengan mudah mengurai dokumen Word dan mengekstrak teks yang diformat dari halaman tertentu dokumen dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Buat instance kelas Parser
  • Tentukan jalur file
  • Periksa apakah FormattedText benar
  • Panggil GetDocumentInfo untuk menghitung jumlah halaman
  • Periksa apakah PageCount bukan nol
  • Tentukan FormattedTextOptions
  • Atur FormattedTextMode ke HTML
  • Panggil metode GetFormattedText untuk setiap indeks halaman untuk mengekstrak teks
  • Dapatkan hasil di objek kelas TextReader
  • Tampilkan hasil dengan memanggil metode ReadToEnd dari kelas TextReader Contoh kode berikut menunjukkan cara mengekstrak teks yang diformat dari halaman satu per satu menggunakan C#.
    Ekstrak Teks Terformat dari Halaman menggunakan C#

    Ekstrak Teks Terformat dari Halaman menggunakan C#

Kelas Parser menyediakan properti Features yang mewakili kelas Features. Ini dapat digunakan untuk memeriksa apakah suatu fitur didukung untuk dokumen. Anda dapat membaca selengkapnya tentang fitur yang didukung di bagian “Mendapatkan Fitur yang Didukung”.

Dapatkan Lisensi Gratis

Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.

Kesimpulan

Dalam artikel ini, Anda telah mempelajari cara mengekstrak teks dari dokumen Word menggunakan C#. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser untuk .NET API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga