Ekstrak Teks dari Dokumen Word menggunakan Java

Dalam kasus tertentu, Anda mungkin perlu mengekstrak teks dari dokumen Word untuk berbagai tujuan. Sebagai pengembang Java, Anda dapat dengan mudah mengekstrak teks dari file DOC atau DOCX secara terprogram. Pada artikel ini, Anda akan mempelajari cara mengekstrak teks dari dokumen Word menggunakan Java. Topik-topik berikut dibahas/dibahas dalam artikel ini:

Java API untuk Mengekstrak Teks dari Dokumen Word

Untuk mengekstrak teks dari file DOC atau DOCX, kita akan menggunakan GroupDocs.Parser for Java API. Ini memungkinkan mengekstraksi teks, metadata, dan gambar dari format file populer Word, PDF, Excel, dan PowerPoint. Ini juga mendukung ekstraksi teks mentah, terformat, dan terstruktur dari file format yang didukung. Anda dapat mengunduh JAR API atau cukup menambahkan konfigurasi pom.xml berikut di aplikasi Java berbasis Maven Anda untuk mencoba contoh kode yang disebutkan di bawah ini.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>21.2</version> 
</dependency>

Ekstrak Teks dari Dokumen Word menggunakan Java

Anda dapat mengurai dokumen Word apa pun dan mengekstrak teks dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file DOCX menggunakan kelas Parser.
  • Kemudian, panggil metode Parser.getText() untuk mengekstrak teks dari dokumen yang dimuat.
  • Dapatkan hasil dari metode Parser.getText() di objek kelas TextReader.
  • Terakhir, panggil TextReader.readToEnd() _ _method untuk membaca semua karakter dari posisi saat ini hingga akhir pembaca teks dan mengembalikannya sebagai satu string. Contoh kode berikut menunjukkan cara mengekstrak teks dari file DOCX menggunakan Java.
    Ekstrak Teks dari Dokumen Word menggunakan Java

    Ekstrak Teks dari Dokumen Word menggunakan Java

Ekstrak Teks dari Halaman Tertentu dari Dokumen Word menggunakan Java

Anda dapat mengurai dokumen Word dan mengekstrak teks dari halaman tertentu dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file DOCX menggunakan kelas Parser.
  • Lalu, gunakan Parser.getFeatures().isText() untuk memeriksa apakah dokumen mendukung fitur ekstraksi teks. Baca lebih lanjut tentang fitur yang didukung.
  • Sekarang, panggil metode Parser.getDocumentInfo() untuk mendapatkan informasi umum tentang dokumen. Seperti Jenis File, Jumlah Halaman, Ukuran, dll.
  • Dapatkan hasil metode Parser.getDocumentInfo() di objek antarmuka IDocumentInfo.
  • Lalu, periksa apakah IDocumentInfo.getPageCount() bukan nol. Metode ini mengembalikan jumlah total halaman dokumen.
  • Ulangi semua halaman dan panggil metode Parser.getText() untuk setiap indeks halaman untuk mengekstrak teks dan dapatkan hasil di objek kelas TextReader.
  • Terakhir, tampilkan hasil dengan memanggil metode TextReader.readToEnd() untuk membaca teks yang diekstrak. Contoh kode berikut menunjukkan cara mengekstrak teks dari halaman satu per satu menggunakan Java.
    Ekstrak Teks dari Halaman Tertentu dari Dokumen menggunakan Java

    Ekstrak Teks dari Halaman Tertentu dari Dokumen menggunakan Java

Dapatkan Sorotan dari Dokumen Word menggunakan Java

Sorotan adalah bagian dari teks yang biasanya digunakan untuk menjelaskan konteks teks yang ditemukan dalam fungsi pencarian. Anda dapat mengekstrak sorotan dari dokumen dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file DOCX menggunakan kelas Parser.
  • Buat instance objek kelas HighlightOptions dan teruskan panjang maksimum sebagai parameter input ke konstruktornya untuk mengekstrak highlight dengan panjang tetap.
  • Kemudian, panggil metode Parser.getHighlight() dengan posisi awal dan objek kelas HighlightOptions untuk mengekstrak sorotan dari dokumen sebagai objek dari kelas HighlightItem.
  • Terakhir, panggil metode Highlight.getPosition() dan HighlightItem.getText() untuk mendapatkan posisi dan teks sorotan. Contoh kode berikut menunjukkan cara mengekstrak sorotan dari dokumen menggunakan Java.
At 0: Overview

Ekstrak Teks Terformat dari DOCX menggunakan Java

Anda dapat mengurai dokumen Word dan mengekstrak teks tanpa kehilangan format gaya dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Ekstrak Teks dengan Daftar Isi menggunakan Java

Anda dapat mengekstrak teks dari dokumen berdasarkan daftar isi dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file DOCX menggunakan kelas Parser.
  • Lalu, panggil metode Parser.getToc() untuk mengekstrak daftar isi sebagai kumpulan objek kelas TocItem. TocItem mewakili item yang digunakan dalam fungsi ekstraksi daftar isi.
  • Sekarang, periksa apakah koleksinya bukan null.
  • Kemudian, ulangi koleksi TocItem dan panggil metode TocItem.extractText() untuk mengekstrak teks dari dokumen yang dirujuk oleh objek TocItem.
  • Dapatkan hasil di objek kelas TextReader.
  • Terakhir, panggil metode TextReader.readToEnd() untuk membaca semua teks. Contoh kode berikut menunjukkan cara mengekstrak teks dengan daftar isi dari dokumen Word menggunakan Java.
    Ekstrak Teks dengan Daftar Isi menggunakan Java

    Ekstrak Teks dengan Daftar Isi menggunakan Java

Dapatkan Lisensi Gratis

Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari dokumen Word menggunakan Java. Selain itu, Anda telah melihat cara mengekstrak teks berformat dari file DOCX secara terprogram. Artikel ini juga menjelaskan cara mengekstrak teks berdasarkan daftar isi dan mengekstrak sorotan dari dokumen. Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser untuk Java API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga