Anda mungkin perlu mencari teks tertentu dari dokumen Word atau PDF. Sebagai pengembang Java, Anda dapat mencari teks apa pun dari dokumen PDF secara terprogram. Pada artikel ini, Anda akan mempelajari cara mencari kata dalam dokumen PDF menggunakan Java. Topik-topik berikut dibahas/dibahas dalam artikel ini:
API Java untuk Mencari Teks
Saya akan menggunakan GroupDocs.Search for Java API untuk mencari di dokumen PDF. Ini memungkinkan Anda untuk melakukan operasi pencarian teks di semua format dokumen populer seperti PDF, Word, Excel, PowerPoint, dan banyak lagi. Anda dapat mengambil informasi yang diperlukan dari file, dokumen, email, dan arsip dengan mudah menggunakan API ini. Ini juga memungkinkan Anda untuk membuat dan menggabungkan beberapa indeks. Anda dapat menggunakan sederhana, Boolean, Ekspresi Reguler (Regex), Fuzzy, dan jenis kueri lainnya untuk menelusuri indeks dengan cepat dan cerdas.
Unduh dan Konfigurasi
Anda dapat mengunduh JAR API atau cukup menambahkan konfigurasi pom.xml berikut di aplikasi Java berbasis Maven Anda untuk mencoba contoh kode yang disebutkan di bawah ini.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>20.11</version>
</dependency>
Cari Teks dalam PDF menggunakan Java
Anda dapat dengan mudah mencari teks atau kata tertentu dalam dokumen PDF Anda dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Buat Indeks
- Tentukan jalur ke folder indeks
- Berlangganan ke acara indeks
- Tambahkan file ke Indeks dengan memanggil metode add.
- Lakukan pencarian menggunakan metode search.
- Gunakan SearchResult dan cetak ringkasan
- Sorot hasil yang dicari di output menggunakan metode highlight. Contoh kode berikut menunjukkan cara mencari kata dari dokumen PDF menggunakan Java. Contoh kode di atas akan menghasilkan output berikut:
Documents found: 1
Total occurrences found: 6
Document: C:\Files\Lorem ipsum.pdf
Occurrences: 6
Generated HTML file can be opened with Internet browser.
The file can be found by the following path:
C:\Output\Highlighted.html
Indeks dan Acara Indeks
Kelas Index adalah kelas utama untuk mengindeks dokumen dan menelusurinya. Indeks dapat dibuat di memori atau di disk dengan memanggil konstruktor kelas ini. Saya telah membuatnya di disk sehingga dapat digunakan kembali. Untuk menerima informasi tentang kesalahan pengindeksan, saya telah berlangganan ke acara ErrorOccurred. Ini akan menunjukkan kesalahan jika terjadi selama pengindeksan file.
Tambahkan File ke Indeks
Metode add dari kelas Index menambahkan file atau semua file dalam folder atau subfolder dengan jalur absolut atau relatif. Semua dokumen di jalur yang diberikan akan diindeks.
Melakukan Operasi Pencarian
Kelas Index menyediakan berbagai metode search untuk melakukan operasi pencarian. Anda dapat mencari dengan kata kunci sederhana atau dengan menentukan SearchQuery. Kelas SearchResult memberikan detail hasil penelusuran yang cocok dengan kueri penelusuran. Beberapa metode dijelaskan di sini:
- Metode getOccurrenceCount() mengembalikan jumlah total kejadian yang ditemukan
- Metode getDocumentCount() menyediakan jumlah dokumen yang ditemukan dalam Indeks
- Metode getFoundDocument(int) mengembalikan FoundDocument
- Metode FoundDocument.getOccurrenceCount() mengembalikan jumlah kemunculan yang ditemukan dalam dokumen
Sorot Hasil Penelusuran
Kelas HtmlHighlighter memfasilitasi penyorotan hasil pencarian di seluruh teks dokumen yang diformat dalam HTML. Metode highlight dari kelas Index menghasilkan keluaran HTML yang menyoroti kemunculan istilah yang ditemukan. Anda dapat menemukan detail lebih lanjut tentang “Menyorot Hasil Pencarian” di dokumentasi.
Dapatkan Lisensi Gratis
Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mencari kata dalam dokumen PDF menggunakan Java. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Search for Java API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.