Ekstrak Teks dari File PDF di Java

Ekstrak Teks dari File PDF di Java

Di dunia yang serba cepat ini, volume data berkembang secara eksponensial. PDF file sedang banyak digunakan untuk menyimpan dan merepresentasikan data. Menjadi sulit untuk menelusuri banyak halaman PDF untuk mengakses paragraf yang bermanfaat. Oleh karena itu, kita akan belajar cara mengekstrak teks dari File PDF di Java secara terprogram. Namun, mengotomatiskan seluruh proses ekstraksi teks akan menghemat waktu, tenaga, dan akan membawa efisiensi. Kami akan menggunakan [PDF Java library] yang mudah diinstal 2 yang menawarkan metode yang dapat dikonfigurasi untuk bekerja dengan file PDF. Poin-poin berikut akan dibahas dalam posting blog ini:

Pustaka Java PDF - langkah-langkah instalasi

Anda dapat menginstal pustaka ini dengan mudah di aplikasi Java Anda dengan mengunduh file jar, atau Anda dapat mengikuti konfigurasi Maven berikut. Gudang

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

Ketergantungan

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>20.12</version>
    <classifier>jdk17</classifier>
</dependency>

Ekstrak Teks dari File PDF di Java

Di bagian ini, kita akan menulis langkah-langkah dan cuplikan kode yang mengekstrak teks dari semua halaman dokumen PDF. Ikuti langkah-langkah berikut:

  1. Buka dokumen PDF dengan membuat objek dari kelas Document.
  2. Inisialisasi objek dari kelas TextAbsorber untuk melakukan ekstraksi teks.
  3. Panggil metode getPages() yang menerima absorber untuk semua halaman.
  4. Dapatkan teks yang diekstrak dengan memanggil metode getText().
  5. Tulis teks yang diekstraksi ke file dan tutup penulis. Salin dan tempel cuplikan kode berikut untuk mengekstrak teks dari dokumen PDF secara terprogram.

Cara mengekstrak teks dari wilayah halaman tertentu

[Perpustakaan] ini juga memungkinkan Anda mengekstrak teks dari halaman dokumen PDF yang diinginkan. Kami akan mengikuti langkah-langkah berikut untuk mencapai ini:

  1. Buat objek dari kelas Document dan muat file PDF sumber.
  2. Buat instance objek dari kelas TextAbsorber untuk mengekstrak data.
  3. Panggil metode getTextSearchOptions() yang memungkinkan untuk menentukan persegi panjang yang membatasi teks yang diekstrak.
  4. Aktifkan getPages() untuk mendapatkan kumpulan halaman dokumen dan menerima absorber untuk halaman pertama.
  5. Panggil getText() untuk mendapatkan teks yang diekstraksi dan menuliskannya ke file.
  6. Panggil metode close() untuk menutup aliran. Salin dan tempel cuplikan kode berikut di file Java Anda:

Pustaka Java untuk mengekstrak teks dari file PDF dalam bentuk paragraf

Bagian ini menunjukkan langkah-langkah berikut dan cuplikan kode untuk mengekstrak data dari dokumen PDF dalam paragraf.

  1. Inisialisasi objek dari kelas Document dan muat file PDF sumber.
  2. Buat objek dari kelas ParagraphAbsorber.
  3. Panggil visit(Document doc) yang melakukan pencarian bagian dan paragraf pada dokumen yang ditentukan.
  4. Aktifkan getPageMarkups() untuk mendapatkan koleksi PageMarkup yang diserap.
  5. Ulangi koleksi MarkupSection yang ditemukan di halaman menggunakan metode getSections().
  6. Panggil metode getParagraphs() ini yang mendapatkan kumpulan MarkupParagraph yang ditemukan di halaman.
  7. Panggil metode getLines() untuk mengulang baris paragraf.

Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.

Menyimpulkan

Ini membawa kita ke akhir artikel ini. Kami telah membahas cara mengekstrak teks dari File PDF di Java secara terprogram. Selain itu, kami telah mempelajari cuplikan kode untuk mengekstrak teks dari wilayah halaman tertentu dan juga menjelajahi ekstraksi teks dalam bentuk paragraf. Selain itu, Anda dapat membaca dokumentasi untuk menjelajahi fitur lain dari [perpustakaan PDF Java] ini2. Terakhir, conholdate.com secara konsisten menulis posting blog baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan terbaru.

Berikan pertanyaan

Jika ada pertanyaan, jangan ragu untuk menulis kepada kami di forum.

Lihat juga