Ekstrak Teks dan Gambar dari Dokumen PDF menggunakan Java
PDF adalah format dokumen digital yang paling banyak digunakan. Kami dapat mengurai dokumen PDF dan mengekstrak teks dan gambar darinya secara terprogram. Ini bisa berguna dalam beberapa kasus, seperti analisis teks, pencarian informasi, konversi dokumen, dll. Pada artikel ini, kita akan mempelajari cara mengekstrak teks dan gambar dari dokumen PDF menggunakan Java. Topik-topik berikut akan dibahas dalam artikel ini:

Java API untuk Mengekstrak Teks dan Gambar dari Dokumen PDF

Untuk mengekstrak teks dan gambar dari dokumen PDF, kami akan menggunakan GroupDocs.Parser for Java API. Ini memungkinkan ekstraksi teks mentah, terformat, dan terstruktur, metadata, dan gambar dari file format yang didukung. Harap unduh JAR API atau tambahkan konfigurasi pom.xml berikut dalam aplikasi Java berbasis Maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Ekstrak Teks dari Dokumen PDF menggunakan Java

Kami dapat mengurai dokumen PDF apa pun dan mengekstrak teks dengan mengikuti langkah-langkah yang diberikan di bawah ini:

  • Pertama, muat file PDF menggunakan kelas Parser.
  • Selanjutnya, panggil metode Parser.getText() untuk mengekstrak teks dari dokumen yang dimuat.
  • Kemudian, dapatkan hasil di objek kelas TextReader.
  • Terakhir, panggil metode TextReader.readToEnd() untuk membaca semua karakter dari posisi saat ini hingga akhir pembaca teks dan mengembalikannya sebagai satu string. Contoh kode berikut menunjukkan cara mengekstrak teks dari file PDF menggunakan Java.
    Ekstrak Teks dari Dokumen PDF menggunakan Java

    Ekstrak Teks dari Dokumen PDF menggunakan Java

Ekstrak Teks dari Halaman Tertentu Dokumen PDF menggunakan Java

Anda dapat mengurai dokumen PDF dan mengekstrak teks dari halaman tertentu dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file PDF menggunakan kelas Parser.
  • Selanjutnya, dapatkan informasi dokumen menggunakan metode Parser.getDocumentInfo().
  • Lalu, periksa apakah IDocumentInfo.getPageCount() bukan nol.
  • Setelah itu, panggil metode Parser.getText() dengan indeks halaman untuk mengekstrak teks dari halaman spesifik tersebut dan dapatkan hasil di objek kelas TextReader.
  • Terakhir, tampilkan hasil dengan memanggil metode TextReader.readToEnd() untuk membaca teks yang diekstrak. Contoh kode berikut menunjukkan cara mengekstrak teks dari halaman tertentu menggunakan Java. API juga memungkinkan untuk memeriksa apakah dokumen mendukung fitur ekstraksi teks. Untuk tujuan ini, kita dapat menggunakan properti Parser.getFeatures().isText(). Silakan baca lebih lanjut tentang fitur yang didukung.

Dapatkan Gambar dari Dokumen PDF menggunakan Java

Kami dapat mengurai dokumen PDF apa pun dan mengekstrak gambar dengan mengikuti langkah-langkah berikut:

  • Pertama, muat file PDF menggunakan kelas Parser.
  • Selanjutnya, panggil metode Parser.getImages() dan dapatkan kumpulan objek PageImageArea dari dokumen yang dimuat.
  • Lalu, Periksa apakah koleksinya bukan nol.
  • Setelah itu, ulangi semua gambar yang ditemukan.
  • Terakhir, tampilkan detail gambar. Contoh kode berikut menunjukkan cara mendapatkan detail gambar dari file PDF menggunakan Java.
    Dapatkan gambar dari Dokumen PDF menggunakan Java

    Dapatkan Gambar dari Dokumen PDF menggunakan Java

Ekstrak Gambar dari Halaman Tertentu Dokumen PDF menggunakan Java

Kami dapat mengekstrak gambar dari halaman tertentu dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

  • Pertama, muat file PDF menggunakan kelas Parser.
  • Selanjutnya, dapatkan informasi dokumen menggunakan metode Parser.getDocumentInfo().
  • Lalu, periksa apakah IDocumentInfo.getPageCount() bukan nol.
  • Setelah itu, panggil metode Parser.getImages() dengan indeks halaman untuk mengekstrak gambar dari halaman spesifik tersebut.
  • Terakhir, ulangi semua gambar yang ditemukan dan tampilkan detailnya. Contoh kode berikut menunjukkan cara mengekstrak gambar dari halaman tertentu menggunakan Java.

Ekstrak dan Simpan Gambar ke File menggunakan Java

Kami juga dapat menyimpan gambar yang diekstraksi dengan mengikuti langkah-langkah yang diberikan di bawah ini:

  • Pertama, muat file PDF menggunakan kelas Parser.
  • Selanjutnya, panggil metode Parser.getImages() dan dapatkan kumpulan objek PageImageArea dari dokumen yang dimuat.
  • Kemudian, buat instance kelas ImageOptions dan atur format gambar.
  • Setelah itu, ulangi semua gambar yang ditemukan.
  • Terakhir, simpan menggunakan metode save(). Dibutuhkan jalur file keluaran dan ImageOptions sebagai argumen. Contoh kode berikut menunjukkan cara mengekstrak dan menyimpan gambar ke file menggunakan Java.
    Ekstrak dan Simpan gambar ke file menggunakan Java

    Ekstrak dan Simpan gambar ke file menggunakan Java

Dapatkan Lisensi Gratis

Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.

Kesimpulan

Dalam artikel ini, kita telah mempelajari cara:

  • ekstrak semua teks dari seluruh dokumen PDF atau halaman tertentu dari dokumen menggunakan Java;
  • ekstrak gambar dari file PDF secara terprogram;
  • simpan gambar yang diekstraksi pada disk lokal. Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser untuk Java API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga