
- Java API untuk Mengekstrak Teks dan Gambar dari Dokumen PDF
- Ekstrak Teks dari Dokumen PDF menggunakan Java
- Ekstrak Teks dari Halaman Tertentu Dokumen PDF menggunakan Java
- Dapatkan Gambar dari Dokumen PDF menggunakan Java
- Ekstrak Gambar dari Halaman Tertentu Dokumen PDF menggunakan Java
- Ekstrak dan Simpan Gambar ke File menggunakan Java
Java API untuk Mengekstrak Teks dan Gambar dari Dokumen PDF
Untuk mengekstrak teks dan gambar dari dokumen PDF, kami akan menggunakan GroupDocs.Parser for Java API. Ini memungkinkan ekstraksi teks mentah, terformat, dan terstruktur, metadata, dan gambar dari file format yang didukung. Harap unduh JAR API atau tambahkan konfigurasi pom.xml berikut dalam aplikasi Java berbasis Maven.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.3</version>
</dependency>
Ekstrak Teks dari Dokumen PDF menggunakan Java
Kami dapat mengurai dokumen PDF apa pun dan mengekstrak teks dengan mengikuti langkah-langkah yang diberikan di bawah ini:
- Pertama, muat file PDF menggunakan kelas Parser.
- Selanjutnya, panggil metode Parser.getText() untuk mengekstrak teks dari dokumen yang dimuat.
- Kemudian, dapatkan hasil di objek kelas TextReader.
- Terakhir, panggil metode TextReader.readToEnd() untuk membaca semua karakter dari posisi saat ini hingga akhir pembaca teks dan mengembalikannya sebagai satu string.
Contoh kode berikut menunjukkan cara mengekstrak teks dari file PDF menggunakan Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and extract text. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf"); // Extract a text into the reader try (TextReader reader = parser.getText()) { // Print a text from the document // If text extraction isn't supported, a reader is null System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); } Ekstrak Teks dari Dokumen PDF menggunakan Java
Ekstrak Teks dari Halaman Tertentu Dokumen PDF menggunakan Java
Anda dapat mengurai dokumen PDF dan mengekstrak teks dari halaman tertentu dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Pertama, muat file PDF menggunakan kelas Parser.
- Selanjutnya, dapatkan informasi dokumen menggunakan metode Parser.getDocumentInfo().
- Lalu, periksa apakah IDocumentInfo.getPageCount() bukan nol.
- Setelah itu, panggil metode Parser.getText() dengan indeks halaman untuk mengekstrak teks dari halaman spesifik tersebut dan dapatkan hasil di objek kelas TextReader.
- Terakhir, tampilkan hasil dengan memanggil metode TextReader.readToEnd() untuk membaca teks yang diekstrak.
Contoh kode berikut menunjukkan cara mengekstrak teks dari halaman tertentu menggunakan Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and extract text from a specific page. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf"); // Get the document info IDocumentInfo documentInfo = parser.getDocumentInfo(); // Check if the document has pages if (documentInfo == null || documentInfo.getRawPageCount() == 0) { System.out.println("Document hasn't pages."); return; } // Extract a text into the reader try (TextReader reader = parser.getText(1)) { // Print a text from the document // If text extraction isn't supported, a reader is null System.out.println(reader.readToEnd()); }
Dapatkan Gambar dari Dokumen PDF menggunakan Java
Kami dapat mengurai dokumen PDF apa pun dan mengekstrak gambar dengan mengikuti langkah-langkah berikut:
- Pertama, muat file PDF menggunakan kelas Parser.
- Selanjutnya, panggil metode Parser.getImages() dan dapatkan kumpulan objek PageImageArea dari dokumen yang dimuat.
- Lalu, Periksa apakah koleksinya bukan nol.
- Setelah itu, ulangi semua gambar yang ditemukan.
- Terakhir, tampilkan detail gambar.
Contoh kode berikut menunjukkan cara mendapatkan detail gambar dari file PDF menggunakan Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and get images. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Extract images Iterable<PageImageArea> images = parser.getImages(); // Check if images extraction is supported if (images == null) { System.out.println("Images extraction isn't supported"); return; } // Iterate over images for (PageImageArea image : images) { // Print a page index, rectangle and image type: System.out.println("Page: " + image.getPage().getIndex()); System.out.println("Image Rectangle: " + image.getRectangle()); System.out.println("Image Filetype: " + image.getFileType()); System.out.println("----------------------------------------"); } Dapatkan Gambar dari Dokumen PDF menggunakan Java
Ekstrak Gambar dari Halaman Tertentu Dokumen PDF menggunakan Java
Kami dapat mengekstrak gambar dari halaman tertentu dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Pertama, muat file PDF menggunakan kelas Parser.
- Selanjutnya, dapatkan informasi dokumen menggunakan metode Parser.getDocumentInfo().
- Lalu, periksa apakah IDocumentInfo.getPageCount() bukan nol.
- Setelah itu, panggil metode Parser.getImages() dengan indeks halaman untuk mengekstrak gambar dari halaman spesifik tersebut.
- Terakhir, ulangi semua gambar yang ditemukan dan tampilkan detailnya.
Contoh kode berikut menunjukkan cara mengekstrak gambar dari halaman tertentu menggunakan Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and get images from a specific page. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Get the document info IDocumentInfo documentInfo = parser.getDocumentInfo(); // Check if the document has pages if (documentInfo.getPageCount() == 0) { System.out.println("Document hasn't pages."); return; } int pageIndex = 1; // Iterate over images // We ignore null-checking as we have checked images extraction feature support earlier for (PageImageArea image : parser.getImages(pageIndex)) { // Print a page index, rectangle and image type: System.out.println("Page: " + image.getPage().getIndex()); System.out.println("Image Rectangle: " + image.getRectangle()); System.out.println("Image Filetype: " + image.getFileType()); System.out.println("----------------------------------------"); }
Ekstrak dan Simpan Gambar ke File menggunakan Java
Kami juga dapat menyimpan gambar yang diekstraksi dengan mengikuti langkah-langkah yang diberikan di bawah ini:
- Pertama, muat file PDF menggunakan kelas Parser.
- Selanjutnya, panggil metode Parser.getImages() dan dapatkan kumpulan objek PageImageArea dari dokumen yang dimuat.
- Kemudian, buat instance kelas ImageOptions dan atur format gambar.
- Setelah itu, ulangi semua gambar yang ditemukan.
- Terakhir, simpan menggunakan metode save(). Dibutuhkan jalur file keluaran dan ImageOptions sebagai argumen.
Contoh kode berikut menunjukkan cara mengekstrak dan menyimpan gambar ke file menggunakan Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to extract and images in directory. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Extract images from document Iterable<PageImageArea> images = parser.getImages(); // Check if images extraction is supported if (images == null) { System.out.println("Page images extraction isn't supported"); return; } // Create the options to save images in PNG format ImageOptions options = new ImageOptions(ImageFormat.Png); int imageNumber = 0; // Iterate over images for (PageImageArea image : images) { // Save the image to the PNG file image.save(String.format("D:\\Files\\Parser\\Images\\%d.png", imageNumber), options); imageNumber++; } Ekstrak dan Simpan gambar ke file menggunakan Java
Dapatkan Lisensi Gratis
Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.
Kesimpulan
Dalam artikel ini, kita telah mempelajari cara:
- ekstrak semua teks dari seluruh dokumen PDF atau halaman tertentu dari dokumen menggunakan Java;
- ekstrak gambar dari file PDF secara terprogram;
- simpan gambar yang diekstraksi pada disk lokal. Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser untuk Java API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.