Ekstraktor tabel PDF - instalasi API
Proses instalasi perpustakaan ini lurus dan sederhana. Faktanya, Anda dapat mengunduh API atau menginstalnya menggunakan konfigurasi Maven berikut.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
Ekstrak Tabel Dari PDF di Jawa
Setelah API diinstal, Anda dapat mulai menulis kode untuk membuat ekstraktor tabel PDF secara terprogram. Anda dapat mengikuti langkah-langkah dan cuplikan kode yang disebutkan di bawah ini:
- Buat objek dari kelas Document dan muat file PDF sumber.
- Membuat instance dari kelas TableAbsorber yang melakukan pencarian dan menyediakan akses ke hasil pencarian.
- Ulangi halaman dokumen PDF dengan memanggil metode getPages.
- Aktifkan metode kunjungan untuk mengekstrak tabel dari halaman.
- Panggil metode getTableList yang mengembalikan IList hanya-baca yang berisi tabel yang ditemukan.
- Dapatkan baris dengan memanggil metode getRowList Iterasi melalui daftar baris.
- Ulangi daftar sel dengan memanggil metode getCellList.
- Panggil metode getTextFragments untuk mendapatkan kumpulan objek TextFragment yang menjelaskan teks yang terkandung dalam sel.
- Panggil metode getSegments yang mendapatkan segmen teks untuk TextFragment saat ini.
- Cetak hasilnya.
Salin & tempel kode berikut ke file utama Anda:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
String filePath = "table.pdf"; // Create an object of the Document class and load the source PDF file Document pdfDocument = new Document(filePath); // Instantiate an instance of the TableAbsorber class that performs search and provides access to search results TableAbsorber absorber = new TableAbsorber(); // Loop through the PDF document pages by calling the getPages method for (Page page : pdfDocument.getPages()) { // Invoke the visit method to extract table from the page absorber.visit(page); // Call the getTableList method that returns readonly IList containing tables that were found for (AbsorbedTable table : absorber.getTableList()) { System.out.println("Table"); // Get the rows by calling the getRowList method Iterate through list of rows for (AbsorbedRow row : table.getRowList()) { // Iterate through list of cell by invoking the getCellList method for (AbsorbedCell cell : row.getCellList()) { // Invoke the getTextFragments method to get collection of TextFragment objects that describes text containing in the cell for (TextFragment fragment : cell.getTextFragments()) { StringBuilder sb = new StringBuilder(); // Invoke the getSegments method that gets text segments for current TextFragment. for (TextSegment seg : fragment.getSegments()) sb.append(seg.getText()); System.out.print(sb.toString() + "|"); } } System.out.println(); } } }
Dapatkan Lisensi Gratis
Anda dapat memanfaatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.
Menyimpulkan
Ini membawa kita ke akhir posting blog ini. Anda telah mempelajari cara mengekstrak tabel dari PDF di Java secara terprogram. Panduan ini akan sangat membantu Anda jika Anda ingin membuat ekstraktor tabel PDF untuk aplikasi bisnis Anda. Selanjutnya, Anda dapat mengunjungi dokumentasi untuk mengetahui fitur lainnya. Selain itu, kami menyarankan Anda untuk mengikuti [Panduan Memulai] kami18. Terakhir, conholdate.com sedang menulis posting blog baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan terbaru.
Berikan pertanyaan
Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.
FAQ
Bisakah saya mengekstrak tabel dari PDF? Silakan kunjungi [tautan] ini 5 untuk mengetahui langkah-langkah dan cuplikan kode yang mengekstrak tabel dari dokumen PDF secara terprogram