Ekstrak Tabel Dari PDF di Jawa

Ekstrak Tabel Dari PDF di Jawa

Beberapa waktu yang lalu, kami menerbitkan artikel tentang cara mengekstrak teks dari File PDF di Java secara terprogram. Dalam postingan blog ini, kita akan mempelajari cara mengekstrak tabel dari PDF di Java menggunakan Java API untuk PDF ini. Pustaka ini menyediakan fitur canggih untuk mem-parsing dan memanipulasi dokumen PDF. Selain itu, Anda dapat mengotomatiskan ekstraksi data dengan mem-build ekstraktor tabel PDF menggunakan library ini. Namun, pastikan Anda telah menginstal Java di mesin lokal Anda sebelum melanjutkan. Poin-poin berikut akan dibahas dalam panduan ini:

Ekstraktor tabel PDF - instalasi API

Proses instalasi perpustakaan ini lurus dan sederhana. Faktanya, Anda dapat mengunduh API atau menginstalnya menggunakan konfigurasi Maven berikut.

 <repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Ekstrak Tabel Dari PDF di Jawa

Setelah API diinstal, Anda dapat mulai menulis kode untuk membuat ekstraktor tabel PDF secara terprogram. Anda dapat mengikuti langkah-langkah dan cuplikan kode yang disebutkan di bawah ini:

  1. Buat objek dari kelas Document dan muat file PDF sumber.
  2. Membuat instance dari kelas TableAbsorber yang melakukan pencarian dan menyediakan akses ke hasil pencarian.
  3. Ulangi halaman dokumen PDF dengan memanggil metode getPages.
  4. Aktifkan metode kunjungan untuk mengekstrak tabel dari halaman.
  5. Panggil metode getTableList yang mengembalikan IList hanya-baca yang berisi tabel yang ditemukan.
  6. Dapatkan baris dengan memanggil metode getRowList Iterasi melalui daftar baris.
  7. Ulangi daftar sel dengan memanggil metode getCellList.
  8. Panggil metode getTextFragments untuk mendapatkan kumpulan objek TextFragment yang menjelaskan teks yang terkandung dalam sel.
  9. Panggil metode getSegments yang mendapatkan segmen teks untuk TextFragment saat ini.
  10. Cetak hasilnya. Salin & tempel kode berikut ke file utama Anda:
    String filePath = "table.pdf";
    // Create an object of the Document class and load the source PDF file
    Document pdfDocument = new Document(filePath);
    // Instantiate an instance of the TableAbsorber class that performs search and provides access to search results
    TableAbsorber absorber = new TableAbsorber();
    // Loop through the PDF document pages by calling the getPages method
    for (Page page : pdfDocument.getPages()) {
    // Invoke the visit method to extract table from the page
    absorber.visit(page);
    // Call the getTableList method that returns readonly IList containing tables that were found
    for (AbsorbedTable table : absorber.getTableList()) {
    System.out.println("Table");
    // Get the rows by calling the getRowList method Iterate through list of rows
    for (AbsorbedRow row : table.getRowList()) {
    // Iterate through list of cell by invoking the getCellList method
    for (AbsorbedCell cell : row.getCellList()) {
    // Invoke the getTextFragments method to get collection of TextFragment objects that describes text containing in the cell
    for (TextFragment fragment : cell.getTextFragments()) {
    StringBuilder sb = new StringBuilder();
    // Invoke the getSegments method that gets text segments for current TextFragment.
    for (TextSegment seg : fragment.getSegments())
    sb.append(seg.getText());
    System.out.print(sb.toString() + "|");
    }
    }
    System.out.println();
    }
    }
    }

Dapatkan Lisensi Gratis

Anda dapat memanfaatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.

Menyimpulkan

Ini membawa kita ke akhir posting blog ini. Anda telah mempelajari cara mengekstrak tabel dari PDF di Java secara terprogram. Panduan ini akan sangat membantu Anda jika Anda ingin membuat ekstraktor tabel PDF untuk aplikasi bisnis Anda. Selanjutnya, Anda dapat mengunjungi dokumentasi untuk mengetahui fitur lainnya. Selain itu, kami menyarankan Anda untuk mengikuti [Panduan Memulai] kami18. Terakhir, conholdate.com sedang menulis posting blog baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan terbaru.

Berikan pertanyaan

Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.

FAQ

Bisakah saya mengekstrak tabel dari PDF? Silakan kunjungi [tautan] ini 5 untuk mengetahui langkah-langkah dan cuplikan kode yang mengekstrak tabel dari dokumen PDF secara terprogram

Lihat juga