
Tabel uit PDF extraheren in Java
- [PDF-tabelextractor - API-installatie][4]
- [Tabel uit PDF in Java extraheren][5]
PDF-tabelextractor - API-installatie
Het installatieproces van deze bibliotheek is duidelijk en eenvoudig. U kunt de API zelfs [downloaden][6] of installeren met behulp van de volgende Maven-configuraties.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
Tabel uit PDF extraheren in Java
Zodra API is geïnstalleerd, kunt u beginnen met het schrijven van code om programmatisch een PDF-tabelextractor te bouwen. U kunt de onderstaande stappen en het onderstaande codefragment volgen:
- Maak een object van de klasse [Document][7] en laad het PDF-bronbestand.
- Instantiseer een instantie van de klasse [TableAbsorber][8] die een zoekopdracht uitvoert en toegang geeft tot de zoekresultaten.
- Blader door de PDF-documentpagina’s door de methode [getPages][9] aan te roepen.
- Roep de methode [visit][10] aan om de tabel uit de pagina te extraheren.
- Roep de methode [getTableList][11] aan die alleen-lezen ILijst retourneert die tabellen bevat die zijn gevonden.
- Haal de rijen op door de methode [getRowList][12] aan te roepen Door de lijst met rijen te bladeren.
- Doorloop de lijst met cellen door de methode [getCellList][13] aan te roepen.
- Roep de methode [getTextFragments][14] aan om een verzameling TextFragment-objecten op te halen die de tekst in de cel beschrijven.
- Roep de methode [getSegments][15] aan die tekstsegmenten ophaalt voor het huidige tekstfragment.
- Druk de resultaten af.
Kopieer en plak de volgende code in uw hoofdbestand:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
String filePath = "table.pdf"; // Create an object of the Document class and load the source PDF file Document pdfDocument = new Document(filePath); // Instantiate an instance of the TableAbsorber class that performs search and provides access to search results TableAbsorber absorber = new TableAbsorber(); // Loop through the PDF document pages by calling the getPages method for (Page page : pdfDocument.getPages()) { // Invoke the visit method to extract table from the page absorber.visit(page); // Call the getTableList method that returns readonly IList containing tables that were found for (AbsorbedTable table : absorber.getTableList()) { System.out.println("Table"); // Get the rows by calling the getRowList method Iterate through list of rows for (AbsorbedRow row : table.getRowList()) { // Iterate through list of cell by invoking the getCellList method for (AbsorbedCell cell : row.getCellList()) { // Invoke the getTextFragments method to get collection of TextFragment objects that describes text containing in the cell for (TextFragment fragment : cell.getTextFragments()) { StringBuilder sb = new StringBuilder(); // Invoke the getSegments method that gets text segments for current TextFragment. for (TextSegment seg : fragment.getSegments()) sb.append(seg.getText()); System.out.print(sb.toString() + "|"); } } System.out.println(); } } }
Ontvang een gratis licentie
U kunt gebruikmaken van een [gratis tijdelijke licentie][16] om de API zonder evaluatiebeperkingen uit te proberen.
Opsommen
Hiermee zijn we aan het einde van deze blogpost gekomen. U hebt geleerd hoe u tabel uit PDF in Java programmatisch kunt extraheren. Deze gids zal u echt helpen als u een PDF-tabelextractor wilt bouwen voor uw bedrijfstoepassing. Verder kunt u de [documentatie][17] bezoeken om de andere functies te leren kennen. Bovendien raden we u aan onze [Aan de slag-gids][18] te volgen. Ten slotte schrijft [conholdate.com][19] nieuwe blogposts. Blijf daarom op de hoogte voor de laatste updates.
Een vraag stellen
U kunt uw vragen of vragen aan ons stellen op ons [forum][20].
Veelgestelde vragen
Kan ik tabellen uit PDF halen? Ga naar deze [link][5] voor de stappen en het codefragment waarmee een tabel programmatisch uit een PDF-document wordt geëxtraheerd
Zie ook
- [Tekst en afbeeldingen extraheren uit PDF-documenten met Java][21]
- [Converteer JPEG naar PDF met Java][22] [1]: https://blog.conholdate.com/nl/total/extract-text-from-a-pdf-file-in-java/ [2]: https://docs.fileformat.com/pdf/ [3]: https://products.aspose.com/pdf/java/ [4]: #PDF-table-extractor—API-installation- [5]: #Extract-Table-From-PDF-in-Java [6]: https://releases.aspose.com/pdf/java/ [7]: https://reference.aspose.com/pdf/java/com.aspose.pdf/Document [8]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber [9]: https://reference.aspose.com/pdf/java/com.aspose.pdf/Document#getPages-- [10]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber#visit-com.aspose.pdf.Page- [11]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber#getTableList-- [12]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedTable#getRowList-- [13]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedRow#getCellList-- [14]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedCell#getTextFragments-- [15]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TextFragment [16]: https://purchase.conholdate.com/temporary-license [17]: https://docs.aspose.com/pdf/java/ [18]: https://docs.aspose.com/pdf/java/get-started/ [19]: https://conholdate.com/ [20]: https://forum.conholdate.com/ [21]: https://blog.conholdate.com/nl/total/extract-text-and-images-from-pdf-documents-using-java/ [22]: https://blog.conholdate.com/nl/total/convert-jpeg-to-pdf-using-java/