In het recente verleden hebben we een [artikel][1] gepubliceerd dat gaat over het programmatisch extraheren van tekst uit een [PDF][2]-bestand in Java. In deze blogpost leren we hoe je een tabel kunt extraheren uit een PDF in Java met behulp van deze Java [API][3] voor PDF. Deze bibliotheek biedt krachtige functies om PDF-documenten te ontleden en te manipuleren. Bovendien kunt u de gegevensextractie automatiseren door een PDF-tabelextractor te bouwen met behulp van deze bibliotheek. Zorg er echter voor dat u Java op uw lokale computer hebt geïnstalleerd voordat u verder gaat. In deze gids komen de volgende punten aan bod:
- [PDF-tabelextractor - API-installatie][4]
- [Tabel uit PDF in Java extraheren][5]
PDF-tabelextractor - API-installatie
Het installatieproces van deze bibliotheek is duidelijk en eenvoudig. U kunt de API zelfs [downloaden][6] of installeren met behulp van de volgende Maven-configuraties.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
Tabel uit PDF extraheren in Java
Zodra API is geïnstalleerd, kunt u beginnen met het schrijven van code om programmatisch een PDF-tabelextractor te bouwen. U kunt de onderstaande stappen en het onderstaande codefragment volgen:
- Maak een object van de klasse [Document][7] en laad het PDF-bronbestand.
- Instantiseer een instantie van de klasse [TableAbsorber][8] die een zoekopdracht uitvoert en toegang geeft tot de zoekresultaten.
- Blader door de PDF-documentpagina’s door de methode [getPages][9] aan te roepen.
- Roep de methode [visit][10] aan om de tabel uit de pagina te extraheren.
- Roep de methode [getTableList][11] aan die alleen-lezen ILijst retourneert die tabellen bevat die zijn gevonden.
- Haal de rijen op door de methode [getRowList][12] aan te roepen Door de lijst met rijen te bladeren.
- Doorloop de lijst met cellen door de methode [getCellList][13] aan te roepen.
- Roep de methode [getTextFragments][14] aan om een verzameling TextFragment-objecten op te halen die de tekst in de cel beschrijven.
- Roep de methode [getSegments][15] aan die tekstsegmenten ophaalt voor het huidige tekstfragment.
- Druk de resultaten af. Kopieer en plak de volgende code in uw hoofdbestand:
Ontvang een gratis licentie
U kunt gebruikmaken van een [gratis tijdelijke licentie][16] om de API zonder evaluatiebeperkingen uit te proberen.
Opsommen
Hiermee zijn we aan het einde van deze blogpost gekomen. U hebt geleerd hoe u tabel uit PDF in Java programmatisch kunt extraheren. Deze gids zal u echt helpen als u een PDF-tabelextractor wilt bouwen voor uw bedrijfstoepassing. Verder kunt u de [documentatie][17] bezoeken om de andere functies te leren kennen. Bovendien raden we u aan onze [Aan de slag-gids][18] te volgen. Ten slotte schrijft [conholdate.com][19] nieuwe blogposts. Blijf daarom op de hoogte voor de laatste updates.
Een vraag stellen
U kunt uw vragen of vragen aan ons stellen op ons [forum][20].
Veelgestelde vragen
Kan ik tabellen uit PDF halen? Ga naar deze [link][5] voor de stappen en het codefragment waarmee een tabel programmatisch uit een PDF-document wordt geëxtraheerd
Zie ook
- [Tekst en afbeeldingen extraheren uit PDF-documenten met Java][21]
- [Converteer JPEG naar PDF met Java][22] [1]: https://blog.conholdate.com/total/extract-text-from-a-pdf-file-in-java/ [2]: https://docs.fileformat.com/pdf/ [3]: https://products.aspose.com/pdf/java/ [4]: #PDF-table-extractor—API-installation- [5]: #Extract-Table-From-PDF-in-Java [6]: https://releases.aspose.com/pdf/java/ [7]: https://reference.aspose.com/pdf/java/com.aspose.pdf/Document [8]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber [9]: https://reference.aspose.com/pdf/java/com.aspose.pdf/Document#getPages-- [10]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber#visit-com.aspose.pdf.Page- [11]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TableAbsorber#getTableList-- [12]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedTable#getRowList-- [13]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedRow#getCellList-- [14]: https://reference.aspose.com/pdf/java/com.aspose.pdf/AbsorbedCell#getTextFragments-- [15]: https://reference.aspose.com/pdf/java/com.aspose.pdf/TextFragment [16]: https://purchase.conholdate.com/temporary-license [17]: https://docs.aspose.com/pdf/java/ [18]: https://docs.aspose.com/pdf/java/get-started/ [19]: https://conholdate.com/ [20]: https://forum.conholdate.com/ [21]: https://blog.conholdate.com/total/extract-text-and-images-from-pdf-documents-using-java/ [22]: https://blog.conholdate.com/total/convert-jpeg-to-pdf-using-java/