In deze snelle wereld neemt de hoeveelheid data exponentieel toe. [PDF][1]-bestanden worden enorm gebruikt om gegevens op te slaan en weer te geven. Het wordt moeilijk om door een groot aantal PDF-pagina’s te bladeren om toegang te krijgen tot nuttige paragrafen. Daarom zullen we leren hoe we programmatisch tekst uit een PDF-bestand in Java kunnen extraheren. Het automatiseren van het hele proces van tekstextractie bespaart echter tijd en moeite en zorgt voor efficiëntie. We gebruiken een eenvoudig te installeren [PDF Java-bibliotheek][2] die configureerbare methoden biedt om met PDF-bestanden te werken. In deze blogpost komen de volgende punten aan bod:
- [PDF Java-bibliotheek - installatiestappen][3]
- [Tekst extraheren uit een PDF-bestand in Java][4]
- [Tekst extraheren uit een bepaald paginagebied][5]
- [Java-bibliotheek om tekst uit PDF-bestand te extraheren in de vorm van alinea’s][6]
PDF Java-bibliotheek - installatiestappen
U kunt deze bibliotheek eenvoudig in uw Java-toepassing installeren door de [jar-bestanden][7] te downloaden, of u kunt de volgende Maven-configuraties volgen. Opslagplaats
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
Afhankelijkheid
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>20.12</version>
<classifier>jdk17</classifier>
</dependency>
Extraheer tekst uit een PDF-bestand in Java
In dit gedeelte schrijven we de stappen en het codefragment waarmee tekst uit alle pagina’s van een PDF-document wordt geëxtraheerd. Doorloop de volgende stappen:
- Open een PDF-document door een object van de klasse [Document][8] te maken.
- Initialiseer een object van de klasse [TextAbsorber][9] om tekstextractie uit te voeren.
- Roep de methode [getPages()][10] aan die de absorber voor alle pagina’s accepteert.
- Haal de geëxtraheerde tekst op door de methode [getText()][11] aan te roepen.
- Schrijf geëxtraheerde tekst naar het bestand en sluit de schrijver. Kopieer en plak het volgende codefragment om tekst programmatisch uit een PDF-document te extraheren.
Tekst extraheren uit een bepaald paginagebied
Met deze [bibliotheek][12] kunt u ook tekst extraheren van de gewenste pagina van een PDF-document. We zullen de volgende stappen volgen om dit te bereiken:
- Maak een object van de klasse [Document][8] en laad een PDF-bronbestand.
- Maak een instantie van een object van de klasse [TextAbsorber][9] om gegevens te extraheren.
- Roep de methode [getTextSearchOptions()][13] aan waarmee een rechthoek kan worden gedefinieerd die de geëxtraheerde tekst afbakent.
- Roep [getPages()][10] aan om de verzameling documentpagina’s op te halen en accepteer de absorber voor de eerste pagina.
- Roep [getText()][11] aan om de geëxtraheerde tekst op te halen en naar het bestand te schrijven.
- Roep de methode close() aan om de stream te sluiten. Kopieer en plak het volgende codefragment in uw Java-bestand:
Java-bibliotheek om tekst uit een PDF-bestand te extraheren in de vorm van alinea’s
In dit gedeelte worden de volgende stappen en de codefragmenten gedemonstreerd om gegevens in alinea’s uit PDF-documenten te extraheren.
- Initialiseer een object van de klasse [Document][8] en laad een PDF-bronbestand.
- Maak een object van de klasse [ParagraphAbsorber][14].
- Roep [visit(Document doc)][15] op dat zoekt naar secties en paragrafen over het gespecificeerde document.
- Roep [getPageMarkups()][16] aan om een verzameling van [PageMarkup][28] op te halen die zijn geabsorbeerd.
- Doorloop de verzameling van [MarkupSection][17] die op de pagina is gevonden met de methode [getSections()][18].
- Roep deze methode [getParagraphs()][19] aan die de verzameling van [MarkupParagraph][20] ophaalt die op de pagina is gevonden.
- Roep de methode [getLines()][21] aan om regels van de alinea te herhalen.
Ontvang een gratis licentie
U kunt een [gratis tijdelijke licentie][22] krijgen om de [API][2] zonder evaluatiebeperkingen uit te proberen.
Opsommen
Dit brengt ons aan het einde van dit artikel. We hebben besproken hoe tekst programmatisch uit een PDF-bestand in Java kan worden geëxtraheerd. Daarnaast hebben we de codefragmenten doorgenomen om tekst uit een bepaald paginagebied te extraheren en hebben we ook tekstextractie in alineavorm onderzocht. Bovendien kunt u de [documentatie][23] doornemen om andere functies van deze [PDF Java-bibliotheek][2] te ontdekken. Ten slotte schrijft [conholdate.com][23] consequent nieuwe blogposts. Blijf daarom op de hoogte voor de laatste updates.
Een vraag stellen
Als u vragen heeft, kunt u ons schrijven op het [forum][24].
Zie ook
- [Conversie van PDF naar afbeelding in Java - PDF naar PNG, PDF naar JPEG][25]
- [Converteer SVG programmatisch naar PDF in Java][26]
- [XML importeren in Excel in Node.js][27] [1]: https://docs.fileformat.com/pdf/ [2]: https://products.aspose.com/pdf/java/ [3]: #PDF-Java-library—installation-steps [4]: #Extract-Text-from-a-PDF-File-in-Java [5]: #How-to-extract-text-from-a-particular-page-region [6]: #Java-library-to-extract-text-from-PDF-file-in-paragraphs-form [7]: https://releases.aspose.com/pdf/java/ [8]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/Document [9]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/TextAbsorber [10]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/Document#getPages-- [11]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/TextAbsorber#getText-- [12]: https://apireference.aspose.com/pdf/java [13]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/TextAbsorber#getTextSearchOptions-- [14]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/ParagraphAbsorber [15]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/ParagraphAbsorber#visit-com.aspose.pdf.Document- [16]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/ParagraphAbsorber#getPageMarkups-- [17]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/MarkupSection [18]: https://reference.aspose.com/pdf/java/com.aspose.pdf/page/Markup#getSections-- [19]: https://reference.aspose.com/pdf/java/com.aspose.pdf/page/Markup#getParagraphs-- [20]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/MarkupParagraph [21]: https://apireference.aspose.com/pdf/java/com.aspose.pdf/MarkupParagraph#getLines-- [22]: https://purchase.conholdate.com/temporary-license [23]: https://docs.aspose.com/pdf/java/ [24]: https://forum.conholdate.com/ [25]: https://blog.conholdate.com/total/pdf-to-image-conversion-in-java-pdf-to-png-pdf-to-jpeg/ [26]: https://blog.conholdate.com/total/convert-svg-to-pdf-programmatically-in-java/ [27]: https://blog.conholdate.com/total/import-xml-into-excel-in-nodejs/ [28]: https://reference.aspose.com/pdf/java/com.aspose.pdf/page/Markup