Extraheer tekst uit een PDF-bestand in Java

Extraheer tekst uit een PDF-bestand in Java

In deze snelle wereld neemt de hoeveelheid data exponentieel toe. [PDF][1]-bestanden worden enorm gebruikt om gegevens op te slaan en weer te geven. Het wordt moeilijk om door een groot aantal PDF-pagina’s te bladeren om toegang te krijgen tot nuttige paragrafen. Daarom zullen we leren hoe we programmatisch tekst uit een PDF-bestand in Java kunnen extraheren. Het automatiseren van het hele proces van tekstextractie bespaart echter tijd en moeite en zorgt voor efficiëntie. We gebruiken een eenvoudig te installeren [PDF Java-bibliotheek][2] die configureerbare methoden biedt om met PDF-bestanden te werken. In deze blogpost komen de volgende punten aan bod:

  • [PDF Java-bibliotheek - installatiestappen][3]
  • [Tekst extraheren uit een PDF-bestand in Java][4]
  • [Tekst extraheren uit een bepaald paginagebied][5]
  • [Java-bibliotheek om tekst uit PDF-bestand te extraheren in de vorm van alinea’s][6]

PDF Java-bibliotheek - installatiestappen

U kunt deze bibliotheek eenvoudig in uw Java-toepassing installeren door de [jar-bestanden][7] te downloaden, of u kunt de volgende Maven-configuraties volgen. Opslagplaats

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

Afhankelijkheid

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>20.12</version>
    <classifier>jdk17</classifier>
</dependency>

Extraheer tekst uit een PDF-bestand in Java

In dit gedeelte schrijven we de stappen en het codefragment waarmee tekst uit alle pagina’s van een PDF-document wordt geëxtraheerd. Doorloop de volgende stappen:

  1. Open een PDF-document door een object van de klasse [Document][8] te maken.
  2. Initialiseer een object van de klasse [TextAbsorber][9] om tekstextractie uit te voeren.
  3. Roep de methode [getPages()][10] aan die de absorber voor alle pagina’s accepteert.
  4. Haal de geëxtraheerde tekst op door de methode [getText()][11] aan te roepen.
  5. Schrijf geëxtraheerde tekst naar het bestand en sluit de schrijver. Kopieer en plak het volgende codefragment om tekst programmatisch uit een PDF-document te extraheren.

Tekst extraheren uit een bepaald paginagebied

Met deze [bibliotheek][12] kunt u ook tekst extraheren van de gewenste pagina van een PDF-document. We zullen de volgende stappen volgen om dit te bereiken:

  1. Maak een object van de klasse [Document][8] en laad een PDF-bronbestand.
  2. Maak een instantie van een object van de klasse [TextAbsorber][9] om gegevens te extraheren.
  3. Roep de methode [getTextSearchOptions()][13] aan waarmee een rechthoek kan worden gedefinieerd die de geëxtraheerde tekst afbakent.
  4. Roep [getPages()][10] aan om de verzameling documentpagina’s op te halen en accepteer de absorber voor de eerste pagina.
  5. Roep [getText()][11] aan om de geëxtraheerde tekst op te halen en naar het bestand te schrijven.
  6. Roep de methode close() aan om de stream te sluiten. Kopieer en plak het volgende codefragment in uw Java-bestand:

Java-bibliotheek om tekst uit een PDF-bestand te extraheren in de vorm van alinea’s

In dit gedeelte worden de volgende stappen en de codefragmenten gedemonstreerd om gegevens in alinea’s uit PDF-documenten te extraheren.

  1. Initialiseer een object van de klasse [Document][8] en laad een PDF-bronbestand.
  2. Maak een object van de klasse [ParagraphAbsorber][14].
  3. Roep [visit(Document doc)][15] op dat zoekt naar secties en paragrafen over het gespecificeerde document.
  4. Roep [getPageMarkups()][16] aan om een verzameling van [PageMarkup][28] op te halen die zijn geabsorbeerd.
  5. Doorloop de verzameling van [MarkupSection][17] die op de pagina is gevonden met de methode [getSections()][18].
  6. Roep deze methode [getParagraphs()][19] aan die de verzameling van [MarkupParagraph][20] ophaalt die op de pagina is gevonden.
  7. Roep de methode [getLines()][21] aan om regels van de alinea te herhalen.

Ontvang een gratis licentie

U kunt een [gratis tijdelijke licentie][22] krijgen om de [API][2] zonder evaluatiebeperkingen uit te proberen.

Opsommen

Dit brengt ons aan het einde van dit artikel. We hebben besproken hoe tekst programmatisch uit een PDF-bestand in Java kan worden geëxtraheerd. Daarnaast hebben we de codefragmenten doorgenomen om tekst uit een bepaald paginagebied te extraheren en hebben we ook tekstextractie in alineavorm onderzocht. Bovendien kunt u de [documentatie][23] doornemen om andere functies van deze [PDF Java-bibliotheek][2] te ontdekken. Ten slotte schrijft [conholdate.com][23] consequent nieuwe blogposts. Blijf daarom op de hoogte voor de laatste updates.

Een vraag stellen

Als u vragen heeft, kunt u ons schrijven op het [forum][24].

Zie ook