Extraheer tekst en afbeeldingen uit PDF-documenten met Java
[PDF][1] is het meest gebruikte formaat voor digitale documenten. We kunnen PDF-documenten ontleden en er programmatisch tekst en afbeeldingen uit extraheren. Het kan in verschillende gevallen nuttig zijn, zoals bij tekstanalyse, het ophalen van informatie, documentconversie, enz. In dit artikel leren we hoe we tekst en afbeeldingen uit PDF-documenten kunnen extraheren met Java. In dit artikel komen de volgende onderwerpen aan bod:

  • [Java API om tekst en afbeeldingen uit PDF-documenten te extraheren][2]
  • [Tekst extraheren uit PDF-documenten met Java][3]
  • [Tekst uit specifieke pagina’s van een PDF-document extraheren met Java][4]
  • [Afbeeldingen ophalen uit PDF-documenten met Java][5]
  • [Afbeeldingen extraheren van specifieke pagina’s van een PDF-document met Java][6]
  • [Afbeeldingen uitpakken en opslaan in bestanden met Java][7]

Java API om tekst en afbeeldingen uit PDF-documenten te extraheren

Voor het extraheren van tekst en afbeeldingen uit PDF-documenten gebruiken we [GroupDocs.Parser for Java][8] API. Hiermee kunnen onbewerkte, geformatteerde en gestructureerde tekst, metadata en afbeeldingen worden geëxtraheerd uit bestanden van de [ondersteunde formaten][9]. [Download][10] de JAR van de API of voeg de volgende pom.xml-configuratie toe in een op Maven gebaseerde Java-toepassing.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Extraheer tekst uit PDF-documenten met Java

We kunnen elk PDF-document ontleden en tekst extraheren door de onderstaande stappen te volgen:

  • Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
  • Roep vervolgens de methode [Parser.getText()][12] aan om tekst uit het geladen document te extraheren.
  • Haal vervolgens resultaten op in het [TextReader][13] class-object.
  • Roep ten slotte de methode [TextReader.readToEnd()][14] aan om alle tekens vanaf de huidige positie tot het einde van de tekstlezer te lezen en ze als één string terug te geven. Het volgende codevoorbeeld laat zien hoe u met Java tekst uit een PDF-bestand kunt extraheren.
    Extraheer tekst uit PDF-documenten met Java

    Extraheer tekst uit PDF-documenten met Java

Extraheer tekst van een specifieke pagina van een PDF-document met behulp van Java

U kunt een PDF-document ontleden en tekst van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
  • Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
  • Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
  • Roep daarna de methode [Parser.getText()][12] aan met pagina-index om tekst van die specifieke pagina te extraheren en resultaten te krijgen in het klasseobject [TextReader][13].
  • Toon ten slotte de resultaten door de methode [TextReader.readToEnd()][14] aan te roepen om de geëxtraheerde tekst te lezen. Het volgende codevoorbeeld laat zien hoe u met Java tekst van een specifieke pagina kunt extraheren. De API maakt het ook mogelijk om te controleren of het document de tekstextractiefunctie ondersteunt. Hiervoor kunnen we de eigenschap [Parser.getFeatures().isText()][17] gebruiken. Lees meer over [ondersteunde functies][18].

Haal afbeeldingen op uit PDF-documenten met Java

We kunnen elk PDF-document ontleden en afbeeldingen extraheren door de onderstaande stappen te volgen:

  • Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
  • Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling van [PageImageArea][20]-objecten uit het geladen document.
  • Controleer vervolgens of de verzameling niet null is.
  • Herhaal daarna alle gevonden afbeeldingen.
  • Toon ten slotte de details van de afbeeldingen. Het volgende codevoorbeeld laat zien hoe u afbeeldingsdetails kunt ophalen uit een PDF-bestand met behulp van Java.
    Haal afbeeldingen op uit PDF-documenten met Java

    Haal afbeeldingen op uit PDF-documenten met Java

Extraheer afbeeldingen van een specifieke pagina van een PDF-document met behulp van Java

We kunnen afbeeldingen van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
  • Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
  • Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
  • Roep daarna de methode [Parser.getImages()][21] aan met pagina-index om afbeeldingen van die specifieke pagina te extraheren.
  • Herhaal ten slotte alle gevonden afbeeldingen en toon details. Het volgende codevoorbeeld laat zien hoe u met Java afbeeldingen van een specifieke pagina kunt extraheren.

Afbeeldingen extraheren en opslaan in bestanden met behulp van Java

We kunnen de geëxtraheerde afbeeldingen ook opslaan door de onderstaande stappen te volgen:

  • Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
  • Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling PageImageArea-objecten uit het geladen document.
  • Maak vervolgens een instantie van de klasse [ImageOptions][22] en stel het afbeeldingsformaat in.
  • Herhaal daarna alle gevonden afbeeldingen.
  • Sla ten slotte op met de methode [save()][23]. Het neemt het uitvoerbestandspad en ImageOptions als argumenten. Het volgende codevoorbeeld laat zien hoe u afbeeldingen kunt extraheren en opslaan in bestanden met behulp van Java.
    Afbeeldingen extraheren en opslaan in bestanden met behulp van Java

    Afbeeldingen extraheren en opslaan in bestanden met behulp van Java

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][24] aan te vragen.

Conclusie

In dit artikel hebben we geleerd hoe u:

  • haal alle tekst uit een heel PDF-document of specifieke pagina’s van het document met behulp van Java;
  • extraheer afbeeldingen programmatisch uit een PDF-bestand;
  • bewaar geëxtraheerde afbeeldingen op een lokale schijf. Bovendien kunt u meer leren over GroupDocs.Parser voor Java API met behulp van de [documentatie][25]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][26].

Zie ook