Extraheer tekst en afbeeldingen uit PDF-documenten met Java

[PDF][1] is het meest gebruikte formaat voor digitale documenten. We kunnen PDF-documenten ontleden en er programmatisch tekst en afbeeldingen uit extraheren. Het kan in verschillende gevallen nuttig zijn, zoals bij tekstanalyse, het ophalen van informatie, documentconversie, enz. In dit artikel leren we hoe we tekst en afbeeldingen uit PDF-documenten kunnen extraheren met Java. In dit artikel komen de volgende onderwerpen aan bod:

[Java API om tekst en afbeeldingen uit PDF-documenten te extraheren][2]
[Tekst extraheren uit PDF-documenten met Java][3]
[Tekst uit specifieke pagina’s van een PDF-document extraheren met Java][4]
[Afbeeldingen ophalen uit PDF-documenten met Java][5]
[Afbeeldingen extraheren van specifieke pagina’s van een PDF-document met Java][6]
[Afbeeldingen uitpakken en opslaan in bestanden met Java][7]

Java API om tekst en afbeeldingen uit PDF-documenten te extraheren

Voor het extraheren van tekst en afbeeldingen uit PDF-documenten gebruiken we [GroupDocs.Parser for Java][8] API. Hiermee kunnen onbewerkte, geformatteerde en gestructureerde tekst, metadata en afbeeldingen worden geëxtraheerd uit bestanden van de [ondersteunde formaten][9]. [Download][10] de JAR van de API of voeg de volgende pom.xml-configuratie toe in een op Maven gebaseerde Java-toepassing.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>

<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Extraheer tekst uit PDF-documenten met Java

We kunnen elk PDF-document ontleden en tekst extraheren door de onderstaande stappen te volgen:

Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
Roep vervolgens de methode [Parser.getText()][12] aan om tekst uit het geladen document te extraheren.
Haal vervolgens resultaten op in het [TextReader][13] class-object.

Roep ten slotte de methode [TextReader.readToEnd()][14] aan om alle tekens vanaf de huidige positie tot het einde van de tekstlezer te lezen en ze als één string terug te geven. Het volgende codevoorbeeld laat zien hoe u met Java tekst uit een PDF-bestand kunt extraheren.

	// This code example demonstrates how to parse a PDF and extract text.
	// Create an instance of Parser class
	Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf");

	// Extract a text into the reader
	try (TextReader reader = parser.getText()) {
	// Print a text from the document
	// If text extraction isn't supported, a reader is null
	System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
	}

view raw ExtractTextAndImagesPDF_Java_ExtractText.java hosted with ❤ by GitHub

Extraheer tekst uit PDF-documenten met Java

Extraheer tekst van een specifieke pagina van een PDF-document met behulp van Java

U kunt een PDF-document ontleden en tekst van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:

Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
Roep daarna de methode [Parser.getText()][12] aan met pagina-index om tekst van die specifieke pagina te extraheren en resultaten te krijgen in het klasseobject [TextReader][13].

Toon ten slotte de resultaten door de methode [TextReader.readToEnd()][14] aan te roepen om de geëxtraheerde tekst te lezen. Het volgende codevoorbeeld laat zien hoe u met Java tekst van een specifieke pagina kunt extraheren.

	// This code example demonstrates how to parse a PDF and extract text from a specific page.
	// Create an instance of Parser class
	Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf");

	// Get the document info
	IDocumentInfo documentInfo = parser.getDocumentInfo();

	// Check if the document has pages
	if (documentInfo == null \|\| documentInfo.getRawPageCount() == 0) {
	System.out.println("Document hasn't pages.");
	return;
	}

	// Extract a text into the reader
	try (TextReader reader = parser.getText(1)) {
	// Print a text from the document
	// If text extraction isn't supported, a reader is null
	System.out.println(reader.readToEnd());
	}

view raw ExtractTextAndImagesPDF_Java_ExtractTextFromAPage.java hosted with ❤ by GitHub

De API maakt het ook mogelijk om te controleren of het document de tekstextractiefunctie ondersteunt. Hiervoor kunnen we de eigenschap [Parser.getFeatures().isText()][17] gebruiken. Lees meer over [ondersteunde functies][18].

Haal afbeeldingen op uit PDF-documenten met Java

We kunnen elk PDF-document ontleden en afbeeldingen extraheren door de onderstaande stappen te volgen:

Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling van [PageImageArea][20]-objecten uit het geladen document.
Controleer vervolgens of de verzameling niet null is.
Herhaal daarna alle gevonden afbeeldingen.

Toon ten slotte de details van de afbeeldingen. Het volgende codevoorbeeld laat zien hoe u afbeeldingsdetails kunt ophalen uit een PDF-bestand met behulp van Java.

	// This code example demonstrates how to parse a PDF and get images.
	// Create an instance of Parser class
	Parser parser = new Parser("D:\\Files\\Parser\\images.pdf");

	// Extract images
	Iterable<PageImageArea> images = parser.getImages();

	// Check if images extraction is supported
	if (images == null) {
	System.out.println("Images extraction isn't supported");
	return;
	}

	// Iterate over images
	for (PageImageArea image : images) {
	// Print a page index, rectangle and image type:
	System.out.println("Page: " + image.getPage().getIndex());
	System.out.println("Image Rectangle: " + image.getRectangle());
	System.out.println("Image Filetype: " + image.getFileType());
	System.out.println("----------------------------------------");
	}

view raw ExtractTextAndImagesPDF_Java_GetImages.java hosted with ❤ by GitHub

Haal afbeeldingen op uit PDF-documenten met Java

Extraheer afbeeldingen van een specifieke pagina van een PDF-document met behulp van Java

We kunnen afbeeldingen van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:

Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
Roep daarna de methode [Parser.getImages()][21] aan met pagina-index om afbeeldingen van die specifieke pagina te extraheren.

Herhaal ten slotte alle gevonden afbeeldingen en toon details. Het volgende codevoorbeeld laat zien hoe u met Java afbeeldingen van een specifieke pagina kunt extraheren.

	// This code example demonstrates how to parse a PDF and get images from a specific page.
	// Create an instance of Parser class
	Parser parser = new Parser("D:\\Files\\Parser\\images.pdf");

	// Get the document info
	IDocumentInfo documentInfo = parser.getDocumentInfo();

	// Check if the document has pages
	if (documentInfo.getPageCount() == 0) {
	System.out.println("Document hasn't pages.");
	return;
	}

	int pageIndex = 1;

	// Iterate over images
	// We ignore null-checking as we have checked images extraction feature support earlier
	for (PageImageArea image : parser.getImages(pageIndex)) {
	// Print a page index, rectangle and image type:
	System.out.println("Page: " + image.getPage().getIndex());
	System.out.println("Image Rectangle: " + image.getRectangle());
	System.out.println("Image Filetype: " + image.getFileType());
	System.out.println("----------------------------------------");
	}

view raw ExtractTextAndImagesPDF_Java_GetImagesFromPage.java hosted with ❤ by GitHub

Afbeeldingen extraheren en opslaan in bestanden met behulp van Java

We kunnen de geëxtraheerde afbeeldingen ook opslaan door de onderstaande stappen te volgen:

Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling PageImageArea-objecten uit het geladen document.
Maak vervolgens een instantie van de klasse [ImageOptions][22] en stel het afbeeldingsformaat in.
Herhaal daarna alle gevonden afbeeldingen.

Sla ten slotte op met de methode [save()][23]. Het neemt het uitvoerbestandspad en ImageOptions als argumenten. Het volgende codevoorbeeld laat zien hoe u afbeeldingen kunt extraheren en opslaan in bestanden met behulp van Java.

	// This code example demonstrates how to extract and images in directory.
	// Create an instance of Parser class
	Parser parser = new Parser("D:\\Files\\Parser\\images.pdf");

	// Extract images from document
	Iterable<PageImageArea> images = parser.getImages();

	// Check if images extraction is supported
	if (images == null) {
	System.out.println("Page images extraction isn't supported");
	return;
	}

	// Create the options to save images in PNG format
	ImageOptions options = new ImageOptions(ImageFormat.Png);

	int imageNumber = 0;

	// Iterate over images
	for (PageImageArea image : images)
	{
	// Save the image to the PNG file
	image.save(String.format("D:\\Files\\Parser\\Images\\%d.png", imageNumber), options);
	imageNumber++;
	}

view raw ExtractTextAndImagesPDF_Java_SaveImages.java hosted with ❤ by GitHub

Afbeeldingen extraheren en opslaan in bestanden met behulp van Java

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][24] aan te vragen.

Conclusie

In dit artikel hebben we geleerd hoe u:

haal alle tekst uit een heel PDF-document of specifieke pagina’s van het document met behulp van Java;
extraheer afbeeldingen programmatisch uit een PDF-bestand;
bewaar geëxtraheerde afbeeldingen op een lokale schijf. Bovendien kunt u meer leren over GroupDocs.Parser voor Java API met behulp van de [documentatie][25]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][26].

Zie ook

[Tekst uit Word-documenten extraheren met Java][27] [1]: https://docs.fileformat.com/pdf/ [2]: #Java-API-to-Extract-Text-and-Images-from-PDF-Documents [3]: #Extract-Text-from-PDF-Documents-using-Java [4]: #Extract-Text-from-Specific-Page-of-a-PDF-Document-using-Java [5]: #Get-Images-from-PDF-Documents-using-Java [6]: #Extract-Images-from-Specific-Page-of-a-PDF-Document-using-Java [7]: #Extract-and-Save-Images-to-Files-using-Java [8]: https://products.groupdocs.com/parser/java/ [9]: https://docs.groupdocs.com/parser/java/supported-document-formats/ [10]: https://releases.groupdocs.com/parser/java/ [11]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser [12]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getText() [13]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/TextReader [14]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/TextReader#readToEnd() [15]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getDocumentInfo() [16]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/IDocumentInfo#getPageCount() [17]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/Features#isText() [18]: https://docs.groupdocs.com/parser/java/get-supported-features/ [19]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getImages() [20]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/PageImageArea [21]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getImages(int) [22]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/ImageOptions [23]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/PageImageArea#save(java.lang.String,%20com.groupdocs.parser.options.ImageOptions) [24]: https://purchase.groupdocs.com/temporary-license [25]: https://docs.groupdocs.com/parser/java/ [26]: https://forum.groupdocs.com/c/parser/17 [27]: https://blog.conholdate.com/nl/total/jpg-text-scanner/

Java API om tekst en afbeeldingen uit PDF-documenten te extraheren#

Extraheer tekst uit PDF-documenten met Java#

Extraheer tekst van een specifieke pagina van een PDF-document met behulp van Java#

Haal afbeeldingen op uit PDF-documenten met Java#

Extraheer afbeeldingen van een specifieke pagina van een PDF-document met behulp van Java#

Afbeeldingen extraheren en opslaan in bestanden met behulp van Java#

Ontvang een gratis licentie#

Conclusie#

Zie ook#