
- [Java API om tekst en afbeeldingen uit PDF-documenten te extraheren][2]
- [Tekst extraheren uit PDF-documenten met Java][3]
- [Tekst uit specifieke pagina’s van een PDF-document extraheren met Java][4]
- [Afbeeldingen ophalen uit PDF-documenten met Java][5]
- [Afbeeldingen extraheren van specifieke pagina’s van een PDF-document met Java][6]
- [Afbeeldingen uitpakken en opslaan in bestanden met Java][7]
Java API om tekst en afbeeldingen uit PDF-documenten te extraheren
Voor het extraheren van tekst en afbeeldingen uit PDF-documenten gebruiken we [GroupDocs.Parser for Java][8] API. Hiermee kunnen onbewerkte, geformatteerde en gestructureerde tekst, metadata en afbeeldingen worden geëxtraheerd uit bestanden van de [ondersteunde formaten][9]. [Download][10] de JAR van de API of voeg de volgende pom.xml-configuratie toe in een op Maven gebaseerde Java-toepassing.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.3</version>
</dependency>
Extraheer tekst uit PDF-documenten met Java
We kunnen elk PDF-document ontleden en tekst extraheren door de onderstaande stappen te volgen:
- Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
- Roep vervolgens de methode [Parser.getText()][12] aan om tekst uit het geladen document te extraheren.
- Haal vervolgens resultaten op in het [TextReader][13] class-object.
- Roep ten slotte de methode [TextReader.readToEnd()][14] aan om alle tekens vanaf de huidige positie tot het einde van de tekstlezer te lezen en ze als één string terug te geven.
Het volgende codevoorbeeld laat zien hoe u met Java tekst uit een PDF-bestand kunt extraheren.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and extract text. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf"); // Extract a text into the reader try (TextReader reader = parser.getText()) { // Print a text from the document // If text extraction isn't supported, a reader is null System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); } Extraheer tekst uit PDF-documenten met Java
Extraheer tekst van een specifieke pagina van een PDF-document met behulp van Java
U kunt een PDF-document ontleden en tekst van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:
- Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
- Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
- Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
- Roep daarna de methode [Parser.getText()][12] aan met pagina-index om tekst van die specifieke pagina te extraheren en resultaten te krijgen in het klasseobject [TextReader][13].
- Toon ten slotte de resultaten door de methode [TextReader.readToEnd()][14] aan te roepen om de geëxtraheerde tekst te lezen.
Het volgende codevoorbeeld laat zien hoe u met Java tekst van een specifieke pagina kunt extraheren.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and extract text from a specific page. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\sample.pdf"); // Get the document info IDocumentInfo documentInfo = parser.getDocumentInfo(); // Check if the document has pages if (documentInfo == null || documentInfo.getRawPageCount() == 0) { System.out.println("Document hasn't pages."); return; } // Extract a text into the reader try (TextReader reader = parser.getText(1)) { // Print a text from the document // If text extraction isn't supported, a reader is null System.out.println(reader.readToEnd()); }
Haal afbeeldingen op uit PDF-documenten met Java
We kunnen elk PDF-document ontleden en afbeeldingen extraheren door de onderstaande stappen te volgen:
- Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
- Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling van [PageImageArea][20]-objecten uit het geladen document.
- Controleer vervolgens of de verzameling niet null is.
- Herhaal daarna alle gevonden afbeeldingen.
- Toon ten slotte de details van de afbeeldingen.
Het volgende codevoorbeeld laat zien hoe u afbeeldingsdetails kunt ophalen uit een PDF-bestand met behulp van Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and get images. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Extract images Iterable<PageImageArea> images = parser.getImages(); // Check if images extraction is supported if (images == null) { System.out.println("Images extraction isn't supported"); return; } // Iterate over images for (PageImageArea image : images) { // Print a page index, rectangle and image type: System.out.println("Page: " + image.getPage().getIndex()); System.out.println("Image Rectangle: " + image.getRectangle()); System.out.println("Image Filetype: " + image.getFileType()); System.out.println("----------------------------------------"); } Haal afbeeldingen op uit PDF-documenten met Java
Extraheer afbeeldingen van een specifieke pagina van een PDF-document met behulp van Java
We kunnen afbeeldingen van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:
- Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
- Verkrijg vervolgens documentinformatie met behulp van de [Parser.getDocumentInfo()][15] methode.
- Controleer vervolgens of [IDocumentInfo.getPageCount()][16] niet nul is.
- Roep daarna de methode [Parser.getImages()][21] aan met pagina-index om afbeeldingen van die specifieke pagina te extraheren.
- Herhaal ten slotte alle gevonden afbeeldingen en toon details.
Het volgende codevoorbeeld laat zien hoe u met Java afbeeldingen van een specifieke pagina kunt extraheren.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to parse a PDF and get images from a specific page. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Get the document info IDocumentInfo documentInfo = parser.getDocumentInfo(); // Check if the document has pages if (documentInfo.getPageCount() == 0) { System.out.println("Document hasn't pages."); return; } int pageIndex = 1; // Iterate over images // We ignore null-checking as we have checked images extraction feature support earlier for (PageImageArea image : parser.getImages(pageIndex)) { // Print a page index, rectangle and image type: System.out.println("Page: " + image.getPage().getIndex()); System.out.println("Image Rectangle: " + image.getRectangle()); System.out.println("Image Filetype: " + image.getFileType()); System.out.println("----------------------------------------"); }
Afbeeldingen extraheren en opslaan in bestanden met behulp van Java
We kunnen de geëxtraheerde afbeeldingen ook opslaan door de onderstaande stappen te volgen:
- Laad eerst het PDF-bestand met behulp van de klasse [Parser][11].
- Roep vervolgens de methode [Parser.getImages()][19] aan en verkrijg een verzameling PageImageArea-objecten uit het geladen document.
- Maak vervolgens een instantie van de klasse [ImageOptions][22] en stel het afbeeldingsformaat in.
- Herhaal daarna alle gevonden afbeeldingen.
- Sla ten slotte op met de methode [save()][23]. Het neemt het uitvoerbestandspad en ImageOptions als argumenten.
Het volgende codevoorbeeld laat zien hoe u afbeeldingen kunt extraheren en opslaan in bestanden met behulp van Java.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// This code example demonstrates how to extract and images in directory. // Create an instance of Parser class Parser parser = new Parser("D:\\Files\\Parser\\images.pdf"); // Extract images from document Iterable<PageImageArea> images = parser.getImages(); // Check if images extraction is supported if (images == null) { System.out.println("Page images extraction isn't supported"); return; } // Create the options to save images in PNG format ImageOptions options = new ImageOptions(ImageFormat.Png); int imageNumber = 0; // Iterate over images for (PageImageArea image : images) { // Save the image to the PNG file image.save(String.format("D:\\Files\\Parser\\Images\\%d.png", imageNumber), options); imageNumber++; } Afbeeldingen extraheren en opslaan in bestanden met behulp van Java
Ontvang een gratis licentie
U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][24] aan te vragen.
Conclusie
In dit artikel hebben we geleerd hoe u:
- haal alle tekst uit een heel PDF-document of specifieke pagina’s van het document met behulp van Java;
- extraheer afbeeldingen programmatisch uit een PDF-bestand;
- bewaar geëxtraheerde afbeeldingen op een lokale schijf. Bovendien kunt u meer leren over GroupDocs.Parser voor Java API met behulp van de [documentatie][25]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][26].
Zie ook
- [Tekst uit Word-documenten extraheren met Java][27] [1]: https://docs.fileformat.com/pdf/ [2]: #Java-API-to-Extract-Text-and-Images-from-PDF-Documents [3]: #Extract-Text-from-PDF-Documents-using-Java [4]: #Extract-Text-from-Specific-Page-of-a-PDF-Document-using-Java [5]: #Get-Images-from-PDF-Documents-using-Java [6]: #Extract-Images-from-Specific-Page-of-a-PDF-Document-using-Java [7]: #Extract-and-Save-Images-to-Files-using-Java [8]: https://products.groupdocs.com/parser/java/ [9]: https://docs.groupdocs.com/parser/java/supported-document-formats/ [10]: https://releases.groupdocs.com/parser/java/ [11]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser [12]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getText() [13]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/TextReader [14]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/TextReader#readToEnd() [15]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getDocumentInfo() [16]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/IDocumentInfo#getPageCount() [17]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/Features#isText() [18]: https://docs.groupdocs.com/parser/java/get-supported-features/ [19]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getImages() [20]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/PageImageArea [21]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser/Parser#getImages(int) [22]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.options/ImageOptions [23]: https://apireference.groupdocs.com/parser/java/com.groupdocs.parser.data/PageImageArea#save(java.lang.String,%20com.groupdocs.parser.options.ImageOptions) [24]: https://purchase.groupdocs.com/temporary-license [25]: https://docs.groupdocs.com/parser/java/ [26]: https://forum.groupdocs.com/c/parser/17 [27]: https://blog.conholdate.com/nl/total/jpg-text-scanner/