Zoeken naar een woord in PDF met behulp van Java

Mogelijk moet u naar een specifieke tekst zoeken in Word- of PDF-documenten. Als Java-ontwikkelaar kunt u programmatisch elke tekst in PDF-documenten doorzoeken. In dit artikel leert u hoe u met Java naar een woord kunt zoeken in PDF-documenten. In dit artikel worden de volgende onderwerpen besproken/behandeld:

  • [Java API voor het zoeken naar tekst][2]
  • [Tekst zoeken in PDF met Java][3]

Java API voor het zoeken naar tekst

Ik zal [GroupDocs.Search for Java][4] API gebruiken om te zoeken in [PDF][5] documenten. Hiermee kunt u tekstzoekacties uitvoeren in alle populaire documentindelingen zoals PDF, Word, Excel, PowerPoint en nog veel meer. Met deze API kunt u eenvoudig uw vereiste informatie ophalen uit bestanden, documenten, e-mails en archieven. Het stelt u ook in staat om meerdere indexen te creëren en samen te voegen. U kunt eenvoudige, Booleaanse, Reguliere expressie (Regex), Fuzzy en andere soorten zoekopdrachten gebruiken om snel en slim door indexen te zoeken.

Downloaden en configureren

Je kunt de JAR van de API [downloaden][6] of gewoon de volgende pom.xml configuratie toevoegen aan je op Maven gebaseerde Java-applicaties om de onderstaande codevoorbeelden te proberen.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>20.11</version> 
</dependency>

Zoek tekst in PDF met behulp van Java

U kunt eenvoudig elke tekst of een specifiek woord in uw PDF-documenten doorzoeken door de onderstaande eenvoudige stappen te volgen:

  • Maak een [Index][7]
  • Specificeer het pad naar de indexmap
  • Abonneer u op [indexevenementen][8]
  • Voeg bestanden toe aan Index door de methode [add][9] aan te roepen
  • Voer een zoekopdracht uit met behulp van de methode [zoeken][10].
  • Gebruik [SearchResult][11] en druk samenvatting af
  • Markeer de gezochte resultaten in de uitvoer met behulp van de methode [highlight][12]. Het volgende codevoorbeeld laat zien hoe u een woord uit een PDF-document kunt zoeken met Java. Het bovenstaande codevoorbeeld genereert de volgende uitvoer:
Documents found: 1
Total occurrences found: 6
	Document: C:\Files\Lorem ipsum.pdf
	Occurrences: 6
Generated HTML file can be opened with Internet browser.
The file can be found by the following path:
C:\Output\Highlighted.html
Zoeken naar een woord in een PDF-document met behulp van Java

Zoeken naar een woord in een PDF-document met behulp van Java

De index en indexgebeurtenis

De klasse [Index][7] is de hoofdklasse voor het indexeren van documenten en het doorzoeken ervan. Een index kan in het geheugen of op schijf worden gemaakt door de constructor van deze klasse aan te roepen. Ik heb het op schijf gemaakt zodat het opnieuw kan worden gebruikt. Om informatie over indexeringsfouten te ontvangen, heb ik me aangemeld voor het evenement [ErrorOccurred][8]. Het toont de fouten die zijn opgetreden tijdens het indexeren van de bestanden.

Voeg bestanden toe aan index

De methode [add][9] van de klasse Index voegt een bestand of alle bestanden in een map of submappen toe via een absoluut of relatief pad. Alle documenten op het opgegeven pad worden geïndexeerd.

Voer een zoekactie uit

De Index-klasse biedt verschillende [search][10]-methoden om de zoekbewerking uit te voeren. U kunt zoeken op eenvoudig trefwoord of door een [SearchQuery][14] te definiëren. De klasse [SearchResult][11] biedt details van een zoekresultaat dat overeenkomt met een zoekopdracht. Enkele methoden worden hier beschreven:

  • De methode [getOccurrenceCount]15 retourneert het totale aantal gevonden exemplaren
  • De methode getDocumentCount() levert het aantal documenten dat in de Index is gevonden
  • De methode [getFoundDocument(int)][16] retourneert de methode [FoundDocument][17]
  • De methode [FoundDocument.getOccurrenceCount()][18] retourneert het aantal gevonden exemplaren in het document

Markeer de zoekresultaten

De klasse [HtmlHighlighter][19] vergemakkelijkt het markeren van de zoekresultaten in een volledige documenttekst die is opgemaakt in HTML. De methode [highlight][12] van de klasse Index genereert HTML-uitvoer die de gevonden termen markeert. Meer details over “[Zoekresultaten markeren][20]” vindt u in de documentatie.

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][21] aan te vragen.

Conclusie

In dit artikel heb je geleerd hoe je met Java naar een woord in een PDF-document kunt zoeken. U kunt meer leren over GroupDocs.Search for Java API met behulp van de [documentatie][22]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][23].

Zie ook