Extraheer tekst uit Word-documenten met behulp van Java

In bepaalde gevallen moet u mogelijk voor verschillende doeleinden tekst uit uw Word-documenten extraheren. Als Java-ontwikkelaar kunt u eenvoudig tekst uit [DOC][2]- of [DOCX][3]-bestanden programmatisch extraheren. In dit artikel leert u hoe u tekst uit Word-documenten extraheert met Java. In dit artikel worden de volgende onderwerpen besproken/behandeld:

  • [Java API om tekst uit Word-documenten te extraheren][4]
  • [Tekst uit Word-documenten extraheren met Java][5]
  • [Tekst uit specifieke pagina’s van een Word-document extraheren met Java][6]
  • [Haal hoogtepunten uit Word-documenten met Java][7]
  • [Extraheer geformatteerde tekst uit DOCX met behulp van Java][8]
  • [Tekst extraheren op inhoudsopgave met Java][9]

Java API om tekst uit Word-documenten te extraheren

Voor het extraheren van tekst uit de DOC- of DOCX-bestanden gebruiken we [GroupDocs.Parser for Java][10] API. Hiermee kunnen tekst, metadata en afbeeldingen worden geëxtraheerd uit populaire bestandsindelingen van [Word][11], [PDF][12], [Excel][13] en [PowerPoint][14]. Het ondersteunt ook de extractie van onbewerkte, opgemaakte en gestructureerde tekst uit de bestanden van [ondersteunde formaten][15]. Je kunt de JAR van de API [downloaden][16] of gewoon de volgende pom.xml configuratie toevoegen aan je op Maven gebaseerde Java-applicatie om de onderstaande codevoorbeelden te proberen.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>21.2</version> 
</dependency>

Extraheer tekst uit Word-documenten met Java

U kunt elk Word-document ontleden en tekst extraheren door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het DOCX-bestand met behulp van de klasse [Parser][17].
  • Roep vervolgens de methode [Parser.getText()][18] aan om tekst uit het geladen document te extraheren.
  • Krijg resultaten van de methode [Parser.getText()][18] in het klasseobject [TextReader][19].
  • Roep ten slotte de methode TextReader.readToEnd() _ _ aan om alle tekens van de huidige positie tot het einde van de tekstlezer te lezen en ze als één string terug te geven. Het volgende codevoorbeeld laat zien hoe tekst uit een DOCX-bestand kan worden geëxtraheerd met Java.
    Extraheer tekst uit Word-documenten met behulp van Java

    Extraheer tekst uit Word-documenten met behulp van Java

Extraheer tekst uit specifieke pagina’s van een Word-document met behulp van Java

U kunt een Word-document ontleden en tekst van een specifieke pagina extraheren door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het DOCX-bestand met behulp van de klasse [Parser][17].
  • Gebruik vervolgens [Parser.getFeatures().isText()][21] om te controleren of het document de tekstextractiefunctie ondersteunt. Lees meer over [ondersteunde functies][22].
  • Roep nu de methode [Parser.getDocumentInfo()][23] aan om de algemene informatie over het document te krijgen. Zoals bestandstype, aantal pagina’s, grootte, enz.
  • Krijg resultaten van de methode [Parser.getDocumentInfo()][23] in het interface-object [IDocumentInfo][24].
  • Controleer vervolgens of [IDocumentInfo.getPageCount()][25] niet nul is. Deze methode retourneert het totale aantal documentpagina’s.
  • Herhaal alle pagina’s en roep de methode [Parser.getText()][26] aan voor elke pagina-index om tekst te extraheren en resultaten te krijgen in het klasseobject [TextReader][19].
  • Toon ten slotte de resultaten door de methode [TextReader.readToEnd()][27] aan te roepen om de geëxtraheerde tekst te lezen. Het volgende codevoorbeeld laat zien hoe u tekst één voor één uit pagina’s kunt extraheren met behulp van Java.
    Extraheer tekst van specifieke pagina's van een document met behulp van Java

    Extraheer tekst van specifieke pagina’s van een document met behulp van Java

Hoogtepunten ophalen uit Word-documenten met Java

Een highlight is een deel van de tekst dat meestal wordt gebruikt om de context van de gevonden tekst in de zoekfunctie uit te leggen. U kunt een markering uit een document extraheren door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het DOCX-bestand met behulp van de klasse [Parser][17].
  • Maak een instantie van het klasseobject [HighlightOptions][29] en geef de maximale lengte als invoerparameter door aan de constructor om een markering met een vaste lengte te extraheren.
  • Roep vervolgens de methode [Parser.getHighlight()][30] aan met startpositie en klasseobject [HighlightOptions][29] om een markering uit het document te extraheren als een object van de klasse [HighlightItem][31].
  • Roep ten slotte de methoden [Highlight.getPosition()][32] en [HighlightItem.getText()][33] aan om de positie en tekst van de markering te krijgen. Het volgende codevoorbeeld laat zien hoe u met Java een markering uit een document haalt.
At 0: Overview

Extraheer geformatteerde tekst uit DOCX met behulp van Java

U kunt Word-documenten ontleden en tekst extraheren zonder de stijlopmaak te verliezen door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het DOCX-bestand met behulp van de klasse [Parser][17].
  • Definieer de [FormattedTextOptions][34] en stel de [FormattedTextMode][35] in op HTML. Hiermee kunt u tekst in HTML-indeling uit het document extraheren.
  • Roep vervolgens de methode [Parser.getFormattedText()][26] aan om opgemaakte tekst te extraheren.
  • Krijg resultaten van de methode [Parser.getText()][18] in het klasseobject [TextReader][19].
  • Roep ten slotte de methode [TextReader.readToEnd()][27] aan om alle tekst te lezen. Het volgende codevoorbeeld laat zien hoe opgemaakte tekst uit een DOCX-bestand kan worden geëxtraheerd met behulp van Java.
    Extraheer geformatteerde tekst uit DOCX met behulp van Java

    Extraheer geformatteerde tekst uit DOCX met behulp van Java

Extraheer tekst op inhoudsopgave met behulp van Java

U kunt tekst uit het document extraheren aan de hand van de inhoudsopgave door de onderstaande eenvoudige stappen te volgen:

  • Laad eerst het DOCX-bestand met behulp van de klasse [Parser][17].
  • Roep vervolgens de methode [Parser.getToc()][37] aan om een inhoudsopgave te extraheren als een verzameling [TocItem][38] klasse-objecten. Het [TocItem][38] vertegenwoordigt het item dat wordt gebruikt in de functionaliteit voor het extraheren van de inhoudsopgave.
  • Controleer nu of de verzameling niet null is.
  • Herhaal vervolgens de verzameling van TocItem en roep de methode [TocItem.extractText()][39] aan om tekst te extraheren uit het document waarnaar het object [TocItem][38] verwijst.
  • Krijg resultaten in het klasseobject [TextReader][19].
  • Roep ten slotte de methode [TextReader.readToEnd()][27] aan om alle tekst te lezen. Het volgende codevoorbeeld laat zien hoe u met Java tekst op basis van de inhoudsopgave kunt extraheren uit Word-documenten.
    Extraheer tekst op inhoudsopgave met behulp van Java

    Extraheer tekst op inhoudsopgave met behulp van Java

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][41] aan te vragen.

Conclusie

In dit artikel heb je geleerd tekst uit Word-documenten te extraheren met Java. Bovendien heb je gezien hoe je geformatteerde tekst programmatisch uit een DOCX-bestand kunt extraheren. In dit artikel wordt ook uitgelegd hoe je tekst kunt extraheren via de inhoudsopgave** en hoe je een markering uit een document haalt. Bovendien kunt u meer leren over GroupDocs.Parser voor Java API met behulp van de [documentatie][42]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][43].

Zie ook