Extraheer tekst uit DOCX

De meeste gegevens worden weergegeven als visuele tekst in documenten, afbeeldingen en op internet, dus extractie van tekstgegevens is soms het meest noodzakelijke. Mogelijk moet u tekst of afbeeldingen extraheren uit Word- of PDF-documenten. Als C#-ontwikkelaar kunt u eenvoudig programmatisch tekst uit documenten extraheren. In dit artikel leer je hoe je tekst kunt extraheren uit de DOC- of DOCX-documenten met behulp van C#. In dit artikel worden de volgende onderwerpen besproken/behandeld:

  • [C# API voor tekstextractie][2]
  • [Tekst uit DOCX extraheren met C#][3]
  • [Krijg geformatteerde tekst van DOCX met behulp van C#][4]
  • [Opgemaakte tekst uit pagina’s extraheren met C#][5]

C# API voor tekstextractie

Ik zal [GroupDocs.Parser for .NET][6] API gebruiken voor het extraheren van een tekst uit [DOCX][7] documenten. Het maakt het mogelijk om tekst, metadata en afbeeldingen te extraheren uit ondersteunde bestandsformaatdocumenten zoals Word, PDF, Excel en Powerpoint. Het ondersteunt ook de extractie van onbewerkte, opgemaakte en gestructureerde tekst, evenals metadata uit de bestanden van ondersteunde formaten. U kunt de DLL van de API [downloaden][8] of installeren met de [NuGet][9].

Install-Package GroupDocs.Parser

Extraheer tekst uit DOCX met C#

U kunt eenvoudig elk document ontleden en tekst extraheren door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Parser][10]
  • Geef het bestandspad op
  • Roep de methode [GetText][11] van de klasse Parser aan om tekst te extraheren
  • Krijg resultaten in het klasseobject TextReader
  • Resultaten weergeven door de methode ReadToEnd van de klasse TextReader aan te roepen Het volgende codevoorbeeld laat zien hoe tekst uit een DOCX-bestand kan worden geëxtraheerd met C#.
    Extraheer tekst uit DOCX met C#

    Extraheer tekst uit DOCX met C#

De klasse [Parser][10] is de hoofdklasse die ontledingsfunctionaliteit en extractie van tekst en afbeeldingen biedt. Ik heb het invoerbestandspad opgegeven in de [constructor][13] van deze klasse. De methode [GetText()][14] van de klasse Parser extraheert een tekst uit het opgegeven document.

Krijg geformatteerde tekst van DOCX met behulp van C#

U kunt eenvoudig een Word-document ontleden en tekst extraheren zonder de stijlopmaak te verliezen door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Parser][10]
  • Geef het bestandspad op
  • Definieer [FormattedTextOptions][15]
  • Stel [FormattedTextMode][16] in op HTML
  • Roep de methode [GetFormattedText][17] van de klasse Parser aan om tekst te extraheren
  • Krijg resultaten in het klasseobject TextReader
  • Toon resultaten door de ReadToEnd-methode van de klasse TextReader aan te roepen Het volgende codevoorbeeld laat zien hoe opgemaakte tekst uit een DOCX-bestand kan worden geëxtraheerd met behulp van C#.
    Extraheer geformatteerde tekst uit DOCX met behulp van C#

    Extraheer geformatteerde tekst uit DOCX met behulp van C#

De klasse [FormattedTextOptions][15] biedt de opties die worden gebruikt voor het extraheren van opgemaakte tekst, zoals de extractie [Mode][16]. Ik heb de extractiemodus ingesteld op de HTML die een documenttekst extraheert als HTML . De methode [GetFormattedText()][19] van de klasse Parser extraheert een opgemaakte tekst uit het opgegeven document.

Extraheer geformatteerde tekst uit Pages met C#

U kunt eenvoudig een Word-document ontleden en opgemaakte tekst uit een specifieke pagina van het document extraheren door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Parser][10]
  • Geef het bestandspad op
  • Controleer of de [FormattedText][20] waar is
  • Roep de [GetDocumentInfo][21] aan om het aantal pagina’s te krijgen
  • Controleer of de [PageCount][22] niet nul is
  • Definieer [FormattedTextOptions][15]
  • Stel [FormattedTextMode][16] in op HTML
  • Roep de methode [GetFormattedText][17] aan voor elke pagina-index om tekst te extraheren
  • Krijg resultaten in het klasseobject TextReader
  • Toon resultaten door de ReadToEnd-methode van de klasse TextReader aan te roepen Het volgende codevoorbeeld laat zien hoe opgemaakte tekst één voor één uit pagina’s kan worden geëxtraheerd met behulp van C#.
    Extraheer geformatteerde tekst uit Pages met C#

    Extraheer geformatteerde tekst uit Pages met C#

De klasse Parser biedt de eigenschap [Features][24] die de klasse [Features][25] vertegenwoordigt. Het kan worden gebruikt om te controleren of een functie wordt ondersteund voor het document. U kunt meer lezen over ondersteunde functies in het gedeelte “[Ontvang ondersteunde functies][26]”.

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][27] aan te vragen.

Conclusie

In dit artikel heb je geleerd tekst uit Word-documenten te extraheren met C#. U kunt meer leren over GroupDocs.Parser voor .NET API met behulp van de [documentatie][28]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][29].

Zie ook