Converteer PDF naar tekst in C#

Converteer PDF naar tekst in C#

Onlangs hebben we een aantal blogposts gepubliceerd, zoals [PDF converteren naar HTML][1] en [PDF naar afbeeldingen][2] programmatisch. In dit artikel leren we hoe we PDF naar tekst kunnen converteren in C# met behulp van een [.NET OCR-bibliotheek][3]. Als .NET-ontwikkelaar kunt u deze bibliotheek eenvoudig gebruiken om bestanden naar andere populaire bestandsindelingen te converteren. Daarnaast is er een uitgebreide reeks functies om het tekstextractieproces uit [PDF][4]-documenten te automatiseren. We zullen echter de stappen en het codefragment schrijven om de tekstextractie uit een gescand PDF-bestand te demonstreren. In dit artikel komen de volgende punten aan bod:

  • [.NET OCR-bibliotheekinstallatie][5]
  • [PDF naar tekst converteren in C#][6]
  • [Conversie van PDF naar tekst - geavanceerde opties][7]

Installatie van .NET OCR-bibliotheek

Deze bibliotheek is krachtig en biedt uitgebreide [documentatie][8] over ontwikkeling en gebruik. U kunt verschillende bestandsformaten snel en efficiënt converteren en verwerken. Om deze API in uw .NET-project te installeren, kunt u de DLL-bestanden [downloaden][9] of de volgende opdracht uitvoeren in de [NuGet][10] pakketbeheerder.

Install-Package Aspose.OCR

Hoe PDF naar tekst te converteren in C#

De tekstextractie uit een gescand PDF-bestand is vrij eenvoudig en is een kwestie van een paar regels broncode in C#. Volg de onderstaande stappen:

  1. Maak een object van de klasse [AsposeOcr][11].
  2. Initialiseer een instantie van de klasse [DocumentRecognitionSettings][12] om afbeeldingen uit PDF te herkennen.
  3. Stel de waarde van de eigenschap [DetectAreas][13] in om automatische detectie van tekstgebieden in te schakelen.
  4. Maak een lijst met typen [RecognitionResult][14], extraheer tekst uit gescande PDF-documenten door de methode [RecognizePdf][15] aan te roepen en wijs het resultaat toe aan de lijst. Kopieer en plak de volgende code om PDF naar TEKST te converteren in C#.

Conversie van PDF naar tekst - geavanceerde opties

In deze sectie zullen we deze bibliotheek verder verkennen. Hiermee kunt u ook gescande PDF’s uit de stream herkennen. Dit zijn de stappen:

  1. Maak een instantie van de klasse [AsposeOcr][11].
  2. Maak een instantie van de klasse [MemoryStream][16] om PDF uit de stream te herkennen.
  3. Initialiseer de constructor van [FileStream][17] en laad het bronbestand.
  4. Roep de methode [CopyTo][18] aan om de bytes naar de geheugenstroom te schrijven.
  5. Maak een object van de klasse [DocumentRecognitionSettings][19] dat afbeeldingen uit PDF herkent.
  6. Maak een lijst met typen [RecognitionResult][20] en initialiseer met de resultaten van de RecognizePdf-methode.

Ontvang een gratis licentie

U kunt een [gratis tijdelijke licentie][21] krijgen om de API zonder evaluatiebeperkingen uit te proberen.

Opsommen

Hiermee zijn we aan het einde van deze blogpost gekomen. Je hebt geleerd hoe je PDF programmatisch converteert naar tekst in C#. Daarnaast hebben we ook enkele geavanceerde methoden onderzocht die worden aangeboden door deze .NET OCR-bibliotheek. Bovendien kunt u de [documentatie][8] bezoeken om andere functies te leren kennen. Deze gids zal u zeker helpen als u uw toepassing wilt uitrusten met een PDF naar tekstconverter. Verder schrijft [conholdate.com][22] nieuwe blogposts over nieuwe onderwerpen. Blijf daarom in contact voor regelmatige updates.

Een vraag stellen

U kunt uw vragen of vragen aan ons stellen op ons [forum][23].

Veelgestelde vragen

Hoe converteer ik een PDF programmatisch naar tekst? U kunt PDF converteren naar tekst in C# met behulp van deze .NET OCR [bibliotheek][3]. Het onthult de [HerkenPdf][15]-methode die deze actie efficiënt uitvoert. Wat is de gemakkelijkste manier om PDF naar tekst te converteren U kunt de [documentatie][8] van deze bibliotheek bezoeken om meer te weten te komen over de methoden waarmee u de gegevens programmatisch uit gescande PDF-bestanden kunt extraheren.

Zie ook