
Converteer PDF naar tekst in C#
- [.NET OCR-bibliotheekinstallatie][5]
- [PDF naar tekst converteren in C#][6]
- [Conversie van PDF naar tekst - geavanceerde opties][7]
Installatie van .NET OCR-bibliotheek
Deze bibliotheek is krachtig en biedt uitgebreide [documentatie][8] over ontwikkeling en gebruik. U kunt verschillende bestandsformaten snel en efficiënt converteren en verwerken. Om deze API in uw .NET-project te installeren, kunt u de DLL-bestanden [downloaden][9] of de volgende opdracht uitvoeren in de [NuGet][10] pakketbeheerder.
Install-Package Aspose.OCR
Hoe PDF naar tekst te converteren in C#
De tekstextractie uit een gescand PDF-bestand is vrij eenvoudig en is een kwestie van een paar regels broncode in C#. Volg de onderstaande stappen:
- Maak een object van de klasse [AsposeOcr][11].
- Initialiseer een instantie van de klasse [DocumentRecognitionSettings][12] om afbeeldingen uit PDF te herkennen.
- Stel de waarde van de eigenschap [DetectAreas][13] in om automatische detectie van tekstgebieden in te schakelen.
- Maak een lijst met typen [RecognitionResult][14], extraheer tekst uit gescande PDF-documenten door de methode [RecognizePdf][15] aan te roepen en wijs het resultaat toe aan de lijst.
Kopieer en plak de volgende code om PDF naar TEKST te converteren in C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
string fullPath = "sample.pdf"; // Create an object of AsposeOcr class AsposeOcr api = new AsposeOcr(); // Initialize an instance of the DocumentRecognitionSettings class to recognize images from PDF DocumentRecognitionSettings set = new DocumentRecognitionSettings(); // set the value of DetectAreas property to enable automatic text areas detection set.DetectAreas = false; // create a list of RecognitionResult type, extract text form scanned PDF document by calling RecognizePdf method and assign the result to the list List<RecognitionResult> result = api.RecognizePdf(fullPath, set); // Print result int pageNumber = 0; foreach (var page in result) { System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}"); }
Conversie van PDF naar tekst - geavanceerde opties
In deze sectie zullen we deze bibliotheek verder verkennen. Hiermee kunt u ook gescande PDF’s uit de stream herkennen. Dit zijn de stappen:
- Maak een instantie van de klasse [AsposeOcr][11].
- Maak een instantie van de klasse [MemoryStream][16] om PDF uit de stream te herkennen.
- Initialiseer de constructor van [FileStream][17] en laad het bronbestand.
- Roep de methode [CopyTo][18] aan om de bytes naar de geheugenstroom te schrijven.
- Maak een object van de klasse [DocumentRecognitionSettings][19] dat afbeeldingen uit PDF herkent.
- Maak een lijst met typen [RecognitionResult][20] en initialiseer met de resultaten van de RecognizePdf-methode.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
string fullPath = "final.pdf"; // instantiate an instance of the AsposeOcr class AsposeOcr api = new AsposeOcr(); // Create an instance of the MemoryStream class to recognize pdf from stream using (MemoryStream ms = new MemoryStream()) { // Initialize the constructor of FileStream and load the source file using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read)) { // Invoke the CopyTo method to write the bytes to the memory stream. file.CopyTo(ms); // Create an object of DocumentRecognitionSettings class that recognizes images from PDF DocumentRecognitionSettings set = new DocumentRecognitionSettings(); // Create a list of RecognitionResult type and initialize with the results of RecognizePdf method. List<RecognitionResult> results = api.RecognizePdf(ms, set); // Print result foreach (var result in results) { Console.WriteLine(result.RecognitionText); } } }
Ontvang een gratis licentie
U kunt een [gratis tijdelijke licentie][21] krijgen om de API zonder evaluatiebeperkingen uit te proberen.
Opsommen
Hiermee zijn we aan het einde van deze blogpost gekomen. Je hebt geleerd hoe je PDF programmatisch converteert naar tekst in C#. Daarnaast hebben we ook enkele geavanceerde methoden onderzocht die worden aangeboden door deze .NET OCR-bibliotheek. Bovendien kunt u de [documentatie][8] bezoeken om andere functies te leren kennen. Deze gids zal u zeker helpen als u uw toepassing wilt uitrusten met een PDF naar tekstconverter. Verder schrijft [conholdate.com][22] nieuwe blogposts over nieuwe onderwerpen. Blijf daarom in contact voor regelmatige updates.
Een vraag stellen
U kunt uw vragen of vragen aan ons stellen op ons [forum][23].
Veelgestelde vragen
Hoe converteer ik een PDF programmatisch naar tekst? U kunt PDF converteren naar tekst in C# met behulp van deze .NET OCR [bibliotheek][3]. Het onthult de [HerkenPdf][15]-methode die deze actie efficiënt uitvoert. Wat is de gemakkelijkste manier om PDF naar tekst te converteren U kunt de [documentatie][8] van deze bibliotheek bezoeken om meer te weten te komen over de methoden waarmee u de gegevens programmatisch uit gescande PDF-bestanden kunt extraheren.
Zie ook
- [Converteer afbeelding naar JSON met C#][24]
- [Hoe afbeelding naar tekst converteren in C#][25] [1]: https://blog.conholdate.com/nl/total/convert-pdf-to-html-using-csharp/ [2]: https://blog.conholdate.com/nl/total/convert-pdf-to-images-using-csharp/ [3]: https://products.aspose.com/ocr/net/ [4]: https://docs.fileformat.com/pdf/ [5]: #NET-OCR-library-installation [6]: #How-to-Convert-PDF-to-Text-in-Csharp [7]: #PDF-to-Text-conversion—advanced-options [8]: https://docs.aspose.com/ocr/net/ [9]: https://releases.aspose.com/ocr/net/ [10]: https://www.nuget.org/packages/Aspose.OCR/ [11]: https://reference.aspose.com/ocr/net/aspose.ocr/asposeocr/ [12]: https://reference.aspose.com/ocr/net/aspose.ocr/documentrecognitionsettings/ [13]: https://reference.aspose.com/ocr/net/aspose.ocr/documentrecognitionsettings/detectareas/ [14]: https://reference.aspose.com/ocr/net/aspose.ocr/recognitionresult/ [15]: https://reference.aspose.com/ocr/net/aspose.ocr/asposeocr/recognizepdf/#recognizepdf_1 [16]: https://docs.microsoft.com/en-us/dotnet/api/system.io.memorystream?view=net-6.0 [17]: https://docs.microsoft.com/en-us/dotnet/api/system.io.filestream?view=net-6.0 [18]: https://docs.microsoft.com/en-us/dotnet/api/system.io.stream.copyto?view=net-6.0 [19]: https://reference.aspose.com/ocr/net/aspose.ocr/documentrecognitionsettings/ [20]: https://reference.aspose.com/ocr/net/aspose.ocr/recognitionresult/ [21]: https://purchase.conholdate.com/temporary-license [22]: https://www.conholdate.com/ [23]: https://forum.conholdate.com/ [24]: https://blog.conholdate.com/nl/total/convert-image-to-json-using-csharp/ [25]: https://blog.conholdate.com/nl/total/how-to-convert-image-to-text-in-csharp/