Konvertieren Sie PDF in Text in C#

Konvertieren Sie PDF in Text in C#

Kürzlich haben wir einige Blogbeiträge wie Konvertieren von PDF in HTML und PDF in Bilder programmgesteuert veröffentlicht. In diesem Artikel erfahren Sie, wie Sie mit einer .NET OCR-Bibliothek PDF in C# in Text konvertieren. Als .NET-Entwickler können Sie diese Bibliothek problemlos verwenden, um Dateien in andere gängige Dateiformate zu konvertieren. Darüber hinaus gibt es eine Vielzahl von Funktionen zur Automatisierung des Textextraktionsprozesses aus PDF-Dokumenten. Wir werden jedoch die Schritte und das Code-Snippet schreiben, um die Textextraktion aus einer gescannten PDF-Datei zu demonstrieren.

Folgende Punkte werden in diesem Artikel behandelt:

Installation der .NET OCR-Bibliothek

Diese Bibliothek ist leistungsstark und bietet umfassende Dokumentation bezüglich Entwicklung und Verwendung. Sie können verschiedene Dateiformate schnell und effizient konvertieren und verarbeiten.

Um diese API in Ihrem .NET-Projekt zu installieren, können Sie entweder die DLL-Dateien herunterladen oder den folgenden Befehl im Paket-Manager NuGet ausführen.

Install-Package Aspose.OCR

So konvertieren Sie PDF in Text in C#

Die Textextraktion aus einer gescannten PDF-Datei ist recht einfach und eine Sache von ein paar Zeilen Quellcode in C#.

Bitte befolgen Sie die unten aufgeführten Schritte:

  1. Erstellen Sie ein Objekt der Klasse AsposeOcr.
  2. Initialisieren Sie eine Instanz der Klasse DocumentRecognitionSettings, um Bilder aus PDF zu erkennen.
  3. Legen Sie den Wert der Eigenschaft DetectAreas fest, um die automatische Erkennung von Textbereichen zu aktivieren.
  4. Erstellen Sie eine Liste von RecognitionResult-Typen, extrahieren Sie Text aus gescannten PDF-Dokumenten, indem Sie die Methode RecognizePdf aufrufen, und weisen Sie das Ergebnis der Liste zu.

Kopieren Sie den folgenden Code und fügen Sie ihn ein, um PDF in TEXT in C# zu konvertieren.


string fullPath =   "sample.pdf";
// Erstellen Sie ein Objekt der AsposeOcr-Klasse 
AsposeOcr api = new AsposeOcr();
// Initialisieren Sie eine Instanz der DocumentRecognitionSettings-Klasse, um Bilder aus PDF zu erkennen  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// Legen Sie den Wert der Eigenschaft DetectAreas fest, um die automatische Erkennung von Textbereichen zu aktivieren 
set.DetectAreas = false;
// Erstellen Sie eine Liste vom Typ RecognitionResult, extrahieren Sie Text aus einem gescannten PDF-Dokument, indem Sie die RecognizePdf-Methode aufrufen, und weisen Sie das Ergebnis der Liste zu  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Ergebnis drucken
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Konvertierung von PDF in Text – erweiterte Optionen

In diesem Abschnitt werden wir diese Bibliothek weiter untersuchen. Außerdem können Sie gescannte PDFs aus dem Stream erkennen.

Im Folgenden sind die Schritte:

  1. Instanziieren Sie eine Instanz der AsposeOcr-Klasse.
  2. Erstellen Sie eine Instanz der Klasse MemoryStream, um PDF aus dem Stream zu erkennen.
  3. Initialisieren Sie den Konstruktor von FileStream und laden Sie die Quelldatei.
  4. Rufen Sie die Methode CopyTo auf, um die Bytes in den Speicherstrom zu schreiben.
  5. Erstellen Sie ein Objekt der Klasse DocumentRecognitionSettings, das Bilder aus PDF erkennt.
  6. Erstellen Sie eine Liste von RecognitionResult-Typen und initialisieren Sie sie mit den Ergebnissen der RecognizePdf-Methode.

string fullPath =   "final.pdf";
// Instanziieren Sie eine Instanz der AsposeOcr-Klasse 
AsposeOcr api = new AsposeOcr();
// Erstellen Sie eine Instanz der MemoryStream-Klasse, um PDF aus Stream zu erkennen     
using (MemoryStream ms = new MemoryStream())
{
    // Initialisieren Sie den Konstruktor von FileStream und laden Sie die Quelldatei  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Rufen Sie die CopyTo-Methode auf, um die Bytes in den Speicherstream zu schreiben.  
        file.CopyTo(ms);
        // Erstellen Sie ein Objekt der DocumentRecognitionSettings-Klasse, das Bilder aus PDF erkennt 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Erstellen Sie eine Liste des RecognitionResult-Typs und initialisieren Sie sie mit den Ergebnissen der RecognizePdf-Methode.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Ergebnis drucken
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Holen Sie sich eine kostenlose Lizenz

Sie können eine kostenlose temporäre Lizenz erwerben, um die API ohne Evaluierungseinschränkungen zu testen.

Zusammenfassen

Damit sind wir am Ende dieses Blogbeitrags angelangt. Sie haben gelernt, wie Sie PDF in C# programmgesteuert in Text konvertieren. Darüber hinaus haben wir einige erweiterte Methoden untersucht, die diese .NET-OCR-Bibliothek bietet. Darüber hinaus können Sie die Dokumentation besuchen, um weitere Funktionen kennenzulernen. Dieser Leitfaden wird Ihnen sicherlich helfen, wenn Sie Ihre Anwendung mit einem PDF-zu-Text-Konverter ausstatten möchten. Außerdem schreibt conholdate.com neue Blogbeiträge zu neuen Themen. Bitte bleiben Sie daher für regelmäßige Updates in Kontakt.

Stelle eine Frage

Sie können uns Ihre Fragen oder Anliegen in unserem Forum mitteilen.

Häufig gestellte Fragen

Wie konvertiere ich eine PDF-Datei programmgesteuert in Text?

Mit dieser .NET OCR Bibliothek können Sie PDF in Text in C# konvertieren. Es macht die Methode RecognizePdf verfügbar, die diese Aktion effizient durchführt.

Was ist der einfachste Weg, um PDF in Text umzuwandeln

Sie können die Dokumentation dieser Bibliothek besuchen, um mehr über die Methoden zu erfahren, mit denen Sie die Daten aus gescannten PDF-Dateien programmgesteuert extrahieren können.

Siehe auch