PDF zu DOCX OCR

PDF Dateien sind ein allgegenwärtiges Format für die Dokumentenfreigabe, aber manchmal müssen Sie sie bearbeiten oder Text daraus extrahieren. Das DOCX-Format von Microsoft Word ist eine der beliebtesten Optionen für die Dokumentbearbeitung. In diesem Blogbeitrag zeigen wir Ihnen, wie Sie mit C# eine PDF-Datei mit optischer Zeichenerkennung (OCR) in DOCX konvertieren. Die OCR-Technologie kann dabei helfen, Text aus gescannten PDFs oder bildbasierten PDFs zu extrahieren, was sie zu einem vielseitigen Werkzeug für die Dokumentenkonvertierung macht.

PDF zu DOCX-Konverter mit OCR – C# API-Installation

Zum Konvertieren von PDF in ein DOCX-Word Dokument mit OCR in C# müssen Sie Conholdate.Total für .NET konfigurieren. Sie können dies ganz einfach mit dem NuGet Package Manager-Plugin in der Visual Studio-IDE tun oder den folgenden NuGet-Installationsbefehl ausführen:

PM> NuGet\Install-Package Conholdate.Total

Konvertieren Sie PDF in DOCX mit OCR in C#

Mit den folgenden Schritten können Sie ein PDF mit OCR in C# in ein Word Dokument konvertieren:

  • Erstellen Sie ein Objekt der OcrInput Klasse.
  • Laden Sie das Quell-PDF Dokument.
  • Erkennen Sie den Text aus dem Dokument.
  • Bearbeitbares Dokument im Microsoft Word-Format (DOCX) speichern.

Der folgende Beispielcode ist ein Beispiel für die Konvertierung von PDF in DOCX mit OCR in C#:

// Laden Sie das gescannte PDF Dokument
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Erkennen Sie den Text aus dem Dokument
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Bearbeitbares Dokument im Microsoft Word-Format (DOCX) speichern
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Konvertieren Sie gescannte PDFs mit OCR mithilfe von Vorverarbeitungsfiltern in C# in DOCX

Sie können die Konvertierung gescannter PDFs in DOCX mit OCR verbessern, indem Sie verschiedene Einstellungen verwenden. Legen Sie beispielsweise verschiedene Vorverarbeitungsfilter fest, um die Genauigkeit zu verbessern, z. B. Entzerrung oder Rauschunterdrückung der Quelldatei. Die folgenden Schritte erläutern den erweiterten Ansatz zur Konvertierung gescannter PDF Dateien in DOCX mit OCR in C#:

  • Legen Sie die Vorverarbeitungsfilter fest.
  • Initialisieren Sie eine Instanz der OcrInput Klasse.
  • Erkennen Sie den Text aus dem Dokument.
  • Speichern Sie den erkannten Text als Word-DOCX Dokument.

Der folgende Codeausschnitt erläutert, wie Sie gescannte PDF Dateien mit OCR mithilfe von Vorverarbeitungsfiltern in C# in DOCX konvertieren:

// Verarbeitungsfilter festlegen
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Laden Sie das gescannte PDF Dokument
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Erkennen Sie den Text aus dem Dokument
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Bearbeitbares Dokument im Microsoft Word-Format (DOCX) speichern
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Kostenlose Evaluierungslizenz

Sie können eine kostenlose Evaluierungslizenz erwerben, um die APIs ohne Einschränkungen zu evaluieren.

Zusammenfassen

In diesem Blogbeitrag haben Sie erfahren, wie Sie PDF mit OCR in C# in DOCX konvertieren. Sie können ganz einfach Text aus PDFs, einschließlich gescannter Dokumente, extrahieren und sie als bearbeitbare Word-DOCX Dateien speichern. Dies kann in verschiedenen Szenarien ein wertvolles Werkzeug sein, beispielsweise bei der Datenextraktion aus PDF-Formularen oder der Digitalisierung gedruckter Dokumente. Experimentieren Sie mit verschiedenen Einstellungen und Anpassungsoptionen, um Ihren spezifischen Anforderungen gerecht zu werden, und verbessern Sie Ihre Dokumentverarbeitungsfunktionen in C#. Bei Fragen können Sie sich gerne über das Forum an uns wenden.

FAQs

Werden bei der Konvertierung von PDFs in DOCX in C# mehrere Sprachen von OCR unterstützt?

Ja, es kann Texte in einer Vielzahl von Sprachen und allen gängigen Schreibschriften erkennen, auch Texte mit gemischten Sprachen.

Wird die Rechtschreibprüfungsfunktion beim Konvertieren gescannter PDF Dateien in bearbeitbare Word-DOCX Dokumente unterstützt?

Ja, Sie können die Rechtschreibprüfung so einstellen, dass falsch geschriebene Wörter korrigiert werden, da die Rechtschreibprüfung verschiedene Wörterbücher unterstützt.

Gibt es irgendwelche Einschränkungen oder Herausforderungen, die Sie bei der Verwendung von OCR für die Konvertierung von PDF in DOCX beachten sollten?

Ja, OCR ist möglicherweise nicht perfekt und kann manchmal zu Fehlern führen, insbesondere bei komplexen Layouts, handgeschriebenem Text oder Scans von geringer Qualität. Es ist wichtig, den konvertierten Text bei Bedarf zu überprüfen und zu bearbeiten, um die Genauigkeit sicherzustellen. Darüber hinaus kann die OCR-Leistung je nach Qualität der Eingabe-PDF und der verwendeten Sprache variieren.

Siehe auch