PDF naar DOCX OCR

PDF-bestanden zijn een alomtegenwoordig formaat voor het delen van documenten, maar soms moet u er tekst uit bewerken of extraheren. Het DOCX-formaat van Microsoft Word is een van de meest populaire keuzes voor documentbewerking. In deze blogpost laten we u zien hoe u een PDF naar DOCX converteert met Optical Character Recognition (OCR) met behulp van C#. OCR-technologie kan helpen bij het extraheren van tekst uit gescande PDF’s of op afbeeldingen gebaseerde PDF’s, waardoor het een veelzijdig hulpmiddel is voor documentconversie.

PDF naar DOCX-converter met OCR - C# API-installatie

Voor het converteren van PDF naar DOCX Word-document met OCR in C# moet u Conholdate.Total voor .NET configureren. U kunt dit eenvoudig doen met behulp van de NuGet Package Manager-plug-in in Visual Studio IDE of door de volgende NuGet-installatieopdracht uit te voeren:

PM> NuGet\Install-Package Conholdate.Total

Converteer PDF naar DOCX met OCR in C#

Met de volgende stappen kunt u een PDF naar een Word-document converteren met OCR in C#:

  • Maak een object van de klasse OcrInput.
  • Laad het bron-PDF-document.
  • Herken de tekst uit het document.
  • Bewaar een bewerkbaar document in Microsoft Word (DOCX)-indeling.

De volgende voorbeeldcode is een voorbeeld van hoe u PDF naar DOCX kunt converteren met OCR in C#:

// Laad het gescande PDF-document
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Herken de tekst uit het document
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Bewaar een bewerkbaar document in Microsoft Word (DOCX)-indeling
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Converteer gescande PDF naar DOCX met OCR met behulp van voorverwerkingsfilters in C#

U kunt de gescande PDF naar DOCX-conversie verbeteren met OCR door verschillende instellingen te gebruiken. Stel bijvoorbeeld verschillende voorverwerkingsfilters in voor verbeterde nauwkeurigheid, zoals het rechtzetten of het verwijderen van ruis in het bronbestand. De volgende stappen werken de geavanceerde aanpak uit voor het converteren van gescande PDF naar DOCX met OCR in C#:

  • Stel de voorverwerkingsfilters in.
  • Initialiseer een exemplaar van de klasse OcrInput.
  • Herken de tekst uit het document.
  • Sla de herkende tekst op als een Word DOCX-document.

In het onderstaande codefragment wordt uitgebreid uitgelegd hoe u gescande PDF’s naar DOCX kunt converteren met OCR met behulp van voorverwerkingsfilters in C#:

// Verwerkingsfilters instellen
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Laad het gescande PDF-document
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Herken de tekst uit het document
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Bewaar een bewerkbaar document in Microsoft Word (DOCX)-indeling
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Gratis evaluatielicentie

U kunt een gratis evaluatielicentie verkrijgen om de API’s zonder enige beperking te evalueren.

Opsommen

In deze blogpost heb je geleerd hoe je PDF naar DOCX kunt converteren met OCR in C#. U kunt eenvoudig tekst uit PDF’s extraheren, inclusief gescande documenten, en deze opslaan als bewerkbare Word DOCX-bestanden. Dit kan een waardevol hulpmiddel zijn in verschillende scenario’s, zoals gegevensextractie uit PDF-formulieren of het digitaliseren van afgedrukte documenten. Experimenteer met verschillende instellingen en aanpassingsopties om aan uw specifieke vereisten te voldoen, en verbeter uw documentverwerkingsmogelijkheden in C#. Als u vragen heeft, neem dan gerust contact met ons op via het forum.

Veelgestelde vragen

Worden meerdere talen ondersteund door OCR bij het converteren van PDF’s naar DOCX in C#?

Ja, het kan tekst in een groot aantal talen en alle populaire schrijfscripts herkennen, inclusief teksten met gemengde talen.

Wordt de functie voor spellingcontrole ondersteund tijdens het converteren van gescande PDF naar bewerkbare Word DOCX-documenten?

Ja, u kunt de spellingcontrole instellen om verkeerd gespelde woorden te corrigeren, aangezien verschillende woordenboeken door de spellingcontrole worden ondersteund.

Zijn er beperkingen of uitdagingen waar u rekening mee moet houden bij het gebruik van OCR voor conversie van PDF naar DOCX?

Ja, OCR is mogelijk niet perfect en kan soms fouten veroorzaken, vooral bij complexe lay-outs, handgeschreven tekst of scans van lage kwaliteit. Het is belangrijk om de geconverteerde tekst zo nodig te controleren en te bewerken om nauwkeurigheid te garanderen. Bovendien kunnen de OCR-prestaties variëren, afhankelijk van de kwaliteit van de ingevoerde PDF en de gebruikte taal.

Zie ook