Da PDF a DOCX OCR

I file PDF sono un formato onnipresente per la condivisione di documenti, ma a volte è necessario modificarli o estrarne il testo. Il formato DOCX di Microsoft Word è una delle scelte più popolari per la modifica dei documenti. In questo post del blog, ti mostreremo come convertire un PDF in DOCX con il riconoscimento ottico dei caratteri (OCR) utilizzando C#. La tecnologia OCR può aiutare a estrarre il testo dai PDF scansionati o dai PDF basati su immagini, rendendolo uno strumento versatile per la conversione dei documenti.

Convertitore da PDF a DOCX con OCR - Installazione API C#

Per convertire documenti PDF in DOCX Word con OCR in C#, è necessario configurare Conholdate.Total for .NET. Puoi farlo facilmente utilizzando il plug-in NuGet Package Manager nell’IDE di Visual Studio o eseguire il seguente comando di installazione NuGet:

PM> NuGet\Install-Package Conholdate.Total

Converti PDF in DOCX con OCR in C#

Puoi convertire un PDF in un documento Word con OCR in C# con i seguenti passaggi:

  • Crea un oggetto della classe OcrInput.
  • Carica il documento PDF di origine con il metodo Add(string).
  • Riconoscere il testo dal documento con il metodo Recognize(OcrInput, RecognitionSettings).
  • Salva il documento modificabile in formato Microsoft Word (DOCX) con SaveMultipageDocument(string, SaveFormat, List ) metodo.

Il seguente codice di esempio è un esempio di come convertire PDF in DOCX con OCR in C#:

// Carica il documento PDF scansionato
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Riconoscere il testo del documento
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Salva il documento modificabile in formato Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Converti PDF scansionato in DOCX con OCR utilizzando i filtri di preelaborazione in C#

È possibile migliorare la conversione da PDF scansionato a DOCX con OCR utilizzando diverse impostazioni. Ad esempio, imposta diversi filtri di preelaborazione per una maggiore precisione come il raddrizzamento o la rimozione del rumore dal file sorgente. I passaggi seguenti elaborano l’approccio avanzato per convertire i PDF scansionati in DOCX con OCR in C#:

  • Imposta i filtri di preelaborazione con la classe PreprocessingFilter.
  • Inizializza un’istanza della classe OcrInput.
  • Riconoscere il testo dal documento utilizzando il metodo Recognize(OcrInput, RecognitionSettings).
  • Salvare il testo riconosciuto come documento Word DOCX utilizzando SaveMultipageDocument(string, SaveFormat, List ) metodo.

Lo snippet di codice seguente spiega come convertire PDF scansionati in DOCX con OCR utilizzando i filtri di preelaborazione in C#:

// Imposta i filtri di elaborazione
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Carica il documento PDF scansionato
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Riconoscere il testo del documento
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Salva il documento modificabile in formato Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Licenza di valutazione gratuita

Puoi ottenere una licenza di valutazione gratuita per valutare le API senza alcuna restrizione.

Riassumendo

In questo post del blog hai imparato come convertire PDF in DOCX con OCR in C#. Puoi estrarre facilmente testo da PDF, inclusi documenti scansionati, e salvarli come file Word DOCX modificabili. Questo può essere uno strumento prezioso in vari scenari, come l’estrazione di dati da moduli PDF o la digitalizzazione di documenti stampati. Sperimenta diverse impostazioni e opzioni di personalizzazione per soddisfare i tuoi requisiti specifici e migliorare le tue capacità di elaborazione dei documenti in C#. In caso di domande, non esitate a contattarci tramite il forum.

Domande frequenti

L’OCR supporta più lingue durante la conversione di PDF in DOCX in C#?

Sì, è in grado di riconoscere il testo in un gran numero di lingue e tutte le scritture più diffuse, compresi i testi con lingue miste.

La funzionalità di controllo ortografico è supportata durante la conversione di PDF scansionati in documenti Word DOCX modificabili?

Sì, puoi impostare la funzione di controllo ortografico per correggere eventuali parole errate poiché il controllo ortografico supporta diversi dizionari.

Ci sono limitazioni o problemi di cui tenere conto quando si utilizza l’OCR per la conversione da PDF a DOCX?

Sì, l’OCR potrebbe non essere perfetto e talvolta può produrre errori, soprattutto con layout complessi, testo scritto a mano o scansioni di bassa qualità. È importante rivedere e modificare il testo convertito secondo necessità per garantirne la precisione. Inoltre, le prestazioni dell’OCR possono variare a seconda della qualità del PDF di input e della lingua utilizzata.

Guarda anche