PDF en DOCX OCR

Les fichiers PDF sont un format omniprésent pour le partage de documents, mais vous devez parfois en modifier ou en extraire du texte. Le format DOCX de Microsoft Word est l’un des choix les plus populaires pour l’édition de documents. Dans cet article de blog, nous allons vous montrer comment convertir un PDF en DOCX avec la reconnaissance optique de caractères (OCR) à l’aide de C#. La technologie OCR peut aider à extraire du texte à partir de PDF numérisés ou de PDF basés sur des images, ce qui en fait un outil polyvalent pour la conversion de documents.

Convertisseur PDF en DOCX avec OCR - Installation de l’API C#

Pour convertir un PDF en document DOCX Word avec OCR en C#, vous devez configurer Conholdate.Total pour .NET. Vous pouvez facilement le faire à l’aide du plug-in NuGet Package Manager dans Visual Studio IDE ou exécuter la commande d’installation NuGet suivante :

PM> NuGet\Install-Package Conholdate.Total

Convertir un PDF en DOCX avec OCR en C#

Vous pouvez convertir un PDF en document Word avec OCR en C# en suivant les étapes suivantes :

  • Créez un objet de la classe OcrInput.
  • Chargez le document PDF source.
  • Reconnaître le texte du document.
  • Enregistrez le document modifiable au format Microsoft Word (DOCX).

L’exemple de code suivant montre comment convertir un PDF en DOCX avec OCR en C# :

// Charger le document PDF numérisé
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Reconnaître le texte d'un document
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Enregistrer le document modifiable au format Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Convertir un PDF numérisé en DOCX avec OCR à l’aide de filtres de prétraitement en C#

Vous pouvez améliorer la conversion du PDF numérisé en DOCX avec OCR en utilisant différents paramètres. Par exemple, définissez différents filtres de prétraitement pour une précision améliorée, comme le redressement ou le débruitage du fichier source. Les étapes suivantes détaillent l’approche avancée de conversion de PDF numérisés en DOCX avec OCR en C# :

  • Définissez les filtres de prétraitement.
  • Initialisez une instance de la classe OcrInput.
  • Reconnaître le texte du document.
  • Enregistrez le texte reconnu en tant que document Word DOCX.

L’extrait de code ci-dessous explique comment convertir un PDF numérisé en DOCX avec OCR à l’aide de filtres de prétraitement en C# :

// Définir les filtres de traitement
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Charger le document PDF numérisé
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Reconnaître le texte d'un document
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Enregistrer le document modifiable au format Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Licence d’évaluation gratuite

Vous pouvez obtenir une licence d’évaluation gratuite pour évaluer les API sans aucune restriction.

Résumé

Dans cet article de blog, vous avez appris à convertir un PDF en DOCX avec OCR en C#. Vous pouvez facilement extraire du texte à partir de PDF, y compris des documents numérisés, et les enregistrer sous forme de fichiers Word DOCX modifiables. Cela peut s’avérer un outil précieux dans divers scénarios, tels que l’extraction de données à partir de formulaires PDF ou la numérisation de documents imprimés. Expérimentez avec différents paramètres et options de personnalisation pour répondre à vos besoins spécifiques et améliorez vos capacités de traitement de documents en C#. En cas de questions, n’hésitez pas à nous contacter via le forum.

FAQ

Plusieurs langues sont-elles prises en charge par l’OCR lors de la conversion de PDF en DOCX en C# ?

Oui, il peut reconnaître du texte dans un grand nombre de langues et toutes les écritures courantes, y compris les textes multilingues.

La fonction de vérification orthographique est-elle prise en charge lors de la conversion de PDF numérisés en documents Word DOCX modifiables ?

Oui, vous pouvez configurer la fonction de vérification orthographique pour corriger les mots mal orthographiés, car différents dictionnaires sont pris en charge par le correcteur orthographique.

Y a-t-il des limites ou des défis à prendre en compte lors de l’utilisation de l’OCR pour la conversion de PDF en DOCX ?

Oui, l’OCR n’est peut-être pas parfait et peut parfois produire des erreurs, notamment avec des mises en page complexes, du texte manuscrit ou des numérisations de mauvaise qualité. Il est important de réviser et de modifier le texte converti si nécessaire pour garantir son exactitude. De plus, les performances de l’OCR peuvent varier en fonction de la qualité du PDF d’entrée et de la langue utilisée.

Voir également