Convertir un PDF en texte en C#

Convertir un PDF en texte en C#

Récemment, nous avons publié des articles de blog tels que convertir PDF en HTML et PDF en images par programmation. Cet article nous apprendra comment convertir un PDF en texte en C# à l’aide d’une bibliothèque .NET OCR. En tant que développeur .NET, vous pouvez facilement utiliser cette bibliothèque pour convertir des fichiers vers d’autres formats de fichiers populaires. De plus, il existe une riche pile de fonctionnalités pour automatiser le processus d’extraction de texte à partir de documents PDF. Cependant, nous allons écrire les étapes et l’extrait de code pour démontrer l’extraction de texte à partir d’un fichier PDF numérisé.

Les points suivants seront abordés dans cet article :

Installation de la bibliothèque .NET OCR

Cette bibliothèque est puissante et offre une documentation complète concernant le développement et l’utilisation. Vous pouvez convertir et traiter divers formats de fichiers rapidement et efficacement.

Pour installer cette API dans votre projet .NET, vous pouvez soit télécharger les fichiers DLL, soit exécuter la commande suivante dans le gestionnaire de packages NuGet.

Install-Package Aspose.OCR

Comment convertir un PDF en texte en C#

L’extraction de texte à partir d’un fichier PDF scanné est assez simple et ne prend que quelques lignes de code source en C#.

Veuillez suivre les étapes mentionnées ci-dessous :

  1. Créez un objet de la classe AsposeOcr.
  2. Initialisez une instance de la classe DocumentRecognitionSettings pour reconnaître les images du PDF.
  3. Définissez la valeur de la propriété DetectAreas pour activer la détection automatique des zones de texte.
  4. Créez une liste de types RecognitionResult, extrayez le texte des documents PDF numérisés en appelant la méthode RecognizePdf et attribuez le résultat à la liste.

Copiez et collez le code suivant pour convertir PDF en TEXT en C#.


string fullPath =   "sample.pdf";
// Créer un objet de la classe AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Initialiser une instance de la classe DocumentRecognitionSettings pour reconnaître les images du PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// définir la valeur de la propriété DetectAreas pour activer la détection automatique des zones de texte 
set.DetectAreas = false;
// créer une liste de type RecognitionResult, extraire le texte du document PDF numérisé en appelant la méthode RecognizePdf et attribuer le résultat à la liste  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Résultat d'impression
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Conversion PDF en texte - options avancées

Dans cette section, nous allons explorer cette bibliothèque plus en détail. Il vous permet également de reconnaître les PDF numérisés à partir du flux.

Voici les étapes :

  1. Instanciez une instance de la classe AsposeOcr.
  2. Créez une instance de la classe MemoryStream pour reconnaître le PDF à partir du flux.
  3. Initialisez le constructeur de FileStream et chargez le fichier source.
  4. Appelez la méthode CopyTo pour écrire les octets dans le flux de mémoire.
  5. Créez un objet de la classe DocumentRecognitionSettings qui reconnaît les images du PDF.
  6. Créez une liste de types RecognitionResult et initialisez avec les résultats de la méthode RecognizePdf.

string fullPath =   "final.pdf";
// instancier une instance de la classe AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Créez une instance de la classe MemoryStream pour reconnaître le pdf à partir du flux     
using (MemoryStream ms = new MemoryStream())
{
    // Initialiser le constructeur de FileStream et charger le fichier source  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Appelez la méthode CopyTo pour écrire les octets dans le flux de mémoire.  
        file.CopyTo(ms);
        // Créer un objet de la classe DocumentRecognitionSettings qui reconnaît les images du PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Créez une liste de type RecognitionResult et initialisez avec les résultats de la méthode RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Résultat d'impression
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite pour essayer l’API sans limitation d’évaluation.

Résumé

Cela nous amène à la fin de cet article de blog. Vous avez appris à convertir un PDF en texte en C# par programmation. De plus, nous avons également exploré certaines méthodes avancées offertes par cette bibliothèque .NET OCR. De plus, vous pouvez visiter la documentation pour connaître d’autres fonctionnalités. Ce guide vous aidera sûrement si vous cherchez à équiper votre application d’un convertisseur PDF en texte. De plus, conholdate.com écrit de nouveaux articles de blog sur de nouveaux sujets. Par conséquent, veuillez rester en contact pour des mises à jour régulières.

poser une question

Vous pouvez nous faire part de vos questions ou requêtes sur notre forum.

FAQ

Comment convertir un PDF en texte par programmation ?

Vous pouvez convertir un PDF en texte en C # à l’aide de cette bibliothèque .NET OCR. Il expose la méthode RecognizePdf qui effectue cette action efficacement.

Quel est le moyen le plus simple de convertir un PDF en texte

Vous pouvez visiter la documentation de cette bibliothèque pour connaître les méthodes avec lesquelles vous pouvez extraire les données des fichiers PDF numérisés par programme.

Voir également