Convertir un PDF en texte en Java

Convertir un PDF en texte en Java

Notre blog précédent post couvrait la conversion PDF en PPTX en Java par programmation. Cependant, cet article de blog expliquera comment convertir un PDF en Texte en Java à l’aide de cette bibliothèque PDF Java. PDF et Texte sont les deux formats de fichiers les plus utilisés dans le monde. Par conséquent, nous utiliserons certaines méthodes importantes de cette bibliothèque pour effectuer la conversion PDF en texte par programme. Assurez-vous d’avoir configuré Java sur votre ordinateur local avant de poursuivre dans ce didacticiel.

Les points suivants doivent être couverts :

Installation de la bibliothèque PDF Java

La procédure d’installation de cette bibliothèque est conviviale pour les développeurs. Cette bibliothèque a exposé de puissantes fonctionnalités pour manipuler et convertir par programmation des fichiers PDF vers d’autres formats de fichiers populaires. Par conséquent, vous pouvez télécharger l’API ou l’installer à l’aide des configurations Maven suivantes.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Convertir un PDF en texte en Java

Le processus de conversion PDF en texte est une question de quelques lignes de code source en Java. Nous allons écrire les étapes et l’extrait de code pour convertir le PDF en texte par programmation.

Vous pouvez suivre les étapes suivantes :

  1. Chargez le document PDF en créant une instance de la classe Document.
  2. Initialise un objet de la classe TextAbsorber pour effectuer l’extraction de texte et donne accès au résultat.
  3. Appelez la méthode visit pour extraire le texte sur la page spécifiée.
  4. Instanciez une instance de la classe BufferedWriter et enregistrez le texte extrait dans un fichier texte en initialisant un objet de la classe FileWriter.
// Charger un document PDF en créant une instance de la classe Document  
Document pdfDocument = new Document("sample.pdf");
// Initialise un objet de la classe TextAbsorber pour effectuer une extraction de texte et donne accès au résultat 
TextAbsorber ta = new TextAbsorber();
// Invoquer la méthode de visite pour extraire le texte sur la page spécifiée 
ta.visit(pdfDocument);
// Instanciez une instance de la classe BufferedWriter et enregistrez le texte extrait dans un fichier texte en initialisant un objet de la classe FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Conversion PDF en texte - options avancées

De plus, vous pouvez configurer votre logique métier selon les besoins de votre entreprise. Cette bibliothèque PDF Java vous permet de convertir des pages PDF spécifiques au format de fichier texte.

Voici les étapes pour convertir des pages PDF particulières en texte :

  1. Créez un objet de la classe Document et chargez le document PDF.
  2. Initialiser un objet de la classe TextAbsorber.
  3. Parcourez le nombre de pages défini et extrayez le texte des pages PDF en appelant la méthode visit.
  4. Enregistrez le texte extrait dans un fichier texte en appelant la méthode write de la classe BufferedWriter.
// Créer un objet de la classe Document et charger le document PDF 
Document pdfDocument = new Document("sample.pdf");
// Initialiser un objet de la classe TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Parcourez le nombre de pages défini et extrayez le texte des pages PDF en appelant la méthode visit  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Enregistrez le texte extrait dans un fichier texte en appelant la méthode write de la classe BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite pour essayer l’API sans limitation d’évaluation.

Résumé

Cela nous amène à la fin de cet article de blog. J’espère que vous avez appris à convertir un PDF en texte en Java par programmation. De plus, nous avons également parcouru certaines méthodes avancées exposées par cette bibliothèque PDF Java. De plus, vous pouvez parcourir la documentation pour connaître d’autres méthodes utiles. conholdate.com écrit constamment de nouveaux articles de blog. Par conséquent, veuillez rester en contact pour des mises à jour régulières.

poser une question

Vous pouvez nous faire part de vos questions ou requêtes sur notre forum.

FAQ

Comment convertir un PDF en texte ?

Vous pouvez installer cette bibliothèque PDF Java pour effectuer la conversion PDF en texte par programme. De plus, vous pouvez voir une longue liste de méthodes exposées par l’API ici.

Java peut-il lire un PDF ?

Utilisez cette classe TextAbsorber pour extraire du texte de pages PDF en Java par programmation. Cependant, vous pouvez utiliser la méthode visit si vous souhaitez extraire du texte de pages spécifiques.

Voir également