Extraire le tableau du PDF en Java

Extraire le tableau du PDF en Java

Dans un passé récent, nous avons publié un article qui explique comment extraire du texte d’un fichier PDF en Java par programmation. Dans cet article de blog, nous apprendrons comment extraire un tableau d’un PDF en Java à l’aide de cette API Java pour PDF. Cette bibliothèque fournit des fonctionnalités puissantes pour analyser et manipuler des documents PDF. De plus, vous pouvez automatiser l’extraction des données en créant un extracteur de tableau PDF à l’aide de cette bibliothèque. Cependant, assurez-vous d’avoir installé Java sur votre machine locale avant de continuer.

Les points suivants seront traités dans ce guide :

Extracteur de tableau PDF - Installation de l’API

Le processus d’installation de cette bibliothèque est simple et direct. En fait, vous pouvez soit télécharger l’API ou l’installer en utilisant les configurations Maven suivantes.

 <repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Extraire le tableau du PDF en Java

Une fois l’API installée, vous pouvez commencer à écrire du code pour créer un extracteur de tableau PDF par programme.

Vous pouvez suivre les étapes et l’extrait de code mentionnés ci-dessous :

  1. Créez un objet de la classe Document et chargez le fichier PDF source.
  2. Instanciez une instance de la classe TableAbsorber qui effectue une recherche et donne accès aux résultats de la recherche.
  3. Parcourez les pages du document PDF en appelant la méthode getPages.
  4. Appelez la méthode visit pour extraire le tableau de la page.
  5. Appelez la méthode getTableList qui renvoie IList en lecture seule contenant les tables trouvées.
  6. Obtenez les lignes en appelant la méthode getRowList Parcourez la liste des lignes.
  7. Parcourez la liste de cellules en appelant la méthode getCellList.
  8. Appelez la méthode getTextFragments pour obtenir une collection d’objets TextFragment décrivant le texte contenu dans la cellule.
  9. Appelez la méthode getSegments qui obtient les segments de texte pour le TextFragment actuel.
  10. Imprimez les résultats.

Copiez et collez le code suivant dans votre fichier principal :

String filePath = "table.pdf";
// Créez un objet de la classe Document et chargez le fichier PDF source 
Document pdfDocument = new Document(filePath);
// Instancier une instance de la classe TableAbsorber qui effectue la recherche et donne accès aux résultats de la recherche  
TableAbsorber absorber = new TableAbsorber();
// Parcourez les pages du document PDF en appelant la méthode getPages 
for (Page page : pdfDocument.getPages()) {
    // Invoquer la méthode visit pour extraire le tableau de la page 
        absorber.visit(page);
        // Appelez la méthode getTableList qui renvoie en lecture seule IList contenant les tables trouvées 
        for (AbsorbedTable table : absorber.getTableList()) {
                System.out.println("Table");
                // Obtenir les lignes en appelant la méthode getRowList Itérer dans la liste des lignes  
                for (AbsorbedRow row : table.getRowList()) {
                        // Itérer dans la liste des cellules en appelant la méthode getCellList 
                        for (AbsorbedCell cell : row.getCellList()) {
                            // Appelez la méthode getTextFragments pour obtenir une collection d'objets TextFragment décrivant le texte contenu dans la cellule 
                                for (TextFragment fragment : cell.getTextFragments()) {
                                        StringBuilder sb = new StringBuilder();
                                        // Appelez la méthode getSegments qui obtient les segments de texte pour le TextFragment actuel. 
                                        for (TextSegment seg : fragment.getSegments())
                                                sb.append(seg.getText());
                                        System.out.print(sb.toString() + "|");
                                }
                        }
                        System.out.println();
                }
        }
}

Obtenez une licence gratuite

Vous pouvez bénéficier d’une licence temporaire gratuite pour essayer l’API sans limitation d’évaluation.

Résumé

Cela nous amène à la fin de cet article de blog. Vous avez appris à extraire un tableau d’un PDF en Java par programmation. Ce guide vous aidera vraiment si vous cherchez à créer un extracteur de tableau PDF pour votre application métier. De plus, vous pouvez visiter la documentation pour connaître les autres fonctionnalités.

De plus, nous vous suggérons de suivre notre Guide de démarrage.

Enfin, conholdate.com écrit de nouveaux articles de blog. Par conséquent, veuillez rester en contact pour les dernières mises à jour.

poser une question

Vous pouvez nous faire part de vos questions ou requêtes sur notre forum.

FAQ

Puis-je extraire des tableaux d’un PDF ?

Veuillez visiter ce lien pour connaître les étapes et l’extrait de code qui extrait le tableau d’un document PDF par programmation

Voir également