Extraire un tableau d'un PDF en C#

L’extraction de tableaux à partir de fichiers PDF peut être une tâche courante lors de l’extraction ou de l’analyse de données. Que vous essayiez de récupérer des tableaux pour les traiter ou de les exporter pour une utilisation ultérieure, l’automatisation de ce processus peut vous faire gagner du temps et des efforts. Dans cet article de blog, nous vous montrerons comment extraire des tableaux d’un PDF en C# ou exporter les données extraites vers un fichier CSV.

Nous aborderons les sections suivantes dans cet article :

Pourquoi extraire des tableaux d’un PDF ?
Extraction de tableau PDF - Configuration de l’API C#
Extraire un tableau d’un PDF en C#
Convertir les données d’un tableau de PDF en CSV en C#

Pourquoi extraire des tableaux d’un PDF ?

Les fichiers PDF sont largement utilisés pour partager des informations dans un format portable. Cependant, l’extraction de données structurées telles que des tableaux peut s’avérer difficile, car les fichiers PDF ne sont pas conçus pour être facilement modifiés ou manipulés. En extrayant les données des tableaux par programmation en C#, vous pouvez rendre les données plus accessibles, ce qui vous permet d’analyser, de modifier ou de stocker les données dans différents formats tels que CSV, qui est largement utilisé pour l’échange de données entre différentes applications.

Extraction de tableau PDF - Configuration de l’API C#

Vous pouvez extraire des données à partir de tableaux PDF en configurant Conholdate.Total pour .NET avec la commande d’installation NuGet ci-dessous :

PM> NuGet\Install-Package Conholdate.Total

Extraire un tableau d’un PDF en C#

Dans cette section, nous allons parcourir l’extraction de tableaux d’un document PDF à l’aide de C#.

Chargement du document PDF : Le code commence par charger le fichier PDF dans un objet de classe Document.
Table Absorber : La classe TableAbsorber est utilisée pour détecter et absorber les tableaux sur chaque page du PDF.
Extraction des données du tableau : le code parcourt chaque tableau trouvé, extrait le contenu de chaque cellule du tableau et l’imprime dans un format structuré.

Cette méthode permet d’accéder efficacement aux données tabulaires des documents PDF, ce qui vous permet de travailler avec les informations par programmation. L’extrait de code ci-dessous illustre l’extraction de tableau en C# :

// Charger le document PDF source
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
    Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (AbsorbedTable table in absorber.TableList)
    {
        Console.WriteLine("Table");
        foreach (AbsorbedRow row in table.RowList)
        {
            foreach (AbsorbedCell cell in row.CellList)
            {
                foreach (TextFragment fragment in cell.TextFragments)
                {
                    var sb = new StringBuilder();
                    foreach (TextSegment seg in fragment.Segments)
                        sb.Append(seg.Text);
                    Console.Write("{sb.ToString()}|");
                }
            }
            Console.WriteLine();
        }
    }
}

Convertir les données d’un tableau PDF en CSV en C#

Une fois que vous avez extrait les données du tableau d’un PDF, vous souhaiterez peut-être les enregistrer dans un format plus accessible comme CSV. Le format CSV (Comma Separated Values) est largement pris en charge par des applications telles que Microsoft Excel, Google Sheets et de nombreux systèmes de traitement de données. Dans cette section, nous allons convertir les données du tableau PDF en CSV en C# :

Les étapes suivantes montrent comment exporter des données de tableaux PDF au format CSV en C# :

Chargement du document PDF : Le document PDF est chargé dans l’objet Document comme précédemment.
ExcelSaveOptions : une instance d’ExcelSaveOptions est créée avec le format défini sur CSV. Cela garantit que les données du tableau du PDF sont exportées directement sous forme de fichier CSV.
Enregistrement du fichier CSV : la méthode Save est appelée pour exporter les données du tableau PDF dans un fichier .csv.

L’exemple de code ci-dessous montre comment convertir un tableau PDF au format CSV en C# :

// Charger le document PDF
Document pdfDocument = new Document("input.pdf");

// Instancier l'objet ExcelSave Option
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };

// Enregistrer la sortie au format XLS
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);

Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite pour tester différentes fonctionnalités de l’API sans aucune limitation d’évaluation.

En résumé

L’extraction de tableaux à partir d’un PDF et l’exportation des données au format CSV en C# peuvent être rendues simples et efficaces en C#. La possibilité d’automatiser l’extraction de tableaux est utile dans les scénarios où vous devez analyser ou partager des données tabulaires à partir de PDF dans un format plus flexible comme CSV. En suivant les étapes décrites dans cet article de blog, vous pouvez facilement récupérer et stocker des données de tableau à partir de vos fichiers PDF. Ce processus est particulièrement utile dans l’analyse de données, la création de rapports ou toute tâche nécessitant des données structurées à partir de documents PDF par ailleurs rigides. En cas de questions, veuillez nous contacter sur le forum.

Pourquoi extraire des tableaux d’un PDF ?#

Extraction de tableau PDF - Configuration de l’API C##

Extraire un tableau d’un PDF en C##

Convertir les données d’un tableau PDF en CSV en C##

Obtenez une licence gratuite#

En résumé#

Voir aussi#