
Das Extrahieren von Tabellen aus PDF Dateien kann eine häufige Aufgabe bei der Datenextraktion oder -analyse sein. Egal, ob Sie Tabellen zur Verarbeitung abrufen oder zur weiteren Verwendung exportieren möchten, die Automatisierung dieses Prozesses kann Zeit und Aufwand sparen. In diesem Blogbeitrag zeigen wir Ihnen, wie Sie Tabellen aus einer PDF-Datei in C# extrahieren oder die extrahierten Daten in eine CSV-Datei exportieren.
In diesem Artikel behandeln wir die folgenden Abschnitte:
- Warum Tabellen aus PDF extrahieren?
- PDF-Tabellenextraktion – C# API-Konfiguration
- Tabelle aus PDF in C# extrahieren
- Konvertieren Sie Tabellendaten von PDF in CSV in C#
Warum Tabellen aus PDF extrahieren?
PDF Dateien werden häufig verwendet, um Informationen in einem portablen Format zu teilen. Das Extrahieren strukturierter Daten wie Tabellen kann jedoch eine Herausforderung darstellen, da PDF Dateien nicht für eine einfache Bearbeitung oder Manipulation konzipiert sind. Indem Sie Tabellendaten programmgesteuert in C# extrahieren, können Sie die Daten leichter zugänglich machen und sie analysieren, ändern oder in verschiedenen Formaten wie CSV speichern, das häufig für den Datenaustausch zwischen verschiedenen Anwendungen verwendet wird.
PDF-Tabellenextraktion – C# API-Konfiguration
Sie können Daten aus PDF-Tabellen extrahieren, indem Sie Conholdate.Total für .NET mit dem folgenden NuGet-Installationsbefehl konfigurieren:
PM> NuGet\Install-Package Conholdate.Total
Tabelle aus PDF in C# extrahieren
In diesem Abschnitt führen wir das Extrahieren von Tabellen aus einem PDF Dokument mit C# durch.
- Laden des PDF Dokuments: Der Code beginnt mit dem Laden der PDF-Datei in ein Objekt der Dokumentklasse.
- Tabellenabsorber: Die Klasse TableAbsorber wird verwendet, um Tabellen auf jeder Seite des PDFs zu erkennen und zu absorbieren.
- Extrahieren von Tabellendaten: Der Code durchläuft jede gefundene Tabelle, extrahiert den Inhalt jeder Zelle in der Tabelle und druckt ihn in einem strukturierten Format.
Mit dieser Methode können Sie effektiv auf tabellarische Daten aus PDF Dokumenten zugreifen und programmgesteuert mit den Informationen arbeiten. Der folgende Codeausschnitt demonstriert die Tabellenextraktion in C#:
// Quell-PDF Dokument laden
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
absorber.Visit(page);
foreach (AbsorbedTable table in absorber.TableList)
{
Console.WriteLine("Table");
foreach (AbsorbedRow row in table.RowList)
{
foreach (AbsorbedCell cell in row.CellList)
{
foreach (TextFragment fragment in cell.TextFragments)
{
var sb = new StringBuilder();
foreach (TextSegment seg in fragment.Segments)
sb.Append(seg.Text);
Console.Write("{sb.ToString()}|");
}
}
Console.WriteLine();
}
}
}
Konvertieren Sie PDF-Tabellendaten in C# in CSV
Nachdem Sie Tabellendaten aus einer PDF-Datei extrahiert haben, möchten Sie diese möglicherweise in einem leichter zugänglichen Format wie CSV speichern. CSV (Comma Separated Values) wird von Anwendungen wie Microsoft Excel, Google Sheets und vielen Datenverarbeitungssystemen weitgehend unterstützt. In diesem Abschnitt konvertieren wir die PDF-Tabellendaten in C# in CSV:
Die folgenden Schritte zeigen, wie Sie Daten aus PDF-Tabellen in C# in das CSV-Format exportieren:
- Laden des PDF Dokuments: Das PDF Dokument wird wie zuvor in das Dokumentobjekt geladen.
- ExcelSaveOptions: Es wird eine Instanz von ExcelSaveOptions mit dem Format CSV erstellt. Dadurch wird sichergestellt, dass die Tabellendaten aus dem PDF direkt als CSV-Datei exportiert werden.
- Speichern der CSV-Datei: Die Methode „Speichern“ wird aufgerufen, um die PDF-Tabellendaten in eine CSV-Datei zu exportieren.
Das folgende Codebeispiel zeigt, wie man eine PDF-Tabelle in C# in das CSV-Format konvertiert:
// PDF Dokument laden
Document pdfDocument = new Document("input.pdf");
// Instanziieren Sie das ExcelSave Option Objekt
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };
// Speichern Sie die Ausgabe im XLS-Format
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);
Holen Sie sich eine kostenlose Lizenz
Sie können eine kostenlose temporäre Lizenz erhalten, um verschiedene Funktionen der API ohne jegliche Evaluierungsbeschränkungen zu testen.
Zusammenfassen
Das Extrahieren von Tabellen aus einer PDF-Datei und das Exportieren der Daten in ein CSV-Format in C# kann in C# einfach und effizient gestaltet werden. Die Möglichkeit, die Tabellenextraktion zu automatisieren, hilft in Szenarien, in denen Sie tabellarische Daten aus PDF Dateien in einem flexibleren Format wie CSV analysieren oder freigeben müssen. Indem Sie die Schritte in diesem Blogbeitrag befolgen, können Sie problemlos Tabellendaten aus Ihren PDF Dateien abrufen und speichern. Dieser Prozess ist besonders nützlich bei der Datenanalyse, beim Berichten oder bei allen Aufgaben, die strukturierte Daten aus ansonsten starren PDF Dokumenten erfordern. Bei Fragen wenden Sie sich bitte im Forum an uns.