
Het extraheren van tabellen uit PDF-bestanden kan een veelvoorkomende taak zijn bij het extraheren of analyseren van gegevens. Of u nu tabellen wilt ophalen voor verwerking of ze wilt exporteren voor verder gebruik, het automatiseren van dit proces kan tijd en moeite besparen. In deze blogpost laten we u zien hoe u tabellen uit een PDF in C# kunt extraheren of de geëxtraheerde gegevens kunt exporteren naar een CSV-bestand.
In dit artikel behandelen we de volgende onderdelen:
- Waarom tabellen uit PDF extraheren?
- PDF-tabelextractie - C# API-configuratie
- Tabel uit PDF extraheren in C#
- Converteer tabelgegevens van PDF naar CSV in C#
Waarom tabellen uit PDF extraheren?
PDF-bestanden worden veel gebruikt om informatie te delen in een draagbaar formaat. Het extraheren van gestructureerde gegevens zoals tabellen kan echter een uitdaging zijn, omdat PDF-bestanden niet zijn ontworpen voor eenvoudige bewerking of manipulatie. Door tabelgegevens programmatisch te extraheren in C#, kunt u de gegevens toegankelijker maken, zodat u de gegevens kunt analyseren, wijzigen of opslaan in verschillende formaten zoals CSV, dat veel wordt gebruikt voor gegevensuitwisseling tussen verschillende toepassingen.
PDF-tabelextractie - C# API-configuratie
U kunt gegevens uit PDF-tabellen halen door Conholdate.Total voor .NET te configureren met de onderstaande NuGet-installatieopdracht:
PM> NuGet\Install-Package Conholdate.Total
Tabel uit PDF extraheren in C#
In dit gedeelte laten we zien hoe u tabellen uit een PDF-document kunt extraheren met behulp van C#.
- Het PDF-document laden: de code start met het laden van het PDF-bestand in een object van de Document-klasse.
- Table Absorber: De klasse TableAbsorber wordt gebruikt om tabellen op elke pagina van de PDF te detecteren en te absorberen.
- Gegevens uit tabellen extraheren: de code doorloopt elke gevonden tabel, extraheert de inhoud van elke cel in de tabel en drukt deze af in een gestructureerde indeling.
Deze methode biedt een effectieve manier om toegang te krijgen tot tabelgegevens uit PDF-documenten, zodat u programmatisch met de informatie kunt werken. Het onderstaande codefragment demonstreert de tabelextractie in C#:
// Bron PDF-document laden
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
absorber.Visit(page);
foreach (AbsorbedTable table in absorber.TableList)
{
Console.WriteLine("Table");
foreach (AbsorbedRow row in table.RowList)
{
foreach (AbsorbedCell cell in row.CellList)
{
foreach (TextFragment fragment in cell.TextFragments)
{
var sb = new StringBuilder();
foreach (TextSegment seg in fragment.Segments)
sb.Append(seg.Text);
Console.Write("{sb.ToString()}|");
}
}
Console.WriteLine();
}
}
}
PDF-tabelgegevens converteren naar CSV in C#
Nadat u tabelgegevens uit een PDF hebt geëxtraheerd, wilt u deze mogelijk opslaan in een toegankelijker formaat zoals CSV. CSV (Comma Separated Values) wordt breed ondersteund door applicaties zoals Microsoft Excel, Google Sheets en veel gegevensverwerkingssystemen. In deze sectie zullen we de PDF-tabelgegevens converteren naar CSV in C#:
De volgende stappen laten zien hoe u gegevens uit PDF-tabellen naar CSV-formaat in C# kunt exporteren:
- Het PDF-document laden: Het PDF-document wordt zoals eerder in het Document-object geladen.
- ExcelSaveOptions: Er wordt een exemplaar van ExcelSaveOptions gemaakt met de indeling ingesteld op CSV. Dit zorgt ervoor dat de tabelgegevens uit de PDF rechtstreeks worden geëxporteerd als een CSV-bestand.
- Het CSV-bestand opslaan: De Save-methode wordt aangeroepen om de PDF-tabelgegevens te exporteren naar een .csv-bestand.
Het onderstaande codevoorbeeld laat zien hoe u een PDF-tabel naar CSV-formaat converteert in C#:
// PDF-document laden
Document pdfDocument = new Document("input.pdf");
// Instantieer ExcelSave Option-object
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };
// Sla de uitvoer op in XLS-formaat
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);
Ontvang een gratis licentie
U kunt een gratis tijdelijke licentie krijgen om verschillende functies van de API te testen zonder enige evaluatiebeperkingen.
Samenvattend
Het extraheren van tabellen uit een PDF en het exporteren van de data naar een CSV-formaat in C# kan eenvoudig en efficiënt worden gemaakt in C#. De mogelijkheid om tabelextractie te automatiseren helpt in scenario’s waarin u tabelgegevens uit PDF’s moet analyseren of delen in een flexibeler formaat zoals CSV. Door de stappen in deze blogpost te volgen, kunt u eenvoudig tabelgegevens uit uw PDF-bestanden ophalen en opslaan. Dit proces is vooral handig bij gegevensanalyse, rapportage of elke taak waarvoor gestructureerde gegevens uit anderszins rigide PDF-documenten nodig zijn. Neem bij vragen contact met ons op via het forum.