Extrair tabela de PDF em C#

Extrair tabelas de arquivos PDF pode ser uma tarefa comum ao lidar com extração ou análise de dados. Não importa se você está tentando recuperar tabelas para processamento ou exportá-las para uso posterior, automatizar esse processo pode economizar tempo e esforço. Nesta postagem do blog, mostraremos como extrair tabelas de um PDF em C# ou exportar os dados extraídos para um arquivo CSV.

Abordaremos as seguintes seções neste artigo:

Por que extrair tabelas de PDF?
Extração de tabela PDF - Configuração da API C#
Extrair tabela de PDF em C#
Converter dados de tabela de PDF para CSV em C#

Por que extrair tabelas de PDF?

Arquivos PDF são amplamente usados para compartilhar informações em um formato portátil. No entanto, extrair dados estruturados como tabelas pode ser desafiador porque arquivos PDF não são projetados para edição ou manipulação fácil. Ao extrair dados de tabela programaticamente em C#, você pode tornar os dados mais acessíveis, permitindo que você analise, modifique ou armazene os dados em diferentes formatos como CSV, que é amplamente usado para troca de dados entre diferentes aplicativos.

Extração de tabela PDF - Configuração da API C#

Você pode extrair dados de tabelas PDF configurando Conholdate.Total para .NET com o comando de instalação do NuGet abaixo:

PM> NuGet\Install-Package Conholdate.Total

Extrair tabela de PDF em C#

Nesta seção, mostraremos como extrair tabelas de um documento PDF usando C#.

Carregando o documento PDF: O código começa carregando o arquivo PDF em um objeto de classe Document.
Absorvente de Tabela: A classe TableAbsorber é usada para detectar e absorver tabelas em cada página do PDF.
Extraindo dados da tabela: o código itera por cada tabela encontrada, extraindo o conteúdo de cada célula da tabela e imprimindo-o em um formato estruturado.

Este método fornece uma maneira eficaz de acessar dados tabulares de documentos PDF, permitindo que você trabalhe com as informações programaticamente. O trecho de código abaixo demonstra a extração de tabela em C#:

// Carregar documento PDF de origem
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
    Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (AbsorbedTable table in absorber.TableList)
    {
        Console.WriteLine("Table");
        foreach (AbsorbedRow row in table.RowList)
        {
            foreach (AbsorbedCell cell in row.CellList)
            {
                foreach (TextFragment fragment in cell.TextFragments)
                {
                    var sb = new StringBuilder();
                    foreach (TextSegment seg in fragment.Segments)
                        sb.Append(seg.Text);
                    Console.Write("{sb.ToString()}|");
                }
            }
            Console.WriteLine();
        }
    }
}

Converter dados de tabela PDF para CSV em C#

Depois de extrair os dados da tabela de um PDF, você pode querer salvá-los em um formato mais acessível, como CSV. CSV (Comma Separated Values) é amplamente suportado por aplicativos como Microsoft Excel, Planilhas Google e muitos sistemas de processamento de dados. Nesta seção, converteremos os dados da tabela PDF para CSV em C#:

As etapas a seguir mostram como exportar dados de tabelas PDF para o formato CSV em C#:

Carregando o documento PDF: O documento PDF é carregado no objeto Documento como antes.
ExcelSaveOptions: Uma instância de ExcelSaveOptions é criada com o formato definido como CSV. Isso garante que os dados da tabela do PDF sejam exportados diretamente como um arquivo CSV.
Salvando o arquivo CSV: O método Save é chamado para exportar os dados da tabela PDF para um arquivo .csv.

O exemplo de código abaixo mostra como converter uma tabela PDF para o formato CSV em C#:

// Carregar documento PDF
Document pdfDocument = new Document("input.pdf");

// Instanciar objeto ExcelSave Option
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };

// Salvar a saída no formato XLS
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);

Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para testar diferentes recursos da API sem nenhuma limitação de avaliação.

Resumindo

Extrair tabelas de um PDF e exportar os dados para um formato CSV em C# pode ser feito de forma simples e eficiente em C#. A capacidade de automatizar a extração de tabelas ajuda em cenários onde você precisa analisar ou compartilhar dados tabulares de PDFs em um formato mais flexível como CSV. Seguindo as etapas nesta postagem do blog, você pode facilmente recuperar e armazenar dados de tabelas de seus arquivos PDF. Este processo é especialmente útil em análise de dados, relatórios ou qualquer tarefa que exija dados estruturados de documentos PDF rígidos. Em caso de dúvidas, entre em contato conosco no fórum.

Por que extrair tabelas de PDF?#

Extração de tabela PDF - Configuração da API C##

Extrair tabela de PDF em C##

Converter dados de tabela PDF para CSV em C##

Obtenha uma licença gratuita#

Resumindo#

Veja também#

Por que extrair tabelas de PDF?

Extração de tabela PDF - Configuração da API C#

Extrair tabela de PDF em C#

Converter dados de tabela PDF para CSV em C#

Obtenha uma licença gratuita

Resumindo

Veja também