Converter PDF em texto em C#

Converter PDF em texto em C#

Recentemente, publicamos algumas postagens no blog, como converting PDF to HTML e PDF to Images programaticamente. Este artigo nos ensinará como converter PDF para texto em C# usando uma .NET OCR library. Como desenvolvedor .NET, você pode facilmente usar esta biblioteca para converter arquivos para outros formatos de arquivo populares. Além disso, há uma rica pilha de recursos para automatizar o processo de extração de texto de documentos PDF. No entanto, escreveremos as etapas e o trecho de código para demonstrar a extração de texto de um arquivo PDF digitalizado.

Os seguintes pontos serão abordados neste artigo:

Instalação da biblioteca .NET OCR

Esta biblioteca é poderosa e oferece documentação abrangente sobre desenvolvimento e uso. Você pode converter e processar vários formatos de arquivo de forma rápida e eficiente.

Para instalar essa API em seu projeto .NET, você pode baixar os arquivos DLL ou executar o seguinte comando no gerenciador de pacotes NuGet.

Install-Package Aspose.OCR

Como converter PDF em texto em C

A extração de texto de um arquivo PDF digitalizado é bastante fácil e é uma questão de algumas linhas de código-fonte em C#.

Por favor, siga os passos mencionados abaixo:

  1. Crie um objeto da classe AsposeOcr.
  2. Inicialize uma instância da classe DocumentRecognitionSettings para reconhecer imagens do PDF.
  3. Defina o valor da propriedade DetectAreas para habilitar a detecção automática de áreas de texto.
  4. Crie uma lista de tipos RecognitionResult, extraia texto de documentos PDF digitalizados chamando o método RecognizePdf e atribua o resultado à lista.

Copie e cole o código a seguir para converter PDF em TEXTO em C#.


string fullPath =   "sample.pdf";
// Crie um objeto da classe AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Inicialize uma instância da classe DocumentRecognitionSettings para reconhecer imagens de PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// defina o valor da propriedade DetectAreas para habilitar a detecção automática de áreas de texto 
set.DetectAreas = false;
// crie uma lista do tipo RecognitionResult, extraia o documento PDF digitalizado em formato de texto chamando o método RecognizePdf e atribua o resultado à lista  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Imprimir resultado
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Conversão de PDF para Texto - opções avançadas

Nesta seção, exploraremos mais essa biblioteca. Ele também permite que você reconheça PDFs digitalizados do fluxo.

Seguem os passos:

  1. Instancie uma instância da classe AsposeOcr.
  2. Crie uma instância da classe MemoryStream para reconhecer o PDF do fluxo.
  3. Inicialize o construtor de FileStream e carregue o arquivo de origem.
  4. Invoque o método CopyTo para gravar os bytes no fluxo de memória.
  5. Crie um objeto da classe DocumentRecognitionSettings que reconheça imagens de PDF.
  6. Crie uma lista de tipos RecognitionResult e inicialize com os resultados do método RecognizePdf.

string fullPath =   "final.pdf";
// instanciar uma instância da classe AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Crie uma instância da classe MemoryStream para reconhecer o pdf do stream     
using (MemoryStream ms = new MemoryStream())
{
    // Inicialize o construtor de FileStream e carregue o arquivo de origem  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Invoque o método CopyTo para gravar os bytes no fluxo de memória.  
        file.CopyTo(ms);
        // Crie um objeto da classe DocumentRecognitionSettings que reconheça imagens de PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Crie uma lista do tipo RecognitionResult e inicialize com os resultados do método RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Imprimir resultado
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para experimentar a API sem limitações de avaliação.

Resumindo

Isso nos leva ao final desta postagem no blog. Você aprendeu como converter PDF em texto em C# programaticamente. Além disso, também exploramos alguns métodos avançados oferecidos por esta biblioteca .NET OCR. Além disso, você pode visitar a documentação para conhecer outras funcionalidades. Este guia certamente o ajudará se você estiver procurando equipar seu aplicativo com um conversor de PDF para texto. Além disso, conholdate.com está escrevendo novas postagens no blog sobre novos tópicos. Portanto, por favor, fique em contato para atualizações regulares.

Faça uma pergunta

Você pode nos informar sobre suas perguntas ou dúvidas em nosso fórum.

Perguntas frequentes

Como faço para converter um PDF em texto programaticamente?

Você pode converter PDF para texto em C# usando este .NET OCR biblioteca. Ele expõe o método RecognizePdf que executa essa ação com eficiência.

Qual é a maneira mais fácil de converter PDF em texto

Você pode visitar a documentação desta biblioteca para conhecer os métodos com os quais você pode extrair os dados de arquivos PDF digitalizados programaticamente.

Veja também