Converter PDF em texto em Java

Converter PDF em texto em Java

Nosso blog anterior post cobriu a conversão de PDF para PPTX em Java programaticamente. No entanto, esta postagem de blog abordará como converter PDF em Texto em Java usando esta biblioteca PDF Java. PDF e Texto são os dois formatos de arquivo mais usados em todo o mundo. Portanto, usaremos alguns métodos proeminentes desta biblioteca para realizar a conversão de PDF para Texto programaticamente. Certifique-se de ter configurado o Java em sua máquina local antes de prosseguir neste tutorial.

Os seguintes pontos devem ser cobertos:

Instalação da Biblioteca Java PDF

O procedimento de instalação desta biblioteca é amigável ao desenvolvedor. Esta biblioteca expôs recursos poderosos para manipular e converter arquivos PDF para outros formatos de arquivo populares programaticamente. Portanto, você pode baixar a API ou instalá-la usando as seguintes configurações do Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Converter PDF em texto em Java

O processo de conversão de PDF para texto é uma questão de algumas linhas de código-fonte em Java. Vamos escrever as etapas e o trecho de código para converter PDF em texto programaticamente.

Você pode seguir os seguintes passos:

  1. Carregue o documento PDF criando uma instância da classe Document.
  2. Inicialize um objeto da classe TextAbsorber para realizar a extração de texto e fornecer acesso ao resultado.
  3. Invoque o método visit para extrair texto na página especificada.
  4. Instancie uma instância da classe BufferedWriter e salve o texto extraído em um arquivo de texto inicializando um objeto da classe FileWriter.
// Carregar documento PDF criando uma instância da classe Document  
Document pdfDocument = new Document("sample.pdf");
// Inicialize um objeto da classe TextAbsorber para realizar a extração de texto e fornecer acesso ao resultado 
TextAbsorber ta = new TextAbsorber();
// Invocar método visit para extrair texto na página especificada 
ta.visit(pdfDocument);
// Instancie uma instância da classe BufferedWriter e salve o texto extraído em arquivo de texto inicializando um objeto da classe FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Conversão de PDF para Texto - opções avançadas

Além disso, você pode configurar sua lógica de negócios de acordo com seus requisitos de negócios. Esta biblioteca Java PDF permite converter páginas PDF específicas para o formato de arquivo de texto.

A seguir estão as etapas para converter páginas PDF específicas em texto:

  1. Crie um objeto da classe Document e carregue o documento PDF.
  2. Inicialize um objeto da classe TextAbsorber.
  3. Percorra o número de páginas definido e extraia o texto das páginas do PDF chamando o método visit.
  4. Salve o texto extraído em um arquivo de texto invocando o método write da classe BufferedWriter.
// Crie um objeto da classe Document e carregue o documento PDF 
Document pdfDocument = new Document("sample.pdf");
// Inicialize um obecjt da classe TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Percorra o número de páginas definido e extraia o texto das páginas PDF chamando o método visit  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Salve o texto extraído no arquivo de texto invocando o método write da classe BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para experimentar a API sem limitações de avaliação.

Resumindo

Isso nos leva ao final desta postagem no blog. Espero que você tenha aprendido como converter PDF para texto em Java programaticamente. Além disso, também passamos por alguns métodos avançados expostos por esta biblioteca Java PDF. Além disso, você pode acessar a documentação para conhecer outros métodos úteis. conholdate.com está constantemente escrevendo novas postagens no blog. Portanto, por favor, fique em contato para atualizações regulares.

Faça uma pergunta

Você pode nos informar sobre suas perguntas ou dúvidas em nosso fórum.

Perguntas frequentes

Como converter um PDF em texto?

Você pode instalar este PDF Java biblioteca para realizar a conversão de PDF para texto programaticamente. Além disso, você pode ver uma longa lista de métodos expostos pela API aqui.

Java pode ler um PDF?

Use esta classe TextAbsorber para extrair texto de páginas PDF em Java programaticamente. No entanto, você pode usar o método visit caso queira extrair texto de páginas específicas.

Veja também