Convertir PDF a Texto en Java

Convertir PDF a Texto en Java

Nuestro blog anterior post cubrió la conversión de PDF a PPTX en Java mediante programación. Sin embargo, esta publicación de blog cubrirá cómo convertir PDF a Texto en Java utilizando esta biblioteca de PDF Java. PDF y Texto son los dos formatos de archivo más utilizados en todo el mundo. Por lo tanto, utilizaremos algunos métodos destacados de esta biblioteca para realizar la conversión de PDF a texto mediante programación. Asegúrese de haber configurado Java en su máquina local antes de continuar con este tutorial.

Se cubrirán los siguientes puntos:

Instalación de la biblioteca PDF Java

El procedimiento de instalación de esta biblioteca es amigable para los desarrolladores. Esta biblioteca ha expuesto potentes características para manipular y convertir archivos PDF a otros formatos de archivo populares mediante programación. Por lo tanto, puede descargar la API o instalarla usando las siguientes configuraciones de Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Convertir PDF a Texto en Java

El proceso de conversión de PDF a texto es cuestión de unas pocas líneas de código fuente en Java. Vamos a escribir los pasos y el fragmento de código para convertir PDF a texto mediante programación.

Puede seguir los siguientes pasos:

  1. Cargue el documento PDF creando una instancia de la clase Documento.
  2. Inicializa un objeto de la clase TextAbsorber para realizar la extracción de texto y proporciona acceso al resultado.
  3. Invoque el método visit para extraer texto en la página especificada.
  4. Cree una instancia de la clase BufferedWriter y guarde el texto extraído en un archivo de texto inicializando un objeto de la clase FileWriter.
// Cargue un documento PDF creando una instancia de la clase Document  
Document pdfDocument = new Document("sample.pdf");
// Inicialice un objeto de la clase TextAbsorber para realizar la extracción de texto y proporcione acceso al resultado 
TextAbsorber ta = new TextAbsorber();
// Invocar método de visita para extraer texto en la página especificada 
ta.visit(pdfDocument);
// Cree una instancia de la clase BufferedWriter y guarde el texto extraído en un archivo de texto inicializando un objeto de la clase FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Conversión de PDF a texto: opciones avanzadas

Además, puede configurar su lógica comercial según los requisitos de su negocio. Esta biblioteca PDF Java le permite convertir páginas PDF específicas a formato de archivo de texto.

Los siguientes son los pasos para convertir páginas PDF particulares a Texto:

  1. Cree un objeto de la clase Documento y cargue el documento PDF.
  2. Inicializa un objeto de la clase TextAbsorber.
  3. Recorra el número definido de páginas y extraiga el texto de las páginas PDF llamando al método visit.
  4. Guarde el texto extraído en un archivo de texto invocando el método de escritura de la clase BufferedWriter.
// Cree un objeto de la clase Documento y cargue el documento PDF 
Document pdfDocument = new Document("sample.pdf");
// Inicializar un obecjt de la clase TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Recorra el número definido de páginas y extraiga el texto de las páginas PDF llamando al método de visita  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Guarde el texto extraído en un archivo de texto invocando el método de escritura de la clase BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Obtenga una licencia gratis

Puede obtener una licencia temporal gratuita para probar la API sin limitaciones de evaluación.

Resumiendo

Esto nos lleva al final de esta publicación de blog. Espero que hayas aprendido cómo convertir PDF a texto en Java mediante programación. Además, también hemos pasado por algunos métodos avanzados expuestos por esta biblioteca PDF Java. Además, puede consultar la documentación para conocer otros métodos útiles. conholdate.com constantemente escribe nuevas publicaciones de blog. Por lo tanto, manténgase en contacto para recibir actualizaciones periódicas.

Hacer una pregunta

Puede informarnos sobre sus preguntas o consultas en nuestro foro.

preguntas frecuentes

¿Cómo convierto un PDF a texto?

Puede instalar esta biblioteca de PDF Java para realizar la conversión de PDF a texto mediante programación. Además, puede ver una larga lista de métodos expuestos por API aquí.

¿Puede Java leer un PDF?

Utilice esta clase TextAbsorber para extraer texto de páginas PDF en Java mediante programación. Sin embargo, puede usar el método visitar en caso de que desee extraer texto de páginas específicas.

Ver también