Converti PDF in testo in Java

Converti PDF in testo in Java

Il nostro blog precedente post copriva la conversione da PDF a PPTX in Java in modo programmatico. Tuttavia, questo post del blog tratterà come convertire PDF in Testo in Java usando questo PDF Java libreria. PDF e Testo sono i due formati di file più utilizzati in tutto il mondo. Pertanto, utilizzeremo alcuni metodi importanti di questa libreria per eseguire la conversione da PDF a testo in modo programmatico. Assicurati di aver configurato Java sulla tua macchina locale prima di andare avanti in questo tutorial.

Devono essere trattati i seguenti punti:

Installazione della libreria Java in PDF

La procedura di installazione di questa libreria è di facile utilizzo per gli sviluppatori. Questa libreria ha esposto potenti caratteristiche per manipolare e convertire i file PDF in altri formati di file popolari in modo programmatico. Pertanto, puoi scaricare l’API o installarla utilizzando le seguenti configurazioni Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Converti PDF in testo in Java

Il processo di conversione da PDF a testo è una questione di poche righe di codice sorgente in Java. Scriveremo i passaggi e lo snippet di codice per convertire i PDF in testo a livello di codice.

Puoi seguire i seguenti passaggi:

  1. Carica il documento PDF creando un’istanza della classe Document.
  2. Inizializza un oggetto della classe TextAbsorber per eseguire l’estrazione del testo e fornisce l’accesso al risultato.
  3. Richiama il metodo visit per estrarre il testo nella pagina specificata.
  4. Crea un’istanza della classe BufferedWriter e salva il testo estratto in un file di testo inizializzando un oggetto della classe FileWriter.
// Carica il documento PDF creando un'istanza della classe Document  
Document pdfDocument = new Document("sample.pdf");
// Inizializza un oggetto della classe TextAbsorber per eseguire l'estrazione del testo e fornisce l'accesso al risultato 
TextAbsorber ta = new TextAbsorber();
// Richiama il metodo visit per estrarre il testo nella pagina specificata 
ta.visit(pdfDocument);
// Istanziare un'istanza della classe BufferedWriter e salvare il testo estratto in un file di testo inizializzando un oggetto della classe FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Conversione da PDF a testo - opzioni avanzate

Inoltre, puoi configurare la tua logica aziendale secondo i tuoi requisiti aziendali. Questa libreria PDF Java ti consente di convertire pagine PDF specifiche in formato file di testo.

Di seguito sono riportati i passaggi per convertire particolari pagine PDF in testo:

  1. Crea un oggetto della classe Document e carica il documento PDF.
  2. Inizializza un oggetto della classe TextAbsorber.
  3. Scorri il numero di pagine definito ed estrai il testo dalle pagine PDF chiamando il metodo visit.
  4. Salva il testo estratto in un file di testo invocando il metodo di scrittura della classe BufferedWriter.
// Crea un oggetto della classe Document e carica il documento PDF 
Document pdfDocument = new Document("sample.pdf");
// Inizializza un oggetto della classe TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Scorri il numero di pagine definito ed estrai il testo dalle pagine PDF chiamando il metodo visit  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Salva il testo estratto nel file di testo richiamando il metodo di scrittura della classe BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Ottieni una licenza gratuita

Puoi ottenere una licenza temporanea gratuita per provare l’API senza limitazioni di valutazione.

Riassumendo

Questo ci porta alla fine di questo post sul blog. Spero che tu abbia imparato a convertire PDF in testo in Java in modo programmatico. Inoltre, abbiamo anche esaminato alcuni metodi avanzati esposti da questa libreria PDF Java. Inoltre, puoi consultare la documentazione per conoscere altri metodi utili. conholdate.com scrive costantemente nuovi post sul blog. Pertanto, si prega di rimanere in contatto per aggiornamenti regolari.

Fai una domanda

Puoi farci sapere le tue domande o richieste sul nostro forum.

Domande frequenti

Come posso convertire un PDF in testo?

È possibile installare questa libreria PDF Java per eseguire la conversione da PDF a testo in modo programmatico. Inoltre, puoi vedere un lungo elenco di metodi esposti dall’API qui.

Java può leggere un PDF?

Usa questa classe TextAbsorber per estrarre il testo dalle pagine PDF in Java in modo programmatico. Tuttavia, puoi utilizzare il metodo visita nel caso in cui desideri estrarre il testo da pagine specifiche.

Guarda anche