Konvertieren Sie PDF in Text in Java

Konvertieren Sie PDF in Text in Java

Unser vorheriger Blog Beitrag behandelte die programmgesteuerte Konvertierung von PDF in PPTX in Java. In diesem Blog-Beitrag wird jedoch behandelt, wie Sie PDF mit dieser PDF-Java-Bibliothek in Java in Text konvertieren. PDF und Text sind die beiden weltweit am häufigsten verwendeten Dateiformate. Daher werden wir einige bekannte Methoden dieser Bibliothek verwenden, um eine PDF-zu-Text-Konvertierung programmgesteuert durchzuführen. Stellen Sie sicher, dass Sie Java auf Ihrem lokalen Computer eingerichtet haben, bevor Sie mit diesem Tutorial fortfahren.

Folgende Punkte sollen abgedeckt werden:

Installation der PDF-Java-Bibliothek

Der Installationsvorgang dieser Bibliothek ist entwicklerfreundlich. Diese Bibliothek bietet leistungsstarke Funktionen zum programmgesteuerten Bearbeiten und Konvertieren von PDF-Dateien in andere gängige Dateiformate. Daher können Sie die API herunterladen oder mit den folgenden Maven-Konfigurationen installieren.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Konvertieren Sie PDF in Text in Java

Der PDF-zu-Text-Konvertierungsprozess ist eine Sache von ein paar Zeilen Quellcode in Java. Wir werden die Schritte und das Code-Snippet schreiben, um PDF programmgesteuert in Text zu konvertieren.

Sie können die folgenden Schritte ausführen:

  1. Laden Sie das PDF-Dokument, indem Sie eine Instanz der Klasse Dokument erstellen.
  2. Initialisiert ein Objekt der Klasse TextAbsorber, um eine Textextraktion durchzuführen, und bietet Zugriff auf das Ergebnis.
  3. Rufen Sie die Methode visit auf, um Text auf der angegebenen Seite zu extrahieren.
  4. Instanziieren Sie eine Instanz der Klasse BufferedWriter und speichern Sie den extrahierten Text in einer Textdatei, indem Sie ein Objekt der Klasse FileWriter initialisieren.
// Laden Sie das PDF-Dokument, indem Sie eine Instanz der Document-Klasse erstellen  
Document pdfDocument = new Document("sample.pdf");
// Initialisiert ein Objekt der TextAbsorber-Klasse, um eine Textextraktion durchzuführen, und bietet Zugriff auf das Ergebnis 
TextAbsorber ta = new TextAbsorber();
// Rufen Sie die Methode visit auf, um Text auf der angegebenen Seite zu extrahieren 
ta.visit(pdfDocument);
// Instanziieren Sie eine Instanz der BufferedWriter-Klasse und speichern Sie den extrahierten Text in einer Textdatei, indem Sie ein Objekt der FileWriter-Klasse initialisieren  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Konvertierung von PDF in Text – erweiterte Optionen

Darüber hinaus können Sie Ihre Geschäftslogik gemäß Ihren Geschäftsanforderungen konfigurieren. Mit dieser PDF-Java-Bibliothek können Sie bestimmte PDF-Seiten in das Textdateiformat konvertieren.

Im Folgenden sind die Schritte zum Konvertieren bestimmter PDF-Seiten in Text aufgeführt:

  1. Erstellen Sie ein Objekt der Klasse Document und laden Sie das PDF-Dokument.
  2. Initialisiert ein Objekt der Klasse TextAbsorber.
  3. Durchlaufen Sie die definierte Anzahl von Seiten und extrahieren Sie den Text aus den PDF-Seiten, indem Sie die Methode visit aufrufen.
  4. Speichern Sie den extrahierten Text in einer Textdatei, indem Sie die Write-Methode der BufferedWriter-Klasse aufrufen.
// Erstellen Sie ein Objekt der Document-Klasse und laden Sie das PDF-Dokument 
Document pdfDocument = new Document("sample.pdf");
// Initialisiert ein Objekt der TextAbsorber-Klasse  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Durchlaufen Sie die definierte Anzahl von Seiten und extrahieren Sie den Text aus den PDF-Seiten, indem Sie die Methode visit aufrufen  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Speichern Sie den extrahierten Text in einer Textdatei, indem Sie die Write-Methode der BufferedWriter-Klasse aufrufen   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Holen Sie sich eine kostenlose Lizenz

Möglicherweise erhalten Sie eine kostenlose temporäre Lizenz, um die API ohne Evaluierungseinschränkungen zu testen.

Zusammenfassen

Damit sind wir am Ende dieses Blogbeitrags angelangt. Ich hoffe, Sie haben gelernt, wie man PDF programmgesteuert in Text in Java umwandelt. Darüber hinaus haben wir auch einige fortgeschrittene Methoden durchlaufen, die von dieser PDF-Java-Bibliothek bereitgestellt werden. Darüber hinaus können Sie die Dokumentation durchgehen, um andere nützliche Methoden kennenzulernen. conholdate.com schreibt ständig neue Blogbeiträge. Bitte bleiben Sie daher für regelmäßige Updates in Kontakt.

Stelle eine Frage

Sie können uns Ihre Fragen oder Anliegen in unserem Forum mitteilen.

Häufig gestellte Fragen

Wie konvertiere ich ein PDF in Text?

Sie können diese PDF-Java-Bibliothek installieren, um eine PDF-zu-Text-Konvertierung programmgesteuert durchzuführen. Außerdem können Sie hier eine lange Liste von Methoden sehen, die von der API verfügbar gemacht werden.

Kann Java ein PDF lesen?

Verwenden Sie diese TextAbsorber-Klasse, um Text programmgesteuert aus PDF-Seiten in Java zu extrahieren. Sie können jedoch die Methode visit verwenden, falls Sie Text von bestimmten Seiten extrahieren möchten.

Siehe auch