Konwertuj plik PDF na tekst w Javie

Konwertuj plik PDF na tekst w Javie

Nasz poprzedni blog post omawiał programową konwersję PDF do PPTX w Javie. Jednak w tym wpisie na blogu omówimy, jak przekonwertować plik PDF na Tekst w Javie przy użyciu tej [biblioteki] PDF Java 5. PDF i tekst to dwa najczęściej używane formaty plików na świecie. Dlatego użyjemy kilku znanych metod tej biblioteki do programowej konwersji plików PDF na tekst. Zanim przejdziesz dalej w tym samouczku, upewnij się, że skonfigurowałeś Java na komputerze lokalnym.

Uwzględnione zostaną następujące punkty:

Instalacja biblioteki Java w formacie PDF

Procedura instalacji tej biblioteki jest przyjazna dla programistów. Ta biblioteka udostępniła potężne funkcje pozwalające programowo manipulować plikami PDF i konwertować je na inne popularne formaty. Dlatego możesz pobrać interfejs API lub zainstalować go, korzystając z następujących konfiguracji Mavena.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Konwertuj plik PDF na tekst w Javie

Proces konwersji pliku PDF na tekst to kwestia kilku linijek kodu źródłowego w Javie. Zamierzamy napisać kroki i fragment kodu, aby programowo przekonwertować plik PDF na tekst.

Możesz wykonać następujące kroki:

  1. Załaduj dokument PDF, tworząc instancję klasy Document.
  2. Zainicjuj obiekt klasy TextAbsorber, aby przeprowadzić ekstrakcję tekstu i zapewnić dostęp do wyniku.
  3. Wywołaj metodę visit, aby wyodrębnić tekst na określonej stronie.
  4. Utwórz instancję klasy BufferedWriter i zapisz wyodrębniony tekst w pliku tekstowym, inicjując obiekt klasy FileWriter.
// Załaduj dokument PDF, tworząc instancję klasy Document  
Document pdfDocument = new Document("sample.pdf");
// Zainicjuj obiekt klasy TextAbsorber, aby wyodrębnić tekst i zapewnić dostęp do wyniku 
TextAbsorber ta = new TextAbsorber();
// Wywołaj metodę wizyty, aby wyodrębnić tekst na określonej stronie 
ta.visit(pdfDocument);
// Utwórz instancję klasy BufferedWriter i zapisz wyodrębniony tekst w pliku tekstowym, inicjując obiekt klasy FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Konwersja PDF na tekst - opcje zaawansowane

Ponadto możesz skonfigurować logikę biznesową zgodnie z wymaganiami biznesowymi. Ta biblioteka PDF Java umożliwia konwersję określonych stron PDF do formatu pliku tekstowego.

Poniżej przedstawiono kroki konwersji poszczególnych stron PDF na tekst:

  1. Utwórz obiekt klasy Document i załaduj dokument PDF.
  2. Zainicjuj obiekt klasy TextAbsorber.
  3. Przejdź przez zdefiniowaną liczbę stron i wyodrębnij tekst ze stron PDF, wywołując metodę visit.
  4. Zapisz wyodrębniony tekst w pliku tekstowym, wywołując metodę zapisu klasy BufferedWriter.
// Utwórz obiekt klasy Document i załaduj dokument PDF 
Document pdfDocument = new Document("sample.pdf");
// Zainicjuj obiekt klasy TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Przejdź przez zdefiniowaną liczbę stron i wyodrębnij tekst ze stron PDF, wywołując metodę odwiedzenia  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Zapisz wyodrębniony tekst w pliku tekstowym, wywołując metodę write klasy BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Zdobądź bezpłatną licencję

Możesz otrzymać bezpłatną licencję tymczasową, aby wypróbować interfejs API bez ograniczeń ewaluacyjnych.

Podsumowując

W ten sposób dotarliśmy do końca tego wpisu na blogu. Mam nadzieję, że nauczyłeś się programowo konwertować pliki PDF na tekst w Javie. Ponadto przeszliśmy przez kilka zaawansowanych metod udostępnianych przez tę bibliotekę Java w formacie PDF. Co więcej, możesz przejrzeć dokumentację, aby poznać inne przydatne metody. conholdate.com konsekwentnie pisze nowe posty na blogu. Dlatego też prosimy o kontakt w celu otrzymywania regularnych aktualizacji.

Zadać pytanie

Możesz dać nam znać o swoich pytaniach lub wątpliwościach na naszym forum.

Często zadawane pytania

Jak przekonwertować plik PDF na tekst?

Możesz zainstalować tę [bibliotekę] PDF Java [bibliotekę], aby programowo przeprowadzić konwersję plików PDF na tekst. Ponadto możesz zobaczyć długą listę metod udostępnianych przez API tutaj.

Czy Java może odczytać plik PDF?

Użyj tej klasy TextAbsorber, aby programowo wyodrębnić tekst ze stron PDF w Javie. Możesz jednak użyć metody odwiedź, jeśli chcesz wyodrębnić tekst z określonych stron.

Zobacz też