Konversi PDF ke Teks di Jawa

Konversi PDF ke Teks di Jawa

Blog posting kami sebelumnya membahas konversi PDF ke PPTX di Java secara terprogram. Namun, postingan blog ini akan membahas cara mengonversi PDF menjadi Teks di Java menggunakan library PDF Java ini. PDF dan Teks adalah dua format file yang paling banyak digunakan di seluruh dunia. Oleh karena itu, kami akan menggunakan beberapa metode terkemuka dari pustaka ini untuk melakukan konversi PDF ke Teks secara terprogram. Pastikan Anda telah menyiapkan Java di mesin lokal Anda sebelum melanjutkan ke tutorial ini. Poin-poin berikut akan dibahas:

Instalasi Perpustakaan Java PDF

Prosedur instalasi perpustakaan ini ramah pengembang. Pustaka ini telah memperlihatkan [fitur] yang kuat 9 untuk memanipulasi dan mengonversi file PDF ke format file populer lainnya secara terprogram. Oleh karena itu, Anda dapat mengunduh API atau menginstalnya menggunakan konfigurasi Maven berikut.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Konversi PDF ke Teks di Jawa

Proses Konversi PDF ke Teks adalah masalah beberapa baris kode sumber di Java. Kami akan menulis langkah-langkah dan cuplikan kode untuk mengonversi PDF ke Teks secara terprogram. Anda dapat mengikuti langkah-langkah berikut:

  1. Muat dokumen PDF dengan membuat instance dari kelas Document.
  2. Inisialisasi objek dari kelas TextAbsorber untuk melakukan ekstraksi teks dan menyediakan akses ke hasilnya.
  3. Aktifkan metode kunjungan untuk mengekstrak teks pada halaman yang ditentukan.
  4. Buat instance dari kelas BufferedWriter dan simpan teks yang diekstraksi dalam file teks dengan menginisialisasi objek dari kelas FileWriter.
    // Load PDF document by creating an instance of the Document class
    Document pdfDocument = new Document("sample.pdf");
    // Initialize an object of TextAbsorber class to perform text extraction and provides access to the result
    TextAbsorber ta = new TextAbsorber();
    // Invoke visit method to extract text on the specified page
    ta.visit(pdfDocument);
    // Instantiate an instance of the BufferedWriter class and save the extracted text in text file by initializing an object of FileWriter class
    BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
    writer.write(ta.getText());
    writer.close();

Konversi PDF ke Teks - opsi lanjutan

Selain itu, Anda dapat mengonfigurasi logika bisnis sesuai kebutuhan bisnis Anda. Pustaka Java PDF ini memungkinkan Anda mengonversi halaman PDF tertentu ke format file Teks. Berikut adalah langkah-langkah untuk mengonversi halaman PDF tertentu menjadi Teks:

  1. Buat objek dari kelas Document dan muat dokumen PDF.
  2. Inisialisasi objek dari kelas TextAbsorber.
  3. Ulangi jumlah halaman yang ditentukan dan ekstrak teks dari halaman PDF dengan memanggil metode kunjungi.
  4. Simpan teks yang diekstrak dalam file teks dengan memanggil metode tulis dari kelas BufferedWriter.
    // Create an object of the Document class and load PDF document
    Document pdfDocument = new Document("sample.pdf");
    // Initialize an obecjt of the TextAbsorber class
    TextAbsorber ta = new TextAbsorber();
    int[] pages = new int[] { 1, 2, 3};
    // Loop through the defined number of pages and exract the text from the PDF pages by calling the visit method
    for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
    }
    // Save the extracted text in text file by invoking the write method of the BufferedWriter class
    BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
    writer.write(ta.getText());
    writer.close();

Dapatkan Lisensi Gratis

Anda mungkin mendapatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.

Menyimpulkan

Ini membawa kita ke akhir posting blog ini. Semoga Anda telah mempelajari cara mengonversi PDF ke Teks di Java secara terprogram. Selain itu, kami juga telah melalui beberapa metode lanjutan yang dipaparkan oleh perpustakaan Java PDF ini. Selain itu, Anda dapat melihat dokumentasi untuk mengetahui metode berguna lainnya. conholdate.com secara konsisten menulis posting blog baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan rutin.

Berikan pertanyaan

Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.

FAQ

Bagaimana cara mengonversi PDF menjadi teks? Anda dapat menginstal PDF Java library ini untuk melakukan konversi PDF ke Teks secara terprogram. Selain itu, Anda dapat melihat daftar panjang metode yang diekspos oleh API di sini. Bisakah Java membaca PDF? Gunakan kelas TextAbsorber ini untuk mengekstrak teks dari halaman PDF di Java secara terprogram. Namun, Anda dapat menggunakan metode kunjungi jika Anda ingin mengekstrak teks dari halaman tertentu.

Lihat juga