Memodifikasi konten PDF secara programatis dapat menjadi penting dalam skenario di mana informasi yang sensitif atau usang harus diganti sebelum distribusi. Salah satu fitur yang paling praktis dalam manipulasi PDF adalah kemampuan untuk mencari frasa atau pola tertentu dan menggantinya dengan konten alternatif. Dalam panduan rinci ini, kami akan menunjukkan bagaimana Anda dapat menemukan dan mengganti teks dalam file PDF menggunakan Java. Fokusnya akan pada penggunaan Conholdate.Total yang kuat untuk Java SDK, yang memungkinkan pengembang untuk melakukan tugas manipulasi dokumen yang kuat termasuk penghapusan dan penggantian hanya dengan beberapa baris kode.

Kami akan membahas dua skenario penting. Yang pertama akan menjelaskan bagaimana cara menemukan kata atau frasa yang tepat dalam sebuah PDF dan menggantinya. Yang kedua akan menjelaskan penggunaan ekspresi reguler untuk mencocokkan dan menggantikan pola variabel seperti nomor telepon, nomor akun, atau format data kustom lainnya.

Mengapa Mencari dan Mengganti Teks dalam Berkas PDF?

  • Pastikan Privasi dan Kepatuhan: Hapus dengan mudah data pribadi atau rahasia sebelum menerbitkan atau membagikan file PDF.

  • Perbarui Dokumen Secara Efisien: Secara otomatis mengganti istilah atau konten yang usang di seluruh kumpulan berkas besar.

  • Opsi Pencarian Teks Fleksibel: Manfaatkan pencocokan frasa tepat dan ekspresi reguler untuk redaksi yang komprehensif.

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

  • Automation Friendly: Integrasi ke dalam alur kerja Java untuk pemrosesan batch dan tugas otomatisasi dokumen.

Temukan dan Ganti Teks di PDF menggunakan Java - Instalasi SDK

Untuk meredaksi dokumen PDF, Anda harus mengonfigurasi Conholdate.Total untuk Java SDK di lingkungan Anda. Anda dapat mengunduh file DLL dari bagian Rilis Baru atau menggunakan perintah instalasi NuGet di bawah ini di Visual Studio:

Install-Package Conholdate.Total

Temukan dan Ganti Teks dalam PDF menggunakan Java

Ketika menangani dokumen PDF yang mengandung informasi sensitif seperti nama, detail kontak, atau pengidentifikasi organisasi, sering kali ada kebutuhan untuk menyensor atau mengganti kata-kata tersebut sebelum membagikan file. Conholdate.Total untuk Java SDK menyediakan cara yang sederhana untuk mencapai ini. Contoh berikut menunjukkan bagaimana mencari kecocokan tepat dari sebuah kata atau frasa dan menggantinya dengan teks pengganti atau alternatif.

final Redactor redactor  = new Redactor("path/document.docx");
redactor.apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
// If you want to save the redacted file at different location with diferent name.
FileOutputStream stream = new FileOutputStream("path/exactPhrase.docx");
RasterizationOptions rasterOptions = new RasterizationOptions();
rasterOptions.setEnabled(false);
redactor.save(stream, rasterOptions);

Dalam potongan ini, SDK memindai file PDF untuk frasa “John Doe” dan menggantikan setiap instansinya dengan istilah “[censored]”. Operasi ini sangat berguna dalam mengotomatisasi penghapusan informasi pribadi yang dapat diidentifikasi dari dokumen. Opsi AddSuffix memastikan file asli tetap utuh dengan menyimpan versi yang diedit sebagai file baru, sementara flag RasterizeToPDF menjaga output sebagai PDF berbasis teks daripada mengubahnya menjadi gambar.

Temukan dan Ganti Teks dalam PDF dengan Ekspresi Reguler di Java

Terkadang, teks yang perlu diganti dalam PDF tidak mengikuti format yang tetap. Misalnya, pola seperti nomor faktur, kode pos, atau nomor identifikasi dapat bervariasi dari dokumen ke dokumen. Dalam situasi seperti itu, ekspresi reguler menawarkan solusi yang dinamis. Conholdate.Total untuk Java SDK memungkinkan pengembang untuk mendefinisikan pola regex untuk mendeteksi dan mengganti struktur teks yang kompleks dalam PDF.

// Find text using regular expression and replace it with some other text using Java
final Redactor redactor  = new Redactor("path/document.docx");
redactor.apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
redactor.save();

Ekspresi reguler yang digunakan dalam kode ini mencocokkan pola yang umum digunakan untuk kode format, seperti referensi bank atau pengidentifikasi transaksi. Teks apa pun yang sesuai dengan pola ini secara otomatis ditemukan dan diganti dengan label yang telah ditentukan seperti "[censored]". Tingkat fleksibilitas ini memastikan Anda dapat melindungi informasi sensitif bahkan ketika Anda tidak tahu isi pastinya sebelumnya.

Kesimpulan

Menemukan dan mengganti teks dalam dokumen PDF menggunakan Java tidak pernah semudah ini, berkat kemampuan yang ditawarkan oleh Conholdate.Total untuk Java. Apakah Anda mengganti kata tertentu atau mencari pola variabel dengan ekspresi reguler, SDK ini memastikan bahwa Anda dapat memanipulasi konten PDF Anda dengan ketelitian dan kontrol. Kemampuan untuk menghapus informasi sensitif, mengotomatiskan pembaruan, dan mempertahankan format dokumen menjadikannya alat yang kuat bagi para pengembang di berbagai industri. Integrasikan ke dalam proyek Java Anda hari ini dan permudah alur kerja pemrosesan dokumen Anda dengan percaya diri.

Lihat Juga