Việc chỉnh sửa nội dung PDF theo cách lập trình có thể rất cần thiết trong các tình huống mà thông tin nhạy cảm hoặc lỗi thời phải được thay thế trước khi phát hành. Một trong những tính năng thực tế nhất trong việc thao tác với PDF là khả năng tìm kiếm một cụm từ hoặc mẫu cụ thể và thay thế nó bằng nội dung khác. Trong hướng dẫn chi tiết này, chúng tôi sẽ chứng minh cách bạn có thể tìm và thay thế văn bản trong các tập tin PDF bằng Java. Điểm nhấn sẽ là việc sử dụng Conholdate.Total mạnh mẽ cho Java SDK, cho phép các nhà phát triển thực hiện các tác vụ thao tác tài liệu mạnh mẽ bao gồm việc xóa và thay thế chỉ với vài dòng mã.

Chúng tôi sẽ đề cập đến hai kịch bản quan trọng. Kịch bản đầu tiên sẽ giải thích cách xác định một từ hoặc cụm từ chính xác trong một tệp PDF và thay thế nó. Kịch bản thứ hai sẽ hướng dẫn cách sử dụng biểu thức chính quy để khớp và thay thế các mẫu biến thể như số điện thoại, số tài khoản hoặc các định dạng dữ liệu tùy chỉnh khác.

Tại sao tìm và thay thế văn bản trong các tệp PDF?

  • Đảm bảo quyền riêng tư và tuân thủ: Dễ dàng xóa dữ liệu cá nhân hoặc bí mật trước khi xuất bản hoặc chia sẻ tệp PDF.

  • Cập nhật tài liệu hiệu quả: Tự động thay thế các thuật ngữ hoặc nội dung lỗi thời trong một loạt các tập tin lớn.

  • Các tùy chọn tìm kiếm văn bản linh hoạt: Sử dụng cả việc khớp cụm từ chính xác và biểu thức chính quy để xóa thông tin một cách toàn diện.

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

  • Automation Friendly: Tích hợp vào quy trình Java cho xử lý theo lô và các tác vụ tự động hóa tài liệu.

Tìm và Thay thế Văn bản trong PDF sử dụng Java - Cài đặt SDK

Để xóa bỏ tài liệu PDF, bạn phải cấu hình Conholdate.Total for Java SDK trong môi trường của bạn. Bạn có thể tải xuống tệp DLL từ phần Các Phiên Bản Mới hoặc sử dụng lệnh cài đặt NuGet bên dưới trong Visual Studio:

Install-Package Conholdate.Total

Tìm và Thay thế Văn bản trong PDF bằng Java

Khi xử lý các tài liệu PDF chứa thông tin nhạy cảm như tên, chi tiết liên lạc hoặc số nhận diện tổ chức, thường có nhu cầu chỉnh sửa hoặc thay thế những từ này trước khi chia sẻ tệp. Conholdate.Total cho Java SDK cung cấp một cách đơn giản để thực hiện điều này. Ví dụ sau đây minh họa cách tìm kiếm một từ hoặc cụm từ khớp chính xác và thay thế nó bằng một văn bản thay thế hoặc văn bản khác.

final Redactor redactor  = new Redactor("path/document.docx");
redactor.apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
// If you want to save the redacted file at different location with diferent name.
FileOutputStream stream = new FileOutputStream("path/exactPhrase.docx");
RasterizationOptions rasterOptions = new RasterizationOptions();
rasterOptions.setEnabled(false);
redactor.save(stream, rasterOptions);

Trong đoạn mã này, SDK quét tệp PDF để tìm cụm từ "John Doe" và thay thế mỗi thể hiện bằng thuật ngữ "[censored]". Hoạt động này đặc biệt hữu ích trong việc tự động xóa thông tin cá nhân có thể nhận dạng được từ các tài liệu. Tùy chọn AddSuffix đảm bảo tệp gốc không bị thay đổi bằng cách lưu phiên bản đã chỉnh sửa dưới dạng một tệp mới, trong khi cờ RasterizeToPDF giữ cho đầu ra dưới dạng PDF dựa trên văn bản thay vì chuyển đổi nó thành hình ảnh.

Tìm và Thay thế Văn bản trong PDF bằng Biểu thức Chính quy trong Java

Đôi khi, văn bản cần được thay thế trong một PDF không tuân theo định dạng cố định. Ví dụ, các mẫu như số hóa đơn, mã bưu chính hoặc số nhận dạng có thể khác nhau từ tài liệu này sang tài liệu khác. Trong các tình huống như vậy, các biểu thức chính quy cung cấp một giải pháp động. Conholdate.Total cho Java SDK cho phép các nhà phát triển định nghĩa các mẫu regex để phát hiện và thay thế các cấu trúc văn bản phức tạp trong một PDF.

// Find text using regular expression and replace it with some other text using Java
final Redactor redactor  = new Redactor("path/document.docx");
redactor.apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
redactor.save();

Biểu thức chính quy được sử dụng trong đoạn mã này khớp với một mẫu thường được sử dụng cho các mã định dạng, chẳng hạn như tham chiếu ngân hàng hoặc mã định danh giao dịch. Bất kỳ văn bản nào phù hợp với mẫu này đều được tự động xác định và thay thế bằng một nhãn đã được định nghĩa trước như "[censored]". Mức độ linh hoạt này đảm bảo rằng bạn có thể bảo vệ thông tin nhạy cảm ngay cả khi bạn không biết nội dung chính xác của nó trước.

Kết luận

Tìm kiếm và thay thế văn bản trong tài liệu PDF bằng Java chưa bao giờ dễ dàng hơn, nhờ vào các khả năng được cung cấp bởi Conholdate.Total cho Java. Cho dù bạn đang thay thế một từ cụ thể hay tìm kiếm các mẫu biến với biểu thức chính quy, SDK này đảm bảo rằng bạn có thể thao tác nội dung PDF của mình với độ chính xác và kiểm soát. Khả năng xóa thông tin nhạy cảm, tự động cập nhật và duy trì định dạng tài liệu khiến đây trở thành một công cụ mạnh mẽ cho các nhà phát triển trên nhiều ngành. Tích hợp nó vào các dự án Java của bạn ngay hôm nay và đơn giản hóa quy trình xử lý tài liệu của bạn với sự tự tin.

Xem thêm