Chuyển đổi PDF thành văn bản trong Java

Chuyển đổi PDF thành văn bản trong Java

Blog bài đăng trước đây của chúng tôi đề cập đến việc chuyển đổi PDF sang PPTX trong Java theo chương trình. Tuy nhiên, bài đăng trên blog này sẽ đề cập đến cách chuyển đổi PDF thành Văn bản trong Java bằng [thư viện Java] PDF này 5. PDF và Văn bản là hai định dạng tệp được sử dụng rộng rãi nhất trên toàn cầu. Do đó, chúng tôi sẽ sử dụng một số phương pháp nổi bật của thư viện này để thực hiện chuyển đổi PDF sang Văn bản theo chương trình. Hãy đảm bảo rằng bạn đã thiết lập Java trên máy cục bộ của mình trước khi tiếp tục phần hướng dẫn này.

Các điểm sau đây sẽ được đề cập:

Cài đặt thư viện Java PDF

Quy trình cài đặt của thư viện này thân thiện với nhà phát triển. Thư viện này đã cung cấp các tính năng mạnh mẽ để thao tác và chuyển đổi tệp PDF sang các định dạng tệp phổ biến khác theo chương trình. Do đó, bạn có thể tải xuống API hoặc cài đặt nó bằng các cấu hình Maven sau.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Chuyển đổi PDF thành văn bản trong Java

Quá trình chuyển đổi PDF sang Văn bản chỉ là một vài dòng mã nguồn trong Java. Chúng tôi sẽ viết các bước và đoạn mã để chuyển đổi PDF thành Văn bản theo chương trình.

Bạn có thể làm theo các bước sau:

  1. Tải tài liệu PDF bằng cách tạo một phiên bản của lớp Tài liệu.
  2. Khởi tạo một đối tượng của lớp TextAbsorber để thực hiện trích xuất văn bản và cung cấp quyền truy cập vào kết quả.
  3. Gọi phương thức visit để trích xuất văn bản trên trang được chỉ định.
  4. Khởi tạo một thể hiện của lớp BufferedWriter và lưu văn bản được trích xuất vào tệp văn bản bằng cách khởi tạo một đối tượng của lớp FileWriter.
// Tải tài liệu PDF bằng cách tạo một phiên bản của lớp Tài liệu  
Document pdfDocument = new Document("sample.pdf");
// Khởi tạo một đối tượng của lớp TextAbsorber để thực hiện trích xuất văn bản và cung cấp quyền truy cập vào kết quả 
TextAbsorber ta = new TextAbsorber();
// Gọi phương thức truy cập để trích xuất văn bản trên trang được chỉ định 
ta.visit(pdfDocument);
// Khởi tạo một thể hiện của lớp BufferedWriter và lưu văn bản được trích xuất vào tệp văn bản bằng cách khởi tạo một đối tượng của lớp FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Chuyển đổi PDF sang văn bản - tùy chọn nâng cao

Ngoài ra, bạn có thể định cấu hình logic nghiệp vụ theo yêu cầu nghiệp vụ của mình. Thư viện PDF Java này cho phép bạn chuyển đổi các trang PDF cụ thể sang định dạng tệp Văn bản.

Sau đây là các bước để chuyển đổi các trang PDF cụ thể thành Văn bản:

  1. Tạo một đối tượng của lớp Document và tải tài liệu PDF.
  2. Khởi tạo một đối tượng của lớp TextAbsorber.
  3. Lặp lại số trang đã xác định và trích xuất văn bản từ các trang PDF bằng cách gọi phương thức visit.
  4. Lưu văn bản được trích xuất vào tệp văn bản bằng cách gọi phương thức ghi của lớp BufferedWriter.
// Tạo một đối tượng của lớp Tài liệu và tải tài liệu PDF 
Document pdfDocument = new Document("sample.pdf");
// Khởi tạo một obecjt của lớp TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Lặp lại số trang đã xác định và trích xuất văn bản từ các trang PDF bằng cách gọi phương thức truy cập  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Lưu văn bản được trích xuất vào tệp văn bản bằng cách gọi phương thức ghi của lớp BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Nhận giấy phép miễn phí

Bạn có thể nhận được giấy phép tạm thời miễn phí để dùng thử API mà không bị giới hạn về đánh giá.

Tổng hợp

Điều này đưa chúng ta đến phần cuối của bài viết blog này. Hy vọng bạn đã học được cách chuyển đổi PDF thành Văn bản trong Java theo chương trình. Ngoài ra, chúng ta cũng đã tìm hiểu một số phương pháp nâng cao được thư viện PDF Java này đưa ra. Hơn nữa, bạn có thể xem qua tài liệu để biết các phương pháp hữu ích khác. conholdate.com liên tục viết các bài đăng blog mới. Vì vậy, hãy giữ liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Bạn có thể cho chúng tôi biết về các câu hỏi hoặc thắc mắc của bạn trên diễn đàn của chúng tôi.

Câu hỏi thường gặp

Làm cách nào để chuyển đổi PDF thành văn bản?

Bạn có thể cài đặt thư viện PDF PDF này để thực hiện chuyển đổi PDF sang Văn bản theo chương trình. Ngoài ra, bạn có thể xem danh sách dài các phương thức được API hiển thị tại đây.

Java có thể đọc PDF không?

Sử dụng lớp TextAbsorber này để trích xuất văn bản từ các trang PDF trong Java theo chương trình. Tuy nhiên, bạn có thể sử dụng phương pháp visit trong trường hợp bạn muốn trích xuất văn bản từ các trang cụ thể.

Xem thêm