Chuyển đổi Word sang HTML trong Java

Chuyển đổi Word sang HTML trong Java

Bài đăng trên blog này là dành cho bạn nếu bạn muốn phát triển trình chuyển đổi [Word] sang HTML cho ứng dụng kinh doanh của mình. Bạn có thể cài đặt [thư viện] Java Word này để chuyển đổi các tệp Docx sang các định dạng phổ biến khác như HTML, PNG, PDF, v.v. Tuy nhiên, đến cuối hướng dẫn này, bạn sẽ có kiến thức tốt về thư viện Java chuyển đổi tệp này. Vì vậy, chúng ta hãy bắt đầu bài viết và tìm hiểu cách chuyển đổi Word sang HTML trong Java bằng lập trình.

Các điểm sau đây sẽ được đề cập:

Cài đặt thư viện Java Word

Quá trình cài đặt của thư viện này rất thân thiện với nhà phát triển vì bạn tìm thấy tài liệu toàn diện về việc phát triển và cài đặt. Vì vậy, bạn có thể tải xuống tệp JAR hoặc cài đặt thư viện này bằng các cấu hình Maven sau.

<repository>
   <id>AsposeJavaAPI</id>
   <name>Aspose Java API</name>
   <url>https://releases.aspose.com/java/repo/</url>
 </repository> 
<dependency>
  <groupId>com.aspose</groupId>
  <artifactId>aspose-words</artifactId>
  <version>22.10</version>
  <classifier>jdk17</classifier>
</dependency>

Chuyển đổi Word sang HTML trong Java

Bạn đã sẵn sàng viết mã nguồn trong ứng dụng Java của mình để xây dựng trình chuyển đổi Word sang HTML theo chương trình.

Sau đây là các bước để chuyển đổi Word sang HTML:

  1. Tạo một phiên bản của lớp Document và tải tệp Word nguồn.
  2. Khởi tạo một đối tượng của lớp HtmlSaveOptions để chỉ định các tùy chọn bổ sung khi lưu tài liệu sang định dạng HTML.
  3. Gọi setExportRoundtripInformation để chỉ định có ghi thông tin khứ hồi khi lưu vào HTML hay không.
  4. Nếu giá trị của phương thức setExportFontResources là đúng, tài nguyên phông chữ sẽ được xuất sang HTML.
  5. Gọi phương thức setExportFontsAsBase64 để chỉ định xem có nên nhúng tài nguyên phông chữ vào HTML ở dạng mã hóa Base64 hay không.
  6. Bây giờ, phương thức save sẽ lưu tài liệu Word ở định dạng HTML.

Sao chép và dán đoạn mã sau vào tệp chính của bạn:

// Tạo một phiên bản của lớp Tài liệu và tải tệp Word nguồn. 
Document doc = new Document(  "sample.doc");
// Khởi tạo một đối tượng của lớp HtmlSaveOptions để chỉ định các tùy chọn bổ sung khi lưu tài liệu sang định dạng HTML.  
HtmlSaveOptions options = new HtmlSaveOptions();
// Gọi setExportRoundtripInformation để chỉ định có ghi thông tin khứ hồi khi lưu vào HTML hay không.
options.setExportRoundtripInformation(true);
// Nếu giá trị của phương thức setExportFontResources là đúng, tài nguyên phông chữ sẽ được xuất sang HTML.
options.setExportFontResources(true);
// Gọi phương thức setExportFontsAsBase64 để chỉ định xem có nên nhúng tài nguyên phông chữ vào HTML trong mã hóa Base64 hay không.
options.setExportFontsAsBase64(true);
// Bây giờ, phương thức lưu sẽ lưu tài liệu Word ở định dạng HTML.  
doc.save("Document_out.html", SaveFormat.HTML);

Đầu ra có thể được nhìn thấy trong hình ảnh dưới đây:

từ sang html

Nhận giấy phép miễn phí

Bạn có thể tận dụng giấy phép tạm thời miễn phí để dùng thử API mà không bị giới hạn về đánh giá.

Tổng hợp

Chúng ta có thể kết thúc bài viết blog này ở đây. Hy vọng rằng bạn thích bài viết này và đã học được cách chuyển đổi Word sang HTML trong Java theo chương trình. Có rất nhiều tính năng khác được thư viện Java Word này cung cấp, vì vậy đừng quên truy cập tài liệu.

Hơn nữa, chúng tôi khuyên bạn nên làm theo Hướng dẫn bắt đầu của chúng tôi.

Cuối cùng, conholdate.com đang viết bài blog mới. Vì vậy, hãy giữ liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Bạn có thể cho chúng tôi biết về các câu hỏi hoặc thắc mắc của bạn trên diễn đàn của chúng tôi.

Câu hỏi thường gặp

Làm cách nào để chuyển đổi DOCX sang HTML?

Tạo một phiên bản của lớp Tài liệu và tải tệp Word nguồn, đồng thời gọi phương thức save để lưu tệp Word ở định dạng HTML.

Xem thêm