使用 Java 将 PDF 转换为 HTML

PDF 提供共享和打印只读文档而不会丢失文档格式。我们可以轻松地将 PDF 文档转换为 HTML 网页并在任何浏览器中查看。在本文中,我们将学习如何使用 Java 将 PDF 文档转换为 HTML 网页。

本文将涵盖以下主题:

用于将 PDF 转换为 HTML 的 Java API — 免费下载

为了将 PDF 转换为 HTML,我们将使用 GroupDocs.Conversion for Java API。它为最终用户提供快速、高效、可靠的文件转换解决方案。请下载 API 的 JAR 或在基于 Maven 的 Java 应用程序中添加以下 pom.xml 配置。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-conversion</artifactId>
        <version>21.10.1</version> 
</dependency>

使用 Java 将 PDF 转换为 HTML

我们可以按照下面给出的简单步骤,以编程方式轻松地将 PDF 文档转换为 HTML 网页:

  1. 首先,使用 Converter 类加载 PDF 文档。
  2. 接下来,创建 MarkupConvertOptions 类的实例。
  3. 然后,可选择设置各种转换选项,如 FixedLayout、FixedLayoutShowBorders 等。
  4. 最后,使用 Converter.Convert() 方法将 PDF 转换为 HTML。它将输出文件路径和转换选项作为参数。

以下代码示例展示了如何使用 Java 将 PDF 文档转换为 HTML 网页。

// 此代码示例演示如何将 PDF 文档转换为 HTML 文件。
// 初始化转换类对象
兑换er converter = new 兑换er("C:\\Files\\Conversion\\sample.pdf");

// 定义转换选项
Markup兑换Options options = new Markup兑换Options();
options.setFixedLayout(true);

// 兑换
String outputFile =  "C:\\Files\\Conversion\\sample.html";
converter.convert(outputFile, options);
使用 Java 将 PDF 转换为 HTML

使用 Java 将 PDF 转换为 HTML。

将页面范围从 PDF 转换为 HTML

我们可以按照以下步骤将 PDF 文档的一系列页面转换为 HTML:

  1. 首先,使用 Converter 类加载 PDF 文档。
  2. 接下来,创建 MarkupConvertOptions 类的实例。
  3. 然后,设置页码以开始转换。
  4. 之后,设置页数以转换总页数。
  5. 最后,使用 Converter.Convert() 方法将 PDF 转换为 HTML。

以下代码示例展示了如何使用 Java 将一系列页面从 PDF 文档转换为 HTML 文件。

// 此代码示例演示如何将一系列 PDF 页面转换为 HTML 文件。
// 初始化转换类对象
兑换er converter = new 兑换er("C:\\Files\\Conversion\\sample.pdf");

// 定义转换选项
Markup兑换Options options = new Markup兑换Options();
options.setPageNumber(1);	// Starting page number
options.setPagesCount(2);	// Total number of pages to convert

// 兑换
String outputFile =  "C:\\Files\\Conversion\\sample_N_pages.html";
converter.convert(outputFile, options);

将 PDF 的特定页面转换为 HTML

我们可以按照以下步骤将 PDF 文档的特定页面转换为 HTML:

  1. 首先,使用 Converter 类加载 PDF 文档。
  2. 接下来,创建 MarkupConvertOptions 类的实例。
  3. 然后,在逗号分隔的列表中提供要转换的特定页码。
  4. 最后,使用 Converter.Convert() 方法将 PDF 转换为 HTML。

以下代码示例展示了如何使用 Java 将 PDF 文档的特定页面转换为 HTML 文件。

// 此代码示例演示如何将 PDF 文档的特定页面转换为 HTML 文件。
// 初始化转换类对象
兑换er converter = new 兑换er("C:\\Files\\Conversion\\sample.pdf");

// 定义转换选项
Markup兑换Options options = new Markup兑换Options();
options.setPages(Arrays.asList( 1, 3)); // Page numbers to convert

// 兑换
String outputFile =  "C:\\Files\\Conversion\\sample_pages.html";
converter.convert(outputFile, options);

在 Java 中将受密码保护的 PDF 转换为 HTML

我们还可以按照以下步骤将受密码保护的 PDF 文档转换为 HTML 网页:

  1. 首先,使用 PdfLoadOptions 类对象提供密码。
  2. 接下来,使用带有 PdfLoadOptions 的 Converter 类加载 PDF 文档。
  3. 然后,创建 MarkupConvertOptions 类的实例。
  4. 最后,使用 Converter.Convert() 方法将 PDF 转换为 HTML。

以下代码示例展示了如何使用 Java 将受密码保护的 PDF 文档转换为 HTML 文档。

// 此代码示例演示如何将受密码保护的 PDF 转换为 HTML。
// 定义负载选项
PdfLoadOptions loadOptions = new PdfLoadOptions();
loadOptions.setPassword("12345");

// 初始化转换类对象
兑换er converter = new 兑换er("C:\\Files\\Conversion\\sample.pdf", loadOptions);

// 定义转换选项
Markup兑换Options options = new Markup兑换Options();

// 兑换
String outputFile =  "C:\\Files\\Conversion\\sample.html";
converter.convert(outputFile, options);

Java 中带水印的 PDF 到 HTML 转换

我们可以按照以下步骤将 PDF 文档转换为 HTML 网页,并为转换后的 HTML 文件添加水印:

  1. 首先,使用 Converter 类加载 PDF 文档。
  2. 接下来,创建 WatermarkOptions 类的实例。
  3. 然后,设置各种选项,如文本、颜色、宽度、高度、字体等。
  4. 接下来,创建 MarkupConvertOptions 类的实例。
  5. 之后,将 WatermarkOptions 分配给 MarkupConvertOptions。
  6. 最后,使用 Converter.Convert() 方法将 PDF 转换为 HTML。

以下代码示例展示了如何将 PDF 文档转换为带有水印的 HTML 文档。

// 此代码示例演示如何将 PDF 转换为带水印的 HTML。
// 初始化转换类对象
兑换er converter = new 兑换er("C:\\Files\\Conversion\\sample.pdf");

// 定义水印 
WatermarkOptions watermark = new WatermarkOptions();
watermark.setText("This is a Sample watermark");
watermark.setColor(Color.red);
watermark.setWidth(500);
watermark.setHeight(100);
watermark.setTop(0);
watermark.setLeft(300);
watermark.setBackground(true);

// 定义转换选项
Markup兑换Options options = new Markup兑换Options();
options.setWatermark(watermark);

// 输出文件路径
String outputFile =  "C:\\Files\\Conversion\\sampleWithWatermark.html";

// 兑换
converter.convert(outputFile, options);
Java 中带水印的 PDF 到 HTML 转换

Java 中带水印的 PDF 到 HTML 转换。

获得免费许可证

请通过请求 免费的临时许可证 来尝试不受评估限制的 API。

结论

在本文中,我们学习了如何使用 Java 将 PDF 文档转换为 HTML 网页。我们还了解了如何将受密码保护的 PDF 文件转换为 HTML 并以编程方式向转换后的文件添加水印。此外,您可以使用 documentation 了解有关 Java API 的 GroupDocs.Conversion 的更多信息。如有任何歧义,请随时在 论坛 上与我们联系。

也可以看看