Convert PDF to Word using Java

您可以在 Java 应用程序中以编程方式轻松地将 PDF 文档转换为 Word 文档(.docx 或 .doc)。当您需要编辑 PDF 文档的文本或可能需要应用文本格式时,这种转换很有用。在本文中,您将学习如何使用 Java 将 PDF 转换为 Word。

本文讨论/涵盖了以下主题:

用于将 PDF 转换为 Word 的 Java API

我将使用 GroupDocs.Conversion for Java APIPDF 转换为 DOCX。该 API 为 Java 应用程序提供了一种快速、高效、可靠的文件转换解决方案,无需安装任何外部软件。它支持所有流行的商业文档格式之间的转换,例如 PDF、HTML、电子邮件、Word、Excel、PowerPoint、Project、Photoshop、CorelDraw、AutoCAD、光栅图像文件格式等等。它还允许您显示整个文档,或部分渲染它以加快处理速度。该 API 与所有 Java 版本兼容,并支持能够运行 Java 运行时的流行操作系统(Windows、Linux、macOS)。

下载和配置

您可以 下载 API 的 JAR 或在您的基于 Maven 的 Java 应用程序中添加以下 pom.xml 配置来尝试下面提到的代码示例。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-conversion</artifactId>
        <version>21.7</version> 
</dependency>

使用 Java 将 PDF 转换为 Word

您可以按照以下简单步骤将 PDF 文档转换为 Word:

  1. 创建 Converter 类的实例
  2. 提供输入文件路径
  3. 创建 WordProcessingConvertOptions 的实例
  4. 设置起始页码
  5. 提供要转换的总页数
  6. 设置输出文件格式
  7. 调用 Convert() 方法以及输出文件路径和转换选项

以下代码示例展示了如何使用 Java 将 PDF 文件转换为 Word 文档。

// 创建转换器
Converter 兑换er = new Converter("C:\\Files\\sample.pdf");

// 设置 Word 转换选项
WordProcessingConvertOptions options = new WordProcessingConvertOptions();
options.setPageNumber(1);
options.setPagesCount(1);
options.setFormat(WordProcessingFileType.Docx);

// 兑换
兑换er.兑换("C:\\Files\\output.docx", options);
使用 Java 将 PDF 转换为 Word

使用 Java 将 PDF 转换为 Word

Converter 类是控制文档转换过程的主要类。它提供了多种方法来转换支持的文件格式的文档。此类的 Convert() 方法转换源文档并采用两个输入参数,源文档的文件路径和 ConvertOptions 将特定源文档转换为所需的目标文件类型。

WordProcessingConvertOptions 类提供了转换为 WordProcessing 文件类型的选项。 setPageNumber() 方法允许设置起始页码以开始转换。而 setPagesCount() 方法从定义的页码开始定义要转换的总页数。此类的 setFormat() 方法使您可以设置转换后文档的输出格式。它将 WordProcessingFileType 枚举类型作为输入。

将 PDF 的特定页面转换为 Word

您可以按照以下简单步骤将 PDF 文档的特定页面转换为 Word:

  1. 创建 Converter 类的实例
  2. 提供输入文件路径
  3. 创建 WordProcessingConvertOptions 的实例
  4. 设置要转换的页码列表
  5. 调用 Convert() 方法以及输出文件路径和转换选项

以下代码示例展示了如何使用 Java 将特定页面从 PDF 文件转换为 Word 文档。

// 创建转换器
Converter 兑换er = new Converter("C:\\Files\\sample.pdf");

// 定义 Word 转换选项
WordProcessingConvertOptions options = new WordProcessingConvertOptions();
options.setPages(Arrays.asList(2, 3));

// 兑换
兑换er.兑换("C:\\Files\\output.docx", options);

WordProcessingConvertOptions 类提供 setPages() 方法来转换源文档中以逗号分隔的列表中定义的特定页码。

加载受密码保护的 PDF 并转换为 Word

您可以按照以下简单步骤将受密码保护的 PDF 文档转换为 Word:

  1. 创建 PdfLoadOptions
  2. 设置密码
  3. 创建 Converter 类的实例
  4. 提供输入文件路径
  5. 创建 WordProcessingConvertOptions 的实例
  6. 调用 Convert() 方法以及输出文件路径和转换选项

以下代码示例展示了如何使用 Java 将受密码保护的 PDF 文件转换为 Word 文档。

// PDF 加载选项
PdfLoadOptions loadOptions = new PdfLoadOptions();
loadOptions.setPassword("password");

// 创建转换器
Converter 兑换er = new Converter("C:\\Files\\sample.pdf", loadOptions);

// 定义 Word 转换选项
WordProcessingConvertOptions options = new WordProcessingConvertOptions();

// 兑换
兑换er.兑换("C:\\Files\\output.docx", options);

PdfLoadOptions 类提供了加载 PDF 文档的各种选项。此类的 setPassword() 方法使您可以通过提供密码来解除受保护文档的保护。

您可以在文档中找到有关“使用选项加载 PDF 文档”的更多详细信息。

获得免费许可证

您可以通过请求 免费的临时许可证 来试用该 API,而不受评估限制。

结论

在本文中,您学习了如何使用 Java 将 PDF 文档转换为 Word。您还学习了如何将受密码保护的 PDF 文件转换为 Word 文档。此外,您还学习了如何以编程方式将特定页面从 PDF 转换为 Word 文档。您可以使用 文档 了解有关 GroupDocs.Conversion Java API 的更多信息。如有任何歧义,请随时在 论坛 上与我们联系。

也可以看看