在 Java 中将 PDF 转换为文本

在 Java 中将 PDF 转换为文本

我们之前的博客 post 以编程方式介绍了 Java 中的 PDFPPTX 转换。但是,这篇博文将介绍如何使用这个 PDF Java 将 PDF 转换为 Java 中的 Text。 PDF 和文本是全球使用最广泛的两种文件格式。因此,我们将使用该库的一些突出方法以编程方式执行 PDF 到文本的转换。在继续学习本教程之前,请确保您已在本地计算机上设置 Java。

应涵盖以下几点:

PDF Java 库安装

该库的安装过程对开发人员友好。该库公开了强大的 功能 以编程方式操作 PDF 文件并将其转换为其他流行的文件格式。因此,您可以 下载 API 或使用以下 Maven 配置安装它。

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

在 Java 中将 PDF 转换为文本

PDF 到文本的转换过程只需几行 Java 源代码。我们将编写以编程方式将 PDF 转换为文本的步骤和代码片段。

您可以按照以下步骤操作:

  1. 通过创建 Document 类的实例来加载 PDF 文档。
  2. 初始化 TextAbsorber 类的对象以执行文本提取并提供对结果的访问。
  3. 调用 visit 方法提取指定页面上的文本。
  4. 实例化 BufferedWriter 类的实例,并通过初始化 FileWriter 类的对象将提取的文本保存在文本文件中。
// 通过创建 Document 类的实例来加载 PDF 文档  
Document pdfDocument = new Document("sample.pdf");
// 初始化 TextAbsorber 类的对象以执行文本提取并提供对结果的访问 
TextAbsorber ta = new TextAbsorber();
// 调用访问方法提取指定页面上的文本 
ta.visit(pdfDocument);
// 实例化 BufferedWriter 类的实例,并通过初始化 FileWriter 类的对象将提取的文本保存在文本文件中  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

PDF 到文本转换 - 高级选项

此外,您可以根据业务需求配置业务逻辑。这个 PDF Java 库允许您将特定的 PDF 页面转换为文本文件格式。

以下是将特定 PDF 页面转换为文本的步骤:

  1. 创建 Document 类的对象并加载 PDF 文档。
  2. 初始化 TextAbsorber 类的对象。
  3. 通过调用 visit 方法循环遍历定义的页数并从 PDF 页面中提取文本。
  4. 通过调用 BufferedWriter 类的 write 方法将提取的文本保存在文本文件中。
// 创建 Document 类的对象并加载 PDF 文档 
Document pdfDocument = new Document("sample.pdf");
// 初始化 TextAbsorber 类的对象  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 循环遍历定义的页数并通过调用 visit 方法从 PDF 页面中提取文本  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// 通过调用 BufferedWriter 类的 write 方法将提取的文本保存在文本文件中   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

获得免费许可证

您可能会获得 免费临时许可证 来试用 API,而不受评估限制。

加起来

这将我们带到这篇博文的结尾。希望您已经学会了如何以编程方式将 PDF 转换为 Java 中的文本。此外,我们还浏览了这个 PDF Java 库公开的一些高级方法。此外,您可以通过 文档 了解其他有用的方法。 conholdate.com 一直在撰写新的博客文章。因此,请保持联系以获取定期更新。

问一个问题

您可以在我们的 论坛 上告诉我们您的问题或疑问。

常见问题

如何将 PDF 转换为文本?

您可以安装此 PDF Java 以编程方式执行 PDF 到文本的转换。此外,您可以在 此处 中查看 API 公开的一长串方法。

Java可以阅读PDF吗?

使用这个 TextAbsorber 类以编程方式从 Java 中的 PDF 页面中提取文本。但是,如果您想从特定页面中提取文本,可以使用 visit 方法。

也可以看看