我们之前的博客 post 以编程方式介绍了 Java 中的 PDF 到 PPTX 转换。但是,这篇博文将介绍如何使用这个 PDF Java 库 将 PDF 转换为 Java 中的 Text。 PDF 和文本是全球使用最广泛的两种文件格式。因此,我们将使用该库的一些突出方法以编程方式执行 PDF 到文本的转换。在继续学习本教程之前,请确保您已在本地计算机上设置 Java。
应涵盖以下几点:
PDF Java 库安装
该库的安装过程对开发人员友好。该库公开了强大的 功能 以编程方式操作 PDF 文件并将其转换为其他流行的文件格式。因此,您可以 下载 API 或使用以下 Maven 配置安装它。
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
在 Java 中将 PDF 转换为文本
PDF 到文本的转换过程只需几行 Java 源代码。我们将编写以编程方式将 PDF 转换为文本的步骤和代码片段。
您可以按照以下步骤操作:
- 通过创建 Document 类的实例来加载 PDF 文档。
- 初始化 TextAbsorber 类的对象以执行文本提取并提供对结果的访问。
- 调用 visit 方法提取指定页面上的文本。
- 实例化 BufferedWriter 类的实例,并通过初始化 FileWriter 类的对象将提取的文本保存在文本文件中。
// 通过创建 Document 类的实例来加载 PDF 文档
Document pdfDocument = new Document("sample.pdf");
// 初始化 TextAbsorber 类的对象以执行文本提取并提供对结果的访问
TextAbsorber ta = new TextAbsorber();
// 调用访问方法提取指定页面上的文本
ta.visit(pdfDocument);
// 实例化 BufferedWriter 类的实例,并通过初始化 FileWriter 类的对象将提取的文本保存在文本文件中
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
PDF 到文本转换 - 高级选项
此外,您可以根据业务需求配置业务逻辑。这个 PDF Java 库允许您将特定的 PDF 页面转换为文本文件格式。
以下是将特定 PDF 页面转换为文本的步骤:
- 创建 Document 类的对象并加载 PDF 文档。
- 初始化 TextAbsorber 类的对象。
- 通过调用 visit 方法循环遍历定义的页数并从 PDF 页面中提取文本。
- 通过调用 BufferedWriter 类的 write 方法将提取的文本保存在文本文件中。
// 创建 Document 类的对象并加载 PDF 文档
Document pdfDocument = new Document("sample.pdf");
// 初始化 TextAbsorber 类的对象
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 循环遍历定义的页数并通过调用 visit 方法从 PDF 页面中提取文本
for (int page : pages) {
ta.visit(pdfDocument.getPages().get_Item(page));
}
// 通过调用 BufferedWriter 类的 write 方法将提取的文本保存在文本文件中
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
获得免费许可证
您可能会获得 免费临时许可证 来试用 API,而不受评估限制。
加起来
这将我们带到这篇博文的结尾。希望您已经学会了如何以编程方式将 PDF 转换为 Java 中的文本。此外,我们还浏览了这个 PDF Java 库公开的一些高级方法。此外,您可以通过 文档 了解其他有用的方法。 conholdate.com 一直在撰写新的博客文章。因此,请保持联系以获取定期更新。
问一个问题
您可以在我们的 论坛 上告诉我们您的问题或疑问。
常见问题
如何将 PDF 转换为文本?
您可以安装此 PDF Java 库 以编程方式执行 PDF 到文本的转换。此外,您可以在 此处 中查看 API 公开的一长串方法。
Java可以阅读PDF吗?
使用这个 TextAbsorber 类以编程方式从 Java 中的 PDF 页面中提取文本。但是,如果您想从特定页面中提取文本,可以使用 visit 方法。