PDF 转 DOCX OCR

PDF 文件是一种普遍存在的文档共享格式,但有时您需要从中编辑或提取文本。 Microsoft Word 的 DOCX 格式是最流行的文档编辑选择之一。在这篇博文中,我们将向您展示如何使用 C# 通过光学字符识别 (OCR) 将 PDF 转换为 DOCX。 OCR 技术可以帮助从扫描的 PDF 或基于图像的 PDF 中提取文本,使其成为文档转换的多功能工具。

带 OCR 的 PDF 到 DOCX 转换器 - C# API 安装

要使用 C# 中的 OCR 将 PDF 转换为 DOCX Word 文档,您需要配置 Conholdate.Total for .NET。您可以使用 Visual Studio IDE 中的 NuGet 包管理器插件轻松完成此操作,或运行以下 NuGet 安装命令:

PM> NuGet\Install-Package Conholdate.Total

在 C# 中使用 OCR 将 PDF 转换为 DOCX

您可以使用 C# 中的 OCR 将 PDF 转换为 Word 文档,步骤如下:

  • 创建 OcrInput 类的对象。
  • 加载源 PDF 文档。
  • 识别文档中的文本。
  • 以 Microsoft Word (DOCX) 格式保存可编辑文档。

以下示例代码是如何使用 C# 中的 OCR 将 PDF 转换为 DOCX 的示例:

// 加载扫描的 PDF 文档
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// 识别文档中的文本
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 以 Microsoft Word (DOCX) 格式保存可编辑文档
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

使用 C# 中的预处理过滤器通过 OCR 将扫描的 PDF 转换为 DOCX

您可以使用不同的设置,通过 OCR 增强扫描的 PDF 到 DOCX 的转换。例如,设置不同的预处理过滤器以提高准确性,例如对源文件进行纠偏或去噪。以下步骤详细介绍了在 C# 中使用 OCR 将扫描的 PDF 转换为 DOCX 的高级方法:

  • 设置预处理过滤器。
  • 初始化 OcrInput 类的实例。
  • 识别文档中的文本。
  • 将识别的文本保存为 Word DOCX 文档。

下面的代码片段详细介绍了如何使用 C# 中的预处理过滤器通过 OCR 将扫描的 PDF 转换为 DOCX:

// 设置处理过滤器
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// 加载扫描的 PDF 文档
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// 识别文档中的文本
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 以 Microsoft Word (DOCX) 格式保存可编辑文档
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

免费评估许可证

您可以获得免费评估许可证来不受任何限制地评估 API。

加起来

在这篇博文中,您学习了如何使用 C# 中的 OCR 将 PDF 转换为 DOCX。您可以轻松地从 PDF(包括扫描文档)中提取文本,并将其另存为可编辑的 Word DOCX 文件。这在各种场景中都是一个有价值的工具,例如从 PDF 表单中提取数据或数字化打印文档。尝试不同的设置和自定义选项来满足您的特定要求,并增强您的 C# 文档处理能力。如有任何疑问,请随时通过论坛与我们联系。

常见问题解答

在 C# 中将 PDF 转换为 DOCX 时 OCR 是否支持多种语言?

是的,它可以识别多种语言的文本和所有流行的书写文字,包括混合语言的文本。

将扫描的 PDF 转换为可编辑的 Word DOCX 文档时是否支持拼写检查功能?

是的,您可以设置拼写检查功能来修复任何拼写错误的单词,因为拼写检查器支持不同的词典。

使用 OCR 进行 PDF 到 DOCX 转换时是否有任何限制或挑战需要注意?

是的,OCR 可能并不完美,有时会产生错误,尤其是在复杂布局、手写文本或低质量扫描时。根据需要检查和编辑转换后的文本以确保准确性非常重要。此外,OCR 性能可能会因输入 PDF 的质量和所使用的语言而异。

也可以看看