程序matically 修改 PDF 内容在需要在分发之前更换敏感或过时信息的场景中可能至关重要。PDF 操作中最实用的功能之一是能够搜索特定短语或模式,并将其替换为备用内容。在本详细指南中,我们将演示如何使用 C# 在 PDF 文件中查找和替换文本。重点将放在使用强大的 Conholdate.Total for .NET SDK,该 SDK 使开发人员能够只需几行代码即可执行强大的文档操作任务,包括编辑和替换。

我们将涵盖两个重要场景。第一个场景将解释如何在 PDF 中定位确切的单词或短语并替换它。第二个场景将通过使用正则表达式来匹配和替代变量模式,例如电话号码、帐号或其他自定义数据格式。

为什么在 PDF 文件中查找和替换文本

  • 确保隐私和合规:在发布或共享 PDF 文件之前,轻松删除个人或机密数据。

  • 高效更新文档:自动替换大量文件中的过时术语或内容。

  • 灵活的文本搜索选项:利用精确短语匹配和正则表达式进行全面的编辑。

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

在 C# 中使用 SDK 安装查找和替换 PDF 文本

您需要配置 Conholdate.Total for .NET 以在 PDF 文档中查找和替换文本。请从新版本部分下载 DLL 文件或在 MS Visual Studio 中使用以下 NuGet 安装命令:

Install-Package Conholdate.Total

在 C# 中使用 PDF 找到并替换单词

在处理包含敏感信息如姓名、联系方式或组织标识符的 PDF 文档时,通常需要在共享文件之前对这些词进行编辑或替换。Conholdate.Total for .NET SDK 提供了一种简单的方法来实现这一点。以下示例演示了如何搜索一个单词或短语的精确匹配,并用占位符或替代文本替换它。

// Find exact phrase and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

在这个代码片段中,SDK 扫描 PDF 文件中的短语 "John Doe" 并将每个实例替换为术语 "[censored]"。此操作在自动化删除文档中的个人身份信息方面特别有用。AddSuffix 选项确保原始文件保持不变,通过将编辑后的版本保存为新文件,而 RasterizeToPDF 标志保持输出为基于文本的 PDF,而不是将其转换为图像。

在 C# 中使用正则表达式查找和替换 PDF 中的文本

有时,需要在 PDF 中替换的文本并不遵循固定格式。例如,发票号码、邮政编码或身份证号等模式可能因文档而异。在这种情况下,正则表达式提供了一种动态解决方案。Conholdate.Total for .NET SDK 允许开发人员定义正则表达式模式,以检测和替换 PDF 中的复杂文本结构。

// Find text using regular expression and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

在此代码中使用的正则表达式匹配一种常用于格式化代码的模式,如银行参考或交易标识符。任何符合该模式的文本都会被自动定位并替换为预定义标签,如 "[censored]"。这种灵活性确保您可以保护敏感信息,即使在事先不知道其确切内容的情况下。

结论

在 PDF 文档中使用 C# 查找和替换文本从未如此简单,这要归功于 Conholdate.Total for .NET 提供的功能。无论您是要替换特定单词还是使用正则表达式搜索变量模式,这个 SDK 确保您可以精确而灵活地操作 PDF 内容。用于删除敏感信息、自动更新和保留文档格式的能力,使其成为各行业开发人员的强大工具。今天就将其集成到您的 C# 项目中,并自信地简化您的文档处理工作流程。

见也