Modificar o conteúdo do PDF programaticamente pode ser essencial em cenários onde informações sensíveis ou desatualizadas devem ser substituídas antes da distribuição. Uma das características mais práticas na manipulação de PDFs é a capacidade de buscar uma frase ou padrão específico e substituí-lo por conteúdo alternativo. Neste guia detalhado, demonstraremos como você pode encontrar e substituir texto em arquivos PDF usando C#. O foco será no uso do poderoso Conholdate.Total para .NET SDK, que permite que os desenvolvedores realizem tarefas robustas de manipulação de documentos, incluindo edição e substituição, com apenas algumas linhas de código.

Nós abordaremos dois cenários importantes. O primeiro explicará como localizar uma palavra ou frase exata em um PDF e substituí-la. O segundo irá passar pelo uso de expressões regulares para corresponder e substituir padrões variáveis, como números de telefone, números de contas ou outros formatos de dados personalizados.

Por que Encontrar e Substituir Texto em Arquivos PDF

  • Garanta Privacidade e Conformidade: Remova facilmente dados pessoais ou confidenciais antes de publicar ou compartilhar arquivos PDF.

  • Atualize Documentos de Forma Eficiente: Substitua automaticamente termos ou conteúdos desatualizados em grandes lotes de arquivos.

  • Opções de Pesquisa de Texto Flexíveis: Utilize tanto correspondência de frase exata quanto expressões regulares para red ação abrangente.

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

Encontrar e Substituir Texto em PDF usando C# - Instalação do SDK

Você precisa configurar Conholdate.Total for .NET para encontrar e substituir texto em documentos PDF. Baixe o arquivo DLL da seção Novas Versões ou use o seguinte comando de instalação NuGet no MS Visual Studio:

Install-Package Conholdate.Total

Encontrar e Substituir Palavra em PDF usando C#

Ao lidar com documentos PDF que contêm informações sensíveis, como nomes, detalhes de contato ou identificadores de organização, muitas vezes há a necessidade de redigir ou substituir essas palavras antes de compartilhar o arquivo. O Conholdate.Total para .NET SDK oferece uma maneira simples de realizar isso. O exemplo a seguir demonstra como buscar uma correspondência exata de uma palavra ou frase e substituí-la por um espaço reservado ou texto alternativo.

// Find exact phrase and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

Neste trecho, o SDK escanea o arquivo PDF em busca da frase "John Doe" e substitui todas as instâncias pelo termo "[censored]". Esta operação é especialmente útil na automação da remoção de informações pessoalmente identificáveis de documentos. A opção AddSuffix garante que o arquivo original permaneça intacto ao salvar a versão editada como um novo arquivo, enquanto o sinalizador RasterizeToPDF mantém a saída como um PDF baseado em texto em vez de convertê-lo em uma imagem.

Encontrar e Substituir Texto em PDF com Expressões Regulares em C#

Às vezes, o texto que precisa ser substituído em um PDF não segue um formato fixo. Por exemplo, padrões como números de fatura, códigos postais ou números de identificação podem variar de documento para documento. Nessas situações, expressões regulares oferecem uma solução dinâmica. O Conholdate.Total para .NET SDK permite que os desenvolvedores definam padrões de regex para detectar e substituir estruturas de texto complexas dentro de um PDF.

// Find text using regular expression and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

A expressão regular usada neste código combina um padrão comumente utilizado para códigos formatados, como referências bancárias ou identificadores de transação. Qualquer texto que se encaixe nesse padrão é automaticamente localizado e substituído por um rótulo pré-definido como "[censurado]". Esse nível de flexibilidade garante que você pode proteger informações sensíveis mesmo quando não sabe seu conteúdo exato com antecedência.

Conclusão

Encontrar e substituir texto em documentos PDF usando C# nunca foi tão fácil, graças às capacidades oferecidas pelo Conholdate.Total para .NET. Seja substituindo uma palavra específica ou pesquisando padrões variáveis com expressões regulares, este SDK garante que você pode manipular o conteúdo do seu PDF com precisão e controle. A capacidade de redigir informações sensíveis, automatizar atualizações e preservar a formatação do documento torna esta uma ferramenta poderosa para desenvolvedores em diversos setores. Integre-o em seus projetos C# hoje e otimize seus fluxos de trabalho de processamento de documentos com confiança.

Veja também