Modifizieren von PDF-Inhalten programmgesteuert kann in Szenarien entscheidend sein, in denen sensible oder veraltete Informationen ersetzt werden müssen, bevor sie verteilt werden. Eine der praktischsten Funktionen bei der PDF-Manipulation ist die Fähigkeit, nach einem bestimmten Satz oder Muster zu suchen und ihn durch alternativen Inhalt zu ersetzen. In diesem ausführlichen Leitfaden zeigen wir, wie Sie Text in PDF Dateien mit C# finden und ersetzen können. Der Schwerpunkt liegt auf der Verwendung des leistungsstarken Conholdate.Total für .NET SDK, das es Entwicklern ermöglicht, robuste Dokumentenmanipulationsaufgaben durchzuführen, einschließlich Schwärzung und Ersetzung, mit nur wenigen Codezeilen.

Wir werden zwei wichtige Szenarien behandeln. Das erste wird erklären, wie man ein exactes Wort oder eine Phrase in einem PDF findet und es ersetzt. Das zweite wird zeigen, wie man reguläre Ausdrücke verwendet, um variable Muster wie Telefonnummern, Kontonummern oder andere benutzerdefinierte Datenformate zu erkennen und zu ersetzen.

Warum Text in PDF Dateien suchen und ersetzen?

  • Sicherstellen von Datenschutz und Compliance: Einfach persönliche oder vertrauliche Daten entfernen, bevor PDF Dateien veröffentlicht oder geteilt werden.

  • Update Documents Efficiently: Automatically outdated Begriffe oder Inhalte in großen Chargen von Dateien ersetzen.

  • Flexible Text Search Options: Nutzen Sie sowohl die exakte Phrasensuche als auch reguläre Ausdrücke für umfassende Schwärzung.

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

Text in PDF mit C# finden und ersetzen - SDK-Installation

Sie müssen Conholdate.Total für .NET konfigurieren, um Text in PDF Dokumenten zu finden und zu ersetzen. Laden Sie die DLL-Datei aus dem Abschnitt Neue Veröffentlichungen herunter oder verwenden Sie den folgenden NuGet-Installationsbefehl in MS Visual Studio:

Install-Package Conholdate.Total

Finden und Ersetzen von Wörtern in PDF mit C#

Wenn es um PDF Dokumente geht, die sensible Informationen wie Namen, Kontaktdaten oder Organisationskennungen enthalten, besteht oft die Notwendigkeit, diese Wörter vor dem Teilen der Datei zu schwärzen oder zu ersetzen. Conholdate.Total für .NET SDK bietet eine einfache Möglichkeit, dies zu erreichen. Das folgende Beispiel zeigt, wie man nach einer genauen Übereinstimmung eines Wortes oder Satzes sucht und es durch einen Platzhalter oder alternativen Text ersetzt.

// Find exact phrase and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

In diesem Snippet durchsucht das SDK die PDF-Datei nach dem Ausdruck John Doe und ersetzt jede Instanz durch den Begriff [censored]. Diese Operation ist besonders nützlich, um die Entfernung personenbezogener Daten aus Dokumenten zu automatisieren. Die Option AddSuffix stellt sicher, dass die Originaldatei unangetastet bleibt, indem die bearbeitete Version als neue Datei gespeichert wird, während das RasterizeToPDF-Flag die Ausgabe als textbasierte PDF-Datei beibehält, anstatt sie in ein Bild umzuwandeln.

Text in PDF mit regulären Ausdrücken in C# finden und ersetzen

Manchmal folgt der Text, der in einer PDF ersetzt werden muss, keinem festen Format. Zum Beispiel können Muster wie Rechnungsnummern, Postleitzahlen oder Identifikationsnummern von Dokument zu Dokument variieren. In solchen Situationen bieten reguläre Ausdrücke eine dynamische Lösung. Das Conholdate.Total für .NET SDK ermöglicht es Entwicklern, Regex-Muster zu definieren, um komplexe Textstrukturen innerhalb einer PDF zu erkennen und zu ersetzen.

// Find text using regular expression and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

Der reguläre Ausdruck, der in diesem Code verwendet wird, entspricht einem Muster, das häufig für formatierte Codes verwendet wird, wie z. B. Bankreferenzen oder Transaktionsidentifikatoren. Jeder Text, der diesem Muster entspricht, wird automatisch gefunden und durch ein vordefiniertes Etikett wie "[censored]" ersetzt. Dieses Maß an Flexibilität stellt sicher, dass Sie sensible Informationen schützen können, selbst wenn Sie den genauen Inhalt im Voraus nicht kennen.

Schlussfolgerung

Das Suchen und Ersetzen von Text in PDF Dokumenten mit C# war noch nie einfacher, dank der Möglichkeiten, die Conholdate.Total für .NET bietet. Ob Sie ein bestimmtes Wort ersetzen oder nach variablen Mustern mit regulären Ausdrücken suchen, dieses SDK stellt sicher, dass Sie Ihren PDF-Inhalt mit Präzision und Kontrolle manipulieren können. Die Möglichkeit, sensible Informationen zu schwärzen, Aktualisierungen zu automatisieren und die Dokumentenformatierung beizubehalten, macht dies zu einem leistungsstarken Werkzeug für Entwickler in allen Branchen. Integrieren Sie es noch heute in Ihre C#-Projekte und optimieren Sie Ihre Dokumentenverarbeitungs-Workflows mit Vertrauen.

Siehe auch