Modyfikowanie zawartości PDF programowo może być istotne w scenariuszach, w których wrażliwe lub nieaktualne informacje muszą zostać zastąpione przed dystrybucją. Jedną z najbardziej praktycznych funkcji w manipulacji PDF jest możliwość wyszukiwania konkretnej frazy lub wzoru i zastąpienia jej alternatywną treścią. W tym szczegółowym przewodniku pokażemy, jak możesz znaleźć i zastąpić tekst w plikach PDF za pomocą C#. Skupimy się na potężnym Conholdate.Total dla .NET SDK, które umożliwia programistom wykonywanie zaawansowanych zadań manipulacji dokumentami, w tym redakcji i zastępowania, przy użyciu zaledwie kilku linii kodu.

Omówimy dwa ważne scenariusze. Pierwszy wyjaśni, jak zlokalizować dokładne słowo lub frazę w pliku PDF i je zastąpić. Drugi krok po kroku przeprowadzi przez użycie wyrażeń regularnych do dopasowania i substytucji zmiennych wzorców, takich jak numery telefonów, numery kont lub inne niestandardowe formaty danych.

Dlaczego znajdowanie i zastępowanie tekstu w plikach PDF

  • Zapewnij prywatność i zgodność: Łatwo usuń dane osobowe lub poufne przed opublikowaniem lub udostępnieniem plików PDF.

  • Zaktualizuj dokumenty efektywnie: Automatycznie zastępuj przestarzałe terminy lub treści w dużych partiach plików.

  • Elastyczne opcje wyszukiwania tekstu: Wykorzystaj zarówno dopasowywanie dokładnych fraz, jak i wyrażenia regularne do kompleksowej redakcji.

  • Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.

Znajdź i zamień tekst w PDF przy użyciu C# - Instalacja SDK

Musisz skonfigurować Conholdate.Total for .NET, aby znaleźć i zastąpić tekst w dokumentach PDF. Pobierz plik DLL z sekcji Nowe Wydania lub użyj poniższego polecenia instalacji NuGet w programie MS Visual Studio:

Install-Package Conholdate.Total

Znajdź i zamień słowo w pliku PDF przy użyciu C#

When dealing with PDF documents that contain sensitive information like names, contact details, or organization identifiers, there is often a need to redact or replace these words before sharing the file. Conholdate.Total for .NET SDK provides a straightforward way to accomplish this. The following example demonstrates how to search for an exact match of a word or phrase and substitute it with a placeholder or alternative text.

// Find exact phrase and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

W tym fragmencie SDK skanuje plik PDF w poszukiwaniu frazy "John Doe" i zastępuje każdą instancję terminem "[censored]". Operacja ta jest szczególnie przydatna w automatyzacji usuwania danych osobowych z dokumentów. Opcja AddSuffix zapewnia, że oryginalny plik pozostaje nienaruszony, zapisując edytowaną wersję jako nowy plik, podczas gdy flaga RasterizeToPDF utrzymuje wyjście w formacie PDF opartym na tekście, zamiast przekształcać je w obraz.

Znaleźć i zamienić tekst w PDF za pomocą wyrażeń regularnych w C#

Czasami tekst, który należy zastąpić w pliku PDF, nie ma stałego formatu. Na przykład wzory takie jak numery faktur, kody pocztowe czy numery identyfikacyjne mogą się różnić w zależności od dokumentu. W takich sytuacjach wyrażenia regularne oferują dynamiczne rozwiązanie. Conholdate.Total for .NET SDK umożliwia deweloperom definiowanie wzorców regex do wykrywania i zastępowania złożonych struktur tekstowych w pliku PDF.

// Find text using regular expression and replace it with some other text using C#
using (Redactor redactor = new Redactor(@"path/document.pdf"))
{
  redactor.Apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
  redactor.Save(new SaveOptions() { AddSuffix = true, RasterizeToPDF = false });
}

Wyrażenie regularne użyte w tym kodzie dopasowuje wzorzec powszechnie używany do sformatowanych kodów, takich jak numery referencyjne banków lub identyfikatory transakcji. Każdy tekst pasujący do tego wzorca jest automatycznie lokalizowany i zastępowany z góry zdefiniowaną etykietą, taką jak "[censored]". Ten poziom elastyczności zapewnia, że możesz chronić wrażliwe informacje, nawet gdy nie znasz ich dokładnej treści z wyprzedzeniem.

Wnioski

Znajdowanie i zastępowanie tekstu w dokumentach PDF przy użyciu C# nigdy nie było łatwiejsze, dzięki możliwościom oferowanym przez Conholdate.Total dla .NET. Niezależnie od tego, czy zastępujesz konkretne słowo, czy wyszukujesz zmienne wzorce za pomocą wyrażeń regularnych, ten SDK zapewnia, że możesz manipulować treścią PDF z precyzją i kontrolą. Umiejętność redagowania wrażliwych informacji, automatyzacja aktualizacji i zachowanie formatowania dokumentów sprawia, że jest to potężne narzędzie dla programistów w różnych branżach. Zintegruj to w swoich projektach C# już dziś i usprawnij swoje przepływy pracy w zakresie przetwarzania dokumentów z pewnością.

See Also