Modyfikowanie treści PDF programowo może być niezbędne w sytuacjach, gdy wrażliwe lub przestarzałe informacje muszą zostać zastąpione przed dystrybucją. Jedną z najbardziej praktycznych funkcji w manipulacji PDF jest możliwość wyszukiwania konkretnej frazy lub wzorca i zastępowania go alternatywną treścią. W tym szczegółowym przewodniku pokażemy, jak możesz znaleźć i zastąpić tekst w plikach PDF przy użyciu Java. Skupimy się na używaniu potężnego Conholdate.Total dla Java SDK, które umożliwia deweloperom wykonywanie solidnych zadań manipulacji dokumentami, w tym cenzurowania i zastępowania, w zaledwie kilku linijkach kodu.
Omówimy dwa ważne scenariusze. Pierwszy wyjaśni, jak zlokalizować dokładne słowo lub frazę w pliku PDF i je zastąpić. Drugi przeprowadzi przez użycie wyrażeń regularnych, aby dopasować i zastąpić zmienne wzory, takie jak numery telefonów, numery kont lub inne niestandardowe formaty danych.
Dlaczego warto wyszukiwać i zamieniać tekst w plikach PDF?
Ensure Privacy and Compliance: Easily remove personal or confidential data before publishing or sharing PDF files.
Zaktualizuj dokumenty efektywnie: Automatycznie zastępuj przestarzałe terminy lub treści w dużych batched plików.
Elastyczne opcje wyszukiwania tekstu: Wykorzystaj zarówno dopasowanie dokładnych fraz, jak i wyrażenia regularne do kompleksowej redakcji.
Preserve Document Integrity: Maintain the original layout and formatting while replacing the content.
Przyjazny dla automatyzacji: Zintegruj się z procesami Java do przetwarzania wsadowego i zadań automatyzacji dokumentów.
Znalezienie i zastąpienie tekstu w PDF za pomocą Java - Instalacja SDK
Aby redagować dokumenty PDF, musisz skonfigurować Conholdate.Total for Java SDK w swoim środowisku. Możesz pobrać plik DLL z sekcji Nowe Wydania lub użyć poniższego polecenia instalacji NuGet w Visual Studio:
Install-Package Conholdate.Total
Znajdź i zamień tekst w PDF za pomocą Java
Kiedy pracujesz z dokumentami PDF, które zawierają wrażliwe informacje, takie jak imiona, dane kontaktowe lub identyfikatory organizacji, często zachodzi potrzeba zredagowania lub zastąpienia tych słów przed udostępnieniem pliku. Conholdate.Total dla Java SDK zapewnia prosty sposób na osiągnięcie tego celu. Następujący przykład demonstruje, jak wyszukiwać dokładne dopasowanie słowa lub frazy i zastępować je miejscem lub alternatywnym tekstem.
final Redactor redactor = new Redactor("path/document.docx");
redactor.apply(new ExactPhraseRedaction("John Doe", new ReplacementOptions("[censored]")));
// If you want to save the redacted file at different location with diferent name.
FileOutputStream stream = new FileOutputStream("path/exactPhrase.docx");
RasterizationOptions rasterOptions = new RasterizationOptions();
rasterOptions.setEnabled(false);
redactor.save(stream, rasterOptions);
W tym fragmencie SDK skanuje plik PDF w poszukiwaniu frazy "John Doe" i zastępuje każdą instancję terminem "[censored]". Operacja ta jest szczególnie przydatna w automatyzacji usuwania informacji umożliwiających identyfikację osobistą z dokumentów. Opcja AddSuffix zapewnia, że oryginalny plik pozostaje nietknięty, zapisując edytowaną wersję jako nowy plik, podczas gdy flaga RasterizeToPDF utrzymuje wyjście jako tekstowy plik PDF, zamiast konwertować go na obraz.
Znajdź i zamień tekst w PDF za pomocą wyrażeń regularnych w Javie
Czasami tekst, który należy zastąpić w pliku PDF, nie ma ustalonego formatu. Na przykład, wzory takie jak numery faktur, kody pocztowe czy numery identyfikacyjne mogą się różnić w zależności od dokumentu. W takich sytuacjach wyrażenia regularne oferują dynamiczne rozwiązanie. Conholdate.Total dla Java SDK pozwala deweloperom definiować wzory regex, aby wykrywać i zastępować złożone struktury tekstowe w pliku PDF.
// Find text using regular expression and replace it with some other text using Java
final Redactor redactor = new Redactor("path/document.docx");
redactor.apply(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions("[censored]")));
redactor.save();
Wyrażenie regularne użyte w tym kodzie dopasowuje wzór powszechnie stosowany do sformatowanych kodów, takich jak numery referencyjne banków czy identyfikatory transakcji. Wszelki tekst pasujący do tego wzoru jest automatycznie lokalizowany i zastępowany z góry określoną etykietą, taką jak "[censored]". Ten poziom elastyczności zapewnia, że możesz chronić poufne informacje, nawet gdy nie znasz ich dokładnej treści z wyprzedzeniem.
Wniosek
Znajdowanie i zastępowanie tekstu w dokumentach PDF za pomocą Java nigdy nie było łatwiejsze, dzięki możliwościom oferowanym przez Conholdate.Total for Java. Niezależnie od tego, czy zastępujesz konkretne słowo, czy szukasz zmiennych wzorców za pomocą wyrażeń regularnych, ten zestaw SDK zapewnia, że możesz manipulować zawartością PDF z precyzją i kontrolą. Możliwość redagowania wrażliwych informacji, automatyzacji aktualizacji i zachowania formatowania dokumentu sprawia, że jest to potężne narzędzie dla deweloperów w różnych branżach. Zintegruj go w swoich projektach Java już dziś i usprawnij swoje procesy przetwarzania dokumentów z pewnością.