PDF do DOCX OCR

Pliki PDF to wszechobecny format udostępniania dokumentów, ale czasami trzeba je edytować lub wyodrębnić z nich tekst. Format DOCX programu Microsoft Word jest jednym z najpopularniejszych wyborów do edycji dokumentów. W tym poście na blogu pokażemy, jak przekonwertować plik PDF na DOCX za pomocą optycznego rozpoznawania znaków (OCR) przy użyciu języka C#. Technologia OCR może pomóc wyodrębnić tekst ze zeskanowanych plików PDF lub plików PDF opartych na obrazach, co czyni ją wszechstronnym narzędziem do konwersji dokumentów.

Konwerter plików PDF na DOCX z OCR - instalacja API C#

Aby przekonwertować plik PDF na dokument DOCX Word za pomocą OCR w języku C#, należy skonfigurować Conholdate.Total dla .NET. Możesz to łatwo zrobić za pomocą wtyczki NuGet Package Manager w Visual Studio IDE lub uruchomić następujące polecenie instalacji NuGet:

PM> NuGet\Install-Package Conholdate.Total

Konwertuj pliki PDF na DOCX za pomocą OCR w C#

Możesz przekonwertować plik PDF na dokument Word za pomocą OCR w języku C#, wykonując następujące kroki:

  • Utwórz obiekt klasy OcrInput.
  • Załaduj źródłowy dokument PDF za pomocą metody Add(string).
  • Rozpoznaj tekst z dokumentu metodą Recognize(OcrInput, RecognitionSettings).
  • Zapisz edytowalny dokument w formacie Microsoft Word (DOCX) za pomocą SaveMultipageDocument(string, SaveFormat, List ) metoda.

Poniższy przykładowy kod jest przykładem konwersji pliku PDF na DOCX za pomocą OCR w języku C#:

// Załaduj zeskanowany dokument PDF
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Rozpoznaj tekst z dokumentu
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Zapisz edytowalny dokument w formacie Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Konwertuj zeskanowany plik PDF na DOCX za pomocą OCR przy użyciu filtrów przetwarzania wstępnego w języku C#

Możesz ulepszyć konwersję zeskanowanego pliku PDF na DOCX za pomocą OCR, używając różnych ustawień. Na przykład ustaw różne filtry przetwarzania wstępnego, aby zwiększyć dokładność, takie jak prostowanie lub odszumianie pliku źródłowego. Poniższe kroki opisują zaawansowane podejście do konwersji zeskanowanego pliku PDF do formatu DOCX za pomocą OCR w języku C#:

  • Ustaw filtry przetwarzania wstępnego za pomocą klasy PreprocessingFilter.
  • Zainicjuj instancję klasy OcrInput.
  • Rozpoznaj tekst z dokumentu za pomocą metody Recognize(OcrInput, RecognitionSettings).
  • Zapisz rozpoznany tekst jako dokument Word DOCX, używając SaveMultipageDocument(string, SaveFormat, List ) metoda.

Poniższy fragment kodu opisuje sposób konwersji zeskanowanego pliku PDF do formatu DOCX za pomocą OCR przy użyciu filtrów wstępnego przetwarzania w języku C#:

// Ustaw filtry przetwarzania
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Załaduj zeskanowany dokument PDF
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Rozpoznaj tekst z dokumentu
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Zapisz edytowalny dokument w formacie Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Bezpłatna licencja ewaluacyjna

Możesz uzyskać bezpłatną licencję ewaluacyjną na ocenę interfejsów API bez żadnych ograniczeń.

Podsumowując

W tym poście na blogu nauczyłeś się konwertować pliki PDF na DOCX za pomocą OCR w języku C#. Możesz łatwo wyodrębnić tekst z plików PDF, w tym zeskanowanych dokumentów, i zapisać je jako edytowalne pliki Word DOCX. Może to być cenne narzędzie w różnych scenariuszach, takich jak ekstrakcja danych z formularzy PDF lub digitalizacja drukowanych dokumentów. Eksperymentuj z różnymi ustawieniami i opcjami dostosowywania, aby spełnić swoje specyficzne wymagania i zwiększyć możliwości przetwarzania dokumentów w języku C#. W przypadku jakichkolwiek pytań prosimy o kontakt za pośrednictwem forum.

Często zadawane pytania

Czy OCR obsługuje wiele języków podczas konwersji plików PDF na DOCX w języku C#?

Tak, rozpoznaje tekst w wielu językach i we wszystkich popularnych pismach, w tym teksty w językach mieszanych.

Czy funkcja sprawdzania pisowni jest obsługiwana podczas konwertowania zeskanowanego pliku PDF na edytowalne dokumenty Word DOCX?

Tak, możesz ustawić funkcję sprawdzania pisowni, aby poprawić błędy ortograficzne, ponieważ moduł sprawdzania pisowni obsługuje różne słowniki.

Czy istnieją jakieś ograniczenia lub wyzwania, o których należy pamiętać podczas używania OCR do konwersji plików PDF na DOCX?

Tak, rozpoznawanie OCR może nie być doskonałe i czasami może powodować błędy, szczególnie w przypadku skomplikowanych układów, tekstu pisanego odręcznie lub skanów o niskiej jakości. Aby zapewnić dokładność, ważne jest, aby w razie potrzeby sprawdzić i edytować przekonwertowany tekst. Ponadto wydajność rozpoznawania OCR może się różnić w zależności od jakości wejściowego pliku PDF i używanego języka.

Zobacz też