Konwertuj plik PDF na tekst w języku C#

Konwertuj plik PDF na tekst w języku C#

Niedawno opublikowaliśmy na blogu kilka postów, takich jak programowa konwersja plików PDF na HTML 1 i PDF na obrazy. W tym artykule dowiemy się, jak przekonwertować plik PDF na tekst w języku C# przy użyciu biblioteki .NET OCR. Jako programista .NET możesz z łatwością używać tej biblioteki do konwersji plików na inne popularne formaty plików. Ponadto istnieje bogaty zestaw funkcji automatyzujących proces wyodrębniania tekstu z dokumentów PDF. Napiszemy jednak kroki i fragment kodu, aby zademonstrować wyodrębnianie tekstu ze zeskanowanego pliku PDF.

W tym artykule zostaną omówione następujące punkty:

Konwersja plików .NET PDF do TXT — instalacja biblioteki OCR

Ta biblioteka jest potężna i oferuje obszerną dokumentację dotyczącą programowania i użytkowania. Możesz szybko i efektywnie konwertować i przetwarzać różne formaty plików.

Aby zainstalować ten interfejs API w projekcie .NET, możesz pobrać pliki DLL lub uruchomić następujące polecenie w menedżerze pakietów NuGet.

Install-Package Aspose.OCR

Jak przekonwertować plik PDF na tekst za pomocą OCR w C#

Wyodrębnienie tekstu ze zeskanowanego pliku PDF jest dość łatwe i polega na kilku linijkach kodu źródłowego w języku C#.

Wykonaj kroki wymienione poniżej:

  1. Utwórz obiekt klasy AsposeOcr.
  2. Zainicjuj instancję klasy DocumentRecognitionSettings, aby rozpoznawać obrazy z pliku PDF.
  3. Ustaw wartość właściwości DetectAreas, aby włączyć automatyczne wykrywanie obszaru tekstowego.
  4. Utwórz listę typów RecognitionResult, wyodrębnij tekst ze zeskanowanych dokumentów PDF wywołując metodę RecognizePdf i przypisz wynik do listy.

Skopiuj i wklej następujący kod, aby przekonwertować plik PDF na TEKST w języku C#.


string fullPath =   "sample.pdf";
// Utwórz obiekt klasy AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Zainicjuj instancję klasy DocumentRecognitionSettings, aby rozpoznawać obrazy z pliku PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// ustaw wartość właściwości DetectAreas, aby włączyć automatyczne wykrywanie obszarów tekstowych 
set.DetectAreas = false;
// utwórz listę typu RecognitionResult, wyodrębnij tekst ze zeskanowanego dokumentu PDF wywołując metodę RecognizePdf i przypisz wynik do listy  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Wydrukuj wynik
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Wyodrębnij tekst z pliku PDF za pomocą OCR w języku C# — opcje zaawansowane

W tej sekcji przyjrzymy się bliżej tej bibliotece. Umożliwia także rozpoznawanie zeskanowanych plików PDF ze strumienia.

Oto kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Utwórz instancję klasy MemoryStream, aby rozpoznawać pliki PDF ze strumienia.
  3. Zainicjuj konstruktor FileStream i załaduj plik źródłowy.
  4. Wywołaj metodę CopyTo, aby zapisać bajty do strumienia pamięci.
  5. Utwórz obiekt klasy DocumentRecognitionSettings, który rozpoznaje obrazy z plików PDF.
  6. Utwórz listę typów RecognitionResult i zainicjuj ją wynikami metody RecognizePdf.

Poniższy fragment kodu pokazuje, jak wyodrębnić tekst z pliku PDF za pomocą OCR w języku C# przy użyciu zaawansowanego podejścia:


string fullPath =   "final.pdf";
// utwórz instancję klasy AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Utwórz instancję klasy MemoryStream, aby rozpoznawać pliki PDF ze strumienia     
using (MemoryStream ms = new MemoryStream())
{
    // Zainicjuj konstruktor FileStream i załaduj plik źródłowy  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Wywołaj metodę CopyTo, aby zapisać bajty w strumieniu pamięci.  
        file.CopyTo(ms);
        // Utwórz obiekt klasy DocumentRecognitionSettings, który rozpoznaje obrazy z pliku PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Utwórz listę typu RecognitionResult i zainicjuj wynikami metody RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Wydrukuj wynik
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Zdobądź bezpłatną licencję

Możesz uzyskać bezpłatną licencję tymczasową, aby wypróbować interfejs API bez ograniczeń ewaluacyjnych.

Podsumowując

W ten sposób dotarliśmy do końca tego wpisu na blogu. Nauczyłeś się programowo konwertować pliki PDF na tekst w języku C#. Ponadto zbadaliśmy także niektóre zaawansowane metody oferowane przez tę bibliotekę .NET OCR. Ponadto możesz odwiedzić dokumentację, aby poznać inne funkcje. Ten przewodnik z pewnością Ci pomoże, jeśli chcesz wyposażyć swoją aplikację w konwerter plików PDF na tekst. Ponadto conholdate.com pisze nowe posty na blogu na nowe tematy. Dlatego też prosimy o kontakt w celu otrzymywania regularnych aktualizacji.

Zadać pytanie

Możesz dać nam znać o swoich pytaniach lub wątpliwościach na naszym forum.

Często zadawane pytania

Jak programowo przekonwertować plik PDF na tekst?

Możesz przekonwertować plik PDF na tekst w języku C# za pomocą tej [biblioteki] .NET OCR 3. Udostępnia metodę RecognizePdf, która skutecznie wykonuje tę akcję.

Jaki jest najłatwiejszy sposób konwersji pliku PDF na tekst

Możesz odwiedzić dokumentację tej biblioteki, aby dowiedzieć się o metodach programowego wyodrębniania danych ze zeskanowanych plików PDF.

Zobacz też