
Konwertuj plik PDF na tekst w języku C#
Niedawno opublikowaliśmy na blogu kilka postów, takich jak programowa konwersja plików PDF na HTML 1 i PDF na obrazy. W tym artykule dowiemy się, jak przekonwertować plik PDF na tekst w języku C# przy użyciu biblioteki .NET OCR. Jako programista .NET możesz z łatwością używać tej biblioteki do konwersji plików na inne popularne formaty plików. Ponadto istnieje bogaty zestaw funkcji automatyzujących proces wyodrębniania tekstu z dokumentów PDF. Napiszemy jednak kroki i fragment kodu, aby zademonstrować wyodrębnianie tekstu ze zeskanowanego pliku PDF.
W tym artykule zostaną omówione następujące punkty:
- Konwersja plików .NET PDF do TXT — instalacja biblioteki OCR
- Jak przekonwertować plik PDF na tekst za pomocą OCR w C#
- Wyodrębnij tekst z pliku PDF za pomocą OCR w języku C# — opcje zaawansowane
Konwersja plików .NET PDF do TXT — instalacja biblioteki OCR
Ta biblioteka jest potężna i oferuje obszerną dokumentację dotyczącą programowania i użytkowania. Możesz szybko i efektywnie konwertować i przetwarzać różne formaty plików.
Aby zainstalować ten interfejs API w projekcie .NET, możesz pobrać pliki DLL lub uruchomić następujące polecenie w menedżerze pakietów NuGet.
Install-Package Aspose.OCR
Jak przekonwertować plik PDF na tekst za pomocą OCR w C#
Wyodrębnienie tekstu ze zeskanowanego pliku PDF jest dość łatwe i polega na kilku linijkach kodu źródłowego w języku C#.
Wykonaj kroki wymienione poniżej:
- Utwórz obiekt klasy AsposeOcr.
- Zainicjuj instancję klasy DocumentRecognitionSettings, aby rozpoznawać obrazy z pliku PDF.
- Ustaw wartość właściwości DetectAreas, aby włączyć automatyczne wykrywanie obszaru tekstowego.
- Utwórz listę typów RecognitionResult, wyodrębnij tekst ze zeskanowanych dokumentów PDF wywołując metodę RecognizePdf i przypisz wynik do listy.
Skopiuj i wklej następujący kod, aby przekonwertować plik PDF na TEKST w języku C#.
string fullPath = "sample.pdf";
// Utwórz obiekt klasy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Zainicjuj instancję klasy DocumentRecognitionSettings, aby rozpoznawać obrazy z pliku PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// ustaw wartość właściwości DetectAreas, aby włączyć automatyczne wykrywanie obszarów tekstowych
set.DetectAreas = false;
// utwórz listę typu RecognitionResult, wyodrębnij tekst ze zeskanowanego dokumentu PDF wywołując metodę RecognizePdf i przypisz wynik do listy
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Wydrukuj wynik
int pageNumber = 0;
foreach (var page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Wyodrębnij tekst z pliku PDF za pomocą OCR w języku C# — opcje zaawansowane
W tej sekcji przyjrzymy się bliżej tej bibliotece. Umożliwia także rozpoznawanie zeskanowanych plików PDF ze strumienia.
Oto kroki:
- Utwórz instancję klasy AsposeOcr.
- Utwórz instancję klasy MemoryStream, aby rozpoznawać pliki PDF ze strumienia.
- Zainicjuj konstruktor FileStream i załaduj plik źródłowy.
- Wywołaj metodę CopyTo, aby zapisać bajty do strumienia pamięci.
- Utwórz obiekt klasy DocumentRecognitionSettings, który rozpoznaje obrazy z plików PDF.
- Utwórz listę typów RecognitionResult i zainicjuj ją wynikami metody RecognizePdf.
Poniższy fragment kodu pokazuje, jak wyodrębnić tekst z pliku PDF za pomocą OCR w języku C# przy użyciu zaawansowanego podejścia:
string fullPath = "final.pdf";
// utwórz instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Utwórz instancję klasy MemoryStream, aby rozpoznawać pliki PDF ze strumienia
using (MemoryStream ms = new MemoryStream())
{
// Zainicjuj konstruktor FileStream i załaduj plik źródłowy
using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
{
// Wywołaj metodę CopyTo, aby zapisać bajty w strumieniu pamięci.
file.CopyTo(ms);
// Utwórz obiekt klasy DocumentRecognitionSettings, który rozpoznaje obrazy z pliku PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// Utwórz listę typu RecognitionResult i zainicjuj wynikami metody RecognizePdf.
List<RecognitionResult> results = api.RecognizePdf(ms, set);
// Wydrukuj wynik
foreach (var result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
}
Zdobądź bezpłatną licencję
Możesz uzyskać bezpłatną licencję tymczasową, aby wypróbować interfejs API bez ograniczeń ewaluacyjnych.
Podsumowując
W ten sposób dotarliśmy do końca tego wpisu na blogu. Nauczyłeś się programowo konwertować pliki PDF na tekst w języku C#. Ponadto zbadaliśmy także niektóre zaawansowane metody oferowane przez tę bibliotekę .NET OCR. Ponadto możesz odwiedzić dokumentację, aby poznać inne funkcje. Ten przewodnik z pewnością Ci pomoże, jeśli chcesz wyposażyć swoją aplikację w konwerter plików PDF na tekst. Ponadto conholdate.com pisze nowe posty na blogu na nowe tematy. Dlatego też prosimy o kontakt w celu otrzymywania regularnych aktualizacji.
Zadać pytanie
Możesz dać nam znać o swoich pytaniach lub wątpliwościach na naszym forum.
Często zadawane pytania
Jak programowo przekonwertować plik PDF na tekst?
Możesz przekonwertować plik PDF na tekst w języku C# za pomocą tej [biblioteki] .NET OCR 3. Udostępnia metodę RecognizePdf, która skutecznie wykonuje tę akcję.
Jaki jest najłatwiejszy sposób konwersji pliku PDF na tekst
Możesz odwiedzić dokumentację tej biblioteki, aby dowiedzieć się o metodach programowego wyodrębniania danych ze zeskanowanych plików PDF.