
Преобразование PDF в текст на C#
Недавно мы опубликовали несколько сообщений в блогах, таких как преобразование PDF в HTML и PDF в изображения программным путем. В этой статье мы научимся преобразовывать PDF в текст на C# с помощью библиотеки OCR .NET. Как разработчик .NET, вы можете легко использовать эту библиотеку для преобразования файлов в другие популярные форматы файлов. Кроме того, имеется богатый набор функций для автоматизации процесса извлечения текста из документов PDF. Однако мы напишем шаги и фрагмент кода, чтобы продемонстрировать извлечение текста из отсканированного PDF-файла.
В этой статье будут рассмотрены следующие моменты:
- Установка библиотеки .NET OCR
- Как преобразовать PDF в текст на C#
- Преобразование PDF в текст — дополнительные параметры
Установка библиотеки .NET OCR
Эта мощная библиотека предлагает исчерпывающую документацию по разработке и использованию. Вы можете конвертировать и обрабатывать различные форматы файлов быстро и эффективно.
Чтобы установить этот API в своем проекте .NET, вы можете либо загрузить файлы DLL, либо выполнить следующую команду в диспетчере пакетов NuGet.
Install-Package Aspose.OCR
Как преобразовать PDF в текст на C#
Извлечение текста из отсканированного файла PDF довольно просто и требует нескольких строк исходного кода на C#.
Пожалуйста, следуйте инструкциям ниже:
- Создайте объект класса AsposeOcr.
- Инициализируйте экземпляр класса DocumentRecognitionSettings для распознавания изображений из PDF.
- Установите значение свойства DetectAreas, чтобы включить автоматическое обнаружение текстовых областей.
- Создайте список типов RecognitionResult, извлеките текст из отсканированных PDF-документов, вызвав метод RecognizePdf, и назначьте результат списку.
Скопируйте и вставьте следующий код, чтобы преобразовать PDF в текст на C#.
string fullPath = "sample.pdf";
// Создайте объект класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Инициализировать экземпляр класса DocumentRecognitionSettings для распознавания изображений из PDF.
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// установите значение свойства DetectAreas, чтобы включить автоматическое обнаружение текстовых областей
set.DetectAreas = false;
// создать список типа RecognitionResult, извлечь текст из отсканированного PDF-документа, вызвав метод RecognizePdf, и присвоить результат списку
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Распечатать результат
int pageNumber = 0;
foreach (var page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Преобразование PDF в текст — дополнительные параметры
В этом разделе мы подробнее изучим эту библиотеку. Он также позволяет распознавать отсканированные PDF-файлы из потока.
Ниже приведены шаги:
- Создайте экземпляр класса AsposeOcr.
- Создайте экземпляр класса MemoryStream для распознавания PDF из потока.
- Инициализируйте конструктор FileStream и загрузите исходный файл.
- Вызовите метод CopyTo для записи байтов в поток памяти.
- Создайте объект класса DocumentRecognitionSettings, который распознает изображения из PDF.
- Создайте список типов RecognitionResult и инициализируйте его результатами метода RecognizePdf.
string fullPath = "final.pdf";
// создать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Создайте экземпляр класса MemoryStream для распознавания pdf из потока
using (MemoryStream ms = new MemoryStream())
{
// Инициализируйте конструктор FileStream и загрузите исходный файл.
using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
{
// Вызовите метод CopyTo, чтобы записать байты в поток памяти.
file.CopyTo(ms);
// Создайте объект класса DocumentRecognitionSettings, который распознает изображения из PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// Создайте список типа RecognitionResult и инициализируйте его результатами метода RecognizePdf.
List<RecognitionResult> results = api.RecognizePdf(ms, set);
// Распечатать результат
foreach (var result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
}
Получить бесплатную лицензию
Вы можете получить бесплатную временную лицензию, чтобы опробовать API без ограничений на пробную версию.
Подведение итогов
Это подводит нас к концу этого сообщения в блоге. Вы узнали, как программно конвертировать PDF в текст на C#. Кроме того, мы также изучили некоторые расширенные методы, предлагаемые этой библиотекой OCR .NET. Кроме того, вы можете посетить документацию, чтобы узнать о других функциях. Это руководство, безусловно, поможет вам, если вы хотите оснастить свое приложение конвертером PDF в текст. Кроме того, conholdate.com пишет новые сообщения в блогах на новые темы. Поэтому, пожалуйста, оставайтесь на связи для регулярных обновлений.
Задайте вопрос
Вы можете сообщить нам о своих вопросах или запросах на нашем форуме.
Часто задаваемые вопросы
Как преобразовать PDF в текст программно?
Вы можете конвертировать PDF в текст на C#, используя эту .NET OCR библиотеку. Он предоставляет метод RecognizePdf, который эффективно выполняет это действие.
Какой самый простой способ конвертировать PDF в текст
Вы можете посетить документацию этой библиотеки, чтобы узнать о методах, с помощью которых вы можете программно извлекать данные из отсканированных PDF-файлов.