Преобразование PDF в текст на C#

Преобразование PDF в текст на C#

Недавно мы опубликовали несколько сообщений в блогах, таких как преобразование PDF в HTML и PDF в изображения программным путем. В этой статье мы научимся преобразовывать PDF в текст на C# с помощью библиотеки OCR .NET. Как разработчик .NET, вы можете легко использовать эту библиотеку для преобразования файлов в другие популярные форматы файлов. Кроме того, имеется богатый набор функций для автоматизации процесса извлечения текста из документов PDF. Однако мы напишем шаги и фрагмент кода, чтобы продемонстрировать извлечение текста из отсканированного PDF-файла.

В этой статье будут рассмотрены следующие моменты:

Установка библиотеки .NET OCR

Эта мощная библиотека предлагает исчерпывающую документацию по разработке и использованию. Вы можете конвертировать и обрабатывать различные форматы файлов быстро и эффективно.

Чтобы установить этот API в своем проекте .NET, вы можете либо загрузить файлы DLL, либо выполнить следующую команду в диспетчере пакетов NuGet.

Install-Package Aspose.OCR

Как преобразовать PDF в текст на C#

Извлечение текста из отсканированного файла PDF довольно просто и требует нескольких строк исходного кода на C#.

Пожалуйста, следуйте инструкциям ниже:

  1. Создайте объект класса AsposeOcr.
  2. Инициализируйте экземпляр класса DocumentRecognitionSettings для распознавания изображений из PDF.
  3. Установите значение свойства DetectAreas, чтобы включить автоматическое обнаружение текстовых областей.
  4. Создайте список типов RecognitionResult, извлеките текст из отсканированных PDF-документов, вызвав метод RecognizePdf, и назначьте результат списку.

Скопируйте и вставьте следующий код, чтобы преобразовать PDF в текст на C#.


string fullPath =   "sample.pdf";
// Создайте объект класса AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Инициализировать экземпляр класса DocumentRecognitionSettings для распознавания изображений из PDF.  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// установите значение свойства DetectAreas, чтобы включить автоматическое обнаружение текстовых областей 
set.DetectAreas = false;
// создать список типа RecognitionResult, извлечь текст из отсканированного PDF-документа, вызвав метод RecognizePdf, и присвоить результат списку  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Распечатать результат
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Преобразование PDF в текст — дополнительные параметры

В этом разделе мы подробнее изучим эту библиотеку. Он также позволяет распознавать отсканированные PDF-файлы из потока.

Ниже приведены шаги:

  1. Создайте экземпляр класса AsposeOcr.
  2. Создайте экземпляр класса MemoryStream для распознавания PDF из потока.
  3. Инициализируйте конструктор FileStream и загрузите исходный файл.
  4. Вызовите метод CopyTo для записи байтов в поток памяти.
  5. Создайте объект класса DocumentRecognitionSettings, который распознает изображения из PDF.
  6. Создайте список типов RecognitionResult и инициализируйте его результатами метода RecognizePdf.

string fullPath =   "final.pdf";
// создать экземпляр класса AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Создайте экземпляр класса MemoryStream для распознавания pdf из потока     
using (MemoryStream ms = new MemoryStream())
{
    // Инициализируйте конструктор FileStream и загрузите исходный файл.  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Вызовите метод CopyTo, чтобы записать байты в поток памяти.  
        file.CopyTo(ms);
        // Создайте объект класса DocumentRecognitionSettings, который распознает изображения из PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Создайте список типа RecognitionResult и инициализируйте его результатами метода RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Распечатать результат
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Получить бесплатную лицензию

Вы можете получить бесплатную временную лицензию, чтобы опробовать API без ограничений на пробную версию.

Подведение итогов

Это подводит нас к концу этого сообщения в блоге. Вы узнали, как программно конвертировать PDF в текст на C#. Кроме того, мы также изучили некоторые расширенные методы, предлагаемые этой библиотекой OCR .NET. Кроме того, вы можете посетить документацию, чтобы узнать о других функциях. Это руководство, безусловно, поможет вам, если вы хотите оснастить свое приложение конвертером PDF в текст. Кроме того, conholdate.com пишет новые сообщения в блогах на новые темы. Поэтому, пожалуйста, оставайтесь на связи для регулярных обновлений.

Задайте вопрос

Вы можете сообщить нам о своих вопросах или запросах на нашем форуме.

Часто задаваемые вопросы

Как преобразовать PDF в текст программно?

Вы можете конвертировать PDF в текст на C#, используя эту .NET OCR библиотеку. Он предоставляет метод RecognizePdf, который эффективно выполняет это действие.

Какой самый простой способ конвертировать PDF в текст

Вы можете посетить документацию этой библиотеки, чтобы узнать о методах, с помощью которых вы можете программно извлекать данные из отсканированных PDF-файлов.

Смотрите также