PDF в DOCX OCR

PDF-файлы — это универсальный формат для обмена документами, но иногда вам необходимо отредактировать или извлечь из них текст. Формат DOCX Microsoft Word — один из самых популярных вариантов для редактирования документов. В этой записи блога мы покажем вам, как конвертировать PDF в DOCX с помощью оптического распознавания символов (OCR) с помощью C#. Технология оптического распознавания символов может помочь извлечь текст из отсканированных PDF-файлов или PDF-файлов на основе изображений, что делает ее универсальным инструментом для преобразования документов.

Конвертер PDF в DOCX с оптическим распознаванием символов — установка C# API

Для преобразования PDF в документ Word DOCX с оптическим распознаванием текста на C# вам необходимо настроить Conholdate.Total для .NET. Вы можете легко сделать это с помощью подключаемого модуля диспетчера пакетов NuGet в интегрированной среде разработки Visual Studio или запустить следующую команду установки NuGet:

PM> NuGet\Install-Package Conholdate.Total

Преобразование PDF в DOCX с помощью OCR на C#

Вы можете преобразовать PDF в документ Word с помощью OCR на C#, выполнив следующие действия:

  • Создайте объект класса OcrInput.
  • Загрузите исходный PDF-документ.
  • Распознайте текст из документа.
  • Сохраните редактируемый документ в формате Microsoft Word (DOCX).

Следующий пример кода представляет собой пример преобразования PDF в DOCX с помощью OCR на C#:

// Загрузите отсканированный PDF-документ
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Распознать текст из документа
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Сохраните редактируемый документ в формате Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Преобразование отсканированного PDF в DOCX с помощью оптического распознавания символов с использованием фильтров предварительной обработки в C#

Вы можете улучшить преобразование отсканированного PDF в DOCX с помощью OCR, используя различные настройки. Например, установите различные фильтры предварительной обработки для повышения точности, такие как устранение перекоса или шумоподавление исходного файла. Следующие шаги описывают расширенный подход к преобразованию отсканированного PDF в DOCX с помощью оптического распознавания символов на C#:

  • Установите фильтры предварительной обработки.
  • Инициализируйте экземпляр класса OcrInput.
  • Распознайте текст из документа.
  • Сохраните распознанный текст как документ Word DOCX.

В приведенном ниже фрагменте кода подробно описано, как преобразовать отсканированный PDF-файл в DOCX с помощью оптического распознавания символов с использованием фильтров предварительной обработки на C#:

// Установить фильтры обработки
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Загрузите отсканированный PDF-документ
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Распознать текст из документа
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Сохраните редактируемый документ в формате Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Бесплатная пробная лицензия

Вы можете получить бесплатную пробную лицензию для оценки API без каких-либо ограничений.

Подведение итогов

В этом сообщении блога вы узнали, как конвертировать PDF в DOCX с помощью OCR на C#. Вы можете легко извлекать текст из PDF-файлов, включая отсканированные документы, и сохранять его как редактируемые файлы Word DOCX. Это может быть ценным инструментом в различных сценариях, таких как извлечение данных из форм PDF или оцифровка печатных документов. Поэкспериментируйте с различными параметрами и вариантами настройки в соответствии с вашими конкретными требованиями и расширьте возможности обработки документов на C#. В случае возникновения каких-либо вопросов, пожалуйста, свяжитесь с нами через форум.

Часто задаваемые вопросы

Поддерживает ли OCR несколько языков при преобразовании PDF-файлов в DOCX на C#?

Да, он может распознавать текст на большом количестве языков и все популярные сценарии письма, включая тексты на смешанных языках.

Поддерживается ли функция проверки орфографии при преобразовании отсканированного PDF-файла в редактируемые документы Word DOCX?

Да, вы можете настроить функцию проверки орфографии, чтобы исправить любые слова с ошибками, поскольку программа проверки орфографии поддерживает разные словари.

Существуют ли какие-либо ограничения или проблемы, о которых следует знать при использовании OCR для преобразования PDF в DOCX?

Да, распознавание текста может быть не идеальным и иногда может вызывать ошибки, особенно при работе со сложными макетами, рукописным текстом или некачественными сканами. Важно просмотреть и отредактировать преобразованный текст по мере необходимости, чтобы обеспечить точность. Кроме того, производительность оптического распознавания символов может варьироваться в зависимости от качества входного PDF-файла и используемого языка.

Смотрите также