OCR-сканирование счетов

В сегодняшнюю цифровую эпоху предприятия и частные лица часто имеют дело с большим объемом счетов и квитанций. Ввод данных из этих документов вручную в вашу систему бухгалтерского учета или управления может занять много времени и привести к ошибкам. К счастью, технология оптического распознавания символов (OCR) может помочь автоматизировать этот процесс, извлекая текст и данные из отсканированных или сфотографированных счетов. В этой записи блога мы проведем вас через процесс создания сканера счетов с оптическим распознаванием текста на C#, который позволит вам сэкономить время и уменьшить количество ошибок в ваших финансовых рабочих процессах.

Сканер счетов OCR — установка C# API

Чтобы использовать OCR в своем проекте, вам необходимо установить Conholdate.Total for .NET. Вы можете сделать это с помощью плагина NuGet Package Manager в Visual Studio или запустить следующую команду установки:

PM> NuGet\Install-Package Conholdate.Total

Создание сканера квитанций OCR на C#

Квитанции часто делятся в виде изображений. Вы можете легко создать сканер квитанций с использованием оптического распознавания символов на C# для обработки изображений квитанций, выполнив следующие действия:

  • Инициализируйте экземпляр класса OcrInput.
  • Добавьте исходное изображение.
  • Извлеките текст из счета-фактуры с помощью OCR.
  • Сохраните текст счета в файл.

В приведенном ниже фрагменте кода показано, как создать сканер квитанций OCR на C#:

// Загрузить изображение счета-фактуры
Aspose.OCR.OcrInput invoices = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
invoices.Add("invoice.png");

// Извлечь текст из счета-фактуры
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.RecognizeInvoice(invoices);

// Сохранить текст счета в файл
results[0].Save("invoice.txt", Aspose.OCR.SaveFormat.Text);

Создать сканер счетов с помощью OCR для PDF на C#

Иногда квитанции и счета-фактуры объединяются в документ PDF, где несколько страниц могут содержать несколько счетов-фактур. Вы можете эффективно создать сканер счетов, используя OCR для PDF на C#. Для обработки счетов в формате PDF в вашей среде выполните следующие действия:

  • Создайте экземпляр класса OcrInput.
  • Загрузите исходный PDF-файл.
  • Прочитайте текст из счетов-фактур.
  • Экспортируйте текст счета в файл TXT.

В приведенном ниже примере кода показано, как создать сканер счетов с оптическим распознаванием текста для PDF на C#:

// Загрузить счет в формате PDF
Aspose.OCR.OcrInput invoices = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
invoices.Add(dataDir + "invoice.pdf");

// Извлечь текст из счета-фактуры
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.RecognizeInvoice(invoices);

// Сохранить текст счета в файл
results[0].Save(dataDir + "3invoice.txt", Aspose.OCR.SaveFormat.Text);

Бесплатная пробная лицензия

Вы можете получить бесплатную пробную лицензию для тестирования API на полную мощность.

Подведение итогов

Автоматизация процесса сканирования и извлечения данных из счетов-фактур с помощью оптического распознавания символов на C# может значительно упростить ваши финансовые рабочие процессы и снизить риск ошибок, совершаемых вручную. В этой записи блога мы представили базовую схему создания сканера счетов с оптическим распознаванием текста на C#. Вы можете дополнительно улучшить и настроить это решение в соответствии с конкретными требованиями вашего бизнеса или проекта. Например, вы можете импровизировать для обработки одного или нескольких изображений квитанций, использовать PDF-документ, содержащий счета, ZIP-каталог для сжатых или архивированных квитанций. Аналогичным образом вы можете улучшить изображения квитанций для предварительной обработки их для операций оптического распознавания символов, таких как изменение размера, повторная выборка, обрезка и т. д. в соответствии с вашими требованиями. Однако вы можете написать нам на форум, если захотите обсудить какие-либо вопросы или проблемы.

Часто задаваемые вопросы

Что такое OCR и почему оно используется в сканере счетов?

OCR означает оптическое распознавание символов, технологию, которая преобразует изображения или отсканированные документы в редактируемый текст с возможностью поиска. В сканере счетов-фактур OCR используется для извлечения текста из счетов-фактур, что упрощает обработку и управление данными счетов в цифровом виде.

Какие шаги входят в создание сканера счетов на C# с функцией OCR?

Типичные шаги включают получение изображения, извлечение текста OCR, проверку и анализ данных, а также сохранение извлеченных данных в структурированном формате. Вам также потребуется разработать удобный интерфейс для взаимодействия с пользователем.

С какими проблемами я могу столкнуться при создании сканера счетов с оптическим распознаванием текста на C#?

Проблемы могут включать обработку различных форматов счетов, работу с изображениями разного качества, обеспечение высокой точности оптического распознавания символов, а также реализацию проверки данных и обработку ошибок.

Смотрите также