Quét hóa đơn OCR

Trong thời đại kỹ thuật số ngày nay, các doanh nghiệp, cá nhân thường phải xử lý một khối lượng hóa đơn, biên lai rất lớn. Việc nhập dữ liệu từ các tài liệu này vào hệ thống quản lý hoặc kế toán của bạn theo cách thủ công có thể tốn thời gian và dễ xảy ra lỗi. May mắn thay, công nghệ Nhận dạng Ký tự Quang học (OCR) có thể giúp tự động hóa quy trình này bằng cách trích xuất văn bản và dữ liệu từ các hóa đơn được quét hoặc chụp ảnh. Trong bài đăng trên blog này, chúng tôi sẽ hướng dẫn bạn quy trình tạo Trình quét hóa đơn bằng OCR trong C#, giúp bạn tiết kiệm thời gian và giảm sai sót trong quy trình tài chính của mình.

Máy quét hóa đơn OCR - Cài đặt API C#

Để sử dụng OCR trong dự án của bạn, bạn cần cài đặt Conholdate.Total for .NET. Bạn có thể thực hiện việc này thông qua plugin Trình quản lý gói NuGet trong Visual Studio hoặc chạy lệnh cài đặt sau:

PM> NuGet\Install-Package Conholdate.Total

Tạo máy quét biên nhận OCR trong C#

Biên lai thường được chia sẻ dưới dạng hình ảnh. Bạn có thể dễ dàng tạo trình quét biên lai bằng OCR trong C# để xử lý hình ảnh biên nhận bằng cách thực hiện theo các bước bên dưới:

  • Khởi tạo một thể hiện của lớp OcrInput.
  • Thêm hình ảnh nguồn bằng phương thức Add(string).
  • Trích xuất văn bản từ hóa đơn bằng OCR bằng phương thức Nhận dạngInvoice(OcrInput, InvoiceRecognitionSettings).
  • Lưu văn bản hóa đơn vào tệp bằng phương thức Save(string, SaveFormat, bool, SpellCheckLanguage, string) .

Đoạn mã bên dưới trình bày cách tạo máy quét biên nhận OCR trong C#:

// Tải hình ảnh hóa đơn
Aspose.OCR.OcrInput invoices = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
invoices.Add("invoice.png");

// Trích xuất văn bản từ hóa đơn
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.RecognizeInvoice(invoices);

// Lưu văn bản hóa đơn vào tập tin
results[0].Save("invoice.txt", Aspose.OCR.SaveFormat.Text);

Tạo Trình quét hóa đơn bằng OCR cho PDF trong C#

Đôi khi biên lai và hóa đơn được biên soạn thành tài liệu PDF trong đó nhiều trang có thể chứa nhiều hóa đơn. Bạn có thể tạo trình quét hóa đơn một cách hiệu quả bằng OCR cho PDF trong C#. Vui lòng làm theo các bước bên dưới để xử lý hóa đơn PDF trong môi trường của bạn:

  • Tạo một thể hiện của lớp OcrInput.
  • Tải tệp PDF nguồn bằng cách chỉ định kiểu liệt kê Kiểu đầu vào.
  • Đọc văn bản từ hóa đơn bằng phương thức Nhận dạngInvoice(OcrInput, InvoiceRecognitionSettings).
  • Xuất văn bản hóa đơn sang tệp TXT với bảng liệt kê SaveFormat.

Mẫu mã bên dưới cho biết cách tạo trình quét hóa đơn bằng OCR cho PDF trong C#:

// Tải hóa đơn PDF
Aspose.OCR.OcrInput invoices = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
invoices.Add(dataDir + "invoice.pdf");

// Trích xuất văn bản từ hóa đơn
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.RecognizeInvoice(invoices);

// Lưu văn bản hóa đơn vào tập tin
results[0].Save(dataDir + "3invoice.txt", Aspose.OCR.SaveFormat.Text);

Giấy phép đánh giá miễn phí

Bạn có thể nhận được giấy phép đánh giá miễn phí để kiểm tra hết công suất của API.

Tổng hợp

Tự động hóa quá trình quét và trích xuất dữ liệu từ hóa đơn bằng OCR trong C# có thể hợp lý hóa đáng kể quy trình tài chính của bạn và giảm nguy cơ xảy ra lỗi thủ công. Trong bài đăng trên blog này, chúng tôi đã cung cấp bản phác thảo cơ bản về cách tạo Trình quét hóa đơn bằng OCR trong C#. Bạn có thể nâng cao và tùy chỉnh hơn nữa giải pháp này để đáp ứng các yêu cầu cụ thể của doanh nghiệp hoặc dự án của bạn. Ví dụ: bạn có thể ứng biến nó để xử lý một hoặc nhiều hình ảnh biên lai, sử dụng tài liệu PDF chứa hóa đơn, thư mục ZIP để nén hoặc lưu trữ biên lai. Tương tự, bạn có thể nâng cao hình ảnh biên nhận để xử lý trước chúng cho các hoạt động OCR như thay đổi kích thước, lấy mẫu lại, cắt xén, v.v. theo yêu cầu của bạn. Tuy nhiên, bạn có thể viết thư cho chúng tôi tại diễn đàn trong trường hợp bạn muốn thảo luận về bất kỳ thắc mắc hoặc mối quan tâm nào của mình.

Câu hỏi thường gặp

OCR là gì và tại sao nó được sử dụng trong máy quét hóa đơn?

OCR là viết tắt của Nhận dạng ký tự quang học, một công nghệ chuyển đổi hình ảnh hoặc tài liệu được quét thành văn bản có thể chỉnh sửa và tìm kiếm được. Trong máy quét hóa đơn, OCR được sử dụng để trích xuất văn bản từ hóa đơn, giúp xử lý và quản lý dữ liệu hóa đơn kỹ thuật số dễ dàng hơn.

Những bước nào liên quan đến việc tạo trình quét hóa đơn trong C# bằng OCR?

Các bước điển hình bao gồm thu thập hình ảnh, trích xuất văn bản OCR, xác thực và phân tích dữ liệu cũng như lưu trữ dữ liệu được trích xuất ở định dạng có cấu trúc. Bạn cũng cần thiết kế giao diện thân thiện với người dùng để tương tác với người dùng.

Một số thách thức tôi có thể gặp phải khi xây dựng trình quét hóa đơn bằng OCR trong C# là gì?

Các thách thức có thể bao gồm việc xử lý các định dạng hóa đơn khác nhau, xử lý các chất lượng hình ảnh khác nhau, đảm bảo độ chính xác OCR cao cũng như triển khai xác thực dữ liệu và xử lý lỗi.

Xem thêm