Mã Java để trích xuất văn bản từ hình ảnh

Công nghệ OCR đã trở nên rất phổ biến và mang lại lợi ích, đặc biệt đối với các tổ chức không sử dụng tài liệu giấy và muốn trích xuất dữ liệu văn bản quan trọng từ tài liệu được quét để lưu vào phần mềm kinh doanh hiện có của họ. Ngành chăm sóc sức khỏe, các công ty pháp lý hoặc các cơ quan chính quyền địa phương đang chuyển đổi các hồ sơ khổng lồ của họ thành các tài liệu kỹ thuật số có thể tìm kiếm được.

Tương tự, nếu bạn đang tìm kiếm một thư viện OCR Java mạnh mẽ nhưng dễ sử dụng cho dự án phần mềm của mình thì bạn đã đến đúng nơi. Trong bài viết này, chúng tôi sẽ giải thích cách trích xuất văn bản từ hình ảnh PNG bằng Java. Do đó, hãy quét các tài liệu giấy như biên lai, hộ chiếu hoặc chụp ảnh biển số ô tô và lưu tất cả dưới dạng ảnh PNG. Chúng tôi sẽ trích xuất từng văn bản từ các tài liệu này trong các phần sau.

Các điểm sau đây sẽ được đề cập trong bài viết này:

Thư viện trích xuất văn bản Java PNG - Cài đặt

Trong phần này, chúng ta sẽ thảo luận về quy trình cài đặt [thư viện trích xuất văn bản Java PNG] này 5. Nếu bạn đang sử dụng Maven để quản lý dự án hoặc ứng dụng Java, hãy thêm các cấu hình sau vào tệp pom.xml.

<repository>
	<id>ConholdateJavaAPI</id>
	<name>Conholdate Java API</name>
	<url>https://releases.conholdate.com/java/repo</url>
</repository>        
<dependency>
	<groupId>com.conholdate</groupId>
	<artifactId>conholdate-total</artifactId>
	<version>23.6</version>
	<type>pom</type>
</dependency>

Sau đó chạy các lệnh sau.

mvn clean    
mvn install -U

Để biết cấu hình về các khung công tác Java khác, vui lòng truy cập releases.conholdate.com.

Hướng dẫn Java: Nhận dạng và trích xuất văn bản từ PNG

Trong phần này, bạn sẽ tìm hiểu cách trích xuất văn bản từ hình ảnh PNG bằng thư viện trích xuất văn bản Java PNG của chúng tôi. Đơn giản, bạn chỉ cần viết một vài dòng mã. Giả sử chúng ta có một hình ảnh PNG chứa văn bản như bên dưới:

Nhận dạng và trích xuất văn bản từ PNG bằng Java
Sau đây là các bước để trích xuất văn bản từ PNG bằng Java:

  1. Khởi tạo một thể hiện của lớp AsposeOcr.
  2. Lấy văn bản bằng cách sử dụng phương thức RecognizeImage(string fullPath) của lớp AsposeOcr.
  3. In hoặc lưu văn bản được trích xuất.

Mẫu mã bên dưới trình bày cách trích xuất văn bản từ PNG bằng Java.

// Khởi tạo một đối tượng của lớp AsposeOcr.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Đọc văn bản từ PNG.
string result = recognitionEngine.RecognizeImage("source.png");
// In văn bản được trích xuất.
Console.WriteLine(result);

Trích xuất văn bản từ hình ảnh biên nhận bằng Java

Nhiều công ty đề nghị nhân viên của họ bồi thường chi phí đi lại, phí mạng lưới và các khoản thanh toán khác được xác nhận bằng biên lai. Vì vậy, số hóa các biên lai này theo cách thủ công có thể là một công việc bận rộn và tốn thời gian. Trong phần này, chúng tôi sẽ giải thích cách bạn có thể số hóa hóa đơn của mình dễ dàng bằng thư viện OCR Java của chúng tôi.

Sau đây là các bước để trích xuất văn bản từ ảnh biên nhận bằng Java:

  1. Khởi tạo một thể hiện của lớp AsposeOcr.
  2. Tạo một đối tượng của lớp ReceiptRecognitionSettings.
  3. Chỉ định ngôn ngữ bằng thuộc tính ReceiptRecognitionSettings.Language.
  4. Nhận văn bản bằng cách sử dụng phương thức RecognizeReceipt(string, ReceiptRecognitionSettings) của lớp AsposeOcr.
  5. In hoặc lưu văn bản được trích xuất.

Sau đây là mã Java để trích xuất văn bản từ hình ảnh (PNG).

// Khởi tạo một đối tượng của lớp AsposeOcr.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Tạo một đối tượng của lớp ReceiptRecognitionSettings.
Aspose.OCR.ReceiptRecognitionSettings recognitionSettings = new Aspose.OCR.ReceiptRecognitionSettings();
// Đặt ngôn ngữ 
recognitionSettings.Language = Aspose.OCR.Language.Latin;
// Đọc văn bản từ hình ảnh nhận.
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeReceipt("receipt.png", recognitionSettings);
// In văn bản được trích xuất.
Console.WriteLine(result.RecognitionText);

Trích xuất văn bản từ ảnh hộ chiếu trong Java

Việc nhận dạng và xác minh hộ chiếu tự động thường được thực hiện trong kiểm soát biên giới, ngân hàng, an ninh và nhiều bộ phận nhạy cảm khác. Trong phần này, chúng tôi sẽ giải thích bạn có thể nhận dạng và trích xuất văn bản từ bản sao hộ chiếu nhanh như thế nào.

Sau đây là các bước để trích xuất văn bản từ hình ảnh PNG của hộ chiếu bằng Java:

  1. Tạo một thể hiện của lớp AsposeOcr.
  2. Khởi tạo một đối tượng của lớp PassportRecognitionSettings.
  3. Đặt ngôn ngữ bằng thuộc tính PassportRecognitionSettings.Language.
  4. Đọc văn bản bằng cách sử dụng phương thức RecognizePassport(string, PassportRecognitionSettings ) của lớp AsposeOcr.
  5. In hoặc lưu văn bản được trích xuất.

Mẫu mã bên dưới cho thấy cách trích xuất văn bản từ hình ảnh PNG của hộ chiếu bằng Java.

// Khởi tạo một đối tượng của lớp AsposeOcr.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Tạo một đối tượng của lớp ReceiptRecognitionSettings.
Aspose.OCR.ReceiptRecognitionSettings recognitionSettings = new Aspose.OCR.ReceiptRecognitionSettings();
// Đặt ngôn ngữ 
recognitionSettings.Language = Aspose.OCR.Language.Latin;
// Đọc văn bản từ hình ảnh nhận.
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeReceipt("receipt.png", recognitionSettings);
// In văn bản được trích xuất.
Console.WriteLine(result.RecognitionText);

Hướng dẫn Java: Đọc văn bản từ hình ảnh biển số xe

Trong phần này, chúng tôi sẽ trình bày cách trích xuất văn bản từ hình ảnh một chiếc ô tô hoặc bất kỳ biển số xe nào.

Sau đây là các bước để thực hiện công việc:

  1. Khởi tạo một thể hiện của lớp AsposeOcr.
  2. Tạo một đối tượng của lớp CarPlateRecognitionSettings.
  3. Đặt ngôn ngữ bằng thuộc tính CarPlateRecognitionSettings.Language.
  4. Trích xuất văn bản bằng cách sử dụng phương thức RecognizeCarPlate(string, CarPlateRecognitionSettings) của lớp AsposeOcr.
  5. In hoặc lưu văn bản được trích xuất.

Mẫu mã bên dưới minh họa cách trích xuất văn bản từ hình ảnh PNG của biển số xe bằng Java.

// Khởi tạo một đối tượng của lớp AsposeOcr.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Tạo một đối tượng của lớp ReceiptRecognitionSettings.
Aspose.OCR.CarPlateRecognitionSettings recognitionSettings = new Aspose.OCR.CarPlateRecognitionSettings();
// Đặt ngôn ngữ 
recognitionSettings.Language = Aspose.OCR.Language.Latin;
// Đọc văn bản từ hình ảnh biển số.
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeCarPlate("car-plate.png", recognitionSettings);
// In văn bản được trích xuất.
Console.WriteLine(result.RecognitionText);

Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để dùng thử API mà không bị giới hạn về đánh giá.

Phần kết luận

Để kết luận, chúng tôi hy vọng bạn đã học cách nhận dạng và trích xuất văn bản từ hình ảnh PNG trong Java bằng thư viện trích xuất và nhận dạng văn bản Java PNG của chúng tôi. Chúng tôi đã trình diễn một hướng dẫn Java đơn giản để đọc văn bản từ PNG. Tương tự như vậy, chúng tôi đã giải thích cách trích xuất văn bản từ bản sao chụp biên lai, hộ chiếu và biển số xe.

Bạn có thể truy cập tài liệu để tìm hiểu thêm về API Trình soạn thảo Java Excel.

Cuối cùng, vui lòng theo dõi tại conholdate.com để biết thông tin cập nhật thường xuyên.

Đặt một câu hỏi

Bạn có thể cho chúng tôi biết câu hỏi hoặc thắc mắc của bạn trên diễn đàn của chúng tôi.

Xem thêm