Chuyển đổi PDF thành văn bản trong C#

Chuyển đổi PDF thành văn bản trong C#

Gần đây, chúng tôi đã xuất bản một số bài đăng trên blog như chuyển đổi PDF sang HTMLPDF sang hình ảnh theo chương trình. Bài viết này sẽ hướng dẫn chúng ta cách chuyển đổi PDF thành Văn bản trong C# bằng thư viện .NET OCR. Là nhà phát triển .NET, bạn có thể dễ dàng sử dụng thư viện này để chuyển đổi tệp sang các định dạng tệp phổ biến khác. Ngoài ra, còn có rất nhiều tính năng phong phú để tự động hóa quá trình trích xuất văn bản từ tài liệu PDF. Tuy nhiên, chúng tôi sẽ viết các bước và đoạn mã để minh họa việc trích xuất văn bản từ tệp PDF được quét.

Các điểm sau đây sẽ được đề cập trong bài viết này:

Cài đặt thư viện .NET OCR

Thư viện này rất mạnh mẽ và cung cấp tài liệu toàn diện về việc phát triển và sử dụng. Bạn có thể chuyển đổi và xử lý các định dạng tệp khác nhau một cách nhanh chóng và hiệu quả.

Để cài đặt API này trong dự án .NET của bạn, bạn có thể tải xuống tệp DLL hoặc chạy lệnh sau trong trình quản lý gói NuGet.

Install-Package Aspose.OCR

Cách chuyển đổi PDF thành văn bản trong C#

Việc trích xuất văn bản từ tệp PDF được quét khá dễ dàng và chỉ cần vài dòng mã nguồn trong C#.

Vui lòng làm theo các bước được đề cập dưới đây:

  1. Tạo một đối tượng của lớp AsposeOcr.
  2. Khởi tạo một phiên bản của lớp DocumentRecognitionSettings để nhận dạng hình ảnh từ PDF.
  3. Đặt giá trị của thuộc tính DetectAreas để bật tính năng phát hiện vùng văn bản tự động.
  4. Tạo danh sách các loại RecognitionResult, trích xuất văn bản từ tài liệu PDF được quét bằng cách gọi phương thức RecognizePdf và gán kết quả cho danh sách.

Sao chép và dán đoạn mã sau để chuyển đổi PDF sang TEXT trong C#.


string fullPath =   "sample.pdf";
// Tạo một đối tượng của lớp AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Khởi tạo một phiên bản của lớp DocumentRecognitionSettings để nhận dạng hình ảnh từ PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// đặt giá trị của thuộc tính DetectAreas để cho phép phát hiện vùng văn bản tự động 
set.DetectAreas = false;
// tạo danh sách loại Công nhận, trích xuất tài liệu PDF được quét dưới dạng văn bản bằng cách gọi phương thức Nhận dạngPdf và gán kết quả cho danh sách  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Kết quả in
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Chuyển đổi PDF sang văn bản - tùy chọn nâng cao

Trong phần này, chúng ta sẽ khám phá thêm về thư viện này. Nó cũng cho phép bạn nhận dạng các tệp PDF được quét từ luồng.

Sau đây là các bước:

  1. Khởi tạo một thể hiện của lớp AsposeOcr.
  2. Tạo một phiên bản của lớp MemoryStream để nhận dạng PDF từ luồng.
  3. Khởi tạo hàm tạo của FileStream và tải tệp nguồn.
  4. Gọi phương thức CopyTo để ghi byte vào luồng bộ nhớ.
  5. Tạo một đối tượng thuộc lớp DocumentRecognitionSettings để nhận dạng hình ảnh từ PDF.
  6. Tạo danh sách các loại RecognitionResult và khởi tạo bằng kết quả của phương thức Nhận dạngPdf.

string fullPath =   "final.pdf";
// khởi tạo một thể hiện của lớp AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Tạo một phiên bản của lớp MemoryStream để nhận dạng pdf từ luồng     
using (MemoryStream ms = new MemoryStream())
{
    // Khởi tạo hàm tạo của FileStream và tải tệp nguồn  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Gọi phương thức CopyTo để ghi byte vào luồng bộ nhớ.  
        file.CopyTo(ms);
        // Tạo một đối tượng của lớp DocumentRecognitionSettings nhận dạng hình ảnh từ PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Tạo danh sách loại GeometryResult và khởi tạo bằng kết quả của phương thức Nhận dạngPdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Kết quả in
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để dùng thử API mà không bị giới hạn về đánh giá.

Tổng hợp

Điều này đưa chúng ta đến phần cuối của bài viết blog này. Bạn đã học cách chuyển đổi PDF thành Văn bản trong C# theo chương trình. Ngoài ra, chúng tôi cũng đã khám phá một số phương pháp nâng cao được cung cấp bởi thư viện .NET OCR này. Ngoài ra, bạn có thể truy cập tài liệu để biết các tính năng khác. Hướng dẫn này chắc chắn sẽ giúp ích cho bạn nếu bạn đang muốn trang bị cho ứng dụng của mình một trình chuyển đổi PDF sang Văn bản. Hơn nữa, conholdate.com đang viết các bài đăng blog mới về các chủ đề mới. Vì vậy, hãy giữ liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Bạn có thể cho chúng tôi biết về các câu hỏi hoặc thắc mắc của bạn trên diễn đàn của chúng tôi.

Câu hỏi thường gặp

Làm cách nào để chuyển đổi PDF thành văn bản theo chương trình?

Bạn có thể chuyển đổi PDF thành Văn bản trong C# bằng [thư viện .NET OCR] này 3. Nó hiển thị phương thức RecognizePdf thực hiện hành động này một cách hiệu quả.

Cách dễ nhất để chuyển đổi PDF thành văn bản là gì

Bạn có thể truy cập tài liệu của thư viện này để biết về các phương pháp mà bạn có thể trích xuất dữ liệu từ các tệp PDF được quét theo chương trình.

Xem thêm