PDF sang DOCX OCR

Tệp PDF là định dạng phổ biến để chia sẻ tài liệu, nhưng đôi khi bạn cần chỉnh sửa hoặc trích xuất văn bản từ chúng. Định dạng DOCX của Microsoft Word là một trong những lựa chọn phổ biến nhất để chỉnh sửa tài liệu. Trong bài đăng trên blog này, chúng tôi sẽ hướng dẫn bạn cách chuyển đổi PDF sang DOCX bằng Nhận dạng ký tự quang học (OCR) bằng C#. Công nghệ OCR có thể giúp trích xuất văn bản từ các tệp PDF được quét hoặc các tệp PDF dựa trên hình ảnh, khiến nó trở thành một công cụ linh hoạt để chuyển đổi tài liệu.

Chuyển đổi PDF sang DOCX với OCR - Cài đặt API C#

Để chuyển đổi tài liệu PDF sang DOCX Word bằng OCR trong C#, bạn cần định cấu hình Conholdate.Total for .NET. Bạn có thể dễ dàng thực hiện việc này bằng cách sử dụng plugin Trình quản lý gói NuGet trong Visual Studio IDE hoặc chạy lệnh cài đặt NuGet sau:

PM> NuGet\Install-Package Conholdate.Total

Chuyển đổi PDF sang DOCX bằng OCR trong C#

Bạn có thể chuyển đổi PDF thành tài liệu Word bằng OCR trong C# bằng các bước sau:

  • Tạo một đối tượng của lớp OcrInput.
  • Tải tài liệu PDF nguồn bằng phương thức Add(string).
  • Nhận dạng văn bản từ tài liệu bằng phương thức Nhận dạng (OcrInput, Cài đặt nhận dạng).
  • Lưu tài liệu có thể chỉnh sửa ở định dạng Microsoft Word (DOCX) bằng SaveMultipageDocument(string, SaveFormat, List ) phương pháp.

Mã mẫu sau đây là ví dụ về cách chuyển đổi PDF sang DOCX bằng OCR trong C#:

// Tải tài liệu PDF được quét
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Nhận dạng văn bản từ tài liệu
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Lưu tài liệu có thể chỉnh sửa ở định dạng Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Chuyển đổi PDF đã quét sang DOCX bằng OCR bằng Bộ lọc tiền xử lý trong C#

Bạn có thể nâng cao khả năng chuyển đổi PDF sang DOCX được quét bằng OCR bằng cách sử dụng các cài đặt khác nhau. Ví dụ: đặt các bộ lọc tiền xử lý khác nhau để cải thiện độ chính xác như xóa hoặc khử nhiễu tệp nguồn. Các bước sau đây trình bày chi tiết cách tiếp cận nâng cao để chuyển đổi PDF được quét sang DOCX bằng OCR trong C#:

  • Đặt các bộ lọc tiền xử lý bằng lớp PreprocessingFilter.
  • Khởi tạo một thể hiện của lớp OcrInput.
  • Nhận dạng văn bản từ tài liệu bằng phương pháp Nhận dạng (OcrInput, Cài đặt nhận dạng).
  • Lưu văn bản được nhận dạng dưới dạng tài liệu Word DOCX bằng cách sử dụng SaveMultipageDocument(string, SaveFormat, List ) phương pháp.

Đoạn mã bên dưới trình bày chi tiết về cách chuyển đổi PDF được quét sang DOCX bằng OCR bằng cách sử dụng các bộ lọc tiền xử lý trong C#:

// Đặt bộ lọc xử lý
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Tải tài liệu PDF được quét
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Nhận dạng văn bản từ tài liệu
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Lưu tài liệu có thể chỉnh sửa ở định dạng Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Giấy phép đánh giá miễn phí

Bạn có thể nhận được giấy phép đánh giá miễn phí để đánh giá các API mà không có bất kỳ hạn chế nào.

Tổng hợp

Trong bài đăng trên blog này, bạn đã học cách chuyển đổi PDF sang DOCX bằng OCR trong C#. Bạn có thể dễ dàng trích xuất văn bản từ các tệp PDF, bao gồm cả tài liệu được quét và lưu chúng dưới dạng tệp Word DOCX có thể chỉnh sửa. Đây có thể là một công cụ có giá trị trong nhiều tình huống khác nhau, chẳng hạn như trích xuất dữ liệu từ các biểu mẫu PDF hoặc số hóa tài liệu in. Thử nghiệm với các cài đặt và tùy chọn tùy chỉnh khác nhau để đáp ứng các yêu cầu cụ thể của bạn và nâng cao khả năng xử lý tài liệu của bạn trong C#. Nếu có bất kỳ câu hỏi nào, vui lòng liên hệ với chúng tôi qua diễn đàn.

Câu hỏi thường gặp

OCR có hỗ trợ nhiều ngôn ngữ khi chuyển đổi PDF sang DOCX trong C# không?

Có, nó có thể nhận dạng văn bản ở nhiều ngôn ngữ và tất cả các loại chữ viết phổ biến, bao gồm cả văn bản có nhiều ngôn ngữ hỗn hợp.

Tính năng kiểm tra chính tả có được hỗ trợ trong khi chuyển đổi bản PDF được quét sang tài liệu Word DOCX có thể chỉnh sửa không?

Có, bạn có thể đặt tính năng kiểm tra chính tả để sửa bất kỳ từ sai chính tả nào vì các từ điển khác nhau được trình kiểm tra chính tả hỗ trợ.

Có bất kỳ hạn chế hoặc thách thức nào cần lưu ý khi sử dụng OCR để chuyển đổi PDF sang DOCX không?

Có, OCR có thể không hoàn hảo và đôi khi có thể gây ra lỗi, đặc biệt với các bố cục phức tạp, văn bản viết tay hoặc bản quét chất lượng thấp. Điều quan trọng là phải xem lại và chỉnh sửa văn bản đã chuyển đổi nếu cần để đảm bảo độ chính xác. Ngoài ra, hiệu suất OCR có thể thay đổi tùy thuộc vào chất lượng của tệp PDF đầu vào và ngôn ngữ được sử dụng.

Xem thêm