PDF ke DOCX OCR

File PDF adalah format yang ada di mana-mana untuk berbagi dokumen, tetapi terkadang Anda perlu mengedit atau mengekstrak teks dari file tersebut. Format DOCX Microsoft Word adalah salah satu pilihan paling populer untuk mengedit dokumen. Dalam postingan blog ini, kami akan menunjukkan cara mengonversi PDF ke DOCX dengan Optical Character Recognition (OCR) menggunakan C#. Teknologi OCR dapat membantu mengekstrak teks dari PDF yang dipindai atau PDF berbasis gambar, menjadikannya alat serbaguna untuk konversi dokumen.

Konverter PDF ke DOCX dengan OCR - Instalasi C# API

Untuk mengonversi dokumen PDF ke DOCX Word dengan OCR di C#, Anda perlu mengonfigurasi Conholdate.Total for .NET. Anda dapat dengan mudah melakukan ini menggunakan plugin NuGet Package Manager di Visual Studio IDE atau menjalankan perintah instalasi NuGet berikut:

PM> NuGet\Install-Package Conholdate.Total

Konversi PDF ke DOCX dengan OCR di C#

Anda dapat mengonversi PDF ke dokumen Word dengan OCR di C# dengan langkah-langkah berikut:

  • Buat objek kelas OcrInput.
  • Muat dokumen PDF sumber.
  • Kenali teks dari dokumen.
  • Simpan dokumen yang dapat diedit dalam format Microsoft Word (DOCX).

Contoh kode berikut adalah contoh cara mengonversi PDF ke DOCX dengan OCR di C#:

// Muat dokumen PDF yang dipindai
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Kenali teks dari dokumen
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Simpan dokumen yang dapat diedit dalam format Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Konversi PDF yang Dipindai ke DOCX dengan OCR menggunakan Filter Pra-pemrosesan di C#

Anda dapat meningkatkan konversi PDF ke DOCX yang dipindai dengan OCR dengan menggunakan pengaturan berbeda. Misalnya, atur filter pra-pemrosesan yang berbeda untuk meningkatkan akurasi seperti menghilangkan atau menolak file sumber. Langkah-langkah berikut menguraikan pendekatan lanjutan untuk mengonversi PDF yang dipindai ke DOCX dengan OCR di C#:

  • Atur filter pra-pemrosesan.
  • Inisialisasi instance kelas OcrInput.
  • Kenali teks dari dokumen.
  • Simpan teks yang dikenali sebagai dokumen Word DOCX.

Cuplikan kode di bawah menguraikan cara mengonversi PDF yang dipindai ke DOCX dengan OCR menggunakan filter prapemrosesan di C#:

// Atur filter pemrosesan
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Muat dokumen PDF yang dipindai
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Kenali teks dari dokumen
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Simpan dokumen yang dapat diedit dalam format Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Lisensi Evaluasi Gratis

Anda bisa mendapatkan lisensi evaluasi gratis untuk mengevaluasi API tanpa batasan apa pun.

Menyimpulkan

Dalam postingan blog ini, Anda telah mempelajari cara mengonversi PDF ke DOCX dengan OCR di C#. Anda dapat dengan mudah mengekstrak teks dari PDF, termasuk dokumen yang dipindai, dan menyimpannya sebagai file Word DOCX yang dapat diedit. Ini bisa menjadi alat yang berharga dalam berbagai skenario, seperti ekstraksi data dari formulir PDF atau digitalisasi dokumen cetak. Bereksperimenlah dengan berbagai pengaturan dan opsi penyesuaian untuk memenuhi kebutuhan spesifik Anda, dan tingkatkan kemampuan pemrosesan dokumen Anda di C#. Jika ada pertanyaan, jangan ragu untuk menghubungi kami melalui forum.

FAQ

Apakah beberapa bahasa didukung oleh OCR saat mengonversi PDF ke DOCX di C#?

Ya, ia dapat mengenali teks dalam banyak bahasa dan semua skrip tulisan populer, termasuk teks dengan bahasa campuran.

Apakah fitur pemeriksaan ejaan didukung saat mengonversi PDF yang dipindai ke dokumen Word DOCX yang dapat diedit?

Ya, Anda dapat mengatur fitur pemeriksa ejaan untuk memperbaiki kata-kata yang salah eja karena kamus yang berbeda didukung oleh pemeriksa ejaan.

Apakah ada batasan atau tantangan yang harus diperhatikan saat menggunakan OCR untuk konversi PDF ke DOCX?

Ya, OCR mungkin tidak sempurna dan terkadang menghasilkan kesalahan, terutama dengan tata letak yang rumit, teks tulisan tangan, atau pindaian berkualitas rendah. Penting untuk meninjau dan mengedit teks yang dikonversi sesuai kebutuhan untuk memastikan keakuratan. Selain itu, kinerja OCR dapat bervariasi tergantung pada kualitas input PDF dan bahasa yang digunakan.

Lihat juga