Konversi PDF ke Teks dalam C#

Konversi PDF ke Teks dalam C#

Baru-baru ini, kami menerbitkan beberapa postingan blog seperti mengonversi PDF ke HTML dan PDF ke Gambar secara terprogram. Artikel ini akan mengajari kita cara mengonversi PDF ke Teks dalam C# menggunakan pustaka .NET OCR. Sebagai pengembang .NET, Anda dapat dengan mudah menggunakan perpustakaan ini untuk mengonversi file ke format file populer lainnya. Selain itu, ada banyak fitur untuk mengotomatiskan proses ekstraksi teks dari dokumen PDF. Namun, kami akan menulis langkah-langkah dan cuplikan kode untuk mendemonstrasikan ekstraksi teks dari file PDF yang dipindai. Poin-poin berikut akan dibahas dalam artikel ini:

Penginstalan pustaka .NET OCR

Perpustakaan ini sangat kuat dan menawarkan dokumentasi komprehensif mengenai pengembangan dan penggunaan. Anda dapat mengonversi dan memproses berbagai format file dengan cepat dan efisien. Untuk menginstal API ini di proyek .NET Anda, Anda dapat mengunduh file DLL atau menjalankan perintah berikut di manajer paket NuGet.

Install-Package Aspose.OCR

Cara Mengonversi PDF ke Teks di C#

Ekstraksi teks dari file PDF yang dipindai cukup mudah dan hanya beberapa baris kode sumber di C#. Silakan ikuti langkah-langkah yang disebutkan di bawah ini:

  1. Buat objek kelas AsposeOcr.
  2. Inisialisasi instance dari kelas DocumentRecognitionSettings untuk mengenali gambar dari PDF.
  3. Tetapkan nilai properti DetectAreas untuk mengaktifkan deteksi area teks otomatis.
  4. Buat daftar jenis RecognitionResult, ekstrak teks dari dokumen PDF yang dipindai dengan memanggil metode RecognizePdf dan tetapkan hasilnya ke daftar. Salin & tempel kode berikut untuk mengonversi PDF ke TEXT di C#.

Konversi PDF ke Teks - opsi lanjutan

Pada bagian ini, kita akan mengeksplorasi perpustakaan ini lebih lanjut. Ini juga memungkinkan Anda mengenali PDF yang dipindai dari aliran. Berikut langkah-langkahnya:

  1. Buat instance dari kelas AsposeOcr.
  2. Buat instance dari kelas MemoryStream untuk mengenali PDF dari stream.
  3. Inisialisasi konstruktor FileStream dan muat file sumber.
  4. Aktifkan metode CopyTo untuk menulis byte ke aliran memori.
  5. Buat objek kelas DocumentRecognitionSettings yang mengenali gambar dari PDF.
  6. Buat daftar jenis RecognitionResult dan inisialisasi dengan hasil metode RecognizePdf.

Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.

Menyimpulkan

Ini membawa kita ke akhir posting blog ini. Anda telah mempelajari cara mengonversi PDF ke Teks dalam C# secara terprogram. Selain itu, kami juga telah mempelajari beberapa metode lanjutan yang ditawarkan oleh .NET OCR library ini. Selain itu, Anda dapat mengunjungi dokumentasi untuk mengetahui fitur lainnya. Panduan ini pasti akan membantu Anda jika Anda ingin melengkapi aplikasi Anda dengan Konverter PDF ke Teks. Selanjutnya, conholdate.com sedang menulis posting blog baru tentang topik baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan rutin.

Berikan pertanyaan

Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.

FAQ

Bagaimana cara mengonversi PDF menjadi teks secara terprogram? Anda dapat mengonversi PDF ke Teks dalam C# menggunakan .NET OCR library ini. Itu memperlihatkan metode RecognizePdf yang melakukan tindakan ini secara efisien. Apa cara termudah untuk mengonversi PDF ke teks Anda dapat mengunjungi dokumentasi perpustakaan ini untuk mengetahui tentang metode yang dapat digunakan untuk mengekstrak data dari file PDF yang dipindai secara terprogram.

Lihat juga