Konversi PDF ke Teks dalam C#

Konversi PDF ke Teks dalam C#

Baru-baru ini, kami menerbitkan beberapa postingan blog seperti mengonversi PDF ke HTML dan PDF ke Gambar secara terprogram. Artikel ini akan mengajari kita cara mengonversi PDF ke Teks dalam C# menggunakan pustaka .NET OCR. Sebagai pengembang .NET, Anda dapat dengan mudah menggunakan perpustakaan ini untuk mengonversi file ke format file populer lainnya. Selain itu, ada banyak fitur untuk mengotomatiskan proses ekstraksi teks dari dokumen PDF. Namun, kami akan menulis langkah-langkah dan cuplikan kode untuk mendemonstrasikan ekstraksi teks dari file PDF yang dipindai. Poin-poin berikut akan dibahas dalam artikel ini:

Penginstalan pustaka .NET OCR

Perpustakaan ini sangat kuat dan menawarkan dokumentasi komprehensif mengenai pengembangan dan penggunaan. Anda dapat mengonversi dan memproses berbagai format file dengan cepat dan efisien. Untuk menginstal API ini di proyek .NET Anda, Anda dapat mengunduh file DLL atau menjalankan perintah berikut di manajer paket NuGet.

Install-Package Aspose.OCR

Cara Mengonversi PDF ke Teks di C#

Ekstraksi teks dari file PDF yang dipindai cukup mudah dan hanya beberapa baris kode sumber di C#. Silakan ikuti langkah-langkah yang disebutkan di bawah ini:

  1. Buat objek kelas AsposeOcr.
  2. Inisialisasi instance dari kelas DocumentRecognitionSettings untuk mengenali gambar dari PDF.
  3. Tetapkan nilai properti DetectAreas untuk mengaktifkan deteksi area teks otomatis.
  4. Buat daftar jenis RecognitionResult, ekstrak teks dari dokumen PDF yang dipindai dengan memanggil metode RecognizePdf dan tetapkan hasilnya ke daftar. Salin & tempel kode berikut untuk mengonversi PDF ke TEXT di C#.
    string fullPath = "sample.pdf";
    // Create an object of AsposeOcr class
    AsposeOcr api = new AsposeOcr();
    // Initialize an instance of the DocumentRecognitionSettings class to recognize images from PDF
    DocumentRecognitionSettings set = new DocumentRecognitionSettings();
    // set the value of DetectAreas property to enable automatic text areas detection
    set.DetectAreas = false;
    // create a list of RecognitionResult type, extract text form scanned PDF document by calling RecognizePdf method and assign the result to the list
    List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
    // Print result
    int pageNumber = 0;
    foreach (var page in result)
    {
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }
    view raw pdf-to-text.cs hosted with ❤ by GitHub

Konversi PDF ke Teks - opsi lanjutan

Pada bagian ini, kita akan mengeksplorasi perpustakaan ini lebih lanjut. Ini juga memungkinkan Anda mengenali PDF yang dipindai dari aliran. Berikut langkah-langkahnya:

  1. Buat instance dari kelas AsposeOcr.
  2. Buat instance dari kelas MemoryStream untuk mengenali PDF dari stream.
  3. Inisialisasi konstruktor FileStream dan muat file sumber.
  4. Aktifkan metode CopyTo untuk menulis byte ke aliran memori.
  5. Buat objek kelas DocumentRecognitionSettings yang mengenali gambar dari PDF.
  6. Buat daftar jenis RecognitionResult dan inisialisasi dengan hasil metode RecognizePdf.
    string fullPath = "final.pdf";
    // instantiate an instance of the AsposeOcr class
    AsposeOcr api = new AsposeOcr();
    // Create an instance of the MemoryStream class to recognize pdf from stream
    using (MemoryStream ms = new MemoryStream())
    {
    // Initialize the constructor of FileStream and load the source file
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
    // Invoke the CopyTo method to write the bytes to the memory stream.
    file.CopyTo(ms);
    // Create an object of DocumentRecognitionSettings class that recognizes images from PDF
    DocumentRecognitionSettings set = new DocumentRecognitionSettings();
    // Create a list of RecognitionResult type and initialize with the results of RecognizePdf method.
    List<RecognitionResult> results = api.RecognizePdf(ms, set);
    // Print result
    foreach (var result in results)
    {
    Console.WriteLine(result.RecognitionText);
    }
    }
    }

Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.

Menyimpulkan

Ini membawa kita ke akhir posting blog ini. Anda telah mempelajari cara mengonversi PDF ke Teks dalam C# secara terprogram. Selain itu, kami juga telah mempelajari beberapa metode lanjutan yang ditawarkan oleh .NET OCR library ini. Selain itu, Anda dapat mengunjungi dokumentasi untuk mengetahui fitur lainnya. Panduan ini pasti akan membantu Anda jika Anda ingin melengkapi aplikasi Anda dengan Konverter PDF ke Teks. Selanjutnya, conholdate.com sedang menulis posting blog baru tentang topik baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan rutin.

Berikan pertanyaan

Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.

FAQ

Bagaimana cara mengonversi PDF menjadi teks secara terprogram? Anda dapat mengonversi PDF ke Teks dalam C# menggunakan .NET OCR library ini. Itu memperlihatkan metode RecognizePdf yang melakukan tindakan ini secara efisien. Apa cara termudah untuk mengonversi PDF ke teks Anda dapat mengunjungi dokumentasi perpustakaan ini untuk mengetahui tentang metode yang dapat digunakan untuk mengekstrak data dari file PDF yang dipindai secara terprogram.

Lihat juga