
Konversi PDF ke Teks dalam C#
- Instalasi perpustakaan .NET OCR
- Cara Mengonversi PDF ke Teks dalam C#
- Konversi PDF ke Teks - opsi lanjutan
Penginstalan pustaka .NET OCR
Perpustakaan ini sangat kuat dan menawarkan dokumentasi komprehensif mengenai pengembangan dan penggunaan. Anda dapat mengonversi dan memproses berbagai format file dengan cepat dan efisien. Untuk menginstal API ini di proyek .NET Anda, Anda dapat mengunduh file DLL atau menjalankan perintah berikut di manajer paket NuGet.
Install-Package Aspose.OCR
Cara Mengonversi PDF ke Teks di C#
Ekstraksi teks dari file PDF yang dipindai cukup mudah dan hanya beberapa baris kode sumber di C#. Silakan ikuti langkah-langkah yang disebutkan di bawah ini:
- Buat objek kelas AsposeOcr.
- Inisialisasi instance dari kelas DocumentRecognitionSettings untuk mengenali gambar dari PDF.
- Tetapkan nilai properti DetectAreas untuk mengaktifkan deteksi area teks otomatis.
- Buat daftar jenis RecognitionResult, ekstrak teks dari dokumen PDF yang dipindai dengan memanggil metode RecognizePdf dan tetapkan hasilnya ke daftar.
Salin & tempel kode berikut untuk mengonversi PDF ke TEXT di C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
string fullPath = "sample.pdf"; // Create an object of AsposeOcr class AsposeOcr api = new AsposeOcr(); // Initialize an instance of the DocumentRecognitionSettings class to recognize images from PDF DocumentRecognitionSettings set = new DocumentRecognitionSettings(); // set the value of DetectAreas property to enable automatic text areas detection set.DetectAreas = false; // create a list of RecognitionResult type, extract text form scanned PDF document by calling RecognizePdf method and assign the result to the list List<RecognitionResult> result = api.RecognizePdf(fullPath, set); // Print result int pageNumber = 0; foreach (var page in result) { System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}"); }
Konversi PDF ke Teks - opsi lanjutan
Pada bagian ini, kita akan mengeksplorasi perpustakaan ini lebih lanjut. Ini juga memungkinkan Anda mengenali PDF yang dipindai dari aliran. Berikut langkah-langkahnya:
- Buat instance dari kelas AsposeOcr.
- Buat instance dari kelas MemoryStream untuk mengenali PDF dari stream.
- Inisialisasi konstruktor FileStream dan muat file sumber.
- Aktifkan metode CopyTo untuk menulis byte ke aliran memori.
- Buat objek kelas DocumentRecognitionSettings yang mengenali gambar dari PDF.
- Buat daftar jenis RecognitionResult dan inisialisasi dengan hasil metode RecognizePdf.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
string fullPath = "final.pdf"; // instantiate an instance of the AsposeOcr class AsposeOcr api = new AsposeOcr(); // Create an instance of the MemoryStream class to recognize pdf from stream using (MemoryStream ms = new MemoryStream()) { // Initialize the constructor of FileStream and load the source file using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read)) { // Invoke the CopyTo method to write the bytes to the memory stream. file.CopyTo(ms); // Create an object of DocumentRecognitionSettings class that recognizes images from PDF DocumentRecognitionSettings set = new DocumentRecognitionSettings(); // Create a list of RecognitionResult type and initialize with the results of RecognizePdf method. List<RecognitionResult> results = api.RecognizePdf(ms, set); // Print result foreach (var result in results) { Console.WriteLine(result.RecognitionText); } } }
Dapatkan Lisensi Gratis
Anda bisa mendapatkan lisensi sementara gratis untuk mencoba API tanpa batasan evaluasi.
Menyimpulkan
Ini membawa kita ke akhir posting blog ini. Anda telah mempelajari cara mengonversi PDF ke Teks dalam C# secara terprogram. Selain itu, kami juga telah mempelajari beberapa metode lanjutan yang ditawarkan oleh .NET OCR library ini. Selain itu, Anda dapat mengunjungi dokumentasi untuk mengetahui fitur lainnya. Panduan ini pasti akan membantu Anda jika Anda ingin melengkapi aplikasi Anda dengan Konverter PDF ke Teks. Selanjutnya, conholdate.com sedang menulis posting blog baru tentang topik baru. Oleh karena itu, harap tetap berhubungan untuk pembaruan rutin.
Berikan pertanyaan
Anda dapat memberi tahu kami tentang pertanyaan atau pertanyaan Anda di forum kami.
FAQ
Bagaimana cara mengonversi PDF menjadi teks secara terprogram? Anda dapat mengonversi PDF ke Teks dalam C# menggunakan .NET OCR library ini. Itu memperlihatkan metode RecognizePdf yang melakukan tindakan ini secara efisien. Apa cara termudah untuk mengonversi PDF ke teks Anda dapat mengunjungi dokumentasi perpustakaan ini untuk mengetahui tentang metode yang dapat digunakan untuk mengekstrak data dari file PDF yang dipindai secara terprogram.