تحويل PDF إلى نص في C #

تحويل PDF إلى نص في C #

نشرنا مؤخرًا بعض منشورات المدونات مثل تحويل PDF إلى HTML و PDF إلى صور برمجيًا. ستعلمنا هذه المقالة كيفية تحويل PDF إلى نص في C # باستخدام مكتبة .NET OCR. بصفتك مطور .NET ، يمكنك بسهولة استخدام هذه المكتبة لتحويل الملفات إلى تنسيقات ملفات شائعة أخرى. بالإضافة إلى ذلك ، هناك مجموعة غنية من الميزات لأتمتة عملية استخراج النص من مستندات PDF. ومع ذلك ، سنكتب الخطوات ومقتطف الشفرة لتوضيح استخراج النص من ملف PDF ممسوح ضوئيًا.

سيتم تناول النقاط التالية في هذه المقالة:

تثبيت مكتبة .NET OCR

هذه المكتبة قوية وتقدم [توثيق] شامل 8 فيما يتعلق بالتطوير والاستخدام. يمكنك تحويل العديد من تنسيقات الملفات ومعالجتها بسرعة وكفاءة.

لتثبيت واجهة برمجة التطبيقات هذه في مشروع .NET الخاص بك ، يمكنك إما تنزيل ملفات DLL أو تشغيل الأمر التالي في مدير الحزم NuGet.

Install-Package Aspose.OCR

كيفية تحويل PDF إلى نص في C

يعد استخراج النص من ملف PDF ممسوحًا ضوئيًا أمرًا سهلاً للغاية ويتعلق ببضعة أسطر من التعليمات البرمجية المصدر في C #.

يرجى اتباع الخطوات المذكورة أدناه:

  1. قم بإنشاء كائن من AsposeOcr class.
  2. قم بتهيئة مثيل لفئة DocumentRecognitionSettings للتعرف على الصور من PDF.
  3. قم بتعيين قيمة الخاصية DetectAreas لتمكين الكشف التلقائي عن مناطق النص.
  4. أنشئ قائمة بأنواع RecognitionResult ، واستخرج النص من مستندات PDF الممسوحة ضوئيًا عن طريق استدعاء طريقة RecognizePdf وتعيين النتيجة إلى القائمة.

انسخ والصق الكود التالي لتحويل PDF إلى TEXT في C #.


string fullPath =   "sample.pdf";
// قم بإنشاء كائن من فئة AsposeOcr 
AsposeOcr api = new AsposeOcr();
// قم بتهيئة مثيل لفئة DocumentRecognitionSettings للتعرف على الصور من PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// قم بتعيين قيمة الخاصية DetectAreas لتمكين الكشف التلقائي عن مناطق النص 
set.DetectAreas = false;
// قم بإنشاء قائمة من نوع RecognitionResult ، واستخراج نموذج النص من مستند PDF الممسوح ضوئيًا عن طريق استدعاء طريقة RecognizePdf وتعيين النتيجة إلى القائمة  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// نتيجة الطباعة
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

تحويل PDF إلى نص - خيارات متقدمة

في هذا القسم ، سوف نستكشف هذه المكتبة بشكل أكبر. يتيح لك أيضًا التعرف على ملفات PDF الممسوحة ضوئيًا من الدفق.

فيما يلي الخطوات:

  1. إنشاء مثيل لفئة AsposeOcr.
  2. قم بإنشاء مثيل لفئة MemoryStream للتعرف على PDF من الدفق.
  3. تهيئة مُنشئ FileStream وتحميل الملف المصدر.
  4. قم باستدعاء طريقة CopyTo لكتابة وحدات البايت إلى تدفق الذاكرة.
  5. قم بإنشاء كائن من DocumentRecognitionSettings فئة تتعرف على الصور من PDF.
  6. قم بإنشاء قائمة بأنواع RecognitionResult وتهيئة نتائج طريقة RecognizePdf.

string fullPath =   "final.pdf";
// إنشاء مثيل لفئة AsposeOcr 
AsposeOcr api = new AsposeOcr();
// قم بإنشاء مثيل لفئة MemoryStream للتعرف على ملف pdf من الدفق     
using (MemoryStream ms = new MemoryStream())
{
    // تهيئة مُنشئ FileStream وتحميل الملف المصدر  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // استدعاء الأسلوب CopyTo لكتابة وحدات البايت إلى دفق الذاكرة.  
        file.CopyTo(ms);
        // قم بإنشاء كائن من فئة DocumentRecognitionSettings التي تتعرف على الصور من PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // قم بإنشاء قائمة من نوع RecognitionResult وتهيئة نتائج طريقة RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // نتيجة الطباعة
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

احصل على رخصة مجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجربة واجهة برمجة التطبيقات بدون قيود تقييمية.

تلخيص لما سبق

هذا يقودنا إلى نهاية منشور المدونة هذا. لقد تعلمت كيفية تحويل PDF إلى نص في C # برمجيًا. بالإضافة إلى ذلك ، قمنا أيضًا باستكشاف بعض الأساليب المتقدمة التي تقدمها مكتبة .NET OCR هذه. علاوة على ذلك ، يمكنك زيارة الوثائق لمعرفة الميزات الأخرى. سيساعدك هذا الدليل بالتأكيد إذا كنت تبحث عن تجهيز تطبيقك بمحول PDF إلى نص. علاوة على ذلك ، يقوم موقع conholdate.com بكتابة منشورات مدونة جديدة حول موضوعات جديدة. لذلك ، يرجى البقاء على اتصال للحصول على تحديثات منتظمة.

طرح سؤال

يمكنك إخبارنا بأسئلتك أو استفساراتك على المنتدى.

أسئلة وأجوبة

كيف أقوم بتحويل ملف PDF إلى نص برمجيًا؟

يمكنك تحويل PDF إلى نص في C # باستخدام NET OCR مكتبة. يعرض طريقة RecognizePdf التي تؤدي هذا الإجراء بكفاءة.

ما هي أسهل طريقة لتحويل PDF إلى نص

يمكنك زيارة وثائق هذه المكتبة للتعرف على الطرق التي يمكنك من خلالها استخراج البيانات من ملفات PDF الممسوحة ضوئيًا برمجيًا.

أنظر أيضا