
تحويل PDF إلى نص في C #
نشرنا مؤخرًا بعض منشورات المدونات مثل تحويل PDF إلى HTML و PDF إلى صور برمجيًا. ستعلمنا هذه المقالة كيفية تحويل PDF إلى نص في C # باستخدام مكتبة .NET OCR. بصفتك مطور .NET ، يمكنك بسهولة استخدام هذه المكتبة لتحويل الملفات إلى تنسيقات ملفات شائعة أخرى. بالإضافة إلى ذلك ، هناك مجموعة غنية من الميزات لأتمتة عملية استخراج النص من مستندات PDF. ومع ذلك ، سنكتب الخطوات ومقتطف الشفرة لتوضيح استخراج النص من ملف PDF ممسوح ضوئيًا.
سيتم تناول النقاط التالية في هذه المقالة:
تثبيت مكتبة .NET OCR
هذه المكتبة قوية وتقدم [توثيق] شامل 8 فيما يتعلق بالتطوير والاستخدام. يمكنك تحويل العديد من تنسيقات الملفات ومعالجتها بسرعة وكفاءة.
لتثبيت واجهة برمجة التطبيقات هذه في مشروع .NET الخاص بك ، يمكنك إما تنزيل ملفات DLL أو تشغيل الأمر التالي في مدير الحزم NuGet.
Install-Package Aspose.OCR
كيفية تحويل PDF إلى نص في C
يعد استخراج النص من ملف PDF ممسوحًا ضوئيًا أمرًا سهلاً للغاية ويتعلق ببضعة أسطر من التعليمات البرمجية المصدر في C #.
يرجى اتباع الخطوات المذكورة أدناه:
- قم بإنشاء كائن من AsposeOcr class.
- قم بتهيئة مثيل لفئة DocumentRecognitionSettings للتعرف على الصور من PDF.
- قم بتعيين قيمة الخاصية DetectAreas لتمكين الكشف التلقائي عن مناطق النص.
- أنشئ قائمة بأنواع RecognitionResult ، واستخرج النص من مستندات PDF الممسوحة ضوئيًا عن طريق استدعاء طريقة RecognizePdf وتعيين النتيجة إلى القائمة.
انسخ والصق الكود التالي لتحويل PDF إلى TEXT في C #.
string fullPath = "sample.pdf";
// قم بإنشاء كائن من فئة AsposeOcr
AsposeOcr api = new AsposeOcr();
// قم بتهيئة مثيل لفئة DocumentRecognitionSettings للتعرف على الصور من PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// قم بتعيين قيمة الخاصية DetectAreas لتمكين الكشف التلقائي عن مناطق النص
set.DetectAreas = false;
// قم بإنشاء قائمة من نوع RecognitionResult ، واستخراج نموذج النص من مستند PDF الممسوح ضوئيًا عن طريق استدعاء طريقة RecognizePdf وتعيين النتيجة إلى القائمة
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// نتيجة الطباعة
int pageNumber = 0;
foreach (var page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
تحويل PDF إلى نص - خيارات متقدمة
في هذا القسم ، سوف نستكشف هذه المكتبة بشكل أكبر. يتيح لك أيضًا التعرف على ملفات PDF الممسوحة ضوئيًا من الدفق.
فيما يلي الخطوات:
- إنشاء مثيل لفئة AsposeOcr.
- قم بإنشاء مثيل لفئة MemoryStream للتعرف على PDF من الدفق.
- تهيئة مُنشئ FileStream وتحميل الملف المصدر.
- قم باستدعاء طريقة CopyTo لكتابة وحدات البايت إلى تدفق الذاكرة.
- قم بإنشاء كائن من DocumentRecognitionSettings فئة تتعرف على الصور من PDF.
- قم بإنشاء قائمة بأنواع RecognitionResult وتهيئة نتائج طريقة RecognizePdf.
string fullPath = "final.pdf";
// إنشاء مثيل لفئة AsposeOcr
AsposeOcr api = new AsposeOcr();
// قم بإنشاء مثيل لفئة MemoryStream للتعرف على ملف pdf من الدفق
using (MemoryStream ms = new MemoryStream())
{
// تهيئة مُنشئ FileStream وتحميل الملف المصدر
using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
{
// استدعاء الأسلوب CopyTo لكتابة وحدات البايت إلى دفق الذاكرة.
file.CopyTo(ms);
// قم بإنشاء كائن من فئة DocumentRecognitionSettings التي تتعرف على الصور من PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// قم بإنشاء قائمة من نوع RecognitionResult وتهيئة نتائج طريقة RecognizePdf.
List<RecognitionResult> results = api.RecognizePdf(ms, set);
// نتيجة الطباعة
foreach (var result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
}
احصل على رخصة مجانية
يمكنك الحصول على ترخيص مؤقت مجاني لتجربة واجهة برمجة التطبيقات بدون قيود تقييمية.
تلخيص لما سبق
هذا يقودنا إلى نهاية منشور المدونة هذا. لقد تعلمت كيفية تحويل PDF إلى نص في C # برمجيًا. بالإضافة إلى ذلك ، قمنا أيضًا باستكشاف بعض الأساليب المتقدمة التي تقدمها مكتبة .NET OCR هذه. علاوة على ذلك ، يمكنك زيارة الوثائق لمعرفة الميزات الأخرى. سيساعدك هذا الدليل بالتأكيد إذا كنت تبحث عن تجهيز تطبيقك بمحول PDF إلى نص. علاوة على ذلك ، يقوم موقع conholdate.com بكتابة منشورات مدونة جديدة حول موضوعات جديدة. لذلك ، يرجى البقاء على اتصال للحصول على تحديثات منتظمة.
طرح سؤال
يمكنك إخبارنا بأسئلتك أو استفساراتك على المنتدى.
أسئلة وأجوبة
كيف أقوم بتحويل ملف PDF إلى نص برمجيًا؟
يمكنك تحويل PDF إلى نص في C # باستخدام NET OCR مكتبة. يعرض طريقة RecognizePdf التي تؤدي هذا الإجراء بكفاءة.
ما هي أسهل طريقة لتحويل PDF إلى نص
يمكنك زيارة وثائق هذه المكتبة للتعرف على الطرق التي يمكنك من خلالها استخراج البيانات من ملفات PDF الممسوحة ضوئيًا برمجيًا.