تصنيف مستندات PDF باستخدام C #

يمكنك تصنيف المستندات باستخدام علامات أو فئات محددة مسبقًا داخل تصنيفات IAB-2 والمستندات والمشاعر برمجيًا. يجعل تصنيف المستندات من السهل العثور على المعلومات ذات الصلة في الوقت المناسب. كما أنه يساعد في إدارة المستندات وفرزها للبحث عن المعلومات المهمة واسترجاعها. في هذه المقالة ، ستتعلم كيفية تصنيف مستندات PDF باستخدام C #.

تتم مناقشة / تغطية الموضوعات التالية في هذه المقالة:

C # API لتصنيف PDF

سأستخدم GroupDocs.Classification for .NET API لتصنيف ملفات PDF. يقدم تصنيفًا متقدمًا للمستند والنص في فئات محددة مسبقًا. تدعم واجهة برمجة التطبيقات أنواعًا مختلفة من التصنيفات مثل IAB-2 والمستندات وتصنيف المشاعر. يحلل النص ويعرض معلومات التصنيف بما في ذلك أفضل فئة مع درجة احتمالية. يمكنك تصنيف مجموعة متنوعة من تنسيقات المستندات القياسية الصناعية مثل PDF و Word و OpenDocument و RTF و TXT. تقدم API أيضًا تحليل المشاعر مع الاكتشاف التلقائي للغة وتدعم اللغات الإنجليزية والصينية والإسبانية والألمانية. يمكن استخدامه لتطوير التطبيقات في أي بيئة تطوير تستهدف منصة .NET.

يمكنك إما تنزيل DLL من API أو تثبيته باستخدام NuGet.

Install-Package GroupDocs.Classification

تصنيف مستندات PDF باستخدام تصنيف IAB-2 باستخدام C

يمكنك بسهولة تصنيف مستندات PDF باستخدام تصنيف IAB-2 برمجيًا باتباع الخطوات البسيطة الواردة أدناه:

  • قم بإنشاء مثيل لفئة مصنف
  • قم باستدعاء الأسلوب Classifier.Classify () باستخدام مسار الملف
  • قم بتعيين bestClassesCount والتصنيف كمدخلات
  • الحصول على نتائج في كائن فئة ClassificationResponse

يوضح نموذج التعليمات البرمجية التالي كيفية تصنيف PDF باستخدام تصنيف IAB-2 باستخدام C #.

// إنشاء المصنف
var classifier = new Classifier();

// تصنيف الوثيقة مع IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// إظهار معلومات التصنيف
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
تصنيف مستندات PDF باستخدام تصنيف IAB-2 باستخدام C #

تصنيف مستندات PDF باستخدام تصنيف IAB-2 باستخدام C #

الفئة المصنف هي الفئة الرئيسية التي توفر [طرقًا] مختلفة 15 لتصنيف المستندات. تصنف طريقة Classify () الخاصة بهذه الفئة المستندات حسب اسم الملف واسم الدليل. تحدد المعلمة bestClassesCount عدد أفضل الفئات المطابقة التي سيتم إرجاعها. في مثال الكود أعلاه ، استخدمت التصنيف Taxonomy.IAB2 للتصنيف.

توفر فئة ClassificationResponse خصائص وطرق لإظهار معلومات التصنيف المسترجعة.

تصنيف PDF مع تصنيف المستندات باستخدام C

يمكنك تصنيف مستندات PDF باستخدام تصنيف المستندات برمجيًا باتباع الخطوات السهلة الواردة أدناه:

  • قم بإنشاء مثيل لفئة مصنف
  • قم باستدعاء الأسلوب Classifier.Classify () باستخدام مسار الملف
  • قم بتعيين bestClassesCount و التصنيف و PrecisionRecallBalance كمدخلات
  • الحصول على نتائج في كائن فئة ClassificationResponse

يوضح نموذج التعليمات البرمجية التالي كيفية تصنيف PDF باستخدام تصنيف المستندات باستخدام C #.

// إنشاء المصنف
var classifier = new Classifier();

// تصنيف المستند باستخدام تصنيف المستند
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// إظهار معلومات التصنيف
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
تصنيف PDF باستخدام تصنيف المستندات باستخدام C #

تصنيف PDF باستخدام تصنيف المستندات باستخدام C #

تصنيف مستند PDF من الدفق باستخدام C

يمكنك تصنيف مستندات PDF من تدفق الملفات برمجيًا باتباع الخطوات القليلة الواردة أدناه:

  • اقرأ ملفًا في مثيل FileStream
  • قم بإنشاء مثيل لفئة مصنف
  • قم باستدعاء الأسلوب Classifier.Classify () باستخدام مثيل FileStream
  • قم بتعيين bestClassesCount والتصنيف كمدخلات
  • الحصول على نتائج في كائن فئة ClassificationResponse

يوضح نموذج التعليمات البرمجية التالي كيفية تصنيف PDF من تدفق المستندات باستخدام C #.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // إنشاء المصنف
    var classifier = new Classifier();
    
    // تصنيف الوثيقة
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // إظهار معلومات التصنيف
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

تصنيف ملفات PDF المحمية بكلمة مرور باستخدام C

يمكنك بسهولة تصنيف مستندات PDF المحمية بكلمة مرور برمجيًا باتباع الخطوات البسيطة الواردة أدناه:

  • قم بإنشاء مثيل لفئة مصنف
  • قم باستدعاء الأسلوب Classifier.Classify () باستخدام مسار الملف
  • قم بتعيين bestClassesCount وكلمة مرور للملف كمدخلات
  • الحصول على نتائج في كائن فئة ClassificationResponse

يوضح نموذج التعليمات البرمجية التالي كيفية تصنيف ملف PDF المحمي بكلمة مرور باستخدام C #.

// إنشاء المصنف
var classifier = new Classifier();

// تصنيف المستند المحمي بكلمة مرور
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// إظهار معلومات التصنيف
Console.WriteLine(response.BestClassName, response.BestClassProbability);

احصل على رخصة مجانية

يمكنك تجربة واجهة برمجة التطبيقات بدون قيود تقييمية عن طريق طلب ترخيص مؤقت مجاني.

استنتاج

في هذه المقالة ، تعلمت كيفية تصنيف مستندات PDF باستخدام C #. لقد تعلمت أيضًا كيفية تصنيف المستندات باستخدام تصنيف IAB-2 وتصنيف المستندات. علاوة على ذلك ، تعلمت كيفية تصنيف المستندات أثناء تحميلها باستخدام دفق الملفات بدلاً من مسار الملف في C #. يمكنك معرفة المزيد حول GroupDocs.Classification لـ .NET API باستخدام التوثيق. في حالة وجود أي غموض ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا