PDF إلى DOCX OCR

تعد ملفات PDF تنسيقًا واسع الانتشار لمشاركة المستندات، ولكن في بعض الأحيان تحتاج إلى تحرير النص منها أو استخراجه. يعد تنسيق DOCX الخاص بـ Microsoft Word أحد الخيارات الأكثر شيوعًا لتحرير المستندات. سنوضح لك في هذه التدوينة كيفية تحويل ملف PDF إلى DOCX باستخدام تقنية التعرف الضوئي على الأحرف (OCR) باستخدام لغة C#. يمكن أن تساعد تقنية التعرف الضوئي على الحروف (OCR) في استخراج النص من ملفات PDF الممسوحة ضوئيًا أو ملفات PDF المستندة إلى الصور، مما يجعلها أداة متعددة الاستخدامات لتحويل المستندات.

محول PDF إلى DOCX مع تثبيت OCR - C# API

لتحويل PDF إلى مستند Word DOCX باستخدام OCR في C#، تحتاج إلى تكوين Conholdate.Total for .NET. يمكنك القيام بذلك بسهولة باستخدام البرنامج المساعد NuGet Package Manager في Visual Studio IDE أو تشغيل أمر تثبيت NuGet التالي:

PM> NuGet\Install-Package Conholdate.Total

تحويل PDF إلى DOCX باستخدام OCR في C#

يمكنك تحويل ملف PDF إلى مستند Word باستخدام OCR في C# من خلال الخطوات التالية:

  • قم بإنشاء كائن من فئة OcrInput.
  • قم بتحميل مستند PDF المصدر.
  • التعرف على النص من الوثيقة.
  • احفظ المستند القابل للتحرير بتنسيق Microsoft Word (DOCX).

يعد نموذج التعليمات البرمجية التالي مثالاً لكيفية تحويل PDF إلى DOCX باستخدام OCR في C#:

// قم بتحميل مستند PDF الممسوح ضوئيًا
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// التعرف على النص من الوثيقة
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// احفظ المستند القابل للتحرير بتنسيق Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

تحويل ملف PDF الممسوح ضوئيًا إلى DOCX باستخدام OCR باستخدام مرشحات المعالجة المسبقة في C#

يمكنك تحسين تحويل PDF إلى DOCX الممسوح ضوئيًا باستخدام OCR باستخدام إعدادات مختلفة. على سبيل المثال، قم بتعيين مرشحات معالجة مسبقة مختلفة لتحسين الدقة مثل تعديل الملف المصدر أو تقليل التشويش فيه. توضح الخطوات التالية الطريقة المتقدمة لتحويل ملف PDF الممسوح ضوئيًا إلى DOCX باستخدام OCR في C#:

  • قم بتعيين مرشحات المعالجة المسبقة.
  • تهيئة مثيل لفئة OcrInput.
  • التعرف على النص من الوثيقة.
  • احفظ النص الذي تم التعرف عليه كمستند Word DOCX.

يوضح مقتطف الكود أدناه كيفية تحويل ملف PDF الممسوح ضوئيًا إلى DOCX باستخدام OCR باستخدام مرشحات المعالجة المسبقة في C#:

// ضبط مرشحات المعالجة
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// قم بتحميل مستند PDF الممسوح ضوئيًا
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// التعرف على النص من الوثيقة
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// احفظ المستند القابل للتحرير بتنسيق Microsoft Word (DOCX).
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

رخصة التقييم المجانية

يمكنك الحصول على رخصة تقييم مجانية لتقييم واجهات برمجة التطبيقات دون أي قيود.

تلخيص لما سبق

في منشور المدونة هذا، تعلمت كيفية تحويل PDF إلى DOCX باستخدام OCR في C#. يمكنك بسهولة استخراج النص من ملفات PDF، بما في ذلك المستندات الممسوحة ضوئيًا، وحفظها كملفات Word DOCX قابلة للتحرير. يمكن أن يكون هذا أداة قيمة في سيناريوهات مختلفة، مثل استخراج البيانات من نماذج PDF أو رقمنة المستندات المطبوعة. قم بتجربة إعدادات وخيارات تخصيص مختلفة لتلبية متطلباتك المحددة، وتحسين قدرات معالجة المستندات لديك في لغة C#. في حالة وجود أي أسئلة، فلا تتردد في الاتصال بنا عبر المنتدى.

الأسئلة الشائعة

هل يدعم OCR لغات متعددة عند تحويل ملفات PDF إلى DOCX في C#؟

نعم، يمكنه التعرف على النص بعدد كبير من اللغات وجميع نصوص الكتابة الشائعة، بما في ذلك النصوص ذات اللغات المختلطة.

هل يتم دعم ميزة التدقيق الإملائي أثناء تحويل ملف PDF الممسوح ضوئيًا إلى مستندات Word DOCX قابلة للتحرير؟

نعم، يمكنك ضبط ميزة التدقيق الإملائي لإصلاح أي كلمات بها أخطاء إملائية حيث يتم دعم القواميس المختلفة بواسطة المدقق الإملائي.

هل هناك أي قيود أو تحديات يجب الانتباه إليها عند استخدام OCR لتحويل PDF إلى DOCX؟

نعم، قد لا يكون التعرف الضوئي على الحروف (OCR) مثاليًا ويمكن أن يؤدي في بعض الأحيان إلى حدوث أخطاء، خاصة مع التخطيطات المعقدة أو النص المكتوب بخط اليد أو عمليات المسح الضوئي منخفضة الجودة. من المهم مراجعة النص المحول وتحريره حسب الحاجة لضمان الدقة. بالإضافة إلى ذلك، قد يختلف أداء التعرف الضوئي على الحروف (OCR) وفقًا لجودة ملف PDF المُدخل واللغة المستخدمة.

أنظر أيضا