PDF به DOCX OCR

فایل‌های پی‌دی‌اف فرمتی همه‌جا برای اشتراک‌گذاری اسناد هستند، اما گاهی اوقات لازم است متنی را از آن‌ها ویرایش یا استخراج کنید. فرمت DOCX مایکروسافت ورد یکی از محبوب ترین گزینه ها برای ویرایش اسناد است. در این پست وبلاگ، ما به شما نشان خواهیم داد که چگونه با استفاده از C# یک PDF را به DOCX با تشخیص نوری کاراکتر (OCR) تبدیل کنید. فناوری OCR می تواند به استخراج متن از PDF های اسکن شده یا PDF های مبتنی بر تصویر کمک کند و آن را به ابزاری همه کاره برای تبدیل اسناد تبدیل کند.

تبدیل PDF به DOCX با OCR - C# API نصب

برای تبدیل PDF به سند ورد DOCX با OCR در C#، باید Conholdate.Total for .NET را پیکربندی کنید. می توانید این کار را به راحتی با استفاده از افزونه NuGet Package Manager در Visual Studio IDE انجام دهید یا دستور نصب NuGet زیر را اجرا کنید:

PM> NuGet\Install-Package Conholdate.Total

تبدیل PDF به DOCX با OCR در سی شارپ

با مراحل زیر می توانید PDF را با OCR در سی شارپ به سند Word تبدیل کنید:

  • یک شی از کلاس OcrInput ایجاد کنید.
  • سند PDF منبع را با روش Add(string) بارگیری کنید.
  • با روش Recognize (OcrInput, RecognitionSettings) متن را از سند تشخیص دهید.
  • ذخیره سند قابل ویرایش در قالب Microsoft Word (DOCX) با SaveMultipageDocument (رشته، SaveFormat، List ) روش.

کد نمونه زیر نمونه ای از نحوه تبدیل PDF به DOCX با OCR در سی شارپ است:

// سند PDF اسکن شده را بارگیری کنید
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// متن را از سند تشخیص دهید
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// سند قابل ویرایش را در قالب Microsoft Word (DOCX) ذخیره کنید
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

تبدیل PDF اسکن شده به DOCX با OCR با استفاده از فیلترهای پیش پردازش در سی شارپ

می توانید با استفاده از تنظیمات مختلف، تبدیل PDF اسکن شده به DOCX را با OCR افزایش دهید. به عنوان مثال، فیلترهای مختلف پیش پردازش را برای دقت بهبود یافته مانند پاک کردن یا حذف نویز فایل منبع تنظیم کنید. مراحل زیر رویکرد پیشرفته تبدیل PDF اسکن شده به DOCX با OCR در سی شارپ را شرح می دهد:

  • فیلترهای پیش پردازش را با کلاس PreprocessingFilter تنظیم کنید.
  • نمونه ای از کلاس OcrInput را راه اندازی کنید.
  • با استفاده از روش Recognize (OcrInput, RecognitionSettings) متن را از سند تشخیص دهید.
  • متن شناسایی شده را به عنوان یک سند Word DOCX با استفاده از SaveMultipageDocument (رشته، SaveFormat، List ذخیره کنید ) روش.

قطعه کد زیر نحوه تبدیل PDF اسکن شده به DOCX با OCR با استفاده از فیلترهای پیش پردازش در C# را توضیح می دهد:

// فیلترهای پردازش را تنظیم کنید
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// سند PDF اسکن شده را بارگیری کنید
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// متن را از سند تشخیص دهید
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// سند قابل ویرایش را در قالب Microsoft Word (DOCX) ذخیره کنید
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

مجوز ارزیابی رایگان

برای ارزیابی API ها بدون هیچ محدودیتی می توانید یک مجوز ارزیابی رایگان دریافت کنید.

جمع بندی

در این پست وبلاگ نحوه تبدیل PDF به DOCX با OCR در سی شارپ را یاد گرفتید. شما می توانید به راحتی متن را از فایل های PDF، از جمله اسناد اسکن شده استخراج کنید و آنها را به عنوان فایل های Word DOCX قابل ویرایش ذخیره کنید. این می تواند یک ابزار ارزشمند در سناریوهای مختلف، مانند استخراج داده ها از فرم های PDF یا دیجیتالی کردن اسناد چاپ شده باشد. تنظیمات مختلف و گزینه های سفارشی سازی را برای برآورده کردن نیازهای خاص خود آزمایش کنید و قابلیت های پردازش اسناد خود را در سی شارپ افزایش دهید. در صورت داشتن هرگونه سوال، لطفاً از طریق [تالار گفتمان3 با ما در تماس باشید.

سوالات متداول

آیا هنگام تبدیل PDF به DOCX در سی شارپ، چندین زبان توسط OCR پشتیبانی می شوند؟

بله، می‌تواند متن را در تعداد زیادی زبان و همه اسکریپت‌های نوشتاری رایج، از جمله متون با زبان‌های ترکیبی، تشخیص دهد.

آیا هنگام تبدیل PDF اسکن شده به اسناد Word DOCX قابل ویرایش از ویژگی غلط گیر املا پشتیبانی می شود؟

بله، می‌توانید ویژگی غلط‌گیری املا را برای رفع هر گونه غلط املایی تنظیم کنید، زیرا لغت‌نامه‌های مختلف توسط غلط‌گیر املا پشتیبانی می‌شوند.

آیا هنگام استفاده از OCR برای تبدیل PDF به DOCX باید از محدودیت ها یا چالش هایی آگاه بود؟

بله، OCR ممکن است کامل نباشد و گاهی اوقات خطاهایی ایجاد کند، به خصوص با طرح‌بندی‌های پیچیده، متن دست‌نویس یا اسکن‌های با کیفیت پایین. بررسی و ویرایش متن تبدیل شده در صورت لزوم برای اطمینان از صحت بسیار مهم است. علاوه بر این، عملکرد OCR ممکن است بسته به کیفیت PDF ورودی و زبان مورد استفاده متفاوت باشد.

همچنین ببینید