
فایلهای پیدیاف فرمتی همهجا برای اشتراکگذاری اسناد هستند، اما گاهی اوقات لازم است متنی را از آنها ویرایش یا استخراج کنید. فرمت DOCX مایکروسافت ورد یکی از محبوب ترین گزینه ها برای ویرایش اسناد است. در این پست وبلاگ، ما به شما نشان خواهیم داد که چگونه با استفاده از C# یک PDF را به DOCX با تشخیص نوری کاراکتر (OCR) تبدیل کنید. فناوری OCR می تواند به استخراج متن از PDF های اسکن شده یا PDF های مبتنی بر تصویر کمک کند و آن را به ابزاری همه کاره برای تبدیل اسناد تبدیل کند.
تبدیل PDF به DOCX با OCR - C# API نصب
برای تبدیل PDF به سند ورد DOCX با OCR در C#، باید Conholdate.Total for .NET را پیکربندی کنید. می توانید این کار را به راحتی با استفاده از افزونه NuGet Package Manager در Visual Studio IDE انجام دهید یا دستور نصب NuGet زیر را اجرا کنید:
PM> NuGet\Install-Package Conholdate.Total
تبدیل PDF به DOCX با OCR در سی شارپ
با مراحل زیر می توانید PDF را با OCR در سی شارپ به سند Word تبدیل کنید:
- یک شی از کلاس OcrInput ایجاد کنید.
- سند PDF منبع را با روش Add(string) بارگیری کنید.
- با روش Recognize (OcrInput, RecognitionSettings) متن را از سند تشخیص دهید.
- ذخیره سند قابل ویرایش در قالب Microsoft Word (DOCX) با SaveMultipageDocument (رشته، SaveFormat، List ) روش.
کد نمونه زیر نمونه ای از نحوه تبدیل PDF به DOCX با OCR در سی شارپ است:
// سند PDF اسکن شده را بارگیری کنید
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");
// متن را از سند تشخیص دهید
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);
// سند قابل ویرایش را در قالب Microsoft Word (DOCX) ذخیره کنید
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);
تبدیل PDF اسکن شده به DOCX با OCR با استفاده از فیلترهای پیش پردازش در سی شارپ
می توانید با استفاده از تنظیمات مختلف، تبدیل PDF اسکن شده به DOCX را با OCR افزایش دهید. به عنوان مثال، فیلترهای مختلف پیش پردازش را برای دقت بهبود یافته مانند پاک کردن یا حذف نویز فایل منبع تنظیم کنید. مراحل زیر رویکرد پیشرفته تبدیل PDF اسکن شده به DOCX با OCR در سی شارپ را شرح می دهد:
- فیلترهای پیش پردازش را با کلاس PreprocessingFilter تنظیم کنید.
- نمونه ای از کلاس OcrInput را راه اندازی کنید.
- با استفاده از روش Recognize (OcrInput, RecognitionSettings) متن را از سند تشخیص دهید.
- متن شناسایی شده را به عنوان یک سند Word DOCX با استفاده از SaveMultipageDocument (رشته، SaveFormat، List ذخیره کنید ) روش.
قطعه کد زیر نحوه تبدیل PDF اسکن شده به DOCX با OCR با استفاده از فیلترهای پیش پردازش در C# را توضیح می دهد:
// فیلترهای پردازش را تنظیم کنید
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());
// سند PDF اسکن شده را بارگیری کنید
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");
// متن را از سند تشخیص دهید
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);
// سند قابل ویرایش را در قالب Microsoft Word (DOCX) ذخیره کنید
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);
مجوز ارزیابی رایگان
برای ارزیابی API ها بدون هیچ محدودیتی می توانید یک مجوز ارزیابی رایگان دریافت کنید.
جمع بندی
در این پست وبلاگ نحوه تبدیل PDF به DOCX با OCR در سی شارپ را یاد گرفتید. شما می توانید به راحتی متن را از فایل های PDF، از جمله اسناد اسکن شده استخراج کنید و آنها را به عنوان فایل های Word DOCX قابل ویرایش ذخیره کنید. این می تواند یک ابزار ارزشمند در سناریوهای مختلف، مانند استخراج داده ها از فرم های PDF یا دیجیتالی کردن اسناد چاپ شده باشد. تنظیمات مختلف و گزینه های سفارشی سازی را برای برآورده کردن نیازهای خاص خود آزمایش کنید و قابلیت های پردازش اسناد خود را در سی شارپ افزایش دهید. در صورت داشتن هرگونه سوال، لطفاً از طریق [تالار گفتمان3 با ما در تماس باشید.
سوالات متداول
آیا هنگام تبدیل PDF به DOCX در سی شارپ، چندین زبان توسط OCR پشتیبانی می شوند؟
بله، میتواند متن را در تعداد زیادی زبان و همه اسکریپتهای نوشتاری رایج، از جمله متون با زبانهای ترکیبی، تشخیص دهد.
آیا هنگام تبدیل PDF اسکن شده به اسناد Word DOCX قابل ویرایش از ویژگی غلط گیر املا پشتیبانی می شود؟
بله، میتوانید ویژگی غلطگیری املا را برای رفع هر گونه غلط املایی تنظیم کنید، زیرا لغتنامههای مختلف توسط غلطگیر املا پشتیبانی میشوند.
آیا هنگام استفاده از OCR برای تبدیل PDF به DOCX باید از محدودیت ها یا چالش هایی آگاه بود؟
بله، OCR ممکن است کامل نباشد و گاهی اوقات خطاهایی ایجاد کند، به خصوص با طرحبندیهای پیچیده، متن دستنویس یا اسکنهای با کیفیت پایین. بررسی و ویرایش متن تبدیل شده در صورت لزوم برای اطمینان از صحت بسیار مهم است. علاوه بر این، عملکرد OCR ممکن است بسته به کیفیت PDF ورودی و زبان مورد استفاده متفاوت باشد.