PDF เป็น DOCX OCR

ไฟล์ PDF เป็นรูปแบบที่แพร่หลายสำหรับการแชร์เอกสาร แต่บางครั้งคุณจำเป็นต้องแก้ไขหรือแยกข้อความจากไฟล์เหล่านั้น รูปแบบ DOCX ของ Microsoft Word เป็นหนึ่งในตัวเลือกยอดนิยมสำหรับการแก้ไขเอกสาร ในบล็อกโพสต์นี้ เราจะแสดงวิธีแปลง PDF เป็น DOCX ด้วย Optical Character Recognition (OCR) โดยใช้ C# เทคโนโลยี OCR สามารถช่วยแยกข้อความจาก PDF ที่สแกนหรือ PDF ที่เป็นรูปภาพ ทำให้เป็นเครื่องมืออเนกประสงค์สำหรับการแปลงเอกสาร

ตัวแปลง PDF เป็น DOCX พร้อม OCR - การติดตั้ง C# API

สำหรับการแปลงเอกสาร PDF เป็น DOCX Word ด้วย OCR ใน C# คุณต้องกำหนดค่า Conholdate.Total for .NET คุณสามารถทำได้โดยใช้ปลั๊กอิน NuGet Package Manager ใน Visual Studio IDE หรือเรียกใช้คำสั่งการติดตั้ง NuGet ต่อไปนี้:

PM> NuGet\Install-Package Conholdate.Total

แปลง PDF เป็น DOCX ด้วย OCR ใน C#

คุณสามารถแปลง PDF เป็นเอกสาร Word ด้วย OCR ใน C# ได้ด้วยขั้นตอนต่อไปนี้:

  • สร้างวัตถุของคลาส OcrInput
  • โหลดเอกสาร PDF ต้นฉบับด้วยวิธี Add(string)
  • จดจำข้อความจากเอกสารด้วยวิธี Recognize(OcrInput, RecognitionSettings)
  • บันทึกเอกสารที่แก้ไขได้ในรูปแบบ Microsoft Word (DOCX) ด้วย SaveMultipageDocument(string, SaveFormat, List ) วิธี.

โค้ดตัวอย่างต่อไปนี้เป็นตัวอย่างของวิธีแปลง PDF เป็น DOCX ด้วย OCR ใน C#:

// โหลดเอกสาร PDF ที่สแกน
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// จดจำข้อความจากเอกสาร
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// บันทึกเอกสารที่แก้ไขได้ในรูปแบบ Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

แปลง PDF ที่สแกนเป็น DOCX ด้วย OCR โดยใช้ตัวกรองการประมวลผลล่วงหน้าใน C#

คุณสามารถปรับปรุงการแปลง PDF เป็น DOCX ที่สแกนด้วย OCR ได้โดยใช้การตั้งค่าที่แตกต่างกัน ตัวอย่างเช่น ตั้งค่าตัวกรองการประมวลผลล่วงหน้าต่างๆ เพื่อเพิ่มความแม่นยำ เช่น การพับโต๊ะหรือการลดสัญญาณรบกวนในไฟล์ต้นฉบับ ขั้นตอนต่อไปนี้อธิบายวิธีการขั้นสูงในการแปลง PDF ที่สแกนเป็น DOCX ด้วย OCR ใน C#:

  • ตั้งค่าตัวกรองการประมวลผลล่วงหน้าด้วยคลาส PreprocessingFilter
  • เตรียมใช้งานอินสแตนซ์ของคลาส OcrInput
  • จดจำข้อความจากเอกสารโดยใช้วิธีการจดจำ (OcrInput, RecognitionSettings)
  • บันทึกข้อความที่รู้จักเป็นเอกสาร Word DOCX โดยใช้ SaveMultipageDocument(string, SaveFormat, List ) วิธี.

ข้อมูลโค้ดด้านล่างอธิบายวิธีแปลง PDF ที่สแกนเป็น DOCX ด้วย OCR โดยใช้ตัวกรองการประมวลผลล่วงหน้าใน C#:

// ตั้งค่าตัวกรองการประมวลผล
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// โหลดเอกสาร PDF ที่สแกน
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// จดจำข้อความจากเอกสาร
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// บันทึกเอกสารที่แก้ไขได้ในรูปแบบ Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

ใบอนุญาตการประเมินผลฟรี

คุณสามารถรับ [ใบอนุญาตการประเมินฟรี] ได้ 2 เพื่อประเมิน API โดยไม่มีข้อจำกัดใดๆ

สรุป

ในบล็อกโพสต์นี้ คุณได้เรียนรู้วิธีแปลง PDF เป็น DOCX ด้วย OCR ใน C# คุณสามารถแยกข้อความจาก PDF รวมถึงเอกสารที่สแกน และบันทึกเป็นไฟล์ Word DOCX ที่แก้ไขได้ นี่อาจเป็นเครื่องมืออันทรงคุณค่าในสถานการณ์ต่างๆ เช่น การดึงข้อมูลจากแบบฟอร์ม PDF หรือการแปลงเอกสารที่พิมพ์เป็นดิจิทัล ทดลองใช้การตั้งค่าและตัวเลือกการปรับแต่งต่างๆ เพื่อตอบสนองความต้องการเฉพาะของคุณ และปรับปรุงความสามารถในการประมวลผลเอกสารใน C# ในกรณีที่มีคำถามใดๆ โปรดติดต่อเราผ่านทาง ฟอรั่ม

คำถามที่พบบ่อย

OCR รองรับหลายภาษาเมื่อแปลง PDF เป็น DOCX ใน C# หรือไม่

ใช่ มันสามารถจดจำข้อความในหลายภาษาและสคริปต์การเขียนยอดนิยมทั้งหมด รวมถึงข้อความที่มีภาษาผสม

คุณสมบัติการตรวจตัวสะกดได้รับการสนับสนุนในขณะที่แปลง PDF ที่สแกนไปเป็นเอกสาร Word DOCX ที่แก้ไขได้หรือไม่

ได้ คุณสามารถตั้งค่าคุณสมบัติการตรวจตัวสะกดเพื่อแก้ไขคำที่สะกดผิดได้ เนื่องจากเครื่องตรวจสอบตัวสะกดรองรับพจนานุกรมที่แตกต่างกัน

มีข้อจำกัดหรือความท้าทายที่ต้องทราบเมื่อใช้ OCR สำหรับการแปลง PDF เป็น DOCX หรือไม่

ใช่ OCR อาจไม่สมบูรณ์แบบและบางครั้งอาจทำให้เกิดข้อผิดพลาด โดยเฉพาะอย่างยิ่งกับรูปแบบที่ซับซ้อน ข้อความที่เขียนด้วยลายมือ หรือการสแกนคุณภาพต่ำ สิ่งสำคัญคือต้องตรวจสอบและแก้ไขข้อความที่แปลงแล้วตามความจำเป็นเพื่อให้มั่นใจว่าถูกต้อง นอกจากนี้ ประสิทธิภาพ OCR อาจแตกต่างกันไปขึ้นอยู่กับคุณภาพของอินพุต PDF และภาษาที่ใช้

ดูสิ่งนี้ด้วย