แปลง PDF เป็นข้อความใน C#

แปลง PDF เป็นข้อความใน C#

เมื่อเร็วๆ นี้ เราได้เผยแพร่บล็อกโพสต์บางส่วน เช่น การแปลง PDF เป็น HTML และ PDF เป็นรูปภาพ โดยทางโปรแกรม บทความนี้จะสอนวิธีแปลง PDF เป็นข้อความใน C# โดยใช้ ไลบรารี .NET OCR ในฐานะนักพัฒนา .NET คุณสามารถใช้ไลบรารีนี้เพื่อแปลงไฟล์เป็นรูปแบบไฟล์ยอดนิยมอื่นๆ ได้อย่างง่ายดาย นอกจากนี้ยังมีฟีเจอร์มากมายที่ทำให้กระบวนการแยกข้อความจากเอกสาร PDF เป็นแบบอัตโนมัติ อย่างไรก็ตาม เราจะเขียนขั้นตอนและข้อมูลโค้ดเพื่อแสดงการแยกข้อความจากไฟล์ PDF ที่สแกน

บทความนี้จะกล่าวถึงประเด็นต่อไปนี้:

การติดตั้งไลบรารี .NET OCR

ไลบรารีนี้มีประสิทธิภาพและมี [เอกสาร] ที่ครอบคลุม 8 เกี่ยวกับการพัฒนาและการใช้งาน คุณสามารถแปลงและประมวลผลไฟล์รูปแบบต่างๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ

หากต้องการติดตั้ง API นี้ในโครงการ .NET ของคุณ คุณสามารถ ดาวน์โหลดไฟล์ ไฟล์ DLL หรือเรียกใช้คำสั่งต่อไปนี้ในตัวจัดการแพ็คเกจ NuGet

Install-Package Aspose.OCR

วิธีแปลง PDF เป็นข้อความใน C#

การแยกข้อความจากไฟล์ PDF ที่สแกนนั้นค่อนข้างง่ายและใช้ซอร์สโค้ดเพียงไม่กี่บรรทัดใน C#

โปรดปฏิบัติตามขั้นตอนที่ระบุไว้ด้านล่าง:

  1. สร้างวัตถุของคลาส AsposeOcr
  2. เริ่มต้นอินสแตนซ์ของคลาส DocumentRecognitionSettings เพื่อจดจำรูปภาพจาก PDF
  3. ตั้งค่าของคุณสมบัติ DetectAreas เพื่อเปิดใช้งานการตรวจจับพื้นที่ข้อความอัตโนมัติ
  4. สร้างรายการประเภท RecognitionResult แยกข้อความจากเอกสาร PDF ที่สแกนโดยการเรียกเมธอด RecognizePdf และกำหนดผลลัพธ์ให้กับรายการ

คัดลอกและวางโค้ดต่อไปนี้เพื่อแปลง PDF เป็น TEXT ใน C#


string fullPath =   "sample.pdf";
// สร้างวัตถุของคลาส AsposeOcr 
AsposeOcr api = new AsposeOcr();
// เริ่มต้นอินสแตนซ์ของคลาส DocumentRecognitionSettings เพื่อจดจำรูปภาพจาก PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// ตั้งค่าคุณสมบัติ DetectAreas เพื่อเปิดใช้งานการตรวจหาพื้นที่ข้อความอัตโนมัติ 
set.DetectAreas = false;
// สร้างรายการประเภท RecognitionResult แยกแบบฟอร์มข้อความที่สแกนเอกสาร PDF โดยการเรียกวิธี RecognizePdf และกำหนดผลลัพธ์ให้กับรายการ  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// พิมพ์ผล
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

การแปลง PDF เป็นข้อความ - ตัวเลือกขั้นสูง

ในส่วนนี้ เราจะสำรวจห้องสมุดนี้เพิ่มเติม นอกจากนี้ยังช่วยให้คุณจดจำ PDF ที่สแกนจากสตรีมได้อีกด้วย

ต่อไปนี้เป็นขั้นตอน:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. สร้างอินสแตนซ์ของคลาส MemoryStream เพื่อจดจำ PDF จากสตรีม
  3. เริ่มต้น Constructor ของ FileStream และโหลดไฟล์ต้นฉบับ
  4. เรียกใช้เมธอด CopyTo เพื่อเขียนไบต์ไปยังสตรีมหน่วยความจำ
  5. สร้างออบเจ็กต์ของคลาส DocumentRecognitionSettings ที่จดจำรูปภาพจาก PDF
  6. สร้างรายการประเภท RecognitionResult และเริ่มต้นด้วยผลลัพธ์ของวิธี RecognizePdf

string fullPath =   "final.pdf";
// สร้างอินสแตนซ์ของคลาส AsposeOcr 
AsposeOcr api = new AsposeOcr();
// สร้างอินสแตนซ์ของคลาส MemoryStream เพื่อจดจำ pdf จากสตรีม     
using (MemoryStream ms = new MemoryStream())
{
    // เริ่มต้น Constructor ของ FileStream และโหลดไฟล์ต้นฉบับ  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // เรียกใช้เมธอด CopyTo เพื่อเขียนไบต์ไปยังกระแสข้อมูลหน่วยความจำ  
        file.CopyTo(ms);
        // สร้างออบเจ็กต์ของคลาส DocumentRecognitionSettings ที่จดจำรูปภาพจาก PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // สร้างรายการประเภท RecognitionResult และเริ่มต้นด้วยผลลัพธ์ของวิธี RecognizePdf  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // พิมพ์ผล
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

รับใบอนุญาตฟรี

คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี เพื่อทดลองใช้ API โดยไม่มีข้อจำกัดในการประเมิน

สรุป

สิ่งนี้นำเราไปสู่จุดสิ้นสุดของโพสต์บล็อกนี้ คุณได้เรียนรู้วิธีแปลง PDF เป็น Text ใน C# โดยทางโปรแกรมแล้ว นอกจากนี้เรายังได้สำรวจวิธีการขั้นสูงบางอย่างที่นำเสนอโดยไลบรารี .NET OCR นี้ นอกจากนี้ คุณยังอาจไปที่ เอกสาร เพื่อทราบคุณสมบัติอื่นๆ คู่มือนี้จะช่วยคุณได้อย่างแน่นอนหากคุณกำลังมองหาเครื่องมือแปลง PDF เป็น Text ให้กับแอปพลิเคชันของคุณ นอกจากนี้ conholdate.com กำลังเขียนบล็อกโพสต์ใหม่ในหัวข้อใหม่ ดังนั้นโปรดติดต่อเพื่อรับการปรับปรุงเป็นประจำ

ถามคำถาม

คุณสามารถแจ้งให้เราทราบเกี่ยวกับคำถามหรือข้อสงสัยของคุณได้ใน ฟอรั่ม ของเรา

คำถามที่พบบ่อย

ฉันจะแปลง PDF เป็นข้อความโดยทางโปรแกรมได้อย่างไร

คุณสามารถแปลง PDF เป็นข้อความใน C# ได้โดยใช้ .NET OCR library มันเปิดเผยวิธีการ RecognizePdf ที่ดำเนินการนี้อย่างมีประสิทธิภาพ

วิธีที่ง่ายที่สุดในการแปลง PDF เป็นข้อความคืออะไร

คุณสามารถไปที่ เอกสารประกอบ ของไลบรารีนี้เพื่อทราบเกี่ยวกับวิธีการดึงข้อมูลจากไฟล์ PDF ที่สแกนโดยทางโปรแกรม

ดูสิ่งนี้ด้วย