
แปลง PDF เป็นข้อความใน C#
เมื่อเร็วๆ นี้ เราได้เผยแพร่บล็อกโพสต์บางส่วน เช่น การแปลง PDF เป็น HTML และ PDF เป็นรูปภาพ โดยทางโปรแกรม บทความนี้จะสอนวิธีแปลง PDF เป็นข้อความใน C# โดยใช้ ไลบรารี .NET OCR ในฐานะนักพัฒนา .NET คุณสามารถใช้ไลบรารีนี้เพื่อแปลงไฟล์เป็นรูปแบบไฟล์ยอดนิยมอื่นๆ ได้อย่างง่ายดาย นอกจากนี้ยังมีฟีเจอร์มากมายที่ทำให้กระบวนการแยกข้อความจากเอกสาร PDF เป็นแบบอัตโนมัติ อย่างไรก็ตาม เราจะเขียนขั้นตอนและข้อมูลโค้ดเพื่อแสดงการแยกข้อความจากไฟล์ PDF ที่สแกน
บทความนี้จะกล่าวถึงประเด็นต่อไปนี้:
การติดตั้งไลบรารี .NET OCR
ไลบรารีนี้มีประสิทธิภาพและมี [เอกสาร] ที่ครอบคลุม 8 เกี่ยวกับการพัฒนาและการใช้งาน คุณสามารถแปลงและประมวลผลไฟล์รูปแบบต่างๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ
หากต้องการติดตั้ง API นี้ในโครงการ .NET ของคุณ คุณสามารถ ดาวน์โหลดไฟล์ ไฟล์ DLL หรือเรียกใช้คำสั่งต่อไปนี้ในตัวจัดการแพ็คเกจ NuGet
Install-Package Aspose.OCR
วิธีแปลง PDF เป็นข้อความใน C#
การแยกข้อความจากไฟล์ PDF ที่สแกนนั้นค่อนข้างง่ายและใช้ซอร์สโค้ดเพียงไม่กี่บรรทัดใน C#
โปรดปฏิบัติตามขั้นตอนที่ระบุไว้ด้านล่าง:
- สร้างวัตถุของคลาส AsposeOcr
- เริ่มต้นอินสแตนซ์ของคลาส DocumentRecognitionSettings เพื่อจดจำรูปภาพจาก PDF
- ตั้งค่าของคุณสมบัติ DetectAreas เพื่อเปิดใช้งานการตรวจจับพื้นที่ข้อความอัตโนมัติ
- สร้างรายการประเภท RecognitionResult แยกข้อความจากเอกสาร PDF ที่สแกนโดยการเรียกเมธอด RecognizePdf และกำหนดผลลัพธ์ให้กับรายการ
คัดลอกและวางโค้ดต่อไปนี้เพื่อแปลง PDF เป็น TEXT ใน C#
string fullPath = "sample.pdf";
// สร้างวัตถุของคลาส AsposeOcr
AsposeOcr api = new AsposeOcr();
// เริ่มต้นอินสแตนซ์ของคลาส DocumentRecognitionSettings เพื่อจดจำรูปภาพจาก PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// ตั้งค่าคุณสมบัติ DetectAreas เพื่อเปิดใช้งานการตรวจหาพื้นที่ข้อความอัตโนมัติ
set.DetectAreas = false;
// สร้างรายการประเภท RecognitionResult แยกแบบฟอร์มข้อความที่สแกนเอกสาร PDF โดยการเรียกวิธี RecognizePdf และกำหนดผลลัพธ์ให้กับรายการ
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// พิมพ์ผล
int pageNumber = 0;
foreach (var page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
การแปลง PDF เป็นข้อความ - ตัวเลือกขั้นสูง
ในส่วนนี้ เราจะสำรวจห้องสมุดนี้เพิ่มเติม นอกจากนี้ยังช่วยให้คุณจดจำ PDF ที่สแกนจากสตรีมได้อีกด้วย
ต่อไปนี้เป็นขั้นตอน:
- สร้างอินสแตนซ์ของคลาส AsposeOcr
- สร้างอินสแตนซ์ของคลาส MemoryStream เพื่อจดจำ PDF จากสตรีม
- เริ่มต้น Constructor ของ FileStream และโหลดไฟล์ต้นฉบับ
- เรียกใช้เมธอด CopyTo เพื่อเขียนไบต์ไปยังสตรีมหน่วยความจำ
- สร้างออบเจ็กต์ของคลาส DocumentRecognitionSettings ที่จดจำรูปภาพจาก PDF
- สร้างรายการประเภท RecognitionResult และเริ่มต้นด้วยผลลัพธ์ของวิธี RecognizePdf
string fullPath = "final.pdf";
// สร้างอินสแตนซ์ของคลาส AsposeOcr
AsposeOcr api = new AsposeOcr();
// สร้างอินสแตนซ์ของคลาส MemoryStream เพื่อจดจำ pdf จากสตรีม
using (MemoryStream ms = new MemoryStream())
{
// เริ่มต้น Constructor ของ FileStream และโหลดไฟล์ต้นฉบับ
using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
{
// เรียกใช้เมธอด CopyTo เพื่อเขียนไบต์ไปยังกระแสข้อมูลหน่วยความจำ
file.CopyTo(ms);
// สร้างออบเจ็กต์ของคลาส DocumentRecognitionSettings ที่จดจำรูปภาพจาก PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// สร้างรายการประเภท RecognitionResult และเริ่มต้นด้วยผลลัพธ์ของวิธี RecognizePdf
List<RecognitionResult> results = api.RecognizePdf(ms, set);
// พิมพ์ผล
foreach (var result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
}
รับใบอนุญาตฟรี
คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี เพื่อทดลองใช้ API โดยไม่มีข้อจำกัดในการประเมิน
สรุป
สิ่งนี้นำเราไปสู่จุดสิ้นสุดของโพสต์บล็อกนี้ คุณได้เรียนรู้วิธีแปลง PDF เป็น Text ใน C# โดยทางโปรแกรมแล้ว นอกจากนี้เรายังได้สำรวจวิธีการขั้นสูงบางอย่างที่นำเสนอโดยไลบรารี .NET OCR นี้ นอกจากนี้ คุณยังอาจไปที่ เอกสาร เพื่อทราบคุณสมบัติอื่นๆ คู่มือนี้จะช่วยคุณได้อย่างแน่นอนหากคุณกำลังมองหาเครื่องมือแปลง PDF เป็น Text ให้กับแอปพลิเคชันของคุณ นอกจากนี้ conholdate.com กำลังเขียนบล็อกโพสต์ใหม่ในหัวข้อใหม่ ดังนั้นโปรดติดต่อเพื่อรับการปรับปรุงเป็นประจำ
ถามคำถาม
คุณสามารถแจ้งให้เราทราบเกี่ยวกับคำถามหรือข้อสงสัยของคุณได้ใน ฟอรั่ม ของเรา
คำถามที่พบบ่อย
ฉันจะแปลง PDF เป็นข้อความโดยทางโปรแกรมได้อย่างไร
คุณสามารถแปลง PDF เป็นข้อความใน C# ได้โดยใช้ .NET OCR library มันเปิดเผยวิธีการ RecognizePdf ที่ดำเนินการนี้อย่างมีประสิทธิภาพ
วิธีที่ง่ายที่สุดในการแปลง PDF เป็นข้อความคืออะไร
คุณสามารถไปที่ เอกสารประกอบ ของไลบรารีนี้เพื่อทราบเกี่ยวกับวิธีการดึงข้อมูลจากไฟล์ PDF ที่สแกนโดยทางโปรแกรม