จำแนกเอกสาร PDF โดยใช้ C#

คุณสามารถจัดประเภทเอกสารโดยใช้แท็กหรือหมวดหมู่ที่กำหนดไว้ล่วงหน้าภายในการจัดหมวดหมู่ IAB-2, เอกสาร และความคิดเห็นโดยทางโปรแกรม การจัดหมวดหมู่เอกสารช่วยให้ค้นหาข้อมูลที่เกี่ยวข้องในเวลาที่เหมาะสมได้ง่ายขึ้น อีกทั้งยังช่วยจัดการและจัดเรียงเอกสารเพื่อค้นหาและเรียกค้นข้อมูลที่สำคัญ ในบทความนี้ คุณจะได้เรียนรู้วิธีจัดประเภทเอกสาร PDF โดยใช้ C#

หัวข้อต่อไปนี้จะกล่าวถึง/ครอบคลุมในบทความนี้:

C# API สำหรับการจำแนกประเภท PDF

ฉันจะใช้ GroupDocs.Classification for .NET API สำหรับการจำแนกประเภทของไฟล์ PDF มีการจัดหมวดหมู่เอกสารและข้อความขั้นสูงในหมวดหมู่ที่กำหนดไว้ล่วงหน้า API รองรับการจัดหมวดหมู่ประเภทต่างๆ เช่น IAB-2, เอกสาร และอนุกรมวิธานความคิดเห็น โดยจะวิเคราะห์ข้อความและแสดงข้อมูลการจำแนกประเภท รวมถึงชั้นเรียนที่ดีที่สุดพร้อมคะแนนความน่าจะเป็น คุณสามารถจัดประเภทรูปแบบเอกสารมาตรฐานอุตสาหกรรมได้หลากหลาย เช่น PDF, Word, OpenDocument, RTF และ TXT API ยังนำเสนอการวิเคราะห์ความรู้สึกพร้อมการตรวจจับภาษาอัตโนมัติ และรองรับภาษาอังกฤษ จีน สเปน และเยอรมัน สามารถใช้ในการพัฒนาแอปพลิเคชันในสภาพแวดล้อมการพัฒนาใดๆ ที่กำหนดเป้าหมายแพลตฟอร์ม .NET

คุณสามารถ ดาวน์โหลด DLL ของ API หรือติดตั้งโดยใช้ NuGet

Install-Package GroupDocs.Classification

จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#

คุณสามารถจัดประเภทเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 แบบเป็นโปรแกรมได้อย่างง่ายดาย โดยทำตามขั้นตอนง่ายๆ ด้านล่างนี้:

  • สร้างอินสแตนซ์ของคลาส Classifier
  • เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
  • ตั้งค่า bestClassesCount และ Taxonomy เป็นอินพุต
  • รับผลลัพธ์ในวัตถุคลาส ClassificationResponse

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#

// สร้างลักษณนาม
var classifier = new Classifier();

// จำแนกเอกสารด้วย IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// แสดงข้อมูลการจำแนกประเภท
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#

จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#

คลาส Classifier เป็นคลาสหลักที่ให้ [วิธีการ] ต่างๆ 15 เพื่อจัดประเภทเอกสาร Classify() วิธีการของคลาสนี้จัดประเภทเอกสารตามชื่อไฟล์และชื่อไดเร็กทอรี พารามิเตอร์ bestClassesCount กำหนดจำนวนคลาสที่ตรงกันที่ดีที่สุดที่จะส่งคืน ในตัวอย่างโค้ดข้างต้น ฉันใช้ Taxonomy.IAB2 อนุกรมวิธานเพื่อการจัดหมวดหมู่

คลาส ClassificationResponse มีคุณสมบัติและวิธีการแสดงข้อมูลการจำแนกประเภทที่ดึงมา

การจำแนกประเภท PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#

คุณสามารถจัดประเภทเอกสาร PDF ด้วยการจัดหมวดหมู่เอกสารโดยทางโปรแกรมโดยทำตามขั้นตอนง่ายๆ ที่ระบุด้านล่าง:

  • สร้างอินสแตนซ์ของคลาส Classifier
  • เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
  • ตั้งค่า bestClassesCount, Taxonomy และ PrecisionRecallBalance เป็นอินพุต
  • รับผลลัพธ์ในวัตถุคลาส ClassificationResponse

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF ด้วยการจัดอนุกรมวิธานเอกสารโดยใช้ C#

// สร้างลักษณนาม
var classifier = new Classifier();

// จำแนกเอกสารด้วยอนุกรมวิธานเอกสาร
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// แสดงข้อมูลการจำแนกประเภท
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
จำแนก PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#

จำแนก PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#

การจำแนกเอกสาร PDF จากสตรีมโดยใช้ C#

คุณสามารถจัดประเภทเอกสาร PDF จากการสตรีมไฟล์โดยทางโปรแกรมโดยทำตามขั้นตอนต่อไปนี้:

  • อ่านไฟล์ในอินสแตนซ์ FileStream
  • สร้างอินสแตนซ์ของคลาส Classifier
  • เรียกเมธอด Classifier.Classify() ด้วยอินสแตนซ์ FileStream
  • ตั้งค่า bestClassesCount และ Taxonomy เป็นอินพุต
  • รับผลลัพธ์ในวัตถุคลาส ClassificationResponse

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF จากสตรีมเอกสารโดยใช้ C#

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // สร้างลักษณนาม
    var classifier = new Classifier();
    
    // จำแนกเอกสาร
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // แสดงข้อมูลการจำแนกประเภท
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

จำแนกไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ C#

คุณสามารถจัดประเภทเอกสาร PDF ที่ป้องกันด้วยรหัสผ่านได้อย่างง่ายดายโดยทางโปรแกรมโดยทำตามขั้นตอนง่ายๆ ที่ระบุด้านล่าง:

  • สร้างอินสแตนซ์ของคลาส Classifier
  • เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
  • ตั้งค่า bestClassesCount และรหัสผ่านของไฟล์เป็นอินพุต
  • รับผลลัพธ์ในวัตถุคลาส ClassificationResponse

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการจัดประเภทไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ C#

// สร้างลักษณนาม
var classifier = new Classifier();

// จำแนกเอกสารที่มีการป้องกันด้วยรหัสผ่าน
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// แสดงข้อมูลการจำแนกประเภท
Console.WriteLine(response.BestClassName, response.BestClassProbability);

รับใบอนุญาตฟรี

คุณสามารถลองใช้ API ได้โดยไม่มีข้อจำกัดในการประเมินโดยขอ ใบอนุญาตชั่วคราวฟรี

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีจัดประเภทเอกสาร PDF โดยใช้ C# แล้ว คุณยังได้เรียนรู้วิธีการจำแนกเอกสารด้วยอนุกรมวิธาน IAB-2 และอนุกรมวิธานเอกสารอีกด้วย ยิ่งกว่านั้น คุณได้เรียนรู้วิธีจัดประเภทเอกสารในขณะที่โหลดโดยใช้สตรีมไฟล์แทนเส้นทางของไฟล์ใน C# คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Classification สำหรับ .NET API ได้โดยใช้ เอกสารประกอบ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราที่ ฟอรั่ม

ดูสิ่งนี้ด้วย