
คุณสามารถจัดประเภทเอกสารโดยใช้แท็กหรือหมวดหมู่ที่กำหนดไว้ล่วงหน้าภายในการจัดหมวดหมู่ IAB-2, เอกสาร และความคิดเห็นโดยทางโปรแกรม การจัดหมวดหมู่เอกสารช่วยให้ค้นหาข้อมูลที่เกี่ยวข้องในเวลาที่เหมาะสมได้ง่ายขึ้น อีกทั้งยังช่วยจัดการและจัดเรียงเอกสารเพื่อค้นหาและเรียกค้นข้อมูลที่สำคัญ ในบทความนี้ คุณจะได้เรียนรู้วิธีจัดประเภทเอกสาร PDF โดยใช้ C#
หัวข้อต่อไปนี้จะกล่าวถึง/ครอบคลุมในบทความนี้:
- C# API สำหรับการจำแนกประเภท PDF
- จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#
- การจำแนกประเภท PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#
- การจำแนกเอกสาร PDF จากสตรีมโดยใช้ C#
- จำแนกไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
C# API สำหรับการจำแนกประเภท PDF
ฉันจะใช้ GroupDocs.Classification for .NET API สำหรับการจำแนกประเภทของไฟล์ PDF มีการจัดหมวดหมู่เอกสารและข้อความขั้นสูงในหมวดหมู่ที่กำหนดไว้ล่วงหน้า API รองรับการจัดหมวดหมู่ประเภทต่างๆ เช่น IAB-2, เอกสาร และอนุกรมวิธานความคิดเห็น โดยจะวิเคราะห์ข้อความและแสดงข้อมูลการจำแนกประเภท รวมถึงชั้นเรียนที่ดีที่สุดพร้อมคะแนนความน่าจะเป็น คุณสามารถจัดประเภทรูปแบบเอกสารมาตรฐานอุตสาหกรรมได้หลากหลาย เช่น PDF, Word, OpenDocument, RTF และ TXT API ยังนำเสนอการวิเคราะห์ความรู้สึกพร้อมการตรวจจับภาษาอัตโนมัติ และรองรับภาษาอังกฤษ จีน สเปน และเยอรมัน สามารถใช้ในการพัฒนาแอปพลิเคชันในสภาพแวดล้อมการพัฒนาใดๆ ที่กำหนดเป้าหมายแพลตฟอร์ม .NET
คุณสามารถ ดาวน์โหลด DLL ของ API หรือติดตั้งโดยใช้ NuGet
Install-Package GroupDocs.Classification
จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#
คุณสามารถจัดประเภทเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 แบบเป็นโปรแกรมได้อย่างง่ายดาย โดยทำตามขั้นตอนง่ายๆ ด้านล่างนี้:
- สร้างอินสแตนซ์ของคลาส Classifier
- เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
- ตั้งค่า bestClassesCount และ Taxonomy เป็นอินพุต
- รับผลลัพธ์ในวัตถุคลาส ClassificationResponse
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#
// สร้างลักษณนาม
var classifier = new Classifier();
// จำแนกเอกสารด้วย IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);
// แสดงข้อมูลการจำแนกประเภท
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

จำแนกเอกสาร PDF ด้วยอนุกรมวิธาน IAB-2 โดยใช้ C#
คลาส Classifier เป็นคลาสหลักที่ให้ [วิธีการ] ต่างๆ 15 เพื่อจัดประเภทเอกสาร Classify() วิธีการของคลาสนี้จัดประเภทเอกสารตามชื่อไฟล์และชื่อไดเร็กทอรี พารามิเตอร์ bestClassesCount กำหนดจำนวนคลาสที่ตรงกันที่ดีที่สุดที่จะส่งคืน ในตัวอย่างโค้ดข้างต้น ฉันใช้ Taxonomy.IAB2 อนุกรมวิธานเพื่อการจัดหมวดหมู่
คลาส ClassificationResponse มีคุณสมบัติและวิธีการแสดงข้อมูลการจำแนกประเภทที่ดึงมา
การจำแนกประเภท PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#
คุณสามารถจัดประเภทเอกสาร PDF ด้วยการจัดหมวดหมู่เอกสารโดยทางโปรแกรมโดยทำตามขั้นตอนง่ายๆ ที่ระบุด้านล่าง:
- สร้างอินสแตนซ์ของคลาส Classifier
- เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
- ตั้งค่า bestClassesCount, Taxonomy และ PrecisionRecallBalance เป็นอินพุต
- รับผลลัพธ์ในวัตถุคลาส ClassificationResponse
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF ด้วยการจัดอนุกรมวิธานเอกสารโดยใช้ C#
// สร้างลักษณนาม
var classifier = new Classifier();
// จำแนกเอกสารด้วยอนุกรมวิธานเอกสาร
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
// แสดงข้อมูลการจำแนกประเภท
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

จำแนก PDF ด้วยอนุกรมวิธานเอกสารโดยใช้ C#
การจำแนกเอกสาร PDF จากสตรีมโดยใช้ C#
คุณสามารถจัดประเภทเอกสาร PDF จากการสตรีมไฟล์โดยทางโปรแกรมโดยทำตามขั้นตอนต่อไปนี้:
- อ่านไฟล์ในอินสแตนซ์ FileStream
- สร้างอินสแตนซ์ของคลาส Classifier
- เรียกเมธอด Classifier.Classify() ด้วยอินสแตนซ์ FileStream
- ตั้งค่า bestClassesCount และ Taxonomy เป็นอินพุต
- รับผลลัพธ์ในวัตถุคลาส ClassificationResponse
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีจัดประเภท PDF จากสตรีมเอกสารโดยใช้ C#
using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
// สร้างลักษณนาม
var classifier = new Classifier();
// จำแนกเอกสาร
var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
// แสดงข้อมูลการจำแนกประเภท
Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}
จำแนกไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
คุณสามารถจัดประเภทเอกสาร PDF ที่ป้องกันด้วยรหัสผ่านได้อย่างง่ายดายโดยทางโปรแกรมโดยทำตามขั้นตอนง่ายๆ ที่ระบุด้านล่าง:
- สร้างอินสแตนซ์ของคลาส Classifier
- เรียกเมธอด Classifier.Classify() ด้วยเส้นทางของไฟล์
- ตั้งค่า bestClassesCount และรหัสผ่านของไฟล์เป็นอินพุต
- รับผลลัพธ์ในวัตถุคลาส ClassificationResponse
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการจัดประเภทไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
// สร้างลักษณนาม
var classifier = new Classifier();
// จำแนกเอกสารที่มีการป้องกันด้วยรหัสผ่าน
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");
// แสดงข้อมูลการจำแนกประเภท
Console.WriteLine(response.BestClassName, response.BestClassProbability);
รับใบอนุญาตฟรี
คุณสามารถลองใช้ API ได้โดยไม่มีข้อจำกัดในการประเมินโดยขอ ใบอนุญาตชั่วคราวฟรี
บทสรุป
ในบทความนี้ คุณได้เรียนรู้วิธีจัดประเภทเอกสาร PDF โดยใช้ C# แล้ว คุณยังได้เรียนรู้วิธีการจำแนกเอกสารด้วยอนุกรมวิธาน IAB-2 และอนุกรมวิธานเอกสารอีกด้วย ยิ่งกว่านั้น คุณได้เรียนรู้วิธีจัดประเภทเอกสารในขณะที่โหลดโดยใช้สตรีมไฟล์แทนเส้นทางของไฟล์ใน C# คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Classification สำหรับ .NET API ได้โดยใช้ เอกสารประกอบ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราที่ ฟอรั่ม