Phân loại tài liệu PDF bằng C#

Bạn có thể phân loại tài liệu bằng cách sử dụng các thẻ hoặc danh mục được xác định trước trong phân loại IAB-2, Tài liệu và Cảm tính theo chương trình. Việc phân loại tài liệu giúp việc tìm kiếm thông tin liên quan vào đúng thời điểm trở nên dễ dàng hơn. Nó cũng giúp quản lý và sắp xếp các tài liệu để tìm kiếm và truy xuất thông tin quan trọng. Trong bài viết này, bạn sẽ tìm hiểu cách phân loại tài liệu PDF bằng C#.

Các chủ đề sau được thảo luận/đề cập trong bài viết này:

API C# để phân loại PDF

Tôi sẽ sử dụng API GroupDocs.Classification for .NET để phân loại tệp PDF. Nó cung cấp khả năng phân loại văn bản và tài liệu nâng cao theo các danh mục được xác định trước. API hỗ trợ các loại phân loại khác nhau như IAB-2, Tài liệu và phân loại Tình cảm. Nó phân tích văn bản và hiển thị thông tin phân loại bao gồm lớp tốt nhất với điểm xác suất của nó. Bạn có thể phân loại nhiều định dạng tài liệu tiêu chuẩn ngành như PDF, Word, OpenDocument, RTF và TXT. API cũng cung cấp phân tích Tình cảm với tính năng tự động phát hiện ngôn ngữ và hỗ trợ các ngôn ngữ tiếng Anh, tiếng Trung, tiếng Tây Ban Nha và tiếng Đức. Nó có thể được sử dụng để phát triển ứng dụng trong bất kỳ môi trường phát triển nào nhắm vào nền tảng .NET.

Bạn có thể tải xuống DLL của API hoặc cài đặt nó bằng NuGet.

Install-Package GroupDocs.Classification

Phân loại tài liệu PDF bằng phân loại IAB-2 bằng C#

Bạn có thể dễ dàng phân loại tài liệu PDF bằng phân loại IAB-2 theo chương trình bằng cách thực hiện theo các bước đơn giản dưới đây:

Mẫu mã sau đây cho biết cách phân loại PDF bằng phân loại IAB-2 bằng C#.

// tạo bộ phân loại
var classifier = new Classifier();

// phân loại tài liệu với IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// hiển thị thông tin phân loại
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Phân loại tài liệu PDF bằng phân loại IAB-2 bằng C#

Phân loại tài liệu PDF bằng phân loại IAB-2 bằng C#

Lớp Trình phân loại là lớp chính cung cấp nhiều phương thức khác nhau để phân loại tài liệu. Phương thức Classify() của lớp này phân loại tài liệu theo tên tệp và tên thư mục. Tham số bestClassesCount xác định số lượng lớp phù hợp nhất cần trả về. Trong ví dụ về mã ở trên, tôi đã sử dụng phân loại Taxonomy.IAB2 để phân loại.

Lớp ClassificationResponse cung cấp các thuộc tính và phương thức để hiển thị thông tin phân loại được truy xuất.

Phân loại PDF bằng phân loại tài liệu bằng C#

Bạn có thể phân loại tài liệu PDF bằng phân loại Tài liệu theo chương trình bằng cách thực hiện theo các bước đơn giản dưới đây:

  • Tạo một thể hiện của lớp Classifier
  • Gọi phương thức Classifier.Classify() bằng đường dẫn tệp
  • Đặt bestClassesCount, Taxonomy và PrecisionRecallBalance làm đầu vào
  • Nhận kết quả trong đối tượng lớp ClassificationResponse

Mẫu mã sau đây cho biết cách phân loại PDF bằng phân loại Tài liệu bằng C#.

// tạo bộ phân loại
var classifier = new Classifier();

// phân loại tài liệu với Document taxonomy
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// hiển thị thông tin phân loại
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Phân loại PDF bằng Phân loại tài liệu bằng C#

Phân loại PDF bằng Phân loại tài liệu bằng C#

Phân loại tài liệu PDF từ luồng bằng C#

Bạn có thể phân loại tài liệu PDF từ luồng tệp theo chương trình bằng cách thực hiện theo một số bước dưới đây:

  • Đọc một tệp trong phiên bản FileStream
  • Tạo một thể hiện của lớp Classifier
  • Gọi phương thức Classifier.Classify() với phiên bản FileStream
  • Đặt bestClassesCount và Taxonomy làm đầu vào
  • Nhận kết quả trong đối tượng lớp ClassificationResponse

Mẫu mã sau đây cho biết cách phân loại PDF từ luồng tài liệu bằng C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // tạo bộ phân loại
    var classifier = new Classifier();
    
    // phân loại tài liệu
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // hiển thị thông tin phân loại
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Phân loại tệp PDF được bảo vệ bằng mật khẩu bằng C#

Bạn có thể dễ dàng phân loại các tài liệu PDF được bảo vệ bằng mật khẩu theo chương trình bằng cách thực hiện theo các bước đơn giản dưới đây:

Mẫu mã sau đây cho biết cách phân loại tệp PDF được bảo vệ bằng mật khẩu bằng C#.

// tạo bộ phân loại
var classifier = new Classifier();

// phân loại tài liệu được bảo vệ bằng mật khẩu
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// hiển thị thông tin phân loại
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Nhận giấy phép miễn phí

Bạn có thể dùng thử API mà không bị giới hạn đánh giá bằng cách yêu cầu giấy phép tạm thời miễn phí.

Phần kết luận

Trong bài viết này, bạn đã học cách phân loại tài liệu PDF bằng C#. Bạn cũng đã học cách phân loại tài liệu bằng phân loại IAB-2 và phân loại Tài liệu. Hơn nữa, bạn đã học cách phân loại tài liệu trong khi tải chúng bằng luồng tệp thay vì đường dẫn tệp trong C#. Bạn có thể tìm hiểu thêm về GroupDocs.Phân loại cho .NET API bằng cách sử dụng tài liệu. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm