Классифицировать PDF-документы с помощью C#

Вы можете программно классифицировать документы, используя предопределенные теги или категории в таксономиях IAB-2, Documents и Sentiment. Классификация документов облегчает поиск нужной информации в нужное время. Это также помогает управлять и сортировать документы для поиска и извлечения важной информации. В этой статье вы узнаете, как классифицировать PDF-документы с помощью C#.

В этой статье обсуждаются/рассматриваются следующие темы:

C# API для классификации PDF

Я буду использовать API GroupDocs.Classification for .NET для классификации файлов PDF. Он предлагает расширенную классификацию документов и текстов по предопределенным категориям. API поддерживает различные типы таксономий, такие как IAB-2, документы и таксономия настроений. Он анализирует текст и показывает классификационную информацию, включая лучший класс с его оценкой вероятности. Вы можете классифицировать множество стандартных форматов документов, таких как PDF, Word, OpenDocument, RTF и TXT. API также предлагает анализ настроений с автоматическим определением языка и поддерживает английский, китайский, испанский и немецкий языки. Его можно использовать для разработки приложений в любой среде разработки, ориентированной на платформу .NET.

Вы можете либо скачать DLL API, либо установить его с помощью NuGet.

Install-Package GroupDocs.Classification

Классифицируйте PDF-документы с помощью таксономии IAB-2 с использованием C#

Вы можете легко программно классифицировать PDF-документы с таксономией IAB-2, выполнив простые шаги, указанные ниже:

  • Создайте экземпляр класса Classifier.
  • Вызовите метод Classifier.Classify() с путем к файлу
  • Установите bestClassesCount и Taxonomy в качестве входных данных
  • Получить результаты в объекте класса ClassificationResponse

В следующем примере кода показано, как классифицировать PDF с помощью таксономии IAB-2 с помощью C#.

// создать классификатор
var classifier = new Classifier();

// классифицировать документ с IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// показать информацию о классификации
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Классифицируйте PDF-документы с помощью таксономии IAB-2 с использованием C#

Классифицируйте PDF-документы с помощью таксономии IAB-2 с использованием C#

Класс Classifier является основным классом, предоставляющим различные методы для классификации документов. Метод Classify() этого класса классифицирует документы по имени файла и имени каталога. Параметр bestClassesCount определяет количество возвращаемых наиболее подходящих классов. В приведенном выше примере кода я использовал таксономию Taxonomy.IAB2 для классификации.

Класс ClassificationResponse предоставляет свойства и методы для отображения полученной информации о классификации.

Классификация PDF с таксономией документов с использованием C#

Вы можете программно классифицировать PDF-документы с помощью таксономии документов, выполнив простые шаги, указанные ниже:

  • Создайте экземпляр класса Classifier.
  • Вызовите метод Classifier.Classify() с путем к файлу
  • Установите bestClassesCount, Taxonomy и PrecisionRecallBalance в качестве входных данных.
  • Получить результаты в объекте класса ClassificationResponse

В следующем примере кода показано, как классифицировать PDF с помощью таксономии документов с помощью C#.

// создать классификатор
var classifier = new Classifier();

// классифицировать документ с помощью таксономии документов
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// показать информацию о классификации
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Классифицируйте PDF с помощью таксономии документов с помощью C#

Классифицируйте PDF с помощью таксономии документов с помощью C#

Классификация PDF-документов из потока с использованием С#

Вы можете программно классифицировать PDF-документы из файлового потока, выполнив несколько шагов, приведенных ниже:

  • Чтение файла в экземпляре FileStream
  • Создайте экземпляр класса Classifier.
  • Вызовите метод Classifier.Classify() с экземпляром FileStream.
  • Установите bestClassesCount и Taxonomy в качестве входных данных
  • Получить результаты в объекте класса ClassificationResponse

В следующем примере кода показано, как классифицировать PDF из потока документов с помощью C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // создать классификатор
    var classifier = new Classifier();
    
    // классифицировать документ
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // показать информацию о классификации
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Классифицируйте PDF-файлы, защищенные паролем, с помощью C#

Вы можете легко программно классифицировать PDF-документы, защищенные паролем, выполнив простые шаги, приведенные ниже:

  • Создайте экземпляр класса Classifier.
  • Вызовите метод Classifier.Classify() с путем к файлу
  • Установите bestClassesCount и пароль файла в качестве входных данных
  • Получить результаты в объекте класса ClassificationResponse

В следующем примере кода показано, как классифицировать PDF-файл, защищенный паролем, с помощью C#.

// создать классификатор
var classifier = new Classifier();

// классифицировать защищенный паролем документ
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// показать информацию о классификации
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Получить бесплатную лицензию

Вы можете попробовать API без ограничений по ознакомительной версии, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как классифицировать PDF-документы с помощью C#. Вы также узнали, как классифицировать документы с помощью таксономии IAB-2 и таксономии документов. Кроме того, вы узнали, как классифицировать документы при их загрузке с использованием файлового потока вместо пути к файлу в C#. Вы можете узнать больше о GroupDocs.Classification для .NET API, используя документацию. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на форуме.

Смотрите также