Clasificar documentos PDF usando C#

Puede clasificar documentos utilizando etiquetas o categorías predefinidas dentro de las taxonomías IAB-2, Documentos y Sentimiento mediante programación. La clasificación de los documentos facilita encontrar la información relevante en el momento adecuado. También ayuda a administrar y ordenar los documentos para buscar y recuperar la información importante. En este artículo, aprenderá a clasificar documentos PDF usando C#.

Los siguientes temas se discuten/tratan en este artículo:

API de C# para la clasificación de PDF

Usaré la API GroupDocs.Classification for .NET para la clasificación de los archivos PDF. Ofrece una clasificación avanzada de documentos y textos en categorías predefinidas. La API admite diferentes tipos de taxonomías, como IAB-2, Documents y Sentiment taxonomy. Analiza el texto y muestra información de clasificación, incluida la mejor clase con su puntaje de probabilidad. Puede clasificar una variedad de formatos de documentos estándar de la industria, como PDF, Word, OpenDocument, RTF y TXT. La API también ofrece análisis de sentimiento con detección automática de idioma y es compatible con los idiomas inglés, chino, español y alemán. Se puede utilizar para desarrollar aplicaciones en cualquier entorno de desarrollo que se dirija a la plataforma .NET.

Puede descargar la DLL de la API o instalarla mediante NuGet.

Install-Package GroupDocs.Classification

Clasifique documentos PDF con taxonomía IAB-2 usando C#

Puede clasificar fácilmente documentos PDF con la taxonomía IAB-2 mediante programación siguiendo los sencillos pasos que se indican a continuación:

El siguiente ejemplo de código muestra cómo clasificar PDF con la taxonomía IAB-2 mediante C#.

// crear clasificador
var classifier = new Classifier();

// clasificar documento con IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// mostrar información de clasificación
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Clasifique documentos PDF con taxonomía IAB-2 usando C#

Clasifique documentos PDF con taxonomía IAB-2 usando C#

La clase Clasificador es la clase principal que proporciona varios métodos para clasificar los documentos. El método Classify() de esta clase clasifica los documentos por nombre de archivo y nombre de directorio. El parámetro bestClassesCount define el recuento de las mejores clases coincidentes que se devolverán. En el ejemplo de código anterior, utilicé la taxonomía Taxonomy.IAB2 para la clasificación.

La clase ClassificationResponse proporciona propiedades y métodos para mostrar la información de clasificación recuperada.

Clasificación de PDF con taxonomía de documentos usando C#

Puede clasificar documentos PDF con la taxonomía de documentos mediante programación siguiendo los sencillos pasos que se indican a continuación:

El siguiente ejemplo de código muestra cómo clasificar PDF con la taxonomía de Documentos usando C#.

// crear clasificador
var classifier = new Classifier();

// clasificar documento con taxonomía de documentos
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// mostrar información de clasificación
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Clasifique PDF con taxonomía de documentos usando C#

Clasifique PDF con taxonomía de documentos usando C#

Clasificación de documentos PDF desde Stream usando C#

Puede clasificar documentos PDF del flujo de archivos mediante programación siguiendo los pasos que se detallan a continuación:

El siguiente ejemplo de código muestra cómo clasificar PDF del flujo de documentos usando C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // crear clasificador
    var classifier = new Classifier();
    
    // clasificar documento
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // mostrar información de clasificación
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Clasificar archivos PDF protegidos con contraseña usando C#

Puede clasificar fácilmente documentos PDF protegidos con contraseña mediante programación siguiendo los sencillos pasos que se detallan a continuación:

El siguiente ejemplo de código muestra cómo clasificar archivos PDF protegidos con contraseña mediante C#.

// crear clasificador
var classifier = new Classifier();

// clasificar documento protegido por contraseña
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// mostrar información de clasificación
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Obtenga una licencia gratis

Puede probar la API sin limitaciones de evaluación solicitando una licencia temporal gratuita.

Conclusión

En este artículo, ha aprendido a clasificar documentos PDF usando C#. También ha aprendido a clasificar documentos con la taxonomía IAB-2 y la taxonomía de Documentos. Además, ha aprendido a clasificar documentos mientras los carga utilizando el flujo de archivos en lugar de la ruta del archivo en C#. Puede obtener más información sobre GroupDocs.Classification para la API de .NET utilizando la documentación. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también