Classifique documentos PDF usando C#

Você pode classificar documentos usando tags ou categorias predefinidas nas taxonomias IAB-2, Documentos e Sentimentos programaticamente. A classificação dos documentos torna mais fácil encontrar a informação relevante no momento certo. Também ajuda a gerenciar e classificar os documentos para pesquisar e recuperar as informações importantes. Neste artigo, você aprenderá como classificar documentos PDF usando C#.

Os seguintes tópicos são discutidos/abordados neste artigo:

API C# para classificação de PDF

Estarei usando a API GroupDocs.Classification for .NET para a classificação dos arquivos PDF. Oferece uma classificação avançada de documentos e textos em categorias predefinidas. A API oferece suporte a diferentes tipos de taxonomias, como IAB-2, Documentos e taxonomia de sentimentos. Ele analisa o texto e mostra informações de classificação incluindo a melhor classe com sua pontuação de probabilidade. Você pode classificar uma variedade de formatos de documentos padrão do setor, como PDF, Word, OpenDocument, RTF e TXT. A API também oferece análise de sentimentos com detecção automática de idioma e oferece suporte aos idiomas inglês, chinês, espanhol e alemão. Ele pode ser usado para desenvolver aplicativos em qualquer ambiente de desenvolvimento voltado para a plataforma .NET.

Você pode baixar a DLL da API ou instalá-la usando o NuGet.

Install-Package GroupDocs.Classification

Classifique documentos PDF com taxonomia IAB-2 usando C#

Você pode classificar facilmente documentos PDF com taxonomia IAB-2 programaticamente seguindo as etapas simples abaixo:

O exemplo de código a seguir mostra como classificar PDF com taxonomia IAB-2 usando C#.

// criar classificador
var classifier = new Classifier();

// classificar documento com IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// mostrar informações de classificação
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Classifique documentos PDF com taxonomia IAB-2 usando C#

Classifique documentos PDF com taxonomia IAB-2 usando C#

A classe Classifier é a classe principal que fornece vários methods para classificar os documentos. O método Classify() desta classe classifica os documentos por nome de arquivo e nome de diretório. O parâmetro bestClassesCount define a contagem das melhores classes correspondentes a serem retornadas. No exemplo de código acima, usei a taxonomia Taxonomy.IAB2 para classificação.

A classe ClassificationResponse fornece propriedades e métodos para mostrar as informações de classificação recuperadas.

Classificação de PDF com taxonomia de documentos usando C#

Você pode classificar documentos PDF com taxonomia de Documentos programaticamente seguindo as etapas fáceis fornecidas abaixo:

O exemplo de código a seguir mostra como classificar PDF com taxonomia de documentos usando C#.

// criar classificador
var classifier = new Classifier();

// classificar documento com taxonomia de documentos
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// mostrar informações de classificação
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Classifique PDF com taxonomia de documentos usando C#

Classifique PDF com taxonomia de documentos usando C#

Classificação de documentos PDF do Stream usando C#

Você pode classificar documentos PDF do fluxo de arquivos programaticamente seguindo as etapas abaixo:

O exemplo de código a seguir mostra como classificar PDF do fluxo de documentos usando C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // criar classificador
    var classifier = new Classifier();
    
    // classificar documento
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // mostrar informações de classificação
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Classifique arquivos PDF protegidos por senha usando C#

Você pode classificar facilmente documentos PDF protegidos por senha de forma programática seguindo as etapas simples abaixo:

O exemplo de código a seguir mostra como classificar o arquivo PDF protegido por senha usando C#.

// criar classificador
var classifier = new Classifier();

// classificar documento protegido por senha
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// mostrar informações de classificação
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Obtenha uma licença gratuita

Você pode experimentar a API sem limitações de avaliação solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você aprendeu como classificar documentos PDF usando C#. Você também aprendeu a classificar documentos com taxonomia IAB-2 e taxonomia de documentos. Além disso, você aprendeu a classificar documentos ao carregá-los usando o fluxo de arquivos em vez do caminho do arquivo em C#. Você pode aprender mais sobre GroupDocs.Classification para .NET API usando a documentação. Em caso de qualquer ambiguidade, não hesite em contactar-nos no fórum.

Veja também