
Você pode classificar documentos usando tags ou categorias predefinidas nas taxonomias IAB-2, Documentos e Sentimentos programaticamente. A classificação dos documentos torna mais fácil encontrar a informação relevante no momento certo. Também ajuda a gerenciar e classificar os documentos para pesquisar e recuperar as informações importantes. Neste artigo, você aprenderá como classificar documentos PDF usando C#.
Os seguintes tópicos são discutidos/abordados neste artigo:
- API C# para classificação de PDF
- Classifique documentos PDF com taxonomia IAB-2 usando C#
- Classificação de PDF com taxonomia de documentos usando C#
- Classificação de documentos PDF do Stream usando C#
- Classifique arquivos PDF protegidos por senha usando C#
API C# para classificação de PDF
Estarei usando a API GroupDocs.Classification for .NET para a classificação dos arquivos PDF. Oferece uma classificação avançada de documentos e textos em categorias predefinidas. A API oferece suporte a diferentes tipos de taxonomias, como IAB-2, Documentos e taxonomia de sentimentos. Ele analisa o texto e mostra informações de classificação incluindo a melhor classe com sua pontuação de probabilidade. Você pode classificar uma variedade de formatos de documentos padrão do setor, como PDF, Word, OpenDocument, RTF e TXT. A API também oferece análise de sentimentos com detecção automática de idioma e oferece suporte aos idiomas inglês, chinês, espanhol e alemão. Ele pode ser usado para desenvolver aplicativos em qualquer ambiente de desenvolvimento voltado para a plataforma .NET.
Você pode baixar a DLL da API ou instalá-la usando o NuGet.
Install-Package GroupDocs.Classification
Classifique documentos PDF com taxonomia IAB-2 usando C#
Você pode classificar facilmente documentos PDF com taxonomia IAB-2 programaticamente seguindo as etapas simples abaixo:
- Crie uma instância da classe Classifier
- Chame o método Classifier.Classify() com o caminho do arquivo
- Defina o bestClassesCount e Taxonomy como entrada
- Obtenha resultados no objeto de classe ClassificationResponse
O exemplo de código a seguir mostra como classificar PDF com taxonomia IAB-2 usando C#.
// criar classificador
var classifier = new Classifier();
// classificar documento com IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);
// mostrar informações de classificação
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

Classifique documentos PDF com taxonomia IAB-2 usando C#
A classe Classifier é a classe principal que fornece vários methods para classificar os documentos. O método Classify() desta classe classifica os documentos por nome de arquivo e nome de diretório. O parâmetro bestClassesCount define a contagem das melhores classes correspondentes a serem retornadas. No exemplo de código acima, usei a taxonomia Taxonomy.IAB2 para classificação.
A classe ClassificationResponse fornece propriedades e métodos para mostrar as informações de classificação recuperadas.
Classificação de PDF com taxonomia de documentos usando C#
Você pode classificar documentos PDF com taxonomia de Documentos programaticamente seguindo as etapas fáceis fornecidas abaixo:
- Crie uma instância da classe Classifier
- Chame o método Classifier.Classify() com o caminho do arquivo
- Defina bestClassesCount, Taxonomy e PrecisionRecallBalance como entrada
- Obtenha resultados no objeto de classe ClassificationResponse
O exemplo de código a seguir mostra como classificar PDF com taxonomia de documentos usando C#.
// criar classificador
var classifier = new Classifier();
// classificar documento com taxonomia de documentos
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
// mostrar informações de classificação
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

Classifique PDF com taxonomia de documentos usando C#
Classificação de documentos PDF do Stream usando C#
Você pode classificar documentos PDF do fluxo de arquivos programaticamente seguindo as etapas abaixo:
- Ler um arquivo na instância FileStream
- Crie uma instância da classe Classifier
- Chame o método Classifier.Classify() com a instância FileStream
- Definir bestClassesCount e Taxonomy como entrada
- Obtenha resultados no objeto de classe ClassificationResponse
O exemplo de código a seguir mostra como classificar PDF do fluxo de documentos usando C#.
using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
// criar classificador
var classifier = new Classifier();
// classificar documento
var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
// mostrar informações de classificação
Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}
Classifique arquivos PDF protegidos por senha usando C#
Você pode classificar facilmente documentos PDF protegidos por senha de forma programática seguindo as etapas simples abaixo:
- Crie uma instância da classe Classifier
- Chame o método Classifier.Classify() com o caminho do arquivo
- Defina o bestClassesCount e a senha do arquivo como entrada
- Obtenha resultados no objeto de classe ClassificationResponse
O exemplo de código a seguir mostra como classificar o arquivo PDF protegido por senha usando C#.
// criar classificador
var classifier = new Classifier();
// classificar documento protegido por senha
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");
// mostrar informações de classificação
Console.WriteLine(response.BestClassName, response.BestClassProbability);
Obtenha uma licença gratuita
Você pode experimentar a API sem limitações de avaliação solicitando uma licença temporária gratuita.
Conclusão
Neste artigo, você aprendeu como classificar documentos PDF usando C#. Você também aprendeu a classificar documentos com taxonomia IAB-2 e taxonomia de documentos. Além disso, você aprendeu a classificar documentos ao carregá-los usando o fluxo de arquivos em vez do caminho do arquivo em C#. Você pode aprender mais sobre GroupDocs.Classification para .NET API usando a documentação. Em caso de qualquer ambiguidade, não hesite em contactar-nos no fórum.