Classifica i documenti PDF usando C#

È possibile classificare i documenti utilizzando tag o categorie predefinite all’interno delle tassonomie IAB-2, Documenti e Sentiment in modo programmatico. La classificazione dei documenti facilita il reperimento delle informazioni rilevanti al momento giusto. Aiuta anche a gestire e ordinare i documenti per la ricerca e il recupero delle informazioni che contano. In questo articolo imparerai come classificare i documenti PDF usando C#.

I seguenti argomenti sono discussi/trattati in questo articolo:

API C# per la classificazione PDF

Userò l’API GroupDocs.Classification for .NET per la classificazione dei file PDF. Offre una classificazione avanzata di documenti e testi in categorie predefinite. L’API supporta diversi tipi di tassonomie come IAB-2, Documents e Sentiment taxonomy. Analizza il testo e mostra le informazioni sulla classificazione inclusa la classe migliore con il suo punteggio di probabilità. Puoi classificare una varietà di formati di documenti standard del settore come PDF, Word, OpenDocument, RTF e TXT. L’API offre anche l’analisi del sentiment con rilevamento automatico della lingua e supporta le lingue inglese, cinese, spagnola e tedesca. Può essere utilizzato per sviluppare applicazioni in qualsiasi ambiente di sviluppo destinato alla piattaforma .NET.

Puoi scaricare la DLL dell’API o installarla utilizzando NuGet.

Install-Package GroupDocs.Classification

Classifica i documenti PDF con la tassonomia IAB-2 utilizzando C#

Puoi classificare facilmente i documenti PDF con la tassonomia IAB-2 in modo programmatico seguendo i semplici passaggi indicati di seguito:

L’esempio di codice seguente mostra come classificare PDF con la tassonomia IAB-2 usando C#.

// creare classificatore
var classifier = new Classifier();

// classificare il documento con IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// mostra le informazioni sulla classificazione
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Classifica i documenti PDF con la tassonomia IAB-2 utilizzando C#

Classifica i documenti PDF con la tassonomia IAB-2 utilizzando C#

La classe Classifier è la classe principale che fornisce vari metodi per classificare i documenti. Il metodo Classify() di questa classe classifica i documenti in base al nome del file e al nome della directory. Il parametro bestClassesCount definisce il conteggio delle migliori classi corrispondenti da restituire. Nell’esempio di codice sopra, ho usato la tassonomia Taxonomy.IAB2 per la classificazione.

La classe ClassificationResponse fornisce proprietà e metodi per mostrare le informazioni di classificazione recuperate.

Classificazione PDF con tassonomia dei documenti utilizzando C#

Puoi classificare i documenti PDF con la tassonomia dei documenti in modo programmatico seguendo i semplici passaggi indicati di seguito:

L’esempio di codice seguente mostra come classificare la tassonomia PDF con documenti usando C#.

// creare classificatore
var classifier = new Classifier();

// classificare il documento con la tassonomia dei documenti
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// mostra le informazioni sulla classificazione
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Classifica PDF con la tassonomia dei documenti utilizzando C#

Classifica PDF con la tassonomia dei documenti utilizzando C#

Classificazione dei documenti PDF da Stream utilizzando C#

Puoi classificare i documenti PDF dal flusso di file in modo programmatico seguendo i pochi passaggi indicati di seguito:

L’esempio di codice seguente mostra come classificare PDF dal flusso di documenti usando C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // creare classificatore
    var classifier = new Classifier();
    
    // classificare documento
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // mostra le informazioni sulla classificazione
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Classifica i file PDF protetti da password utilizzando C#

Puoi classificare facilmente i documenti PDF protetti da password in modo programmatico seguendo i semplici passaggi indicati di seguito:

L’esempio di codice seguente mostra come classificare i file PDF protetti da password usando C#.

// creare classificatore
var classifier = new Classifier();

// classificare il documento protetto da password
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// mostra le informazioni sulla classificazione
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Ottieni una licenza gratuita

Puoi provare l’API senza limitazioni di valutazione richiedendo una licenza temporanea gratuita.

Conclusione

In questo articolo hai imparato a classificare i documenti PDF usando C#. Hai anche imparato a classificare i documenti con la tassonomia IAB-2 e la tassonomia dei documenti. Inoltre, hai imparato a classificare i documenti durante il caricamento utilizzando il flusso di file anziché il percorso del file in C#. Puoi saperne di più su GroupDocs.Classification per .NET API usando la documentazione. In caso di ambiguità, non esitare a contattarci sul forum.

Guarda anche