Klassifizieren Sie PDF-Dokumente mit C#

Sie können Dokumente mit vordefinierten Tags oder Kategorien innerhalb von IAB-2-, Dokumenten- und Sentiment-Taxonomien programmgesteuert klassifizieren. Die Klassifizierung von Dokumenten erleichtert das Auffinden der relevanten Informationen zum richtigen Zeitpunkt. Es hilft auch, die Dokumente zu verwalten und zu sortieren, um die wichtigen Informationen zu suchen und abzurufen. In diesem Artikel erfahren Sie, wie Sie PDF-Dokumente mit C# klassifizieren.

Die folgenden Themen werden in diesem Artikel behandelt/behandelt:

C#-API für die PDF-Klassifizierung

Ich werde die API GroupDocs.Classification for .NET für die Klassifizierung der PDF-Dateien verwenden. Es bietet eine erweiterte Dokumenten- und Textklassifizierung in vordefinierten Kategorien. Die API unterstützt verschiedene Arten von Taxonomien wie IAB-2, Dokumente und Sentiment-Taxonomie. Es analysiert den Text und zeigt Klassifizierungsinformationen einschließlich der besten Klasse mit ihrer Wahrscheinlichkeitsbewertung an. Sie können eine Vielzahl branchenüblicher Dokumentformate wie PDF, Word, OpenDocument, RTF und TXT klassifizieren. Die API bietet auch Stimmungsanalyse mit automatischer Spracherkennung und unterstützt die Sprachen Englisch, Chinesisch, Spanisch und Deutsch. Es kann verwendet werden, um Anwendungen in jeder Entwicklungsumgebung zu entwickeln, die auf die .NET-Plattform abzielt.

Sie können die DLL der API entweder herunterladen oder mithilfe von NuGet installieren.

Install-Package GroupDocs.Classification

Klassifizieren Sie PDF-Dokumente mit IAB-2-Taxonomie mit C#

Sie können PDF-Dokumente ganz einfach mit der IAB-2-Taxonomie programmgesteuert klassifizieren, indem Sie die folgenden einfachen Schritte ausführen:

Das folgende Codebeispiel zeigt, wie PDF mit IAB-2-Taxonomie mithilfe von C# klassifiziert wird.

// Klassifikator erstellen
var classifier = new Classifier();

// Dokument mit IAB-2 klassifizieren
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// Klassifizierungsinformationen anzeigen
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Klassifizieren Sie PDF-Dokumente mit IAB-2-Taxonomie mit C#

Klassifizieren Sie PDF-Dokumente mit IAB-2-Taxonomie mit C#

Die Klasse Classifier ist die Hauptklasse, die verschiedene Methoden zum Klassifizieren der Dokumente bereitstellt. Die Methode Classify() dieser Klasse klassifiziert Dokumente nach Dateinamen und Verzeichnisnamen. Der Parameter bestClassesCount definiert die Anzahl der am besten übereinstimmenden Klassen, die zurückgegeben werden sollen. Im obigen Codebeispiel habe ich die Taxonomie Taxonomy.IAB2 für die Klassifizierung verwendet.

Die Klasse ClassificationResponse stellt Eigenschaften und Methoden bereit, um die abgerufenen Klassifizierungsinformationen anzuzeigen.

PDF-Klassifizierung mit Dokumententaxonomie mit C#

Sie können PDF-Dokumente mit der Dokumententaxonomie programmgesteuert klassifizieren, indem Sie die folgenden einfachen Schritte ausführen:

Das folgende Codebeispiel zeigt, wie PDF mit Dokumententaxonomie mithilfe von C# klassifiziert wird.

// Klassifikator erstellen
var classifier = new Classifier();

// Dokument mit Dokumententaxonomie klassifizieren
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// Klassifizierungsinformationen anzeigen
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
PDF mit Dokumententaxonomie mit C# klassifizieren

PDF mit Dokumententaxonomie mit C# klassifizieren

PDF-Dokumentklassifizierung aus Stream mit C#

Sie können PDF-Dokumente aus dem Dateistream programmgesteuert klassifizieren, indem Sie die folgenden Schritte ausführen:

  • Liest eine Datei in der FileStream-Instanz
  • Erstellen Sie eine Instanz der Klasse Classifier.
  • Rufen Sie die Methode Classifier.Classify() mit der FileStream-Instanz auf
  • Legen Sie bestClassesCount und Taxonomy als Eingabe fest
  • Rufen Sie Ergebnisse im Klassenobjekt ClassificationResponse ab

Das folgende Codebeispiel zeigt, wie Sie PDFs aus dem Dokumentenstream mit C# klassifizieren.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // Klassifikator erstellen
    var classifier = new Classifier();
    
    // Dokument klassifizieren
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // Klassifizierungsinformationen anzeigen
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Klassifizieren Sie passwortgeschützte PDF-Dateien mit C#

Sie können passwortgeschützte PDF-Dokumente ganz einfach programmgesteuert klassifizieren, indem Sie die folgenden einfachen Schritte ausführen:

Das folgende Codebeispiel zeigt, wie Sie eine passwortgeschützte PDF-Datei mit C# klassifizieren.

// Klassifikator erstellen
var classifier = new Classifier();

// Passwortgeschütztes Dokument klassifizieren
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// Klassifizierungsinformationen anzeigen
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Holen Sie sich eine kostenlose Lizenz

Sie können die API ohne Evaluierungseinschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie PDF-Dokumente mit C# klassifizieren. Außerdem haben Sie gelernt, wie Sie Dokumente mit der IAB-2-Taxonomie und der Dokumententaxonomie klassifizieren. Darüber hinaus haben Sie gelernt, wie Sie Dokumente klassifizieren, während Sie sie mithilfe des Dateistreams anstelle des Dateipfads in C# laden. Weitere Informationen zu GroupDocs.Classification for .NET API finden Sie in der Dokumentation. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.

Siehe auch