Klasyfikuj dokumenty PDF za pomocą języka C#

Możesz programowo klasyfikować dokumenty przy użyciu wstępnie zdefiniowanych tagów lub kategorii w ramach taksonomii IAB-2, Dokumenty i Opinia. Klasyfikacja dokumentów ułatwia znalezienie odpowiednich informacji we właściwym czasie. Pomaga także zarządzać dokumentami i je sortować, aby wyszukiwać i odzyskiwać istotne informacje. W tym artykule dowiesz się, jak klasyfikować dokumenty PDF za pomocą języka C#.

W tym artykule omówiono/omówiono następujące tematy:

API języka C# do klasyfikacji plików PDF

Do klasyfikacji plików PDF będę używać API GroupDocs.Classification for .NET. Oferuje zaawansowaną klasyfikację dokumentów i tekstów w predefiniowanych kategoriach. Interfejs API obsługuje różne typy taksonomii, takie jak IAB-2, taksonomia dokumentów i nastrojów. Analizuje tekst i wyświetla informacje klasyfikacyjne, w tym najlepszą klasę wraz z jej wynikiem prawdopodobieństwa. Można klasyfikować różne standardowe formaty dokumentów, takie jak PDF, Word, OpenDocument, RTF i TXT. Interfejs API oferuje również analizę nastrojów z automatycznym wykrywaniem języka i obsługuje języki angielski, chiński, hiszpański i niemiecki. Można go używać do tworzenia aplikacji w dowolnym środowisku programistycznym przeznaczonym dla platformy .NET.

Możesz pobrać bibliotekę DLL interfejsu API lub zainstalować ją za pomocą NuGet.

Install-Package GroupDocs.Classification

Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#

Możesz łatwo programowo klasyfikować dokumenty PDF przy użyciu taksonomii IAB-2, wykonując proste kroki podane poniżej:

Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF przy użyciu taksonomii IAB-2 przy użyciu języka C#.

// utwórz klasyfikator
var classifier = new Classifier();

// klasyfikuj dokument za pomocą IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// pokaż informacje klasyfikacyjne
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#

Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#

Klasa Classifier jest klasą główną, która udostępnia różne metody klasyfikacji dokumentów. Metoda Classify() tej klasy klasyfikuje dokumenty według nazwy pliku i nazwy katalogu. Parametr bestClassesCount definiuje liczbę najlepiej pasujących klas do zwrócenia. W powyższym przykładzie kodu do klasyfikacji użyłem taksonomii Taxonomy.IAB2.

Klasa ClassificationResponse udostępnia właściwości i metody umożliwiające pokazanie uzyskanych informacji klasyfikacyjnych.

Klasyfikacja PDF z taksonomią dokumentów przy użyciu języka C#

Możesz programowo klasyfikować dokumenty PDF za pomocą taksonomii Dokumentów, wykonując proste kroki podane poniżej:

Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF przy użyciu taksonomii dokumentów przy użyciu języka C#.

// utwórz klasyfikator
var classifier = new Classifier();

// klasyfikuj dokument za pomocą taksonomii dokumentów
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// pokaż informacje klasyfikacyjne
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
Klasyfikuj pliki PDF za pomocą taksonomii dokumentów przy użyciu języka C#

Klasyfikuj pliki PDF za pomocą taksonomii dokumentów przy użyciu języka C#

Klasyfikacja dokumentów PDF ze strumienia przy użyciu języka C#

Możesz programowo klasyfikować dokumenty PDF ze strumienia plików, wykonując kilka kroków podanych poniżej:

Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF ze strumienia dokumentów przy użyciu języka C#.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // utwórz klasyfikator
    var classifier = new Classifier();
    
    // klasyfikować dokument
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // pokaż informacje klasyfikacyjne
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

Klasyfikuj pliki PDF chronione hasłem przy użyciu języka C#

Możesz łatwo programowo klasyfikować dokumenty PDF chronione hasłem, wykonując proste kroki podane poniżej:

Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF chroniony hasłem przy użyciu języka C#.

// utwórz klasyfikator
var classifier = new Classifier();

// klasyfikuj dokument chroniony hasłem
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// pokaż informacje klasyfikacyjne
Console.WriteLine(response.BestClassName, response.BestClassProbability);

Zdobądź bezpłatną licencję

Możesz wypróbować interfejs API bez ograniczeń ewaluacyjnych, prosząc o bezpłatną licencję tymczasową.

Wniosek

W tym artykule nauczyłeś się klasyfikować dokumenty PDF za pomocą języka C#. Nauczyłeś się także, jak klasyfikować dokumenty za pomocą taksonomii IAB-2 i taksonomii dokumentów. Co więcej, nauczyłeś się klasyfikować dokumenty podczas ich ładowania przy użyciu strumienia plików zamiast ścieżki pliku w C#. Więcej informacji na temat GroupDocs.Classification for .NET API można znaleźć w dokumentacji. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Zobacz też