
Możesz programowo klasyfikować dokumenty przy użyciu wstępnie zdefiniowanych tagów lub kategorii w ramach taksonomii IAB-2, Dokumenty i Opinia. Klasyfikacja dokumentów ułatwia znalezienie odpowiednich informacji we właściwym czasie. Pomaga także zarządzać dokumentami i je sortować, aby wyszukiwać i odzyskiwać istotne informacje. W tym artykule dowiesz się, jak klasyfikować dokumenty PDF za pomocą języka C#.
W tym artykule omówiono/omówiono następujące tematy:
- API języka C# do klasyfikacji plików PDF
- Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#
- Klasyfikacja PDF z taksonomią dokumentów przy użyciu języka C#
- Klasyfikacja dokumentów PDF ze strumienia przy użyciu języka C#
- Klasyfikuj pliki PDF chronione hasłem przy użyciu języka C#
API języka C# do klasyfikacji plików PDF
Do klasyfikacji plików PDF będę używać API GroupDocs.Classification for .NET. Oferuje zaawansowaną klasyfikację dokumentów i tekstów w predefiniowanych kategoriach. Interfejs API obsługuje różne typy taksonomii, takie jak IAB-2, taksonomia dokumentów i nastrojów. Analizuje tekst i wyświetla informacje klasyfikacyjne, w tym najlepszą klasę wraz z jej wynikiem prawdopodobieństwa. Można klasyfikować różne standardowe formaty dokumentów, takie jak PDF, Word, OpenDocument, RTF i TXT. Interfejs API oferuje również analizę nastrojów z automatycznym wykrywaniem języka i obsługuje języki angielski, chiński, hiszpański i niemiecki. Można go używać do tworzenia aplikacji w dowolnym środowisku programistycznym przeznaczonym dla platformy .NET.
Możesz pobrać bibliotekę DLL interfejsu API lub zainstalować ją za pomocą NuGet.
Install-Package GroupDocs.Classification
Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#
Możesz łatwo programowo klasyfikować dokumenty PDF przy użyciu taksonomii IAB-2, wykonując proste kroki podane poniżej:
- Utwórz instancję klasy Classifier.
- Wywołaj metodę Classifier.Classify() podając ścieżkę pliku
- Ustaw bestClassesCount i Taxonomy jako dane wejściowe
- Uzyskaj wyniki w obiekcie klasy ClassificationResponse.
Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF przy użyciu taksonomii IAB-2 przy użyciu języka C#.
// utwórz klasyfikator
var classifier = new Classifier();
// klasyfikuj dokument za pomocą IAB-2
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);
// pokaż informacje klasyfikacyjne
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

Klasyfikuj dokumenty PDF za pomocą taksonomii IAB-2 przy użyciu języka C#
Klasa Classifier jest klasą główną, która udostępnia różne metody klasyfikacji dokumentów. Metoda Classify() tej klasy klasyfikuje dokumenty według nazwy pliku i nazwy katalogu. Parametr bestClassesCount definiuje liczbę najlepiej pasujących klas do zwrócenia. W powyższym przykładzie kodu do klasyfikacji użyłem taksonomii Taxonomy.IAB2.
Klasa ClassificationResponse udostępnia właściwości i metody umożliwiające pokazanie uzyskanych informacji klasyfikacyjnych.
Klasyfikacja PDF z taksonomią dokumentów przy użyciu języka C#
Możesz programowo klasyfikować dokumenty PDF za pomocą taksonomii Dokumentów, wykonując proste kroki podane poniżej:
- Utwórz instancję klasy Classifier.
- Wywołaj metodę Classifier.Classify() podając ścieżkę pliku
- Jako dane wejściowe ustaw wartości bestClassesCount, Taxonomy i PrecisionRecallBalance
- Uzyskaj wyniki w obiekcie klasy ClassificationResponse.
Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF przy użyciu taksonomii dokumentów przy użyciu języka C#.
// utwórz klasyfikator
var classifier = new Classifier();
// klasyfikuj dokument za pomocą taksonomii dokumentów
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
// pokaż informacje klasyfikacyjne
foreach (var r in response.BestResults)
{
Console.WriteLine("ClassName: " + r.Name);
Console.WriteLine("ClassProbability: " + r.Probability);
Console.WriteLine("--------------------------------");
}

Klasyfikuj pliki PDF za pomocą taksonomii dokumentów przy użyciu języka C#
Klasyfikacja dokumentów PDF ze strumienia przy użyciu języka C#
Możesz programowo klasyfikować dokumenty PDF ze strumienia plików, wykonując kilka kroków podanych poniżej:
- Przeczytaj plik w instancji FileStream
- Utwórz instancję klasy Classifier.
- Wywołaj metodę Classifier.Classify() z instancją FileStream
- Jako dane wejściowe ustaw bestClassesCount i Taksonomię
- Uzyskaj wyniki w obiekcie klasy ClassificationResponse.
Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF ze strumienia dokumentów przy użyciu języka C#.
using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
// utwórz klasyfikator
var classifier = new Classifier();
// klasyfikować dokument
var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
// pokaż informacje klasyfikacyjne
Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}
Klasyfikuj pliki PDF chronione hasłem przy użyciu języka C#
Możesz łatwo programowo klasyfikować dokumenty PDF chronione hasłem, wykonując proste kroki podane poniżej:
- Utwórz instancję klasy Classifier.
- Wywołaj metodę Classifier.Classify() podając ścieżkę pliku
- Ustaw bestClassesCount i hasło pliku jako dane wejściowe
- Uzyskaj wyniki w obiekcie klasy ClassificationResponse.
Poniższy przykładowy kod pokazuje, jak klasyfikować plik PDF chroniony hasłem przy użyciu języka C#.
// utwórz klasyfikator
var classifier = new Classifier();
// klasyfikuj dokument chroniony hasłem
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");
// pokaż informacje klasyfikacyjne
Console.WriteLine(response.BestClassName, response.BestClassProbability);
Zdobądź bezpłatną licencję
Możesz wypróbować interfejs API bez ograniczeń ewaluacyjnych, prosząc o bezpłatną licencję tymczasową.
Wniosek
W tym artykule nauczyłeś się klasyfikować dokumenty PDF za pomocą języka C#. Nauczyłeś się także, jak klasyfikować dokumenty za pomocą taksonomii IAB-2 i taksonomii dokumentów. Co więcej, nauczyłeś się klasyfikować dokumenty podczas ich ładowania przy użyciu strumienia plików zamiast ścieżki pliku w C#. Więcej informacji na temat GroupDocs.Classification for .NET API można znaleźć w dokumentacji. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.