
U kunt documenten programmatisch classificeren met behulp van vooraf gedefinieerde tags of categorieën binnen de taxonomieën IAB-2, Documenten en Sentiment. De classificatie van documenten maakt het gemakkelijker om de relevante informatie op het juiste moment te vinden. Het helpt ook bij het beheren en sorteren van de documenten voor het zoeken en ophalen van de informatie die er toe doet. In dit artikel leert u hoe u PDF-documenten classificeert met C#. In dit artikel worden de volgende onderwerpen besproken/behandeld:
- [C# API voor PDF-classificatie][2]
- [PDF-documenten classificeren met IAB-2-taxonomie met behulp van C#][3]
- [PDF-classificatie met documententaxonomie met behulp van C#][4]
- [PDF-documentclassificatie van Stream met behulp van C#][5]
- [Classificeer met een wachtwoord beveiligde PDF-bestanden met behulp van C#][6]
C# API voor PDF-classificatie
Ik zal [GroupDocs.Classification for .NET][7] API gebruiken voor de classificatie van de [PDF][8]-bestanden. Het biedt een geavanceerde document- en tekstclassificatie in vooraf gedefinieerde categorieën. De API ondersteunt verschillende soorten taxonomieën zoals IAB-2, Documenten en Sentiment-taxonomie. Het analyseert de tekst en toont classificatie-informatie, inclusief de beste klasse met zijn waarschijnlijkheidsscore. U kunt verschillende industriestandaard documentindelingen classificeren, zoals PDF, Word, OpenDocument, RTF en TXT. De API biedt ook sentimentanalyse met automatische detectie van taal en ondersteunt Engelse, Chinese, Spaanse en Duitse talen. Het kan worden gebruikt om applicaties te ontwikkelen in elke ontwikkelomgeving die gericht is op het .NET-platform. U kunt de DLL van de API [downloaden][9] of installeren met behulp van de [NuGet][10].
Install-Package GroupDocs.Classification
Classificeer PDF-documenten met IAB-2-taxonomie met behulp van C#
U kunt PDF-documenten eenvoudig programmatisch classificeren met IAB-2-taxonomie door de onderstaande eenvoudige stappen te volgen:
- Maak een instantie van de klasse [Classifier][11]
- Roep de methode [Classifier.Classify()][12] aan met het bestandspad
- Stel de bestClassesCount en Taxonomy in als invoer
- Krijg resultaten in het klasseobject [ClassificationResponse][13]
Het volgende codevoorbeeld laat zien hoe u PDF kunt classificeren met IAB-2-taxonomie met behulp van C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// create classifier var classifier = new Classifier(); // classify document with IAB-2 var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2); // show classification information foreach (var r in response.BestResults) { Console.WriteLine("ClassName: " + r.Name); Console.WriteLine("ClassProbability: " + r.Probability); Console.WriteLine("--------------------------------"); } Classificeer PDF-documenten met IAB-2-taxonomie met behulp van C#
De klasse [Classifier][11] is de hoofdklasse die verschillende [methoden][15] biedt om de documenten te classificeren. De methode Classify() van deze klasse classificeert documenten op bestandsnaam en mapnaam. De parameter bestClassesCount definieert het aantal best overeenkomende klassen dat moet worden geretourneerd. In het bovenstaande codevoorbeeld heb ik [Taxonomy.IAB2][16] taxonomie gebruikt voor classificatie. De klasse [ClassificationResponse][13] biedt eigenschappen en methoden om de opgehaalde classificatie-informatie weer te geven.
PDF-classificatie met documententaxonomie met behulp van C#
U kunt PDF-documenten programmatisch classificeren met Documenten-taxonomie door de onderstaande eenvoudige stappen te volgen:
- Maak een instantie van de klasse [Classifier][11]
- Roep de methode [Classifier.Classify()][12] aan met het bestandspad
- Stel bestClassesCount, Taxonomy en PrecisionRecallBalance in als invoer
- Krijg resultaten in het klasseobject [ClassificationResponse][13]
Het volgende codevoorbeeld laat zien hoe je PDF classificeert met Documents-taxonomie met behulp van C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// create classifier var classifier = new Classifier(); // classify document with Document taxonomy var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision); // show classification information foreach (var r in response.BestResults) { Console.WriteLine("ClassName: " + r.Name); Console.WriteLine("ClassProbability: " + r.Probability); Console.WriteLine("--------------------------------"); } Classificeer PDF met documententaxonomie met behulp van C#
PDF-documentclassificatie van Stream met behulp van C#
U kunt PDF-documenten programmatisch classificeren vanuit de bestandsstroom door de onderstaande stappen te volgen:
- Lees een bestand in de FileStream-instantie
- Maak een instantie van de klasse [Classifier][11]
- Roep de methode [Classifier.Classify()][18] aan met FileStream-instantie
- Stel bestClassesCount en Taxonomy in als invoer
- Krijg resultaten in het klasseobject [ClassificationResponse][13]
Het volgende codevoorbeeld laat zien hoe u PDF kunt classificeren vanuit de documentstroom met C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf"))) { // create classifier var classifier = new Classifier(); // classify document var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents); // show classification information Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}"); }
Classificeer wachtwoordbeveiligde PDF-bestanden met behulp van C#
U kunt met een wachtwoord beveiligde PDF-documenten eenvoudig programmatisch classificeren door de onderstaande eenvoudige stappen te volgen:
- Maak een instantie van de klasse [Classifier][11]
- Roep de methode [Classifier.Classify()][12] aan met het bestandspad
- Stel de bestClassesCount en Password van het bestand in als invoer
- Krijg resultaten in het klasseobject [ClassificationResponse][13]
Het volgende codevoorbeeld laat zien hoe u een met een wachtwoord beveiligd PDF-bestand kunt classificeren met C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// create classifier var classifier = new Classifier(); // classify password-protected document var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password"); // show classification information Console.WriteLine(response.BestClassName, response.BestClassProbability);
Ontvang een gratis licentie
U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][19] aan te vragen.
Conclusie
In dit artikel heb je geleerd hoe je PDF-documenten kunt classificeren met C#. Ook heb je geleerd hoe je documenten classificeert met IAB-2 taxonomie en Documenten taxonomie. Bovendien heb je geleerd hoe je documenten kunt classificeren terwijl je ze laadt met behulp van de bestandsstroom in plaats van het bestandspad in C#. U kunt meer leren over GroupDocs.Classification voor .NET API met behulp van de [documentatie][20]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][21].
Zie ook
- [Sentimentanalyse van klantfeedback in C#][22] [1]: https://blog.conholdate.com/wp-content/uploads/sites/27/2021/06/classify-pdf-documents-using-csharp.jpg [2]: #api-for-pdf-classification [3]: #Classify-PDF-Documents-with-IAB-2-Taxonomy [4]: #PDF-Classification-with-Documents-Taxonomy [5]: #PDF-Document-Classification-from-Stream [6]: #Classify-Password-Protected-PDF-using-CSharp [7]: https://products.groupdocs.com/classification/net [8]: https://docs.fileformat.com/pdf [9]: https://releases.groupdocs.com/classification/net/ [10]: https://www.nuget.org/packages/GroupDocs.Classification [11]: https://apireference.groupdocs.com/classification/net/groupdocs.classification/classifier [12]: https://apireference.groupdocs.com/classification/net/groupdocs.classification.classifier/classify/methods/2 [13]: https://apireference.groupdocs.com/classification/net/groupdocs.classification.dto/classificationresponse [14]: https://blog.conholdate.com/wp-content/uploads/sites/27/2021/06/Classify-PDF-Documents-with-IAB-2-Taxonomy.jpg [15]: https://apireference.groupdocs.com/classification/net/groupdocs.classification/classifier/methods/index [16]: https://docs.groupdocs.com/classification/net/taxonomies/#iab-2-taxonomy [17]: https://blog.conholdate.com/wp-content/uploads/sites/27/2021/06/Classify-PDF-Documents-with-Document-Taxonomy.jpg [18]: https://apireference.groupdocs.com/classification/net/groupdocs.classification/classifier/methods/classify [19]: https://purchase.groupdocs.com/temporary-license [20]: https://docs.groupdocs.com/classification/net/ [21]: https://forum.groupdocs.com/c/classification/34 [22]: https://blog.groupdocs.com/2020/06/17/classify-customers-feedback-using-sentiment-analysis-in-csharp/