Classificeer PDF-documenten met C#

U kunt documenten programmatisch classificeren met behulp van vooraf gedefinieerde tags of categorieën binnen de taxonomieën IAB-2, Documenten en Sentiment. De classificatie van documenten maakt het gemakkelijker om de relevante informatie op het juiste moment te vinden. Het helpt ook bij het beheren en sorteren van de documenten voor het zoeken en ophalen van de informatie die er toe doet. In dit artikel leert u hoe u PDF-documenten classificeert met C#. In dit artikel worden de volgende onderwerpen besproken/behandeld:

  • [C# API voor PDF-classificatie][2]
  • [PDF-documenten classificeren met IAB-2-taxonomie met behulp van C#][3]
  • [PDF-classificatie met documententaxonomie met behulp van C#][4]
  • [PDF-documentclassificatie van Stream met behulp van C#][5]
  • [Classificeer met een wachtwoord beveiligde PDF-bestanden met behulp van C#][6]

C# API voor PDF-classificatie

Ik zal [GroupDocs.Classification for .NET][7] API gebruiken voor de classificatie van de [PDF][8]-bestanden. Het biedt een geavanceerde document- en tekstclassificatie in vooraf gedefinieerde categorieën. De API ondersteunt verschillende soorten taxonomieën zoals IAB-2, Documenten en Sentiment-taxonomie. Het analyseert de tekst en toont classificatie-informatie, inclusief de beste klasse met zijn waarschijnlijkheidsscore. U kunt verschillende industriestandaard documentindelingen classificeren, zoals PDF, Word, OpenDocument, RTF en TXT. De API biedt ook sentimentanalyse met automatische detectie van taal en ondersteunt Engelse, Chinese, Spaanse en Duitse talen. Het kan worden gebruikt om applicaties te ontwikkelen in elke ontwikkelomgeving die gericht is op het .NET-platform. U kunt de DLL van de API [downloaden][9] of installeren met behulp van de [NuGet][10].

Install-Package GroupDocs.Classification

Classificeer PDF-documenten met IAB-2-taxonomie met behulp van C#

U kunt PDF-documenten eenvoudig programmatisch classificeren met IAB-2-taxonomie door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Classifier][11]
  • Roep de methode [Classifier.Classify()][12] aan met het bestandspad
  • Stel de bestClassesCount en Taxonomy in als invoer
  • Krijg resultaten in het klasseobject [ClassificationResponse][13] Het volgende codevoorbeeld laat zien hoe u PDF kunt classificeren met IAB-2-taxonomie met behulp van C#.
    Classificeer PDF-documenten met IAB-2-taxonomie met behulp van C#

    Classificeer PDF-documenten met IAB-2-taxonomie met behulp van C#

De klasse [Classifier][11] is de hoofdklasse die verschillende [methoden][15] biedt om de documenten te classificeren. De methode Classify() van deze klasse classificeert documenten op bestandsnaam en mapnaam. De parameter bestClassesCount definieert het aantal best overeenkomende klassen dat moet worden geretourneerd. In het bovenstaande codevoorbeeld heb ik [Taxonomy.IAB2][16] taxonomie gebruikt voor classificatie. De klasse [ClassificationResponse][13] biedt eigenschappen en methoden om de opgehaalde classificatie-informatie weer te geven.

PDF-classificatie met documententaxonomie met behulp van C#

U kunt PDF-documenten programmatisch classificeren met Documenten-taxonomie door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Classifier][11]
  • Roep de methode [Classifier.Classify()][12] aan met het bestandspad
  • Stel bestClassesCount, Taxonomy en PrecisionRecallBalance in als invoer
  • Krijg resultaten in het klasseobject [ClassificationResponse][13] Het volgende codevoorbeeld laat zien hoe je PDF classificeert met Documents-taxonomie met behulp van C#.
    Classificeer PDF met documententaxonomie met behulp van C#

    Classificeer PDF met documententaxonomie met behulp van C#

PDF-documentclassificatie van Stream met behulp van C#

U kunt PDF-documenten programmatisch classificeren vanuit de bestandsstroom door de onderstaande stappen te volgen:

  • Lees een bestand in de FileStream-instantie
  • Maak een instantie van de klasse [Classifier][11]
  • Roep de methode [Classifier.Classify()][18] aan met FileStream-instantie
  • Stel bestClassesCount en Taxonomy in als invoer
  • Krijg resultaten in het klasseobject [ClassificationResponse][13] Het volgende codevoorbeeld laat zien hoe u PDF kunt classificeren vanuit de documentstroom met C#.

Classificeer wachtwoordbeveiligde PDF-bestanden met behulp van C#

U kunt met een wachtwoord beveiligde PDF-documenten eenvoudig programmatisch classificeren door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Classifier][11]
  • Roep de methode [Classifier.Classify()][12] aan met het bestandspad
  • Stel de bestClassesCount en Password van het bestand in als invoer
  • Krijg resultaten in het klasseobject [ClassificationResponse][13] Het volgende codevoorbeeld laat zien hoe u een met een wachtwoord beveiligd PDF-bestand kunt classificeren met C#.

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][19] aan te vragen.

Conclusie

In dit artikel heb je geleerd hoe je PDF-documenten kunt classificeren met C#. Ook heb je geleerd hoe je documenten classificeert met IAB-2 taxonomie en Documenten taxonomie. Bovendien heb je geleerd hoe je documenten kunt classificeren terwijl je ze laadt met behulp van de bestandsstroom in plaats van het bestandspad in C#. U kunt meer leren over GroupDocs.Classification voor .NET API met behulp van de [documentatie][20]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][21].

Zie ook