C#을 사용하여 PDF 문서 분류

프로그래밍 방식으로 IAB-2, 문서 및 감정 분류법 내에서 미리 정의된 태그 또는 범주를 사용하여 문서를 분류할 수 있습니다. 문서 분류를 통해 관련 정보를 적시에 쉽게 찾을 수 있습니다. 또한 중요한 정보를 검색하고 검색하기 위해 문서를 관리하고 정렬하는 데 도움이 됩니다. 이 기사에서는 C#을 사용하여 PDF 문서를 분류하는 방법을 배웁니다.

이 문서에서는 다음 주제를 논의/다룹니다.

PDF 분류를 위한 C# API

PDF 파일의 분류를 위해 GroupDocs.Classification for .NET API를 사용할 것입니다. 사전 정의된 범주에서 고급 문서 및 텍스트 분류를 제공합니다. API는 IAB-2, 문서 및 감정 분류와 같은 다양한 유형의 분류를 지원합니다. 텍스트를 분석하여 최고의 클래스를 포함한 분류 정보를 확률 점수와 함께 보여줍니다. PDF, Word, OpenDocument, RTF 및 TXT와 같은 다양한 산업 표준 문서 형식을 분류할 수 있습니다. API는 또한 언어 자동 감지를 통해 감정 분석을 제공하고 영어, 중국어, 스페인어 및 독일어를 지원합니다. .NET 플랫폼을 대상으로 하는 모든 개발 환경에서 응용 프로그램을 개발하는 데 사용할 수 있습니다.

API의 DLL을 다운로드하거나 NuGet을 사용하여 설치할 수 있습니다.

Install-Package GroupDocs.Classification

C#을 사용하여 IAB-2 분류로 PDF 문서 분류

아래에 제공된 간단한 단계에 따라 프로그래밍 방식으로 IAB-2 분류를 사용하여 PDF 문서를 쉽게 분류할 수 있습니다.

다음 코드 샘플은 C#을 사용하여 IAB-2 분류로 PDF를 분류하는 방법을 보여줍니다.

// 분류기 생성
var classifier = new Classifier();

// IAB-2로 문서 분류
var response = classifier.Classify("sample.pdf", @"C:\Files\", 3, Taxonomy.Iab2);

// 분류 정보 표시
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
C#을 사용하여 IAB-2 분류로 PDF 문서 분류

C#을 사용하여 IAB-2 분류로 PDF 문서 분류

Classifier 클래스는 문서 분류를 위한 다양한 메소드를 제공하는 메인 클래스입니다. 이 클래스의 Classify() 메서드는 문서를 파일 이름과 디렉터리 이름으로 분류합니다. bestClassesCount 매개변수는 반환할 가장 잘 일치하는 클래스의 수를 정의합니다. 위의 코드 예제에서는 분류를 위해 Taxonomy.IAB2 taxonomy를 사용했습니다.

ClassificationResponse 클래스는 검색된 분류 정보를 표시하기 위한 속성과 메서드를 제공합니다.

C#을 사용한 문서 분류로 PDF 분류

아래의 간단한 단계에 따라 프로그래밍 방식으로 문서 분류를 사용하여 PDF 문서를 분류할 수 있습니다.

  • Classifier 클래스의 인스턴스 생성
  • 파일 경로를 사용하여 Classifier.Classify() 메서드를 호출합니다.
  • bestClassesCount, Taxonomy 및 PrecisionRecallBalance를 입력으로 설정합니다.
  • ClassificationResponse 클래스 개체에서 결과 가져오기

다음 코드 샘플은 C#을 사용하여 문서 분류로 PDF를 분류하는 방법을 보여줍니다.

// 분류기 생성
var classifier = new Classifier();

// 문서 분류로 문서 분류
var response = classifier.Classify("sample.pdf", @"C:\Files\", 4, Taxonomy.Documents, PrecisionRecallBalance.Precision);
                
// 분류 정보 표시
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.Name);
    Console.WriteLine("ClassProbability: " + r.Probability);
    Console.WriteLine("--------------------------------");
}
C#을 사용하여 문서 분류로 PDF 분류

C#을 사용하여 문서 분류로 PDF 분류

C#을 사용하여 스트림에서 PDF 문서 분류

아래에 제공된 몇 가지 단계에 따라 프로그래밍 방식으로 파일 스트림에서 PDF 문서를 분류할 수 있습니다.

  • FileStream 인스턴스에서 파일 읽기
  • Classifier 클래스의 인스턴스 생성
  • FileStream 인스턴스를 사용하여 Classifier.Classify() 메서드를 호출합니다.
  • bestClassesCount 및 Taxonomy를 입력으로 설정
  • ClassificationResponse 클래스 개체에서 결과 가져오기

다음 코드 샘플은 C#을 사용하여 문서 스트림에서 PDF를 분류하는 방법을 보여줍니다.

using (var fs = File.OpenRead(Path.Combine(@"C:\Files\", "sample.pdf")))
{
    // 분류기 생성
    var classifier = new Classifier();
    
    // 문서를 분류하다
    var response = classifier.Classify(fs, "sample.pdf", 2, Taxonomy.Documents);
    
    // 분류 정보 표시
    Console.WriteLine($"{"sample.pdf"}: {response.BestClassName}, {response.BestClassProbability}");
}

C#을 사용하여 암호로 보호된 PDF 파일 분류

아래에 제공된 간단한 단계에 따라 프로그래밍 방식으로 암호로 보호된 PDF 문서를 쉽게 분류할 수 있습니다.

다음 코드 샘플은 C#을 사용하여 암호로 보호된 PDF 파일을 분류하는 방법을 보여줍니다.

// 분류기 생성
var classifier = new Classifier();

// 암호로 보호된 문서 분류
var response = classifier.Classify("password-protected.pdf", @"C:\Files\", password: "password");

// 분류 정보 표시
Console.WriteLine(response.BestClassName, response.BestClassProbability);

무료 라이선스 받기

무료 임시 라이선스를 요청하면 평가 제한 없이 API를 사용해 볼 수 있습니다.

결론

이 기사에서는 C#을 사용하여 PDF 문서를 분류하는 방법을 배웠습니다. IAB-2 분류 및 문서 분류를 사용하여 문서를 분류하는 방법도 배웠습니다. 또한 C#에서 파일 경로 대신 파일 스트림을 사용하여 문서를 로드하는 동안 문서를 분류하는 방법을 배웠습니다. 문서를 사용하여 .NET API용 GroupDocs.Classification에 대해 자세히 알아볼 수 있습니다. 모호한 부분이 있는 경우 포럼을 통해 언제든지 문의해 주십시오.

또한보십시오