C#에서 PDF를 텍스트로 변환

C#에서 PDF를 텍스트로 변환

최근에 PDF를 HTML로 변환PDF를 이미지로와 같은 일부 블로그 게시물을 프로그래밍 방식으로 게시했습니다. 이 기사에서는 .NET OCR 라이브러리를 사용하여 C#에서 PDF를 텍스트로 변환하는 방법을 설명합니다. .NET 개발자는 이 라이브러리를 사용하여 파일을 널리 사용되는 다른 파일 형식으로 쉽게 변환할 수 있습니다. 또한 PDF 문서에서 텍스트 추출 프로세스를 자동화하는 다양한 기능이 있습니다. 그러나 스캔한 PDF 파일에서 텍스트 추출을 보여주기 위해 단계와 코드 스니펫을 작성합니다.

이 기사에서는 다음 사항을 다룹니다.

.NET OCR 라이브러리 설치

이 라이브러리는 강력하며 개발 및 사용에 관한 포괄적인 문서를 제공합니다. 다양한 파일 형식을 빠르고 효율적으로 변환하고 처리할 수 있습니다.

.NET 프로젝트에 이 API를 설치하려면 DLL 파일을 다운로드하거나 NuGet 패키지 관리자에서 다음 명령을 실행할 수 있습니다.

Install-Package Aspose.OCR

C#에서 PDF를 텍스트로 변환하는 방법

스캔한 PDF 파일에서 텍스트 추출은 매우 쉽고 C#의 소스 코드 몇 줄이면 됩니다.

아래에 언급된 단계를 따르십시오.

  1. AsposeOcr 클래스의 객체를 생성합니다.
  2. DocumentRecognitionSettings 클래스의 인스턴스를 초기화하여 PDF에서 이미지를 인식합니다.
  3. 자동 텍스트 영역 감지를 활성화하려면 DetectAreas 속성 값을 설정하십시오.
  4. RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드를 호출하여 스캔한 PDF 문서에서 텍스트를 추출하고 결과를 목록에 할당합니다.

다음 코드를 복사하여 붙여넣어 C#에서 PDF를 TEXT로 변환합니다.


string fullPath =   "sample.pdf";
// AsposeOcr 클래스의 객체 생성 
AsposeOcr api = new AsposeOcr();
// PDF에서 이미지를 인식하도록 DocumentRecognitionSettings 클래스의 인스턴스를 초기화합니다.  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// 자동 텍스트 영역 감지를 활성화하려면 DetectAreas 속성 값을 설정하십시오. 
set.DetectAreas = false;
// RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드를 호출하여 스캔한 PDF 문서에서 텍스트를 추출하고 그 결과를 목록에 할당  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// 결과 인쇄
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

PDF를 텍스트로 변환 - 고급 옵션

이 섹션에서는 이 라이브러리를 더 자세히 살펴보겠습니다. 또한 스트림에서 스캔한 PDF를 인식할 수 있습니다.

다음 단계는 다음과 같습니다.

  1. AsposeOcr 클래스의 인스턴스를 인스턴스화합니다.
  2. 스트림에서 PDF를 인식하도록 MemoryStream 클래스의 인스턴스를 만듭니다.
  3. FileStream의 생성자를 초기화하고 소스 파일을 로드합니다.
  4. CopyTo 메서드를 호출하여 메모리 스트림에 바이트를 씁니다.
  5. PDF에서 이미지를 인식하는 DocumentRecognitionSettings 클래스의 개체를 만듭니다.
  6. RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드의 결과로 초기화합니다.

string fullPath =   "final.pdf";
// AsposeOcr 클래스의 인스턴스를 인스턴스화 
AsposeOcr api = new AsposeOcr();
// 스트림에서 pdf를 인식하는 MemoryStream 클래스의 인스턴스 만들기     
using (MemoryStream ms = new MemoryStream())
{
    // FileStream의 생성자를 초기화하고 소스 파일을 로드합니다.  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // CopyTo 메서드를 호출하여 메모리 스트림에 바이트를 씁니다.  
        file.CopyTo(ms);
        // PDF에서 이미지를 인식하는 DocumentRecognitionSettings 클래스의 개체 만들기 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드의 결과로 초기화합니다.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // 결과 인쇄
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

무료 라이선스 받기

평가 제한 없이 API를 사용해 볼 수 있는 무료 임시 라이선스를 얻을 수 있습니다.

합산

이것으로 이 블로그 포스트를 마칩니다. 프로그래밍 방식으로 C#에서 PDF를 텍스트로 변환하는 방법을 배웠습니다. 또한 이 .NET OCR 라이브러리에서 제공하는 몇 가지 고급 방법도 살펴보았습니다. 또한 문서를 방문하여 다른 기능을 알 수 있습니다. 이 가이드는 응용 프로그램에 PDF를 텍스트로 변환하는 변환기를 제공하려는 경우 확실히 도움이 될 것입니다. 또한 conholdate.com은 새로운 주제에 대한 새로운 블로그 게시물을 작성하고 있습니다. 따라서 정기적인 업데이트를 위해 연락을 유지하십시오.

질문하기

포럼에서 질문이나 질문에 대해 알려주실 수 있습니다.

자주 묻는 질문

프로그래밍 방식으로 PDF를 텍스트로 변환하려면 어떻게 합니까?

이 .NET OCR 라이브러리를 사용하여 C#에서 PDF를 텍스트로 변환할 수 있습니다. 이 작업을 효율적으로 수행하는 RecognizePdf 메서드를 노출합니다.

PDF를 텍스트로 변환하는 가장 쉬운 방법은 무엇입니까?

이 라이브러리의 문서를 방문하여 프로그래밍 방식으로 스캔한 PDF 파일에서 데이터를 추출할 수 있는 방법에 대해 알아볼 수 있습니다.

또한보십시오