
C#에서 PDF를 텍스트로 변환
최근에 PDF를 HTML로 변환 및 PDF를 이미지로와 같은 일부 블로그 게시물을 프로그래밍 방식으로 게시했습니다. 이 기사에서는 .NET OCR 라이브러리를 사용하여 C#에서 PDF를 텍스트로 변환하는 방법을 설명합니다. .NET 개발자는 이 라이브러리를 사용하여 파일을 널리 사용되는 다른 파일 형식으로 쉽게 변환할 수 있습니다. 또한 PDF 문서에서 텍스트 추출 프로세스를 자동화하는 다양한 기능이 있습니다. 그러나 스캔한 PDF 파일에서 텍스트 추출을 보여주기 위해 단계와 코드 스니펫을 작성합니다.
이 기사에서는 다음 사항을 다룹니다.
.NET OCR 라이브러리 설치
이 라이브러리는 강력하며 개발 및 사용에 관한 포괄적인 문서를 제공합니다. 다양한 파일 형식을 빠르고 효율적으로 변환하고 처리할 수 있습니다.
.NET 프로젝트에 이 API를 설치하려면 DLL 파일을 다운로드하거나 NuGet 패키지 관리자에서 다음 명령을 실행할 수 있습니다.
Install-Package Aspose.OCR
C#에서 PDF를 텍스트로 변환하는 방법
스캔한 PDF 파일에서 텍스트 추출은 매우 쉽고 C#의 소스 코드 몇 줄이면 됩니다.
아래에 언급된 단계를 따르십시오.
- AsposeOcr 클래스의 객체를 생성합니다.
- DocumentRecognitionSettings 클래스의 인스턴스를 초기화하여 PDF에서 이미지를 인식합니다.
- 자동 텍스트 영역 감지를 활성화하려면 DetectAreas 속성 값을 설정하십시오.
- RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드를 호출하여 스캔한 PDF 문서에서 텍스트를 추출하고 결과를 목록에 할당합니다.
다음 코드를 복사하여 붙여넣어 C#에서 PDF를 TEXT로 변환합니다.
string fullPath = "sample.pdf";
// AsposeOcr 클래스의 객체 생성
AsposeOcr api = new AsposeOcr();
// PDF에서 이미지를 인식하도록 DocumentRecognitionSettings 클래스의 인스턴스를 초기화합니다.
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// 자동 텍스트 영역 감지를 활성화하려면 DetectAreas 속성 값을 설정하십시오.
set.DetectAreas = false;
// RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드를 호출하여 스캔한 PDF 문서에서 텍스트를 추출하고 그 결과를 목록에 할당
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// 결과 인쇄
int pageNumber = 0;
foreach (var page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
PDF를 텍스트로 변환 - 고급 옵션
이 섹션에서는 이 라이브러리를 더 자세히 살펴보겠습니다. 또한 스트림에서 스캔한 PDF를 인식할 수 있습니다.
다음 단계는 다음과 같습니다.
- AsposeOcr 클래스의 인스턴스를 인스턴스화합니다.
- 스트림에서 PDF를 인식하도록 MemoryStream 클래스의 인스턴스를 만듭니다.
- FileStream의 생성자를 초기화하고 소스 파일을 로드합니다.
- CopyTo 메서드를 호출하여 메모리 스트림에 바이트를 씁니다.
- PDF에서 이미지를 인식하는 DocumentRecognitionSettings 클래스의 개체를 만듭니다.
- RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드의 결과로 초기화합니다.
string fullPath = "final.pdf";
// AsposeOcr 클래스의 인스턴스를 인스턴스화
AsposeOcr api = new AsposeOcr();
// 스트림에서 pdf를 인식하는 MemoryStream 클래스의 인스턴스 만들기
using (MemoryStream ms = new MemoryStream())
{
// FileStream의 생성자를 초기화하고 소스 파일을 로드합니다.
using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
{
// CopyTo 메서드를 호출하여 메모리 스트림에 바이트를 씁니다.
file.CopyTo(ms);
// PDF에서 이미지를 인식하는 DocumentRecognitionSettings 클래스의 개체 만들기
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// RecognitionResult 유형의 목록을 만들고 RecognizePdf 메서드의 결과로 초기화합니다.
List<RecognitionResult> results = api.RecognizePdf(ms, set);
// 결과 인쇄
foreach (var result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
}
무료 라이선스 받기
평가 제한 없이 API를 사용해 볼 수 있는 무료 임시 라이선스를 얻을 수 있습니다.
합산
이것으로 이 블로그 포스트를 마칩니다. 프로그래밍 방식으로 C#에서 PDF를 텍스트로 변환하는 방법을 배웠습니다. 또한 이 .NET OCR 라이브러리에서 제공하는 몇 가지 고급 방법도 살펴보았습니다. 또한 문서를 방문하여 다른 기능을 알 수 있습니다. 이 가이드는 응용 프로그램에 PDF를 텍스트로 변환하는 변환기를 제공하려는 경우 확실히 도움이 될 것입니다. 또한 conholdate.com은 새로운 주제에 대한 새로운 블로그 게시물을 작성하고 있습니다. 따라서 정기적인 업데이트를 위해 연락을 유지하십시오.
질문하기
포럼에서 질문이나 질문에 대해 알려주실 수 있습니다.
자주 묻는 질문
프로그래밍 방식으로 PDF를 텍스트로 변환하려면 어떻게 합니까?
이 .NET OCR 라이브러리를 사용하여 C#에서 PDF를 텍스트로 변환할 수 있습니다. 이 작업을 효율적으로 수행하는 RecognizePdf 메서드를 노출합니다.
PDF를 텍스트로 변환하는 가장 쉬운 방법은 무엇입니까?
이 라이브러리의 문서를 방문하여 프로그래밍 방식으로 스캔한 PDF 파일에서 데이터를 추출할 수 있는 방법에 대해 알아볼 수 있습니다.