C# .NET에서 OCR을 사용하여 PDF를 DOCX로 변환

PDF 파일은 문서 공유를 위해 널리 사용되는 형식이지만 때로는 PDF 파일에서 텍스트를 편집하거나 추출해야 합니다. Microsoft Word의 DOCX 형식은 문서 편집에 가장 널리 사용되는 형식 중 하나입니다. 이 블로그 게시물에서는 C#을 사용하여 광학 문자 인식(OCR)을 사용하여 PDF를 DOCX로 변환하는 방법을 보여 드리겠습니다. OCR 기술은 스캔한 PDF 또는 이미지 기반 PDF에서 텍스트를 추출하는 데 도움이 되므로 문서 변환을 위한 다목적 도구가 됩니다.

OCR을 사용하여 PDF를 DOCX로 변환기 - C# API 설치

C#에서 OCR을 사용하여 PDF를 DOCX Word 문서로 변환하려면 Conholdate.Total for .NET을 구성해야 합니다. Visual Studio IDE에서 NuGet 패키지 관리자 플러그인을 사용하거나 다음 NuGet 설치 명령을 실행하여 이 작업을 쉽게 수행할 수 있습니다.

PM> NuGet\Install-Package Conholdate.Total

C#에서 OCR을 사용하여 PDF를 DOCX로 변환

다음 단계에 따라 C#에서 OCR을 사용하여 PDF를 Word 문서로 변환할 수 있습니다.

OcrInput 클래스의 객체를 만듭니다.
소스 PDF 문서를 로드합니다.
문서의 텍스트를 인식합니다.
편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장합니다.

다음 샘플 코드는 C#에서 OCR을 사용하여 PDF를 DOCX로 변환하는 방법의 예입니다.

// 스캔한 PDF 문서 로드
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// 문서의 텍스트 인식
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

C#에서 전처리 필터를 사용하여 OCR을 사용하여 스캔한 PDF를 DOCX로 변환

다양한 설정을 사용하여 OCR을 사용하여 스캔한 PDF를 DOCX로 변환할 수 있습니다. 예를 들어 소스 파일의 기울기 조정 또는 노이즈 제거와 같은 정확도 향상을 위해 다양한 전처리 필터를 설정하세요. 다음 단계에서는 C#에서 OCR을 사용하여 스캔한 PDF를 DOCX로 변환하는 고급 접근 방식을 자세히 설명합니다.

전처리 필터를 설정합니다.
OcrInput 클래스의 인스턴스를 초기화합니다.
문서의 텍스트를 인식합니다.
인식된 텍스트를 Word DOCX 문서로 저장합니다.

아래 코드 조각은 C#에서 전처리 필터를 사용하여 스캔한 PDF를 OCR을 사용하는 DOCX로 변환하는 방법을 자세히 설명합니다.

// 처리 필터 설정
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// 스캔한 PDF 문서 로드
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// 문서의 텍스트 인식
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

무료 평가판 라이센스

무료 평가판 라이선스를 얻어 아무런 제한 없이 API를 평가할 수 있습니다.

합산

이 블로그 게시물에서는 C#에서 OCR을 사용하여 PDF를 DOCX로 변환하는 방법을 배웠습니다. 스캔한 문서를 포함하여 PDF에서 텍스트를 쉽게 추출하고 편집 가능한 Word DOCX 파일로 저장할 수 있습니다. 이는 PDF 양식에서 데이터를 추출하거나 인쇄된 문서를 디지털화하는 등 다양한 시나리오에서 유용한 도구가 될 수 있습니다. 특정 요구 사항을 충족하기 위해 다양한 설정과 사용자 지정 옵션을 실험하고 C#의 문서 처리 기능을 향상하세요. 질문이 있는 경우 포럼을 통해 언제든지 문의해 주시기 바랍니다.

자주 묻는 질문

C#에서 PDF를 DOCX로 변환할 때 OCR에서 여러 언어가 지원됩니까?

예, 다양한 언어의 텍스트와 혼합 언어가 포함된 텍스트를 포함하여 널리 사용되는 모든 작문 스크립트를 인식할 수 있습니다.

스캔한 PDF를 편집 가능한 Word DOCX 문서로 변환하는 동안 맞춤법 검사 기능이 지원됩니까?

예, 맞춤법 검사기에서는 다양한 사전이 지원되므로 철자가 틀린 단어를 수정하도록 맞춤법 검사 기능을 설정할 수 있습니다.

PDF를 DOCX로 변환하기 위해 OCR을 사용할 때 알아야 할 제한 사항이나 과제가 있습니까?

예, OCR은 완벽하지 않을 수 있으며 특히 복잡한 레이아웃, 손으로 쓴 텍스트 또는 낮은 품질의 스캔에서 오류가 발생할 수 있습니다. 정확성을 보장하려면 필요에 따라 변환된 텍스트를 검토하고 편집하는 것이 중요합니다. 또한 OCR 성능은 입력 PDF의 품질과 사용된 언어에 따라 달라질 수 있습니다.

OCR을 사용하여 PDF를 DOCX로 변환기 - C# API 설치#

C#에서 OCR을 사용하여 PDF를 DOCX로 변환#

C#에서 전처리 필터를 사용하여 OCR을 사용하여 스캔한 PDF를 DOCX로 변환#

무료 평가판 라이센스#

합산#

자주 묻는 질문#

C#에서 PDF를 DOCX로 변환할 때 OCR에서 여러 언어가 지원됩니까?#

스캔한 PDF를 편집 가능한 Word DOCX 문서로 변환하는 동안 맞춤법 검사 기능이 지원됩니까?#

PDF를 DOCX로 변환하기 위해 OCR을 사용할 때 알아야 할 제한 사항이나 과제가 있습니까?#

또한보십시오#