PDF를 DOCX OCR로

PDF 파일은 문서 공유를 위해 널리 사용되는 형식이지만 때로는 PDF 파일에서 텍스트를 편집하거나 추출해야 합니다. Microsoft Word의 DOCX 형식은 문서 편집에 가장 널리 사용되는 형식 중 하나입니다. 이 블로그 게시물에서는 C#을 사용하여 광학 문자 인식(OCR)을 사용하여 PDF를 DOCX로 변환하는 방법을 보여 드리겠습니다. OCR 기술은 스캔한 PDF 또는 이미지 기반 PDF에서 텍스트를 추출하는 데 도움이 되므로 문서 변환을 위한 다목적 도구가 됩니다.

OCR을 사용하여 PDF를 DOCX로 변환기 - C# API 설치

C#에서 OCR을 사용하여 PDF를 DOCX Word 문서로 변환하려면 Conholdate.Total for .NET을 구성해야 합니다. Visual Studio IDE에서 NuGet 패키지 관리자 플러그인을 사용하거나 다음 NuGet 설치 명령을 실행하여 이 작업을 쉽게 수행할 수 있습니다.

PM> NuGet\Install-Package Conholdate.Total

C#에서 OCR을 사용하여 PDF를 DOCX로 변환

다음 단계에 따라 C#에서 OCR을 사용하여 PDF를 Word 문서로 변환할 수 있습니다.

  • OcrInput 클래스의 객체를 만듭니다.
  • 소스 PDF 문서를 로드합니다.
  • 문서의 텍스트를 인식합니다.
  • 편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장합니다.

다음 샘플 코드는 C#에서 OCR을 사용하여 PDF를 DOCX로 변환하는 방법의 예입니다.

// 스캔한 PDF 문서 로드
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// 문서의 텍스트 인식
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

C#에서 전처리 필터를 사용하여 OCR을 사용하여 스캔한 PDF를 DOCX로 변환

다양한 설정을 사용하여 OCR을 사용하여 스캔한 PDF를 DOCX로 변환할 수 있습니다. 예를 들어 소스 파일의 기울기 조정 또는 노이즈 제거와 같은 정확도 향상을 위해 다양한 전처리 필터를 설정하세요. 다음 단계에서는 C#에서 OCR을 사용하여 스캔한 PDF를 DOCX로 변환하는 고급 접근 방식을 자세히 설명합니다.

  • 전처리 필터를 설정합니다.
  • OcrInput 클래스의 인스턴스를 초기화합니다.
  • 문서의 텍스트를 인식합니다.
  • 인식된 텍스트를 Word DOCX 문서로 저장합니다.

아래 코드 조각은 C#에서 전처리 필터를 사용하여 스캔한 PDF를 OCR을 사용하는 DOCX로 변환하는 방법을 자세히 설명합니다.

// 처리 필터 설정
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// 스캔한 PDF 문서 로드
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// 문서의 텍스트 인식
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 편집 가능한 문서를 Microsoft Word(DOCX) 형식으로 저장
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

무료 평가판 라이센스

무료 평가판 라이선스를 얻어 아무런 제한 없이 API를 평가할 수 있습니다.

합산

이 블로그 게시물에서는 C#에서 OCR을 사용하여 PDF를 DOCX로 변환하는 방법을 배웠습니다. 스캔한 문서를 포함하여 PDF에서 텍스트를 쉽게 추출하고 편집 가능한 Word DOCX 파일로 저장할 수 있습니다. 이는 PDF 양식에서 데이터를 추출하거나 인쇄된 문서를 디지털화하는 등 다양한 시나리오에서 유용한 도구가 될 수 있습니다. 특정 요구 사항을 충족하기 위해 다양한 설정과 사용자 지정 옵션을 실험하고 C#의 문서 처리 기능을 향상하세요. 질문이 있는 경우 포럼을 통해 언제든지 문의해 주시기 바랍니다.

자주 묻는 질문

C#에서 PDF를 DOCX로 변환할 때 OCR에서 여러 언어가 지원됩니까?

예, 다양한 언어의 텍스트와 혼합 언어가 포함된 텍스트를 포함하여 널리 사용되는 모든 작문 스크립트를 인식할 수 있습니다.

스캔한 PDF를 편집 가능한 Word DOCX 문서로 변환하는 동안 맞춤법 검사 기능이 지원됩니까?

예, 맞춤법 검사기에서는 다양한 사전이 지원되므로 철자가 틀린 단어를 수정하도록 맞춤법 검사 기능을 설정할 수 있습니다.

PDF를 DOCX로 변환하기 위해 OCR을 사용할 때 알아야 할 제한 사항이나 과제가 있습니까?

예, OCR은 완벽하지 않을 수 있으며 특히 복잡한 레이아웃, 손으로 쓴 텍스트 또는 낮은 품질의 스캔에서 오류가 발생할 수 있습니다. 정확성을 보장하려면 필요에 따라 변환된 텍스트를 검토하고 편집하는 것이 중요합니다. 또한 OCR 성능은 입력 PDF의 품질과 사용된 언어에 따라 달라질 수 있습니다.

또한보십시오