Java에서 PDF를 텍스트로 변환

Java에서 PDF를 텍스트로 변환

이전 블로그 게시물은 프로그래밍 방식으로 Java에서 PDF에서 PPTX로의 변환을 다루었습니다. 그러나 이 블로그 게시물에서는 이 PDF Java 라이브러리를 사용하여 Java에서 PDF를 텍스트로 변환하는 방법을 다룹니다. PDF와 텍스트는 전 세계적으로 가장 널리 사용되는 두 가지 파일 형식입니다. 따라서 이 라이브러리의 몇 가지 두드러진 방법을 사용하여 프로그래밍 방식으로 PDF를 텍스트로 변환합니다. 이 튜토리얼을 진행하기 전에 로컬 머신에 Java를 설정했는지 확인하십시오.

다음 사항을 다룹니다.

PDF 자바 라이브러리 설치

이 라이브러리의 설치 절차는 개발자에게 친숙합니다. 이 라이브러리는 PDF 파일을 프로그래밍 방식으로 다른 인기 있는 파일 형식으로 조작하고 변환할 수 있는 강력한 기능을 제공합니다. 따라서 다음 Maven 구성을 사용하여 API를 다운로드하거나 설치할 수 있습니다.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Java에서 PDF를 텍스트로 변환

PDF에서 텍스트로의 변환 프로세스는 Java에서 몇 줄의 소스 코드 문제입니다. 우리는 프로그래밍 방식으로 PDF를 텍스트로 변환하는 단계와 코드 스니펫을 작성할 것입니다.

다음 단계를 따를 수 있습니다.

  1. Document 클래스의 인스턴스를 생성하여 PDF 문서를 로드합니다.
  2. TextAbsorber 클래스의 객체를 초기화하여 텍스트 추출을 수행하고 결과에 대한 액세스를 제공합니다.
  3. visit 메서드를 호출하여 지정된 페이지에서 텍스트를 추출합니다.
  4. BufferedWriter 클래스의 인스턴스를 생성하고 FileWriter 클래스의 객체를 초기화하여 추출된 텍스트를 텍스트 파일에 저장합니다.
// Document 클래스의 인스턴스를 만들어 PDF 문서 로드  
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber 클래스의 객체를 초기화하여 텍스트 추출을 수행하고 결과에 대한 액세스를 제공합니다. 
TextAbsorber ta = new TextAbsorber();
// 지정된 페이지에서 텍스트를 추출하기 위해 방문 메소드 호출 
ta.visit(pdfDocument);
// BufferedWriter 클래스의 인스턴스를 생성하고 FileWriter 클래스의 객체를 초기화하여 추출된 텍스트를 텍스트 파일에 저장  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

PDF를 텍스트로 변환 - 고급 옵션

또한 비즈니스 요구 사항에 따라 비즈니스 논리를 구성할 수 있습니다. 이 PDF Java 라이브러리를 사용하면 특정 PDF 페이지를 텍스트 파일 형식으로 변환할 수 있습니다.

다음은 특정 PDF 페이지를 텍스트로 변환하는 단계입니다.

  1. Document 클래스의 객체를 생성하고 PDF 문서를 로드합니다.
  2. TextAbsorber 클래스의 객체를 초기화합니다.
  3. 정의된 페이지 수를 반복하고 visit 메서드를 호출하여 PDF 페이지에서 텍스트를 추출합니다.
  4. BufferedWriter 클래스의 write 메소드를 호출하여 추출된 텍스트를 텍스트 파일에 저장합니다.
// Document 클래스의 객체 생성 및 PDF 문서 로드 
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber 클래스의 객체 초기화  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 방문 메소드를 호출하여 정의된 페이지 수를 반복하고 PDF 페이지에서 텍스트 추출  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// BufferedWriter 클래스의 write 메소드를 호출하여 추출된 텍스트를 텍스트 파일에 저장   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

무료 라이선스 받기

평가 제한 없이 API를 사용해 볼 수 있는 무료 임시 라이선스를 얻을 수 있습니다.

합산

이것으로 이 블로그 포스트를 마칩니다. 프로그래밍 방식으로 Java에서 PDF를 텍스트로 변환하는 방법을 배웠기를 바랍니다. 또한 이 PDF Java 라이브러리에서 제공하는 몇 가지 고급 방법도 살펴보았습니다. 또한 문서를 통해 다른 유용한 방법을 알 수 있습니다. conholdate.com은 지속적으로 새로운 블로그 게시물을 작성하고 있습니다. 따라서 정기적인 업데이트를 위해 연락을 유지하십시오.

질문하기

포럼에서 질문이나 질문에 대해 알려주실 수 있습니다.

자주 묻는 질문

PDF를 텍스트로 어떻게 변환합니까?

이 PDF Java 라이브러리를 설치하여 프로그래밍 방식으로 PDF를 텍스트로 변환할 수 있습니다. 또한 여기에서 API에 의해 노출된 메서드의 긴 목록을 볼 수 있습니다.

Java가 PDF를 읽을 수 있습니까?

TextAbsorber 클래스를 사용하여 프로그래밍 방식으로 Java의 PDF 페이지에서 텍스트를 추출합니다. 그러나 특정 페이지에서 텍스트를 추출하려는 경우 방문 방법을 사용할 수 있습니다.

또한보십시오