이전 블로그 게시물은 프로그래밍 방식으로 Java에서 PDF에서 PPTX로의 변환을 다루었습니다. 그러나 이 블로그 게시물에서는 이 PDF Java 라이브러리를 사용하여 Java에서 PDF를 텍스트로 변환하는 방법을 다룹니다. PDF와 텍스트는 전 세계적으로 가장 널리 사용되는 두 가지 파일 형식입니다. 따라서 이 라이브러리의 몇 가지 두드러진 방법을 사용하여 프로그래밍 방식으로 PDF를 텍스트로 변환합니다. 이 튜토리얼을 진행하기 전에 로컬 머신에 Java를 설정했는지 확인하십시오.
다음 사항을 다룹니다.
PDF 자바 라이브러리 설치
이 라이브러리의 설치 절차는 개발자에게 친숙합니다. 이 라이브러리는 PDF 파일을 프로그래밍 방식으로 다른 인기 있는 파일 형식으로 조작하고 변환할 수 있는 강력한 기능을 제공합니다. 따라서 다음 Maven 구성을 사용하여 API를 다운로드하거나 설치할 수 있습니다.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
Java에서 PDF를 텍스트로 변환
PDF에서 텍스트로의 변환 프로세스는 Java에서 몇 줄의 소스 코드 문제입니다. 우리는 프로그래밍 방식으로 PDF를 텍스트로 변환하는 단계와 코드 스니펫을 작성할 것입니다.
다음 단계를 따를 수 있습니다.
- Document 클래스의 인스턴스를 생성하여 PDF 문서를 로드합니다.
- TextAbsorber 클래스의 객체를 초기화하여 텍스트 추출을 수행하고 결과에 대한 액세스를 제공합니다.
- visit 메서드를 호출하여 지정된 페이지에서 텍스트를 추출합니다.
- BufferedWriter 클래스의 인스턴스를 생성하고 FileWriter 클래스의 객체를 초기화하여 추출된 텍스트를 텍스트 파일에 저장합니다.
// Document 클래스의 인스턴스를 만들어 PDF 문서 로드
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber 클래스의 객체를 초기화하여 텍스트 추출을 수행하고 결과에 대한 액세스를 제공합니다.
TextAbsorber ta = new TextAbsorber();
// 지정된 페이지에서 텍스트를 추출하기 위해 방문 메소드 호출
ta.visit(pdfDocument);
// BufferedWriter 클래스의 인스턴스를 생성하고 FileWriter 클래스의 객체를 초기화하여 추출된 텍스트를 텍스트 파일에 저장
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
PDF를 텍스트로 변환 - 고급 옵션
또한 비즈니스 요구 사항에 따라 비즈니스 논리를 구성할 수 있습니다. 이 PDF Java 라이브러리를 사용하면 특정 PDF 페이지를 텍스트 파일 형식으로 변환할 수 있습니다.
다음은 특정 PDF 페이지를 텍스트로 변환하는 단계입니다.
- Document 클래스의 객체를 생성하고 PDF 문서를 로드합니다.
- TextAbsorber 클래스의 객체를 초기화합니다.
- 정의된 페이지 수를 반복하고 visit 메서드를 호출하여 PDF 페이지에서 텍스트를 추출합니다.
- BufferedWriter 클래스의 write 메소드를 호출하여 추출된 텍스트를 텍스트 파일에 저장합니다.
// Document 클래스의 객체 생성 및 PDF 문서 로드
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber 클래스의 객체 초기화
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 방문 메소드를 호출하여 정의된 페이지 수를 반복하고 PDF 페이지에서 텍스트 추출
for (int page : pages) {
ta.visit(pdfDocument.getPages().get_Item(page));
}
// BufferedWriter 클래스의 write 메소드를 호출하여 추출된 텍스트를 텍스트 파일에 저장
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
무료 라이선스 받기
평가 제한 없이 API를 사용해 볼 수 있는 무료 임시 라이선스를 얻을 수 있습니다.
합산
이것으로 이 블로그 포스트를 마칩니다. 프로그래밍 방식으로 Java에서 PDF를 텍스트로 변환하는 방법을 배웠기를 바랍니다. 또한 이 PDF Java 라이브러리에서 제공하는 몇 가지 고급 방법도 살펴보았습니다. 또한 문서를 통해 다른 유용한 방법을 알 수 있습니다. conholdate.com은 지속적으로 새로운 블로그 게시물을 작성하고 있습니다. 따라서 정기적인 업데이트를 위해 연락을 유지하십시오.
질문하기
포럼에서 질문이나 질문에 대해 알려주실 수 있습니다.
자주 묻는 질문
PDF를 텍스트로 어떻게 변환합니까?
이 PDF Java 라이브러리를 설치하여 프로그래밍 방식으로 PDF를 텍스트로 변환할 수 있습니다. 또한 여기에서 API에 의해 노출된 메서드의 긴 목록을 볼 수 있습니다.
Java가 PDF를 읽을 수 있습니까?
이 TextAbsorber 클래스를 사용하여 프로그래밍 방식으로 Java의 PDF 페이지에서 텍스트를 추출합니다. 그러나 특정 페이지에서 텍스트를 추출하려는 경우 방문 방법을 사용할 수 있습니다.