Java에서 HTML 읽기

HTML 문서를 읽고 구문 분석하면 온라인 콘텐츠에서 정보를 추출하는 데 도움이 됩니다. 웹 스크래퍼를 구축하든, 웹 콘텐츠를 분석하든, 아니면 단순히 웹 페이지에서 일부 텍스트를 추출해야 하든 상관없습니다. 따라서 이 기사에서는 Java에서 HTML을 읽는 방법을 다룹니다.

Java에서 HTML Reader API 구성

다운로드 페이지에서 API를 구성하거나 다음 Maven 구성을 사용하여 Conholdate.Total for Java를 구성할 수 있습니다.

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

왜 Java에서 HTML을 읽어야 할까요?

기술적인 측면을 살펴보기 전에 Java에서 HTML을 읽는 것이 왜 중요한지 간략하게 살펴보겠습니다.

데이터 추출: HTML은 웹의 기초이며 많은 웹사이트는 HTML 구조 내에 귀중한 정보를 저장합니다. HTML 문서에서 데이터를 구문 분석하고 추출하여 데이터 수집 및 분석을 자동화할 수 있습니다.

웹 스크래핑: 웹 스크래핑 도구를 구축할 때 Java는 HTML 콘텐츠에 액세스하고 스크래핑하는 기능을 제공하므로 시장 조사 또는 데이터 분석과 같은 다양한 목적으로 웹 사이트에서 데이터를 수집할 수 있습니다.

사용자 정의 웹 애플리케이션: Java를 사용하면 HTML 콘텐츠와 상호 작용하는 사용자 정의 웹 애플리케이션 및 서비스를 생성할 수 있으므로 웹 기반 도구를 구축하거나 외부 데이터 소스를 통합할 수 있습니다.

Java에서 HTML 파일 읽기

HTML(Hypertext Markup Language)은 웹 페이지를 생성하기 위한 표준 언어입니다. Java에서 HTML로 작업할 때 목표는 웹 페이지에서 데이터를 추출하고, 구조를 조작하고, 콘텐츠를 분석하는 것일 수 있습니다. 이러한 작업을 수행하려면 HTML을 효과적으로 읽고 구문 분석해야 합니다. 아래 단계에 따라 Java로 HTML 파일을 읽을 수 있습니다.

HTMLDocument 클래스를 사용하여 입력 HTML 콘텐츠를 가져옵니다.
OuterHTML 속성을 사용하여 HTML을 읽습니다.

다음 샘플 코드는 Java에서 HTML 파일을 읽는 방법을 보여줍니다.

String documentPath = "document.html";

// HTML 파일 로드
var document = new com.aspose.html.HTMLDocument(documentPath);

// 출력 스트림에 문서 내용을 씁니다.
System.out.println(document.getDocumentElement().getOuterHTML());

HTML 파일을 탐색하여 Java에서 HTML 콘텐츠 읽기

다음 단계에 설명된 대로 다양한 노드를 탐색하여 HTML 데이터를 반복할 수 있습니다.

HTMLDocument 클래스를 사용하여 HTML 콘텐츠를 가져옵니다.
Body 콘텐츠의 첫 번째 하위 항목에 액세스합니다.
후속 노드를 탐색하고 HTML 콘텐츠를 읽습니다.

아래 코드 조각은 HTML을 탐색하여 Java에서 HTML을 읽는 방법을 자세히 설명합니다.

// HTML 코드 준비
var html_code = "<span>Hello</span> <span>World!</span>";

// 준비된 코드에서 문서 초기화
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// BODY의 첫 번째 하위 항목(첫 번째 SPAN)에 대한 참조를 가져옵니다.
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// HTML 요소 사이의 공백에 대한 참조를 가져옵니다.
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// 두 번째 SPAN 요소에 대한 참조 가져오기
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Java에서 HTML 파일을 문자열로 읽기

아래 나열된 단계에 따라 HTML 파일의 데이터를 문자열로 구문 분석하고 이를 텍스트 형식으로 내보낼 수 있습니다.

HTMLDocument 클래스의 객체를 만듭니다.
HTML 데이터의 텍스트 내용을 구문 분석합니다.
출력 TXT 파일을 내보냅니다.

다음 코드 샘플은 Java에서 HTML 파일을 문자열로 읽는 방법을 설명합니다.

// URL을 사용하여 HTMLDocument 객체 초기화
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// HTML 형식의 텍스트 내용 읽기
String text = document.getBody().getTextContent();
            
// HTML을 텍스트 파일로 내보내기
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

온라인으로 HTML 읽기

특별한 애플리케이션을 설치할 필요 없이 HTML 페이지와 데이터를 구문 분석하여 온라인으로 텍스트나 이미지를 추출할 수 있습니다. 다음 HTML 리더 및 파서 온라인 도구를 사용하고 간단한 단계에 따라 HTML 데이터를 읽으세요.

무료 평가판 라이센스

API의 전체 용량을 평가하기 위해 무료 임시 라이센스를 요청할 수 있습니다.

합산

Java에서 HTML을 읽는 것은 데이터 추출 및 웹 스크래핑부터 사용자 정의 웹 애플리케이션 구축에 이르기까지 다양한 웹 관련 작업에 필수적인 기술입니다. 이 블로그 게시물에 설명된 단계와 예제를 따르면 Java에서 HTML 작업을 시작하고 프로젝트에 대한 광범위한 가능성을 열 수 있습니다. 문의사항이 있는 경우 포럼을 통해 언제든지 문의해 주세요.

Java에서 HTML Reader API 구성#

왜 Java에서 HTML을 읽어야 할까요?#

Java에서 HTML 파일 읽기#

HTML 파일을 탐색하여 Java에서 HTML 콘텐츠 읽기#

Java에서 HTML 파일을 문자열로 읽기#

온라인으로 HTML 읽기#

무료 평가판 라이센스#

합산#

또한보십시오#