HTML C# 읽기

C#에서 HTML을 읽으면 C# .NET 애플리케이션에서 웹 콘텐츠와 상호 작용할 수 있는 가능성의 세계가 열립니다. HTML 콘텐츠를 처리하기 위해 C#에서 간단한 데이터 추출이나 복잡한 웹 스크래핑 작업을 위해 HTML 문서를 쉽게 구문 분석하거나 탐색할 수 있습니다. 따라서 이 블로그 게시물에서는 C#에서 HTML을 읽는 방법과 HTML 콘텐츠를 로드하고 요구 사항에 따라 HTML 문자열을 구문 분석하는 다양한 접근 방식을 다룹니다.

C#에서 HTML 리더 API 구성

Visual Studio의 패키지 관리자 콘솔에서 다음 설치 명령을 실행하여 새 릴리스 섹션에서 API를 쉽게 다운로드하거나 NuGet 갤러리에서 Conholdate.Total for .NET을 설치할 수 있습니다.

PM> NuGet\Install-Package Conholdate.Total

C#에서 HTML 파일 읽기

HTML(Hypertext Markup Language)은 웹사이트의 구조와 콘텐츠를 정의하는 웹페이지의 백본입니다. 이는 태그로 표시되는 요소로 구성되며 각 요소는 특정 목적을 수행합니다. 웹 페이지에 액세스하면 브라우저는 HTML 코드를 해석하여 상호 작용할 수 있는 시각적 레이아웃으로 렌더링합니다. C#에서 HTML 콘텐츠를 읽고 조작하려면 아래 단계에 따라 HTML 문서를 구문 분석하고 탐색할 수 있습니다.

  • HTMLDocument 클래스 인스턴스를 사용하여 소스 HTML 파일을 로드합니다.
  • OuterHTML 속성을 사용하여 HTML 콘텐츠를 읽습니다.

아래 코드 조각은 C#을 사용하여 HTML 파일을 읽는 방법을 보여줍니다.

string documentPath = "document.html";

// HTML 파일 로드
var document = new HTMLDocument(documentPath);

// 출력 스트림에 문서 내용을 씁니다.
Console.WriteLine(document.DocumentElement.OuterHTML);

HTML 파일을 탐색하여 C#에서 HTML 콘텐츠 읽기

HTML 파일을 탐색하고 C#에서 HTML 콘텐츠를 읽으려면 아래 단계를 따라야 합니다.

  • HTML 코드를 준비하고 HTMLDocument 클래스 객체를 시작합니다.
  • BODY의 첫 번째 하위 항목(첫 번째 SPAN)에 대한 참조를 가져옵니다.
  • 하위 노드를 탐색하고 정보를 추출합니다.

다음 코드 샘플은 HTML 노드를 탐색하여 C#에서 HTML 콘텐츠를 읽는 방법을 보여줍니다.

// HTML 코드 준비
var html_code = "<span>Hello</span> <span>World!</span>";

// 준비된 코드에서 문서 초기화
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // BODY의 첫 번째 하위 항목(첫 번째 SPAN)에 대한 참조를 가져옵니다.
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // HTML 요소 사이의 공백에 대한 참조를 가져옵니다.
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // 두 번째 SPAN 요소에 대한 참조 가져오기
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

C#에서 HTML 파일을 문자열로 읽기

다음 단계에 따라 모든 URL에서 HTML 파일을 C#의 문자열로 읽을 수 있습니다.

  • URL을 사용하여 HTMLDocument 클래스 객체를 초기화합니다.
  • HTML 형식의 텍스트 내용을 읽습니다.
  • URL을 통해 HTML에서 추출된 텍스트로 TXT 파일을 작성합니다.

아래 코드 샘플은 URL에서 C#의 문자열로 HTML 파일을 읽는 방법을 자세히 설명합니다.

// URL을 사용하여 HTMLDocument 객체 초기화
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// HTML 형식의 텍스트 내용 읽기
String text = document.Body.TextContent;
            
// 추출된 텍스트로 TXT 파일 쓰기
File.WriteAllText("Webpage.txt", text);

무료 평가판 라이센스

평가 제한을 피하기 위해 무료 임시 라이센스를 얻을 수 있습니다.

합산

C#에서 HTML을 읽을 수 있는 능력은 웹 관련 프로젝트 및 데이터 추출 작업을 수행하는 데 중요한 기술입니다. 이 블로그 게시물에서는 C#에서 HTML을 읽는 세 가지 다른 접근 방식을 다루었습니다. 이를 통해 추가 처리를 위해 HTML 페이지에서 정보를 긁어내거나 구문 분석할 수 있습니다. 그러나 API가 제공하는 다른 많은 기능을 살펴보고 포럼에서 언제든지 문의하실 수 있습니다.

또한보십시오