HTML C# を読む

C# で HTML を読むと、C# .NET アプリケーションで Web コンテンツを操作できる可能性が広がります。 C# で単純なデータ抽出や複雑な Web スクレイピング タスクを実行して HTML コンテンツを処理するために、HTML ドキュメントを簡単に解析またはナビゲートできます。したがって、このブログ投稿では、C# で HTML を読み取る方法を説明するとともに、要件に基づいて HTML コンテンツを読み込み、HTML 文字列を解析するためのさまざまなアプローチについて説明します。

C# で HTML リーダー API を構成する

Visual Studio のパッケージ マネージャー コンソールで次のインストール コマンドを実行すると、New Releases セクションから API を簡単にダウンロードしたり、NuGet ギャラリーから Conholdate.Total for .NET をインストールしたりできます。

PM> NuGet\Install-Package Conholdate.Total

C# で HTML ファイルを読み取る

HTML (Hypertext Markup Language) は Web ページのバックボーンであり、Web サイトの構造とコンテンツの定義を担当します。これはタグで表される要素で構成されており、それぞれが特定の目的を果たします。 Web ページにアクセスすると、ブラウザは HTML コードを解釈し、操作できる視覚的なレイアウトにレンダリングします。 C# で HTML コンテンツを読み取り、操作するには、次の手順に従って HTML ドキュメントを解析して移動できます。

  • HTMLDocument クラス インスタンスを使用してソース HTML ファイルを読み込みます。
  • OuterHTML プロパティを使用して HTML コンテンツを読み取ります。

以下のコード スニペットは、C# を使用して HTML ファイルを読み取る方法を示しています。

string documentPath = "document.html";

// HTMLファイルをロードする
var document = new HTMLDocument(documentPath);

// ドキュメントのコンテンツを出力ストリームに書き込みます
Console.WriteLine(document.DocumentElement.OuterHTML);

C# で HTML ファイルに移動して HTML コンテンツを読み取る

C# で HTML ファイルに移動し、HTML コンテンツを読み取るには、次の手順に従う必要があります。

  • HTMLコードを準備し、HTMLDocumentクラスオブジェクトを開始します。
  • BODY の最初の子 (最初の SPAN) への参照を取得します。
  • 子ノード間を移動して情報を抽出します。

次のコード サンプルは、HTML ノードに移動して C# で HTML コンテンツを読み取る方法を示しています。

// HTMLコードを準備する
var html_code = "<span>Hello</span> <span>World!</span>";

// 準備されたコードからドキュメントを初期化する
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // BODY の最初の子 (最初の SPAN) への参照を取得します。
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // HTML要素間の空白への参照を取得します。
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // 2 番目の SPAN 要素への参照を取得します
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

C#でHTMLファイルを文字列として読み取る

次の手順で、任意の URL から C# の文字列として HTML ファイルを読み取ることができます。

  • HTMLDocument クラス オブジェクトを URL で初期化します。
  • HTML形式のテキスト内容を読み取ります。
  • URL 経由で HTML から抽出したテキストを含む TXT ファイルを書き込みます。

以下のコード サンプルは、任意の URL から C# で HTML ファイルを文字列として読み取る方法を詳しく説明しています。

// URLを使用してHTMLDocumentオブジェクトを初期化する
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// HTML形式のテキスト内容を読む
String text = document.Body.TextContent;
            
// 抽出されたテキストを含むTXTファイルを書き込みます
File.WriteAllText("Webpage.txt", text);

無料の評価ライセンス

評価上の制限を回避するために、無料の一時ライセンスを取得できます。

まとめ

C# で HTML を読めることは、Web 関連のプロジェクトやデータ抽出タスクに取り組む上で貴重なスキルです。このブログ投稿では、C# で HTML を読み取る 3 つの異なるアプローチについて説明しました。これにより、さらに処理するために HTML ページから情報を収集または解析できるようになります。ただし、API が提供する他の多くの機能を探索することもできますので、フォーラム までお気軽にお問い合わせください。

関連項目