
C# で HTML を読むと、C# .NET アプリケーションで Web コンテンツを操作できる可能性が広がります。 C# で単純なデータ抽出や複雑な Web スクレイピング タスクを実行して HTML コンテンツを処理するために、HTML ドキュメントを簡単に解析またはナビゲートできます。したがって、このブログ投稿では、C# で HTML を読み取る方法を説明するとともに、要件に基づいて HTML コンテンツを読み込み、HTML 文字列を解析するためのさまざまなアプローチについて説明します。
C# で HTML リーダー API を構成する
Visual Studio のパッケージ マネージャー コンソールで次のインストール コマンドを実行すると、New Releases セクションから API を簡単にダウンロードしたり、NuGet ギャラリーから Conholdate.Total for .NET をインストールしたりできます。
PM> NuGet\Install-Package Conholdate.Total
C# で HTML ファイルを読み取る
HTML (Hypertext Markup Language) は Web ページのバックボーンであり、Web サイトの構造とコンテンツの定義を担当します。これはタグで表される要素で構成されており、それぞれが特定の目的を果たします。 Web ページにアクセスすると、ブラウザは HTML コードを解釈し、操作できる視覚的なレイアウトにレンダリングします。 C# で HTML コンテンツを読み取り、操作するには、次の手順に従って HTML ドキュメントを解析して移動できます。
- HTMLDocument クラス インスタンスを使用してソース HTML ファイルを読み込みます。
- OuterHTML プロパティを使用して HTML コンテンツを読み取ります。
以下のコード スニペットは、C# を使用して HTML ファイルを読み取る方法を示しています。
string documentPath = "document.html";
// HTMLファイルをロードする
var document = new HTMLDocument(documentPath);
// ドキュメントのコンテンツを出力ストリームに書き込みます
Console.WriteLine(document.DocumentElement.OuterHTML);
C# で HTML ファイルに移動して HTML コンテンツを読み取る
C# で HTML ファイルに移動し、HTML コンテンツを読み取るには、次の手順に従う必要があります。
- HTMLコードを準備し、HTMLDocumentクラスオブジェクトを開始します。
- BODY の最初の子 (最初の SPAN) への参照を取得します。
- 子ノード間を移動して情報を抽出します。
次のコード サンプルは、HTML ノードに移動して C# で HTML コンテンツを読み取る方法を示しています。
// HTMLコードを準備する
var html_code = "<span>Hello</span> <span>World!</span>";
// 準備されたコードからドキュメントを初期化する
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
// BODY の最初の子 (最初の SPAN) への参照を取得します。
var element = document.Body.FirstChild;
Console.WriteLine(element.TextContent); // output: Hello
// HTML要素間の空白への参照を取得します。
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: ' '
// 2 番目の SPAN 要素への参照を取得します
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: World!
}
C#でHTMLファイルを文字列として読み取る
次の手順で、任意の URL から C# の文字列として HTML ファイルを読み取ることができます。
- HTMLDocument クラス オブジェクトを URL で初期化します。
- HTML形式のテキスト内容を読み取ります。
- URL 経由で HTML から抽出したテキストを含む TXT ファイルを書き込みます。
以下のコード サンプルは、任意の URL から C# で HTML ファイルを文字列として読み取る方法を詳しく説明しています。
// URLを使用してHTMLDocumentオブジェクトを初期化する
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
// HTML形式のテキスト内容を読む
String text = document.Body.TextContent;
// 抽出されたテキストを含むTXTファイルを書き込みます
File.WriteAllText("Webpage.txt", text);
無料の評価ライセンス
評価上の制限を回避するために、無料の一時ライセンスを取得できます。
まとめ
C# で HTML を読めることは、Web 関連のプロジェクトやデータ抽出タスクに取り組む上で貴重なスキルです。このブログ投稿では、C# で HTML を読み取る 3 つの異なるアプローチについて説明しました。これにより、さらに処理するために HTML ページから情報を収集または解析できるようになります。ただし、API が提供する他の多くの機能を探索することもできますので、フォーラム までお気軽にお問い合わせください。