HTML Java を読む

HTML ドキュメントの読み取りと解析は、オンライン コンテンツから情報を抽出するのに役立ちます。 Web スクレイパーを構築している場合でも、Web コンテンツを分析している場合でも、単に Web ページからテキストを抽出する必要がある場合でも。したがって、この記事では Java で HTML を読み取る方法について説明します。

Java での HTML リーダー API の構成

ダウンロード ページから API を設定するか、次の Maven 設定を使用して Conholdate.Total for Java を設定できます。

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Java で HTML を読む理由

技術的な側面に入る前に、Java で HTML を読み取ることが重要である理由を簡単に説明します。

データ抽出: HTML は Web の基礎であり、多くの Web サイトでは貴重な情報が HTML 構造内に保存されています。 HTML ドキュメントからデータを解析して抽出することで、データの収集と分析を自動化できます。

Web スクレイピング: Web スクレイピング ツールを構築する場合、Java は HTML コンテンツにアクセスしてスクレイピングする機能を提供し、市場調査やデータ分析などのさまざまな目的で Web サイトからデータを収集できるようにします。

カスタム Web アプリケーション: Java を使用すると、HTML コンテンツと対話するカスタム Web アプリケーションおよびサービスを作成でき、Web ベースのツールを構築したり、外部データ ソースを統合したりできます。

Java で HTML ファイルを読み取る

HTML (Hypertext Markup Language) は、Web ページを作成するための標準言語です。 Java で HTML を操作するときの目標は、Web ページからデータを抽出したり、その構造を操作したり、そのコンテンツを分析したりすることかもしれません。これらのタスクを実行するには、HTML を効果的に読み取って解析する必要があります。以下の手順に従って、Java で HTML ファイルを読み取ることができます。

  • HTMLDocument クラスを使用して、入力 HTML コンテンツを取得します。
  • OuterHTMLプロパティでHTMLを読み込みます。

次のサンプル コードは、Java で HTML ファイルを読み取る方法を示しています。

String documentPath = "document.html";

// HTMLファイルをロードする
var document = new com.aspose.html.HTMLDocument(documentPath);

// ドキュメントのコンテンツを出力ストリームに書き込みます
System.out.println(document.getDocumentElement().getOuterHTML());

HTML ファイルに移動して Java で HTML コンテンツを読み取る

次の手順で説明するように、さまざまなノード間を移動することで、HTML データを反復処理できます。

  • HTMLDocumentクラスでHTMLコンテンツを取得します。
  • Body コンテンツの最初の子にアクセスします。
  • 後続のノードに移動し、HTML コンテンツを読み取ります。

以下のコード スニペットは、Java で HTML を読み取るために HTML に移動する方法を詳しく説明しています。

// HTMLコードを準備する
var html_code = "<span>Hello</span> <span>World!</span>";

// 準備されたコードからドキュメントを初期化する
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// BODY の最初の子 (最初の SPAN) への参照を取得します。
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// HTML要素間の空白への参照を取得します。
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// 2 番目の SPAN 要素への参照を取得します
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

JavaでHTMLファイルを文字列として読み取る

以下に示す手順で、HTML ファイルのデータを文字列として解析し、テキスト形式にエクスポートできます。

  • HTMLDocumentクラスのオブジェクトを作成します。
  • HTML データのテキスト内容を解析します。
  • 出力TXTファイルをエクスポートします。

次のコード サンプルは、Java で HTML ファイルを文字列として読み取る方法を説明しています。

// URLを使用してHTMLDocumentオブジェクトを初期化する
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// HTML形式のテキスト内容を読む
String text = document.getBody().getTextContent();
            
// HTMLをテキストファイルにエクスポート
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

オンラインで HTML を読む

専用のアプリケーションをインストールしなくても、HTML ページとデータを解析してテキストや画像をオンラインで抽出できます。次の HTML Reader and Parser Online ツールを使用し、簡単な手順に従って HTML データを読み取るだけです。

無料の評価ライセンス

API を最大限に評価するには、無料の一時ライセンス をリクエストできます。

まとめ

Java で HTML を読むことは、データ抽出や Web スクレイピングからカスタム Web アプリケーションの構築に至るまで、さまざまな Web 関連タスクに不可欠なスキルです。このブログ投稿で概説されている手順と例に従うことで、Java で HTML の操作を開始し、プロジェクトの幅広い可能性を解き放つことができます。ご質問がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目