HTML ドキュメントの読み取りと解析は、オンライン コンテンツから情報を抽出するのに役立ちます。 Web スクレイパーを構築している場合でも、Web コンテンツを分析している場合でも、単に Web ページからテキストを抽出する必要がある場合でも。したがって、この記事では Java で HTML を読み取る方法について説明します。
Java での HTML リーダー API の構成
ダウンロード ページから API を設定するか、次の Maven 設定を使用して Conholdate.Total for Java を設定できます。
<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>
Java で HTML を読む理由
技術的な側面に入る前に、Java で HTML を読み取ることが重要である理由を簡単に説明します。
データ抽出: HTML は Web の基礎であり、多くの Web サイトでは貴重な情報が HTML 構造内に保存されています。 HTML ドキュメントからデータを解析して抽出することで、データの収集と分析を自動化できます。
Web スクレイピング: Web スクレイピング ツールを構築する場合、Java は HTML コンテンツにアクセスしてスクレイピングする機能を提供し、市場調査やデータ分析などのさまざまな目的で Web サイトからデータを収集できるようにします。
カスタム Web アプリケーション: Java を使用すると、HTML コンテンツと対話するカスタム Web アプリケーションおよびサービスを作成でき、Web ベースのツールを構築したり、外部データ ソースを統合したりできます。
Java で HTML ファイルを読み取る
HTML (Hypertext Markup Language) は、Web ページを作成するための標準言語です。 Java で HTML を操作するときの目標は、Web ページからデータを抽出したり、その構造を操作したり、そのコンテンツを分析したりすることかもしれません。これらのタスクを実行するには、HTML を効果的に読み取って解析する必要があります。以下の手順に従って、Java で HTML ファイルを読み取ることができます。
- HTMLDocument クラスを使用して、入力 HTML コンテンツを取得します。
- OuterHTMLプロパティでHTMLを読み込みます。
次のサンプル コードは、Java で HTML ファイルを読み取る方法を示しています。
String documentPath = "document.html";
// HTMLファイルをロードする
var document = new com.aspose.html.HTMLDocument(documentPath);
// ドキュメントのコンテンツを出力ストリームに書き込みます
System.out.println(document.getDocumentElement().getOuterHTML());
HTML ファイルに移動して Java で HTML コンテンツを読み取る
次の手順で説明するように、さまざまなノード間を移動することで、HTML データを反復処理できます。
- HTMLDocumentクラスでHTMLコンテンツを取得します。
- Body コンテンツの最初の子にアクセスします。
- 後続のノードに移動し、HTML コンテンツを読み取ります。
以下のコード スニペットは、Java で HTML を読み取るために HTML に移動する方法を詳しく説明しています。
// HTMLコードを準備する
var html_code = "<span>Hello</span> <span>World!</span>";
// 準備されたコードからドキュメントを初期化する
var document = new com.aspose.html.HTMLDocument(html_code, ".");
// BODY の最初の子 (最初の SPAN) への参照を取得します。
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello
// HTML要素間の空白への参照を取得します。
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '
// 2 番目の SPAN 要素への参照を取得します
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!
JavaでHTMLファイルを文字列として読み取る
以下に示す手順で、HTML ファイルのデータを文字列として解析し、テキスト形式にエクスポートできます。
- HTMLDocumentクラスのオブジェクトを作成します。
- HTML データのテキスト内容を解析します。
- 出力TXTファイルをエクスポートします。
次のコード サンプルは、Java で HTML ファイルを文字列として読み取る方法を説明しています。
// URLを使用してHTMLDocumentオブジェクトを初期化する
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
// HTML形式のテキスト内容を読む
String text = document.getBody().getTextContent();
// HTMLをテキストファイルにエクスポート
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());
オンラインで HTML を読む
専用のアプリケーションをインストールしなくても、HTML ページとデータを解析してテキストや画像をオンラインで抽出できます。次の HTML Reader and Parser Online ツールを使用し、簡単な手順に従って HTML データを読み取るだけです。
無料の評価ライセンス
API を最大限に評価するには、無料の一時ライセンス をリクエストできます。
まとめ
Java で HTML を読むことは、データ抽出や Web スクレイピングからカスタム Web アプリケーションの構築に至るまで、さまざまな Web 関連タスクに不可欠なスキルです。このブログ投稿で概説されている手順と例に従うことで、Java で HTML の操作を開始し、プロジェクトの幅広い可能性を解き放つことができます。ご質問がございましたら、フォーラムまでお気軽にお問い合わせください。