读取 HTML Java

阅读和解析 HTML 文档有助于从在线内容中提取信息。无论您是构建网络抓取工具、分析网络内容,还是仅仅需要从网页中提取一些文本。因此,本文介绍了如何用 Java 读取 HTML。

在 Java 中配置 HTML Reader API

您可以从 下载 页面配置 API,或使用以下 Maven 配置配置 Conholdate.Total for Java

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

为什么用 Java 读取 HTML?

在深入讨论技术方面之前,我们先简要讨论一下为什么阅读 Java 中的 HTML 很重要:

数据提取:HTML 是网络的基础,许多网站在其 HTML 结构中存储有价值的信息。通过从 HTML 文档解析和提取数据,您可以自动化数据收集和分析。

网页抓取:在构建网页抓取工具时,Java 提供了访问和抓取 HTML 内容的功能,使您能够出于各种目的从网站收集数据,例如市场研究或数据分析。

自定义 Web 应用程序:Java 可用于创建与 HTML 内容交互的自定义 Web 应用程序和服务,从而允许您构建基于 Web 的工具或集成外部数据源。

用 Java 读取 HTML 文件

HTML(超文本标记语言)是创建网页的标准语言。在 Java 中使用 HTML 时,您的目标可能是从网页中提取数据、操作其结构或分析其内容。为了完成这些任务,您需要有效地读取和解析 HTML。您可以按照以下步骤用 Java 读取 HTML 文件:

  • 使用 HTMLDocument 类获取输入 HTML 内容。
  • 使用 OuterHTML 属性读取 HTML。

以下示例代码展示了如何用 Java 读取 HTML 文件:

String documentPath = "document.html";

// 加载 HTML 文件
var document = new com.aspose.html.HTMLDocument(documentPath);

// 将文档内容写入输出流
System.out.println(document.getDocumentElement().getOuterHTML());

在 Java 中导航 HTML 文件以读取 HTML 内容

您可以通过导航不同的节点来迭代 HTML 数据,如以下步骤所述:

  • 使用 HTMLDocument 类获取 HTML 内容。
  • 访问正文内容的第一个子级。
  • 导航后续节点并读取 HTML 内容。

下面的代码片段详细介绍了如何在 Java 中导航 HTML 来读取 HTML:

// 准备 HTML 代码
var html_code = "<span>Hello</span> <span>World!</span>";

// 从准备好的代码初始化文档
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// 获取对 BODY 的第一个子级(第一个 SPAN)的引用
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// 获取对 html 元素之间空白的引用
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// 获取对第二个 SPAN 元素的引用
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

在 Java 中将 HTML 文件作为字符串读取

您可以按照下列步骤将 HTML 文件中的数据解析为字符串并将其导出为文本格式:

  • 创建 HTMLDocument 类的对象。
  • 解析 HTML 数据的文本内容。
  • 导出输出 TXT 文件。

以下代码示例说明了如何在 Java 中将 HTML 文件读取为字符串:

// 使用 URL 初始化 HTMLDocument 对象
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// 读取HTML格式的文本内容
String text = document.getBody().getTextContent();
            
// 将 HTML 导出到文本文件
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

在线阅读 HTML

您可以解析 HTML 页面和数据以在线提取文本或图像,而无需安装任何专门的应用程序。只需使用以下HTML Reader and Parser Online工具并按照简单的步骤即可读取HTML数据。

免费评估许可证

您可以请求 免费临时许可证 来评估 API 的全部功能。

加起来

在 Java 中阅读 HTML 是执行各种 Web 相关任务(从数据提取和 Web 抓取到构建自定义 Web 应用程序)的一项基本技能。通过遵循本博客文章中概述的步骤和示例,您可以开始在 Java 中使用 HTML 并为您的项目释放广泛的可能性。如有任何疑问,请随时通过论坛与我们联系。

也可以看看