Чтение HTML Java

Чтение и анализ документов HTML помогает извлекать информацию из онлайн-контента. Независимо от того, создаете ли вы веб-скребок, анализируете веб-контент или просто хотите извлечь текст с веб-страницы. Соответственно, в этой статье рассказывается, как читать HTML на Java.

Настройка API чтения HTML в Java

Вы можете настроить API на страницах Загрузки или настроить Conholdate.Total для Java, используя следующие конфигурации Maven:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Зачем читать HTML на Java?

Прежде чем мы углубимся в технические аспекты, давайте кратко обсудим, почему важно читать HTML в Java:

Извлечение данных: HTML является основой Интернета, и многие веб-сайты хранят ценную информацию в своей структуре HTML. Анализируя и извлекая данные из HTML-документов, вы можете автоматизировать сбор и анализ данных.

Веб-скрапинг: при создании инструментов веб-скрапинга Java предоставляет возможность доступа и парсинга HTML-контента, что позволяет собирать данные с веб-сайтов для различных целей, таких как исследование рынка или анализ данных.

Пользовательские веб-приложения. Java можно использовать для создания пользовательских веб-приложений и сервисов, которые взаимодействуют с содержимым HTML, что позволяет создавать веб-инструменты или интегрировать внешние источники данных.

Чтение HTML-файла в Java

HTML (язык гипертекстовой разметки) — это стандартный язык для создания веб-страниц. При работе с HTML в Java вашей целью может быть извлечение данных из веб-страницы, манипулирование ее структурой или анализ ее содержимого. Для выполнения этих задач вам необходимо эффективно читать и анализировать HTML. Вы можете прочитать HTML-файл на Java, выполнив следующие действия:

  • Получите входное HTML-содержимое, используя класс HTMLDocument.
  • Прочитайте HTML с помощью свойства OuterHTML.

В следующем примере кода показано, как читать HTML-файлы на Java:

String documentPath = "document.html";

// Загрузите HTML-файл
var document = new com.aspose.html.HTMLDocument(documentPath);

// Запишите содержимое документа в выходной поток
System.out.println(document.getDocumentElement().getOuterHTML());

Перейдите к HTML-файлу для чтения HTML-содержимого в Java

Вы можете перебирать данные HTML, перемещаясь по различным узлам, как описано в следующих шагах:

  • Получите HTML-контент с помощью класса HTMLDocument.
  • Доступ к первому дочернему элементу содержимого Body.
  • Перемещайтесь по последующим узлам и читайте содержимое HTML.

В приведенном ниже фрагменте кода подробно описано, как перемещаться по HTML для чтения HTML в Java:

// Подготовьте HTML-код
var html_code = "<span>Hello</span> <span>World!</span>";

// Инициализировать документ из подготовленного кода
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Получите ссылку на первого дочернего элемента (первый SPAN) тела BODY.
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Получите ссылку на пробелы между элементами html.
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Получите ссылку на второй элемент SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Чтение HTML-файла как строки в Java

Вы можете анализировать данные из файлов HTML как строку и экспортировать их в текстовый формат, выполнив действия, перечисленные ниже:

  • Создайте объект класса HTMLDocument.
  • Анализируйте текстовое содержимое HTML-данных.
  • Экспортируйте выходной файл TXT.

В следующем примере кода объясняется, как читать HTML-файл как строку в Java:

// Инициализировать объект HTMLDocument с помощью URL-адреса
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Чтение текстового содержимого формата HTML
String text = document.getBody().getTextContent();
            
// Экспортировать HTML в текстовый файл
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Читать HTML онлайн

Вы можете анализировать HTML-страницы и данные для извлечения текста или изображений онлайн без необходимости установки какого-либо специального приложения. Просто используйте следующий инструмент HTML Reader and Parser Online и следуйте простым шагам для чтения данных HTML.

Бесплатная пробная лицензия

Вы можете запросить бесплатную временную лицензию, чтобы оценить API на полную мощность.

Подведение итогов

Чтение HTML на Java является важным навыком для выполнения различных задач, связанных с Интернетом, от извлечения данных и очистки веб-страниц до создания пользовательских веб-приложений. Следуя шагам и примерам, изложенным в этом сообщении блога, вы сможете начать работать с HTML на Java и открыть широкий спектр возможностей для своих проектов. В случае возникновения каких-либо вопросов, пожалуйста, обращайтесь к нам на форум.

Смотрите также