Lire du HTML en Java

La lecture et l’analyse de documents HTML permettent d’extraire des informations du contenu en ligne. Que vous créiez un grattoir Web, analysiez du contenu Web ou que vous ayez simplement besoin d’extraire du texte d’une page Web. En conséquence, cet article explique comment lire du HTML en Java.

Configurer l’API HTML Reader en Java

Vous pouvez configurer l’API à partir des pages Téléchargements ou configurer Conholdate.Total pour Java à l’aide des configurations Maven suivantes :

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Pourquoi lire du HTML en Java ?

Avant de plonger dans les aspects techniques, expliquons brièvement pourquoi la lecture du HTML en Java est importante :

Extraction de données : HTML est la base du Web et de nombreux sites Web stockent des informations précieuses dans leur structure HTML. En analysant et en extrayant des données à partir de documents HTML, vous pouvez automatiser la collecte et l’analyse des données.

Web Scraping : lors de la création d’outils de web scraping, Java offre la possibilité d’accéder et de récupérer du contenu HTML, vous permettant ainsi de collecter des données à partir de sites Web à diverses fins, telles que des études de marché ou des analyses de données.

Applications Web personnalisées : Java peut être utilisé pour créer des applications et des services Web personnalisés qui interagissent avec le contenu HTML, vous permettant ainsi de créer des outils Web ou d’intégrer des sources de données externes.

Lire un fichier HTML en Java

HTML (Hypertext Markup Language) est le langage standard pour créer des pages Web. Lorsque vous travaillez avec HTML en Java, votre objectif peut être d’extraire des données d’une page Web, de manipuler sa structure ou d’analyser son contenu. Pour accomplir ces tâches, vous devez lire et analyser efficacement le HTML. Vous pouvez lire un fichier HTML en Java en suivant les étapes ci-dessous :

Obtenez le contenu HTML d’entrée à l’aide de la classe HTMLDocument.
Lisez le code HTML avec la propriété OuterHTML.

L’exemple de code suivant montre comment lire des fichiers HTML en Java :

String documentPath = "document.html";

// Charger un fichier HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Écrire le contenu du document dans le flux de sortie
System.out.println(document.getDocumentElement().getOuterHTML());

Naviguer dans le fichier HTML pour lire le contenu HTML en Java

Vous pouvez parcourir les données HTML en naviguant à travers différents nœuds, comme indiqué dans les étapes suivantes :

Obtenez le contenu HTML avec la classe HTMLDocument.
Accédez au premier enfant du contenu Body.
Parcourez les nœuds suivants et lisez le contenu HTML.

L’extrait de code ci-dessous explique comment naviguer dans HTML pour lire du HTML en Java :

// Préparer le code HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialiser un document à partir du code préparé
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Obtenir la référence au premier enfant (premier SPAN) du BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Obtenez la référence à l'espace entre les éléments HTML
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Obtenez la référence au deuxième élément SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Lire le fichier HTML sous forme de chaîne en Java

Vous pouvez analyser les données des fichiers HTML sous forme de chaîne et les exporter au format texte en suivant les étapes répertoriées ci-dessous :

Créez un objet de la classe HTMLDocument.
Analysez le contenu textuel des données HTML.
Exportez le fichier TXT de sortie.

L’exemple de code suivant explique comment lire un fichier HTML sous forme de chaîne en Java :

// Initialiser l'objet HTMLDocument avec l'URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Lire le contenu du texte au format HTML
String text = document.getBody().getTextContent();
            
// Exporter du HTML vers un fichier texte
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Lire le HTML en ligne

Vous pouvez analyser des pages et des données HTML pour extraire du texte ou des images en ligne sans avoir besoin d’installer d’application spécialisée. Utilisez simplement l’outil suivant HTML Reader and Parser Online et suivez des étapes simples pour lire les données HTML.

Licence d’évaluation gratuite

Vous pouvez demander une licence temporaire gratuite pour évaluer l’API dans sa pleine capacité.

Résumé

La lecture de HTML en Java est une compétence essentielle pour diverses tâches liées au Web, de l’extraction de données et du web scraping à la création d’applications Web personnalisées. En suivant les étapes et les exemples décrits dans cet article de blog, vous pouvez commencer à travailler avec HTML en Java et débloquer un large éventail de possibilités pour vos projets. En cas de questions, n’hésitez pas à nous contacter sur le forum.

Configurer l’API HTML Reader en Java#

Pourquoi lire du HTML en Java ?#

Lire un fichier HTML en Java#

Naviguer dans le fichier HTML pour lire le contenu HTML en Java#

Lire le fichier HTML sous forme de chaîne en Java#

Lire le HTML en ligne#

Licence d’évaluation gratuite#

Résumé#

Voir également#