Lire HTML C#

La lecture de HTML en C# vous ouvre un monde de possibilités pour interagir avec le contenu Web dans les applications C# .NET. Vous pouvez facilement analyser ou parcourir des documents HTML pour une simple extraction de données ou des tâches complexes de web scraping en C# pour traiter le contenu HTML. En conséquence, cet article de blog explique comment lire du HTML en C# tout en couvrant différentes approches pour charger du contenu HTML et analyser la chaîne HTML en fonction de vos besoins.

Configurer l’API HTML Reader en C#

Vous pouvez facilement télécharger l’API à partir de la section Nouvelles versions ou installer Conholdate.Total pour .NET à partir de la galerie NuGet en exécutant la commande d’installation suivante dans la console du gestionnaire de packages dans Visual Studio :

PM> NuGet\Install-Package Conholdate.Total

Lire un fichier HTML en C#

HTML (Hypertext Markup Language) est l’épine dorsale des pages Web, chargé de définir la structure et le contenu des sites Web. Il se compose d’éléments représentés par des balises, chacune servant un objectif spécifique. Lorsque vous accédez à une page Web, votre navigateur interprète le code HTML et le restitue dans une présentation visuelle avec laquelle vous pouvez interagir. Pour lire et manipuler du contenu HTML en C#, vous pouvez analyser et parcourir les documents HTML en suivant les étapes ci-dessous :

  • Chargez le fichier HTML source avec l’instance de classe HTMLDocument.
  • Lisez le contenu HTML à l’aide de la propriété OuterHTML.

L’extrait de code ci-dessous montre comment lire un fichier HTML à l’aide de C# :

string documentPath = "document.html";

// Charger un fichier HTML
var document = new HTMLDocument(documentPath);

// Écrire le contenu du document dans le flux de sortie
Console.WriteLine(document.DocumentElement.OuterHTML);

Vous devez suivre les étapes ci-dessous pour parcourir un fichier HTML et lire le contenu HTML en C# :

  • Préparez le code HTML et lancez l’objet de classe HTMLDocument.
  • Obtenez la référence au premier enfant (premier SPAN) du BODY.
  • Parcourez les nœuds enfants et extrayez les informations.

L’exemple de code suivant montre comment parcourir les nœuds HTML pour lire le contenu HTML en C# :

// Préparer le code HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialiser un document à partir du code préparé
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Obtenir la référence au premier enfant (premier SPAN) du BODY
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Obtenez la référence à l'espace entre les éléments HTML
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Obtenez la référence au deuxième élément SPAN
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Lire le fichier HTML sous forme de chaîne en C#

Vous pouvez lire des fichiers HTML sous forme de chaîne en C# à partir de n’importe quelle URL en procédant comme suit :

  • Initialisez l’objet de classe HTMLDocument avec l’URL.
  • Lisez le contenu du texte au format HTML.
  • Écrivez le fichier TXT avec le texte extrait du HTML via une URL.

L’exemple de code ci-dessous explique comment lire un fichier HTML sous forme de chaîne en C# à partir de n’importe quelle URL :

// Initialiser l'objet HTMLDocument avec l'URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Lire le contenu du texte au format HTML
String text = document.Body.TextContent;
            
// Écrivez le fichier TXT avec le texte extrait
File.WriteAllText("Webpage.txt", text);

Licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour éviter toute limitation d’évaluation.

Résumé

Être capable de lire du HTML en C# est une compétence précieuse pour travailler sur des projets liés au Web et des tâches d’extraction de données. Dans cet article de blog, nous avons abordé trois approches différentes pour lire du HTML en C#. Cela vous permet de récupérer ou d’analyser les informations des pages HTML pour un traitement ultérieur. Cependant, vous pouvez explorer de nombreuses autres fonctionnalités offertes par l’API et n’hésitez pas à nous contacter sur le forum.

Voir également