HTML C# lesen

Das Lesen von HTML in C# eröffnet Ihnen eine Welt voller Möglichkeiten für die Interaktion mit Webinhalten in C# .NET-Anwendungen. Sie können HTML Dokumente für einfache Datenextraktion oder komplexe Web-Scraping-Aufgaben in C# einfach analysieren oder durchsuchen, um HTML-Inhalte zu verarbeiten. Dementsprechend behandelt dieser Blogbeitrag das Lesen von HTML in C# und behandelt gleichzeitig verschiedene Ansätze zum Laden von HTML-Inhalten und zum Parsen der HTML-Zeichenfolge basierend auf Ihren Anforderungen.

Konfigurieren Sie die HTML-Reader-API in C#

Sie können die API ganz einfach aus dem Abschnitt Neue Versionen herunterladen oder Conholdate.Total für .NET aus der NuGet-Galerie installieren, indem Sie den folgenden Installationsbefehl in der Paket-Manager-Konsole in Visual Studio ausführen:

PM> NuGet\Install-Package Conholdate.Total

Lesen Sie eine HTML-Datei in C#

HTML (Hypertext Markup Language) ist das Rückgrat von Webseiten und verantwortlich für die Definition der Struktur und des Inhalts von Websites. Es besteht aus Elementen, die durch Tags dargestellt werden und jeweils einem bestimmten Zweck dienen. Wenn Sie auf eine Webseite zugreifen, interpretiert Ihr Browser den HTML-Code und stellt ihn in ein visuelles Layout um, mit dem Sie interagieren können. Um HTML-Inhalte in C# zu lesen und zu bearbeiten, können Sie HTML Dokumente analysieren und darin navigieren, indem Sie die folgenden Schritte ausführen:

  • Laden Sie die HTML-Quelldatei mit der HTMLDocument Klasseninstanz.
  • Lesen Sie den HTML-Inhalt mit der Eigenschaft OuterHTML.

Der folgende Codeausschnitt zeigt, wie man eine HTML-Datei mit C# liest:

string documentPath = "document.html";

// Laden Sie eine HTML-Datei
var document = new HTMLDocument(documentPath);

// Schreiben Sie den Dokumentinhalt in den Ausgabestream
Console.WriteLine(document.DocumentElement.OuterHTML);

Sie müssen die folgenden Schritte ausführen, um in einer HTML-Datei zu navigieren und den HTML-Inhalt in C# zu lesen:

  • Bereiten Sie den HTML-Code vor und initiieren Sie das HTMLDocument Klassenobjekt.
  • Rufen Sie den Verweis auf das erste untergeordnete Element (erste SPAN) des BODY ab.
  • Navigieren Sie durch die untergeordneten Knoten und extrahieren Sie Informationen.

Das folgende Codebeispiel zeigt, wie Sie durch HTML-Knoten navigieren, um HTML-Inhalte in C# zu lesen:

// Bereiten Sie den HTML-Code vor
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialisieren Sie ein Dokument aus dem vorbereiteten Code
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Rufen Sie den Verweis auf das erste untergeordnete Element (erste SPAN) des BODY ab
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Rufen Sie den Verweis auf den Leerraum zwischen HTML-Elementen ab
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Rufen Sie den Verweis auf das zweite SPAN-Element ab
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

HTML-Datei als String in C# lesen

Mit den folgenden Schritten können Sie HTML Dateien als String in C# von jeder URL lesen:

  • Initialisieren Sie das HTMLDocument Klassenobjekt mit der URL.
  • Lesen Sie den Textinhalt des HTML-Formats.
  • Schreiben Sie die TXT-Datei mit extrahiertem Text aus HTML über die URL.

Das folgende Codebeispiel erläutert, wie eine HTML-Datei als String in C# von einer beliebigen URL gelesen wird:

// HTMLDocument Objekt mit URL initialisieren
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Lesen Sie den Textinhalt des HTML-Formats
String text = document.Body.TextContent;
            
// Schreiben Sie die TXT-Datei mit extrahiertem Text
File.WriteAllText("Webpage.txt", text);

Kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz erwerben, um etwaige Einschränkungen bei der Evaluierung zu vermeiden.

Zusammenfassen

Die Fähigkeit, HTML in C# zu lesen, ist eine wertvolle Fähigkeit für die Arbeit an webbezogenen Projekten und Datenextraktionsaufgaben. In diesem Blogbeitrag haben wir drei verschiedene Ansätze zum Lesen von HTML in C# behandelt. Dadurch können Sie Informationen aus HTML-Seiten zur weiteren Verarbeitung extrahieren oder analysieren. Sie können jedoch viele andere von der API angebotene Funktionen erkunden und sich gerne im Forum an uns wenden.

Siehe auch