Lees HTML C#

Als u HTML in C# leest, gaat er een wereld aan mogelijkheden voor u open om te communiceren met webinhoud in C# .NET-applicaties. U kunt eenvoudig HTML-documenten parseren of navigeren voor eenvoudige gegevensextractie of complexe webscraping-taken in C# om HTML-inhoud te verwerken. Daarom behandelt deze blogpost hoe u HTML in C# kunt lezen, terwijl verschillende benaderingen worden besproken om HTML-inhoud te laden en de HTML-tekenreeks te parseren op basis van uw vereisten.

Configureer de HTML Reader-API in C#

U kunt de API eenvoudig downloaden via de sectie Nieuwe releases of Conholdate.Total for .NET installeren vanuit de NuGet-galerij door de volgende installatieopdracht uit te voeren in de Package Manager Console in Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

Lees een HTML-bestand in C#

HTML (Hypertext Markup Language) is de ruggengraat van webpagina’s en is verantwoordelijk voor het definiëren van de structuur en inhoud van websites. Het bestaat uit elementen die worden weergegeven door tags, die elk een specifiek doel dienen. Wanneer u een webpagina bezoekt, interpreteert uw browser de HTML-code en geeft deze weer in een visuele lay-out waarmee u kunt communiceren. Om HTML-inhoud in C# te lezen en te manipuleren, kunt u HTML-documenten parseren en navigeren door de onderstaande stappen te volgen:

  • Laad het HTML-bronbestand met de HTMLDocument-klasse-instantie.
  • Lees de HTML-inhoud met behulp van de eigenschap OuterHTML.

Het onderstaande codefragment laat zien hoe u een HTML-bestand leest met C#:

string documentPath = "document.html";

// Laad een HTML-bestand
var document = new HTMLDocument(documentPath);

// Schrijf de documentinhoud naar de uitvoerstroom
Console.WriteLine(document.DocumentElement.OuterHTML);

U moet de onderstaande stappen volgen om door een HTML-bestand te navigeren en de HTML-inhoud in C# te lezen:

  • Bereid HTML-code voor en initieer het HTMLDocument-klasseobject.
  • Verkrijg de verwijzing naar het eerste kind (eerste SPAN) van het LICHAAM.
  • Navigeer door de onderliggende knooppunten en extraheer informatie.

Het volgende codevoorbeeld laat zien hoe u door HTML-knooppunten navigeert om HTML-inhoud in C# te lezen:

// HTML-code voorbereiden
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialiseer een document vanuit de voorbereide code
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Verkrijg de verwijzing naar het eerste kind (eerste SPAN) van het LICHAAM
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Haal de verwijzing naar de witruimte tussen html-elementen op
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Haal de verwijzing naar het tweede SPAN-element op
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Lees HTML-bestand als tekenreeks in C#

U kunt HTML-bestanden als tekenreeks in C# vanaf elke URL lezen met de volgende stappen:

  • Initialiseer het HTMLDocument-klasseobject met URL.
  • Lees de tekstinhoud van het HTML-formaat.
  • Schrijf het TXT-bestand met geëxtraheerde tekst uit HTML via URL.

In het onderstaande codevoorbeeld wordt uitgelegd hoe u een HTML-bestand als String in C# vanaf elke URL kunt lezen:

// Initialiseer het HTMLDocument-object met URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Lees de tekstinhoud van het HTML-formaat
String text = document.Body.TextContent;
            
// Schrijf het TXT-bestand met de geëxtraheerde tekst
File.WriteAllText("Webpage.txt", text);

Gratis evaluatielicentie

U kunt een gratis tijdelijke licentie verkrijgen om eventuele evaluatiebeperkingen te vermijden.

Opsommen

HTML kunnen lezen in C# is een waardevolle vaardigheid bij het werken aan webgerelateerde projecten en gegevensextractietaken. In deze blogpost hebben we drie verschillende benaderingen voor het lezen van HTML in C# besproken. Hierdoor kunt u informatie van HTML-pagina’s schrapen of parseren voor verdere verwerking. U kunt echter nog vele andere functies van de API verkennen en neem gerust contact met ons op via het forum.

Zie ook