Czytaj HTML C#

Czytanie HTML w języku C# otwiera przed Tobą świat możliwości interakcji z treścią internetową w aplikacjach C# .NET. Możesz łatwo analizować dokumenty HTML lub nawigować w nich w celu prostego wyodrębniania danych lub złożonych zadań przeglądania stron internetowych w języku C# w celu przetwarzania zawartości HTML. W związku z tym w tym wpisie na blogu opisano sposób czytania kodu HTML w języku C#, a jednocześnie omówiono różne podejścia do ładowania treści HTML i analizowania ciągu HTML w oparciu o Twoje wymagania.

Skonfiguruj API czytnika HTML w C#

Możesz łatwo pobrać interfejs API z sekcji Nowości lub zainstalować Conholdate.Total dla .NET z galerii NuGet, uruchamiając następujące polecenie instalacji w konsoli Menedżera pakietów w Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

Przeczytaj plik HTML w C#

HTML (Hypertext Markup Language) to szkielet stron internetowych, odpowiedzialny za określenie struktury i zawartości stron internetowych. Składa się z elementów reprezentowanych przez znaczniki, z których każdy służy określonemu celowi. Gdy uzyskujesz dostęp do strony internetowej, Twoja przeglądarka interpretuje kod HTML i renderuje go w układzie wizualnym, z którym możesz wchodzić w interakcję. Aby czytać i manipulować zawartością HTML w języku C#, możesz analizować dokumenty HTML i nawigować w nich, wykonując poniższe kroki:

  • Załaduj źródłowy plik HTML z instancją klasy HTMLDocument.
  • Przeczytaj treść HTML, korzystając z właściwości OuterHTML.

Poniższy fragment kodu demonstruje, jak odczytać plik HTML przy użyciu języka C#:

string documentPath = "document.html";

// Załaduj plik HTML
var document = new HTMLDocument(documentPath);

// Zapisz treść dokumentu w strumieniu wyjściowym
Console.WriteLine(document.DocumentElement.OuterHTML);

Nawiguj po pliku HTML, aby przeczytać zawartość HTML w języku C#

Aby nawigować po pliku HTML i czytać zawartość HTML w języku C#, wykonaj poniższe czynności:

  • Przygotuj kod HTML i zainicjuj obiekt klasy HTMLDocument.
  • Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY.
  • Nawiguj po węzłach podrzędnych i wyodrębniaj informacje.

Poniższy przykładowy kod pokazuje, jak nawigować po węzłach HTML w celu odczytania zawartości HTML w języku C#:

// Przygotuj kod HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Zainicjuj dokument z przygotowanego kodu
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Pobierz odwołanie do białych znaków między elementami HTML
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Pobierz odwołanie do drugiego elementu SPAN
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Przeczytaj plik HTML jako ciąg w C#

Możesz czytać pliki HTML jako ciąg znaków w języku C# z dowolnego adresu URL, wykonując następujące kroki:

  • Zainicjuj obiekt klasy HTMLDocument za pomocą adresu URL.
  • Przeczytaj zawartość tekstową w formacie HTML.
  • Zapisz plik TXT z wyodrębnionym tekstem z HTML za pośrednictwem adresu URL.

Poniższy przykładowy kod opisuje, jak odczytać plik HTML jako ciąg znaków w języku C# z dowolnego adresu URL:

// Zainicjuj obiekt HTMLDocument za pomocą adresu URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Przeczytaj zawartość tekstową w formacie HTML
String text = document.Body.TextContent;
            
// Zapisz plik TXT z wyodrębnionym tekstem
File.WriteAllText("Webpage.txt", text);

Bezpłatna licencja ewaluacyjna

Możesz uzyskać bezpłatną licencję tymczasową, aby uniknąć jakichkolwiek ograniczeń związanych z oceną.

Podsumowując

Umiejętność czytania kodu HTML w języku C# jest cenną umiejętnością przy pracy nad projektami internetowymi i zadaniami związanymi z ekstrakcją danych. W tym poście na blogu omówiliśmy trzy różne podejścia do czytania HTML w C#. Umożliwia to pobieranie lub analizowanie informacji ze stron HTML w celu dalszego przetwarzania. Możesz jednak poznać wiele innych funkcji oferowanych przez interfejs API i skontaktuj się z nami na forum.

Zobacz też