
Czytanie HTML w języku C# otwiera przed Tobą świat możliwości interakcji z treścią internetową w aplikacjach C# .NET. Możesz łatwo analizować dokumenty HTML lub nawigować w nich w celu prostego wyodrębniania danych lub złożonych zadań przeglądania stron internetowych w języku C# w celu przetwarzania zawartości HTML. W związku z tym w tym wpisie na blogu opisano sposób czytania kodu HTML w języku C#, a jednocześnie omówiono różne podejścia do ładowania treści HTML i analizowania ciągu HTML w oparciu o Twoje wymagania.
Skonfiguruj API czytnika HTML w C#
Możesz łatwo pobrać interfejs API z sekcji Nowości lub zainstalować Conholdate.Total dla .NET z galerii NuGet, uruchamiając następujące polecenie instalacji w konsoli Menedżera pakietów w Visual Studio:
PM> NuGet\Install-Package Conholdate.Total
Przeczytaj plik HTML w C#
HTML (Hypertext Markup Language) to szkielet stron internetowych, odpowiedzialny za określenie struktury i zawartości stron internetowych. Składa się z elementów reprezentowanych przez znaczniki, z których każdy służy określonemu celowi. Gdy uzyskujesz dostęp do strony internetowej, Twoja przeglądarka interpretuje kod HTML i renderuje go w układzie wizualnym, z którym możesz wchodzić w interakcję. Aby czytać i manipulować zawartością HTML w języku C#, możesz analizować dokumenty HTML i nawigować w nich, wykonując poniższe kroki:
- Załaduj źródłowy plik HTML z instancją klasy HTMLDocument.
- Przeczytaj treść HTML, korzystając z właściwości OuterHTML.
Poniższy fragment kodu demonstruje, jak odczytać plik HTML przy użyciu języka C#:
string documentPath = "document.html";
// Załaduj plik HTML
var document = new HTMLDocument(documentPath);
// Zapisz treść dokumentu w strumieniu wyjściowym
Console.WriteLine(document.DocumentElement.OuterHTML);
Nawiguj po pliku HTML, aby przeczytać zawartość HTML w języku C#
Aby nawigować po pliku HTML i czytać zawartość HTML w języku C#, wykonaj poniższe czynności:
- Przygotuj kod HTML i zainicjuj obiekt klasy HTMLDocument.
- Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY.
- Nawiguj po węzłach podrzędnych i wyodrębniaj informacje.
Poniższy przykładowy kod pokazuje, jak nawigować po węzłach HTML w celu odczytania zawartości HTML w języku C#:
// Przygotuj kod HTML
var html_code = "<span>Hello</span> <span>World!</span>";
// Zainicjuj dokument z przygotowanego kodu
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
// Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY
var element = document.Body.FirstChild;
Console.WriteLine(element.TextContent); // output: Hello
// Pobierz odwołanie do białych znaków między elementami HTML
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: ' '
// Pobierz odwołanie do drugiego elementu SPAN
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: World!
}
Przeczytaj plik HTML jako ciąg w C#
Możesz czytać pliki HTML jako ciąg znaków w języku C# z dowolnego adresu URL, wykonując następujące kroki:
- Zainicjuj obiekt klasy HTMLDocument za pomocą adresu URL.
- Przeczytaj zawartość tekstową w formacie HTML.
- Zapisz plik TXT z wyodrębnionym tekstem z HTML za pośrednictwem adresu URL.
Poniższy przykładowy kod opisuje, jak odczytać plik HTML jako ciąg znaków w języku C# z dowolnego adresu URL:
// Zainicjuj obiekt HTMLDocument za pomocą adresu URL
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
// Przeczytaj zawartość tekstową w formacie HTML
String text = document.Body.TextContent;
// Zapisz plik TXT z wyodrębnionym tekstem
File.WriteAllText("Webpage.txt", text);
Bezpłatna licencja ewaluacyjna
Możesz uzyskać bezpłatną licencję tymczasową, aby uniknąć jakichkolwiek ograniczeń związanych z oceną.
Podsumowując
Umiejętność czytania kodu HTML w języku C# jest cenną umiejętnością przy pracy nad projektami internetowymi i zadaniami związanymi z ekstrakcją danych. W tym poście na blogu omówiliśmy trzy różne podejścia do czytania HTML w C#. Umożliwia to pobieranie lub analizowanie informacji ze stron HTML w celu dalszego przetwarzania. Możesz jednak poznać wiele innych funkcji oferowanych przez interfejs API i skontaktuj się z nami na forum.