
Чтение HTML на C# открывает перед вами целый мир возможностей взаимодействия с веб-контентом в приложениях C# .NET. Вы можете легко анализировать HTML-документы или перемещаться по ним для простого извлечения данных или сложных задач по очистке веб-страниц на C# для обработки HTML-контента. Соответственно, в этом сообщении блога рассказывается, как читать HTML на C#, а также рассматриваются различные подходы к загрузке содержимого HTML и анализу строки HTML в соответствии с вашими требованиями.
Настройка API чтения HTML на C#
Вы можете легко загрузить API из раздела Новые выпуски или установить Conholdate.Total для .NET из галереи NuGet, выполнив следующую команду установки в консоли диспетчера пакетов в Visual Studio:
PM> NuGet\Install-Package Conholdate.Total
Чтение HTML-файла на C#
HTML (язык гипертекстовой разметки) — это основа веб-страниц, отвечающая за определение структуры и содержания веб-сайтов. Он состоит из элементов, представленных тегами, каждый из которых служит определенной цели. Когда вы заходите на веб-страницу, ваш браузер интерпретирует HTML-код и преобразует его в визуальный макет, с которым вы можете взаимодействовать. Чтобы читать HTML-содержимое и манипулировать им в C#, вы можете анализировать HTML-документы и перемещаться по ним, выполнив следующие действия:
- Загрузите исходный HTML-файл с экземпляром класса HTMLDocument.
- Прочитайте содержимое HTML, используя свойство OuterHTML.
Приведенный ниже фрагмент кода демонстрирует, как читать HTML-файл с помощью C#:
string documentPath = "document.html";
// Загрузите HTML-файл
var document = new HTMLDocument(documentPath);
// Запишите содержимое документа в выходной поток
Console.WriteLine(document.DocumentElement.OuterHTML);
Перейдите к HTML-файлу для чтения HTML-содержимого на C#
Вам необходимо выполнить следующие шаги, чтобы перемещаться по HTML-файлу и читать его содержимое на C#:
- Подготовьте HTML-код и инициируйте объект класса HTMLDocument.
- Получите ссылку на первого дочернего элемента (первый SPAN) объекта BODY.
- Перемещайтесь по дочерним узлам и извлекайте информацию.
В следующем примере кода показано, как перемещаться по узлам HTML для чтения содержимого HTML на C#:
// Подготовьте HTML-код
var html_code = "<span>Hello</span> <span>World!</span>";
// Инициализировать документ из подготовленного кода
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
// Получите ссылку на первого дочернего элемента (первый SPAN) тела BODY.
var element = document.Body.FirstChild;
Console.WriteLine(element.TextContent); // output: Hello
// Получите ссылку на пробелы между элементами html.
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: ' '
// Получите ссылку на второй элемент SPAN
element = element.NextSibling;
Console.WriteLine(element.TextContent); // output: World!
}
Чтение HTML-файла как строки в C#
Вы можете читать HTML-файлы в виде строки на C# с любого URL-адреса, выполнив следующие действия:
- Инициализируйте объект класса HTMLDocument с помощью URL-адреса.
- Прочитайте текстовое содержимое формата HTML.
- Запишите файл TXT с извлеченным текстом из HTML через URL.
В приведенном ниже примере кода показано, как читать HTML-файл как строку в C# с любого URL-адреса:
// Инициализировать объект HTMLDocument с помощью URL-адреса
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
// Чтение текстового содержимого формата HTML
String text = document.Body.TextContent;
// Запишите файл TXT с извлеченным текстом.
File.WriteAllText("Webpage.txt", text);
Бесплатная пробная лицензия
Вы можете получить бесплатную временную лицензию, чтобы избежать каких-либо ограничений оценки.
Подведение итогов
Умение читать HTML на C# — ценный навык для работы над веб-проектами и задачами по извлечению данных. В этом сообщении блога мы рассмотрели три различных подхода к чтению HTML на C#. Это позволяет вам собирать или анализировать информацию с HTML-страниц для дальнейшей обработки. Однако вы можете изучить множество других функций, предлагаемых API, и связаться с нами на форуме.