Чтение HTML С#

Чтение HTML на C# открывает перед вами целый мир возможностей взаимодействия с веб-контентом в приложениях C# .NET. Вы можете легко анализировать HTML-документы или перемещаться по ним для простого извлечения данных или сложных задач по очистке веб-страниц на C# для обработки HTML-контента. Соответственно, в этом сообщении блога рассказывается, как читать HTML на C#, а также рассматриваются различные подходы к загрузке содержимого HTML и анализу строки HTML в соответствии с вашими требованиями.

Настройка API чтения HTML на C#

Вы можете легко загрузить API из раздела Новые выпуски или установить Conholdate.Total для .NET из галереи NuGet, выполнив следующую команду установки в консоли диспетчера пакетов в Visual Studio:

PM> NuGet\Install-Package Conholdate.Total

Чтение HTML-файла на C#

HTML (язык гипертекстовой разметки) — это основа веб-страниц, отвечающая за определение структуры и содержания веб-сайтов. Он состоит из элементов, представленных тегами, каждый из которых служит определенной цели. Когда вы заходите на веб-страницу, ваш браузер интерпретирует HTML-код и преобразует его в визуальный макет, с которым вы можете взаимодействовать. Чтобы читать HTML-содержимое и манипулировать им в C#, вы можете анализировать HTML-документы и перемещаться по ним, выполнив следующие действия:

  • Загрузите исходный HTML-файл с экземпляром класса HTMLDocument.
  • Прочитайте содержимое HTML, используя свойство OuterHTML.

Приведенный ниже фрагмент кода демонстрирует, как читать HTML-файл с помощью C#:

string documentPath = "document.html";

// Загрузите HTML-файл
var document = new HTMLDocument(documentPath);

// Запишите содержимое документа в выходной поток
Console.WriteLine(document.DocumentElement.OuterHTML);

Перейдите к HTML-файлу для чтения HTML-содержимого на C#

Вам необходимо выполнить следующие шаги, чтобы перемещаться по HTML-файлу и читать его содержимое на C#:

  • Подготовьте HTML-код и инициируйте объект класса HTMLDocument.
  • Получите ссылку на первого дочернего элемента (первый SPAN) объекта BODY.
  • Перемещайтесь по дочерним узлам и извлекайте информацию.

В следующем примере кода показано, как перемещаться по узлам HTML для чтения содержимого HTML на C#:

// Подготовьте HTML-код
var html_code = "<span>Hello</span> <span>World!</span>";

// Инициализировать документ из подготовленного кода
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // Получите ссылку на первого дочернего элемента (первый SPAN) тела BODY.
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Получите ссылку на пробелы между элементами html.
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // Получите ссылку на второй элемент SPAN
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

Чтение HTML-файла как строки в C#

Вы можете читать HTML-файлы в виде строки на C# с любого URL-адреса, выполнив следующие действия:

  • Инициализируйте объект класса HTMLDocument с помощью URL-адреса.
  • Прочитайте текстовое содержимое формата HTML.
  • Запишите файл TXT с извлеченным текстом из HTML через URL.

В приведенном ниже примере кода показано, как читать HTML-файл как строку в C# с любого URL-адреса:

// Инициализировать объект HTMLDocument с помощью URL-адреса
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// Чтение текстового содержимого формата HTML
String text = document.Body.TextContent;
            
// Запишите файл TXT с извлеченным текстом.
File.WriteAllText("Webpage.txt", text);

Бесплатная пробная лицензия

Вы можете получить бесплатную временную лицензию, чтобы избежать каких-либо ограничений оценки.

Подведение итогов

Умение читать HTML на C# — ценный навык для работы над веб-проектами и задачами по извлечению данных. В этом сообщении блога мы рассмотрели три различных подхода к чтению HTML на C#. Это позволяет вам собирать или анализировать информацию с HTML-страниц для дальнейшей обработки. Однако вы можете изучить множество других функций, предлагаемых API, и связаться с нами на форуме.

Смотрите также