HTML C#'ı okuyun

C#’ta HTML okumak, C# .NET uygulamalarındaki web içeriğiyle etkileşim kurmanız için bir olasılıklar dünyasının kapılarını açar. HTML içeriğini işlemek amacıyla C#’ta basit veri çıkarma veya karmaşık web kazıma görevleri için HTML belgelerini kolayca ayrıştırabilir veya bu belgelerde gezinebilirsiniz. Buna göre, bu blog yazısı C#’ta HTML’nin nasıl okunacağını ele alırken, HTML içeriğini yüklemek ve gereksinimlerinize göre HTML dizesini ayrıştırmak için farklı yaklaşımları da ele alıyor.

C#’ta HTML Reader API’sini yapılandırma

API’yi Yeni Sürümler bölümünden kolayca indirebilir veya Visual Studio’daki Paket Yönetici Konsolu’nda aşağıdaki kurulum komutunu çalıştırarak NuGet galerisinden Conholdate.Total for .NET‘ü yükleyebilirsiniz:

PM> NuGet\Install-Package Conholdate.Total

C# dilinde bir HTML Dosyasını Okuma

HTML (Köprü Metni Biçimlendirme Dili), web sitelerinin yapısını ve içeriğini tanımlamaktan sorumlu olan web sayfalarının omurgasıdır. Her biri belirli bir amaca hizmet eden, etiketlerle temsil edilen öğelerden oluşur. Bir web sayfasına eriştiğinizde, tarayıcınız HTML kodunu yorumlar ve onu etkileşimde bulunabileceğiniz görsel bir düzene dönüştürür. C#’ta HTML içeriğini okumak ve değiştirmek için aşağıdaki adımları izleyerek HTML belgelerini ayrıştırabilir ve bu belgelerde gezinebilirsiniz:

  • Kaynak HTML dosyasını HTMLDocument sınıfı örneğiyle yükleyin.
  • OuterHTML özelliğini kullanarak HTML içeriğini okuyun.

Aşağıdaki kod parçacığı, C# kullanarak bir HTML dosyasının nasıl okunacağını gösterir:

string documentPath = "document.html";

// Bir HTML dosyası yükleyin
var document = new HTMLDocument(documentPath);

// Belge içeriğini çıktı akışına yazın
Console.WriteLine(document.DocumentElement.OuterHTML);

C#’ta HTML İçeriğini Okumak için HTML Dosyasında Gezinme

C#’ta bir HTML dosyasında gezinmek ve HTML içeriğini okumak için aşağıdaki adımları izlemeniz gerekir:

  • HTML kodunu hazırlayın ve HTMLDocument sınıf nesnesini başlatın.
  • BODY’nin ilk çocuğuna (ilk SPAN) referansı alın.
  • Alt düğümlerde gezinin ve bilgileri çıkarın.

Aşağıdaki kod örneği, C#’ta HTML içeriğini okumak için HTML Düğümlerinde nasıl gezinileceğini gösterir:

// HTML kodunu hazırlayın
var html_code = "<span>Hello</span> <span>World!</span>";

// Hazırlanan koddan bir belgeyi başlat
using (var document = new Aspose.Html.HTMLDocument(html_code, "."))
{
    // BODY'nin ilk çocuğuna (ilk SPAN) referansı alın
    var element = document.Body.FirstChild;
    Console.WriteLine(element.TextContent); // output: Hello

    // Html öğeleri arasındaki boşluklara referans alın
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: ' '

    // İkinci SPAN öğesinin referansını alın
    element = element.NextSibling;
    Console.WriteLine(element.TextContent); // output: World!
}

C#’ta HTML Dosyasını Dize Olarak Oku

Aşağıdaki adımlarla HTML dosyalarını herhangi bir URL’den C# dilinde bir dize olarak okuyabilirsiniz:

  • HTMLDocument sınıfı nesnesini URL ile başlatın.
  • HTML formatının metin içeriğini okuyun.
  • HTML’den çıkarılan metni içeren TXT dosyasını URL aracılığıyla yazın.

Aşağıdaki kod örneği, bir HTML dosyasının herhangi bir URL’den C# dilinde String olarak nasıl okunacağını açıklamaktadır:

// HTMLDocument nesnesini URL ile başlat
HTMLDocument document = new HTMLDocument("https://products.aspose.com/html/net");
            
// HTML formatının metin içeriğini okuyun
String text = document.Body.TextContent;
            
// Çıkarılan metni içeren TXT dosyasını yazın
File.WriteAllText("Webpage.txt", text);

Ücretsiz Değerlendirme Lisansı

Değerlendirme sınırlamalarından kaçınmak için ücretsiz geçici lisans alabilirsiniz.

Özetliyor

C#’ta HTML okuyabilmek, web ile ilgili projelerde ve veri çıkarma görevlerinde çalışmak için değerli bir beceridir. Bu blog yazısında C#’ta HTML okumaya yönelik üç farklı yaklaşımı ele aldık. Bu, daha ileri işlemler için HTML sayfalarındaki bilgileri kazımanıza veya ayrıştırmanıza olanak tanır. Ancak API tarafından sunulan diğer birçok özelliği keşfedebilir ve forum adresinden bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız