HTML Java'yı okuyun

HTML belgelerini okumak ve ayrıştırmak, çevrimiçi içerikten bilgi çıkarmaya yardımcı olur. İster bir web kazıyıcı oluşturuyor olun, ister web içeriğini analiz ediyor olun, ister sadece bir web sayfasından bazı metinleri çıkarmanız gerekiyor. Buna göre bu makale Java’da HTML’nin nasıl okunacağını ele almaktadır.

Java’da HTML Okuyucu API’sini Yapılandırma

API’yi İndirilenler sayfalarından yapılandırabilir veya aşağıdaki Maven yapılandırmalarını kullanarak Java için Conholdate.Total‘ü yapılandırabilirsiniz:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Neden Java’da HTML Okumalısınız?

Teknik konulara dalmadan önce Java’da HTML okumanın neden önemli olduğunu kısaca tartışalım:

Veri Çıkarma: HTML, web’in temelidir ve birçok web sitesi, değerli bilgileri HTML yapılarında saklar. HTML belgelerinden verileri ayrıştırıp çıkararak veri toplama ve analizini otomatikleştirebilirsiniz.

Web Scraping: Web kazıma araçları oluştururken Java, HTML içeriğine erişme ve bunları çıkarma yeteneği sağlayarak, pazar araştırması veya veri analizi gibi çeşitli amaçlarla web sitelerinden veri toplamanıza olanak tanır.

Özel Web Uygulamaları: Java, HTML içeriğiyle etkileşim kuran, web tabanlı araçlar oluşturmanıza veya harici veri kaynaklarını entegre etmenize olanak tanıyan özel web uygulamaları ve hizmetleri oluşturmak için kullanılabilir.

Java’da bir HTML Dosyasını Okuyun

HTML (Köprü Metni Biçimlendirme Dili), web sayfaları oluşturmak için standart dildir. Java’da HTML ile çalışırken amacınız bir web sayfasından veri çıkarmak, yapısını değiştirmek veya içeriğini analiz etmek olabilir. Bu görevleri gerçekleştirmek için HTML’yi etkili bir şekilde okumanız ve ayrıştırmanız gerekir. Aşağıdaki adımları izleyerek Java’da bir HTML dosyasını okuyabilirsiniz:

  • HTMLDocument sınıfını kullanarak giriş HTML içeriğini alın.
  • HTML’yi OuterHTML özelliğiyle okuyun.

Aşağıdaki örnek kod, Java’da HTML dosyalarının nasıl okunacağını gösterir:

String documentPath = "document.html";

// Bir HTML dosyası yükleyin
var document = new com.aspose.html.HTMLDocument(documentPath);

// Belge içeriğini çıktı akışına yazın
System.out.println(document.getDocumentElement().getOuterHTML());

Java’da HTML İçeriğini Okumak için HTML Dosyasında Gezinme

Aşağıdaki adımlarda belirtildiği gibi farklı düğümler arasında gezinerek HTML verilerini yineleyebilirsiniz:

  • HTML içeriğini HTMLDocument sınıfıyla alın.
  • Gövde içeriğinin ilk alt öğesine erişin.
  • Sonraki düğümlere gidin ve HTML içeriğini okuyun.

Aşağıdaki kod parçacığı, Java’da HTML okumak için HTML’de nasıl gezinileceğini ayrıntılı olarak açıklamaktadır:

// HTML kodunu hazırlayın
var html_code = "<span>Hello</span> <span>World!</span>";

// Hazırlanan koddan bir belgeyi başlat
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// BODY'nin ilk çocuğuna (ilk SPAN) referansı alın
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Html öğeleri arasındaki boşluklara referans alın
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// İkinci SPAN öğesinin referansını alın
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Java’da HTML Dosyasını Dize Olarak Oku

HTML dosyalarındaki verileri dize olarak ayrıştırabilir ve aşağıda listelenen adımlarla metin biçimine aktarabilirsiniz:

  • HTMLDocument sınıfının bir nesnesini oluşturun.
  • HTML verilerinin metin içeriğini ayrıştırın.
  • Çıktı TXT dosyasını dışa aktarın.

Aşağıdaki kod örneği, Java’da bir HTML dosyasının String olarak nasıl okunacağını açıklamaktadır:

// HTMLDocument nesnesini URL ile başlat
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// HTML formatının metin içeriğini okuyun
String text = document.getBody().getTextContent();
            
// HTML'yi Metin dosyasına aktar
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

HTML’yi Çevrimiçi Okuyun

Herhangi bir özel uygulama yüklemeye gerek kalmadan çevrimiçi metin veya resim çıkarmak için HTML sayfalarını ve verilerini ayrıştırabilirsiniz. HTML verilerini okumak için aşağıdaki HTML Reader and Parser Online aracını kullanın ve basit adımları izleyin.

Ücretsiz Değerlendirme Lisansı

API’yi tam kapasitesiyle değerlendirmek için ücretsiz geçici lisans talep edebilirsiniz.

Özetliyor

Java’da HTML okumak, veri çıkarma ve web kazıma işleminden özel web uygulamaları oluşturmaya kadar web ile ilgili çeşitli görevler için önemli bir beceridir. Bu blog yazısında özetlenen adımları ve örnekleri izleyerek Java’da HTML ile çalışmaya başlayabilir ve projeleriniz için çok çeşitli olasılıkların kilidini açabilirsiniz. Sorularınız olması durumunda lütfen forum adresinden bize ulaşmaktan çekinmeyin.

Ayrıca bakınız