Lesen Sie HTML Java

Das Lesen und Parsen von HTML Dokumenten hilft dabei, Informationen aus Online-Inhalten zu extrahieren. Egal, ob Sie einen Web-Scraper erstellen, Webinhalte analysieren oder einfach nur Text aus einer Webseite extrahieren müssen. Dementsprechend behandelt dieser Artikel das Lesen von HTML in Java.

Konfigurieren Sie die HTML-Reader-API in Java

Sie können die API über die Seiten Downloads konfigurieren oder Conholdate.Total für Java mit den folgenden Maven-Konfigurationen konfigurieren:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Warum HTML in Java lesen?

Bevor wir uns mit den technischen Aspekten befassen, wollen wir kurz diskutieren, warum das Lesen von HTML in Java wichtig ist:

Datenextraktion: HTML ist die Grundlage des Webs und viele Websites speichern wertvolle Informationen in ihrer HTML-Struktur. Durch das Parsen und Extrahieren von Daten aus HTML Dokumenten können Sie die Datenerfassung und -analyse automatisieren.

Web Scraping: Beim Erstellen von Web Scraping-Tools bietet Java die Möglichkeit, auf HTML-Inhalte zuzugreifen und diese zu scrapen, sodass Sie Daten von Websites für verschiedene Zwecke sammeln können, beispielsweise für Marktforschung oder Datenanalyse.

Benutzerdefinierte Webanwendungen: Mit Java können Sie benutzerdefinierte Webanwendungen und -dienste erstellen, die mit HTML-Inhalten interagieren, sodass Sie webbasierte Tools erstellen oder externe Datenquellen integrieren können.

Lesen Sie eine HTML-Datei in Java

HTML (Hypertext Markup Language) ist die Standardsprache zum Erstellen von Webseiten. Wenn Sie mit HTML in Java arbeiten, besteht Ihr Ziel möglicherweise darin, Daten aus einer Webseite zu extrahieren, ihre Struktur zu manipulieren oder ihren Inhalt zu analysieren. Um diese Aufgaben zu erfüllen, müssen Sie HTML effektiv lesen und analysieren. Sie können eine HTML-Datei in Java lesen, indem Sie die folgenden Schritte ausführen:

  • Rufen Sie den eingegebenen HTML-Inhalt mithilfe der HTMLDocument Klasse ab.
  • Lesen Sie den HTML-Code mit der Eigenschaft OuterHTML.

Der folgende Beispielcode zeigt, wie man HTML Dateien in Java liest:

String documentPath = "document.html";

// Laden Sie eine HTML-Datei
var document = new com.aspose.html.HTMLDocument(documentPath);

// Schreiben Sie den Dokumentinhalt in den Ausgabestream
System.out.println(document.getDocumentElement().getOuterHTML());

Sie können HTML-Daten durchlaufen, indem Sie durch verschiedene Knoten navigieren, wie in den folgenden Schritten beschrieben:

  • Rufen Sie den HTML-Inhalt mit der HTMLDocument Klasse ab.
  • Greifen Sie auf das erste untergeordnete Element des Body-Inhalts zu.
  • Navigieren Sie durch die nachfolgenden Knoten und lesen Sie HTML-Inhalte.

Der folgende Codeausschnitt erläutert, wie Sie durch HTML navigieren, um HTML in Java zu lesen:

// Bereiten Sie den HTML-Code vor
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialisieren Sie ein Dokument aus dem vorbereiteten Code
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Rufen Sie den Verweis auf das erste untergeordnete Element (erste SPAN) des BODY ab
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Rufen Sie den Verweis auf den Leerraum zwischen HTML-Elementen ab
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Rufen Sie den Verweis auf das zweite SPAN-Element ab
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

HTML-Datei als String in Java lesen

Mit den unten aufgeführten Schritten können Sie Daten aus HTML Dateien als Zeichenfolge analysieren und in das Textformat exportieren:

  • Erstellen Sie ein Objekt der HTMLDocument Klasse.
  • Analysieren Sie den Textinhalt der HTML-Daten.
  • Exportieren Sie die ausgegebene TXT-Datei.

Das folgende Codebeispiel erklärt, wie man eine HTML-Datei als String in Java liest:

// HTMLDocument Objekt mit URL initialisieren
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Lesen Sie den Textinhalt des HTML-Formats
String text = document.getBody().getTextContent();
            
// Exportieren Sie HTML in eine Textdatei
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Lesen Sie HTML online

Sie können HTML-Seiten und -Daten analysieren, um Text oder Bilder online zu extrahieren, ohne eine spezielle Anwendung installieren zu müssen. Verwenden Sie einfach das folgende Tool HTML Reader and Parser Online und befolgen Sie einfache Schritte, um HTML-Daten zu lesen.

Kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz anfordern, um die volle Kapazität der API zu testen.

Zusammenfassen

Das Lesen von HTML in Java ist eine wesentliche Fähigkeit für verschiedene webbezogene Aufgaben, von der Datenextraktion und Web Scraping bis hin zum Erstellen benutzerdefinierter Webanwendungen. Wenn Sie die in diesem Blogbeitrag beschriebenen Schritte und Beispiele befolgen, können Sie mit der Arbeit mit HTML in Java beginnen und eine Vielzahl von Möglichkeiten für Ihre Projekte freischalten. Bei Fragen können Sie sich gerne im Forum an uns wenden.

Siehe auch