HTML-Java lezen

Door HTML-documenten te lezen en te parseren, kunt u informatie uit online-inhoud halen. Of u nu een webschraper bouwt, webinhoud analyseert of gewoon wat tekst uit een webpagina wilt halen. Daarom behandelt dit artikel hoe u HTML in Java kunt lezen.

Configureer de HTML Reader-API in Java

U kunt de API configureren vanaf de pagina’s Downloads of Conholdate.Total for Java configureren met behulp van de volgende Maven-configuraties:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Waarom HTML lezen in Java?

Voordat we ingaan op de technische aspecten, laten we kort bespreken waarom het lezen van HTML in Java belangrijk is:

Gegevensextractie: HTML is de basis van het web en veel websites slaan waardevolle informatie op in hun HTML-structuur. Door gegevens uit HTML-documenten te ontleden en te extraheren, kunt u het verzamelen en analyseren van gegevens automatiseren.

Webscraping: Bij het bouwen van webscraping-tools biedt Java de mogelijkheid om HTML-inhoud te openen en te scrapen, waardoor u gegevens van websites kunt verzamelen voor verschillende doeleinden, zoals marktonderzoek of data-analyse.

Aangepaste webapplicaties: Java kan worden gebruikt om aangepaste webapplicaties en -services te maken die communiceren met HTML-inhoud, waardoor u webgebaseerde tools kunt bouwen of externe gegevensbronnen kunt integreren.

Lees een HTML-bestand in Java

HTML (Hypertext Markup Language) is de standaardtaal voor het maken van webpagina’s. Wanneer u met HTML in Java werkt, kan het uw doel zijn om gegevens uit een webpagina te extraheren, de structuur ervan te manipuleren of de inhoud ervan te analyseren. Om deze taken te volbrengen, moet u HTML effectief lezen en parseren. U kunt een HTML-bestand in Java lezen door de onderstaande stappen te volgen:

  • Haal de ingevoerde HTML-inhoud op met behulp van de klasse HTMLDocument.
  • Lees de HTML met de eigenschap OuterHTML.

De volgende voorbeeldcode laat zien hoe u HTML-bestanden in Java leest:

String documentPath = "document.html";

// Laad een HTML-bestand
var document = new com.aspose.html.HTMLDocument(documentPath);

// Schrijf de documentinhoud naar de uitvoerstroom
System.out.println(document.getDocumentElement().getOuterHTML());

U kunt door HTML-gegevens bladeren door door verschillende knooppunten te navigeren, zoals beschreven in de volgende stappen:

  • Haal de HTML-inhoud op met de HTMLDocument-klasse.
  • Toegang tot het eerste kind van de inhoud Body.
  • Navigeer door de volgende knooppunten en lees de HTML-inhoud.

In het onderstaande codefragment wordt uitgebreid uitgelegd hoe u door HTML kunt navigeren om HTML in Java te lezen:

// HTML-code voorbereiden
var html_code = "<span>Hello</span> <span>World!</span>";

// Initialiseer een document vanuit de voorbereide code
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Verkrijg de verwijzing naar het eerste kind (eerste SPAN) van het LICHAAM
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Haal de verwijzing naar de witruimte tussen html-elementen op
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Haal de verwijzing naar het tweede SPAN-element op
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Lees HTML-bestand als tekenreeks in Java

U kunt gegevens uit HTML-bestanden als een tekenreeks parseren en deze naar tekstindeling exporteren met de onderstaande stappen:

  • Maak een object van de HTMLDocument-klasse.
  • Parseer de tekstinhoud van de HTML-gegevens.
  • Exporteer het uitvoer-TXT-bestand.

In het volgende codevoorbeeld wordt uitgelegd hoe u een HTML-bestand als String in Java leest:

// Initialiseer het HTMLDocument-object met URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Lees de tekstinhoud van het HTML-formaat
String text = document.getBody().getTextContent();
            
// Exporteer HTML naar tekstbestand
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Lees HTML online

U kunt HTML-pagina’s en gegevens parseren om tekst of afbeeldingen online te extraheren zonder dat u een gespecialiseerde toepassing hoeft te installeren. Gebruik gewoon de volgende tool HTML Reader en Parser Online en volg eenvoudige stappen om HTML-gegevens te lezen.

Gratis evaluatielicentie

U kunt een gratis tijdelijke licentie aanvragen om de API optimaal te kunnen evalueren.

Opsommen

Het lezen van HTML in Java is een essentiële vaardigheid voor verschillende webgerelateerde taken, van gegevensextractie en webscrapen tot het bouwen van aangepaste webapplicaties. Door de stappen en voorbeelden te volgen die in deze blogpost worden beschreven, kunt u aan de slag met HTML in Java en ontgrendelt u een breed scala aan mogelijkheden voor uw projecten. Als u vragen heeft, neem dan gerust contact met ons op via het forum.

Zie ook