Leggi HTML Java

Leggere e analizzare documenti HTML aiuta a estrarre informazioni dal contenuto online. Che tu stia costruendo un web scraper, analizzando contenuti web o semplicemente abbia bisogno di estrarre del testo da una pagina web. Di conseguenza, questo articolo spiega come leggere l’HTML in Java.

Configura l’API del lettore HTML in Java

È possibile configurare l’API dalle pagine Download o configurare Conholdate.Total for Java utilizzando le seguenti configurazioni Maven:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Perché leggere HTML in Java?

Prima di immergerci negli aspetti tecnici, discutiamo brevemente perché è importante leggere l’HTML in Java:

Estrazione dei dati: l’HTML è la base del Web e molti siti Web memorizzano informazioni preziose all’interno della loro struttura HTML. Analizzando ed estraendo dati da documenti HTML, puoi automatizzare la raccolta e l’analisi dei dati.

Web Scraping: durante la creazione di strumenti di web scraping, Java offre la possibilità di accedere e acquisire contenuti HTML, consentendo di raccogliere dati dai siti Web per vari scopi, come ricerche di mercato o analisi dei dati.

Applicazioni Web personalizzate: Java può essere utilizzato per creare applicazioni e servizi Web personalizzati che interagiscono con il contenuto HTML, consentendo di creare strumenti basati sul Web o integrare origini dati esterne.

Leggere un file HTML in Java

HTML (Hypertext Markup Language) è il linguaggio standard per la creazione di pagine web. Quando lavori con HTML in Java, il tuo obiettivo potrebbe essere quello di estrarre dati da una pagina web, manipolarne la struttura o analizzarne il contenuto. Per eseguire queste attività, è necessario leggere e analizzare l’HTML in modo efficace. È possibile leggere un file HTML in Java seguendo i passaggi seguenti:

  • Ottieni il contenuto HTML di input utilizzando la classe HTMLDocument.
  • Leggi l’HTML con la proprietà OuterHTML.

Il seguente codice di esempio mostra come leggere i file HTML in Java:

String documentPath = "document.html";

// Carica un file HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Scrivere il contenuto del documento nel flusso di output
System.out.println(document.getDocumentElement().getOuterHTML());

È possibile scorrere i dati HTML navigando attraverso diversi nodi come descritto nei passaggi seguenti:

  • Ottieni il contenuto HTML con la classe HTMLDocument.
  • Accedi al primo figlio del contenuto Body.
  • Naviga nei nodi successivi e leggi i contenuti HTML.

Lo snippet di codice seguente spiega come navigare nell’HTML per leggere l’HTML in Java:

// Preparare il codice HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Inizializza un documento dal codice preparato
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Ottieni il riferimento al primo figlio (primo SPAN) del BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Ottieni il riferimento allo spazio bianco tra gli elementi html
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Ottieni il riferimento al secondo elemento SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Leggi il file HTML come stringa in Java

Puoi analizzare i dati dai file HTML come una stringa ed esportarli in formato testo con i passaggi elencati di seguito:

  • Crea un oggetto della classe HTMLDocument.
  • Analizzare il contenuto testuale dei dati HTML.
  • Esporta il file TXT di output.

Il seguente esempio di codice spiega come leggere un file HTML come String in Java:

// Inizializza l'oggetto HTMLDocument con l'URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Leggere il contenuto testuale del formato HTML
String text = document.getBody().getTextContent();
            
// Esporta HTML in file di testo
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Leggi HTML in linea

Puoi analizzare pagine e dati HTML per estrarre testo o immagini online senza dover installare alcuna applicazione specializzata. Basta utilizzare il seguente strumento HTML Reader and Parser Online e seguire semplici passaggi per leggere i dati HTML.

Licenza di valutazione gratuita

Puoi richiedere una licenza temporanea gratuita per valutare l’API al massimo delle sue capacità.

Riassumendo

Leggere l’HTML in Java è una competenza essenziale per varie attività legate al web, dall’estrazione dei dati e dal web scraping alla creazione di applicazioni web personalizzate. Seguendo i passaggi e gli esempi delineati in questo post del blog, puoi iniziare a lavorare con HTML in Java e sbloccare un’ampia gamma di possibilità per i tuoi progetti. In caso di domande, non esitate a contattarci al forum.

Guarda anche