Przeczytaj HTML Java

Czytanie i analizowanie dokumentów HTML pomaga wyodrębnić informacje z treści online. Niezależnie od tego, czy budujesz skrobak sieciowy, analizujesz zawartość internetową, czy po prostu chcesz wyodrębnić tekst ze strony internetowej. W związku z tym w tym artykule opisano, jak czytać HTML w Javie.

Skonfiguruj interfejs API czytnika HTML w Javie

Możesz skonfigurować interfejs API na stronach Pobieranie lub skonfigurować Conholdate.Total for Java, korzystając z następujących konfiguracji Mavena:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Dlaczego warto czytać HTML w Javie?

Zanim zagłębimy się w aspekty techniczne, omówmy krótko, dlaczego czytanie HTML w Javie jest ważne:

Ekstrakcja danych: HTML jest podstawą sieci, a wiele witryn internetowych przechowuje cenne informacje w swojej strukturze HTML. Analizując i wyodrębniając dane z dokumentów HTML, możesz zautomatyzować gromadzenie i analizę danych.

Przeszukiwanie sieci WWW: Podczas tworzenia narzędzi do przeszukiwania stron internetowych Java umożliwia dostęp do zawartości HTML i jej pobieranie, umożliwiając gromadzenie danych z witryn internetowych do różnych celów, takich jak badania rynku lub analiza danych.

Niestandardowe aplikacje internetowe: Java może być używana do tworzenia niestandardowych aplikacji i usług internetowych, które wchodzą w interakcję z treścią HTML, umożliwiając tworzenie narzędzi internetowych lub integrację zewnętrznych źródeł danych.

Przeczytaj plik HTML w Javie

HTML (Hypertext Markup Language) to standardowy język do tworzenia stron internetowych. Podczas pracy z HTML w Javie Twoim celem może być wyodrębnienie danych ze strony internetowej, manipulowanie jej strukturą lub analizowanie jej zawartości. Aby wykonać te zadania, musisz skutecznie czytać i analizować kod HTML. Możesz odczytać plik HTML w Javie, wykonując poniższe kroki:

  • Pobierz wejściową treść HTML za pomocą klasy HTMLDocument.
  • Przeczytaj kod HTML z właściwością OuterHTML.

Poniższy przykładowy kod pokazuje, jak czytać pliki HTML w Javie:

String documentPath = "document.html";

// Załaduj plik HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Zapisz treść dokumentu w strumieniu wyjściowym
System.out.println(document.getDocumentElement().getOuterHTML());

Przejdź do pliku HTML, aby przeczytać zawartość HTML w Javie

Możesz iterować po danych HTML, przechodząc przez różne węzły, jak opisano w następujących krokach:

  • Pobierz zawartość HTML za pomocą klasy HTMLDocument.
  • Uzyskaj dostęp do pierwszego elementu podrzędnego treści Body.
  • Poruszaj się po kolejnych węzłach i czytaj zawartość HTML.

Poniższy fragment kodu opisuje, jak nawigować po HTML i czytać HTML w Javie:

// Przygotuj kod HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Zainicjuj dokument z przygotowanego kodu
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Pobierz odwołanie do białych znaków między elementami HTML
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Pobierz odwołanie do drugiego elementu SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Przeczytaj plik HTML jako ciąg znaków w Javie

Możesz analizować dane z plików HTML jako ciąg znaków i eksportować je do formatu tekstowego, wykonując poniższe czynności:

  • Utwórz obiekt klasy HTMLDocument.
  • Przeanalizuj zawartość tekstową danych HTML.
  • Wyeksportuj wyjściowy plik TXT.

Poniższy przykładowy kod wyjaśnia, jak odczytać plik HTML jako ciąg znaków w Javie:

// Zainicjuj obiekt HTMLDocument za pomocą adresu URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Przeczytaj zawartość tekstową w formacie HTML
String text = document.getBody().getTextContent();
            
// Eksportuj HTML do pliku tekstowego
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Czytaj HTML w Internecie

Możesz analizować strony i dane HTML w celu wyodrębnienia tekstu lub obrazów online bez konieczności instalowania żadnej specjalistycznej aplikacji. Wystarczy skorzystać z następującego narzędzia Czytnik HTML i analizator składni online i wykonać proste czynności, aby odczytać dane HTML.

Bezpłatna licencja ewaluacyjna

Możesz poprosić o bezpłatną licencję tymczasową, aby w pełni wykorzystać możliwości interfejsu API.

Podsumowując

Czytanie kodu HTML w języku Java jest umiejętnością niezbędną do wykonywania różnych zadań związanych z Internetem, od ekstrakcji danych i skrobania stron internetowych po tworzenie niestandardowych aplikacji internetowych. Postępując zgodnie z krokami i przykładami opisanymi w tym wpisie na blogu, możesz rozpocząć pracę z HTML w Javie i odblokować szeroką gamę możliwości dla swoich projektów. W razie jakichkolwiek pytań prosimy o kontakt na forum.

Zobacz też