
Czytanie i analizowanie dokumentów HTML pomaga wyodrębnić informacje z treści online. Niezależnie od tego, czy budujesz skrobak sieciowy, analizujesz zawartość internetową, czy po prostu chcesz wyodrębnić tekst ze strony internetowej. W związku z tym w tym artykule opisano, jak czytać HTML w Javie.
Skonfiguruj interfejs API czytnika HTML w Javie
Możesz skonfigurować interfejs API na stronach Pobieranie lub skonfigurować Conholdate.Total for Java, korzystając z następujących konfiguracji Mavena:
<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>
Dlaczego warto czytać HTML w Javie?
Zanim zagłębimy się w aspekty techniczne, omówmy krótko, dlaczego czytanie HTML w Javie jest ważne:
Ekstrakcja danych: HTML jest podstawą sieci, a wiele witryn internetowych przechowuje cenne informacje w swojej strukturze HTML. Analizując i wyodrębniając dane z dokumentów HTML, możesz zautomatyzować gromadzenie i analizę danych.
Przeszukiwanie sieci WWW: Podczas tworzenia narzędzi do przeszukiwania stron internetowych Java umożliwia dostęp do zawartości HTML i jej pobieranie, umożliwiając gromadzenie danych z witryn internetowych do różnych celów, takich jak badania rynku lub analiza danych.
Niestandardowe aplikacje internetowe: Java może być używana do tworzenia niestandardowych aplikacji i usług internetowych, które wchodzą w interakcję z treścią HTML, umożliwiając tworzenie narzędzi internetowych lub integrację zewnętrznych źródeł danych.
Przeczytaj plik HTML w Javie
HTML (Hypertext Markup Language) to standardowy język do tworzenia stron internetowych. Podczas pracy z HTML w Javie Twoim celem może być wyodrębnienie danych ze strony internetowej, manipulowanie jej strukturą lub analizowanie jej zawartości. Aby wykonać te zadania, musisz skutecznie czytać i analizować kod HTML. Możesz odczytać plik HTML w Javie, wykonując poniższe kroki:
- Pobierz wejściową treść HTML za pomocą klasy HTMLDocument.
- Przeczytaj kod HTML z właściwością OuterHTML.
Poniższy przykładowy kod pokazuje, jak czytać pliki HTML w Javie:
String documentPath = "document.html";
// Załaduj plik HTML
var document = new com.aspose.html.HTMLDocument(documentPath);
// Zapisz treść dokumentu w strumieniu wyjściowym
System.out.println(document.getDocumentElement().getOuterHTML());
Przejdź do pliku HTML, aby przeczytać zawartość HTML w Javie
Możesz iterować po danych HTML, przechodząc przez różne węzły, jak opisano w następujących krokach:
- Pobierz zawartość HTML za pomocą klasy HTMLDocument.
- Uzyskaj dostęp do pierwszego elementu podrzędnego treści Body.
- Poruszaj się po kolejnych węzłach i czytaj zawartość HTML.
Poniższy fragment kodu opisuje, jak nawigować po HTML i czytać HTML w Javie:
// Przygotuj kod HTML
var html_code = "<span>Hello</span> <span>World!</span>";
// Zainicjuj dokument z przygotowanego kodu
var document = new com.aspose.html.HTMLDocument(html_code, ".");
// Uzyskaj odniesienie do pierwszego dziecka (pierwszego SPAN) BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello
// Pobierz odwołanie do białych znaków między elementami HTML
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '
// Pobierz odwołanie do drugiego elementu SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!
Przeczytaj plik HTML jako ciąg znaków w Javie
Możesz analizować dane z plików HTML jako ciąg znaków i eksportować je do formatu tekstowego, wykonując poniższe czynności:
- Utwórz obiekt klasy HTMLDocument.
- Przeanalizuj zawartość tekstową danych HTML.
- Wyeksportuj wyjściowy plik TXT.
Poniższy przykładowy kod wyjaśnia, jak odczytać plik HTML jako ciąg znaków w Javie:
// Zainicjuj obiekt HTMLDocument za pomocą adresu URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
// Przeczytaj zawartość tekstową w formacie HTML
String text = document.getBody().getTextContent();
// Eksportuj HTML do pliku tekstowego
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());
Czytaj HTML w Internecie
Możesz analizować strony i dane HTML w celu wyodrębnienia tekstu lub obrazów online bez konieczności instalowania żadnej specjalistycznej aplikacji. Wystarczy skorzystać z następującego narzędzia Czytnik HTML i analizator składni online i wykonać proste czynności, aby odczytać dane HTML.
Bezpłatna licencja ewaluacyjna
Możesz poprosić o bezpłatną licencję tymczasową, aby w pełni wykorzystać możliwości interfejsu API.
Podsumowując
Czytanie kodu HTML w języku Java jest umiejętnością niezbędną do wykonywania różnych zadań związanych z Internetem, od ekstrakcji danych i skrobania stron internetowych po tworzenie niestandardowych aplikacji internetowych. Postępując zgodnie z krokami i przykładami opisanymi w tym wpisie na blogu, możesz rozpocząć pracę z HTML w Javie i odblokować szeroką gamę możliwości dla swoich projektów. W razie jakichkolwiek pytań prosimy o kontakt na forum.