Leia HTML Java

Ler e analisar documentos HTML ajuda a extrair informações do conteúdo online. Esteja você construindo um web scraper, analisando conteúdo da web ou simplesmente precise extrair algum texto de uma página da web. Conseqüentemente, este artigo aborda como ler HTML em Java.

Configure a API do leitor HTML em Java

Você pode configurar a API nas páginas Downloads ou configurar Conholdate.Total for Java usando as seguintes configurações do Maven:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

Por que ler HTML em Java?

Antes de mergulharmos nos aspectos técnicos, vamos discutir brevemente por que a leitura de HTML em Java é importante:

Extração de dados: HTML é a base da web e muitos sites armazenam informações valiosas em sua estrutura HTML. Ao analisar e extrair dados de documentos HTML, você pode automatizar a coleta e análise de dados.

Web Scraping: Ao construir ferramentas de web scraping, Java fornece a capacidade de acessar e extrair conteúdo HTML, permitindo coletar dados de sites para diversos fins, como pesquisa de mercado ou análise de dados.

Aplicativos da Web personalizados: Java pode ser usado para criar aplicativos e serviços da Web personalizados que interagem com o conteúdo HTML, permitindo construir ferramentas baseadas na Web ou integrar fontes de dados externas.

Leia um arquivo HTML em Java

HTML (Hypertext Markup Language) é a linguagem padrão para criação de páginas web. Ao trabalhar com HTML em Java, seu objetivo pode ser extrair dados de uma página web, manipular sua estrutura ou analisar seu conteúdo. Para realizar essas tarefas, você precisa ler e analisar HTML de maneira eficaz. Você pode ler um arquivo HTML em Java seguindo as etapas abaixo:

  • Obtenha o conteúdo HTML de entrada usando a classe HTMLDocument.
  • Leia o HTML com a propriedade OuterHTML.

O código de exemplo a seguir mostra como ler arquivos HTML em Java:

String documentPath = "document.html";

// Carregar um arquivo HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Grave o conteúdo do documento no fluxo de saída
System.out.println(document.getDocumentElement().getOuterHTML());

Você pode iterar pelos dados HTML navegando por diferentes nós, conforme descrito nas etapas a seguir:

  • Obtenha o conteúdo HTML com a classe HTMLDocument.
  • Acesse o primeiro filho do conteúdo Body.
  • Navegue pelos nós subsequentes e leia o conteúdo HTML.

O trecho de código abaixo explica como navegar em HTML para ler HTML em Java:

// Preparar código HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Inicialize um documento a partir do código preparado
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Obtenha a referência ao primeiro filho (primeiro SPAN) do BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Obtenha a referência ao espaço em branco entre os elementos HTML
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Obtenha a referência ao segundo elemento SPAN
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Leia o arquivo HTML como string em Java

Você pode analisar dados de arquivos HTML como uma string e exportá-los para formato de texto seguindo as etapas listadas abaixo:

  • Crie um objeto da classe HTMLDocument.
  • Analise o conteúdo do texto dos dados HTML.
  • Exporte o arquivo TXT de saída.

O exemplo de código a seguir explica como ler um arquivo HTML como String em Java:

// Inicialize o objeto HTMLDocument com URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Leia o conteúdo do texto no formato HTML
String text = document.getBody().getTextContent();
            
// Exportar HTML para arquivo de texto
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Leia HTML on-line

Você pode analisar páginas HTML e dados para extrair texto ou imagens online sem precisar instalar nenhum aplicativo especializado. Basta usar a seguinte ferramenta HTML Reader and Parser Online e seguir etapas simples para ler dados HTML.

Licença de avaliação gratuita

Você pode solicitar uma licença temporária gratuita para avaliar a capacidade total da API.

Resumindo

Ler HTML em Java é uma habilidade essencial para várias tarefas relacionadas à web, desde extração de dados e web scraping até a construção de aplicativos web personalizados. Seguindo as etapas e exemplos descritos nesta postagem do blog, você pode começar a trabalhar com HTML em Java e desbloquear uma ampla gama de possibilidades para seus projetos. Em caso de qualquer dúvida, sinta-se à vontade para entrar em contato conosco no fórum.

Veja também