Leer HTML Java

Leer y analizar documentos HTML ayuda a extraer información del contenido en línea. Ya sea que esté creando un raspador web, analizando contenido web o simplemente necesite extraer texto de una página web. En consecuencia, este artículo cubre cómo leer HTML en Java.

Configurar la API del lector HTML en Java

Puede configurar la API desde las páginas Descargas o configurar Conholdate.Total para Java usando las siguientes configuraciones de Maven:

<dependency>
<groupId>com.conholdate</groupId>
<artifactId>conholdate-total</artifactId>
<version>23.8</version>
<type>pom</type>
</dependency>

¿Por qué leer HTML en Java?

Antes de profundizar en los aspectos técnicos, analicemos brevemente por qué es importante leer HTML en Java:

Extracción de datos: HTML es la base de la web y muchos sitios web almacenan información valiosa dentro de su estructura HTML. Al analizar y extraer datos de documentos HTML, puede automatizar la recopilación y el análisis de datos.

Web Scraping: al crear herramientas de web scraping, Java brinda la capacidad de acceder y extraer contenido HTML, lo que le permite recopilar datos de sitios web para diversos fines, como investigación de mercado o análisis de datos.

Aplicaciones web personalizadas: Java se puede utilizar para crear aplicaciones y servicios web personalizados que interactúan con contenido HTML, lo que le permite crear herramientas basadas en web o integrar fuentes de datos externas.

Leer un archivo HTML en Java

HTML (lenguaje de marcado de hipertexto) es el lenguaje estándar para crear páginas web. Al trabajar con HTML en Java, su objetivo podría ser extraer datos de una página web, manipular su estructura o analizar su contenido. Para realizar estas tareas, necesita leer y analizar HTML de forma eficaz. Puede leer un archivo HTML en Java siguiendo los pasos a continuación:

  • Obtenga el contenido HTML de entrada utilizando la clase HTMLDocument.
  • Lea el HTML con la propiedad OuterHTML.

El siguiente código de muestra muestra cómo leer archivos HTML en Java:

String documentPath = "document.html";

// Cargar un archivo HTML
var document = new com.aspose.html.HTMLDocument(documentPath);

// Escriba el contenido del documento en el flujo de salida.
System.out.println(document.getDocumentElement().getOuterHTML());

Puede iterar a través de datos HTML navegando a través de diferentes nodos como se describe en los siguientes pasos:

  • Obtenga el contenido HTML con la clase HTMLDocument.
  • Accede al primer hijo del contenido del Body.
  • Navegue por los nodos posteriores y lea el contenido HTML.

El siguiente fragmento de código explica cómo navegar HTML para leer HTML en Java:

// Preparar código HTML
var html_code = "<span>Hello</span> <span>World!</span>";

// Inicializar un documento a partir del código preparado
var document = new com.aspose.html.HTMLDocument(html_code, ".");

// Obtener la referencia al primer hijo (primer SPAN) del BODY
var element = document.getBody().getFirstChild();
System.out.println(element.getTextContent()); // output: Hello

// Obtener la referencia al espacio en blanco entre elementos html
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: ' '

// Obtener la referencia al segundo elemento SPAN.
element = element.getNextSibling();
System.out.println(element.getTextContent()); // output: World!

Leer archivo HTML como cadena en Java

Puede analizar datos de archivos HTML como una cadena y exportarlos a formato de texto con los pasos que se enumeran a continuación:

  • Crea un objeto de la clase HTMLDocument.
  • Analiza el contenido del texto de los datos HTML.
  • Exporte el archivo TXT de salida.

El siguiente ejemplo de código explica cómo leer un archivo HTML como cadena en Java:

// Inicializar el objeto HTMLDocument con URL
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument(dataDir + "document.html");
            
// Leer el contenido del texto en formato HTML.
String text = document.getBody().getTextContent();
            
// Exportar HTML a archivo de texto
String path = dataDir + "webpage.txt";
Files.write( Paths.get(path), text.getBytes());

Leer HTML en línea

Puede analizar páginas HTML y datos para extraer texto o imágenes en línea sin necesidad de instalar ninguna aplicación especializada. Simplemente utilice la siguiente herramienta HTML Reader and Parser Online y siga sencillos pasos para leer datos HTML.

Licencia de evaluación gratuita

Puede solicitar una licencia temporal gratuita para evaluar la API en su máxima capacidad.

Resumiendo

Leer HTML en Java es una habilidad esencial para diversas tareas relacionadas con la web, desde la extracción de datos y el web scraping hasta la creación de aplicaciones web personalizadas. Si sigue los pasos y ejemplos descritos en esta publicación de blog, puede comenzar a trabajar con HTML en Java y desbloquear una amplia gama de posibilidades para sus proyectos. En caso de cualquier consulta, no dude en comunicarse con nosotros en el foro.

Ver también