Arrondissement de Strasbourg-Ville, Francia
El capítulo describe la extracción de contenido (scraping) a partir de fuentes web (expresadas sobre todo en HTML). Es necesario hacer scraping cuando los textos electrónicos que queremos analizar no están disponibles en un formato apropiado para nuestras herramientas de análisis informático. Se describen brevemente el marcado HTML, XML y JSON, y el lenguaje conocido como expresiones regulares para manipular cadenas de texto. Se presenta un tutorial de la herramienta OpenRefine para scraping. Un repositorio acompaña al capítulo, dando más detalles y presentado el scraping con el lenguaje Python. Se proponen dos actividades para el aula.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados