¿Cómo puedo preparar mi texto digital para su estudio? Extracción (web scraping), limpieza y marcado automático de corpus

Pablo Ruiz Fabo ^[1]
1. [1] University of Strasbourg
  
  University of Strasbourg
  
  Arrondissement de Strasbourg-Ville, Francia
Localización: Las humanidades digitales en la enseñanza de las literaturas hispánicas: aplicaciones prácticas / coord. por Clara Isabel Martínez Cantón, Rocío Ortuño Casanova, Antonio Huertas Morales, 2023, ISBN 978-3-631-90806-8, págs. 85-110
Idioma: español
Enlaces
- Texto Completo Libro
Resumen
- El capítulo describe la extracción de contenido (scraping) a partir de fuentes web (expresadas sobre todo en HTML). Es necesario hacer scraping cuando los textos electrónicos que queremos analizar no están disponibles en un formato apropiado para nuestras herramientas de análisis informático. Se describen brevemente el marcado HTML, XML y JSON, y el lenguaje conocido como expresiones regulares para manipular cadenas de texto. Se presenta un tutorial de la herramienta OpenRefine para scraping. Un repositorio acompaña al capítulo, dando más detalles y presentado el scraping con el lenguaje Python. Se proponen dos actividades para el aula.