Ayuda
Ir al contenido

Dialnet


¿Cómo puedo preparar mi texto digital para su estudio? Extracción (web scraping), limpieza y marcado automático de corpus

    1. [1] University of Strasbourg

      University of Strasbourg

      Arrondissement de Strasbourg-Ville, Francia

  • Localización: Las humanidades digitales en la enseñanza de las literaturas hispánicas: aplicaciones prácticas / coord. por Clara Isabel Martínez Cantón, Rocío Ortuño Casanova, Antonio Huertas Morales, 2023, ISBN 978-3-631-90806-8, págs. 85-110
  • Idioma: español
  • Enlaces
  • Resumen
    • El capítulo describe la extracción de contenido (scraping) a partir de fuentes web (expresadas sobre todo en HTML). Es necesario hacer scraping cuando los textos electrónicos que queremos analizar no están disponibles en un formato apropiado para nuestras herramientas de análisis informático. Se describen brevemente el marcado HTML, XML y JSON, y el lenguaje conocido como expresiones regulares para manipular cadenas de texto. Se presenta un tutorial de la herramienta OpenRefine para scraping. Un repositorio acompaña al capítulo, dando más detalles y presentado el scraping con el lenguaje Python. Se proponen dos actividades para el aula.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno