Ayuda
Ir al contenido

Dialnet


Data-driven modelling of cognitive and affective variables of perception of multimedia content

  • Autores: Ricardo Javier Faúndez-Carrasco Población
  • Directores de la Tesis: Fernando Fernández Martínez (dir. tes.)
  • Lectura: En la Universidad Politécnica de Madrid ( España ) en 2023
  • Idioma: español
  • Tribunal Calificador de la Tesis: José Manuel Pardo Muñoz (presid.), Miguel Ángel Fernández Torres (secret.), David Griol Barres (voc.), Raúl Santos Rodríguez (voc.), Alba García Seco de Herrera (voc.)
  • Programa de doctorado: Programa de Doctorado en Ingeniería de Sistemas Electrónicos por la Universidad Politécnica de Madrid
  • Materias:
  • Enlaces
  • Resumen
    • Entender cómo estímulos externos se transforman en impresiones que guíarán nuestras acciones ha sido un reto durante siglos. Los modelos automáticos de percepción de producciones multimedia se perfilan como una vía para la caracterización de nuestra interacción con este tipo de contenido, que hoy en día copa las redes sociales, y por tanto nuestro tiempo en el ámbito digital. De la mano de teorías de la percepción identificamos la memorabilidad, la atención, los juicios y el estado emocional como variables afectivo-cognitivas complementarios para una mejor comprensión de nuestra percepción del contenidos multimedia.

      La memorabilidad intrínseca de un vídeo se define como una propiedad inherente a sus características visuales que determina el porcentaje de personas que recuerdan haberlo visto posteriormente. Nuestro enfoque se basa en la extracción de características temáticas a nivel de vídeo mediante Transformers pre-entrenados. Modelos lineales entrenados con estas características pueden alcanzar tasas de predicción comparables a las de otros modelos de estado del arte. En segundo lugar, caracterizamos mediante grabaciones de actividad electrodérmica la atención que presta un grupo durante el visionado de cortometrajes. Desarrollamos un sistema de clasificación binaria cuyas predicciones, basadas en una representación semántica de la señal acústica de los vídeos, indican si la atención a nivel de grupo aumenta o disminuye. Tras ello, estudiamos la valoración de imágenes atendiendo a su atractivo en términos de promoción turística. Nuestra propuesta se basa en un sistema de mezcla de expertos que aprovecha la información relativa a la geolocalización, la cual denota semánticas y contenidos específicos, incorporando así al diseño del modelo conocimiento sobre el proceso de anotación. Con vistas a predecir las emociones suscitadas por obras de arte históricas, empleamos modelos inter-modales de visión y lenguaje que explotan la naturaleza subjetiva y figurativa propia del dominio artístico.Introducimos una metodología para aproximar sistemas pre-entrenados en contenidos realistas al ámbito del arte, descubriendo que ello conduce a mejoras significativas de hasta el 27%.

      Sin embargo, dada la complejidad de comprender la lógica que subyace a los modelos de predicción visual "de caja negra", nuestra última contribución se centra en la mejora de su interpretabilidad. Exploramos cómo mejorar las explicaciones proporcionadas por LIME, una popular técnica explicativa basada en sustitutos a post-hoc, añadiendo indirectamente información sobre la estadística de la distribución de datos sobre la que se ha entrenado el modelo de "caja negra".

      Creemos que esta tesis contribuye a comprender la percepción humana de los contenidos multimedia abordando diversas variables cognitivas y afectivas desde una perspectiva computacional. Nuestros planteamientos tratan de combinar información procedente de múltiples modalidades, presentando modelos que extraen patrones a partir de características de bajo nivel de las entradas, y relacionándolas con acciones y respuestas humanas.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno