Entender cómo estímulos externos se transforman en impresiones que guíarán nuestras acciones ha sido un reto durante siglos. Los modelos automáticos de percepción de producciones multimedia se perfilan como una vía para la caracterización de nuestra interacción con este tipo de contenido, que hoy en día copa las redes sociales, y por tanto nuestro tiempo en el ámbito digital. De la mano de teorías de la percepción identificamos la memorabilidad, la atención, los juicios y el estado emocional como variables afectivo-cognitivas complementarios para una mejor comprensión de nuestra percepción del contenidos multimedia.
La memorabilidad intrínseca de un vídeo se define como una propiedad inherente a sus características visuales que determina el porcentaje de personas que recuerdan haberlo visto posteriormente. Nuestro enfoque se basa en la extracción de características temáticas a nivel de vídeo mediante Transformers pre-entrenados. Modelos lineales entrenados con estas características pueden alcanzar tasas de predicción comparables a las de otros modelos de estado del arte. En segundo lugar, caracterizamos mediante grabaciones de actividad electrodérmica la atención que presta un grupo durante el visionado de cortometrajes. Desarrollamos un sistema de clasificación binaria cuyas predicciones, basadas en una representación semántica de la señal acústica de los vídeos, indican si la atención a nivel de grupo aumenta o disminuye. Tras ello, estudiamos la valoración de imágenes atendiendo a su atractivo en términos de promoción turística. Nuestra propuesta se basa en un sistema de mezcla de expertos que aprovecha la información relativa a la geolocalización, la cual denota semánticas y contenidos específicos, incorporando así al diseño del modelo conocimiento sobre el proceso de anotación. Con vistas a predecir las emociones suscitadas por obras de arte históricas, empleamos modelos inter-modales de visión y lenguaje que explotan la naturaleza subjetiva y figurativa propia del dominio artístico.Introducimos una metodología para aproximar sistemas pre-entrenados en contenidos realistas al ámbito del arte, descubriendo que ello conduce a mejoras significativas de hasta el 27%.
Sin embargo, dada la complejidad de comprender la lógica que subyace a los modelos de predicción visual "de caja negra", nuestra última contribución se centra en la mejora de su interpretabilidad. Exploramos cómo mejorar las explicaciones proporcionadas por LIME, una popular técnica explicativa basada en sustitutos a post-hoc, añadiendo indirectamente información sobre la estadística de la distribución de datos sobre la que se ha entrenado el modelo de "caja negra".
Creemos que esta tesis contribuye a comprender la percepción humana de los contenidos multimedia abordando diversas variables cognitivas y afectivas desde una perspectiva computacional. Nuestros planteamientos tratan de combinar información procedente de múltiples modalidades, presentando modelos que extraen patrones a partir de características de bajo nivel de las entradas, y relacionándolas con acciones y respuestas humanas.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados