Maria Eriksson, Erasmo Purificato, Arman Noroozian, João Vinagre, Guillaume Chaslot, Emilia Gómez, David Fernández Llorca: Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation. CoRR abs/2502.06559 (2025)