Miroslav Strupl, Francesco Faccio, Dylan R. Ashley, Jürgen Schmidhuber, Rupesh Kumar Srivastava: Upside-Down Reinforcement Learning Can Diverge in Stochastic Environments With Episodic Resets. CoRR abs/2205.06595 (2022)