Hao-Wen Dong, Naoya Takahashi, Yuki Mitsufuji, Julian J. McAuley, Taylor Berg-Kirkpatrick: CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos. CoRR abs/2212.07065 (2022)