Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu: MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions. CoRR abs/2410.02743 (2024)