Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment.

Tianhao Wu 0002 Banghua Zhu Ruoyu Zhang Zhaojin Wen Kannan Ramchandran Jiantao Jiao Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment. 2023 abs/2310.00212 CoRR https://doi.org/10.48550/arXiv.2310.00212 db/journals/corr/corr2310.html#abs-2310-00212