ODIN: Disentangled Reward Mitigates Hacking in RLHF - researchr publication

researchr

You are not signed in
Sign in
Sign up

Lichang Chen, Chen Zhu 0001, Jiuhai Chen, Davit Soselia, Tianyi Zhou 0001, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro. ODIN: Disentangled Reward Mitigates Hacking in RLHF. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. pages 7935-7952, OpenReview.net, 2024. [doi]

Abstract is missing.

runs on WebDSL