On the Robustness of Reward Models for Language Model Alignment - researchr publication

researchr

You are not signed in
Sign in
Sign up

Jiwoo Hong, Noah Lee, Eunki Kim, Guijin Son, Woojin Chung, Aman Gupta, Shao Tang, James Thorne. On the Robustness of Reward Models for Language Model Alignment. In Forty-second International Conference on Machine Learning, ICML 2025, Vancouver, BC, Canada, July 13-19, 2025. OpenReview.net, 2025. [doi]

Abstract is missing.

runs on WebDSL