Confronting Reward Model Overoptimization with Constrained RLHF

researchr

explore
calendar
search

You are not signed in
Sign in
Sign up

Ted Moskovitz, Aaditya K. Singh, DJ Strouse, Tuomas Sandholm, Ruslan Salakhutdinov, Anca D. Dragan, Stephen Marcus McAleer. Confronting Reward Model Overoptimization with Constrained RLHF. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024. [doi]

@inproceedings{MoskovitzSSSSDM24,
  title = {Confronting Reward Model Overoptimization with Constrained RLHF},
  author = {Ted Moskovitz and Aaditya K. Singh and DJ Strouse and Tuomas Sandholm and Ruslan Salakhutdinov and Anca D. Dragan and Stephen Marcus McAleer},
  year = {2024},
  url = {https://openreview.net/forum?id=gkfUvn0fLU},
  researchr = {https://researchr.org/publication/MoskovitzSSSSDM24},
  cites = {0},
  citedby = {0},
  booktitle = {The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024},
  publisher = {OpenReview.net},
}

External Links

Cite Key

Statistics

PDF

Researchr

Confronting Reward Model Overoptimization with Constrained RLHF