Feedback Loops With Language Models Drive In-Context Reward Hacking

researchr

explore
calendar
search

You are not signed in
Sign in
Sign up

Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt. Feedback Loops With Language Models Drive In-Context Reward Hacking. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. pages 39154-39200, OpenReview.net, 2024. [doi]

@inproceedings{PanJJS24,
  title = {Feedback Loops With Language Models Drive In-Context Reward Hacking},
  author = {Alexander Pan and Erik Jones and Meena Jagadeesan and Jacob Steinhardt},
  year = {2024},
  url = {https://openreview.net/forum?id=EvHWlYTLWe},
  researchr = {https://researchr.org/publication/PanJJS24},
  cites = {0},
  citedby = {0},
  pages = {39154-39200},
  booktitle = {Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024},
  publisher = {OpenReview.net},
}

External Links

Cite Key

Statistics

PDF

Researchr

Feedback Loops With Language Models Drive In-Context Reward Hacking