Learning Optimal Advantage from Preferences and Mistaking It for Reward - researchr publication

researchr

You are not signed in
Sign in
Sign up

W. Bradley Knox, Stephane Hatgis-Kessell, Sigurdur O. Adalgeirsson, Serena Booth, Anca D. Dragan, Peter Stone, Scott Niekum. Learning Optimal Advantage from Preferences and Mistaking It for Reward. In Michael J. Wooldridge, Jennifer G. Dy, Sriraam Natarajan, editors, Thirty-Eigth AAAI Conference on Artificial Intelligence, AAAI 2024, Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence, IAAI 2024, Fourteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2014, February 20-27, 2024, Vancouver, Canada. pages 10066-10073, AAAI Press, 2024. [doi]

Abstract is missing.

runs on WebDSL