Policy Optimization as Online Learning with Mediator Feedback

researchr

You are not signed in
Sign in
Sign up

Alberto Maria Metelli, Matteo Papini, Pierluca D'Oro, Marcello Restelli. Policy Optimization as Online Learning with Mediator Feedback. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021. pages 8958-8966, AAAI Press, 2021. [doi]

@inproceedings{MetelliPDR21,
  title = {Policy Optimization as Online Learning with Mediator Feedback},
  author = {Alberto Maria Metelli and Matteo Papini and Pierluca D'Oro and Marcello Restelli},
  year = {2021},
  url = {https://ojs.aaai.org/index.php/AAAI/article/view/17083},
  researchr = {https://researchr.org/publication/MetelliPDR21},
  cites = {0},
  citedby = {0},
  pages = {8958-8966},
  booktitle = {Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021},
  publisher = {AAAI Press},
  isbn = {978-1-57735-866-4},
}

External Links

Cite Key

Statistics

PDF

Researchr

Policy Optimization as Online Learning with Mediator Feedback