Safe Policy Improvement by Minimizing Robust Baseline Regret

researchr

You are not signed in
Sign in
Sign up

Mohammad Ghavamzadeh, Marek Petrik, Yinlam Chow. Safe Policy Improvement by Minimizing Robust Baseline Regret. In Daniel D. Lee, Masashi Sugiyama, Ulrike V. Luxburg, Isabelle Guyon, Roman Garnett, editors, Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain. pages 2298-2306, 2016. [doi]

@inproceedings{GhavamzadehPC16,
  title = {Safe Policy Improvement by Minimizing Robust Baseline Regret},
  author = {Mohammad Ghavamzadeh and Marek Petrik and Yinlam Chow},
  year = {2016},
  url = {http://papers.nips.cc/paper/6294-safe-policy-improvement-by-minimizing-robust-baseline-regret},
  researchr = {https://researchr.org/publication/GhavamzadehPC16},
  cites = {0},
  citedby = {0},
  pages = {2298-2306},
  booktitle = {Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain},
  editor = {Daniel D. Lee and Masashi Sugiyama and Ulrike V. Luxburg and Isabelle Guyon and Roman Garnett},
}

External Links

Cite Key

Statistics

PDF

Researchr

Safe Policy Improvement by Minimizing Robust Baseline Regret