Optimistic Posterior Sampling for Reinforcement Learning: Worst-Case Regret Bounds - researchr publication

researchr

You are not signed in
Sign in
Sign up

Shipra Agrawal 0001, Randy Jia. Optimistic Posterior Sampling for Reinforcement Learning: Worst-Case Regret Bounds. Math. Oper. Res., 48(1):363-392, February 2023. [doi]

Abstract is missing.

runs on WebDSL