Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Lingwei Zhu, Takamitsu Matsubara. Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning. Machine Learning, 112(11):4527-4562, November 2023. [doi]

Abstract is missing.

runs on WebDSL