Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes - researchr publication related

researchr

You are not signed in
Sign in
Sign up

Guanghui Lan. Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes. Math. Program., 198(1):1059-1106, March 2023. [doi]

runs on WebDSL