Two Time-Scale Stochastic Approximation with Controlled Markov Noise and Off-Policy Temporal-Difference Learning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Prasenjit Karmakar, Shalabh Bhatnagar. Two Time-Scale Stochastic Approximation with Controlled Markov Noise and Off-Policy Temporal-Difference Learning. Math. Oper. Res., 43(1):130-151, 2018. [doi]

Abstract is missing.

runs on WebDSL