TBQ(σ): Improving Efficiency of Trace Utilization for Off-Policy Reinforcement Learning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Longxiang Shi, Shijian Li, Longbing Cao, Long Yang, Gang Pan. TBQ(σ): Improving Efficiency of Trace Utilization for Off-Policy Reinforcement Learning. In Edith Elkind, Manuela Veloso, Noa Agmon, Matthew E. Taylor, editors, Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems, AAMAS '19, Montreal, QC, Canada, May 13-17, 2019. pages 1025-1032, International Foundation for Autonomous Agents and Multiagent Systems, 2019. [doi]

Abstract is missing.

runs on WebDSL