DyCoT-RE: Chain-of-Thought-enhanced LLM reward engineering with dual-dynamic optimization for reinforcement learning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Xinning Zhu, Jinxin Du, Longfei Huang, Lunde Chen. DyCoT-RE: Chain-of-Thought-enhanced LLM reward engineering with dual-dynamic optimization for reinforcement learning. Neurocomputing, 695:133945, 2026. [doi]

Abstract is missing.

runs on WebDSL