Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Shuyao Xu, Cheng Peng, Jiangxuan Long 0002, Weidi Xu, Wei Chu, Yuan Qi. Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning. In Maria Liakata, Viviane P. Moreira, Jiajun Zhang 0001, David Jurgens, editors, Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2026, San Diego, California, United States, July 2-7, 2026. pages 1618-1639, Association for Computational Linguistics, 2026. [doi]

Abstract is missing.

runs on WebDSL