Optimizing Test-Time Compute via Meta Reinforcement Finetuning - researchr publication

researchr

You are not signed in
Sign in
Sign up

Yuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar. Optimizing Test-Time Compute via Meta Reinforcement Finetuning. In Forty-second International Conference on Machine Learning, ICML 2025, Vancouver, BC, Canada, July 13-19, 2025. OpenReview.net, 2025. [doi]

Abstract is missing.

runs on WebDSL