Stepwise Guided Policy Optimization: Coloring Your Incorrect Reasoning in GRPO - researchr publication references

researchr

You are not signed in
Sign in
Sign up

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin. Stepwise Guided Policy Optimization: Coloring Your Incorrect Reasoning in GRPO. Trans. Mach. Learn. Res., 2026, 2026. [doi]

No references recorded for this publication.

No citations of this publication recorded.

runs on WebDSL