Mixed-policy preference optimization with self-generated non-preferred responses and off-policy preference distillation - researchr publication

researchr

You are not signed in
Sign in
Sign up

Binrui Wang, Zikai Wang, Yongping Du, Mingyang Li. Mixed-policy preference optimization with self-generated non-preferred responses and off-policy preference distillation. Neurocomputing, 695:133996, 2026. [doi]

Abstract is missing.

runs on WebDSL