IRPO: Implicit Policy Regularized Preference Optimization - researchr publication

researchr

You are not signed in
Sign in
Sign up

Youngsoo Jang, Yu-Jin Kim, Geon-hyeong Kim, Honglak Lee, Moontae Lee. IRPO: Implicit Policy Regularized Preference Optimization. In Vera Demberg, Kentaro Inui, Lluís Marquez, editors, Findings of the Association for Computational Linguistics: EACL 2026, Rabat, Morocco, March 24-29, 2026. pages 5304-5325, Association for Computational Linguistics, 2026. [doi]

Abstract is missing.

runs on WebDSL