Disentangling Length from Quality in Direct Preference Optimization

researchr

You are not signed in
Sign in
Sign up

Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn. Disentangling Length from Quality in Direct Preference Optimization. In Lun-Wei Ku, Andre Martins, Vivek Srikumar, editors, Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11-16, 2024. pages 4998-5017, Association for Computational Linguistics, 2024. [doi]

@inproceedings{ParkREF24,
  title = {Disentangling Length from Quality in Direct Preference Optimization},
  author = {Ryan Park and Rafael Rafailov and Stefano Ermon and Chelsea Finn},
  year = {2024},
  url = {https://aclanthology.org/2024.findings-acl.297},
  researchr = {https://researchr.org/publication/ParkREF24},
  cites = {0},
  citedby = {0},
  pages = {4998-5017},
  booktitle = {Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11-16, 2024},
  editor = {Lun-Wei Ku and Andre Martins and Vivek Srikumar},
  publisher = {Association for Computational Linguistics},
  isbn = {979-8-89176-099-8},
}

External Links

Cite Key

Statistics

PDF

Researchr

Disentangling Length from Quality in Direct Preference Optimization