Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), ACL 2025, Vienna, Austria, July 27 - August 1, 2025 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), ACL 2025, Vienna, Austria, July 27 - August 1, 2025. Association for Computational Linguistics, 2025. [doi]

Conference: acl2025

Abstract is missing.

Frontmatter [doi]

Towards LLM-powered Attentive Listener: A Pragmatic Approach through Quantity Self-RepairJunlin Li, Bo Peng, Yu-Yin Hsu. 1-13 [doi]

MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive EnvironmentsYin Cai, Zhouhong Gu, Zhaohan Du, Zheyu Ye, Shaosheng Cao, Yiqian Xu, Hongwei Feng, Ping Chen. 14-40 [doi]

Dynamic Label Name Refinement for Few-Shot Dialogue Intent ClassificationGyutae Park, Ingeol Baek, Byeongjeong Kim, Joongbo Shin, Hwanhee Lee. 41-52 [doi]

Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web CorporaYungi Kim, Hyunsoo Ha, Sukyung Lee, Jihoo Kim, Seonghoon Yang, Chanjun Park. 53-58 [doi]

Automatic detection of dyslexia based on eye movements during reading in RussianAnna Laurinavichyute, Anastasiya Lopukhina, David Robert Reich. 59-66 [doi]

Doc-React: Multi-page Heterogeneous Document Question-answeringJunda Wu, Yu Xia 0007, Tong Yu 0001, Xiang Chen, Sai Sree Harsha, Akash V. Maharaj, Ruiyi Zhang 0002, Victor S. Bursztyn, SungChul Kim, Ryan A. Rossi, Julian J. McAuley, Yunyao Li 0001, Ritwik Sinha. 67-78 [doi]

ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MTMikolaj Pokrywka, Wojciech Kusa, Mieszko Rutkowski, Mikolaj Koszowski. 79-86 [doi]

A Measure of the System Dependence of Automated MetricsPius von Däniken, Jan Milan Deriu, Mark Cieliebak. 87-99 [doi]

Call for Rigor in Reporting Quality of Instruction Tuning DataHyeonseok Moon, Jaehyung Seo, HeuiSeok Lim. 100-109 [doi]

BQA: Body Language Question Answering Dataset for Video Large Language ModelsShintaro Ozaki, Kazuki Hayashi, Miyu Oba, Yusuke Sakai 0010, Hidetaka Kamigaito, Taro Watanabe. 110-123 [doi]

Grounded, or a Good Guesser? A Per-Question Balanced Dataset to Separate Blind from Grounded Models for Embodied Question AnsweringMiles Shelton, Nate Wingerd, Kritim K. Rijal, Ayush Garg 0008, Adelina Gutic, Brett Barnes, Catherine Finegan-Dollak. 124-135 [doi]

Learning Sparsity for Effective and Efficient Music Performance Question AnsweringXingjian Diao, Tianzhen Yang, Chunhui Zhang, Weiyi Wu, Ming Cheng, Jiang Gui. 136-146 [doi]

Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric PhenomenonChen Zhang 0019, Zhiyuan Liao, Yansong Feng 0002. 147-157 [doi]

Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive PlausibilitySuet-Ying Lam, Qingcheng Zeng, Jingyi Wu, Rob Voigt. 158-171 [doi]

Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's CharacteristicsLorenzo Jaime Yu Flores, Ori Ernst, Jackie CK Cheung. 172-182 [doi]

KnowShiftQA: How Robust are RAG Systems when Textbook Knowledge Shifts in K-12 Education?Tianshi Zheng, Weihan Li, Jiaxin Bai, Weiqi Wang 0001, Yangqiu Song. 183-195 [doi]

Improving Parallel Sentence Mining for Low-Resource and Endangered LanguagesShu Okabe, Katharina Hämmerl, Alexander Fraser 0001. 196-205 [doi]

Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?Jiayu Liu, Qing Zong, Weiqi Wang 0001, Yangqiu Song. 206-221 [doi]

Limited-Resource Adapters Are Regularizers, Not LinguistsMarcell Fekete, Nathaniel Romney Robinson, Ernests Lavrinovics, E. Djeride Jean-Baptiste, Raj Dabre, Johannes Bjerva, Heather C. Lent. 222-237 [doi]

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation TasksAnna Bavaresco, Raffaella Bernardi, Leonardo Bertolazzi, Desmond Elliott, Raquel Fernández, Albert Gatt, Esam Ghaleb, Mario Giulianelli, Michael Hanna 0001, Alexander Koller, André F. T. Martins, Philipp Mondorf, Vera Neplenbroek, Sandro Pezzelle, Barbara Plank, David Schlangen, Alessandro Suglia, Aditya K. Surikuchi, Ece Takmaz, Alberto Testoni. 238-255 [doi]

FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference RankingsTong Liu 0019, Xiao Yu, Wenxuan Zhou, Jindong Gu, Volker Tresp. 256-267 [doi]

Combining Domain and Alignment Vectors Provides Better Knowledge-Safety Trade-offs in LLMsMegh Thakkar, Quentin Fournier, Matthew Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar. 268-277 [doi]

Can Uniform Meaning Representation Help GPT-4 Translate from Indigenous Languages?Shira Wein. 278-285 [doi]

Subword models struggle with word learning, but surprisal hides itBastian Bunzeck, Sina Zarrieß. 286-300 [doi]

LLM as Entity Disambiguator for Biomedical Entity-LinkingChristophe Ye, Cassie S. Mitchell. 301-312 [doi]

Towards Geo-Culturally Grounded LLM GenerationsPiyawat Lertvittayakumjorn, David Kinney, Vinodkumar Prabhakaran, Donald Martin Jr., Sunipa Dev. 313-330 [doi]

MUSTS: MUltilingual Semantic Textual Similarity BenchmarkTharindu Ranasinghe, Hansi Hettiarachchi, Constantin Orasan, Ruslan Mitkov. 331-353 [doi]

Can Large Language Models Accurately Generate Answer Keys for Health-related Questions?Davis Bartels, Deepak Gupta, Dina Demner-Fushman. 354-368 [doi]

Literary Evidence Retrieval via Long-Context Language ModelsKatherine Thai, Mohit Iyyer. 369-380 [doi]

A Little Human Data Goes A Long WayDhananjay Ashok, Jonathan May. 381-413 [doi]

Seeking Rational Demonstrations for Large Language Models: A Domain Generalization Approach to Unsupervised Cross-Domain Keyphrase GenerationGuangzhen Zhao, Yu Yao, Dechang Kong, Zhenjiang Dong. 414-424 [doi]

LexKeyPlan: Planning with Keyphrases and Retrieval Augmentation for Legal Text Generation: A Case Study on European Court of Human Rights CasesT. Y. S. S. Santosh, Elvin Quero Hernandez. 425-436 [doi]

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge RefinementRunnan Fang, XiaoBin Wang, Yuan Liang, Shuofei Qiao, Jialong Wu 0007, Zekun Xi, Ningyu Zhang 0001, Yong Jiang 0005, Pengjun Xie, Fei Huang 0002, Huajun Chen. 437-448 [doi]

Enhancing Retrieval Systems with Inference-Time Logical ReasoningFelix Faltings, Wei Wei 0019, Yujia Bao. 449-463 [doi]

Using Subtext to Enhance Generative IDRRZhipang Wang, Yu Hong 0001, Weihao Sun, Guodong Zhou. 464-473 [doi]

State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space ModelsWonjun Kang, Kevin Galim, Yuchen Zeng, MinJae Lee, Hyung il Koo, Nam Ik Cho. 474-487 [doi]

Internal and External Impacts of Natural Language Processing PapersYu Zhang. 488-494 [doi]

An Effective Incorporating Heterogeneous Knowledge Curriculum Learning for Sequence LabelingXuemei Tang, Jun Wang 0100, Qi Su 0001, Chu-Ren Huang, Jinghang Gu. 495-503 [doi]

Accelerating Dense LLMs via L0-regularized Mixture-of-ExpertsZhenyu Zhang, Jiudong Yang, Zhaowen Tao, Meng Chen 0006. 504-513 [doi]

Do Multimodal Large Language Models Truly See What We Point At? Investigating Indexical, Iconic, and Symbolic Gesture ComprehensionNoriki Nishida, Koji Inoue, Hideki Nakayama, Mayumi Bono, Katsuya Takanashi. 514-524 [doi]

Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question AnsweringSongtao Jiang, Chenyi Zhou, Yan Zhang 0004, Yeying Jin, Zuozhu Liu. 525-534 [doi]

Can Community Notes Replace Professional Fact-Checkers?Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein. 535-552 [doi]

Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation ModelSihan Tan, Taro Miyazaki, Kazuhiro Nakadai. 553-561 [doi]

Advancing Sequential Numerical Prediction in Autoregressive ModelsXiang Fei, Jinghui Lu, Qi Sun, Hao Feng 0009, Yanjie Wang, Wei Shi, An-Lan Wang, Jingqun Tang, Can Huang. 562-574 [doi]

FEAT: A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI TutoringHyein Seo, Taewook Hwang 0003, Yohan Lee, Sangkeun Jung. 575-589 [doi]

ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of EventsDuygu Sezen Islakoglu, Jan-Christoph Kalo. 590-602 [doi]

Human Alignment: How Much Do We Adapt to LLMs?Tanguy Cazalets, Ruben Janssens, Tony Belpaeme, Joni Dambre. 603-613 [doi]

Dynamic Order Template Prediction for Generative Aspect-Based Sentiment AnalysisYonghyun Jun, Hwanhee Lee. 614-626 [doi]

That doesn't sound right: Evaluating speech transcription quality in field linguistics corporaÉric Le Ferrand, Bo Jiang, Joshua K. Hartshorne, Emily Prud'hommeaux. 627-635 [doi]

Is That Your Final Answer? Test-Time Scaling Improves Selective Question AnsweringWilliam Jurayj, Jeffrey Cheng, Benjamin Van Durme. 636-644 [doi]

Acoustic Individual Identification of White-Faced Capuchin Monkeys Using Joint Multi-Species EmbeddingsÁlvaro Vega-Hidalgo, Artem Abzaliev, Thore Bergman, Rada Mihalcea. 645-659 [doi]

SELF-PERCEPT: Introspection Improves Large Language Models' Detection of Multi-Person Mental Manipulation in ConversationsDanush Khanna, Pratinav Seth, Sidhaarth Sredharan Murali, Aditya Kumar Guru, Siddharth Shukla, Tanuj Tyagi, Sandeep Chaurasia, Kripabandhu Ghosh. 660-675 [doi]

A Variational Approach for Mitigating Entity Bias in Relation ExtractionSamuel Mensah, Elena Kochkina, Jabez Magomere, Joy Prakash Sain, Simerjot Kaur, Charese Smiley. 676-684 [doi]

GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge SubtractionMohammadtaha Bagherifard, Sahar Rajabi, Ali Edalat, Yadollah Yaghoobzadeh. 685-694 [doi]

The Role of Abstract Representations and Observed Preferences in the Ordering of Binomials in Large Language ModelsZachary Nicholas Houghton, Kenji Sagae, Emily Morgan. 695-702 [doi]

Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMsPayal Mohapatra, Akash Pandey, Xiaoyuan Zhang, Qi Zhu 0002. 703-712 [doi]

Decoder-Only LLMs can be Masked Auto-EncodersDan Qiao, Yuan Gao, Zheming Yang, Di Yang, Ziheng Wu, Pengcheng Lu, Minghui Qiu, Juntao Li, Min Zhang 0005. 713-723 [doi]

Mitigating Posterior Salience Attenuation in Long-Context LLMs with Positional Contrastive DecodingZikai Xiao, Ziyang Wang, Wen Ma, Yan Zhang, Wei Shen, WangYan WangYan, Luqi Gong, Zuozhu Liu. 724-733 [doi]

Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMsXuan Zhang, Cunxiao Du, Sicheng Yu, Jiawei Wu, Fengzhuo Zhang, Wei Gao, Qian Liu 0012. 734-742 [doi]

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias ResultsAndrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson. 743-759 [doi]

Memorization Inheritance in Sequence-Level Knowledge Distillation for Neural Machine TranslationVerna Dankers, Vikas Raunak. 760-774 [doi]

CoRet: Improved Retriever for Code EditingFabio Fehr, Prabhu Teja Sivaprasad, Luca Franceschi 0003, Giovanni Zappella. 775-789 [doi]

Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of ProgressLorenzo Proietti 0002, Stefano Perrella, Roberto Navigli. 790-813 [doi]

Diffusion Directed Acyclic Transformer for Non-Autoregressive Machine TranslationQuan Nguyen-Tri, Cong Dao Tran, Hoang Thanh-Tung. 814-828 [doi]

Efficient Knowledge Editing via Minimal PrecomputationAkshat Gupta, Maochuan Lu, Thomas Hartvigsen, Gopala Anumanchipalli. 829-840 [doi]

Meaning Variation and Data Quality in the Corpus of Founding Era American EnglishDallas Card. 841-856 [doi]

MindRef: Mimicking Human Memory for Hierarchical Reference Retrieval with Fine-Grained Location AwarenessYe Wang, Xinrun Xu, Zhiming Ding. 857-872 [doi]

LLMs syntactically adapt their language use to their conversational partnerFlorian Kandra, Vera Demberg, Alexander Koller. 873-886 [doi]

TigerLLM - A Family of Bangla Large Language ModelsNishat Raihan, Marcos Zampieri. 887-896 [doi]

From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss JurisprudenceRonja Stern, Ken Kawamura, Matthias Stürmer, Ilias Chalkidis, Joel Niklaus. 897-905 [doi]

Revisiting LLMs as Zero-Shot Time Series Forecasters: Small Noise Can Break Large ModelsJunwoo Park, Hyuck Lee, Dohyun Lee 0001, Daehoon Gwak, Jaegul Choo. 906-922 [doi]

Transferring Textual Preferences to Vision-Language Understanding through Model MergingChen-An Li, Tzu-Han Lin, Yun-Nung Chen, Hung-yi Lee. 923-943 [doi]

ProgCo: Program Helps Self-Correction of Large Language ModelsXiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng 0007. 944-959 [doi]

Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMsAnanth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay. 960-969 [doi]

Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese GrammarAndrew Gambardella, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo. 970-976 [doi]

Unique Hard Attention: A Tale of Two SidesSelim Jerad, Anej Svete, Jiaoda Li, Ryan Cotterell. 977-996 [doi]

Enhancing Input-Label Mapping in In-Context Learning with Contrastive DecodingKeqin Peng, Liang Ding 0006, Yuanxin Ouyang, Meng Fang, Yancheng Yuan, Dacheng Tao. 997-1004 [doi]

Different Speech Translation Models Encode and Translate Speaker Gender DifferentlyDennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli, André F. T. Martins, Giuseppe Attanasio. 1005-1019 [doi]

Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic HintsKaikai An, Shuzheng Si, Helan Hu, Haozhe Zhao, YuChi Wang, Qingyan Guo, Baobao Chang. 1020-1029 [doi]

Quantifying Misattribution Unfairness in Authorship AttributionPegah Alipoormolabashi, Ajay Patel, Niranjan Balasubramanian. 1030-1041 [doi]

Zero-Shot Text-to-Speech for VietnameseThi Vu, Linh The Nguyen, Dat Quoc Nguyen. 1042-1049 [doi]

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and ExposureZheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao 0001. 1050-1063 [doi]

Are Optimal Algorithms Still Optimal? Rethinking Sorting in LLM-Based Pairwise Ranking with Batching and CachingJuan Wisznia, Cecilia Bolaños, Juan Tollo, Giovanni Marraffini, Agustín Gianolini, Noe Hsueh, Luciano Del Corro. 1064-1072 [doi]

TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination EvaluationJialin Ouyang. 1073-1085 [doi]

WinSpot: GUI Grounding Benchmark with Multimodal Large Language ModelsZheng Hui, Yinheng Li, Dan Zhao, Colby R. Banbury, Tianyi Chen, Kazuhito Koishida. 1086-1096 [doi]

Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language ModelsFardin Ahsan Sakib, Ziwei Zhu, Karen Trister Grace, Meliha Yetisgen, Özlem Uzuner. 1097-1106 [doi]

Enhancing NER by Harnessing Multiple Datasets with Conditional Variational AutoencodersTaku Oi, Makoto Miwa. 1107-1117 [doi]

CHEER-Ekman: Fine-grained Embodied Emotion ClassificationPhan Anh Duong, Cat Luong, Divyesh Bommana, Tianyu Jiang. 1118-1131 [doi]

ScanEZ: Integrating Cognitive Models with Self-Supervised Learning for Spatiotemporal Scanpath PredictionEkta Sood, Prajit Dhar, Enrica Troiano, Rosy Southwell, Sidney K. D'Mello. 1132-1142 [doi]

Improving Fairness of Large Language Models in Multi-document SummarizationHaoyuan Li, Rui Zhang 0037, Snigdha Chaturvedi. 1143-1154 [doi]

Should I Believe in What Medical AI Says? A Chinese Benchmark for Medication Based on Knowledge and ReasoningYue Wu, Yangmin Huang, Qianyun Du, Lixian Lai, Zhiyang He, Jiaxue Hu, Xiaodong Tao. 1155-1164 [doi]

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human?Takumi Goto, Yusuke Sakai 0010, Taro Watanabe. 1165-1172 [doi]

Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form GenerationChengwei Qin, Wenxuan Zhou, Karthik Abinav Sankararaman, Nanshu Wang, Tengyu Xu, Alexander Radovic, Eryk Helenowski, Arya Talebzadeh, Aditya Tayade, Sinong Wang, Shafiq Joty, Han Fang, Hao Ma 0001. 1173-1182 [doi]

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More ChallengingAhmed Elhady, Eneko Agirre, Mikel Artetxe. 1183-1192 [doi]

Cross-Lingual Representation Alignment Through Contrastive Image-Caption TuningNathaniel Krasner, Nicholas Lanuzo, Antonios Anastasopoulos. 1193-1199 [doi]

LAMB: A Training-Free Method to Enhance the Long-Context Understanding of SSMs via Attention-Guided Token FilteringZhifan Ye, Zheng Wang, Kejing Xia, Jihoon Hong, Leshu Li, Lexington Whalen, Cheng Wan 0005, Yonggan Fu, Yingyan Celine Lin, Souvik Kundu 0009. 1200-1209 [doi]

Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language ModelsJongho Kim, Seung-won Hwang. 1210-1225 [doi]

runs on WebDSL