Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, July 27 - August 1, 2025

researchr

You are not signed in
Sign in
Sign up

Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar, editors, Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, July 27 - August 1, 2025. Association for Computational Linguistics, 2025. [doi]

Conference: acl2025

Abstract is missing.

Frontmatter [doi]

Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-ReflectionYachao Zhao, Bo Wang 0011, Yan Wang 0059, Dongming Zhao, Ruifang He, Yuexian Hou. 1-12 [doi]

Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage TaskYanbei Jiang, Yihao Ding, Chao Lei, Jiayang Ao, Jey Han Lau, Krista A. Ehinger. 13-45 [doi]

How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMsGuhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He 0001, Zhenguo Li, Liwei Wang 0001. 46-85 [doi]

Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-ExpertsZeliang Zhang, Xiaodong Liu 0003, Hao Cheng 0002, Chenliang Xu, Jianfeng Gao 0001. 86-102 [doi]

A Persona-Aware LLM-Enhanced Framework for Multi-Session Personalized Dialogue GenerationDongshuo Liu, Zhijing Wu 0001, Dandan Song, Heyan Huang. 103-123 [doi]

Exploring In-Image Machine Translation with Real-World BackgroundYanzhi Tian, Zeming Liu, Zhengyang Liu, Yuhang Guo 0001. 124-137 [doi]

BayesKD: Bayesian Knowledge Distillation for Compact LLMs in Constrained Fine-tuning ScenariosWei Li, Lujun Li 0001, Mark G. Lee, Shengjie Sun, Lei Zhang, Wei Xue, Yike Guo. 138-152 [doi]

GOLFer: Smaller LMs-Generated Documents Hallucination Filter & Combiner for Query Expansion in Information RetrievalLingyuan Liu, Mengxiang Zhang. 153-162 [doi]

Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query ExpansionLingyuan Liu, Mengxiang Zhang. 163-173 [doi]

Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion ClassificationAlexander Shvets. 174-191 [doi]

Multi-Prompting Decoder Helps Better Language UnderstandingZifeng Cheng, Zhaoling Chen, Zhiwei Jiang, Yafeng Yin 0002, Cong Wang 0034, Shiping Ge, Qing Gu 0001. 192-208 [doi]

Visual Cues Enhance Predictive Turn-Taking for Two-Party Human InteractionSam O'Connor Russell, Naomi Harte. 209-221 [doi]

The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction TuningBingxiang He, Ning Ding 0002, Cheng Qian 0008, Jia Deng, Ganqu Cui, Lifan Yuan, Haiwen Hong, Huan-ang Gao, Longtao Huang, Hui Xue 0001, Huimin Chen, Zhiyuan Liu 0001, Maosong Sun 0001. 222-243 [doi]

MFinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation DatasetJie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen. 244-266 [doi]

ODDA: An OODA-Driven Diverse Data Augmentation Framework for Low-Resource Relation ExtractionYijie Zhong 0001, Yunfan Gao, Xiaolian Zhang, Haofen Wang. 267-285 [doi]

Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMsLuca Cagliero, Lorenzo Vaiani, Eliana Pastor, Alkis Koudounas, Elena Baralis, Vittorio Mazzia, Sandro Pollastrini, Thomas Gueudré, Manuel Giollo, Daniele Amberti, Yue Wu. 286-301 [doi]

Entity Framing and Role Portrayal in the NewsTarek Mahmoud, Zhuohan Xie, Dimitar Iliyanov Dimitrov, Nikolaos Nikolaidis 0004, Purificação Silvano, Roman Yangarber, Shivam Sharma, Elisa Sartori, Nicolas Stefanovitch, Giovanni Da San Martino, Jakub Piskorski, Preslav Nakov. 302-326 [doi]

Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model ReasoningGuangya Wan, Yuqi Wu, Hao Wang, Shengming Zhao, Jie Chen, Sheng Li. 327-348 [doi]

Leveraging Large Language Models for Conversational Multi-Doc Question Answering: The First Place of WSDM Cup 2024Yiming Li, Zhao Zhang. 349-355 [doi]

TreeRAG: Unleashing the Power of Hierarchical Storage for Enhanced Knowledge Retrieval in Long DocumentsWenyu Tao, Xiaofen Xing, Yirong Chen, Linyi Huang, Xiangmin Xu. 356-371 [doi]

Attention with Dependency Parsing Augmentation for Fine-Grained AttributionQiang Ding, Lvzhou Luo, Yixuan Cao 0001, Ping Luo 0001. 372-387 [doi]

ASTRO: Automatic Strategy Optimization For Non-Cooperative DialoguesYikuan Hu, Chen Huang 0006, Wenqiang Lei. 388-408 [doi]

Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak AttacksChen Xiong, Xiangyu Qi, Pin-Yu Chen, Tsung-Yi Ho. 409-437 [doi]

GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience PredictionJessica Lin 0004, Amir Zeldes. 438-455 [doi]

Verifying the Steps of Deductive Reasoning ChainsZacchary Sadeddine, Fabian M. Suchanek. 456-475 [doi]

Translate With Care: Addressing Gender Bias, Neutrality, and Reasoning in Large Language Model TranslationsPardis Sadat Zahraei, Ali Emami. 476-501 [doi]

Utilizing Semantic Textual Similarity for Clinical Survey Data Feature SelectionBenjamin C. Warner, Ziqi Xu 0002, Simon Haroutounian, Thomas George Kannampallil, Chenyan Lu. 502-520 [doi]

Distance between Relevant Information Pieces Causes Bias in Long-Context LLMsRunchu Tian, Yanghao Li, Yuepeng Fu, Siyang Deng, Qinyu Luo, Cheng Qian, Shuo Wang, Xin Cong, Zhong Zhang, Yesai Wu, Yankai Lin, Huadong Wang, Xiaojiang Liu. 521-533 [doi]

Variable Layerwise Quantization: A Simple and Effective Approach to Quantize LLMsRazvan Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu. 534-550 [doi]

Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? A Petroglyph RevisitedKazuki Irie. 551-559 [doi]

CRPO: Confidence-Reward Driven Preference Optimization for Machine TranslationGuofeng Cui, Pichao Wang, Yang Liu, Zemian Ke, Zhu Liu, Vimal Bhat. 560-574 [doi]

Talking Point based Ideological Discourse Analysis in News EventsNishanth Sridhar Nakshatri, Nikhil Mehta 0003, Siyi Liu, Sihao Chen, Daniel Hopkins, Dan Roth, Dan Goldwasser. 575-594 [doi]

FlashBack: Efficient Retrieval-Augmented Language Modeling for Fast InferenceRunheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu 0001. 595-608 [doi]

CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator CalculationGuangya Yu, Yanhao Li, Zongying Jiang, Yuxiong Jin, Li Dai, Yupian Lin, Ruihui Hou, Weiyan Zhang, Yongqi Fan, Qi Ye, JingPing Liu, Tong Ruan. 609-626 [doi]

ConKE: Conceptualization-Augmented Knowledge Editing in Large Language Models for Commonsense ReasoningLiyu Zhang 0005, Weiqi Wang 0001, Tianqing Fang, Yangqiu Song. 627-635 [doi]

Exploring Multi-Modal Data with Tool-Augmented LLM Agents for Precise Causal DiscoveryChengao Shen, Zhengzhang Chen, Dongsheng Luo, Dongkuan Xu, Haifeng Chen, Jingchao Ni. 636-660 [doi]

PARSQL: Enhancing Text-to-SQL through SQL Parsing and ReasoningYaxun Dai, Haiqin Yang, Hao Mou, Pingfu Chao. 661-681 [doi]

Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering TasksYuntai Bao, Xuhong Zhang 0002, Tianyu Du, Xinkui Zhao, Zhengwen Feng, Hao Peng 0002, Jianwei Yin. 682-700 [doi]

Comparing Bad Apples to Good Oranges Aligning Large Language Models via Joint Preference OptimizationHritik Bansal, Ashima Suvarna, Gantavya Bhatt, Nanyun Peng 0001, Kai-Wei Chang, Aditya Grover. 701-723 [doi]

TestAgent: An Adaptive and Intelligent Expert for Human AssessmentJunhao Yu, Yan Zhuang, Yuxuan Sun, Weibo Gao, Qi Liu 0003, Mingyue Cheng, Zhenya Huang, Enhong Chen. 724-747 [doi]

SPICA: Retrieving Scenarios for Pluralistic In-Context AlignmentQuan Ze Chen, Kevin Feng, Chan Young Park, Amy X. Zhang. 748-765 [doi]

First-Step Advantage: Importance of Starting Right in Multi-Step Math ReasoningKushal Jain, Moritz Miller, Niket Tandon, Kumar Shridhar. 766-778 [doi]

Evaluating Instructively Generated Statement by Large Language Models for Directional Event Causality IdentificationWei Xiang 0005, Chuanhong Zhan, Qing Zhang, Bang Wang 0001. 779-785 [doi]

CoinMath: Harnessing the Power of Coding Instruction for Math LLMChengwei Wei, Bin Wang 0040, Jung-Jae Kim 0001, Guimei Liu, Nancy F. Chen. 786-797 [doi]

Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human ExpertsZain Muhammad Mujahid, Dilshod Azizov, Maha Tufail Agro, Preslav Nakov. 798-819 [doi]

Structured Discourse Representation for Factual Consistency VerificationKun Zhang 0045, Oana Balalau, Ioana Manolescu. 820-838 [doi]

SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing LLMsChuyi Kong, Ziyang Luo, Hongzhan Lin 0001, Zhiyuan Fan, Yaxin Fan, Yuxi Sun 0011, Jing Ma 0004. 839-866 [doi]

Understanding the Gap: an Analysis of Research Collaborations in NLP and Language DocumentationLuke Gessler, Alexis Palmer, Katharina von der Wense. 867-877 [doi]

PersonaBench: Evaluating AI Models on Understanding Personal Information through Accessing (Synthetic) Private User DataJuntao Tan, Liangwei Yang, Zuxin Liu, Zhiwei Liu 0001, Rithesh R. N., Tulika Manoj Awalgaonkar, Jianguo Zhang, Weiran Yao, Ming Zhu, Shirley Kokane, Silvio Savarese, Huan Wang 0016, Caiming Xiong, Shelby Heinecke. 878-893 [doi]

Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active LearningSimret Araya Gebreegziabher, Kuangshi Ai, Zheng Zhang 0043, Elena L. Glassman, Toby Jia-Jun Li. 894-906 [doi]

ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case StudyEric Modesitt, Ke Yang, Spencer Hulsey, Xin Liu, ChengXiang Zhai, Volodymyr V. Kindratenko. 907-926 [doi]

Serial Position Effects of Large Language ModelsXiaobo Guo, Soroush Vosoughi. 927-953 [doi]

scRAG: Hybrid Retrieval-Augmented Generation for LLM-based Cross-Tissue Single-Cell AnnotationZhiyin Yu, Chao Zheng, Chong Chen 0002, Xian-Sheng Hua 0001, Xiao Luo 0001. 954-970 [doi]

Can Large Language Models Address Open-Target Stance Detection?Abu Ubaida Akash, Ahmed Fahmy, Amine Trabelsi. 971-985 [doi]

Improve Language Model and Brain Alignment via Associative MemoryCongchi Yin, Yongpeng Zhang, Xuyun Wen, Piji Li. 986-999 [doi]

Towards Reliable Large Audio Language ModelZiyang Ma 0001, Xiquan Li, Yakun Song, Wenxi Chen, Chenpeng Du, Jian Wu, Yuanzhe Chen, Zhuo Chen 0006, Yuping Wang 0005, Yuxuan Wang 0002, Xie Chen 0001. 1000-1014 [doi]

Large Vocabulary Size Improves Large Language ModelsSho Takase, Ryokan Ri, Shun Kiyono, Takuya Kato. 1015-1026 [doi]

MUSE: A Multimodal Conversational Recommendation Dataset with Scenario-Grounded User ProfilesZihan Wang, Xiaocui Yang, Yongkang Liu 0002, Shi Feng 0001, Daling Wang, Yifei Zhang 0003. 1027-1053 [doi]

Machine Translation Models are Zero-Shot Detectors of Translation DirectionMichelle Wastl, Jannis Vamvas, Rico Sennrich. 1054-1074 [doi]

Do Robot Snakes Dream like Electric Sheep? Investigating the Effects of Architectural Inductive Biases on HallucinationJerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Boxing Chen, Sarath Chandar. 1075-1096 [doi]

GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong SimulationJie He 0004, Jennifer Neville, Mengting Wan, Longqi Yang, Hui Liu, Xiaofeng Xu, Xia Song, Jeff Z. Pan, Pei Zhou. 1097-1122 [doi]

SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue ResolutionChengxing Xie, Bowen Li 0002, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen 0026. 1123-1139 [doi]

GlyphPattern: An Abstract Pattern Recognition for Vision-Language ModelsZixuan Wu, Yoolim Kim, Carolyn Jane Anderson. 1140-1175 [doi]

FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example GenerationQianli Wang, Nils Feldhus, Simon Ostermann 0002, Luis-Felipe Villa-Arenas, Sebastian Möller 0001, Vera Schmitt. 1176-1191 [doi]

From Misleading Queries to Accurate Answers: A Three-Stage Fine-Tuning Method for LLMsGuocong Li, Weize Liu, Yihang Wu, Ping Wang, Shuaihan Huang, Hongxia Xu, Jian Wu 0001. 1192-1209 [doi]

Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language ModelsDi Wu, Xin Lu, Yanyan Zhao, Bing Qin 0001. 1210-1225 [doi]

Nuclear Deployed!: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM AgentsRongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu. 1226-1310 [doi]

MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task LearningDacao Zhang, Kun Zhang, Shimao Chu, Le Wu, Xin Li, Si Wei. 1311-1324 [doi]

Lunar Twins: We Choose to Go to the Moon with Large Language ModelsXin-Yu Xiao, Yalei Liu, Xiangyu Liu, Zengrui Li, Erwei Yin, Qianchen Xia. 1325-1339 [doi]

SPHERE: An Evaluation Card for Human-AI SystemsDora Zhao, Qianou Ma, Xinran Zhao, Chenglei Si, Chenyang Yang 0002, Ryan Louie, Ehud Reiter, Diyi Yang, Tongshuang Wu. 1340-1365 [doi]

Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation ModelingMaximillian Chen, Ruoxi Sun 0002, Sercan Ö. Arik. 1366-1387 [doi]

Question-Aware Knowledge Graph Prompting for Enhancing Large Language ModelsHaochen Liu, Song Wang 0013, Chen Chen 0022, Jundong Li. 1388-1400 [doi]

UQ-Merge: Uncertainty Guided Multimodal Large Language Model MergingHuaizhi Qu, Xinyu Zhao, Jie Peng 0002, Kwonjoon Lee, Behzad Dariush, Tianlong Chen 0001. 1401-1417 [doi]

AQuAECHR: Attributed Question Answering for European Court of Human RightsKorbinian Q. Weidinger, T. Y. S. S. Santosh, Oana Ichim, Matthias Grabmair. 1418-1447 [doi]

Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech TranslationYuhao Zhang, Xiangnan Ma, Kaiqi Kou, Peizhuo Liu, Weiqiao Shan, Benyou Wang, Tong Xiao, Yuxin Huang, Zhengtao Yu 0001, Jingbo Zhu. 1448-1460 [doi]

Ponder & Press: Advancing Visual GUI Agent towards General Computer ControlYiqin Wang, Haoji Zhang 0001, Jingqi Tian, Yansong Tang. 1461-1473 [doi]

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language ModelsJiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu 0036, Hongning Wang, Yuxiao Dong, Jie Tang 0001, Minlie Huang. 1474-1491 [doi]

LLM-Based Multi-Agent Systems are Scalable Graph Generative ModelsJiarui Ji, Runlin Lei, Jialing Bi, Zhewei Wei, Xu Chen 0017, Yankai Lin, Xuchen Pan, Yaliang Li, Bolin Ding. 1492-1523 [doi]

AD-LLM: Benchmarking Large Language Models for Anomaly DetectionTiankai Yang 0001, Yi Nian, Li Li 0006, Ruiyao Xu, Yuangang Li 0002, Jiaqi Li, Zhuo Xiao, Xiyang Hu, Ryan A. Rossi, Kaize Ding, Xia Hu 0001, Yue Zhao 0016. 1524-1547 [doi]

RTADev: Intention Aligned Multi-Agent Framework for Software DevelopmentJie Liu, Guohua Wang, Ronghui Yang, Jiajie Zeng, Mengchen Zhao, Yi Cai. 1548-1581 [doi]

TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement LearningShivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle, Saravan Rajmohan. 1582-1597 [doi]

A Character-Centric Creative Story Generation via ImaginationKyeongman Park, Minbeom Kim, Kyomin Jung. 1598-1645 [doi]

Proverbs Run in Pairs: Evaluating Proverb Translation Capability of Large Language ModelMinghan Wang, Viet-Thanh Pham, Farhad Moghimifar, Thuy-Trang Vu. 1646-1662 [doi]

Towards Efficient LLM Grounding for Embodied Multi-Agent CollaborationYang Zhang, Shixin Yang, Chenjia Bai, Fei Wu 0001, Xiu Li 0001, Zhen Wang 0004, Xuelong Li 0001. 1663-1699 [doi]

UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable QuestionsChuanyuan Tan, Wenbiao Shao, Hao Xiong, Tong Zhu 0002, Zhenhua Liu, Kai Shi, Wenliang Chen. 1700-1715 [doi]

Exploring Knowledge Filtering for Retrieval-Augmented Discriminative TasksMinjie Qiang, Zhongqing Wang, Xiaoyi Bao, Haoyuan Ma, Shoushan Li, Guodong Zhou. 1716-1729 [doi]

Group then Scale: Dynamic Mixture-of-Experts Multilingual Language ModelChong Li, Yingzhuo Deng, Jiajun Zhang, Chengqing Zong. 1730-1754 [doi]

Beyond Verbal Cues: Emotional Contagion Graph Network for Causal Emotion EntailmentFangxu Yu, Junjie Guo, Zhen Wu 0002, Xinyu Dai. 1755-1767 [doi]

Critic-CoT: Boosting the Reasoning Abilities of Large Language Model via Chain-of-Thought CriticXin Zheng, Jie Lou, Boxi Cao, Xueru Wen, Yuqiu Ji, Hongyu Lin, Yaojie Lu 0001, Xianpei Han, Debing Zhang, Le Sun 0001. 1768-1806 [doi]

Systematic Generalization in Language Models Scales with Information EntropySondre Wold, Lucas Georges Gabriel Charpentier, Étienne Simon. 1807-1819 [doi]

The Inverse Scaling Effect of Pre-Trained Language Model Surprisal Is Not Due to Data LeakageByung-Doh Oh, Hongao Zhu, William Schuler. 1820-1827 [doi]

Logical Consistency is Vital: Neural-Symbolic Information Retrieval for Negative-Constraint QueriesGanlin Xu, Zhoujia Zhang, Wangyi Mei, Jiaqing Liang, Weijia Lu, Xiaodong Zhang, Zhifei Yang, Xiaofeng Ma, Yanghua Xiao, Deqing Yang. 1828-1847 [doi]

'No' Matters: Out-of-Distribution Detection in Multimodality Multi-Turn Interactive Dialogue Download PDFRena Wei Gao, Xuetong Wu, Siwen Luo, Caren Han, Feng Liu. 1848-1864 [doi]

Event Pattern-Instance Graph: A Multi-Round Role Representation Learning Strategy for Document-Level Event Argument ExtractionQizhi Wan, Liu Tao, Changxuan Wan, Rong Hu, Keli Xiao, Yuxin Shuai. 1865-1877 [doi]

EXECUTE: A Multilingual Benchmark for LLM Token UnderstandingLukas Edman, Helmut Schmid, Alexander Fraser 0001. 1878-1887 [doi]

Explainable Hallucination through Natural Language Inference MappingWei-Fan Chen, Zhixue Zhao, Akbar Karimi 0001, Lucie Flek. 1888-1896 [doi]

HopRAG: Multi-Hop Reasoning for Logic-Aware Retrieval-Augmented GenerationHao Liu, Zhengren Wang, Xi Chen, Zhiyu Li, Feiyu Xiong, Qinhan Yu, Wentao Zhang. 1897-1913 [doi]

Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View FusionMarkus Frohmann, Gabriel Meseguer-Brocal, Markus Schedl, Elena V. Epure. 1914-1926 [doi]

Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language ModelsSangmin Woo, Donguk Kim, Jaehyuk Jang, Yubin Choi, Changick Kim. 1927-1951 [doi]

SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task LinkageXiaoning Dong, Wenbo Hu, Wei Xu, Tianxing He. 1952-1987 [doi]

Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech SynthesisYifan Hu, Rui Liu 0008, Yi Ren 0006, Xiang Yin 0006, Haizhou Li 0001. 1988-2003 [doi]

Parameter-Efficient Fine-Tuning via Circular ConvolutionAochuan Chen, Jiashun Cheng, Zijing Liu, Ziqi Gao, Fugee Tsung, Yu Li 0003, Jia Li 0009. 2004-2019 [doi]

Alleviating Hallucinations in Large Language Models via Truthfulness-driven Rank-adaptive LoRAJiahao Li 0004, Zhendong Mao 0001, Quan Wang 0002. 2020-2031 [doi]

ScEdit: Script-based Assessment of Knowledge EditingXinye Li, Zunwen Zheng, Qian Zhang, Dekai Zhuang, Jiabao Kang, Liyan Xu, Qingbin Liu, Xi Chen 0003, Zhiying Tu, Dianhui Chu, Dianbo Sui. 2032-2052 [doi]

SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language ModelsSeanie Lee, Dong-Bok Lee, Dominik Wagner 0002, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee 0001, Sung Ju Hwang. 2053-2069 [doi]

Moderation Matters: Measuring Conversational Moderation Impact in English as a Second Language Group DiscussionRena Wei Gao, Ming-Bin Chen, Lea Frermann, Jey Han Lau. 2070-2095 [doi]

Measuring Bias and Agreement in Large Language Model Presupposition JudgmentsKatherine Atwell, Mandy Simons, Malihe Alikhani. 2096-2107 [doi]

Harnessing PDF Data for Improving Japanese Large Multimodal ModelsJeonghun Baek, Akiko Aizawa, Kiyoharu Aizawa. 2108-2123 [doi]

EnerGIZAr: Leveraging GIZA++ for Effective Tokenizer InitializationPranaydeep Singh, Eneko Agirre, Gorka Azkune, Orphée De Clercq, Els Lefever. 2124-2137 [doi]

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI AgentsYuxiang Chai, Siyuan Huang 0004, Yazhe Niu, Han Xiao 0010, Liang Liu, Guozhi Wang, Dingyu Zhang, Shuai Ren, Hongsheng Li 0001. 2138-2156 [doi]

Drop Dropout on Single Epoch Language Model PretrainingHoujun Liu, John Bauer, Christopher D. Manning. 2157-2166 [doi]

Robust and Minimally Invasive Watermarking for EaaSZongqi Wang, Baoyuan Wu, Jingyuan Deng, Yujiu Yang. 2167-2191 [doi]

Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on TextAndrei Jarca, Florinel-Alin Croitoru, Radu-Tudor Ionescu. 2192-2201 [doi]

CARMO: Dynamic Criteria Generation for Context Aware Reward ModellingTaneesh Gupta, Shivam Shandilya, Xuchao Zhang, Rahul Madhavan, Supriyo Ghosh, Chetan Bansal, Huaxiu Yao, Saravan Rajmohan. 2202-2261 [doi]

SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage TrainingWenxi Chen, Ziyang Ma 0001, Ruiqi Yan, Yuzhe Liang, Xiquan Li, Ruiyang Xu, Zhikang Niu, Yanqiao Zhu 0003, Yifan Yang 0005, Zhanxun Liu, Kai Yu 0004, Yuxuan Hu 0003, Jinyu Li 0001, Yan Lu, Shujie Liu 0001, Xie Chen 0001. 2262-2282 [doi]

C²LEVA: Toward Comprehensive and Contamination-Free Language Model EvaluationYanyang Li, Tin Long Wong, Cheung To Hung, Jianqiao Zhao, Duo Zheng, Ka Wai Liu, Michael R. Lyu, Liwei Wang 0009. 2283-2306 [doi]

Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question AnsweringWei Zhou, Mohsen Mesgar, Heike Adel, Annemarie Friedrich. 2307-2318 [doi]

Adaptive-VP: A Framework for LLM-Based Virtual Patients that Adapts to Trainees' Dialogue to Facilitate Nurse Communication TrainingKeyeun Lee, Seolhee Lee, Esther Hehsun Kim, Yena Ko, Jinsu Eun, Dahee Kim, Hyewon Cho, Haiyi Zhu, Robert E. Kraut, Eunyoung Suh, Eun Mee Kim, Hajin Lim. 2319-2352 [doi]

Enhancing Multimodal Unified Representations for Cross Modal GeneralizationHai Huang 0013, Yan Xia 0006, Shengpeng Ji, Shulei Wang, Hanting Wang, Minghui Fang 0002, Jieming Zhu, Zhenhua Dong, Sashuai Zhou, Zhou Zhao 0001. 2353-2366 [doi]

Domain Regeneration: How well do LLMs match syntactic properties of text domains?Da Ju, Hagen Blix, Adina Williams. 2367-2388 [doi]

Structural Deep Encoding for Table Question AnsweringRaphaël Mouravieff, Benjamin Piwowarski, Sylvain Lamprier. 2389-2402 [doi]

MPL: Multiple Programming Languages with Large Language Models for Information ExtractionBo Li 0099, Gexiang Fang, Wei Ye 0004, Zhenghua Xu 0001, Jinglei Zhang, Hao Cheng, Shikun Zhang. 2403-2414 [doi]

Self-Critique Guided Iterative Reasoning for Multi-hop Question AnsweringZheng Chu, Huiming Fan, Jingchang Chen, Qianyu Wang, Mingda Yang, Jiafeng Liang, Zhongjie Wang 0003, Hao Li, Guo Tang, Ming Liu 0004, Bing Qin 0001. 2415-2438 [doi]

Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice QuestionsRuizhe Li 0001, Yanjun Gao. 2439-2465 [doi]

Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval AugmentationSreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li. 2466-2482 [doi]

LTRAG: Enhancing Autoformalization and Self-refinement for Logical Reasoning with Thought-Guided RAGRuikang Hu, Shaoyu Lin, Yeliang Xiu, Yongmei Liu 0001. 2483-2493 [doi]

Eta-WavLM: Efficient Speaker Identity Removal in Self-Supervised Speech Representations Using a Simple Linear EquationGiuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle, Luigi Di Caro. 2494-2504 [doi]

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical ReasoningKe Wang 0036, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao 0010, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li 0001. 2505-2534 [doi]

MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language ModelsBoyang Xue, Hongru Wang 0003, Rui Wang 0092, Sheng Wang, Zezhong Wang 0004, Yiming Du, Bin Liang 0004, Wenxuan Zhang, Kam-Fai Wong. 2535-2556 [doi]

COMPKE: Complex Question Answering under Knowledge EditingKeyuan Cheng, Zijian Kan, Zhuoran Zhang, Muhammad Asif Ali, Lijie Hu, Di Wang. 2557-2576 [doi]

RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM ReasoningJunhao Hu, Wenrui Huang, Weidong Wang, Zhenwen Li, Tiancheng Hu, Zhixia Liu, Xusheng Chen, Tao Xie, Yizhou Shan. 2577-2590 [doi]

One-for-All Pruning: A Universal Model for Customized Compression of Large Language ModelsRongguang Ye, Ming Tang 0006. 2591-2604 [doi]

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen LanguagesShangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun 0001. 2605-2625 [doi]

PFDial: A Structured Dialogue Instruction Fine-tuning Method Based on UML FlowchartsMing Zhang 0030, Yuhui Wang, Yujiong Shen, Tingyi Yang, Changhao Jiang, Yilong Wu, Shihan Dou, Qinhao Chen, Zhiheng Xi, Zhihao Zhang 0002, Yi Dong, Zhen Wang 0020, Zhihui Fei, Mingyang Wan, Tao Liang, Guojun Ma, Qi Zhang 0001, Tao Gui, Xuanjing Huang 0001. 2626-2649 [doi]

Listening to Patients: Detecting and Mitigating Patient Misreport in Medical Dialogue SystemLang Qin, Yao Zhang, Hongru Liang, Adam Jatowt, Zhenglu Yang. 2650-2664 [doi]

Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back ParadigmXiaoyang Hu, Richard L. Lewis. 2665-2677 [doi]

Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot LearningYuxia Geng, Runkai Zhu, Jiaoyan Chen 0001, Jintai Chen, Xiang Chen 0016, Zhuo Chen 0007, Shuofei Qiao, Yuxiang Wang 0001, Xiaoliang Xu, Sheng-Jun Huang. 2678-2690 [doi]

Training Long-Context LLMs Efficiently via Chunk-wise OptimizationWenhao Li 0001, Yuxin Zhang 0002, Gen Luo, Daohai Yu, Rongrong Ji. 2691-2700 [doi]

Revisiting LoRA through the Lens of Parameter Redundancy: Spectral Encoding HelpsJiashun Cheng, Aochuan Chen, Nuo Chen 0001, Ziqi Gao, Yuhan Li 0001, Jia Li 0009, Fugee Tsung. 2701-2718 [doi]

CODEMENV: Benchmarking Large Language Models on Code MigrationKeyuan Cheng, Xudong Shen, Yihao Yang, TengyueWang TengyueWang, Yang Cao, Muhammad Asif Ali, Hanbin Wang, Lijie Hu, Di Wang. 2719-2744 [doi]

A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMsV. S. D. S. Mahesh Akavarapu, Hrishikesh Terdalkar, Pramit Bhattacharyya, Shubhangi Agarwal 0001, Vishakha Deulgaonkar, Chaitali Dangarikar, Pralay Manna, Arnab Bhattacharya 0001. 2745-2761 [doi]

BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text GenerationJilong Li, Zhenxi Song, Jiaqi Wang, Meishan Zhang, Honghai Liu 0001, Min Zhang 0005, Zhiguo Zhang 0001. 2762-2778 [doi]

Progressive LoRA for Multimodal Continual Instruction TuningYahan Yu, Duzhen Zhang, Yong Ren, Xuanle Zhao, Xiuyi Chen, Chenhui Chu. 2779-2796 [doi]

ARC 'Challenge' Is Not That ChallengingLukasz Borchmann. 2797-2804 [doi]

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive InvestigationVera Neplenbroek, Arianna Bisazza, Raquel Fernández. 2805-2830 [doi]

Tracr-Injection: Distilling Algorithms into Pre-trained Language ModelsTomás Vergara Browne, Alvaro Soto. 2831-2843 [doi]

Model Performance-Guided Evaluation Data Selection for Effective Prompt OptimizationXiming Dong, Shaowei Wang 0002, Dayi Lin, Ahmed E. Hassan. 2844-2859 [doi]

Revisiting Weak-to-Strong Generalization in Theory and Practice: Reverse KL vs. Forward KLWei Yao 0017, Wenkai Yang, Ziqiao Wang, Yankai Lin, Yong Liu 0018. 2860-2888 [doi]

Stories that (are) Move(d by) Markets: A Causal Exploration of Market Shocks and Semantic Shifts across Different Partisan GroupsFelix Drinkall, Stefan Zohren, Michael McMahon, Janet B. Pierrehumbert. 2889-2904 [doi]

NetSafe: Exploring the Topological Safety of Multi-agent SystemMiao Yu, Shilong Wang, Guibin Zhang, Junyuan Mao, Chenlong Yin, Qijiong Liu, Kun Wang, Qingsong Wen, Yang Wang 0015. 2905-2938 [doi]

Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question EvaluationQiji Zhou, Yifan Gong 0007, Guangsheng Bao, Hongjie Qiu, Jinqiang Li, Xiangrong Zhu, Huajian Zhang, Yue Zhang. 2939-2957 [doi]

Initializing and Retrofitting Key-Value Adaptors for Traceable Model EditingHanlun Zhu, Yunshi Lan, Xiang Li 0067, Weining Qian. 2958-2971 [doi]

Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction TuningJiaqi Li, Yixuan Tang 0001, Yi Yang 0042. 2972-2989 [doi]

Position-Aware Depth Decay Decoding (D³): Boosting Large Language Model Inference EfficiencySiqi Fan 0001, Xuezhi Fang, Xingrun Xing, Peng Han 0005, Shuo Shang, Yequan Wang. 2990-3001 [doi]

Explaining Puzzle Solutions in Natural Language: An Exploratory Study on 6x6 SudokuAnirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi 0001, Fabio Somenzi. 3002-3009 [doi]

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool DetectorsAndrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti 0002, Felice dell'Orletta, Andrea Esuli. 3010-3031 [doi]

InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language ModelSiqi Ouyang, Xi Xu, Lei Li. 3032-3046 [doi]

VSCBench: Bridging the Gap in Vision-Language Model Safety CalibrationJiahui Geng, Qing Li 0038, Zongxiong Chen, Yuxia Wang, Derui Zhu, Zhuohan Xie, Chenyang Lyu, Xiuying Chen, Preslav Nakov, Fakhri Karray. 3047-3059 [doi]

To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-MaximizationHaozhe Wang 0002, Long Li, Chao Qu, Weidi Xu, Fengming Zhu, Wei Chu, Fangzhen Lin. 3060-3075 [doi]

GOODLIAR: A Reinforcement Learning-Based Deceptive Agent for Disrupting LLM Beliefs on Foundational PrinciplesSoo-Kyung Kim, Hyunsoo Cho. 3076-3101 [doi]

How Does Response Length Affect Long-Form FactualityJames Xu Zhao, Jimmy Z. J. Liu, Bryan Hooi, See-Kiong Ng. 3102-3125 [doi]

Scaling LLMs' Social Reasoning: Sprinkle Cognitive "Aha Moment" into Fundamental Long-thought Logical CapabilitiesGuiyang Hou, Wenqi Zhang 0001, Zhe Zheng, Yongliang Shen 0001, Weiming Lu 0001. 3126-3138 [doi]

SimGRAG: Leveraging Similar Subgraphs for Knowledge Graphs Driven Retrieval-Augmented GenerationYuzheng Cai, Zhenyue Guo, Yiwen Pei, Wanrui Bian, Weiguo Zheng. 3139-3158 [doi]

RuleEdit: Towards Rule-Level Knowledge Generalization to Mitigate Over-Editing in Large Language ModelsBihan Zhou, Haopeng Ren, Li Yuan, Yi Cai 0001, Liuwen Cao, Zikun Deng. 3159-3175 [doi]

Eliciting In-context Retrieval and Reasoning for Long-context Large Language ModelsYifu Qiu, Varun R. Embar, Yizhe Zhang 0002, Navdeep Jaitly, Shay B. Cohen, Benjamin Han. 3176-3192 [doi]

GeAR: Generation Augmented RetrievalHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun 0015, Weiwei Deng, Feng Sun 0008, Furu Wei, Qi Zhang 0066. 3193-3207 [doi]

A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy ExpansionYanzhen Shen, Yu Zhang 0044, Yunyi Zhang 0001, Jiawei Han 0001. 3208-3220 [doi]

Zero-Shot Conversational Stance Detection: Dataset and ApproachesYuzhe Ding, Kang He, Bobo Li, Li Zheng, Haijun He, Fei Li 0021, Chong Teng, Donghong Ji. 3221-3235 [doi]

LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic DataCehao Yang, Xueyuan Lin, Chengjin Xu, Xuhui Jiang, Shengjie Ma, Aofan Liu, Hui Xiong 0001, Jian Guo. 3236-3256 [doi]

SYNTHVERIFY: Enhancing Zero-Shot Claim Verification through Step-by-Step Synthetic Data GenerationRongwen Zhao, Jeffrey Flanigan. 3257-3274 [doi]

Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes DomainsXu Chu 0001, Zhijie Tan, Hanlin Xue, Guanyu Wang 0002, Tong Mo, Weiping Li. 3275-3293 [doi]

Dynamic Prefix as Instructor for Incremental Named Entity Recognition: A Unified Seq2Seq Generation FrameworkZihao Wu, YongXiang Hua, Yongxin Zhu 0003, Fang Zhang, Linli Xu. 3294-3306 [doi]

Who Taught You That? Tracing Teachers in Model DistillationSomin Wadhwa, Chantal Shaib, Silvio Amir, Byron C. Wallace. 3307-3315 [doi]

D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative ModelsGrace Byun, Jinho D. Choi. 3316-3349 [doi]

HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Assistant ScenariosJun Wang, Jiamu Zhou, Xihuai Wang, Xiaoyun Mo, Haoyu Zhang, Qiqiang Lin, Jincheng Jincheng, Muning Wen, Weinan Zhang 0001, Qiuying Peng. 3350-3376 [doi]

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute GuidelinesDo Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Anh Tuan Luu, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen. 3377-3411 [doi]

GRAMMAR-LLM: Grammar-Constrained Natural Language GenerationGabriele Tuccio, Luana Bulla, Maria Madonia, Aldo Gangemi, Misael Mongiovì. 3412-3422 [doi]

MANBench: Is Your Multimodal Model Smarter than Human?Han Zhou, Qitong Xu, Yiheng Dong, Xin Yang. 3423-3449 [doi]

BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for BanglaMahammed Kamruzzaman, Abdullah Al-Monsur, Shrabon Kumar Das, Enamul Hassan, Gene Louis Kim. 3450-3460 [doi]

mOSCAR: A Large-scale Multilingual and Multimodal Document-level CorpusMatthieu Futeral, Armel Randy Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot. 3461-3494 [doi]

NorEval: A Norwegian Language Understanding and Generation Evaluation BenchmarkVladislav Mikhailov, Tita Ranveig Enstad, David Samuel, Hans Christian Farsethås, Andrey Kutuzov, Erik Velldal, Lilja Øvrelid. 3495-3541 [doi]

Massively Multilingual Instruction-Following Information ExtractionThang Le, Huy Huu Nguyen, Anh Tuan Luu, Thien Huu Nguyen. 3542-3585 [doi]

DALR: Dual-level Alignment Learning for Multimodal Sentence Representation LearningKang He, Yuzhe Ding, Haining Wang, Fei Li, Chong Teng, Donghong Ji. 3586-3601 [doi]

Large Language Models in Bioinformatics: A SurveyZhenyu Wang, Zikang Wang, Jiyue Jiang, Pengan Chen, Xiangyu Shi, Yu Li 0006. 3602-3615 [doi]

ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart EditingXuanle Zhao, Xuexin Liu, Haoyue Yang, Xianzhen Luo, Fanhu Zeng, Jianling Li, Qi Shi 0002, Chi Chen 0005. 3616-3630 [doi]

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language ModelsQin Liu 0010, Chao Shang, Ling Liu, Nikolaos Pappas 0004, Jie Ma 0005, Neha Anna John, Srikanth Doss, Lluís Màrquez, Miguel Ballesteros, Yassine Benajiba. 3631-3643 [doi]

Turbocharging Web Automation: The Impact of Compressed History StatesXiyue Zhu, Peng Tang, Haofu Liao, Srikar Appalaraju. 3644-3651 [doi]

Making RALM Robust to Irrelevant Contexts via Layer Knowledge Guided AttentionWeijie Shi, Hao Chen, Jiaming Li, Yao Zhao, Yazhong Zhang, Qijin Chen, Jipeng Zhang, Ruiyuan Zhang, Jia Zhu 0003, Jiajie Xu 0001, Xiaofang Zhou 0001. 3652-3668 [doi]

Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness InstructionYuting Huang 0001, Chengyuan Liu, Yifeng Feng, Yiquan Wu 0001, Chao Wu 0001, Fei Wu 0001, Kun Kuang. 3669-3690 [doi]

SignAlignLM: Integrating Multimodal Sign Language Processing into Large Language ModelsMert Inan, Anthony Sicilia, Malihe Alikhani. 3691-3706 [doi]

NegVQA: Can Vision Language Models Understand Negation?Yuhui Zhang, Yuchang Su, Yiming Liu, Serena Yeung-Levy. 3707-3716 [doi]

Natural Language Reasoning in Large Language Models: Analysis and EvaluationDebela Gemechu, Ramon Ruiz-Dolz, Henrike Beyer, Chris Reed 0001. 3717-3741 [doi]

SWE-Dev: Building Software Engineering Agents with Training and Inference ScalingHaoran Wang, Zhenyu Hou, Yao Wei, Jie Tang 0001, Yuxiao Dong. 3742-3761 [doi]

The Two Paradigms of LLM Detection: Authorship Attribution vs Authorship VerificationJanek Bevendorff, Matti Wiegmann, Emmelie Richter, Martin Potthast, Benno Stein 0001. 3762-3787 [doi]

Unveiling Confirmation Bias in Chain-of-Thought ReasoningYue Wan, Xiaowei Jia, Xiang Lorraine Li. 3788-3804 [doi]

GRNFormer: A Biologically-Guided Framework for Integrating Gene Regulatory Networks into RNA Foundation ModelsMufan Qiu, Xinyu Hu, Fengwei Zhan, Sukwon Yun, Jie Peng 0002, Ruichen Zhang, Bhavya Kailkhura, Jiekun Yang, Tianlong Chen 0001. 3805-3819 [doi]

RemoteRAG: A Privacy-Preserving LLM Cloud RAG ServiceYihang Cheng 0002, Lan Zhang 0002, Junyang Wang 0004, Mu Yuan, Yunhao Yao. 3820-3837 [doi]

"My life is miserable, have to sign 500 autographs everyday": Exposing Humblebragging, the Brags in DisguiseSharath Naganna, Saprativa Bhattacharjee, Biplab Banerjee, Pushpak Bhattacharyya. 3838-3858 [doi]

SCITAT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning TypesXuanliang Zhang, Dingzirui Wang, Baoxin Wang, Longxu Dou, Xinyuan Lu, Keyan Xu, Dayong Wu, Qingfu Zhu. 3859-3881 [doi]

TokenShapley: Token Level Context Attribution with Shapley ValueYingtai Xiao, Yuqing Zhu 0005, Sirat Samyoun, Wanrong Zhang 0002, Jiachen T. Wang, Jian Du. 3882-3894 [doi]

Entropy-based Exploration Conduction for Multi-step ReasoningJinghan Zhang 0002, Xiting Wang, Fengran Mo, Yeyang Zhou, Wanfu Gao, Kunpeng Liu 0001. 3895-3906 [doi]

Taxonomizing Representational Harms using Speech Act TheoryEmily Corvi, Hannah Washington, Stefanie Reed, Chad Atalla, Alexandra Chouldechova, P. Alex Dow, Jean Garcia-Gathright, Nicholas J. Pangakis, Emily Sheng, Dan Vann, Matthew Vogel, Hanna M. Wallach. 3907-3932 [doi]

Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI AgentsPrafulla Kumar Choubey, Xiangyu Peng, Shilpa Bhagavath, Caiming Xiong, Shiva Kumar Pentyala, Chien-Sheng Wu. 3933-3954 [doi]

Statistical inference on black-box generative models in the data kernel perspective spaceHayden S. Helm, Aranyak Acharyya, Youngser Park, Brandon Duderstadt, Carey E. Priebe. 3955-3970 [doi]

Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?Sohee Yang, Nora Kassner, Elena Gribovskaya, Sebastian Riedel 0001, Mor Geva. 3971-3992 [doi]

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward ModelingZihan Liu 0001, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping. 3993-4015 [doi]

WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language ModelsYongan Yu, Qingchen Hu, Xianda Du, Jiayin Wang, Fengran Mo, Renée Sieber. 4016-4035 [doi]

MeMoTune: A Measure and Moment-Driven Fine-Tuning Framework for Quantized Large Language ModelsYun Zhang 0020, Xue Geng, Lizi Liao, Jintong Sun, Minghe Yu, Ge Yu 0001. 4036-4050 [doi]

MALAMUTE: A Multilingual, Highly-granular, Template-free, Education-based Probing DatasetSagi Shaier, George Arthur Baker, Chiranthan Sridhar, Lawrence Hunter, Katharina von der Wense. 4051-4069 [doi]

Sentimental Image Generation for Aspect-based Sentiment AnalysisXiaoyi Bao, Jinghang Gu, Zhongqing Wang, Chu-Ren Huang. 4070-4081 [doi]

Long-form Hallucination Detection with Self-elicitationZihang Liu, Jiawei Guo, Hao Zhang, Hongyang Chen, Jiajun Bu, Haishuai Wang. 4082-4100 [doi]

ComparisonQA: Evaluating Factuality Robustness of LLMs Through Knowledge Frequency Control and UncertaintyQing Zong, Zhaowei Wang 0003, Tianshi Zheng, Xiyu Ren, Yangqiu Song. 4101-4117 [doi]

One-Dimensional Object Detection for Streaming Text Segmentation of Meeting DialogueRui He, Zhongqing Wang, Minjie Qiang, Hongling Wang, Yifan. zhang Yifan. zhang, Hua Xu, Shuai Fan 0005, Guodong Zhou. 4118-4130 [doi]

CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language PromptsQingkai Zeng 0001, Yuyang Bai, Zhaoxuan Tan, Zhenyu Wu 0004, Shangbin Feng, Meng Jiang 0001. 4131-4144 [doi]

Predicate-Conditional Conformalized Answer Sets for Knowledge Graph EmbeddingsYuqicheng Zhu, Daniel Hernández 0002, Yuan He 0008, Zifeng Ding, Bo Xiong, Evgeny Kharlamov, Steffen Staab. 4145-4167 [doi]

Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical TextsYifan Zhang, Yifan Luo, Yang Yuan, Andrew C. Yao. 4168-4189 [doi]

Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-ReviewZhuochun Li, Yuelyu Ji, Rui Meng, Daqing He. 4190-4205 [doi]

Investigating Prosodic Signatures via Speech Pre-Trained Models for Audio Deepfake Source AttributionOrchid Chetia Phukan, Drishti Singh, Swarup Ranjan Behera, Arun Balaji Buduru, Rajesh Sharma 0002. 4206-4214 [doi]

Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual RobustnessBryan Li, Fiona Luo, Samar Haider, Adwait Agashe, Siyu Li, Runqi Liu, Miranda Muqing Miao, Shriya Ramakrishnan, Yuan Yuan, Chris Callison-Burch. 4215-4241 [doi]

Bridging Relevance and Reasoning: Rationale Distillation in Retrieval-Augmented GenerationPengyue Jia, Derong Xu, Xiaopeng Li, Zhaocheng Du, Xiangyang Li, Yichao Wang 0001, Yuhao Wang 0006, Qidong Liu 0002, Maolin Wang 0001, Huifeng Guo, Ruiming Tang, Xiangyu Zhao 0001. 4242-4256 [doi]

Scaling Laws for Multilingual Language ModelsYifei He, Alon Benhaim, Barun Patra, Praneetha Vaddamanu, Sanchit Ahuja, Parul Chopra, Vishrav Chaudhary, Han Zhao 0002, Xia Song. 4257-4273 [doi]

Corpus Poisoning via Approximate Greedy Gradient DescentJinyan Su, Preslav Nakov, Claire Cardie. 4274-4294 [doi]

Taxonomy-Driven Knowledge Graph Construction for Domain-Specific Scientific ApplicationsHuitong Pan, Qi Zhang, Mustapha Adamu, Eduard C. Dragut, Longin Jan Latecki. 4295-4320 [doi]

Wanda++: Pruning Large Language Models via Regional GradientsYifan Yang, Kai Zhen, Bhavana Ganesh, Aram Galstyan, Goeric Huybrechts, Markus Müller, Jonas M. Kübler, Rupak Vignesh Swaminathan, Athanasios Mouchtaris, Sravan Babu Bodapati, Nathan Susanj, Zheng Zhang, Jack FitzGerald, Abhishek Kumar. 4321-4333 [doi]

MATCHED: Multimodal Authorship-Attribution To Combat Human Trafficking in Escort-Advertisement DataVageesh Kumar Saxena, Benjamin Bashpole, Gijs van Dijck, Gerasimos Spanakis. 4334-4373 [doi]

Fraud-R1 : A Multi-Round Benchmark for Assessing the Robustness of LLM Against Augmented Fraud and Phishing InducementsShu Yang, Shenzhe Zhu, Zeyu Wu, Keyu Wang, Junchi Yao, Junchao Wu, Lijie Hu, Mengdi Li, Derek F. Wong, Di Wang 0015. 4374-4420 [doi]

Mitigating Paraphrase Attacks on Machine-Text Detection via Paraphrase InversionRafael Alberto Rivera Soto, Barry Y. Chen, Nicholas Andrews. 4421-4433 [doi]

SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian CultureArijit Maji, Raghvendra Kumar 0003, Akash Ghosh, Anushka, Sriparna Saha 0001. 4434-4451 [doi]

System Prompt Hijacking via Permutation Triggers in LLM Supply ChainsLu Yan, Siyuan Cheng 0005, Xuan Chen, Kaiyuan Zhang 0002, Guangyu Shen, Xiangyu Zhang 0001. 4452-4473 [doi]

Frequency matters: Modeling irregular morphological patterns in Spanish with TransformersAkhilesh Kakolu Ramarao, Kevin Tang, Dinah Baer-Henney. 4474-4489 [doi]

From Heart to Words: Generating Empathetic Responses via Integrated Figurative Language and Semantic Context SignalsGyeongeun Lee, Zhu Wang, Sathya N. Ravi, Natalie Parde. 4490-4502 [doi]

There's No Such Thing as Simple Reasoning for LLMsNurul Fajrin Ariyani, Zied Bouraoui, Richard Booth 0001, Steven Schockaert. 4503-4514 [doi]

CLIX: Cross-Lingual Explanations of Idiomatic ExpressionsAaron Gluck, Katharina von der Wense, Maria Leonor Pacheco. 4515-4529 [doi]

Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic SimilarityDang Nguyen, Ali Payani, Baharan Mirzasoleiman. 4530-4540 [doi]

R³Mem: Bridging Memory Retention and Retrieval via Reversible CompressionXiaoqiang Wang 0007, Suyuchen Wang, Yun Zhu, Bang Liu. 4541-4557 [doi]

Vision Language Model Helps Private Information De-Identification in Vision DataTiejin Chen, Pingzhi Li, Kaixiong Zhou, Tianlong Chen 0001, Hua Wei 0001. 4558-4572 [doi]

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation ChallengesTiejin Chen, Pingzhi Li, Kaixiong Zhou, Tianlong Chen 0001, Hua Wei 0001. 4573-4586 [doi]

DeFine: Decision-Making with Analogical Reasoning over Factor ProfilesYebowen Hu, Xiaoyang Wang, Wenlin Yao, Yiming Lu, Daoan Zhang, Hassan Foroosh, Dong Yu 0001, Fei Liu 0004. 4587-4603 [doi]

SMART: Self-Aware Agent for Tool Overuse MitigationCheng Qian 0008, Emre Can Acikgoz, Hongru Wang 0011, Xiusi Chen, Avirup Sil, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji 0001. 4604-4621 [doi]

Continued Pretraining and Interpretability-Based Evaluation for Low-Resource Languages: A Galician Case StudyPablo Rodríguez, Silvia Paniagua Suárez, Pablo Gamallo 0001, Susana Sotelo Docío. 4622-4637 [doi]

TC-Bench: Benchmarking Temporal Compositionality in Conditional Video GenerationWeixi Feng, Jiachen Li, Michael Saxon, Tsu-Jui Fu, Wenhu Chen, William Yang Wang. 4638-4662 [doi]

DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference AccelerationHanzhi Zhang, Heng Fan, Kewei Sha, Yan Huang, Yunhe Feng. 4663-4676 [doi]

Arbiters of Ambivalence: Challenges of using LLMs in No-Consensus tasksBhaktipriya Radharapu, Manon Revel, Megan Ung, Sebastian Ruder, Adina Williams. 4677-4731 [doi]

Beyond Text: Characterizing Domain Expert Needs in Document ResearchSireesh Gururaja, Nupoor Gandhi, Jeremiah Milbauer, Emma Strubell. 4732-4745 [doi]

Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting AttackMurong Yue, Ziyu Yao 0002. 4746-4761 [doi]

MM-R³: On (In-)Consistency of Vision-Language Models (VLMs)Shih-Han Chou, Shivam Chandhok, Jim Little 0001, Leonid Sigal. 4762-4788 [doi]

Investigating Context Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence StyleYuepei Li, Kang Zhou 0002, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li 0012. 4789-4807 [doi]

Shadow-Activated Backdoor Attacks on Multimodal Large Language ModelsZiyi Yin 0003, Muchao Ye, Yuanpu Cao, Jiaqi Wang 0002, Aofei Chang, Han Liu 0008, Jinghui Chen, Ting Wang 0006, Fenglong Ma. 4808-4829 [doi]

Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry UnderstandingKung-Hsiang Huang, Can Qin, Haoyi Qiu, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu. 4830-4843 [doi]

K-order Ranking Preference Optimization for Large Language ModelsShihao Cai, Chongming Gao, Yang Zhang 0072, Wentao Shi 0002, Jizhi Zhang, Keqin Bao, Qifan Wang, Fuli Feng. 4844-4859 [doi]

Spectral Insights into Data-Oblivious Critical Layers in Large Language ModelsXuyuan Liu, Lei Hsiung, Yaoqing Yang, Yujun Yan. 4860-4877 [doi]

SynFix: Dependency-Aware Program Repair via RelationGraph AnalysisXunzhu Tang, Jiechao Gao, Jin Xu, Tiezhu Sun, Yewei Song, Saad Ezzini, Wendkûuni C. Ouédraogo, Jacques Klein, Tegawendé F. Bissyandé. 4878-4894 [doi]

EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented GenerationTaeho Hwang, Sukmin Cho, Soyeong Jeong, Hoyun Song, Seungyoon Han, Jong C. Park. 4895-4924 [doi]

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge PerspectivesZhihu Wang, Shiwan Zhao, Yu Wang 0093, Heyuan Huang, Sitao Xie, Yubo Zhang, Jiaxin Shi, Zhixing Wang, Hongyan Li, Junchi Yan. 4925-4936 [doi]

Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge DistillationShuai Zhao 0007, Xiaobao Wu, Cong-Duy T. Nguyen, Yanhao Jia, Meihuizi Jia, Yichao Feng, Anh Tuan Luu. 4937-4952 [doi]

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuningShuhe Wang, Guoyin Wang 0002, Yizhong Wang, Jiwei Li 0001, Eduard H. Hovy, Chen Guo. 4953-4967 [doi]

Better Red Teaming via Searching with Large Language ModelYongkang Chen, Chongyang Zhao 0001, Jianwentian Jianwentian, Guiling Cao, Hu Li, Xiaohui Kuang. 4968-4984 [doi]

AdaV: Adaptive Text-visual Redirection for Vision-Language ModelsJiayi Han, Liang Du, Yiwen Wu, Guanming Liang, Xiangguo Zhou, Weibo Zheng, Donghong Han, Zixun Sun. 4985-4997 [doi]

MegaAgent: A Large-Scale Autonomous LLM-based Multi-Agent System Without Predefined SOPsQian Wang 0002, Tianyu Wang, Zhenheng Tang, Qinbin Li, Nuo Chen 0002, Jingsheng Liang, Bingsheng He. 4998-5036 [doi]

Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgmentXiaotian Zhang, Ruizhe Chen, Yang Feng 0011, Zuozhu Liu. 5037-5049 [doi]

A Self-Distillation Recipe for Neural Machine TranslationHongfei Xu, Zhuofei Liang, Qiuhui Liu, Lingling Mu. 5050-5064 [doi]

BlockPruner: Fine-grained Pruning for Large Language ModelsLongguang Zhong, Fanqi Wan, Ruijun Chen 0001, Xiaojun Quan, Liangzhi Li 0004. 5065-5080 [doi]

Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric PerspectiveYuchen Wen, Keping Bi, Wei Chen 0034, Jiafeng Guo, Xueqi Cheng. 5081-5097 [doi]

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-Context QAJiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou 0001, Yuxiao Dong, Ling Feng, Juanzi Li. 5098-5122 [doi]

An Empirical Study of Group Conformity in Multi-Agent SystemsMin Choi, Keonwoo Kim, Sungwon Chae, Sangyeob Baek. 5123-5139 [doi]

Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM TranslationZhanglin Wu, Daimeng Wei, Xiaoyu Chen 0004, Hengchao Shang, Jiaxin Guo, Zongyao Li, Yuanchang Luo, Jinlong Yang, Zhiqiang Rao, Hao Yang 0006. 5140-5148 [doi]

ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal ReasoningYeyuan Wang, Dehong Gao, Rujiao Long, Lei Yi, Linbo Jin, Libin Yang, Xiaoyan Cai. 5149-5160 [doi]

NovelCR: A Large-Scale Bilingual Dataset Tailored for Long-Span Coreference ResolutionMeihan Tong, Shuai Wang. 5161-5173 [doi]

Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations in Large Language ModelsHuangyw Huangyw, Yong Zhang 0058, Ning Cheng 0001, Zhitao Li 0002, Shaojun Wang, Jing Xiao 0006. 5174-5193 [doi]

Exploring the Choice Behavior of Large Language ModelsWeidong Wu, Qinlin Zhao, Hao Chen, Lexin Zhou, Defu Lian, Hong Xie 0004. 5194-5214 [doi]

On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination MitigationXueru Wen, Jie Lou, Xinyu Lu, Yuqiu Ji, Xinyan Guan, Yaojie Lu 0001, Hongyu Lin, Ben He, Xianpei Han, Debing Zhang, Le Sun 0001. 5215-5231 [doi]

From Phrases to Subgraphs: Fine-Grained Semantic Parsing for Knowledge Graph Question AnsweringYurun Song, Xiangqing Shen, Rui Xia. 5232-5246 [doi]

StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7, 000+ Real-World APIsZhicheng Guo, Sijie Cheng, Yuchen Niu, Hao Wang 0010, Sicheng Zhou, Wenbing Huang 0001, Yang Liu 0005. 5247-5270 [doi]

ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLMHoang Pham, Thanh-Do Nguyen, Khac-Hoai Nam Bui. 5271-5290 [doi]

TriEmbed: Bridge the Gap between Text and Token Indices with Embedding ReparameterizationBaizhou Huang, Xiaojun Wan 0001. 5291-5297 [doi]

Chain of Methodologies: Scaling Test Time Computation without TrainingCong Liu, Jie Wu, Weigang Wu, Xu Chen 0004, Liang Lin, Wei-Shi Zheng 0001. 5298-5312 [doi]

A Survey on Personalized Alignment - The Missing Piece for Large Language Models in Real-World ApplicationsJian Guan 0002, Junfei Wu, Jia-Nan Li, Chuanqi Cheng, Wei Wu 0014. 5313-5333 [doi]

SuLoRA: Subspace Low-Rank Adaptation for Parameter-Efficient Fine-TuningChenhao Ding, Jiangyang Li, Songlin Dong, Xinyuan Gao, Yuhang He, Yihong Gong. 5334-5349 [doi]

MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal RetrievalYeong-Joon Ju, Ho Joong Kim, Seong-Whan Lee. 5350-5363 [doi]

Correcting on Graph: Faithful Semantic Parsing over Knowledge Graphs with Large Language ModelsRuilin Zhao, Feng Zhao 0003, Hong Zhang. 5364-5376 [doi]

COPR: Continual Human Preference Learning via Optimal Policy RegularizationHan Zhang 0025, Lin Gui 0003, Yu Lei, Yuanzhao Zhai, Yehong Zhang, Zhuo Zhang 0007, Yulan He 0001, Hui Wang 0030, Yue Yu 0001, Kam-Fai Wong, Bin Liang 0004, Ruifeng Xu 0001. 5377-5398 [doi]

Robust Preference Optimization via Dynamic Target MarginsJie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou 0011, Lintao Ma, Xiang Wang 0010. 5399-5416 [doi]

AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language UnderstandingXiao Wang, Qingyi Si, Shiyu Zhu, Jianlong Wu, Li Cao, Liqiang Nie. 5417-5432 [doi]

Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and ChallengesHongru Wang 0003, Wenyu Huang, Yufei Wang 0005, Yuanhao Xi, Jianqiao Lu, Huan Zhang, Nan Hu, Zeming Liu, Jeff Z. Pan, Kam-Fai Wong. 5433-5453 [doi]

Open-Set Living Need Prediction with Large Language ModelsXiaochong Lan, Jie Feng 0002, Yizhou Sun, Chen Gao 0001, Jiahuan Lei, Xinleishi Xinleishi, Hengliang Luo, Yong Li 0008. 5454-5472 [doi]

Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimateZiyang Huang, Wangtao Sun, Jun Zhao, Kang Liu. 5473-5488 [doi]

Beyond Words: Integrating Theory of Mind into Conversational Agents for Human-Like Belief, Desire, and Intention AlignmentMehdi Jafari, Yuncheng Hua, Hao Xue 0001, Flora D. Salim. 5489-5508 [doi]

Multimodal Causal Reasoning Benchmark: Challenging Multimodal Large Language Models to Discern Causal Links Across ModalitiesZhiyuan Li, Heng Wang 0007, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai 0001. 5509-5533 [doi]

Context-Aware Hierarchical Merging for Long Document SummarizationLitu Ou, Mirella Lapata. 5534-5561 [doi]

VCD: A Dataset for Visual Commonsense Discovery in ImagesXiangqing Shen, Fanfan Wang, Siwei Wu, Rui Xia. 5562-5577 [doi]

Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning CatalystHongru Wang 0003, Deng Cai 0002, Wanjun Zhong, Shijue Huang, Jeff Z. Pan, Zeming Liu, Kam-Fai Wong. 5578-5596 [doi]

HyperCRS: Hypergraph-Aware Multi-Grained Preference Learning to Burst Filter Bubbles in Conversational Recommendation SystemYongsen Zheng, Mingjie Qian, Guohua Wang, Yang Liu, Ziliang Chen 0001, Mingzhi Mao, Liang Lin, Kwok-Yan Lam. 5597-5608 [doi]

Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation DisagreementJunyu Lu, Kai Ma, Kaichun Wang, Kelaiti Xiao, Roy Ka-Wei Lee, Bo Xu 0009, Liang Yang 0003, Hongfei Lin. 5609-5626 [doi]

Language Repository for Long Video UnderstandingKumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park 0003, Michael S. Ryoo. 5627-5646 [doi]

Investigating Language Preference of Multilingual RAG SystemsJeonghyun Park, Hwanhee Lee. 5647-5675 [doi]

FGDGNN: Fine-Grained Dynamic Graph Neural Network for Rumor Detection on Social MediaMei Guo, Chen Chen 0012, Chunyan Hou, Yike Wu, Xiaojie Yuan. 5676-5687 [doi]

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-TeachingXiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Yipeng Zhang, Haitao Mi, Helen M. Meng. 5688-5724 [doi]

QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query LanguageQingsong Zou, Jingyu Xiao, Qing Li 0006, Zhi Yan 0009, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li 0003, Yong Jiang 0001. 5725-5741 [doi]

Memory or Reasoning? Explore How LLMs Compute Mixed Arithmetic ExpressionsChengzhi Li, Heyan Huang, Ping Jian, Zhen Yang, Chenxu Wang, Yifan Wang. 5742-5763 [doi]

PersonaX: A Recommendation Agent-Oriented User Modeling Framework for Long Behavior SequenceYunxiao Shi, Wujiang Xu, Zeqi Zhang, Xing Zi, Qiang Wu 0001, Min Xu 0001. 5764-5787 [doi]

Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language ModelsShuliang Liu, Xinze Li, Zhenghao Liu 0001, Yukun Yan, Cheng Yang 0002, Zheni Zeng, Zhiyuan Liu 0001, Maosong Sun 0001, Ge Yu 0001. 5788-5807 [doi]

Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and ReliabilityChiwei Zhu, Benfeng Xu, an Yang, Junyang Lin, Quan Wang 0002, Chang Zhou, Zhendong Mao 0001. 5808-5835 [doi]

CA-GAR: Context-Aware Alignment of LLM Generation for Document RetrievalHeng Yu, Junfeng Kang, Rui Li 0093, Qi Liu 0003, Liyang He, Zhenya Huang, Shuanghong Shen, Junyu Lu. 5836-5849 [doi]

AgentCourt: Simulating Court with Adversarial Evolvable Lawyer AgentsGuhong Chen, Liyang Fan, Zihan Gong, Nan Xie, Zixuan Li, Ziqiang Liu, Chengming Li, Qiang Qu, Hamid Alinejad-Rokny, Shiwen Ni, Min Yang 0007. 5850-5865 [doi]

MLDebugging: Towards Benchmarking Code Debugging Across Multi-Library ScenariosJinyang Huang, Xiachong Feng, Qiguang Chen, Hanjie Zhao, Zihui Cheng, Jiesong Bai, Jingxuan Zhou, Min Li 0007, Libo Qin 0001. 5866-5879 [doi]

An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4Hui Huang 0021, Xingyuan Bu, Hongli Zhou, Yingqi Qu, Jing Liu, Muyun Yang, Bing Xu, Tiejun Zhao. 5880-5895 [doi]

Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation AgentXueyang Feng, Jingsen Zhang, Jiakai Tang, Wei Li, Guohao Cai, Xu Chen 0017, Quanyu Dai, Yue Zhu, Zhenhua Dong. 5896-5914 [doi]

ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time SeriesShuai Niu, Jing Ma 0004, Hongzhan Lin 0001, Liang Bai, Zhihua Wang 0008, Wei Bi, Richard Yi Da Xu, Guo Li 0002, Xian Yang 0001. 5915-5928 [doi]

CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography ChallengeYu Li 0006, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao 0001, Jiang Wu, Conghui He, Lijun Wu 0003. 5929-5965 [doi]

Which Retain Set Matters for LLM Unlearning? A Case Study on Entity UnlearningHwan Chang, Hwanhee Lee. 5966-5982 [doi]

Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and EditingWenhao Liu, Siyu An, Junru Lu, Muling Wu, Tianlong Li, Xiaohua Wang, Changze Lv, Xiaoqing Zheng, Di Yin, Xing Sun 0001, Xuanjing Huang 0001. 5983-6005 [doi]

LR²Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction ProblemsJianghao Chen, Zhenlin Wei, Zhenjiang Ren, Ziyong Li, Jiajun Zhang. 6006-6032 [doi]

McBE: A Multi-task Chinese Bias Evaluation Benchmark for Large Language ModelsTian Lan, Xiangdong Su, Xu Liu, Ruirui Wang, Ke Chang, Jiang Li, Guanglai Gao. 6033-6056 [doi]

MARK: Multi-agent Collaboration with Ranking Guidance for Text-attributed Graph ClusteringYiwei Fu, Yuxing Zhang, Chunchun Chen, JianwenMa JianwenMa, Quan Yuan, Rong-Cheng Tu, Xinli Huang, Wei Ye, Xiao Luo 0001, Minghua Deng. 6057-6072 [doi]

Can Language Models Capture Human Writing Preferences for Domain-Specific Text Summarization?Jingbao Luo, Ming Liu, Ran Liu, Yongpan Sheng, Xin Hu, Gang Li 0009, Peng Wu. 6073-6091 [doi]

Mitigate Position Bias in LLMs via Scaling a Single Hidden States ChannelYijiong Yu, Huiqiang Jiang, Xufang Luo, Qianhui Wu, Chin-Yew Lin, Dongsheng Li 0002, Yuqing Yang 0001, Yongfeng Huang 0001, Lili Qiu. 6092-6111 [doi]

Self-attention-based Graph-of-Thought for Math Problem SolvingRuiqiao Bai, Xue Han, Shuo Lei, Junlan Feng, Yanyan Luo, Chao Deng. 6112-6125 [doi]

BAR: A Backward Reasoning based Agent for Complex Minecraft TasksWeihong Du, Wenrui Liao, Binyu Yan, Hongru Liang, Anthony G. Cohn 0001, Wenqiang Lei. 6126-6149 [doi]

KAPA: A Deliberative Agent Framework with Tree-Structured Knowledge Base for Multi-Domain User Intent UnderstandingJiakai Tang, Shiqi Shen, Zhipeng Wang, Gong Zhi, Xueyang Feng, Zexu Sun, Haoran Tan, Xu Chen 0017. 6150-6166 [doi]

RASD: Retrieval-Augmented Speculative DecodingGuofeng Quan, Wenfeng Feng 0001, Chuzhan Hao, Guochao Jiang, Yuewei Zhang 0003, Hao Henry Wang. 6167-6177 [doi]

FRAG: A Flexible Modular Framework for Retrieval-Augmented Generation based on Knowledge GraphsZengyi Gao, Yukun Cao, Hairu Wang, Ao Ke, Yuan Feng, S. Kevin Zhou, Xike Xie. 6178-6192 [doi]

Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language ModelsKening Zheng, JunKai Chen, Yibo Yan, Xin Zou 0001, Huiyu Zhou 0005, Xuming Hu. 6193-6212 [doi]

Blessing of Multilinguality: A Systematic Analysis of Multilingual In-Context LearningYilei Tu, Andrew Xue, Freda Shi. 6213-6248 [doi]

SEK: Self-Explained Keywords Empower Large Language Models for Code GenerationLishui Fan, Mouxiang Chen, Zhongxin Liu. 6249-6278 [doi]

Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard EnhancementPeng Ding 0001, Jun Kuang, Zongyu Wang, Xuezhi Cao, Xunliang Cai, Jiajun Chen 0001, Shujian Huang. 6279-6299 [doi]

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web AgentsVardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su 0001, Ahmed Hassan Awadallah. 6300-6323 [doi]

Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position EncodingZhanpeng Chen, Mingxiao Li 0004, Ziyang Chen, Nan Du, Xiaolong Li, Yuexian Zou. 6324-6341 [doi]

P-React: Synthesizing Topic-Adaptive Reactions of Personality Traits via Mixture of Specialized LoRA ExpertsYuhao Dan, Jie Zhou 0015, Qin Chen 0001, Junfeng Tian, Liang He 0001. 6342-6362 [doi]

EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language ModelsJiamin Su, Yibo Yan, Fangteng Fu, Zhang Han, Jingheng Ye, Xiang Liu 0001, Jiahao Huo, Huiyu Zhou 0005, Xuming Hu. 6363-6389 [doi]

Streamlining the Collaborative Chain of Models into A Single Forward Pass in Generation-Based TasksYuanjie Lyu, Chao Zhang, Yuhao Chen, Yong Chen, Tong Xu 0001. 6390-6404 [doi]

Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning TasksJiayi He, Hehai Lin, Qingyun Wang 0005, Yi R. Fung 0001, Heng Ji 0001. 6405-6421 [doi]

Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon SimulationChenkai Sun, Denghui Zhang, ChengXiang Zhai, Heng Ji 0001. 6422-6434 [doi]

Probability-Consistent Preference Optimization for Enhanced LLM ReasoningYunqiao Yang, Houxing Ren, Zimu Lu, Ke Wang 0036, Weikang Shi, Aojun Zhou, Junting Pan, Mingjie Zhan, Hongsheng Li 0001. 6435-6448 [doi]

IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-WebHongcheng Guo, Wei Zhang, Junhao Chen, Yaonan Gu, Jian Yang, Junjia Du, Shaosheng Cao, Binyuan Hui, Tianyu Liu 0001, Jianxin Ma, Chang Zhou, Zhoujun Li 0001. 6449-6466 [doi]

TDCSA: LLM-Guided Top-Down Approach for Robust Citation Sentiment AnalysisFan Gao, Jieyang Peng, Xiaoming Tao 0001, Youzheng Wang. 6467-6484 [doi]

DeepRTL2: A Versatile Model for RTL-Related TasksYi Liu, Hongji Zhang, Yunhao Zhou, Zhengyuan Shi, Changran Xu, Qiang Xu 0001. 6485-6500 [doi]

The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding?Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Jianwei Yin. 6501-6512 [doi]

Cross-lingual Multimodal Sentiment Analysis for Low-Resource Languages via Language Family Disentanglement and Rethinking TransferLong Chen 0007, Shuoyu Guan, Xiaohua Huang, Wen-Jing Wang 0002, Cai Xu, Ziyu Guan, Wei Zhao 0019. 6513-6522 [doi]

Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking?Chengda Lu, Xiaoyu Fan, Yu Huang, Rongwu Xu, Jijie Li, Wei Xu 0005. 6523-6546 [doi]

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward ModelYuhang Zang, Xiaoyi Dong, Pan Zhang 0001, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen 0026, Dahua Lin, Jiaqi Wang 0003. 6547-6563 [doi]

RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language ModelsJunjie Li, Nan Zhang, Xiaoyang Qu, Kai Lu, Guokuan Li, Jiguang Wan, Jianzong Wang. 6564-6574 [doi]

RMoA: Optimizing Mixture-of-Agents through Diversity Maximization and Residual CompensationZhentao Xie, Chengcheng Han 0006, Jinxin Shi, Wenjun Cui, Xin Zhao, Xingjiao Wu, Jiabao Zhao. 6575-6602 [doi]

Instruction-Tuning Data Synthesis from Scratch via Web ReconstructionYuxin Jiang, Yufei Wang 0005, Chuhan Wu, Xinyi Dai, Yan Xu, Weinan Gan, Yasheng Wang, Xin Jiang 0002, Lifeng Shang, Ruiming Tang, Wei Wang. 6603-6618 [doi]

RLKGF: Reinforcement Learning from Knowledge Graph Feedback Without Human AnnotationsLian Yan, Chen Tang, Yi Guan, Haotian Wang, Songyuan Wang, Haifeng Liu, Yang Yang, Jingchi Jiang. 6619-6633 [doi]

Learning Task Representations from In-Context LearningBaturay Saglam, Xinyang Hu, Zhuoran Yang, Dionysis Kalogerias, Amin Karbasi. 6634-6663 [doi]

CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal RepresentationsXiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian. 6664-6678 [doi]

Firm or Fickle? Evaluating Large Language Models Consistency in Sequential InteractionsYubo Li, Yidi Miao, Xueying Ding, Ramayya Krishnan, Rema Padman. 6679-6700 [doi]

OS-Kairos: Adaptive Interaction for MLLM-Powered GUI AgentsPengzhou Cheng, Zheng Wu, Zongru Wu, Tianjie Ju, Aston Zhang, Zhuosheng Zhang 0001, Gongshen Liu. 6701-6725 [doi]

Red-Teaming LLM Multi-Agent Systems via Communication AttacksPengfei He, Yuping Lin, Shen Dong, Han Xu 0002, Yue Xing 0002, Hui Liu 0031. 6726-6747 [doi]

Can We Trust AI Doctors? A Survey of Medical Hallucination in Large Language and Large Vision-Language ModelsZhihong Zhu, Yunyan Zhang, Xianwei Zhuang, Fan Zhang, Zhongwei Wan, Yuyan Chen, Qingqing Long, Yefeng Zheng 0001, Xian Wu 0001. 6748-6769 [doi]

DRT: Deep Reasoning Translation via Long Chain-of-ThoughtJiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou 0016. 6770-6782 [doi]

CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records AnalysisFuying Wang, Feng Wu, Yihan Tang, Lequan Yu. 6783-6799 [doi]

Vision-aided Unsupervised Constituency Parsing with Multi-MLLM DebatingDong Zhang, Haiyan Tian, Qingying Sun, Shoushan Li. 6800-6810 [doi]

Inter-Passage Verification for Multi-evidence Multi-answer QABingsen Chen, Shenji Wan, Xi Ye, Chen Zhao. 6811-6829 [doi]

PROMTEC: Fast LLM Inference Decoding using Prompt Multi-Lookup with Template Database and Common SequencesAlan Chi-Man Lee, Wing-Sun Cheng, Calvin Chun-Kit Chan. 6830-6842 [doi]

Logical DA: Enhancing Data Augmentation for Logical Reasoning via a Multi-Agent SystemHaoqi Zheng, DongWang DongWang, Silin Yang, Yunpeng Qi, Ruochun Jin, Liyang Xu. 6843-6855 [doi]

Adapting General-Purpose Embedding Models to Private Datasets Using Keyword-based RetrievalYubai Wei, Jiale Han, Yi Yang. 6856-6870 [doi]

SQL Injection Jailbreak: A Structural Disaster of Large Language ModelsJiawei Zhao, Kejiang Chen, Weiming Zhang 0001, Nenghai Yu. 6871-6891 [doi]

TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language ModelsJaewoo Lee, Keyang Xuan, Chanakya Ekbote, Sandeep Polisetty, Yi R. Fung 0001, Paul Pu Liang. 6892-6908 [doi]

Generative Music Models' Alignment with Professional and Amateur Users' ExpectationsZihao Wang, Jiaxing Yu, Haoxuan Liu, Zehui Zheng, Yuhang Jin, Shuyu Li, Shulei Ji, Kejun Zhang. 6909-6920 [doi]

LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data ImputationXinrui He, Yikun Ban, Jiaru Zou, Tianxin Wei, Curtiss B. Cook, Jingrui He. 6921-6936 [doi]

Task Calibration: Calibrating Large Language Models on Inference TasksYingjie Li, Yun Luo, Xiaotian Xie, Yue Zhang. 6937-6951 [doi]

MiniELM: A Lightweight and Adaptive Query Rewriting Framework for E-Commerce Search OptimizationDuy A. Nguyen, Rishi Kesav Mohan, Shimeng Yang, Pritom Saha Akash, Kevin Chen-Chuan Chang. 6952-6964 [doi]

Visibility as Survival: Generalizing NLP for Native Alaskan Language IdentificationIvory Yang, Chunhui Zhang, Yuxin Wang 0006, Zhongyu Ouyang, Soroush Vosoughi. 6965-6979 [doi]

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for CodingZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran. 6980-7008 [doi]

Select, Read, and Write: A Multi-Agent Framework of Full-Text-based Related Work GenerationXiaochuan Liu, Ruihua Song, Xiting Wang, Xu Chen 0017. 7009-7028 [doi]

Graph-Assisted Culturally Adaptable Idiomatic Translation for Indic languagesPratik Rakesh Singh, Kritarth Prasad, Mohammadi Zaki, Pankaj Wasnik. 7029-7044 [doi]

Question Answering in Climate Adaptation for Agriculture: Model Development and Evaluation with Expert FeedbackVincent Nguyen, Sarvnaz Karimi, Willow Hallgren, Mahesh Prakash. 7045-7075 [doi]

AGRec: Adapting Autoregressive Decoders with Graph Reasoning for LLM-based Sequential RecommendationXinfeng Wang, Jin Cui, Fumiyo Fukumoto, Yoshimi Suzuki. 7076-7090 [doi]

Causal Denoising Prototypical Network for Few-Shot Multi-label Aspect Category DetectionJin Cui, Xinfeng Wang, Yoshimi Suzuki, Fumiyo Fukumoto. 7091-7104 [doi]

RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table AnalysisPengzuo Wu, Yuhang Yang, Guangcheng Zhu, Chao Ye, Hong Gu, Xu Lu, Ruixuan Xiao, Bowen Bao, Yijing He, Liangyu Zha, Wentao Ye, Junbo Zhao 0002, Haobo Wang 0001. 7105-7137 [doi]

A Query-Response Framework for Whole-Page Complex-Layout Document Image Translation with Relevant Regional ConcentrationZhiyang Zhang, Yaping Zhang, Yupu Liang, Zhiyuan Chen, Lu Xiang, Yang Zhao 0007, Yu Zhou 0001, Chengqing Zong. 7138-7149 [doi]

DependEval: Benchmarking LLMs for Repository Dependency UnderstandingJunjia Du, Yadi Liu, Hongcheng Guo, Jiawei Wang, Haojian Huang, Yunyi Ni, Zhoujun Li. 7150-7179 [doi]

A General Knowledge Injection Framework for ICD CodingXu Zhang, Kun Zhang, Wenxin Ma, Rongsheng Wang, Chenxu Wu, Yingtai Li, S. Kevin Zhou. 7180-7189 [doi]

MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language ModelsJiahao Huo, Yibo Yan, Xu Zheng 0002, Yuanhuiyi Lyu, Xin Zou 0001, Zhihua Wei, Xuming Hu. 7190-7206 [doi]

Generating Questions, Answers, and Distractors for Videos: Exploring Semantic Uncertainty of Object MotionsWenjian Ding, Yao Zhang, Jun Wang 0023, Adam Jatowt, Zhenglu Yang. 7207-7220 [doi]

DiffSkip: Differential Layer Skipping in Large Language ModelsXuan Luo, Weizhi Wang, Xifeng Yan. 7221-7231 [doi]

Towards Explainable Temporal Reasoning in Large Language Models: A Structure-Aware Generative FrameworkZihao Jiang 0009, Ben Liu, Miao Peng, Wenjie Xu, Yao Xiao, Zhenyan Shan, Min Peng 0002. 7232-7251 [doi]

A Bounding Box is Worth One Token - Interleaving Layout and Text in a Large Language Model for Document UnderstandingJinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang. 7252-7273 [doi]

Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level FoveationMingzhe Li 0003, Xin Lu, Yanyan Zhao. 7274-7289 [doi]

TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction TuningMingyu Zheng, Zhifan Feng, Jia Wang, Lanrui Wang, Zheng Lin 0001, Hao Yang, Weiping Wang 0005. 7290-7315 [doi]

Konooz: Multi-domain Multi-dialect Corpus for Named Entity RecognitionNagham Hamad, Mohammed Khalilia, Mustafa Jarrar. 7316-7331 [doi]

Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image GenerationHongji Yang, Yucheng Zhou 0001, Wencheng Han, Jianbing Shen. 7332-7349 [doi]

CodeV: Issue Resolving with Visual DataLinhao Zhang, Daoguang Zan, Quanshun Yang, Zhirong Huang, Dong Chen 0015, Bo Shen, Tianyu Liu, Yongshun Gong, Pengjie Huang, Xudong Lu, Guangtai Liang, LiZhen Cui, Qianxiang Wang. 7350-7361 [doi]

A Survey of Large Language Models in Psychotherapy: Current Landscape and Future DirectionsHongbin Na, Yining Hua, Zimu Wang, Tao Shen, Beibei Yu, Lilin Wang, Wei Wang 0042, John B. Torous, Ling Chen 0006. 7362-7376 [doi]

Breaking the Reasoning Barrier A Survey on LLM Complex Reasoning through the Lens of Self-EvolutionTao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao 0002, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu 0004, Bing Qin 0001. 7377-7417 [doi]

SEE: Continual Fine-tuning with Sequential Ensemble of ExpertsZhilin Wang, Yafu Li, Xiaoye Qu, Yu Cheng 0001. 7418-7432 [doi]

Boosting Policy and Process Reward Models with Monte Carlo Tree Search in Open-Domain QAChi-Min Chan, Chunpu Xu, Junqi Zhu, Jiaming Ji, Donghai Hong, Pengcheng Wen, Chunyang Jiang, Zhen Ye, Yaodong Yang 0001, Wei Xue, Sirui Han, Yike Guo. 7433-7451 [doi]

Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language ModelsRui Hu, Delai Qiu, Shuyu Wei, Jiaming Zhang, Yining Wang, Shengping Liu, Jitao Sang. 7452-7463 [doi]

OpenHuEval: Evaluating Large Language Model on Hungarian SpecificsHaote Yang, Xingjian Wei, Jiang Wu 0003, Noémi Ligeti-Nagy, Jiaxing Sun 0001, Yinfan Wang, Zijian Gyozo Yang, Junyuan Gao, Jingchao Wang, Bowen Jiang, Shasha Wang, Nanjun Yu, Zihao Zhang, Shixin Hong, Hongwei Liu, Wei Li 0044, Songyang Zhang, Dahua Lin, Lijun Wu, Gábor Prószéky, Conghui He. 7464-7520 [doi]

StructFact: Reasoning Factual Knowledge from Structured Data with Large Language ModelsSirui Huang, Yanggan Gu, Zhonghao Li, Xuming Hu, Li Qing 0001, Guandong Xu 0001. 7521-7552 [doi]

From Imitation to Introspection: Probing Self-Consciousness in Language ModelsSirui Chen, Shu Yu, Shengjie Zhao, Chaochao Lu. 7553-7583 [doi]

DocFusion: A Unified Framework for Document Parsing TasksMingxu Chai, Ziyu Shen, Chong Zhang, Yue Zhang, Xiao Wang, Shihan Dou, Jihua Kang, Jiazheng Zhang, Qi Zhang. 7584-7599 [doi]

Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language ModelsYue Li, Xin Yi, Dongsheng Shi, Gerard de Melo, Xiaoling Wang, Linlin Wang. 7600-7612 [doi]

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise InformationBowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang 0013, Jie Zhou, Shanghang Zhang. 7613-7632 [doi]

Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative ContextsQuanyu Long, Jianda Chen, Zhengyuan Liu, Nancy F. Chen, Wenya Wang, Sinno Jialin Pan. 7633-7651 [doi]

Towards A Better Initial Policy Model For Scalable Long-CoT Reinforcement LearningBofei Gao, Yejie Wang, Yibo Miao, Ruoyu Wu, Feifan Song 0001, Longhui Yu, Tianyu Liu 0001, Baobao Chang. 7652-7665 [doi]

Topic Modeling for Short Texts via Optimal Transport-Based ClusteringTu Vu, Manh Do, Tung Nguyen, Ngo Van Linh 0001, Sang Dinh, Thien Huu Nguyen. 7666-7680 [doi]

Lemmatisation & Morphological Analysis of Unedited Greek: Do Simple Tasks Need Complex Solutions?Colin Swaelens, Ilse De Vos, Els Lefever. 7681-7689 [doi]

FRAME: Feedback-Refined Agent Methodology for Enhancing Medical Research InsightsChengzhang Yu, Yiming Zhang, Zhixin Liu, Zenghui Ding, Yining Sun, Zhanpeng Jin. 7690-7704 [doi]

Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language ModelsXi Li, Ruofan Mao, Yusen Zhang, Renze Lou, Chen Wu, Jiaqi Wang. 7705-7727 [doi]

Relevance Scores Calibration for Ranked List Truncation via TMP AdapterPavel Posokhov, Sergei Masliukhin, Skrylnikov Stepan, Danil Tirskikh, Olesia Makhnytkina. 7728-7734 [doi]

Neuron Activation Modulation for Text Style Transfer: Guiding Large Language ModelsChaona Kong, Jianyi Liu, Yifan Tang, Ru Zhang. 7735-7747 [doi]

MTVQA: Benchmarking Multilingual Text-Centric Visual Question AnsweringJingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, An-Lan Wang, Chunhui Lin, Hao Feng 0009, Zhen Zhao, Yanjie Wang, Yuliang Liu, Hao Liu 0003, Xiang Bai, Can Huang. 7748-7763 [doi]

HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language ModelsXinyan Jiang, Hang Ye 0007, Yongxin Zhu 0001, Xiaoying Zheng, Zikang Chen, Jun Gong. 7764-7786 [doi]

Understanding the Repeat Curse in Large Language Models from a Feature PerspectiveJunchi Yao, Shu Yang, Jianhua Xu, Lijie Hu, Mengdi Li, Di Wang. 7787-7815 [doi]

Code-Switching Curriculum Learning for Multilingual Transfer in LLMsHaneul Yoo, Cheonbok Park, Sangdoo Yun, Alice Oh, Hwaran Lee. 7816-7836 [doi]

A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative ChaosYang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng 0002, Yingchun Wang. 7837-7855 [doi]

Tag-Evol: Achieving Efficient Instruction Evolving via Tag InjectionYixuan Wang, Shiqi Zhou, Chuanzhe Guo, Qingfu Zhu. 7856-7869 [doi]

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy SpaceYao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei. 7870-7888 [doi]

GeNRe: A French Gender-Neutral Rewriting System Using Collective NounsEnzo Doyen, Amalia Todirascu. 7889-7909 [doi]

LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature ReviewsChristian Jaumann, Andreas Wiedholz, Annemarie Friedrich. 7910-7927 [doi]

LCHAIM - Investigating Long Context Reasoning in HebrewEhud Malul, Oriel Perets, Ziv Mor, Yigal Kassel, Elior Sulem. 7928-7939 [doi]

CLeVeR: Multi-modal Contrastive Learning for Vulnerability Code RepresentationJiayuan Li, Lei Cui 0003, Sen Zhao, Yun Yang, Lun Li, Hongsong Zhu. 7940-7951 [doi]

MEMIT-Merge: Addressing MEMIT's Key-Value Conflicts in Same-Subject Batch Editing for LLMsZilu Dong, Xiangqing Shen, Rui Xia. 7952-7960 [doi]

Large Language Models for Predictive Analysis: How Far Are They?Qin Chen, Yuanyi Ren, Xiaojun Ma, Yuyang Shi. 7961-7978 [doi]

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow ThinkingXiaoxue Cheng, Junyi Li, Xin Zhao 0018, Ji-Rong Wen. 7979-7990 [doi]

Towards Adaptive Memory-Based Optimization for Enhanced Retrieval-Augmented GenerationQitao Qin, Yucong Luo, Yihang Lu, Zhibo Chu, Xiaoman Liu, Xianwei Meng. 7991-8004 [doi]

Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical MappingYijie Chen, Yijin Liu, Fandong Meng, Yufeng Chen 0005, Jinan Xu, Jie Zhou 0016. 8005-8018 [doi]

A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language ModelsJian Gu 0001, Aldeida Aleti, Chunyang Chen 0001, Hongyu Zhang. 8019-8033 [doi]

CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese NovelsLingxiao Wei, He Yan, Xiangju Lu, JunMin Zhu, Jun Wang, Wei Zhang. 8034-8062 [doi]

Document Segmentation Matters for Retrieval-Augmented GenerationZhitong Wang, Cheng Gao, Chaojun Xiao, Yufei Huang 0008, Shuzheng Si, Kangyang Luo, Yuzhuo Bai, Wenhao Li 0003, Tangjian Duan, Chuancheng Lv, Guoshan Lu, Gang Chen 0039, Fanchao Qi, Maosong Sun 0001. 8063-8075 [doi]

UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice QuestionsXunzhi Wang, Zhuowei Zhang, Gaonan Chen, Qiongyu Li, Bitong Luo, Zhixin Han, Haotian Wang, Zhiyu Li, Hang Gao 0003, Mengting Hu. 8076-8107 [doi]

Embracing Large Language Models in Traffic Flow ForecastingYusheng Zhao, Xiao Luo 0001, Haomin Wen, Zhiping Xiao 0001, Wei Ju, Ming Zhang 0004. 8108-8123 [doi]

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation CapabilityMengliang He, Jiayi Zeng, Yankai Jiang 0003, Wei Zhang, Zeming Liu, Xiaoming Shi, Aimin Zhou. 8124-8146 [doi]

Smarter, Not Harder: Training-Free Adaptive Computation for TransformersRomain Storaï, Jaeseong Lee 0002, Seung-won Hwang. 8147-8155 [doi]

UCS-SQL: Uniting Content and Structure for Enhanced Semantic Bridging In Text-to-SQLZhenhe Wu, Zhongqiu Li, Jie Zhang, Zhongjiang He, Jian Yang, Yu Zhao, Ruiyu Fang, Bing Wang, Hongyan Xie, Shuangyong Song, Zhoujun Li. 8156-8168 [doi]

CodePRM: Execution Feedback-enhanced Process Reward Model for Code GenerationQingyao Li, Xinyi Dai, Xiangyang Li, Weinan Zhang 0001, Yasheng Wang, Ruiming Tang, Yong Yu 0001. 8169-8182 [doi]

STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document ParsingJiaru Zou, Qing Wang, Pratyush Thakur, Nickvash Kani. 8183-8199 [doi]

Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language ModelsJihoon Lee, Min Song. 8200-8219 [doi]

Leveraging LLMs for Bangla Grammar Error Correction: Error Categorization, Synthetic Data, and Model EvaluationPramit Bhattacharyya, Arnab Bhattacharya 0001. 8220-8239 [doi]

Think Both Ways: Teacher-Student Bidirectional Reasoning Enhances MCQ Generation and Distractor QualityYimiao Qiu, Yang Deng, Quanming Yao, Zhimeng Zhang, Zhiang Dong, Chang Yao, Jingyuan Chen. 8240-8253 [doi]

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic DataHaonan Chen 0005, Liang Wang 0046, Nan Yang 0002, Yutao Zhu 0001, Ziliang Zhao, Furu Wei, Zhicheng Dou. 8254-8275 [doi]

Word2Passage: Word-level Importance Re-weighting for Query ExpansionJeonghwan Choi, Minjeong Ban, Minseok Kim, Hwanjun Song. 8276-8296 [doi]

MECoT: Markov Emotional Chain-of-Thought for Personality-Consistent Role-PlayingYangbo Wei, Zhen Huang, Fangzhou Zhao, Qi Feng, Wei W. Xing. 8297-8314 [doi]

FiDeLiS: Faithful Reasoning in Large Language Models for Knowledge Graph Question AnsweringYuan Sui, Yufei He, Nian Liu, Xiaoxin He, Kun Wang, Bryan Hooi. 8315-8330 [doi]

REALM: A Dataset of Real-World LLM Use CasesJingwen Cheng, Kshitish Ghate, Wenyue Hua, William Yang Wang, Hong Shen 0004, Fei Fang 0001. 8331-8341 [doi]

BABELEDITS: A Benchmark and a Modular Approach for Robust Cross-lingual Knowledge Editing of Large Language ModelsTommaso Green, Félix Gaschi, Fabian David Schmidt, Simone Paolo Ponzetto, Goran Glavas. 8342-8369 [doi]

CDS: Data Synthesis Method Guided by Cognitive Diagnosis TheoryHaokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao, Xiaojun Meng, Jiansheng Wei. 8370-8393 [doi]

Problem-Solving Logic Guided Curriculum In-Context Learning for LLMs Complex ReasoningXuetao Ma 0001, Wenbin Jiang 0002, Hua Huang. 8394-8412 [doi]

BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of EnglishDipankar Srirag, Aditya Joshi, Jordan Painter, Diptesh Kanojia. 8413-8429 [doi]

NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLMZihan Wang, Yaohui Zhu, Gim Hee Lee, Yachun Fan. 8430-8440 [doi]

SQLForge: Synthesizing Reliable and Diverse Data to Enhance Text-to-SQL Reasoning in LLMsYu Guo, Dong Jin, Shenghao Ye, Shuangwu Chen, Jianyang Jianyang, Xiaobin Tan. 8441-8452 [doi]

Retrieval-Augmented Process Reward Model for Generalizable Mathematical ReasoningJiachen Zhu 0001, Congmin Zheng, Jianghao Lin, Kounianhua Du, Ying Wen 0001, Yong Yu 0001, Jun Wang 0012, Weinan Zhang 0001. 8453-8468 [doi]

Contrastive Learning for Task-Independent SpeechLLM-PretrainingMaike Züfle, Jan Niehues. 8469-8490 [doi]

QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention AlgorithmQirui Zhou, Shaohui Peng, Weiqiang Xiong, Haixin Chen, Yuanbo Wen, Haochen Li 0002, Ling Li 0001, Qi Guo 0001, Yongwei Zhao, Ke Gao, Ruizhi Chen, Yanjun Wu, Zhao Chen, Yunji Chen. 8491-8505 [doi]

ALW: Adaptive Layer-Wise contrastive decoding enhancing reasoning ability in Large Language ModelsYuechi Zhou, Chuyue Zhou, Jianxin Zhang, Juntao Li, Min Zhang. 8506-8524 [doi]

Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language ModelsXinlong Chen, Yuanxing Zhang, Qiang Liu 0006, Junfei Wu, Fuzheng Zhang, Tieniu Tan. 8525-8542 [doi]

VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video GenerationXinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu 0006, Di Zhang, Tieniu Tan. 8543-8563 [doi]

Mitigating Demonstration Bias through Global Coevolutionary ReasoningChuan Gou, Bangwei Li, Jianhua Dai, Xiaoyang Han, Ming Cai. 8564-8578 [doi]

A Representation Level Analysis of NMT Model Robustness to Grammatical ErrorsAbderrahmane Issam, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis. 8579-8601 [doi]

T²DR: A Two-Tier Deficiency-Resistant Framework for Incomplete Multimodal LearningHan Lin, Xiu Tang, Huan Li 0003, Wenxue Cao, Sai Wu, Chang Yao, Lidan Shou, Gang Chen 0001. 8602-8616 [doi]

From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalitiesShixin Jiang, Jiafeng Liang, Jiyuan Wang, Xuan Dong, Heng Chang, Weijiang Yu, Jinhua Du, Ming Liu 0004, Bing Qin 0001. 8617-8652 [doi]

Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups MatterVerena Blaschke, Masha Fedzechkina, Maartje ter Hoeve. 8653-8684 [doi]

Agents generalize to novel levels of abstraction by using adaptive linguistic strategiesKristina Kobrock, Xenia Ohmer, Elia Bruni, Nicole Gotzner. 8685-8699 [doi]

The Linguistic Connectivities Within Large Language ModelsDan Wang, Boxi Cao, Ning Bian, Xuanang Chen, Yaojie Lu 0001, Hongyu Lin, Jia Zheng 0009, Le Sun 0001, Shanshan Jiang 0001, Bin Dong 0003, Xianpei Han. 8700-8714 [doi]

XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and ReasoningZhihan Zhang 0003, Yixin Cao 0002, Lizi Liao. 8715-8758 [doi]

Align²LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction CurationHongzhe Huang, Jiang Liu, Zhewen Yu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li 0014, Hao Jiang 0014, Haoyuan Li, Yueting Zhuang. 8759-8781 [doi]

Achieving binary weight and activation for LLMs using Post-Training QuantizationSiqing Song, Chuang Wang 0007, Rui-Qi Wang, Yi Yang, Xu-Yao Zhang. 8782-8795 [doi]

Mitigating Negative Interference in Multilingual Knowledge Editing through Null-Space ConstraintsWei Sun 0046, Tingyu Qu, Mingxiao Li 0002, Jesse Davis, Marie-Francine Moens. 8796-8810 [doi]

From Awareness to Adaptability: Enhancing Tool Utilization for Scientific ReasoningWenjing Xie, Xiaobo Liang, Juntao Li, Wanfu Wang, Kehai Chen, Qiaoming Zhu, Min Zhang 0005. 8811-8831 [doi]

AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference ModelsQi Liu 0003, Jingqing Ruan, Hao Li, Haodong Zhao, Desheng Wang, Jiansong Chen, Guanglu Wan, Xunliang Cai, Zhi Zheng 0008, Tong Xu 0001. 8832-8866 [doi]

Supervised Optimism Correction: Be Confident When LLMs Are SureJunjie Zhang, Rushuai Yang, Shunyu Liu 0001, Ting-En Lin, Fei Huang 0002, Yi Chen, Yongbin Li, Dacheng Tao. 8867-8880 [doi]

Offline Reinforcement Learning for LLM Multi-step ReasoningHuaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, Yilin Bao, Ziran Yang, Yi Wu 0013. 8881-8893 [doi]

Sampling-based Pseudo-Likelihood for Membership Inference AttacksMasahiro Kaneko, Youmi Ma, Yuki Wata, Naoaki Okazaki. 8894-8907 [doi]

AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer AssistantChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu 0003, Tianbao Xie, Zhiyong Wu 0003. 8908-8934 [doi]

Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning DataXin-Cheng Wen, Yijun Yang, Cuiyun Gao, Yang Xiao, Deheng Ye. 8935-8949 [doi]

GA-S³: Comprehensive Social Network Simulation with Group AgentsYunyao Zhang, Zikai Song, Hang Zhou 0010, Wenfeng Ren, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang 0034. 8950-8970 [doi]

M-RangeDetector: Enhancing Generalization in Machine-Generated Text Detection through Multi-Range Attention MasksKaijie Jiao, Quan Wang 0002, Licheng Zhang, Zikang Guo, Zhendong Mao 0001. 8971-8983 [doi]

Does Your Voice Assistant Remember? Analyzing Conversational Context Recall and Utilization in Voice Interaction ModelsHeeseung Kim, Che Hyun Lee, Sangkwon Park, Jiheum Yeom, Nohil Park, Sangwon Yu, Sungroh Yoon. 8984-9014 [doi]

NeuronMerge: Merging Models via Functional Neuron GroupsWangyun Gu, Qianghua Gao, Li-Xin Zhang, Xu Shen 0001, Jieping Ye. 9015-9037 [doi]

HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense ReasoningXiaoyuan Li, Moxin Li, Rui Men, Yichang Zhang, Keqin Bao, Wenjie Wang 0007, Fuli Feng, Dayiheng Liu, Junyang Lin. 9038-9072 [doi]

Self-Steering Optimization: Autonomous Preference Optimization for Large Language ModelsHao Xiang, Bowen Yu 0002, Hongyu Lin, Keming Lu, Yaojie Lu 0001, Xianpei Han, Ben He, Le Sun 0001, Jingren Zhou 0001, Junyang Lin. 9073-9085 [doi]

LIME: Less Is More for MLLM EvaluationKing Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shuyue Guo, Tianyu Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Ruibo Liu, Xiang Yue, Jiaheng Liu, Chenghua Lin, Hamid Alinejad-Rokny, Min Yang 0007, Shiwen Ni, Wenhao Huang, Ge Zhang 0009. 9086-9121 [doi]

Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model EnhancementXiaofeng Zhou, Heyan Huang, Lizi Liao. 9122-9137 [doi]

CodeReviewQA: The Code Review Comprehension Assessment for Large Language ModelsHong-Yi Lin, Chunhua Liu, Haoyu Gao, Patanamon Thongtanunam, Christoph Treude. 9138-9166 [doi]

Narrative Media Framing in Political DiscourseYulia Otmakhova 0001, Lea Frermann. 9167-9196 [doi]

MHALO: Evaluating MLLMs as Fine-grained Hallucination DetectorsYishuo Cai, Renjie Gu, Jiaxu Li, Xuancheng Huang, Junzhe Chen, Xiaotao Gu, Minlie Huang. 9197-9222 [doi]

Semantic Topology: a New Perspective for Communication Style CharacterizationBarbara Scalvini, Alireza Mashaghi. 9223-9233 [doi]

Decoding LLM Personality Measurement: Forced-Choice vs. LikertXiaoyu Li, Haoran Shi, Zengyi Yu, Yukun Tu, Chanjin Zheng. 9234-9247 [doi]

MultiMSD: A Corpus for Multilingual Medical Text Simplification from Online Medical ReferencesKoki Horiguchi, Tomoyuki Kajiwara, Takashi Ninomiya, Shoko Wakamiya, Eiji Aramaki. 9248-9258 [doi]

BadWindtunnel: Defending Backdoor in High-noise Simulated Training with Confidence VarianceRuyi Zhang 0002, Songlei Jian, Yusong Tan, Heng Gao, Haifang Zhou, Kai Lu. 9259-9273 [doi]

Multimodal Machine Translation with Text-Image In-depth QuestioningYue Gao, Jing Zhao, Shiliang Sun, Xiaosong Qiao, Tengfei Song, Hao Yang. 9274-9287 [doi]

ReKG-MCTS: Reinforcing LLM Reasoning on Knowledge Graphs via Training-Free Monte Carlo Tree SearchXiaozhuang Song, Shufei Zhang, Tianshu Yu 0001. 9288-9306 [doi]

HTML: Hierarchical Topology Multi-task Learning for Semantic Parsing in Knowledge Base Question AnsweringAziguli Wulamu, Lyu Zhengyu, Kaiyuan Gong, Yu Han, Zewen Wang, Zhihong Zhu, Bowen Xing. 9307-9321 [doi]

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction FollowingJinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu. 9322-9341 [doi]

CMIE: Combining MLLM Insights with External Evidence for Explainable Out-of-Context Misinformation DetectionFanxiao Li, Jiaying Wu, Canyuan He, Wei Zhou. 9342-9354 [doi]

EtiCor++: Towards Understanding Etiquettical Bias in LLMsAshutosh Dwivedi, Siddhant Singh, Ashutosh Modi. 9355-9376 [doi]

FinRipple: Aligning Large Language Models with Financial Market for Event Ripple Effect AwarenessYuanjian Xu, Jianing Hao, Kunsheng Tang, Jingnan Chen, Anxian Liu, Peng Liu, Guang Zhang. 9377-9398 [doi]

Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine TranslationYingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu. 9399-9431 [doi]

EC-RAFT: Automated Generation of Clinical Trial Eligibility Criteria through Retrieval-Augmented Fine-TuningNopporn Lekuthai, Nattawit Pewngam, Supitcha Sokrai, Titipat Achakulvisut. 9432-9444 [doi]

Pitfalls of Scale: Investigating the Inverse Task of Redefinition in Large Language ModelsElena Stringli, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou. 9445-9469 [doi]

Implicit Reasoning in Transformers is Reasoning through ShortcutsTianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang. 9470-9487 [doi]

Learning to Align Multi-Faceted Evaluation: A Unified and Robust FrameworkKaishuai Xu, Tiezheng Yu, Yi Cheng, Wenjun Hou, Liangyou Li, Xin Jiang 0002, Lifeng Shang, Qun Liu 0001, Wenjie Li 0002. 9488-9502 [doi]

CortexDebate: Debating Sparsely and Equally for Multi-Agent DebateYiliu Sun, ZiCheng Zhao, Sheng Wan, Chen Gong 0002. 9503-9523 [doi]

PAP2PAT: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper PairsValentin Knappich, Anna Hätty, Simon Razniewski, Annemarie Friedrich. 9524-9554 [doi]

Debt Collection Negotiations with Large Language Models: An Evaluation System and Optimizing Decision Making with Multi-AgentXiaofeng Wang, Zhixin Zhang, Jin Guang Zheng, Yiming Ai, Rui Wang. 9555-9577 [doi]

Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone PointsKechi Zhang, Ge Li 0001, Jia Li 0011, Yihong Dong, Zhi Jin. 9578-9591 [doi]

Supervised and Unsupervised Probing of Shortcut Learning: Case Study on the Emergence and Evolution of Syntactic Heuristics in BERTElke Vandermeerschen, Miryam de Lhoneux. 9592-9604 [doi]

GIMMICK: Globally Inclusive Multimodal Multitask Cultural Knowledge BenchmarkingFlorian Schneider 0001, Carolin Holtermann, Chris Biemann, Anne Lauscher. 9605-9668 [doi]

R-VLM: Region-Aware Vision Language Model for Precise GUI GroundingJoonhyung Park, Peng Tang, Sagnik Das, Srikar Appalaraju, Kunwar Yashraj Singh, R. Manmatha, Shabnam Ghadar. 9669-9685 [doi]

Perspective Transition of Large Language Models for Solving Subjective TasksXiaolong Wang, Yuanchi Zhang, Ziyue Wang, Yuzhuang Xu, Fuwen Luo, Yile Wang, Peng Li, Yang Liu. 9686-9704 [doi]

TripTailor: A Real-World Benchmark for Personalized Travel PlanningKaimin Wang, Yuanzhe Shen, Changze Lv, Xiaoqing Zheng, Xuanjing Huang 0001. 9705-9723 [doi]

Random Splitting Negatively Impacts NER Evaluation: Quantifying and Eliminating the Overestimation of NER PerformanceFlorian Babl, Moritz Hennen, Jakob Murauer, Michaela Geierhos. 9724-9738 [doi]

Structure-adaptive Adversarial Contrastive Learning for Multi-Domain Fake News DetectionLingwei Wei, Dou Hu 0001, Wei Zhou 0019, Philip S. Yu, Songlin Hu 0001. 9739-9752 [doi]

BiasGuard: A Reasoning-Enhanced Bias Detection Tool for Large Language ModelsZhiting Fan, Ruizhe Chen, Zuozhu Liu. 9753-9764 [doi]

Qorǵau: Evaluating Safety in Kazakh-Russian Bilingual ContextsMaiya Goloburda, Nurkhan Laiyk, Diana Turmakhan, Yuxia Wang, Mukhammed Togmanov, Jonibek Mansurov, Askhat Sametov, Nurdaulet Mukhituly, Minghan Wang, Daniil Orel, Zain Muhammad Mujahid, Fajri Koto, Timothy Baldwin, Preslav Nakov. 9765-9784 [doi]

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease ProgressionLinjie Mu, Zhongzhen Huang, Shengqian Qin, Yakun Zhu, Shaoting Zhang 0001, Xiaofan Zhang 0002. 9785-9803 [doi]

Tree-of-Code: A Self-Growing Tree Framework for End-to-End Code Generation and Execution in Complex TasksZiyi Ni, Yifan Li, Ning Yang, Dou Shen, Pin Lyu, Daxiang Dong. 9804-9819 [doi]

Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie DialoguesDavid Sasu, Zehui Wu, Ziwei Gong, Run Chen, Pengyuan Shi, Lin Ai, Julia Hirschberg, Natalie Schluter. 9820-9831 [doi]

A Cognitive Writing Perspective for Constrained Long-Form Text GenerationKaiyang Wan, Honglin Mu, Rui Hao, Haoran Luo 0001, Tianle Gu, Xiuying Chen. 9832-9844 [doi]

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language ModelsYou Li, Heyu Huang, Chi Chen 0005, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu 0001, Jinan Xu, Yuhua Li 0003, Ruixuan Li 0001, Maosong Sun 0001. 9845-9867 [doi]

SIKeD: Self-guided Iterative Knowledge Distillation for Mathematical ReasoningShivam Adarsh, Kumar Shridhar, Caglar Gulcehre, Nicholas Monath, Mrinmaya Sachan. 9868-9880 [doi]

Chain of Attack: Hide Your Intention through Multi-Turn InterrogationXikang Yang, Biyu Zhou, Xuehai Tang, Jizhong Han, Songlin Hu 0001. 9881-9901 [doi]

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic SpaceYicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen. 9902-9915 [doi]

Enhancing Automatic Term Extraction with Large Language Models via Syntactic RetrievalYongchan Chun, MinHyuk Kim, Dongjun Kim, Chanjun Park, HeuiSeok Lim. 9916-9926 [doi]

Explainable Depression Detection in Clinical Interviews with Personalized Retrieval-Augmented GenerationLinhai Zhang, Ziyang Gao, Deyu Zhou, Yulan He 0001. 9927-9944 [doi]

EMPEC: A Comprehensive Benchmark for Evaluating Large Language Models Across Diverse Healthcare ProfessionsZheheng Luo, Chenhan Yuan, Qianqian Xie, Sophia Ananiadou. 9945-9958 [doi]

Beyond Numeric Rewards: In-Context Dueling Bandits with LLM AgentsFanzeng Xia, Hao Liu, Yisong Yue, Tongxin Li. 9959-9988 [doi]

"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection DecodingHyunbin Jin, Je Won Yeom, Seunghyun Bae, Taesup Kim. 9989-10018 [doi]

SpeechT-RAG: Reliable Depression Detection in LLMs with Retrieval-Augmented Generation Using Speech Timing InformationXiangyu Zhang, Hexin Liu, Qiquan Zhang, Beena Ahmed, Julien Epps. 10019-10030 [doi]

Fine-grained Knowledge Enhancement for Retrieval-Augmented GenerationJingxuan Han, Zhendong Mao 0001, Yi Liu, Yexuan Che, Zheren Fu, Quan Wang 0002. 10031-10044 [doi]

Bayesian Optimization for Controlled Image Editing via LLMsChengkun Cai, Haoliang Liu, Xu Zhao, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, John Lee, Jenq-Neng Hwang, Lei Li 0050. 10045-10056 [doi]

SPOT: Zero-Shot Semantic Parsing Over Property GraphsFrancesco Cazzaro, Justin Kleindienst, Sofia Márquez Gomez, Ariadna Quattoni. 10057-10073 [doi]

Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic InferenceGeonhee Kim, Marco Valentino, André Freitas. 10074-10095 [doi]

Multi-Hop Question Generation via Dual-Perspective Keyword GuidanceMaodong Li, Longyin Zhang, Fang Kong 0001. 10096-10112 [doi]

LoRMA: Low-Rank Multiplicative Adaptation for LLMsHarsh Bihany, Shubham Patel 0001, Ashutosh Modi. 10113-10133 [doi]

DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at ScaleLinghao Zhang, Junhao Wang, Shilin He, Chaoyun Zhang, Yu Kang 0006, Bowen Li 0002, Jiaheng Wen, Chengxing Xie, Maoquan Wang, Yufan Huang, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang 0001, Qi Zhang 0066. 10134-10153 [doi]

Weak-to-Strong Honesty Alignment via Learning-to-Rank SupervisionYunfan Xie, Lixin Zou, Dan Luo 0004, Min Tang, Chenliang Li. 10154-10168 [doi]

MultiHoax: A Dataset of Multi-hop False-premise questionsMohammadamin Shafiei, Hamidreza Saffari, Nafise Sadat Moosavi. 10169-10187 [doi]

Learning to Play Like Humans: A Framework for LLM Adaptation in Interactive Fiction GamesJinming Zhang, Yunfei Long. 10188-10205 [doi]

STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech DetectionZewen Bai, Liang Yang, Shengdi Yin, Junyu Lu, Jingjie Zeng, Haohao Zhu, Yuanyuan Sun, Hongfei Lin. 10206-10219 [doi]

RelEdit: Evaluating Conceptual Knowledge Editing in Language Models via Relational ReasoningYifan Niu, Miao Peng, Nuo Chen, Yatao Bian, Tingyang Xu, Jia Li 0009. 10220-10238 [doi]

Unlocking Speech Instruction Data Potential with Query RewritingYonghua Hei, Yibo Yan, Shuliang Liu, Huiyu Zhou 0005, Linfeng Zhang 0001, Xuming Hu. 10239-10260 [doi]

From Evasion to Concealment: Stealthy Knowledge Unlearning for LLMsTianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Xiuying Chen, Yujiu Yang, Yan Teng, Yingchun Wang. 10261-10279 [doi]

Context-DPO: Aligning Language Models for Context-FaithfulnessBaolong Bi, Shaohan Huang, Yiwei Wang 0001, Tianchi Yang, Zihan Zhang, Haizhen Huang, Lingrui Mei, Junfeng Fang, Zehao Li, Furu Wei, Weiwei Deng, Feng Sun 0008, Qi Zhang 0066, Shenghua Liu. 10280-10300 [doi]

Reasoning Does Not Necessarily Improve Role-Playing AbilityXiachong Feng, Longxu Dou, Lingpeng Kong. 10301-10314 [doi]

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage ScenariosXiaokang Zhang, Sijia Luo, Bohan Zhang, Zeyao Ma, Jing Zhang 0001, Yang Li 0074, Guanlin Li, Zijun Yao 0002, Kangli Xu, Jinchang Zhou, Daniel Zhang-li, Jifan Yu, Shu Zhao, Juanzi Li, Jie Tang 0001. 10315-10344 [doi]

A Survey of LLM-based Agents in Medicine: How far are we from Baymax?Wenxuan Wang 0001, Zizhan Ma, Zheng Wang, Chenghan Wu, Jiaming Ji, Wenting Chen, Xiang Li 0001, Yixuan Yuan. 10345-10359 [doi]

Context-Robust Knowledge Editing for Language ModelsHaewon Park, Gyubin Choi, MinJun Kim, Yohan Jo. 10360-10385 [doi]

Multi-Agent Collaboration via Cross-Team OrchestrationZhuoyun Du, Chen Qian, Wei Liu, Zihao Xie, Yifei Wang, Rennai Qiu, Yufan Dang, Weize Chen, Cheng Yang, Ye Tian, Xuantang Xiong, Lei Han. 10386-10406 [doi]

Semantic Evaluation of Multilingual Data-to-Text Generation via NLI Fine-Tuning: Precision, Recall and F1 scoresWilliam Soto Martinez, Yannick Parmentier 0001, Claire Gardent. 10407-10427 [doi]

Optimized Text Embedding Models and Benchmarks for Amharic Passage RetrievalKidist Amde Mekonnen, Yosef Worku Alemneh, Maarten de Rijke. 10428-10445 [doi]

Enhancing Transformation from Natural Language to Signal Temporal Logic Using LLMs with Diverse External KnowledgeYue Fang, Zhi Jin, Jie An 0001, Hongshen Chen, Xiaohong Chen, Naijun Zhan. 10446-10458 [doi]

DAGS: A Dependency-Based Dual-Attention and Global Semantic Improvement Framework for Metaphor RecognitionPuli Chen, Cheng Yang, Xingmao Zhang, Qingbao Huang. 10459-10476 [doi]

ESF: Efficient Sensitive Fingerprinting for Black-Box Tamper Detection of Large Language ModelsXiaofan Bai, Pingyi Hu, Xiaojing Ma 0002, Linchen Yu, Dongmei Zhang 0001, Qi Zhang 0066, Bin Benjamin Zhu. 10477-10494 [doi]

The Lessons of Developing Process Reward Models in Mathematical ReasoningZhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin. 10495-10516 [doi]

MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMsYongqi Fan, Yating Wang, Guandong Wang, Jie Zhai, JingPing Liu, Qi Ye, Tong Ruan. 10517-10548 [doi]

Towards Conditioning Clinical Text Generation for User ControlOsman Alperen Koras, Rabi Bahnan, Jens Kleesiek, Amin Dada. 10549-10569 [doi]

CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain SettingsDaniil Orel, Dilshod Azizov, Preslav Nakov. 10570-10593 [doi]

Q-Mamba: Towards more efficient Mamba models via post-training quantizationTianQi Chen, Yuanteng Chen, Peisong Wang, Weixiang Xu, Zeyu Zhu, Jian Cheng 0001. 10594-10610 [doi]

P²Net: Parallel Pointer-based Network for Key Information Extraction with Complex LayoutsKaiwen Wei, Jie Yao, Jiang Zhong, Yangyang Kang, Jingyuan Zhang, Changlong Sun, Xin Zhang, Fengmao Lv, Li Jin 0001. 10611-10626 [doi]

Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language ModelsLiyang He, Chenglong Liu, Rui Li 0093, Zhenya Huang, Shulan Ruan, Jun Zhou 0011, Enhong Chen. 10627-10643 [doi]

RQT: Hierarchical Residual Quantization for Multi-Model CompressionTianQi Chen, Peisong Wang, Weixiang Xu, Zeyu Zhu, Jian Cheng 0001. 10644-10660 [doi]

taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across DecadesStefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen. 10661-10671 [doi]

LCFO: Long Context and Long Form Output Dataset and BenchmarkingMarta R. Costa-Jussà, Pierre Andrews, Mariano Coria Meglioli, Joy Chen, Joe Chuang, David Dale, Christophe Ropers, Alexandre Mourachko, Eduardo Sánchez, Holger Schwenk, Tuan Tran, Arina Turkatenko, Carleigh Wood. 10672-10700 [doi]

Span-based Semantic Role Labeling as Lexicalized Constituency Tree ParsingYang Hou 0001, Zhenghua Li. 10701-10713 [doi]

Learning from Negative Samples in Biomedical Generative Entity LinkingChanhwi Kim, Hyunjae Kim, Sihyeon Park, Jiwoo Lee, Mujeen Sung, Jaewoo Kang. 10714-10730 [doi]

Self-play through Computational Runtimes improves Chart ReasoningTautvydas Misiunas, Hassan Mansoor, Jasper Uijlings, Oriana Riva, Victor Carbune. 10731-10746 [doi]

Towards Better Chain-of-Thought: A Reflection on Effectiveness and FaithfulnessJiachun Li, Pengfei Cao, Yubo Chen 0001, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu 0001, Jun Zhao 0001. 10747-10765 [doi]

A Couch Potato is not a Potato on a Couch: Prompting Strategies, Image Generation, and Compositionality Prediction for Noun CompoundsSinan Kurtyigit, Diego Frassinelli, Carina Silberer, Sabine Schulte im Walde. 10766-10776 [doi]

A Rose by Any Other Name: LLM-Generated Explanations Are Good Proxies for Human Explanations to Collect Label Distributions on NLIBeiduo Chen, Siyao Peng, Anna Korhonen, Barbara Plank. 10777-10802 [doi]

Measuring What Matters: Evaluating Ensemble LLMs with Label Refinement in Inductive CodingAngelina Parfenova, Jürgen Pfeffer. 10803-10816 [doi]

Dynamic Evil Score-Guided Decoding: An Efficient Decoding Framework For Red-Team ModelCong Gao, Bo Zhang, Linkang Yang, Minghao Hu, Zhunchen Luo, Xiaoying Bai, Guotong Geng, Jun Zhang, Yunhua Xue. 10817-10833 [doi]

CoMuMDR: Code-mixed Multi-modal Multi-domain corpus for Discourse paRsing in conversationsDivyaksh Shukla, Ritesh Baviskar, Dwijesh Gohil, Aniket Tiwari, Atul Shree, Ashutosh Modi. 10834-10849 [doi]

Multi-word Measures: Modeling Semantic Change in Compound NounsChris W. Jenkins, Filip Miletic 0002, Sabine Schulte im Walde. 10850-10864 [doi]

Bridge-Coder: Transferring Model Capabilities from High-Resource to Low-Resource Programming LanguageJipeng Zhang, Jianshu Zhang 0003, Yuanzhe Li, Renjie Pi, Rui Pan 0002, Runtao Liu, Ziqiang Zheng, Tong Zhang 0001. 10865-10882 [doi]

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert TasksYan Yang 0011, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu 0009, Liyuan Pan, Junnan Li. 10883-10892 [doi]

2M-BELEBELE: Highly Multilingual Speech and American Sign Language Comprehension Dataset Download PDFMarta R. Costa-Jussà, Bokai Yu, Pierre Andrews, Belen Alastruey, Necati Cihan Camgöz, Joe Chuang, Jean Maillard, Christophe Ropers, Arina Turkatenko, Carleigh Wood. 10893-10904 [doi]

LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic DataNaomi Baes, Raphaël Merx, Nick Haslam, Ekaterina Vylomova, Haim Dubossarsky. 10905-10939 [doi]

Chain-of-Jailbreak Attack for Image Generation Models via Step by Step EditingWenxuan Wang 0001, Kuiyi Gao, Youliang Yuan, Jen-tse Huang 0001, Qiuzhi Liu, Shuai Wang 0001, Wenxiang Jiao, Zhaopeng Tu. 10940-10957 [doi]

Tokenization is Sensitive to Language VariationAnna Wegmann, Dong Nguyen 0002, David Jurgens. 10958-10983 [doi]

WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless CommunicationsXin Li 0084, Mengbing Liu, Li Wei 0007, Jiancheng An 0001, Mérouane Abdelkader Debbah, Chau Yuen. 10984-11009 [doi]

Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective AlignmentMoxin Li, Yuantao Zhang, Wenjie Wang 0007, Wentao Shi 0002, Zhuo Liu, Fuli Feng, Tat-Seng Chua. 11010-11031 [doi]

Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-TrainingZhijun Wang, Jiahuan Li, Hao Zhou, Rongxiang Weng, Jingang Wang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang. 11032-11046 [doi]

User Behavior Prediction as a Generic, Robust, Scalable, and Low-Cost Evaluation Strategy for Estimating Generalization in LLMsSougata Saha, Monojit Choudhury. 11047-11065 [doi]

Beyond Browsing: API-Based Web AgentsYueqi Song, Frank F. Xu, Shuyan Zhou, Graham Neubig. 11066-11085 [doi]

MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority LanguagesChen Zhang 0019, Mingxu Tao, Zhiyuan Liao, Yansong Feng 0002. 11086-11102 [doi]

ArgInstruct: Specialized Instruction Fine-Tuning for Computational ArgumentationMaja Stahl, Timon Ziegenbein, Joonsuk Park, Henning Wachsmuth. 11103-11127 [doi]

Crabs: Consuming Resource via Auto-generation for LLM-DoS Attack under Black-box SettingsYuanhe Zhang, Zhenhong Zhou, Wei Zhang, Xinyue Wang, Xiaojun Jia, Yang Liu, Sen Su. 11128-11150 [doi]

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language ModelsChenchen Yuan, Zheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci. 11151-11168 [doi]

Unlocking Recursive Thinking of LLMs: Alignment via RefinementHaoke Zhang, Xiaobo Liang, Cunxiang Wang, Juntao Li, Min Zhang. 11169-11182 [doi]

CitaLaw: Enhancing LLM with Citations in Legal DomainKepu Zhang, Weijie Yu 0003, Sunhao Dai, Jun Xu 0001. 11183-11196 [doi]

MEGen: Generative Backdoor into Large Language Models via Model EditingJiyang Qiu, Xinbei Ma, Zhuosheng Zhang 0001, Hai Zhao 0001, Yun Li, Qianren Wang. 11197-11214 [doi]

Social Bias Benchmark for Generation: A Comparison of Generation and QA-Based EvaluationsJiho Jin, Woosung Kang, Junho Myung, Alice Oh. 11215-11228 [doi]

Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image ModelsJunling Wang 0001, Anna Rutkiewicz, April Yi Wang, Mrinmaya Sachan. 11229-11257 [doi]

RASPberry: Retrieval-Augmented Monte Carlo Tree Self-Play with Reasoning Consistency for Multi-Hop Question AnsweringBaixuan Li, Yunlong Fan, Tianyi Ma, Miao Gao, Chuanqi Shi, Zhiqiang Gao. 11258-11276 [doi]

All That Glitters is Not Gold: Improving Robust Retrieval-Augmented Language Models with Fact-Centric Preference AlignmentJia Hao, Chunhong Zhang, Jiarun Liu, Haiyu Zhao, Zhiqiang Zhan, Zheng Hu 0001. 11277-11292 [doi]

FairSteer: Inference Time Debiasing for LLMs with Dynamic Activation SteeringYichen Li, Zhiting Fan, Ruizhe Chen, Xiaotang Gai, Luqi Gong, Yan Zhang 0004, Zuozhu Liu. 11293-11312 [doi]

Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emotion GenerationZhuofan Wen 0001, Zheng Lian, Shun Chen, Hailiang Yao, Longjiang Yang, Bin Liu, Jianhua Tao 0001. 11313-11327 [doi]

GLTW: Joint Improved Graph Transformer and LLM via Three-Word Language for Knowledge Graph CompletionKangyang Luo, Yuzhuo Bai, Cheng Gao, Shuzheng Si, Zhu Liu 0005, Yingli Shen, Zhitong Wang, Cunliang Kong, Wenhao Li 0003, Yufei Huang 0008, Ye Tian, Xuantang Xiong, Lei Han, Maosong Sun 0001. 11328-11344 [doi]

Learning to Select In-Context Demonstration Preferred by Large Language ModelZheng Zhang, Shaocheng Lan, Lei Song, Jiang Bian, Yexin Li, Kan Ren. 11345-11360 [doi]

Beyond the Spelling Miracle: Investigating Substring Awareness in Character-Blind Language ModelsCristiano Ciaccio, Marta Sartor, Alessio Miaschi, Felice dell'Orletta. 11361-11372 [doi]

DEMO: Reframing Dialogue Interaction with Fine-grained Element ModelingMinzheng Wang 0001, Xinghua Zhang 0001, Kun Chen, Nan Xu, Haiyang Yu 0003, Fei Huang 0002, Wenji Mao, Yongbin Li. 11373-11401 [doi]

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory TransformationBowen Cao, Deng Cai 0002, Wai Lam. 11402-11415 [doi]

M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in ConversationsQiao Liang, Ying Shen, Tiantian Chen, Lin Zhang. 11416-11431 [doi]

Large Language Models Are Natural Video Popularity PredictorsPratik Kayal, Pascal Mettes, Nima Dehmamy, Minsu Park. 11432-11464 [doi]

DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model EditingYi Wang, Fenghua Weng, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang. 11465-11481 [doi]

You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with Multi-Agent ConversationsFrederic Kirstein, Muneeb Khan, Jan Philip Wahle, Terry Ruas, Bela Gipp. 11482-11525 [doi]

Code-Switching and Syntax: A Large-Scale ExperimentIgor Sterner, Simone Teufel. 11526-11533 [doi]

Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent SystemWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun 0001. 11534-11557 [doi]

Generating Domain-Specific Knowledge Graphs from Large Language ModelsMarinela Parovic, Ze Li, Jinhua Du. 11558-11574 [doi]

Large Language Models are Miscalibrated In-Context LearnersChengzu Li, Han Zhou, Goran Glavas, Anna Korhonen, Ivan Vulic. 11575-11596 [doi]

STeCa: Step-level Trajectory Calibration for LLM Agent LearningHanlin Wang, Jian Wang 0054, Chak Tou Leong, Wenjie Li 0002. 11597-11614 [doi]

LEMMA: Learning from Errors for MatheMatical Advancement in LLMsZhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu. 11615-11639 [doi]

Voting or Consensus? Decision-Making in Multi-Agent DebateLars Benedikt Kaesberg, Jonas Becker, Jan Philip Wahle, Terry Ruas, Bela Gipp. 11640-11671 [doi]

Rhetorical Device-Aware Sarcasm Detection with Counterfactual Data AugmentationQingqing Hong, Dongyu Zhang 0003, Jiayi Lin 0003, Dapeng Yin 0008, Shuyue Zhu, Junli Wang 0001. 11672-11685 [doi]

Selecting Demonstrations for Many-Shot In-Context Learning via Gradient MatchingJianfei Zhang 0003, Bei Li, Jun Bai, Rumei Li, Yanmeng Wang, Chenghua Lin, Wenge Rong. 11686-11704 [doi]

Cheap Character Noise for OCR-Robust Multilingual EmbeddingsAndrianos Michail, Juri Opitz, Yining Wang, Robin Meister, Rico Sennrich, Simon Clematide. 11705-11716 [doi]

Physics: Benchmarking Foundation Models on University-Level Physics Problem SolvingKaiyue Feng, Yilun Zhao 0001, Yixin Liu 0003, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan. 11717-11743 [doi]

DOVE: A Large-Scale Multi-Dimensional Predictions Dataset Towards Meaningful LLM EvaluationEliya Habba, Ofir Arviv, Itay Itzhak, Yotam Perlitz, Elron Bandel, Leshem Choshen, Michal Shmueli-Scheuer, Gabriel Stanovsky. 11744-11763 [doi]

ALPS: Attention Localization and Pruning Strategy for Efficient Adaptation of Large Language ModelsHao Chen, Haoze Li, Zhiqing Xiao, Lirong Gao, Qi Zhang, Xiaomeng Hu, Ningtao Wang, Xing Fu, Junbo Zhao 0002. 11764-11780 [doi]

DeTAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention ModificationYu Li, Han Jiang 0007, Zhihua Wei 0001. 11781-11797 [doi]

A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & ChallengesYibo Yan, Jiamin Su, Jianxiang He, Fangteng Fu, Xu Zheng 0002, Yuanhuiyi Lyu, Kun Wang, Shen Wang 0005, Qingsong Wen, Xuming Hu. 11798-11827 [doi]

Fast-and-Frugal Text-Graph Transformers are Effective Link PredictorsAndrei Catalin Coman, Christos Theodoropoulos 0001, Marie-Francine Moens, James Henderson 0001. 11828-11841 [doi]

NeoQA: Evidence-based Question Answering with Generated News EventsMax Glockner, Xiang Jiang 0001, Leonardo F. R. Ribeiro, Iryna Gurevych, Markus Dreyer. 11842-11926 [doi]

ChatMap: Mining Human Thought Processes for Customer Service Chatbots via Multi-Agent CollaborationXinyi Jiang, Tianyi Hu, Yuheng Qin, Guoming Wang, Zhou Huan, Kehan Chen, Gang Huang, Rongxing Lu, Siliang Tang. 11927-11947 [doi]

P3: Prompts Promote PromptingXinyu Zhang, Yuanquan Hu, Fangchao Liu, Zhicheng Dou. 11948-11965 [doi]

VAQUUM: Are Vague Quantifiers Grounded in Visual Data?Hugh Mee Wong, Rick Nouwen, Albert Gatt. 11966-11982 [doi]

Forgotten Polygons: Multimodal Large Language Models are Shape-BlindWilliam Rudman, Michal Golovanevsky, Amir Bar, Vedant Palit, Yann LeCun, Carsten Eickhoff, Ritambhara Singh. 11983-11998 [doi]

MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented ModalityShuaike Li, Kai Zhang 0038, Qi Liu 0003, Enhong Chen. 11999-12013 [doi]

FIHA: Automated Fine-grained Hallucinations Evaluations in Large Vision Language Models with Davidson Scene GraphsBowen Yan, Zhengsong Zhang, Liqiang Jing, Eftekhar Hossain, Xinya Du. 12014-12026 [doi]

On the Role of Semantic Proto-roles in Semantic Analysis: What do LLMs know about agency?Elizabeth Spaulding, Shafiuddin Rehan Ahmed, James H. Martin. 12027-12048 [doi]

GeAR: Graph-enhanced Agent for Retrieval-augmented GenerationZhili Shen, Chenxin Diao, Pavlos Vougiouklis, Pascual Merita, Shriram Piramanayagam, Enting Chen, Damien Graux, André Melo, Ruofei Lai, Zeren Jiang, Zhongyang Li, Ye Qi, Yang Ren, Dandan Tu, Jeff Z. Pan. 12049-12072 [doi]

WebNLG-IT: Construction of an aligned RDF-Italian corpus through Machine Translation techniquesMichael Oliverio, Pier Felice Balestrucci, Alessandro Mazzei, Valerio Basile. 12073-12083 [doi]

Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note GenerationHanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Reddy Korsapati, Chuck Outcalt, Jimeng Sun 0001. 12084-12117 [doi]

Bridging Robustness and Generalization Against Word Substitution Attacks in NLP via the Growth Bound Matrix ApproachMohammed Bouri, Adnane Saoud. 12118-12137 [doi]

Neuro-Symbolic Query CompilerYuyao Zhang, Zhicheng Dou, Xiaoxi Li, Jiajie Jin, Yongkang Wu, Zhonghua Li, Ye Qi, Ji-Rong Wen. 12138-12155 [doi]

Revealing and Mitigating the Local Pattern Shortcuts of MambaWangjie You, Zecheng Tang, Juntao Li, Lili Yao, Min Zhang 0005. 12156-12178 [doi]

Forget the Token and Pixel: Rethinking Gradient Ascent for Concept Unlearning in Multimodal Generative ModelsJiaqi Li, Chuanyi Zhang, Miaozeng Du, Hui Zhang, Yongrui Chen 0002, Qianshan Wei, Junfeng Fang, Ruipeng Wang, Sheng Bi, Guilin Qi. 12179-12200 [doi]

Slamming: Training a Speech Language Model on One GPU in a DayGallil Maimon, Avishai Elmakies, Yossi Adi. 12201-12216 [doi]

Boosting LLM Translation Skills without General Ability Loss via Rationale DistillationJunhong Wu, Yang Zhao 0007, Yangyifan Xu, Bing Liu, Chengqing Zong. 12217-12236 [doi]

Clarifying Underspecified Discourse Relations in Instructional TextsBerfin Aktas, Michael Roth. 12237-12256 [doi]

WMT24++: Expanding the Language Coverage of WMT24 to 55 Languages & DialectsDaniel Deutsch, Eleftheria Briakou, Isaac Rayburn Caswell, Mara Finkelstein, Rebecca Galor, Juraj Juraska, Geza Kovacs, Alison Lui, Ricardo Rei, Jason Riesa, Shruti Rijhwani, Parker Riley, Elizabeth Salesky, Firas Trabelsi, Stephanie Winkler, Biao Zhang, Markus Freitag. 12257-12284 [doi]

Exploring Graph Representations of Logical Forms for Language ModelingMichael Sullivan. 12285-12307 [doi]

SEA-HELM: Southeast Asian Holistic Evaluation of Language ModelsYosephine Susanto, Adithya Venkatadri Hulagadri, Jann Railey Montalan, Jian Gang Ngui, Xianbin Yong, Wei Qi Leong, Hamsawardhini Rengarajan, Peerat Limkonchotiwat, Yifan Mai 0001, William-Chandra Tjhi. 12308-12336 [doi]

TRANS-ZERO: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel DataWei Zou, Sen Yang, Yu Bao, Shujian Huang, Jiajun Chen 0001, Shanbo Cheng. 12337-12347 [doi]

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality EstimatesGonçalo Emanuel Cavaco Gomes, Bruno Martins 0001, Chrysoula Zerva. 12348-12365 [doi]

SGDPO: Self-Guided Direct Preference Optimization for Language Model AlignmentWenqiao Zhu, Ji Liu, Lulu Wang, Jun Wu, Yulun Zhang. 12366-12383 [doi]

Socratic Style Chain-of-Thoughts Help LLMs to be a Better ReasonerJiangbo Pei, Peiyu Liu, Xin Zhao, Aidong Men, Yang Liu. 12384-12395 [doi]

Quantile Regression with Large Language Models for Price PredictionNikhita Vedula, Dushyanta Dhyani, Laleh Jalali, Boris N. Oreshkin, Mohsen Bayati, Shervin Malmasi. 12396-12415 [doi]

Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding TutorsJian Wang, Yinpei Dai, Yichi Zhang, Ziqiao Ma 0001, Wenjie Li, Joyce Chai. 12416-12436 [doi]

AIGuard: A Benchmark and Lightweight Detection for E-commerce AIGC RisksWenhua Zhang, Weicheng Li, Xuanrong Rao, Lixin Zou, Xiangyang Luo, Chubin Zhuang, Yongjie Hong, Zhen Qin, Hengyun Chang, Chenliang Li, Bo Zheng. 12437-12450 [doi]

A²ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector QuantizationJunhui He, Junna Xing, Nan Wang, Rui Xu, Shangyu Wu, Peng Zhou, Qiang Liu, Chun Jason Xue, Qingan Li. 12451-12463 [doi]

TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital EnvironmentsYuheng Lu, Qian Yu, Hongru Wang 0003, Zeming Liu, Wei Su, Yanping Liu, Yuhang Guo 0001, Maocheng Liang, Yunhong Wang 0001, Haifeng Wang 0001. 12464-12478 [doi]

Order Matters: Investigate the Position Bias in Multi-constraint Instruction FollowingJie Zeng, Qianyu He, QingYu Ren, Jiaqing Liang, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao. 12479-12492 [doi]

CoT-VTM: Visual-to-Music Generation with Chain-of-Thought ReasoningXikang Guan, Zheng Gu, Jing Huo, Tianyu Ding, Yang Gao 0001. 12493-12510 [doi]

A Tale of Evaluating Factual Consistency: Case Study on Long Document Summarization EvaluationYang Zhong, Diane J. Litman. 12511-12532 [doi]

Evaluating Pretrained Causal Language Models for SynonymyIoana Ivan, Carlos Ramisch, Alexis Nasr. 12533-12551 [doi]

MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal ModelsBohan Jin, Shuhan Qi, Kehai Chen, Xinyi Guo, Xuan Wang. 12552-12574 [doi]

CoVE: Compressed Vocabulary Expansion Makes Better LLM-based Recommender SystemsHaochen Zhang, Tianyi Zhang, Junze Yin, Oren Gal, Anshumali Shrivastava, Vladimir Braverman. 12575-12591 [doi]

CtrlA: Adaptive Retrieval-Augmented Generation via Inherent ControlHuanshuo Liu, Hao Zhang, Zhijiang Guo, Jing Wang, Kuicai Dong, Xiangyang Li, Yi Quan Lee, Cong Zhang, Yong Liu. 12592-12618 [doi]

Maximum Score Routing For Mixture-of-ExpertsBowen Dong, Yilong Fan, Yutao Sun, Zhenyu Li, Tengyu Pan, Zhou Xun, Jianyong Wang 0001. 12619-12632 [doi]

Time Course MechInterp: Analyzing the Evolution of Components and Knowledge in Large Language ModelsAhmad Dawar Hakimi, Ali Modarressi, Philipp Wicke, Hinrich Schütze. 12633-12653 [doi]

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong DecodingFeifan Song 0001, Shaohang Wei, Wen Luo 0001, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang. 12654-12670 [doi]

Disentangling Text and Math in Word Problems: Evidence for the Bidimensional Structure of Large Language Models' ReasoningPedro Calais, Gabriel Franco, Zilu Tang, Themistoklis Nikas, Wagner Meira Jr., Evimaria Terzi, Mark Crovella. 12671-12688 [doi]

Human-LLM Coevolution: Evidence from Academic WritingMingmeng Geng, Roberto Trotta. 12689-12696 [doi]

Disentangled Multi-span Evolutionary Network against Temporal Knowledge Graph ReasoningHao Dong 0010, Ziyue Qiao, Zhiyuan Ning, Qi Hao 0001, Yi Du, Pengyang Wang, Yuanchun Zhou. 12697-12707 [doi]

GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question AnsweringCristian-George Craciun, Razvan-Alexandru Smadu, Dumitru-Clementin Cercel, Mihaela-Claudia Cercel. 12708-12742 [doi]

Express What You See: Can Multimodal LLMs Decode Visual Ciphers with Intuitive Semiosis Comprehension?Jiayi Kuang, Yinghui Li, Chen Wang 0049, Haohao Luo, Ying Shen 0001, Wenhao Jiang. 12743-12774 [doi]

ConFit v2: Improving Resume-Job Matching using Hypothetical Resume Embedding and Runner-Up Hard-Negative MiningXiao Yu 0011, Ruize Xu, Chengyuan Xue, Jinzhong Zhang 0002, Xu Ma, Zhou Yu 0005. 12775-12790 [doi]

Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before CompletionAnum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser. 12791-12806 [doi]

Grounding Task Assistance with Multimodal Cues from a Single DemonstrationGabriel Herbert Sarch, Balasaravanan Thoravi Kumaravel, Sahithya Ravi, Vibhav Vineet, Andrew D. Wilson. 12807-12833 [doi]

Awes, Laws, and Flaws From Today's LLM ResearchAdrian de Wynter. 12834-12854 [doi]

Dual Debiasing for Noisy In-Context Learning for Text GenerationSiqi Liang 0001, Sumyeong Ahn, Paramveer Dhillon, Jiayu Zhou. 12855-12868 [doi]

DRS: Deep Question Reformulation With Structured OutputZhecheng Li, Yiwei Wang, Bryan Hooi, Yujun Cai, Nanyun Peng 0001, Kaiwei Chang. 12869-12882 [doi]

Towards Explainable Hate Speech DetectionHappy Khairunnisa Sariyanto, Diclehan Ulucan, Oguzhan Ulucan, Marc Ebner. 12883-12893 [doi]

BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical DomainYunsoo Kim, Yusuf Abdulle, Honghan Wu. 12894-12908 [doi]

PipeSpec: Breaking Stage Dependencies in Hierarchical LLM DecodingBradley McDanel, Sai Qian Zhang, Yunhai Hu, Zining Liu. 12909-12920 [doi]

LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory FeedbackThai Quoc Hoang, Kung-Hsiang Huang, Shirley Kokane, Jianguo Zhang, Zuxin Liu, Ming Zhu, Jake Grigsby, Tian Lan, Michael S. Ryoo, Chien-Sheng Wu, Shelby Heinecke, Huan Wang 0014, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles. 12921-12934 [doi]

Rank, Chunk and Expand: Lineage-Oriented Reasoning for Taxonomy ExpansionSahil Mishra, Kumar Arjun, Tanmoy Chakraborty 0002. 12935-12953 [doi]

Probing Subphonemes in Morphology ModelsGal Astrach, Yuval Pinter. 12954-12961 [doi]

Exploiting Instruction-Following Retrievers for Malicious Information RetrievalParishad BehnamGhader, Nicholas Meade, Siva Reddy. 12962-12980 [doi]

Improving Causal Interventions in Amnesic Probing with Mean Projection or LEACEAlicja Dobrzeniecka, Antske Fokkens, Pia Sommerauer. 12981-12993 [doi]

The Threat of PROMPTS in Large Language Models: A System and User Prompt PerspectiveZixuan Xia, Haifeng Sun 0001, Jingyu Wang 0001, Qi Qi 0001, Huazheng Wang, Xiaoyuan Fu, Jianxin Liao. 12994-13035 [doi]

RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference OptimizationTianci Liu 0003, Haoxiang Jiang, TianZe Wang, Ran Xu, Yue Yu, Linjun Zhang, Tuo Zhao, Haoyu Wang. 13036-13054 [doi]

Instruction-Tuning LLMs for Event Extraction with Annotation GuidelinesSaurabh Srivastava, Sweta Pati, Ziyu Yao 0002. 13055-13071 [doi]

mRAKL: Multilingual Retrieval-Augmented Knowledge Graph Construction for Low-Resourced LanguagesHellina Hailu Nigatu, Min Li, Maartje ter Hoeve, Saloni Potdar, Sarah E. Chasins. 13072-13089 [doi]

Mechanistic Interpretability of Emotion Inference in Large Language ModelsAla N. Tak, Amin Banayeeanzade, Anahita Bolourani, Mina Kian, Robin Jia, Jonathan Gratch. 13090-13120 [doi]

RL-Guider: Leveraging Historical Decisions and Feedback for Drug Editing with Large Language ModelsXufeng Liu, Yixuan Ding, Jingxiang Qu, Yichi Zhang, Wenhan Gao, Yi Liu. 13121-13138 [doi]

BriefMe: A Legal NLP Benchmark for Assisting with Legal BriefsJesse Woo, Fateme Hashemi Chaleshtori, Ana Marasovic, Kenneth Marino. 13139-13190 [doi]

I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal DialogueEsam Ghaleb, Bulat Khaertdinov, Asli Özyürek, Raquel Fernández. 13191-13206 [doi]

World Knowledge Resolves Some Aspectual AmbiguityKatarzyna Prus, Mark Steedman, Adam Lopez. 13207-13220 [doi]

ACCESS DENIED INC: The First Benchmark Environment for Sensitivity AwarenessDren Fazlija, Arkadij Orlov, Sandipan Sikdar. 13221-13240 [doi]

Spatial Coordinates as a Cell Language: A Multi-Sentence Framework for Imaging Mass Cytometry AnalysisChi-Jane Chen, Yuhang Chen, Sukwon Yun, Natalie Stanley, Tianlong Chen 0001. 13241-13252 [doi]

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation TaskZhaojian Yu, Yilun Zhao 0001, Arman Cohan, Xiaoping Zhang. 13253-13279 [doi]

TCSinger 2: Customizable Multilingual Zero-shot Singing Voice SynthesisYu Zhang, Wenxiang Guo, Changhao Pan, Dongyu Yao, Zhiyuan Zhu, Ziyue Jiang 0001, Yuhan Wang, Tao Jin 0004, Zhou Zhao 0001. 13280-13294 [doi]

Compute Optimal Scaling of Skills: Knowledge vs ReasoningNicholas Roberts, Niladri S. Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes. 13295-13316 [doi]

PECAN: LLM-Guided Dynamic Progress Control with Attention-Guided Hierarchical Weighted Graph for Long-Document QAXinyu Wang, Yanzheng Xiang, Lin Gui 0003, Yulan He 0001. 13317-13335 [doi]

Lifelong Model Editing with Graph-Based External MemoryYash Kumar Atri, Ahmed M. Alaa, Thomas Hartvigsen. 13336-13352 [doi]

Multi-Sense Embeddings for Language Models and Knowledge DistillationQitong Wang 0004, Mohammed J. Zaki, Georgios Kollias, Vasileios Kalantzis. 13353-13369 [doi]

CodeScientist: End-to-End Semi-Automated Scientific Discovery with Code-based ExperimentationPeter Jansen 0001, Oyvind Tafjord, Marissa Radensky, Pao Siangliulue, Tom Hope, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Daniel S. Weld, Peter Clark. 13370-13467 [doi]

Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text GenerationChris Samarinas, Alexander Krubner, Alireza Salemi, YoungWoo Kim, Hamed Zamani. 13468-13482 [doi]

Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?Jacob Nielsen, Peter Schneider-Kamp, Lukas Galke. 13483-13493 [doi]

When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media TextHillary Dawkins, Kathleen C. Fraser, Svetlana Kiritchenko. 13494-13527 [doi]

Not quite Sherlock Holmes: Language model predictions do not reliably differentiate impossible from improbable eventsJames A. Michaelov, Reeka Estacio, Zhien Zhang, Ben Bergen 0001. 13528-13551 [doi]

The Rotary Position Embedding May Cause Dimension Inefficiency in Attention Heads for Long-Distance RetrievalTing-Rui Chiang, Dani Yogatama. 13552-13562 [doi]

IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and AbductionKaiyu He, Mian Zhang, Shuo Yan, Peilin Wu, ZhiYu Chen. 13563-13597 [doi]

EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity StatesHainiu Xu, Siya Qi, Jiazheng Li 0002, Yuxiang Zhou, Jinhua Du, Caroline Catmur, Yulan He 0001. 13598-13622 [doi]

ReasonerRank: Redefining Language Model Evaluation with Ground-Truth-Free Ranking FrameworksJiamu Zhang, Jiayi Yuan, Andrew Wen, Hoang Anh Duy Le, Yu-Neng Chuang, Soo Hyun Choi, Rui Chen 0012, Xia Hu. 13623-13639 [doi]

HyGenar: An LLM-Driven Hybrid Genetic Algorithm for Few-Shot Grammar GenerationWeizhi Tang, Yixuan Li 0003, Chris Sypherd, Elizabeth Polgreen, Vaishak Belle. 13640-13665 [doi]

Can Large Language Models Understand Argument Schemes?Elfia Bezou-Vrakatseli, Oana Cocarascu, Sanjay Modgil. 13666-13681 [doi]

MMInA: Benchmarking Multihop Multimodal Internet AgentsShulin Tian, Ziniu Zhang, Liangyu Chen 0005, Ziwei Liu 0002. 13682-13697 [doi]

ThinkGuard: Deliberative Slow Thinking Leads to Cautious GuardrailsXiaofei Wen, Wenxuan Zhou, Wenjie Jacky Mo, Muhao Chen 0001. 13698-13713 [doi]

Neutralizing Bias in LLM Reasoning using Entailment GraphsLiang Cheng, Tianyi Li, Zhaowei Wang 0003, Tianyang Liu, Mark Steedman. 13714-13730 [doi]

Dynamic Steering With Episodic Memory For Large Language ModelsVan Dai Do, Quan Hung Tran, Svetha Venkatesh, Hung Le 0002. 13731-13749 [doi]

Eeyore: Realistic Depression Simulation via Expert-in-the-Loop Supervised and Preference OptimizationSiyang Liu 0003, Bianca Brie, Wenda Li, Laura Biester, Andrew Lee 0001, James W. Pennebaker, Rada Mihalcea. 13750-13770 [doi]

Lost in Translation: Benchmarking Commercial Machine Translation Models for Dyslexic-Style TextGregory Price, Shaomei Wu. 13771-13782 [doi]

Divide-Verify-Refine: Can LLMs Self-align with Complex Instructions?Xianren Zhang, Xianfeng Tang, Hui Liu, Zongyu Wu 0001, Qi He 0002, Dongwon Lee 0001, Suhang Wang. 13783-13800 [doi]

LlamaPIE: Proactive In-Ear Conversation AssistantsTuochao Chen, Nicholas Scott Batchelder, Alisa Liu, Noah A. Smith, Shyamnath Gollakota. 13801-13824 [doi]

Task-Oriented Automatic Fact-Checking with Frame-SemanticsJacob Daniel Devasier, Akshith Reddy Putta, Rishabh Mediratta, Chengkai Li 0001. 13825-13842 [doi]

Craw4LLM: Efficient Web Crawling for LLM PretrainingShi Yu 0001, Zhiyuan Liu 0001, Chenyan Xiong. 13843-13851 [doi]

Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing PrivacyZhenyuan Guo, Yi Shi, Wenlong Meng, Chen Gong, Chengkun Wei, Wenzhi Chen. 13852-13871 [doi]

Understand User Opinions of Large Language Models via LLM-Powered In-the-Moment User Experience InterviewsMengqiao Liu, Tevin Wang, Cassandra A. Cohen, Sarah Li, Chenyan Xiong. 13872-13893 [doi]

HiCOT: Improving Neural Topic Models via Optimal Transport and Contrastive LearningHoang Tran Vuong, Tue Le, Tu Vu, Tung Nguyen, Linh Ngo Van 0001, Sang Dinh, Thien Huu Nguyen. 13894-13920 [doi]

FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial TradingGuojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E. Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie. 13921-13934 [doi]

The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation SystemsHongru Song, Yu-An Liu 0028, Ruqing Zhang 0001, Jiafeng Guo, Jianming Lv, Maarten de Rijke, Xueqi Cheng. 13935-13952 [doi]

CROSSAGENTIE: Cross-Type and Cross-Task Multi-Agent LLM Collaboration for Zero-Shot Information ExtractionMeng Lu, Yuzhang Xie, Zhenyu Bi, Shuxiang Cao, Xuan Wang. 13953-13977 [doi]

Decoupling Memories, Muting Neurons: Towards Practical Machine Unlearning for Large Language ModelsLishuai Hou, Zixiong Wang, Gaoyang Liu, Chen Wang, Wei Liu, Kai Peng 0001. 13978-13999 [doi]

Assimilation and Accommodation: Task-Adaptive Hierarchical Abstraction for Solving Web TasksXinyu Pang, Ruixin Hong, Hongming Zhang 0009, Changshui Zhang. 14000-14014 [doi]

SafeLawBench: Towards Safe Alignment of Large Language ModelsChuxue Cao, Han Zhu, Jiaming Ji, Qichao Sun, Zhenghao Zhu, Yinyu Wu, Josef Dai, Yaodong Yang 0001, Sirui Han, Yike Guo. 14015-14048 [doi]

3DM: Distill, Dynamic Drop, and Merge for Debiasing Multi-modal Large Language ModelsZhaoxi Zhang, Sanwoo Lee, Zhixiang Wang, Yunfang Wu. 14049-14059 [doi]

CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy AbstentionYuXi Sun, Aoqi Zuo, Wei Gao 0001, Jing Ma 0004. 14060-14076 [doi]

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM EraKanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen. 14077-14094 [doi]

LLM-Empowered Class Imbalanced Graph Prompt Learning for Online Drug Trafficking DetectionTianyi Ma, Yiyue Qian, Zehong Wang, Zheyuan Zhang, Chuxu Zhang, Yanfang Ye 0001. 14095-14114 [doi]

CoLA: Collaborative Low-Rank AdaptationYiyun Zhou, Chang Yao, Jingyuan Chen. 14115-14130 [doi]

GLiM: Integrating Graph Transformer and LLM for Document-Level Biomedical Relation Extraction with Incomplete LabelingHao Fang, Yuejie Zhang, Rui Feng 0001, Yingwen Wang, Qing Wang, Wen He, Xiaobo Zhang, Tao Zhang 0022, Shang Gao 0003. 14131-14146 [doi]

AnalyticKWS: Towards Exemplar-Free Analytic Class Incremental Learning for Small-footprint Keyword SpottingYang Xiao, Tianyi Peng, Rohan Kumar Das, Yuchen Hu, Huiping Zhuang. 14147-14158 [doi]

Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent InteractionsTaedong Yun, Eric Yang, Mustafa Safdari, Jong Ha Lee, Vaishnavi Vinod Kumar, S. Sara Mahdavi, Jonathan Amar, Derek Peyton, Reut Aharony, Andreas Michaelides, Logan Douglas Schneider, Isaac R. Galatzer-Levy, Yugang Jia, John Canny, Arthur Gretton, Maja J. Mataric. 14159-14181 [doi]

Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language ModelsSuho Yoo, Hyunjong Ok, Jaeho Lee. 14182-14193 [doi]

SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine UnlearningJunKai Chen, Zhijie Deng, Kening Zheng, Yibo Yan, Shuliang Liu, Peijun Wu, Peijie Jiang, Jia Liu, Xuming Hu. 14194-14224 [doi]

Prediction-Augmented Generation for Automatic Diagnosis TasksChan-Yang Ju, Dong-Ho Lee. 14225-14246 [doi]

FedLEKE: Federated Locate-then-Edit Knowledge Editing for Multi-Client CollaborationZongkai Zhao, Guozeng Xu, Xiuhua Li, Kaiwen Wei, Jiang Zhong. 14247-14258 [doi]

DiSCo: Device-Server Collaborative LLM-based Text Streaming ServicesTing Sun, Penghan Wang, Fan Lai. 14259-14277 [doi]

Customizing In-context Learning for Dynamic Interest Adaption in LLM-based RecommendationKeqin Bao, Ming Yan, Yang Zhang, Jizhi Zhang, Wenjie Wang 0007, Fuli Feng, Xiangnan He 0001. 14278-14291 [doi]

Robust Data Watermarking in Language Models by Injecting Fictitious KnowledgeXinyue Cui, Johnny Tian-Zheng Wei, Swabha Swayamdipta, Robin Jia. 14292-14306 [doi]

LLM-Enhanced Query Generation and Retrieval Preservation for Task-Oriented DialogueJiale Chen, Xuelian Dong, Wenxiu Xie, Ru Peng, Kun Zeng, Tianyong Hao. 14307-14321 [doi]

ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill EquationsQuang-Hieu Pham, Thuy Duong Nguyen, Tung Pham, Anh Tuan Luu, Dat Quoc Nguyen. 14322-14329 [doi]

Low-Entropy Watermark Detection via Bayes' Rule Derived DetectorBeining Huang, Du Su, Fei Sun 0001, Qi Cao, Huawei Shen, Xueqi Cheng. 14330-14344 [doi]

CoD, Towards an Interpretable Medical Agent using Chain of DiagnosisJunying Chen, Chi Gui, Anningzhe Gao, Ke-ji, Xidong Wang, Xiang Wan, Benyou Wang. 14345-14368 [doi]

DaNet: Dual-Aware Enhanced Alignment Network for Multimodal Aspect-Based Sentiment AnalysisAoqiang Zhu, Min Hu, Xiaohua Wang 0002, Jiaoyun Yang, Yiming Tang 0001, Ning An 0001. 14369-14381 [doi]

Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and FindingsShujian Yang, Shiyao Cui, Chuanrui Hu, Haicheng Wang, Tianwei Zhang 0004, Minlie Huang, Jialiang Lu, Han Qiu 0001. 14382-14396 [doi]

LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative RepresentationsYile Wang, Zhanyu Shen, Hui Huang. 14397-14409 [doi]

Ranked Voting based Self-Consistency of Large Language ModelsWeiqin Wang, Yile Wang, Hui Huang. 14410-14426 [doi]

SemanticCamo: Jailbreaking Large Language Models through Semantic CamouflageJihui Yan, Xiaocui Yang, Daling Wang, Shi Feng 0001, Yifei Zhang 0003, Yinzhi Zhao. 14427-14452 [doi]

Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight DecompositionYoonjun Cho, Soeun Kim, Dongjae Jeon, Kyelim Lee, Beomsoo Lee, Albert No. 14453-14470 [doi]

Better Process Supervision with Bi-directional Rewarding SignalsWenxiang Chen, Wei He, Zhiheng Xi, Honglin Guo, Boyang Hong, Jiazheng Zhang, Nijun Li, Tao Gui, Yun Li, Qi Zhang, Xuanjing Huang 0001. 14471-14485 [doi]

KnowCoder-X: Boosting Multilingual Information Extraction via CodeYuxin Zuo, Wenxuan Jiang, Wenxuan Liu, Zixuan Li 0001, Long Bai 0002, Hanbin Wang, Yutao Zeng, Xiaolong Jin 0001, Jiafeng Guo, Xueqi Cheng. 14486-14509 [doi]

MEIT: Multimodal Electrocardiogram Instruction Tuning on Large Language Models for Report GenerationZhongwei Wan, Che Liu, Xin Wang, Chaofan Tao, Hui Shen, Jing Xiong, Rossella Arcucci, Huaxiu Yao, Mi Zhang 0002. 14510-14527 [doi]

Harnessing Large Language Models for Disaster Management: A SurveyZhenyu Lei 0004, Yushun Dong, Weiyu Li, Rong Ding, Qi R. Wang, Jundong Li. 14528-14551 [doi]

Towards Medical Complex Reasoning with LLMs through Medical Verifiable ProblemsJunying Chen, Zhenyang Cai, Ke-ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Benyou Wang. 14552-14573 [doi]

Monitoring Decoding: Mitigating Hallucination via Evaluating the Factuality of Partial Response during GenerationYurui Chang, Bochuan Cao, Lu Lin 0001. 14574-14587 [doi]

LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language FeedbackBofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Dayiheng Liu, Chang Zhou, Wen Xiao, Tianyu Liu, Baobao Chang. 14588-14604 [doi]

EvoBench: Towards Real-world LLM-Generated Text Detection Benchmarking for Evolving Large Language ModelsXiao Yu, Yi Yu, Dongrui Liu, Kejiang Chen, Weiming Zhang 0001, Nenghai Yu, Jing Shao. 14605-14620 [doi]

MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific ProblemsXinwu Ye, Chengfan Li, Siming Chen, Wei Wei, Robert Tang. 14621-14663 [doi]

Lightweight Query Checkpoint: Classifying Faulty User Queries to Mitigate Hallucinations in Large Language Model Question AnsweringMinjoo Son, Jonghak Jang, Misuk Kim. 14664-14677 [doi]

Exploring LLM Annotation for Adaptation of Clinical Information Extraction Models under Data-sharing RestrictionsSeiji Shimizu, Shohei Hisada, Yutaka Uno, Shuntaro Yada, Shoko Wakamiya, Eiji Aramaki. 14678-14694 [doi]

Enhancing the Comprehensibility of Text Explanations via Unsupervised Concept DiscoveryYifan Sun, Danding Wang, Qiang Sheng 0001, Juan Cao 0001, Jintao Li 0001. 14695-14713 [doi]

RecordTwin: Towards Creating Safe Synthetic Clinical CorporaSeiji Shimizu, Ibrahim Baroud, Lisa Raithel, Shuntaro Yada, Shoko Wakamiya, Eiji Aramaki. 14714-14726 [doi]

Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMsShiyu Xiang, Ansen Zhang, Yanfei Cao, Fan Yang, Ronghao Chen. 14727-14742 [doi]

Multimodal Invariant Sentiment Representation LearningAoqiang Zhu, Min Hu, Xiaohua Wang, Jiaoyun Yang, Yiming Tang 0001, Ning An 0001. 14743-14755 [doi]

ChuLo: Chunk-Level Key Information Representation for Long Document UnderstandingYan Li, Caren Han, Yue Dai 0006, Feiqi Cao. 14756-14773 [doi]

REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary SpaceTomer Ashuach, Martin Tutek, Yonatan Belinkov. 14774-14797 [doi]

Is External Information Useful for Stance Detection with LLMs?Quang Minh Nguyen, Taegyoon Kim. 14798-14807 [doi]

Benchmarking Query-Conditioned Natural Language InferenceMarc E. Canby, Xinchi Chen, Xing Niu, Jifan Chen, Bonan Min, Sergül Aydöre, Vittorio Castelli. 14808-14835 [doi]

Flowchart-Based Decision Making with Large Language ModelsYuuki Yamanaka, Hiroshi Takahashi, Tomoya Yamashita. 14836-14842 [doi]

NarGINA: Towards Accurate and Interpretable Children's Narrative Ability Assessment via Narrative GraphsJun-zhong, Longwei Xu, Li Kong, Xianzhuo Li, Dandan Liang, Junsheng Zhou. 14843-14860 [doi]

Improving Efficiency in Large Language Models via Extendable Block Floating Point RepresentationDongyang Li, Zeyang Li, Bosheng Liu, Jigang Wu. 14861-14873 [doi]

EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive DecodingMingxu Tao, Jie Hu, Mingchuan Yang, Yunhuai Liu, Dongyan Zhao 0001, Yansong Feng 0002. 14874-14885 [doi]

NativQA: Multilingual Culturally-Aligned Natural Query for LLMsMd. Arid Hasan, Maram Hasanain, Fatema Ahmad, Sahinur Rahman Laskar, Sunaya Upadhyay, Vrunda N. Sukhadia, Mucahid Kutlu, Shammur Absar Chowdhury, Firoj Alam. 14886-14909 [doi]

DoCIA: An Online Document-Level Context Incorporation Agent for Speech TranslationXinglin Lyu, Wei Tang 0013, Yuang Li, Xiaofeng Zhao, Ming Zhu 0010, Junhui Li, Yunfei Lu, Min Zhang 0042, Daimeng Wei, Hao Yang. 14910-14924 [doi]

RISE: Reasoning Enhancement via Iterative Self-Exploration in Multi-hop Question AnsweringBolei He, Xinran He, MengKe Chen, Xianwei Xue, Ying Zhu, Zhen-Hua Ling. 14925-14948 [doi]

VADE: Visual Attention Guided Hallucination Detection and EliminationVishnu Prabhakaran, Purav Aggarwal, Vinay Kumar Verma, Gokul Swamy, Anoop Saladi. 14949-14965 [doi]

PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference OptimizationZouying Cao, Runze Wang, Yifei Yang, Xinbei Ma, Xiaoyong Zhu, Bo Zheng, Hai Zhao 0001. 14966-14985 [doi]

The Effectiveness of Uncased Tokeniziaion for Clinical NotesCory Paik, Katharina von der Wense. 14986-14992 [doi]

AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM InferenceJanghwan Lee, Jiwoong Park, Jinseok Kim, Yongjik Kim, Jungju Oh, Jinwook Oh, Jungwook Choi. 14993-15013 [doi]

Improving Continual Pre-training Through Seamless Data PackingRuicheng Yin, Xuan Gao, Changze Lv, Xiaohua Wang, Xiaoqing Zheng, Xuanjing Huang 0001. 15014-15032 [doi]

The Impact of Name Age Perception on Job Recommendations in LLMsMahammed Kamruzzaman, Gene Louis Kim. 15033-15058 [doi]

DAPI: Domain Adaptive Toxicity Probe Vector Intervention, for Fine-Grained DetoxificationCho Hyeonsu, Dooyoung Kim, Youngjoong Ko. 15059-15069 [doi]

Task Knowledge Injection via Interpolations and Reinstatement for Large Language Model GeneralizationYukun Zhao, Lingyong Yan, Zhenyang Li, Shuaiqiang Wang, Zhumin Chen, Zhaochun Ren, Dawei Yin. 15070-15080 [doi]

STARS: A Unified Framework for Singing Transcription, Alignment, and Refined Style AnnotationWenxiang Guo, Yu Zhang 0126, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, ZheTao Chen, Wenhao Xu, Fei Wu 0001, Zhou Zhao 0001. 15081-15093 [doi]

Unveiling the Key Factors for Distilling Chain-of-Thought ReasoningXinghao Chen 0009, Zhijing Sun, Wenjin Guo, Miaoran Zhang, Yanjun Chen 0001, Yirong Sun, Hui Su, Yijie Pan, Dietrich Klakow, Wenjie Li 0002, Xiaoyu Shen 0001. 15094-15119 [doi]

INT: Establishing Information Transfer for Multilingual Intent Detection and Slot FillingDi Wu, Liting Jiang, Bohui Mao, Hongyan Xie, Haoxiang Su, Zhongjiang He, Ruiyu Fang, Shuangyong Song, Hao Huang, Xuelong Li 0001. 15120-15142 [doi]

Enhancing LLM Agent Safety via Causal Influence PromptingDongyoon Hahm, Woogyeol Jin, June Suk Choi, Sungsoo Ahn, Kimin Lee. 15143-15168 [doi]

Position Paper: MeMo: Towards Language Models with Associative Memory MechanismsFabio Massimo Zanzotto, Elena Sofia Ruzzetti, Giancarlo A. Xompero, Leonardo Ranaldi, Davide Venditti, Federico Ranaldi, Cristina Giannone, Andrea Favalli, Raniero Romagnoli. 15169-15180 [doi]

DeRAGEC: Denoising Named Entity Candidates with Synthetic Rationale for ASR Error CorrectionSolee Im, Wonjun Lee, Jinmyeong An, Yunsu Kim 0001, Jungseul Ok, Gary Geunbae Lee. 15181-15193 [doi]

Rehearse With User: Personalized Opinion Summarization via Role-Playing based on Large Language ModelsYanyue Zhang, Yulan He 0001, Deyu Zhou. 15194-15211 [doi]

AdParaphrase v2.0: Generating Attractive Ad Texts Using a Preference-Annotated Paraphrase DatasetSoichiro Murakami, Peinan Zhang, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura. 15212-15230 [doi]

Beyond the Average Reader: the Reader Embedding ApproachCalogero Jerik Scozzaro, Matteo Delsanto, Daniele Paolo Radicioni. 15231-15244 [doi]

PredictaBoard: Benchmarking LLM Score PredictabilityLorenzo Pacchiardi, Konstantinos Voudouris, Ben Slater, Fernando Martínez-Plumed, José Hernández-Orallo, Lexin Zhou, Wout Schellaert. 15245-15266 [doi]

FedDQC: Data Quality Control in Federated Instruction-tuning of Large Language ModelsYaxin Du, Rui Ye, Fengting Yuchi, Wanru Zhao, Jingjing Qu, Yanfeng Wang, Siheng Chen. 15267-15291 [doi]

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust LearningBo Yuan, Yulin Chen, Yin Zhang. 15292-15311 [doi]

"I understand your perspective": LLM Persuasion through the Lens of Communicative Action TheoryEsra Dönmez, Agnieszka Falenska. 15312-15327 [doi]

Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean SuperstitionKyuhee Kim, Sangah Lee. 15328-15342 [doi]

Let's Be Self-generated via Step by Step: A Curriculum Learning Approach to Automated Reasoning with Large Language ModelsKangyang Luo, Zichen Ding 0002, Zhenmin Weng, Lingfeng Qiao, Meng Zhao, Xiang Li, Di Yin, Jinlong Shu. 15343-15420 [doi]

daDPO: Distribution-Aware DPO for Distilling Conversational AbilitiesZhengze Zhang, Shiqi Wang 0003, Yiqun Shen, Simin Guo, Dahua Lin, Xiaoliang Wang 0001, Cam-Tu Nguyen, Fei Tan. 15421-15437 [doi]

Consultant Decoding: Yet Another Synergistic MechanismChuanghao Ding, Jiaping Wang, Ziqing Yang 0006, Xiaoliang Wang 0001, Dahua Lin, Nguyen Cam-Tu, Fei Tan. 15438-15452 [doi]

IntelliCockpitBench: A Comprehensive Benchmark to Evaluate VLMs for Intelligent CockpitLiang Lin, Siyuan Chai, Jiahao Wu, Hongbing Hu, Xiaotao Gu, Hao Hu, Fan Zhang, Wei Wang, Dan Zhang. 15453-15475 [doi]

Analyzing Political Bias in LLMs via Target-Oriented Sentiment ClassificationAkram Elbouanani, Evan Dufraisse, Adrian Popescu 0001. 15476-15505 [doi]

PISCO: Pretty Simple Compression for Retrieval-Augmented GenerationMaxime Louis, Hervé Déjean, Stéphane Clinchant. 15506-15521 [doi]

AnchorCoT: Anchors Pave the Way for Multi-hop ReasoningTianshi Ming, Xian Wu 0001, Yingying Zhang, Zichuan Fu, Dawei Cheng. 15522-15536 [doi]

Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?Zichen Wen, Yifeng Gao, Weijia Li, Conghui He, Linfeng Zhang 0001. 15537-15549 [doi]

Federated Data-Efficient Instruction Tuning for Large Language ModelsZhen Qin 0004, Zhaomin Wu, Bingsheng He, ShuiGuang Deng. 15550-15568 [doi]

They want to pretend not to understand: The Limits of Current LLMs in Interpreting Implicit Content of Political DiscourseWalter Paci, Alessandro Panunzi, Sandro Pezzelle. 15569-15593 [doi]

ZeroNER: Fueling Zero-Shot Named Entity Recognition via Entity Type DescriptionsAlessio Cocchieri, Marcos Martínez Galindo, Giacomo Frisoni, Gianluca Moro, Claudio Sartori 0001, Giuseppe Tagliavini. 15594-15616 [doi]

Do Large Language Models Have "Emotion Neurons"? Investigating the Existence and RoleJaewook Lee 0010, Woojin Lee, Oh-Woog Kwon, Harksoo Kim. 15617-15639 [doi]

Grammar-Based Code Representation: Is It a Worthy Pursuit for LLMs?Qingyuan Liang, Zhao Zhang, Zeyu Sun 0004, Zheng Lin, Qi Luo, Yueyi Xiao, Yizhou Chen, Yuqun Zhang, Haotian Zhang, Lu Zhang, Chenbin Chenbin, Yingfei Xiong 0001. 15640-15653 [doi]

Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary StudyYujie Lin, Ante Wang, Moye Chen, Jingyao Liu, Hao Liu, Jinsong Su, Xinyan Xiao. 15654-15667 [doi]

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction SynthesisXinyi Liu, Xiaoyi Zhang, Ziyun Zhang, Yan Lu. 15668-15684 [doi]

A Study into Investigating Temporal Robustness of LLMsJonas Wallat, Abdelrahman Abdallah, Adam Jatowt, Avishek Anand. 15685-15705 [doi]

ToolExpNet: Optimizing Multi-Tool Selection in LLMs with Similarity and Dependency-Aware Experience NetworksZijing Zhang, Zhanpeng Chen, He Zhu, Ziyang Chen, Nan Du, Xiaolong Li. 15706-15722 [doi]

SPILL: Domain-Adaptive Intent Clustering based on Selection and Pooling with Large Language ModelsI-Fan Lin, Faegheh Hasibi, Suzan Verberne. 15723-15737 [doi]

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain SimulationRui Li 0094, Heming Xia, Xinfeng Yuan, Qingxiu Dong, Lei Sha, Wenjie Li 0002, Zhifang Sui. 15738-15763 [doi]

GRI-QA: a Comprehensive Benchmark for Table Question Answering over Environmental DataMichele Luca Contalbo, Sara Pederzoli, Francesco Del Buono, Venturelli Valeria, Francesco Guerra 0001, Matteo Paganelli. 15764-15779 [doi]

WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-CodeZhiyu Lin, Zhengda Zhou, Zhiyuan Zhao 0005, Tianrui Wan, Yilun Ma, Junyu Gao 0001, Xuelong Li 0001. 15780-15797 [doi]

Optimizing Multi-Hop Document Retrieval Through Intermediate RepresentationsLinjiaen Linjiaen, Jingyu Liu, Yingbo Liu. 15798-15809 [doi]

Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual EnvironmentsPatomporn Payoungkhamdee, Pume Tuchinda, Jinheon Baek, Samuel Cahyawijaya, Can Udomcharoenchaikit, Potsawee Manakul, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Sarana Nutanong. 15810-15828 [doi]

A Fully Automated Pipeline for Conversational Discourse Annotation: Tree Scheme Generation and Labeling with Large Language ModelsKseniia Petukhova, Ekaterina Kochmar. 15829-15852 [doi]

Can Language Models Serve as Analogy Annotators?Xiaojing Zhang, Bochen Lyu. 15853-15883 [doi]

Reward Generalization in RLHF: A Topological PerspectiveTianyi Alex Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang. 15884-15930 [doi]

Enhanced Data Synthesis for LLM through Reasoning Structures Generated by Hierarchical GFlowNetTianpeng Bu, Minying Zhang, Hongtao Duan 0003, Shurui Li, Lulu Hu, Yu Li. 15931-15958 [doi]

Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language ModelsYanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou 0001, Zhenghua Li, Xuming Hu. 15959-15973 [doi]

Token-level Preference Self-Alignment Optimization for Multi-style Outline Controllable GenerationZihao Li 0005, Xuekong Xu, Ziyao Chen, Lixin Zou, Ethanhjwu Ethanhjwu, Qiang Chen, Chenliang Li. 15974-16007 [doi]

HatePRISM: Policies, Platforms, and Research Integration. Advancing NLP for Hate Speech Proactive MitigationNaquee Rizwan, Seid Muhie Yimam, Daryna Dementieva, Florian Skupin, Tim Fischer 0002, Daniil Moskovskiy, Aarushi Ajay Borkar, Robert Geislinger, Punyajoy Saha, Sarthak Roy, Martin Semmann, Alexander Panchenko, Chris Biemann, Animesh Mukherjee 0001. 16008-16022 [doi]

Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem ProvingSara Rajaee, Kumar Pratik, Gabriele Cesa, Arash Behboodi. 16023-16040 [doi]

Generalizable Cross-Lingual Cognitive Distortion Detection with Standardized Annotations and Multi-Task LearningHongzhi Qi, Nan Bai, JianQiang Li, Wei Zhai, Qing Zhao, Qi Gao, Bing Xiang Yang, Guanghui Fu. 16041-16051 [doi]

How Do Multilingual Language Models Remember Facts?Constanza Fierro, Negar Foroutan, Desmond Elliott, Anders Søgaard. 16052-16106 [doi]

SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine TranslationTing Xu, Zhichao Huang, Jiankai Sun, Shanbo Cheng, Wai Lam. 16107-16123 [doi]

Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese FolktalesAyuto Tsutsumi, Yuu Jinnai. 16124-16146 [doi]

BOSE: A Systematic Evaluation Method Optimized for Base ModelsHongzhi Luan, Changxin Tian, Zhaoxin Huan, Xiaolu Zhang, Kunlong Chen, Zhiqiang Zhang, Jun Zhou. 16147-16158 [doi]

DPGA-TextSyn: Differentially Private Genetic Algorithm for Synthetic Text GenerationZhonghao Sun, Zhiliang Tian, Yiping Song, Yuyi Si, Juhua Zhang, Minlie Huang, Kai Lu, Zeyu Xiong, Xinwang Liu 0002, Dongsheng Li 0001. 16159-16179 [doi]

Semantic Aware Linear Transfer by Recycling Pre-trained Language Models for Cross-lingual TransferSeungyoon Lee, Seongtae Hong, Hyeonseok Moon, HeuiSeok Lim. 16180-16193 [doi]

Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code GenerationKounianhua Du, Hanjing Wang, Jianxing Liu, Jizheng Chen, Xinyi Dai, Yasheng Wang, Ruiming Tang, Yong Yu, Jun Wang, Weinan Zhang 0001. 16194-16204 [doi]

On the Consistency of Commonsense in Large Language ModelsGuozheng Li, Peng Wang 0004, Wenjun Ke, Zijie Xu 0003, Jiajun Liu, Ziyu Shang. 16205-16225 [doi]

Statement-Tuning Enables Efficient Cross-lingual Generalization in Encoder-only ModelsAhmed Elshabrawy, Thanh-Nhi Nguyen, Yeeun Kang, Lihan Feng, Annant Jain, Faadil Abdullah Shaikh, Jonibek Mansurov, Mohamed Fazli Mohamed Imam, Jesús-Germán Ortiz-Barajas, Rendi Chevi, Alham Fikri Aji. 16226-16248 [doi]

Evaluating Large Language Models for Confidence-based Check Set SelectionJane Arleth Dela Cruz, Iris Hendrickx, Martha A. Larson. 16249-16265 [doi]

Training Multi-Modal LLMs through Dialogue Planning for HRIClaudiu Daniel Hromei, Federico Borazio, Andrea Sensi, Elisa Passone, Danilo Croce, Roberto Basili 0001. 16266-16284 [doi]

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical MatchingFabian David Schmidt, Florian Schneider 0001, Chris Biemann, Goran Glavas. 16285-16312 [doi]

The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue AgentsYihong Tang, Kehai Chen, Xuefeng Bai 0001, Zheng-Yu Niu, Bo Wang, Jie Liu, Min Zhang 0005. 16313-16337 [doi]

SynGraph: A Dynamic Graph-LLM Synthesis Framework for Sparse Streaming User Sentiment ModelingXin Zhang, Qiyu Wei, YingJie Zhu, Linhai Zhang, Deyu Zhou, Sophia Ananiadou. 16338-16356 [doi]

Enhancing Tool Learning in Large Language Models with Hierarchical Error ChecklistsYue Cui 0001, Liuyi Yao, Shuchang Tao, Weijie Shi, Yaliang Li, Bolin Ding, Xiaofang Zhou 0001. 16357-16375 [doi]

A Large and Balanced Corpus for Fine-grained Arabic Readability AssessmentKhalid N. Elmadani, Nizar Habash, Hanada Taha-Thomure. 16376-16400 [doi]

Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data?Che Liu, Zhongwei Wan, Haozhe Wang 0002, Yinda Chen, Talha Qaiser, Chen Jin, Nikolay Burlutskiy, Fariba Yousefi, Rossella Arcucci. 16401-16421 [doi]

See the World, Discover Knowledge: A Chinese Factuality Evaluation for Large Vision Language ModelsJihao Gu, Yingyao Wang, Pi Bu, Chen Wang, Ziming Wang, Tengtao Song, Donglai Wei 0004, Jiale Yuan, Yingxiu Zhao, Yancheng He, Shilong Li, Jiaheng Liu, Meng Cao, Jun Song, Yingshui Tan, Xiang Li, Wenbo Su, Xiaoyong Zhu, Bo Zheng. 16422-16447 [doi]

Argus: Benchmarking and Enhancing Vision-Language Models for 3D Radiology Report GenerationChe Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang 0002, Kangyu Zheng, Mi Zhang 0002, Rossella Arcucci. 16448-16460 [doi]

Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question AnsweringBinquan Ji, Haibo Luo, YifeiLu YifeiLu, Lei Hei, Jiaqi Wang 0011, Tingjing Liao, Lingyu Wang, Shichao Wang, Feiliang Ren. 16461-16479 [doi]

Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of SummarizationSiya Qi, Rui Cao, Yulan He 0001, Zheng Yuan. 16480-16503 [doi]

TUBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction TuningXuanli He, Jun Wang, Qiongkai Xu, Pasquale Minervini, Pontus Stenetorp, Benjamin I. P. Rubinstein, Trevor Cohn. 16504-16544 [doi]

Eliciting Textual Descriptions from Representations of Continuous PromptsDaniela Gottesman, Mor Geva, Dana Ramati. 16545-16562 [doi]

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference OptimizationYuhan Fu, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Xirong Li 0001. 16563-16577 [doi]

Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language ModelsJiangxu Wu, Cong Wang, Tianhuang Su, Jun Yang, Haozhi Lin, Chao Zhang, Ming Peng, Kai Shi, Songpan Yang, Binqing Pan, Zixian Li. 16578-16595 [doi]

Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic AnalysisHeydar Soudani, Evangelos Kanoulas, Faegheh Hasibi. 16596-16616 [doi]

EuroVerdict: A Multilingual Dataset for Verdict Generation Against MisinformationDaniel Russo 0004, Fariba Sadeghi, Stefano Menini, Marco Guerini. 16617-16634 [doi]

LoFTI: Localization and Factuality Transfer to Indian LocalesSona Elza Simon, Soumen Kumar Mondal, Abhishek Singhania, Sayambhu Sen, Preethi Jyothi. 16635-16662 [doi]

Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized DocumentsJaeyoung Choe, Jihoon Kim, Woohwan Jung. 16663-16681 [doi]

GNN-RAG: Graph Neural Retrieval for Efficient Large Language Model Reasoning on Knowledge GraphsCostas Mavromatis, George Karypis. 16682-16699 [doi]

ASTRID - An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering SystemsYajie Vera He, Mohita Chowdhury, Jared Joselowitz, Aisling Higham, Ernest Lim. 16700-16716 [doi]

On Entity Identification in Language ModelsMasaki Sakata, Benjamin Heinzerling, Sho Yokoi, Takumi Ito, Kentaro Inui. 16717-16741 [doi]

RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information DiscoveryHongchao Gu, Dexun Li, Kuicai Dong, Hao Zhang, Hang Lv 0012, Hao Wang, Defu Lian, Yong Liu, Enhong Chen. 16742-16763 [doi]

CHARPEVAL: Benchmarking Large Language Models' Contextual Reasoning in Knowledge-Grounded DialogueAbbas Ghaddar, David Alfonso-Hermelo, Philippe Langlais, Boxing Chen, Prasanna Parthasarathi. 16764-16775 [doi]

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented GenerationMohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, MohammadAli Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari. 16776-16809 [doi]

Debate4MATH: Multi-Agent Debate for Fine-Grained Reasoning in MathShaowei Zhang, Deyi Xiong. 16810-16824 [doi]

Disambiguate First, Parse Later: Generating Interpretations for Ambiguity Resolution in Semantic ParsingIrina Saparina, Mirella Lapata. 16825-16839 [doi]

The Anatomy of Evidence: An Investigation Into Explainable ICD CodingKatharina Beckh, Elisa Studeny, Sujan Sai Gannamaneni, Dario Antweiler, Stefan Rüping 0001. 16840-16851 [doi]

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual GranularityZhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su. 16852-16869 [doi]

Word Form Matters: LLMs' Semantic Reconstruction under TypoglycemiaChenxi Wang 0001, Tianle Gu, Zhongyu Wei, Lang Gao, Zirui Song, Xiuying Chen. 16870-16885 [doi]

LLM-based Translation Inference with Iterative Bilingual UnderstandingAndong Chen, Kehai Chen, Yang Xiang 0003, Xuefeng Bai 0001, Muyun Yang, Yang Feng, Tiejun Zhao, Min Zhang. 16886-16902 [doi]

Vulnerability of Text-to-Image Models to Prompt Template Stealing: A Differential Evolution ApproachYurong Wu, Fangwen Mu, Qiuhong Zhang, Jinjing Zhao, Xinrun Xu, Lingrui Mei, Yang Wu, Lin Shi, Junjie Wang, Zhiming Ding, Yiwei Wang. 16903-16916 [doi]

mStyleDistance: Multilingual Style Embeddings and their EvaluationJustin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch. 16917-16931 [doi]

SeqMMR: Sequential Model Merging and LLM Routing for Enhanced Batched Sequential Knowledge EditingShanbao Qiao, Xuebing Liu, Akshat Gupta, Seung-Hoon Na. 16932-16947 [doi]

ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-ReflectionJiaqi Li, Xinyi Dong, Yang Liu, Zhizhuo Yang, Quansen Wang, Xiaobo Wang, Song Chun Zhu, Zixia Jia, Zilong Zheng. 16948-16966 [doi]

MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question AnsweringShuo Yang, Caren Han, Siwen Luo, Eduard H. Hovy. 16967-16986 [doi]

Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language ModelsInjae Na, Keonwoong Noh, Woohwan Jung. 16987-17004 [doi]

Low-Rank Interconnected Adaptation across LayersYibo Zhong, Jinman Zhao, Yao Zhou. 17005-17029 [doi]

GaRAGe: A Benchmark with Grounding Annotations for RAG EvaluationIonut-Teodor Sorodoc, Leonardo F. R. Ribeiro, Rexhina Blloshmi, Christopher Davis, Adrià de Gispert. 17030-17049 [doi]

Change Entity-guided Heterogeneous Representation Disentangling for Change CaptioningYi Li, Yunbin Tu, Liang Li, Li Su 0003, Qingming Huang. 17050-17060 [doi]

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference AlignmentZhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen 0001, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu 0001, Jun Zhao 0001. 17061-17090 [doi]

Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-EvolutionKun Li 0003, Tianhua Zhang, Yunxiang Li, Hongyin Luo, Abdalla Mohamed Salama Sayed Moustafa, Xixin Wu, James R. Glass, Helen M. Meng. 17091-17105 [doi]

PAM: Paraphrase AMR-Centric Evaluation MetricAfonso Sousa, Henrique Lopes Cardoso. 17106-17121 [doi]

VP-MEL: Visual Prompts Guided Multimodal Entity LinkingHongze Mi, Jinyuan Li, Zhangxuying Zhangxuying, Haoran Cheng, Jiahao Wang, Di Sun 0001, Gang Pan 0002. 17122-17137 [doi]

FADE: Why Bad Descriptions Happen to Good FeaturesBruno Puri, Aakriti Jain, Elena Golimblevskaia, Patrick Kahardipraja, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin. 17138-17160 [doi]

In the LLM era, Word Sense Induction remains unsolvedAnna Mosolova, Marie Candito, Carlos Ramisch. 17161-17178 [doi]

Navigating the Political Compass: Evaluating Multilingual LLMs across Languages and NationalitiesChadi Helwe, Oana Balalau, Davide Ceolin. 17179-17204 [doi]

Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language ModelsWanqi Yang, Yanda Li, Meng Fang, Yunchao Wei, Ling Chen. 17205-17220 [doi]

Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language ModelsSibo Yi, Tianshuo Cong, Xinlei He 0001, Qi Li 0002, Jiaxing Song. 17221-17234 [doi]

EMRs2CSP : Mining Clinical Status Pathway from Electronic Medical RecordsYifei Chen, Ruihui Hou, JingPing Liu, Tong Ruan. 17235-17251 [doi]

A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and ExperiencesJiaxin Shen, Jinan Xu, Huiqi Hu, Luyi Lin, Guoyang Ma, Fei Zheng, Fandong Meng, Jie Zhou, Wenjuan Han. 17252-17274 [doi]

Libra: Leveraging Temporal Images for Biomedical Radiology AnalysisXi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho. 17275-17303 [doi]

Stereotype Detection as a Catalyst for Enhanced Bias Detection: A Multi-Task Learning ApproachAditya Tomar, V. Rudra Murthy, Pushpak Bhattacharyya. 17304-17317 [doi]

Filling the Temporal Void: Recovering Missing Publication Years in the Project Gutenberg Corpus Using LLMsOmar Momen, Manuel Schaaf, Alexander Mehler. 17318-17334 [doi]

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language ModelsMartina Miliani, Serena Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia C. Passaro, Irene Sucameli, Alessandro Lenci. 17335-17355 [doi]

Are Dialects Better Prompters? A Case Study on Arabic Subjective Text ClassificationLeila Moudjari, Farah Benamara. 17356-17371 [doi]

Natural Logic at the Core: Dynamic Rewards for Entailment Tree GenerationJihao Shi, Xiao Ding, Kai Xiong 0002, Hengwei Zhao, Bing Qin 0001, Ting Liu 0001. 17372-17382 [doi]

R.R.: Unveiling LLM Training Privacy through Recollection and RankingWenlong Meng, Guo Zhenyuan, Lenan Wu, Chen Gong, Wenyan Liu, Weixian Li, Chengkun Wei, Wenzhi Chen. 17383-17397 [doi]

Nested-Refinement Metamorphosis: Reflective Evolution for Efficient Optimization of Networking ProblemsShuhan Guo, Nan Yin, James Kwok, Quanming Yao. 17398-17429 [doi]

MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality ConsistencyJunzhe Zhang 0004, Huixuan Zhang, Xunjian Yin, Baizhou Huang, Xu Zhang, Xinyu Hu 0001, Xiaojun Wan 0001. 17430-17445 [doi]

Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language ModelsAlessio Galatolo, Zhenbang Dai, Katie Winkle, Meriem Beloucif. 17446-17461 [doi]

Metaphor and Large Language Models: When Surface Features Matter More than Deep UnderstandingElisa Sanchez-Bayona, Rodrigo Agerri. 17462-17477 [doi]

AskQE: Question Answering as Automatic Evaluation for Machine TranslationDayeon Ki, Kevin Duh, Marine Carpuat. 17478-17515 [doi]

ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text GenerationAlireza Salemi, Julian Killingback, Hamed Zamani. 17516-17532 [doi]

Bridging Intuitive Associations and Deliberate Recall: Empowering LLM Personal Assistant with Graph-Structured Long-term MemoryYujie Zhang, Weikang Yuan, Zhuoren Jiang. 17533-17547 [doi]

Each graph is a new language: Graph Learning with LLMsHuachi Zhou, Jiahe Du, Chuang Zhou 0002, Chang Yang, Yilin Xiao 0002, Yuxuan Xie, Xiao Huang 0001. 17548-17559 [doi]

100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?Van Yang, Hongye Jin, Shaochen Zhong, Song Jiang, Qifan Wang, Vipin Chaudhary, Xiaotian Han. 17560-17576 [doi]

Multimodal Fusion and Coherence Modeling for Video Topic SegmentationHai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang. 17577-17593 [doi]

Are Your LLMs Capable of Stable Reasoning?Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen. 17594-17632 [doi]

FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs OnlyHe Zhu, Yifan Ding, Yicheng Tao 0001, Zhiwen Ruan, Yixia Li, WenJia Zhang, Yun Chen, Guanhua Chen. 17633-17653 [doi]

JEBS: A Fine-grained Biomedical Lexical Simplification TaskWilliam Xia, Ishita Unde, Brian David Ondov, Dina Demner-Fushman. 17654-17666 [doi]

Multi-Hop Reasoning for Question Answering with Hyperbolic RepresentationsSimon Welz, Lucie Flek, Akbar Karimi 0001. 17667-17679 [doi]

Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report GenerationYunsoo Kim, Jinge Wu, Su Hwan Kim 0007, Pardeep Vasudev, Jiashu Shen, Honghan Wu. 17680-17694 [doi]

Hatevolution: What Static Benchmarks Don't Tell UsChiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela. 17695-17707 [doi]

Tag-Instruct: Controlled Instruction Complexity Enhancement through Structure-based AugmentationHe Zhu, Zhiwen Ruan, Junyou Su, Xingwei He 0003, Yun Chen, WenJia Zhang, Guanhua Chen. 17708-17729 [doi]

Code-SPA: Style Preference Alignment to Large Language Models for Effective and Robust Code DebuggingTengfei Wen, Xuanang Chen, Ben He, Le Sun 0001. 17730-17743 [doi]

Open-World Authorship AttributionXinhao Tan, Songhua Liu, Xia Cong, Kunjun Li, Xinchao Wang. 17744-17758 [doi]

What is in a name? Mitigating Name Bias in Text Embedding Similarity via AnonymizationSahil Manchanda, Pannaga Shivaswamy. 17759-17781 [doi]

BenNumEval: A Benchmark to Assess LLMs' Numerical Reasoning Capabilities in BengaliKawsar Ahmed, Md Osama, Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque. 17782-17799 [doi]

LLM Agents for Coordinating Multi-User Information GatheringHarsh Jhamtani, Jacob Andreas, Benjamin Van Durme. 17800-17826 [doi]

C2KD: Cross-layer and Cross-head Knowledge Distillation for Small Language Model-based RecommendationXiao Chen 0016, Changyi Ma, Wenqi Fan, Zhaoxiang Zhang 0001, Li Qing 0001. 17827-17838 [doi]

Sign2Vis: Automated Data Visualization from Sign LanguageYao Wan, Yang Wu, Zhen Li, Guobiao Zhang, Hongyu Zhang 0002, Zhou Zhao, Hai Jin 0001, April Wang. 17839-17857 [doi]

Transparentize the Internal and External Knowledge Utilization in LLMs with Trustworthy CitationJiajun Shen, Tong Zhou, Yubo Chen, Delai Qiu, Shengping Liu, Kang Liu, Jun Zhao. 17858-17877 [doi]

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and MouseMuyao Li, Zihao Wang, Kaichen He, Xiaojian Ma 0001, Yitao Liang. 17878-17899 [doi]

Generative Frame Sampler for Long Video UnderstandingLinli Yao, Haoning Wu, Kun Ouyang, Yuanxing Zhang, Caiming Xiong, Bei Chen, Xu Sun 0001, Junnan Li. 17900-17917 [doi]

Annotating the Annotators: Analysis, Insights and Modelling from an Annotation Campaign on Persuasion Techniques DetectionDavide Bassi, Dimitar Iliyanov Dimitrov, Bernardo D'Auria, Firoj Alam, Maram Hasanain, Christian Moro, Luisa Orrù, Gian Piero Turchi, Preslav Nakov, Giovanni Da San Martino. 17918-17929 [doi]

On the Generalization vs Fidelity Paradox in Knowledge DistillationSuhas Kamasetty Ramesh, Ayan Sengupta, Tanmoy Chakraborty 0002. 17930-17951 [doi]

BEDAA: Bayesian Enhanced DeBERTa for Uncertainty-Aware Authorship AttributionIqra Zahid, Youcheng Sun, Riza Batista-Navarro. 17952-17966 [doi]

Benchmarking the Benchmarks: Reproducing Climate-Related NLP TasksTom Calamai, Oana Balalau, Fabian M. Suchanek. 17967-18009 [doi]

Exploring Supervised Approaches to the Detection of Anthropomorphic Language in the Reporting of NLP VenuesMatthew Shardlow, Ashley Williams, Charlie Roadhouse, Filippos Ventirozos, Piotr Przybyla. 18010-18022 [doi]

PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI AssistantsZheng Zhao 0005, Clara Vania, Subhradeep Kayal, Naila Khan, Shay B. Cohen, Emine Yilmaz. 18023-18055 [doi]

iAgent: LLM Agent as a Shield between User and Recommender SystemsWujiang Xu, Yunxiao Shi, Zujie Liang, Xuying Ning, Kai Mei, Kun Wang, Xi Zhu, Min Xu, Yongfeng Zhang. 18056-18084 [doi]

FactLens: Benchmarking Fine-Grained Fact VerificationKushan Mitra, Dan Zhang, Sajjadur Rahman, Estevam Hruschka. 18085-18096 [doi]

Process-based Self-Rewarding Language ModelsShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong. 18097-18110 [doi]

The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification TasksBenedikt Ebing, Goran Glavas. 18111-18128 [doi]

ShieldHead: Decoding-time Safeguard for Large Language ModelsZitao Xuan, Xiaofeng Mao, Da Chen, Xin Zhang, Yuhan Dong, Jun Zhou. 18129-18143 [doi]

A Survey on Proactive Defense Strategies Against Misinformation in Large Language ModelsShuliang Liu, Hongyi Liu, Aiwei Liu, Bingchen Duan, Zheng Qi, Yibo Yan, He Geng, Peijie Jiang, Jia Liu, Xuming Hu. 18144-18155 [doi]

Smotrom tvoja på ander drogoj verden! Resurrecting Dead Pidgin with Generative Models: Russenorsk Case StudyAlexey Tikhonov, Sergei Shteiner, Anna Bykova, Ivan P. Yamshchikov. 18156-18166 [doi]

PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language ModelsXueliang Zhao, Wei Wu, Jian Guan, Lingpeng Kong. 18167-18188 [doi]

Speculative Sampling via Exponential RacesSzymon Kobus, Deniz Gündüz. 18189-18204 [doi]

Going Beyond Your Expectations in Latency Metrics for Simultaneous Speech TranslationJorge Iranzo-Sánchez, Javier Iranzo-Sánchez, Adrià Giménez, Jorge Civera. 18205-18228 [doi]

Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing AgentsChaoran Chen, Bingsheng Yao, Ruishi Zou, Wenyue Hua, Weimin Lyu, Toby Jia-Jun Li, Dakuo Wang. 18229-18268 [doi]

Recursive Question Understanding for Complex Question Answering over Heterogeneous Personal DataPhilipp Christmann, Gerhard Weikum. 18269-18288 [doi]

PreSumm: Predicting Summarization Performance Without SummarizingSteven Koniaev, Ori Ernst, Jackie CK Cheung. 18289-18305 [doi]

Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge BasesYongjia Lei, Haoyu Han 0001, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M. Halappanavar, Jiliang Tang, Yu Wang 0160. 18306-18321 [doi]

Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact CompletionDenitsa Saynova, Lovisa Hagström, Moa Johansson, Richard Johansson, Marco Kuhlmann. 18322-18349 [doi]

FPE2M2: Approaching Lossless and Efficient Quantization with Native Floating PointKe Yi 0003, Jianwei Zhang 0012, Zhiying Xu, Xinlong Yang, Yang Zhou, Minmin Sun, Zengke Liu, Tong Zhang, Junyang Lin, Jingren Zhou 0001. 18350-18361 [doi]

Asymmetric Conflict and Synergy in Post-training for LLM-based Multilingual Machine TranslationTong Zheng, Yan Wen, Huiwen Bao, Junfeng Guo, Heng Huang. 18362-18383 [doi]

VISIAR: Empower MLLM for Visual Story IdeationZhaoyang Xia, Somdeb Sarkhel, Md. Mehrab Tanjim, Stefano Petrangeli, Ishita Dasgupta 0002, Yuxiao Chen 0002, Jinxuan Xu, Di Liu 0003, Saayan Mitra, Dimitris N. Metaxas. 18384-18402 [doi]

Same Company, Same Signal: The Role of Identity in Earnings Call TranscriptsDing Yu, Zhuo Liu, Hangfeng He 0001. 18403-18422 [doi]

Understanding and Meeting Practitioner Needs When Measuring Representational Harms Caused by LLM-Based SystemsEmma Harvey, Emily Sheng, Su Lin Blodgett, Alexandra Chouldechova, Jean Garcia-Gathright, Alexandra Olteanu, Hanna M. Wallach. 18423-18440 [doi]

Mind the (Belief) Gap: Group Identity in the World of LLMsAngana Borah, Marwa Houalla, Rada Mihalcea. 18441-18463 [doi]

A General Framework to Enhance Fine-tuning-based LLM UnlearningJie Ren 0019, Zhenwei Dai, Xianfeng Tang, Hui Liu, Jingying Zeng, Zhen Li, Rahul Goutam, Suhang Wang, Yue Xing 0002, Qi He. 18464-18476 [doi]

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question AnsweringFrancesco Maria Molfese, Luca Moroni, Luca Gioffrè, Alessandro Scirè, Simone Conia, Roberto Navigli. 18477-18494 [doi]

Machine Theory of Mind Needs Machine ValidationAdil Soubki, Owen Rambow. 18495-18505 [doi]

MiniKV: Pushing the Limits of 2-Bit KV Cache via Compression and System Co-Design for Efficient Long Context InferenceAkshat Sharma, Hangliang Ding, Jianping Li, Neel Dani, Minjia Zhang. 18506-18523 [doi]

Sci-LoRA: Mixture of Scientific LoRAs for Cross-Domain Lay ParaphrasingMing Cheng, Jiaying Gong, Hoda Eldardiry. 18524-18541 [doi]

Trick or Neat: Adversarial Ambiguity and Language Model EvaluationAntonia Karamolegkou, Oliver Eberle, Phillip Rust, Carina Kauf, Anders Søgaard. 18542-18561 [doi]

Biases Propagate in Encoder-based Vision-Language Models: A Systematic Analysis From Intrinsic Measures to Zero-shot Retrieval OutcomesKshitish Ghate, Tessa Charlesworth, Mona T. Diab, Aylin Caliskan. 18562-18580 [doi]

Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language ModelsYingqian Cui, Pengfei He, Jingying Zeng, Hui Liu, Xianfeng Tang, Zhenwei Dai, Yan Han 0001, Chen Luo 0003, Jing Huang, Zhen Li, Suhang Wang, Yue Xing 0002, Jiliang Tang, Qi He. 18581-18597 [doi]

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific PapersYilun Zhao 0001, Chengye Wang, Chuhan Li, Arman Cohan. 18598-18631 [doi]

MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMsKaustubh Deshpande, Ved Sirdeshmukh, Johannes Baptist Mols, Lifeng Jin, Ed-Yeremai Hernandez-Cardona, Dean Lee, Jeremy Kritz, Willow E. Primack, Summer Yue, Chen Xing. 18632-18702 [doi]

Privacy Ripple Effects from Adding or Removing Personal Information in Language Model TrainingJaydeep Borkar, Matthew Jagielski, Katherine Lee, Niloofar Mireshghallah, David A. Smith, Christopher A. Choquette-Choo. 18703-18726 [doi]

Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM SafetyYuyou Zhang, Miao Li, William Han, Yihang Yao, Zhepeng Cen, Ding Zhao. 18727-18746 [doi]

Is a cute puyfred cute? Context-dependent form-meaning systematicity in LLMsJaïr A Waal, Giovanni Cassani. 18747-18769 [doi]

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data GenerationHaris Riaz, Sourav Sanjukta Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood. 18770-18803 [doi]

MVTamperBench: Evaluating Robustness of Vision-Language ModelsAmit Agarwal, Srikant Panda, Angeline Charles, Hitesh Laxmichand Patel, Bhargava Kumar, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Hansa Meghwani, Karan Gupta, Dong-Kyu Chae. 18804-18828 [doi]

Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning ModelsQianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang. 18829-18845 [doi]

Vision-Language Models Struggle to Align Entities across ModalitiesIñigo Alonso 0001, Gorka Azkune, Ander Salaberria, Jeremy Barnes 0001, Oier Lopez de Lacalle. 18846-18862 [doi]

A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics InformationLucky Susanto, Musa Izzanardi Wijanarko, Prasetia Anugrah Pratama, Zilu Tang, Fariz Akyas, Traci Hong, Ika Karlina Idris, Alham Fikri Aji, Derry Tanti Wijaya. 18863-18890 [doi]

MedCite: Can Language Models Generate Verifiable Text for Medicine?Xiao Wang, Mengjue Tan, Qiao Jin 0001, Guangzhi Xiong, Yu Hu, Aidong Zhang, Zhiyong Lu, Minjia Zhang. 18891-18913 [doi]

Let The Jury Decide: Fair Demonstration Selection for In-Context Learning through Incremental Greedy EvaluationSadaf Md. Halim, Chen Zhao 0010, Xintao Wu, Latifur Khan, Christan Grant, Fariha Ishrat Rahman, Feng Chen 0001. 18914-18931 [doi]

The Lies Characters Tell: Utilizing Large Language Models to Normalize Adversarial Unicode PerturbationsPortia Cooper, Eduardo Blanco 0002, Mihai Surdeanu. 18932-18944 [doi]

Speech Act Patterns for Improving Generalizability of Explainable Politeness Detection ModelsAhmad Aljanaideh. 18945-18954 [doi]

Systematic Evaluation of Auto-Encoding and Large Language Model Representations for Capturing Author States and TraitsKhushboo Singh, Vasudha Varadarajan, Adithya V. Ganesan, August Håkan Nilsson, Nikita Soni 0002, Syeda Mahwish, Pranav Chitale, Ryan L. Boyd, Lyle H. Ungar, Richard N. Rosenthal, H. Andrew Schwartz. 18955-18973 [doi]

TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session DialoguesYubin Ge, Salvatore Romeo, Jason Cai, Raphael Shu, Yassine Benajiba, Monica Sunkara, Yi Zhang. 18974-18988 [doi]

Conservative Bias in Large Language Models: Measuring Relation PredictionsToyin Aguda, Erik Wilson, Allan Anzagira, Simerjot Kaur, Charese Smiley. 18989-18998 [doi]

Mitigating Bias in RAG: Controlling the EmbedderTaeyoun Kim, Jacob Mitchell Springer, Aditi Raghunathan, Maarten Sap. 18999-19024 [doi]

V-ALPHASOCIAL: Benchmark and Self-Reflective Chain-of-Thought Generation for Visual Social Commonsense ReasoningZongyu Lin, Zhikun Xu, Xiaohan Song, Yixin Wan, Xingcheng Yao, Tsung-Han Lin, Selina Song, Pranav Subbaraman, Ben Zhou, Kai-Wei Chang, Yizhou Sun. 19025-19047 [doi]

AfroBench: How Good are Large Language Models on African Languages?Jessica Ojo, Odunayo Ogundepo, Akintunde Oladipo, Kelechi Ogueji, Jimmy Lin, Pontus Stenetorp, David Ifeoluwa Adelani. 19048-19095 [doi]

Training Bilingual LMs with Data Constraints in the Targeted LanguageSkyler Seto, Maartje ter Hoeve, Richard He Bai, Natalie Schluter, David Grangier. 19096-19122 [doi]

ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question AnsweringAhmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md. Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md. Rizwan Parvez, Enamul Hoque, Shafiq Joty. 19123-19151 [doi]

From Observation to Understanding: Front-Door Adjustments with Uncertainty Calibration for Enhancing Egocentric Reasoning in LVLMsShenshen Li, Wenxin Meng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Jingkuan Song, Heng Tao Shen, Xing Xu 0001. 19152-19169 [doi]

Hypothetical Documents or Knowledge Leakage? Rethinking LLM-based Query ExpansionYejun Yoon, Jaeyoon Jung, Seunghyun Yoon, Kunwoo Park. 19170-19187 [doi]

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQAQianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang. 19188-19205 [doi]

Optimizing Reasoning for Text-to-SQL with Execution FeedbackBohan Zhai, Canwen Xu, Yuxiong He, Zhewei Yao. 19206-19218 [doi]

Disentangling Logic: The Role of Context in Large Language Model Reasoning CapabilitiesWenyue Hua, Kaijie Zhu, Lingyao Li, Lizhou Fan, Mingyu Jin, Shuhang Lin, Haochen Xue, Zelong Li, Jindong Wang 0001, Yongfeng Zhang. 19219-19242 [doi]

Sens-Merging: Sensitivity-Guided Parameter Balancing for Merging Large Language ModelsShuqi Liu 0001, Han Wu 0004, Bowei He, Xiongwei Han, Mingxuan Yuan, Linqi Song. 19243-19255 [doi]

EgoNormia: Benchmarking Physical-Social Norm UnderstandingMohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang. 19256-19283 [doi]

Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and CompetenceLinyang He, Ercong Nie, Helmut Schmid, Hinrich Schütze, Nima Mesgarani, Jonathan Brennan. 19284-19302 [doi]

The Impact of Large Language Models in Academia: from Writing to SpeakingMingmeng Geng, Caixi Chen, Yanru Wu, Yao Wan 0001, Pan Zhou 0001, Dongping Chen. 19303-19319 [doi]

X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic SystemPeng Wang, Ruihan Tao, Qiguang Chen, Mengkang Hu, Libo Qin 0001. 19320-19335 [doi]

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based AgentsHaoran Tan, Zeyu Zhang 0007, Chen Ma 0001, Xu Chen 0017, Quanyu Dai, Zhenhua Dong. 19336-19352 [doi]

Adaptive LoRA Merge with Parameter Pruning for Low-Resource GenerationRyota Miyano, Yuki Arase. 19353-19366 [doi]

LongAttn: Selecting Long-context Training Data via Token-level AttentionLongyun Wu, Dawei Zhu, Guangxiang Zhao, Zhuocheng Yu, Junfeng Ran, Xiangyu Wong, Lin Sun, Sujian Li. 19367-19380 [doi]

CoRE: Condition-based Reasoning for Identifying Outcome Variance in Complex EventsSai P. Vallurupalli, Francis Ferraro. 19381-19401 [doi]

FaVe: Factored and Verified Search Rationale for Long-form AnswerJihyuk Kim, Sungjin Lee, Seung-won Hwang, Yang Liu. 19402-19416 [doi]

UnrealLLM: Towards Highly Controllable and Interactable 3D Scene Generation by LLM-powered Procedural Content GenerationSongTang SongTang, Kaiyong Zhao, Lei Wang, Yuliang Li, Xuebo Liu, Junyi Zou, Qiang Wang, Xiaowen Chu 0001. 19417-19435 [doi]

Tree-of-Prompts: Abstracting Control-Flow for Prompt OptimizationJihyuk Kim, Shubham Garg, Lahari Poddar, Seung-won Hwang, Chris Hench. 19436-19459 [doi]

Outlier-weighed Layerwise Sampling for LLM Fine-tuningPengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu 0003. 19460-19473 [doi]

KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial RecomputationChaoyi Jiang, Lei Gao, Hossein Entezari Zarch, Murali Annavaram. 19474-19488 [doi]

Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMsHongming Yang, Shi Lin, Jun Shao, Changting Lin, Donghai Zhu, Meng Han, Qinglei Kong. 19489-19515 [doi]

Whether LLMs Know If They Know: Identifying Knowledge Boundaries via Debiased Historical In-Context LearningBo Lv, Nayu Liu, Yang Shen, Xin Liu, Ping Luo, Yue Yu. 19516-19528 [doi]

How do LLMs' Preferences Affect Event Argument Extraction? CAT: Addressing Preference Traps in Unsupervised EAEYunhao Wei, Kai Shuang, Zhiyi Li, Chenrui Mao. 19529-19543 [doi]

Out-of-Distribution Detection via LLM-Guided Outlier Generation for Text-attributed GraphXiangwei Lv, Mengze Li 0001, Jingyuan Chen, Zhiang Dong, Sirui Han, Beishui Liao. 19544-19555 [doi]

Document-Level Relation Extraction with Global Relations and Entity Pair ReasoningFu Zhang 0001, Yi Yan, Jingwei Cheng. 19556-19567 [doi]

Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level EmbeddingsYubo Ma, Jinsong Li 0001, Yuhang Zang, Xiaobao Wu, Xiaoyi Dong, Pan Zhang 0001, Yuhang Cao, Haodong Duan, Jiaqi Wang, Yixin Cao 0002, Aixin Sun. 19568-19580 [doi]

Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language ModelsQingYu Ren, Jie Zeng, Qianyu He, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu. 19581-19596 [doi]

ZeroDL: Zero-shot Distribution Learning for Text Clustering via Large Language ModelsHwiyeol Jo, HyunWoo Lee, Kang Min Yoo, Taiwoo Park. 19597-19607 [doi]

Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy ObservationsChunyang Li, Weiqi Wang 0001, Tianshi Zheng, Yangqiu Song. 19608-19626 [doi]

LLMTaxo: Leveraging Large Language Models for Constructing Taxonomy of Factual Claims from Social MediaHaiqi Zhang, Zhengyuan Zhu, Zeyu Zhang, Chengkai Li 0001. 19627-19641 [doi]

AnCast++: Document-Level Evaluation of Graph-based Meaning RepresentationsHaibo Sun, Jayeol Chun, Nianwen Xue. 19642-19654 [doi]

MMEvol: Empowering Multimodal Large Language Models with Evol-InstructRun Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Yongbin Li, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Hamid Alinejad-Rokny, Xiaobo Xia, Jingkuan Song, Fei Huang 0002. 19655-19682 [doi]

SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific ProblemsZiyu Guo, Renrui Zhang, Hao Chen 0011, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng-Ann Heng. 19683-19704 [doi]

Exploring Layer-wise Representations of English and Chinese Homonymy in Pre-trained Language ModelsMatthew King-Hang Ma, Chenwei Xie, Wenbo Wang, William Shi-Yuan Wang. 19705-19724 [doi]

DocMEdit: Towards Document-Level Model EditingLi Zeng, Zeming Liu, Chong Feng 0001, Heyan Huang, Yuhang Guo 0001. 19725-19743 [doi]

Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge EditingYifan Lu, Jing Li, Yigeng Zhou, Yihui Zhang, Wenya Wang, Xiucheng Li, Meishan Zhang, Fangming Liu, Jun Yu, Min Zhang. 19744-19758 [doi]

Evaluating the Long-Term Memory of Large Language ModelsZixi Jia, Qinghua Liu, Hexiao Li, Yuyan Chen, Jiqiang Liu. 19759-19777 [doi]

Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability JudgmentsRussell Scheinberg, Ameeta Agrawal, Amber Shore, So Young Lee. 19778-19795 [doi]

Data Interpreter: An LLM Agent for Data ScienceSirui Hong, Yizhang Lin, Bang Liu, Bangbang Liu, Binhao Wu, Ceyao Zhang, Danyang Li, Jiaqi Chen, Jiayi Zhang, Jinlin Wang, Li Zhang, Lingyao Zhang, Min Yang, Mingchen Zhuge, Taicheng Guo, Tuo Zhou, Wei Tao, Robert Tang, Xiangtao Lu, Xiawu Zheng, Xinbing Liang, Yaying Fei, Yuheng Cheng, Yongxin Ni, Zhibin Gou, Zongze Xu, Yuyu Luo, Chenglin Wu. 19796-19821 [doi]

DReSD: Dense Retrieval for Speculative DecodingMilan Gritta, Huiyin Xue, Gerasimos Lampouras. 19822-19832 [doi]

Core: Robust Factual Precision with Informative Sub-Claim IdentificationZhengping Jiang, Jingyu Zhang, Nathaniel Weir, Seth Ebner, Miriam Wanner, Kate Sanders 0002, Daniel Khashabi, Anqi Liu, Benjamin Van Durme. 19833-19856 [doi]

Rethinking Diverse Human Preference Learning through Principal Component AnalysisFeng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen. 19857-19870 [doi]

Improving Word Alignment Using Semi-Supervised LearningZhongtao Miao, Qiyu Wu 0001, Masaaki Nagata, Yoshimasa Tsuruoka. 19871-19888 [doi]

How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-TrainingYixin Ou, Yunzhi Yao, Ningyu Zhang 0001, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen. 19889-19913 [doi]

LLM-Symbolic Integration for Robust Temporal Tabular ReasoningAtharv Kulkarni, Kushagra Dixit, Vivek Srikumar, Dan Roth, Vivek Gupta 0001. 19914-19940 [doi]

Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive ReviewPei Fu, Tongkun Guan, Zining Wang, Zhentao Guo, Chen Duan, Hao Sun, Boming Chen, Qianyi Jiang, Jiayao Ma, Kai Zhou, Junfeng Luo. 19941-19958 [doi]

PruneVid: Visual Token Pruning for Efficient Video Large Language ModelsXiaohu Huang, Hao Zhou, Kai Han. 19959-19973 [doi]

PromptWizard: Optimizing Prompts via Task-Aware, Feedback-Driven Self-EvolutionEshaan Agarwal, Raghav Magazine, Joykirat Singh, Vivek Dani, Tanuja Ganu, Akshay Uttama Nambi. 19974-20003 [doi]

Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language ModelsHaoyang Li, Xuejia Chen, Zhanchao Xu, Darian Li, Nicole Hu, Fei Teng, Yiming Li, Luyu Qiu, Chen Jason Zhang, Li Qing, Lei Chen 0002. 20004-20026 [doi]

TABGEN-ICL: Residual-Aware In-Context Example Selection for Tabular Data GenerationLiancheng Fang, Aiwei Liu, Hengrui Zhang, Henry Peng Zou, Weizhi Zhang 0001, Philip S. Yu. 20027-20041 [doi]

Benchmarking Multi-National Value Alignment for Large Language ModelsChengyi Ju, Weijie Shi, Chengzhong Liu, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jiajie Xu 0001, Yaodong Yang 0001, Sirui Han, Yike Guo. 20042-20058 [doi]

MotiveBench: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?Xixian Yong, Jianxun Lian, Xiaoyuan Yi, Xiao Zhou 0005, Xing Xie 0001. 20059-20089 [doi]

Confidence Improves Self-Consistency in LLMsAmir Taubenfeld, Tom Sheffer, Eran Ofek, Amir Feder, Ariel Goldstein, Zorik Gekhman, Gal Yona. 20090-20111 [doi]

None of the Above, Less of the Right Parallel Patterns in Human and LLM Performance on Multi-Choice Questions AnsweringZhi Rui Tam, Cheng-Kuang Wu, Chieh-Yen Lin, Yun-Nung Chen. 20112-20134 [doi]

In Search of the Lost Arch in Dialogue: A Dependency Dialogue Acts Corpus for Multi-Party DialoguesJon Z. Cai, Brendan King, Peyton Cameron, Susan Windisch Brown, Miriam Eckert, Dananjay Srinivas, George Arthur Baker, V. Kate Everson, Martha Palmer, James H. Martin, Jeffrey Flanigan. 20135-20149 [doi]

ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor DataXinzhe Zheng, Sijie Ji, Jiawei Sun, Renqi Chen, Wei Gao 0004, Mani Srivastava 0001. 20150-20171 [doi]

Debiasing Online Preference Learning via Preference Feature PreservationDongyoung Kim, Jinsung Yoon, Jinwoo Shin, Jaehyung Kim. 20172-20191 [doi]

ShortGPT: Layers in Large Language Models are More Redundant Than You ExpectXin Men, Mingyu Xu, Qingyu Zhang, Qianhao Yuan, Bingning Wang, Hongyu Lin, Yaojie Lu 0001, Xianpei Han, Weipeng Chen. 20192-20204 [doi]

ProjectEval: A Benchmark for Programming Agents Automated Evaluation on Project-Level Code GenerationKaiyuan Liu, Youcheng Pan, Yang Xiang, Daojing He, Jing Li, Yexing Du, Tianrun Gao. 20205-20221 [doi]

Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path ForwardZhiyuan Fan, Yumeng Wang, Sandeep Polisetty, Yi R. Fung 0001. 20222-20242 [doi]

DYNTEXT: Semantic-Aware Dynamic Text Sanitization for Privacy-Preserving LLM InferenceJuhua Zhang, Zhiliang Tian, Minghang Zhu, Yiping Song, Taishu Sheng, Siyi Yang, Qiunan Du, Xinwang Liu 0002, Minlie Huang, Dongsheng Li 0001. 20243-20255 [doi]

InImageTrans: Multimodal LLM-based Text Image Machine TranslationFei Zuo, Kehai Chen, Yu Zhang 0193, Zhengshan Xue, Min Zhang 0005. 20256-20277 [doi]

FRAME: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining StrategyXuemiao Zhang, Feiyu Duan, Liangyu Xu, Yongwei Zhou, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai. 20278-20297 [doi]

When Large Language Models Meet Speech: A Survey on Integration ApproachesZhengdong Yang, Shuichiro Shimizu, Yahan Yu, Chenhui Chu. 20298-20315 [doi]

KE-MHISTO: Towards a Multilingual Historical Knowledge Extraction Benchmark for Addressing the Long-Tail ProblemArianna Graciotti, Leonardo Piano, Nicolas Lazzari, Enrico Daga, Rocco Tripodi, Valentina Presutti, Livio Pompianu. 20316-20339 [doi]

TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache OptimizationDingyu Yao, Bowen Shen, Zheng Lin 0001, Wei Liu, Jian Luan 0001, Bin Wang, Weiping Wang 0005. 20340-20359 [doi]

The Elephant in the Room: Exploring the Role of Neutral Words in Language Model Group-Agnostic DebiasingXinwei Guo, Jiashi Gao, Junlei Zhou, Jiaxin Zhang, Guanhua Chen, Xiangyu Zhao 0001, Quanying Liu, Haiyan Wu, Xin Yao 0001, Xuetao Wei. 20360-20371 [doi]

LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as OfflineBiao Fu, Minpeng Liao, Kai Fan 0002, Chengxi Li 0014, Liang Zhang, Yidong Chen 0001, Xiaodong Shi. 20372-20395 [doi]

Beyond Completion: A Foundation Model for General Knowledge Graph ReasoningYin-Hua, Zhiqiang Liu, Mingyang Chen, Zheng Fang, Chi-Man Wong, Lingxiao Li, Chi-Man Vong, Huajun Chen, Wen Zhang 0015. 20396-20412 [doi]

Generative Error Correction for Emotion-aware Speech-to-text TranslationZhengdong Yang, Sheng Li 0010, Chenhui Chu. 20413-20421 [doi]

SynapticRAG: Enhancing Temporal Memory Retrieval in Large Language Models through Synaptic MechanismsYuki Hou, Haruki Tamoto, Qinghua Zhao, Homei Miyashita. 20422-20436 [doi]

Localizing and Mitigating Errors in Long-form Question AnsweringRachneet Singh Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych. 20437-20469 [doi]

EMGLLM: Data-to-Text Alignment for Electromyogram Diagnosis Generation with Medical Numerical Data EncodingZefei Long, Zhenbiao Cao, Wei Chen 0088, Zhongyu Wei. 20470-20480 [doi]

LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLMSambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Shahbaz Khan, Rao Muhammad Anwer, Salman H. Khan 0001, Hisham Cholakkal. 20481-20493 [doi]

Act2P: LLM-Driven Online Dialogue Act Classification for Power AnalysisZhangwenbo Zhangwenbo, Wang Yuhan. 20494-20504 [doi]

MELABenchv1: Benchmarking Large Language Models against Smaller Fine-Tuned Models for Low-Resource Maltese NLPKurt Micallef, Claudia Borg. 20505-20527 [doi]

TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay ScoringSohaila Eltanbouly, Salam Albatarni, Tamer Elsayed. 20528-20543 [doi]

DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft TokensShaoshen Chen, Yangning Li, Zishan Xu, Yongqin Zeng, Shunlong Wu, Xinshuo Hu, Zifei Shan, Xin Su, Jiwei Tang, Yinghui Li, Hai-Tao Zheng 0002. 20544-20552 [doi]

A Multi-Expert Structural-Semantic Hybrid Framework for Unveiling Historical Patterns in Temporal Knowledge GraphsYimin Deng, Yuxia Wu, Yejing Wang, Guoshuai Zhao, Li Zhu, Qidong Liu 0002, Derong Xu, Zichuan Fu, Xian Wu, Yefeng Zheng 0001, Xiangyu Zhao 0001, Xueming Qian. 20553-20565 [doi]

MWPO: Enhancing LLMs Performance through Multi-Weight Preference Strength and Length OptimizationShiyue Xu, Fu Zhang, Jingwei Cheng, Linfeng Zhou. 20566-20581 [doi]

CLEAR: Character Unlearning in Textual and Visual ModalitiesAlexey Dontsov, Dmitrii Korzh, Alexey Zhavoronkin, Boris Mikheev, Denis Bobkov, Aibek Alanov, Oleg Rogov, Ivan V. Oseledets, Elena Tutubalina. 20582-20603 [doi]

Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim VerificationJohn Dougrez-Lewis, Mahmud Elahi Akhter, Federico Ruggeri, Sebastian Löbbers, Yulan He 0001, Maria Liakata. 20604-20628 [doi]

Language Models Lack Temporal Generalization and Bigger is Not BetterStella Verkijk, Piek Vossen, Pia Sommerauer. 20629-20637 [doi]

DiffLM: Controllable Synthetic Data Generation via Diffusion Language ModelsYing Zhou, Xinyao Wang, Yulei Niu, Yaojie Shen, Lexin Tang, Fan Chen, Ben He, Le Sun 0001, Longyin Wen. 20638-20658 [doi]

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?Yifei Wang, Yu Sheng, Linjing Li, Daniel Dajun Zeng. 20659-20678 [doi]

ToolSpectrum: Towards Personalized Tool Utilization for Large Language ModelsZihao Cheng, Hongru Wang 0003, Zeming Liu, Yuhang Guo 0001, Yuanfang Guo, Yunhong Wang 0001, Haifeng Wang 0001. 20679-20699 [doi]

Reverse Preference Optimization for Complex Instruction FollowingXiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li 0003, Yuzhong Qu, Fei Huang, Yongbin Li. 20700-20723 [doi]

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech TokensJeong Hun Yeo, Hyeongseop Rha, Se Jin Park, Yong Man Ro. 20724-20735 [doi]

Def-DTS: Deductive Reasoning for Open-domain Dialogue Topic SegmentationSeungmin Lee, Yongsang Yoo, Minhwa Jung, Min Song. 20736-20753 [doi]

Exploring Jailbreak Attacks on LLMs through Intent Concealment and DiversionTiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You. 20754-20768 [doi]

Verbosity-Aware Rationale Reduction: Sentence-Level Rationale Reduction for Efficient and Effective ReasoningJoonwon Jang, Jaehee Kim, Wonbin Kweon, Seonghyeon Lee, Hwanjo Yu. 20769-20784 [doi]

Exploring the Role of Mental Health Conversational Agents in Training Medical Students and Professionals: A Systematic Literature ReviewThushari Atapattu, Menasha Thilakaratne, Duc Nhan Do, Mahen Herath, Katrina E. Falkner. 20785-20798 [doi]

Bandit-Based Prompt Design Strategy Selection Improves Prompt OptimizersRin Ashizawa, Yoichi Hirose, Nozomu Yoshinari, Kento Uchida, Shinichi Shirakawa. 20799-20817 [doi]

STORYTELLER: An Enhanced Plot-Planning Framework for Coherent and Cohesive Story GenerationJiaming Li 0004, Yukun Chen, Ziqiang Liu, Minghuan Tan, Lei Zhang 0201, Yunshui Li, Run Luo, Longze Chen, Jing Luo, Ahmadreza Argha, Hamid Alinejad-Rokny, Wei Zhou 0028, Min Yang. 20818-20846 [doi]

SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language ModelsKaushal Kumar Maurya, Kv Aditya Srivatsa, Ekaterina Kochmar. 20847-20863 [doi]

SkyLLM: Cross-LLM-APIs Federation for Cost-effective Query ProcessingHeng Zhao, Yifei Zhu 0001. 20864-20873 [doi]

Matina: A Culturally-Aligned Persian Language Model Using Multiple LoRA ExpertsSara Bourbour Hosseinbeigi, Mohammad Ali Seif Kashani, Javad Seraj, Fatemeh Taherinezhad, Ali Nafisi, Fatemeh Nadi, Iman Barati, Hosein Hasani, Mostafa Amiri, Mostafa Masoudi. 20874-20889 [doi]

PM3-KIE: A Probabilistic Multi-Task Meta-Model for Document Key Information ExtractionBirgit Kirsch, Héctor Allende-Cid, Stefan Rüping 0001. 20890-20912 [doi]

TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence TextAhmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md. Rizwan Parvez. 20913-20926 [doi]

G2S: A General-to-Specific Learning Framework for Temporal Knowledge Graph Forecasting with Large Language ModelsLong Bai 0002, Zixuan Li, Xiaolong Jin 0001, Jiafeng Guo, Xueqi Cheng, Tat-Seng Chua. 20927-20938 [doi]

Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuningZiang Ye, Zhenru Zhang, Yang Zhang, Jianxin Ma, Junyang Lin, Fuli Feng. 20939-20957 [doi]

APT: Improving Specialist LLM Performance with Weakness Case Acquisition and Iterative Preference TrainingJun Rao, Zepeng Lin, Xuebo Liu, Xiaopeng Ke, Lian-lian, Dong Jin, Shengjun Cheng, Jun Yu, Min Zhang. 20958-20980 [doi]

EasyEA: Large Language Model is All You Need in Entity Alignment Between Knowledge GraphsJingwei Cheng, Chenglong Lu, Linyan Yang, Guoqing Chen, Fu Zhang 0001. 20981-20995 [doi]

An Adaptive Multi-Threshold Loss and a General Framework for Collaborating Losses in Document-Level Relation ExtractionHuangming Xu, Fu Zhang, Jingwei Cheng. 20996-21007 [doi]

RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-FollowingJunru Lu, Jiazheng Li 0002, Guodong Shen, Lin Gui 0003, Siyu An, Yulan He 0001, Di Yin, Xing Sun 0001. 21008-21030 [doi]

C²RBench: A Chinese Complex Reasoning Benchmark for Large Language ModelsJunru Wu, Tianhao Shen, Linxi Su, Deyi Xiong. 21031-21050 [doi]

Unlocking LLMs' Self-Improvement Capacity with Autonomous Learning for Domain AdaptationKe-ji, Junying Chen, Anningzhe Gao, Wenya Xie, Xiang Wan, Benyou Wang. 21051-21067 [doi]

How Personality Traits Shape LLM Risk-Taking BehaviourJohn Hartley, Conor Brian Hamill, Dale Seddon, Devesh Batra, Ramin Okhrati, Raad Khraishi. 21068-21092 [doi]

Word-Level Detection of Code-Mixed Hate Speech with Multilingual Domain TransferKarin Niederreiter, Dagmar Gromann. 21093-21104 [doi]

Evaluation of Attribution Bias in Generator-Aware Retrieval-Augmented Large Language ModelsAmin Abolghasemi, Leif Azzopardi, Seyyed Hadi Hashemi, Maarten de Rijke, Suzan Verberne. 21105-21124 [doi]

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference AlignmentWen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang 0001. 21125-21147 [doi]

Diagnosing Failures in Large Language Models' Answers: Integrating Error Attribution into Evaluation FrameworkZishan Xu, Shuyi Xie, Qingsong Lv, Shupei Xiao, Linlin Song, Sui Wenjuan, Fan Lin. 21148-21165 [doi]

Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error CorrectionGuangyue Peng, Wei Li 0101, Wen Luo 0001, Houfeng Wang. 21166-21180 [doi]

Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred DataXuemiao Zhang, Liangyu Xu, Feiyu Duan, Yongwei Zhou, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai. 21181-21198 [doi]

Can Input Attributions Explain Inductive Reasoning in In-Context Learning?Mengyu Ye, Tatsuki Kuribayashi, Goro Kobayashi, Jun Suzuki 0001. 21199-21225 [doi]

Modal Dependency Parsing via Biaffine Attention with Self-LoopJayeol Chun, Nianwen Xue. 21226-21238 [doi]

Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMsZixiao Wang, Duzhen Zhang, Ishita Agrawal, Shen Gao, Le Song, Xiuying Chen. 21239-21257 [doi]

Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM PersonalizationYilun Qiu, Xiaoyan Zhao 0005, Yang Zhang 0072, Yimeng Bai, Wenjie Wang 0007, Hong Cheng 0001, Fuli Feng, Tat-Seng Chua. 21258-21277 [doi]

VideoRAG: Retrieval-Augmented Generation over Video CorpusSoyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang. 21278-21298 [doi]

Synergistic Augmentation: Enhancing Cross-Domain Zero-Shot Slot Filling with Small Model-Assisted Large Language ModelsWeizhen Li, Junbao Huang, Peijie Huang, Yuhong Xu, Jiekun Fan. 21299-21312 [doi]

A Classifier of Word-Level Variants in Witnesses of Biblical Hebrew ManuscriptsIglika Nikolova-Stoupak, Maxime Amblard, Sophie Robert-Hayek, Frédérique Rey. 21313-21329 [doi]

NOVA: An Iterative Planning Framework for Enhancing Scientific Innovation with Large Language ModelsXiang Hu, Hongyu Fu, Jinge Wang 0010, Yifeng Wang, Zhikun Li, Renjun Xu, Yu Lu, Yaochu Jin, Lili Pan 0001, Zhenzhong Lan. 21330-21359 [doi]

Query-Driven Multimodal GraphRAG: Dynamic Local Knowledge Graph Construction for Online ReasoningChenyang Bu, Guojie Chang, Zihao Chen, CunYuan Dang, Zhize Wu, Yi He 0007, Xindong Wu 0001. 21360-21380 [doi]

A Survey of Uncertainty Estimation Methods on Large Language ModelsZhiqiu Xia, Jinxuan Xu, Yuqian Zhang, Hang Liu. 21381-21396 [doi]

Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive DiagnosisYicheng Lang, Kehan Guo, Yue Huang 0001, Yujun Zhou 0010, Haomin Zhuang, Tianyu Yang, Yao Su 0003, Xiangliang Zhang 0001. 21397-21420 [doi]

Natural Language Processing in Support of Evidence-based Medicine: A Scoping ReviewZihan Xu, Haotian Ma, Yihao Ding, Gongbo Zhang, Chunhua Weng, Yifan Peng 0002. 21421-21443 [doi]

How do Transformer Embeddings Represent Compositions? A Functional AnalysisAishik Nagar, Ishaan Singh Rawal, Mansi Dhanania, Cheston Tan. 21444-21461 [doi]

Entriever: Energy-based Retriever for Knowledge-Grounded Dialog SystemsYucheng Cai, Ke Li, Yi Huang, Junlan Feng, Zhijian Ou. 21462-21474 [doi]

MONTROSE: LLM-driven Monte Carlo Tree Search Self-Refinement for Cross-Domain Rumor DetectionShanshan Liu, Menglong Lu, Zhen Huang 0006, Zejiang He, Liu Liu 0004, ZhiGang Sun, Dongsheng Li. 21475-21487 [doi]

PEToolLLM: Towards Personalized Tool Learning in Large Language ModelsQiancheng Xu, Yongqi Li, Heming Xia, Fan Liu, Min Yang 0005, Wenjie Li 0002. 21488-21503 [doi]

A Comprehensive Graph Framework for Question Answering with Mode-Seeking Preference AlignmentQuanwei Tang, Sophia Yat Mei Lee, Junshuang Wu, Dong Zhang, Shoushan Li, Erik Cambria, Guodong Zhou. 21504-21523 [doi]

A MISMATCHED Benchmark for Scientific Natural Language InferenceFiroz Shaik, Mobashir Sadat, Nikita Gautam, Doina Caragea, Cornelia Caragea. 21524-21538 [doi]

TagRouter: Learning Route to LLMs through Tags for Open-Domain Text Generation TasksZhou Chen, Zhiqiang Wei, Yuqi Bai, Xue Xiong, Jianmin Wu. 21539-21564 [doi]

The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single DirectionYihuai Hong, Meng Cao, Dian Zhou, Lei Yu, Zhijing Jin 0001. 21565-21585 [doi]

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors IdentificationXu Zhao Pan, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang. 21586-21606 [doi]

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model AgentsTianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang, Xiang Yao, Zhiqiang Xie, Yongchao Chen, Shilong Liu, Bochen Qian, Anjie Yang, Zhaoxuan Jin, Jianbo Deng, Philip Torr 0001, Bernard Ghanem, Guohao Li 0001. 21607-21647 [doi]

Towards A "Novel" Benchmark: Evaluating Literary Fiction with Large Language ModelsWenqing Wang, Mingqi Gao 0002, Xinyu Hu, Xiaojun Wan 0001. 21648-21673 [doi]

A Reinforcement Learning Framework for Cross-Lingual Stance Detection Using Chain-of-Thought AlignmentBinghui Li, Minghui Zou, Xiaowang Zhang, Shizhan Chen, Zhiyong Feng 0002. 21674-21688 [doi]

CARE-STaR: Constraint-aware Self-taught ReasonerZhiliang Li, Bo Tang, Yijun Niu, Beihong Jin, Qiwen Shi, Yuchen Feng, Zhiyu Li, Jie Hu, Mingchuan Yang, Feiyu Xiong. 21689-21703 [doi]

Is It JUST Semantics? A Case Study of Discourse Particle Understanding in LLMsWilliam Berkeley Sheffield, Kanishka Misra, Valentina Pyatkin, Ashwini Deo, Kyle Mahowald, Junyi Jessy Li. 21704-21715 [doi]

War of Thoughts: Competition Stimulates Stronger Reasoning in Large Language ModelsYibin Chen, Jinyi Liu 0002, Yan Zheng 0002, Yifu Yuan, Jianye Hao. 21716-21737 [doi]

Does Rationale Quality Matter? Enhancing Mental Disorder Detection via Selective Reasoning DistillationHoyun Song, Huije Lee, Jisu Shin 0001, Sukmin Cho, Changgeon Ko, Jong C. Park. 21738-21756 [doi]

Rethinking Table Instruction TuningNaihao Deng, Rada Mihalcea. 21757-21780 [doi]

CliniDial: A Naturally Occurring Multimodal Dialogue Dataset for Team Reflection in Action During Clinical OperationNaihao Deng, Kapotaksha Das, Rada Mihalcea, Vitaliy Popov, Mohamed Abouelenien. 21781-21798 [doi]

Chumor 2.0: Towards Better Benchmarking Chinese Humor Understanding from (Ruo Zhi Ba)Ruiqi He, Yushu He, Longju Bai, Jiarui Liu 0004, Zhenjie Sun, Zenghao Tang, He Wang, Hanchen Xia, Rada Mihalcea, Naihao Deng. 21799-21818 [doi]

Explicit Bayesian Inference to Uncover the Latent Themes of Large Language ModelsRaymond Li, Chuyuan Li, Gabriel Murray, Giuseppe Carenini. 21819-21833 [doi]

Improving Occupational ISCO Classification of Multilingual Swiss Job Postings with LLM-Refined Training DataAnn-Sophie Gnehm, Simon Clematide. 21834-21847 [doi]

Brevity is the soul of sustainability: Characterizing LLM response lengthsSoham Poddar, Paramita Koley, Janardan Misra, Niloy Ganguly, Saptarshi Ghosh 0001. 21848-21864 [doi]

Adversarial Preference Learning for Robust LLM AlignmentYuanfu Wang, Pengyu Wang, Chenyang Xi, Bo Tang, Junyi Zhu, Wenqiang Wei, Chen Chen, Chao Yang, Jingfeng Zhang, Chaochao Lu, Yijun Niu, Keming Mao, Zhiyu Li, Feiyu Xiong, Jie Hu, Mingchuan Yang. 21865-21881 [doi]

gMBA: Expression Semantic Guided Mixed Boolean-Arithmetic Deobfuscation Using Transformer ArchitecturesYoujeong Noh, Joon-Young Paik, Jingun Kwon, Eun-Sun Cho. 21882-21888 [doi]

READoc: A Unified Benchmark for Realistic Document Structured ExtractionZichao Li, Aizier Abulaiti, Yaojie Lu 0001, Xuanang Chen, Jia Zheng, Hongyu Lin, Xianpei Han, Shanshan Jiang 0001, Bin Dong 0003, Le Sun. 21889-21905 [doi]

TicTac: Time-aware Supervised Fine-tuning for Automatic Text DatingHan Ren, Minna Peng. 21906-21918 [doi]

Dolphin: Document Image Parsing via Heterogeneous Anchor PromptingHao Feng 0009, Shu Wei, Xiang Fei, Wei Shi, Yingdong Han, Lei Liao, Jinghui Lu, Binghong Wu, Qi Liu, Chunhui Lin, Jingqun Tang, Hao Liu 0003, Can Huang. 21919-21936 [doi]

FanChuan: A Multilingual and Graph-Structured Benchmark For Parody Detection and AnalysisYilun Zheng, Sha Li, Fangkun Wu, Yang Ziyi, Lin Hongchao, Zhichao Hu, Cai Xinjun, Ziming Wang, Jinxuan Chen, Sitao Luan, Jiahao Xu, Lihui Chen. 21937-21957 [doi]

P-CoT: A Pedagogically-motivated Participatory Chain-of-Thought Prompting for Phonological Reasoning in LLMsDongJun Jang, Youngchae Ahn, Hyopil Shin. 21958-21979 [doi]

DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code GenerationWenhao Hu, Jinhao Duan, Chunchen Wei, Li Zhang, Yue Zhang, Kaidi Xu. 21980-21997 [doi]

Small Encoders Can Rival Large Decoders in Detecting GroundednessIstabrak Abbes, Gabriele Prato 0001, Quentin Fournier, Fernando Rodriguez, Alaa Boukhary, Adam Elwood, Sarath Chandar. 21998-22005 [doi]

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document UnderstandingAhmed Heakl, Muhammad Abdullah Sohail, Mukul Ranjan, Rania Elbadry, Ghazi Shazan Ahmad, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Shahbaz Khan, Salman H. Khan 0001. 22006-22024 [doi]

Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of OffensivenessShayan Alipour, Indira Sen, Mattia Samory, Tanu Mitra. 22025-22047 [doi]

AL-QASIDA: Analyzing LLM Quality and Accuracy Systematically in Dialectal ArabicNathaniel Romney Robinson, Shahd Abdelmoneim, Kelly Marchisio, Sebastian Ruder. 22048-22065 [doi]

Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?Seok Hwan Song, Mohna Chakraborty, Qi Li 0012, Wallapak Tavanapong. 22066-22081 [doi]

MutantPrompt: Prompt Optimization via Mutation Under a Budget on Modest-sized LMsArijit Nag, Animesh Mukherjee 0001, Niloy Ganguly, Soumen Chakrabarti. 22082-22092 [doi]

Heuristic-based Search Algorithm in Automatic Instruction-focused Prompt Optimization: A SurveyWendi Cui, Jiaxin Zhang, Zhuohang Li, Hao Sun, Damien Lopez, Kamalika Das, Bradley A. Malin, Kumar Sricharan. 22093-22111 [doi]

CONSENSAGENT: Towards Efficient and Effective Consensus in Multi-Agent LLM Interactions Through Sycophancy MitigationPriya Pitre, Naren Ramakrishnan, Xuan Wang. 22112-22133 [doi]

The Structural Safety Generalization ProblemJulius Broomfield, Tom Gibbs, George Ingebretsen, Ethan Kosak-Hine, Tia Nasir, Jason Zhang, Reihaneh Iranmanesh, Sara Pieri, Reihaneh Rabbany, Kellin Pelrine. 22134-22173 [doi]

DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference OptimizationAmitava Das 0001, Suranjana Trivedy, Danush Khanna, Yaswanth Narsupalli, Basab Ghosh, Rajarshi Roy 0007, Gurpreet Singh, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha. 22174-22270 [doi]

Model-Dependent Moderation: Inconsistencies in Hate Speech Detection Across LLM-based SystemsNeil Fasching, Yphtach Lelkes. 22271-22285 [doi]

Label-semantics Aware Generative Approach for Domain-Agnostic Multilabel ClassificationSubhendu Khatuya, Shashwat Naidu, Saptarshi Ghosh 0001, Pawan Goyal 0002, Niloy Ganguly. 22286-22298 [doi]

Unsupervised Morphological Tree TokenizerQingyang Zhu, Xiang Hu, Pengyu Ji, Wei Wu, Kewei Tu. 22299-22312 [doi]

CausalLink: An Interactive Evaluation Framework for Causal ReasoningJinyue Feng, Frank Rudzicz. 22313-22326 [doi]

Toward Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST)Jiarui Liu 0004, Iman Ouzzani, Wenkai Li, LeChen Zhang, Tianyue Ou, Houda Bouamor, Zhijing Jin 0001, Mona T. Diab. 22327-22360 [doi]

A Joint Optimization Framework for Enhancing Efficiency of Tool Utilization in LLM AgentsBin Wu 0025, Edgar Meij, Emine Yilmaz. 22361-22373 [doi]

When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation EditsJabez Magomere, Emanuele La Malfa, Manuel Tonneau, Ashkan Kazemi, Scott A. Hale. 22374-22404 [doi]

Splintering Nonconcatenative Languages for Better TokenizationBar Gazit, Shaltiel Shmidman, Avi Shmidman, Yuval Pinter. 22405-22417 [doi]

Aria-UI: Visual Grounding for GUI InstructionsYuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li. 22418-22433 [doi]

Revealing Hidden Mechanisms of Cross-Country Content Moderation with Natural Language ProcessingNeemesh Yadav, Jiarui Liu 0004, Francesco Ortu, Roya Ensafi, Zhijing Jin 0001, Rada Mihalcea. 22434-22452 [doi]

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-DistillationStefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz. 22453-22472 [doi]

Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art UnderstandingTuo Zhang, TianTian Feng, Yibin Ni, Mengqin Cao, Ruying Liu, Kiana Avestimehr, Katharine Butler, Yanjun Weng, Mi Zhang 0002, Shrikanth Narayanan, Salman Avestimehr. 22473-22487 [doi]

FastDraft: How to Train Your DraftOfir Zafrir, Igor Margulis, Dorin Shteyman, Shira Guskin, Guy Boudoukh. 22488-22505 [doi]

SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at ScaleShester Gueuwou, Xiaodan Du 0001, Greg Shakhnarovich, Karen Livescu. 22506-22521 [doi]

GUI Agents: A SurveyDang Nguyen, Jian Chen, Yu Wang, Gang Wu 0013, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia 0007, Xintong Li 0001, Jing Shi 0005, Hongjie Chen 0003, Viet Dac Lai, Zhouhang Xie, SungChul Kim, Ruiyi Zhang 0002, Tong Yu 0001, Md. Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon 0002, Lina Yao 0001, Branislav Kveton, Jihyung Kil, Thien Huu Nguyen, Trung Bui, Tianyi Zhou 0001, Ryan A. Rossi, Franck Dernoncourt. 22522-22538 [doi]

MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical NotesAsma Ben Abacha, Wen-wai Yim, Yujuan Fu, Zhaoyi Sun, Meliha Yetisgen, Fei Xia 0004, Thomas Lin. 22539-22550 [doi]

Understanding the Influence of Synthetic Data for Text EmbeddersJacob Mitchell Springer, Vaibhav Adlakha, Siva Reddy, Aditi Raghunathan, Marius Mosbach. 22551-22567 [doi]

Dynamic Knowledge Integration for Evidence-Driven Counter-Argument Generation with Large Language ModelsAnar Yeginbergen, Maite Oronoz, Rodrigo Agerri. 22568-22584 [doi]

Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary ThemesLi Lucy, Camilla Griffiths, Sarah Levine, Jennifer L. Eberhardt, Dorottya Demszky, David Bamman. 22585-22610 [doi]

BottleHumor: Self-Informed Humor Explanation using the Information Bottleneck PrincipleEunJeong Hwang, Peter West, Vered Shwartz. 22611-22632 [doi]

Financial Language Model Evaluation (FLaME)Glenn Matlin, Mika Okamoto, Huzaifa Pardawala, Yang Yang, Sudheer Chava. 22633-22679 [doi]

CausalRAG: Integrating Causal Graphs into Retrieval-Augmented GenerationNengbo Wang, Xiaotian Han, Jagdip Singh, Jing Ma, Vipin Chaudhary. 22680-22693 [doi]

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data CreationTharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard S. Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta 0001, Charith Peris. 22694-22715 [doi]

Explain then Rank: Scale Calibration of Neural Rankers Using Natural Language Explanations from LLMsPuxuan Yu, Daniel Cohen, Hemank Lamba, Joel R. Tetreault, Alejandro Jaimes. 22716-22730 [doi]

Beyond instruction-conditioning, MoTE: Mixture of Task Experts for Multi-task Embedding ModelsMiguel Romero Calvo, Shuoyang Ding, Corey D. Barrett, Georgiana Dinu, George Karypis. 22731-22746 [doi]

Metagent-P: A Neuro-Symbolic Planning Agent with Metacognition for Open WorldsYanfang Zhou, Yuntao Liu 0004, Xiaodong Li, Yongqiang Zhao, Xintong Wang, Jinlong Tian, Zhenyu Li, Xinhai Xu. 22747-22764 [doi]

Q-STRUM Debate: Query-Driven Contrastive Summarization for Recommendation ComparisonGeorge-Kirollos Saad, Scott Sanner. 22765-22782 [doi]

Inductive Linguistic Reasoning with Large Language ModelsRaghav Ramji, Keshav Ramji. 22783-22810 [doi]

Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided InterventionsPengfei Hong, Navonil Majumder, Deepanway Ghosal, Somak Aditya, Rada Mihalcea, Soujanya Poria. 22811-22849 [doi]

Exploiting Phonetics and Glyph Representation at Radical-level for Classical Chinese UnderstandingJunyi Xiang, Maofu Liu. 22850-22871 [doi]

Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose TrainingToan Tran, Ruixuan Liu, Li Xiong 0001. 22872-22888 [doi]

Verify with Caution: The Pitfalls of Relying on Imperfect Factuality MetricsAmeya Godbole, Robin Jia. 22889-22912 [doi]

TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table EvaluationVihang Pancholi, Jainit Sushil Bafna, Tejas Anvekar, Manish Shrivastava 0001, Vivek Gupta 0001. 22913-22934 [doi]

LADDER: Language-Driven Slice Discovery and Error Rectification in Vision ClassifiersShantanu Ghosh, Rayan Syed, Chenyu Wang, Vaibhav Choudhary, Binxu Li, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich. 22935-22970 [doi]

GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuningSifan Zhou, Shuo Wang, Zhihang Yuan, Mingjia Shi, Yuzhang Shang, Dawei Yang. 22971-22988 [doi]

Evaluation of LLMs in Medical Text Summarization: The Role of Vocabulary Adaptation in High OOV SettingsGunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly. 22989-23004 [doi]

UniT: One Document, Many Revisions, Too Many Edit Intention TaxonomiesFangping Lan, Abdullah Aljebreen, Eduard C. Dragut. 23005-23024 [doi]

Predicting Depression in Screening Interviews from Interactive Multi-Theme CollaborationXianbing Zhao, Yiqing Lyu, Di Wang, Buzhou Tang. 23025-23035 [doi]

Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced TrainingYihang Yao, Zhepeng Cen, Miao Li, William Han, Yuyou Zhang, Emerson Liu, Zuxin Liu, Chuang Gan, Ding Zhao. 23036-23052 [doi]

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton OperatorsJianling Li, Shangzhan Li, Zhenye Gao, Qi Shi 0002, Yuxuan Li, Zefan Wang, JiaCheng Huang, WangHaojie WangHaojie, Jianrong Wang, Xu Han, Zhiyuan Liu, Maosong Sun. 23053-23066 [doi]

Just KIDDIN' : Knowledge Infusion and Distillation for Detection of INdecent MemesRahul Garg 0006, Trilok Padhi, Hemang Jain, Ugur Kursuncu, Ponnurangam Kumaraguru. 23067-23086 [doi]

Dynamic Personality in LLM Agents: A Framework for Evolutionary Modeling and Behavioral Analysis in the Prisoner's DilemmaWeiqi Zeng, Bo Wang, Dongming Zhao, Zongfeng Qu, Ruifang He, Yuexian Hou, Qinghua Hu. 23087-23100 [doi]

Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data ScarcityDylan Zhang, Justin Wang, Tianran Sun. 23101-23118 [doi]

On the Robust Approximation of ASR MetricsAbdul Waheed, Hanin Atwany, Rita Singh, Bhiksha Raj. 23119-23146 [doi]

Are the Values of LLMs Structurally Aligned with Humans? A Causal PerspectiveYipeng Kang, Junqi Wang, Yexin Li, Mengmeng Wang, Wenming Tu, Quansen Wang, Hengli Li, Tingjun Wu, Xue Feng, Fangwei Zhong, Zilong Zheng. 23147-23161 [doi]

LLMs Can Also Do Well! Breaking Barriers in Semantic Role Labeling via Large Language ModelsXinxin Li, Huiyao Chen, Chengjun Liu, Jing Li, Meishan Zhang, Jun Yu, Min Zhang. 23162-23180 [doi]

Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation ModelsHanin Atwany, Abdul Waheed, Rita Singh, Monojit Choudhury, Bhiksha Raj. 23181-23203 [doi]

M2PA: A Multi-Memory Planning Agent for Open Worlds Inspired by Cognitive TheoryYanfang Zhou, Xiaodong Li, Yuntao Liu, Yongqiang Zhao, Xintong Wang, Zhenyu Li, Jinlong Tian, Xinhai Xu. 23204-23220 [doi]

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker SimulationMing Wang 0006, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang 0003. 23221-23235 [doi]

Diversification Catalyzes Language Models' Instruction Generalization To Unseen SemanticsDylan Zhang, Justin Wang, François Charton. 23236-23249 [doi]

DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World ScenariosZeyu Gao, Yuxin Cui, Hao Wang, Siliang Qin, Yuanda Wang, Bolun Zhang, Chao Zhang. 23250-23267 [doi]

Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal RefinementXiaoqing Zhang, Yuhan Liu, Flood Sung, Xiuying Chen, Shuo Shang, Rui Yan. 23268-23281 [doi]

Edit Once, Update Everywhere: A Simple Framework for Cross-Lingual Knowledge Synchronization in LLMsYuchen Wu, Liang Ding 0006, Li Shen 0008, Dacheng Tao. 23282-23302 [doi]

SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning CapabilitiesFengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran. 23303-23320 [doi]

ETRQA: A Comprehensive Benchmark for Evaluating Event Temporal Reasoning Abilities of Large Language ModelsSigang Luo, Yinan Liu, Dongying Lin, Yingying Zhai, Bin Wang, Xiaochun Yang, Junpeng Liu. 23321-23339 [doi]

The Law of Knowledge Overshadowing: Towards Understanding, Predicting and Preventing LLM HallucinationYuji Zhang 0002, Sha Li, Cheng Qian 0008, Jiateng Liu, Pengfei Yu, Chi Han, Yi R. Fung 0001, Kathleen McKeown, ChengXiang Zhai, Manling Li, Heng Ji 0001. 23340-23358 [doi]

LegoMT2: Selective Asynchronous Sharded Data Parallel Training for Massive Neural Machine TranslationFei Yuan, Yinquan Lu, Lei Li 0005, Jingjing Xu 0001. 23359-23376 [doi]

Pruning General Large Language Models into Customized Expert ModelsYiran Zhao, Guizhen Chen, Kenji Kawaguchi, Lidong Bing, Wenxuan Zhang 0001. 23377-23391 [doi]

Enhance Multimodal Consistency and Coherence for Text-Image Plan GenerationXiaoxin Lu, Ranran Haoran Zhang, Yusen Zhang 0001, Rui Zhang. 23392-23409 [doi]

Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical ElementsMetehan Oguz, Yavuz Faruk Bakman, Duygu Nur Yaldiz. 23410-23427 [doi]

Behavioral Analysis of Information Salience in Large Language ModelsJan Trienes, Jörg Schlötterer, Junyi Jessy Li, Christin Seifert. 23428-23454 [doi]

The Behavior Gap: Evaluating Zero-shot LLM Agents in Complex Task-Oriented DialogsAvinash Baidya, Kamalika Das, Xiang Gao. 23455-23472 [doi]

Task Facet Learning: A Structured Approach To Prompt OptimizationGurusha Juneja, Gautam Jajoo, Hua Li, Jian Jiao, Nagarajan Natarajan, Amit Sharma. 23473-23496 [doi]

LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position EncodingJunlong Tong, JinLan Fu, Zixuan Lin, Yingqi Fan, Anhao Zhao, Hui Su, Xiaoyu Shen. 23497-23517 [doi]

YinYang-Align: A new Benchmark for Competing Objectives and Introducing Multi-Objective Preference based Text-to-Image AlignmentAmitava Das 0001, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit P. Sheth. 23518-23598 [doi]

FREE: Fast and Robust Vision Language Models with Early ExitsDivya Jyoti Bajpai, Manjesh Kumar Hanawal. 23599-23615 [doi]

REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research?Chuxuan Hu, Liyun Zhang, Yeji Lim, Aum Wadhwani, Austin Peters, Daniel Kang. 23616-23626 [doi]

Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural ArtifactsSara Ghaboura, Ketan Pravin More, Ritesh Thawkar, Wafa Al Ghallabi, Omkar Thawakar, Fahad Shahbaz Khan, Hisham Cholakkal, Salman H. Khan 0001, Rao Muhammad Anwer. 23627-23641 [doi]

Unveiling and Addressing Pseudo Forgetting in Large Language ModelsHuashan Sun, Yizhe Yang, Yinghao Li, Jiawei Li, Yang Gao. 23642-23658 [doi]

Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR ProficiencyYupu Liang, Yaping Zhang, Zhiyang Zhang, Zhiyuan Chen, Yang Zhao, Lu Xiang, Chengqing Zong, Yu Zhou 0001. 23659-23678 [doi]

HG-InsightLog: Context Prioritization and Reduction for Question Answering with Non-Natural Language Construct Log DataSupriya Bajpai, Athira Gopal, Chandrakant Harjpal, Niraj Kumar. 23679-23695 [doi]

Dialect Normalization using Large Language Models and Morphological RulesAntonios Dimakis, John Pavlopoulos, Antonios Anastasopoulos. 23696-23714 [doi]

USDC: A Dataset of \underlineUser \underlineStance and \underlineDogmatism in Long \underlineConversationsMounika Marreddy, Subba Reddy Oota, Venkata Charan Chinni, Manish Gupta 0001, Lucie Flek. 23715-23759 [doi]

Learning to Insert [PAUSE] Tokens for Better ReasoningEunki Kim, SangRyul Kim, James Thorne. 23760-23777 [doi]

Understand the Implication: Learning to Think for Pragmatic UnderstandingSettaluri Lakshmi Sravanthi, Kishan Maharaj, Sravani Gunnu, Abhijit Mishra, Pushpak Bhattacharyya. 23778-23790 [doi]

WASA: WAtermark-based Source Attribution for Large Language Model-Generated DataXinyang Lu, Jingtan Wang 0001, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low. 23791-23824 [doi]

Dense Retrieval with Quantity Comparison IntentPrayas Agrawal, Nandeesh Kumar, Muthusamy Chelliah, Surender Kumar, Soumen Chakrabarti. 23825-23839 [doi]

Reflection on Knowledge Graph for Large Language Models ReasoningYigeng Zhou, Wu Li, Yifan Lu, Jing Li, Fangming Liu, Meishan Zhang, Yequan Wang, Daojing He, Honghai Liu 0001, Min Zhang 0005. 23840-23857 [doi]

Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?Jiahe Jin, Yanheng He, Mingyan Yang. 23858-23869 [doi]

DIESEL: A Lightweight Inference-Time Safety Enhancement for Language ModelsBen Ganon, Alon Zolfi, Omer Hofman, Inderjeet Singh, Hisashi Kojima, Yuval Elovici, Asaf Shabtai. 23870-23890 [doi]

Toward Structured Knowledge Reasoning: Contrastive Retrieval-Augmented Generation on ExperienceJiawei Gu, Ziting Xian, Yuanzhen Xie, Ye Liu, Enjie Liu, Ruichao Zhong, Mochi Gao, Yunzhi Tan, Bo Hu, Zang Li. 23891-23910 [doi]

Structured Pruning for Diverse Best-of-N Reasoning OptimizationHieu Trung Nguyen, Bao Nguyen, Viet Anh Nguyen. 23911-23922 [doi]

PodAgent: A Comprehensive Framework for Podcast GenerationYujia Xiao, Lei He 0005, Haohan Guo, Fenglong Xie, Tan Lee 0001. 23923-23937 [doi]

STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent FrameworkWenhao Liu, Zhenyi Lu, Xinyu Hu, Jerry Zhang, Dailin Li, Jiacheng Cen, Huilin Cao, Haiteng Wang, Yuhan Li, Kun Xie 0003, Dandan Li, Pei Zhang 0003, Chengbo Zhang, Yuxiang Ren, Xiaohong Huang, Yan Ma. 23938-23958 [doi]

iMOVE : Instance-Motion-Aware Video UnderstandingJiaze Li, Yaya Shi, Zongyang Ma, Haoran Xu, Yandong Bai, Huihui Xiao, Ruiwen Kang, Fan Yang, Tingting Gao, Di Zhang. 23959-23975 [doi]

SceneGram: Conceptualizing and Describing Tangrams in Scene ContextSimeon Junker, Sina Zarrieß. 23976-23992 [doi]

Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen 0002, Shafiq Joty. 23993-24010 [doi]

MERIT: Multi-Agent Collaboration for Unsupervised Time Series Representation LearningShu Zhou, Yunyang Xuan, Yuxuan Ao, Xin Wang, Tao Fan, Hao Wang. 24011-24028 [doi]

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction TuningChang Gao, Wenxuan Zhang 0001, Guizhen Chen, Wai Lam. 24029-24055 [doi]

RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMsHongliang Li, Jiaxin Zhang, Wenhui Liao, Dezhi Peng, Kai Ding 0009, Lianwen Jin. 24056-24067 [doi]

Memory-augmented Query Reconstruction for LLM-based Knowledge Graph ReasoningMufan Xu, Gewen Liang, Kehai Chen, Wei Wang, Xun Zhou, Muyun Yang, Tiejun Zhao, Min Zhang. 24068-24084 [doi]

KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering PerformanceQihuang Zhong, Liang Ding 0006, Xiantao Cai, Juhua Liu, Bo Du 0001, Dacheng Tao. 24085-24100 [doi]

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference Resolution Tasks?Simeon Junker, Manar Ali, Larissa Koch, Sina Zarrieß, Hendrik Buschmeier. 24101-24109 [doi]

Removing Prompt-template Bias in Reinforcement Learning from Human FeedbackChaojie Wang 0001, Haonan Shi, Long Tian, Bo An 0001, Shuicheng Yan. 24110-24122 [doi]

Latent Distribution Decouple for Uncertain-Aware Multimodal Multi-label Emotion RecognitionJingwang Huang, Jiang Zhong, Qin Lei, Gaojinpeng Gaojinpeng, Ymyang Ymyang, Sirui Wang, PeiguangLi PeiguangLi, Kaiwen Wei. 24123-24138 [doi]

Are LLMs Rational Investors? A Study on the Financial Bias in LLMsYuhang Zhou, Yuchen Ni, Zhiheng Xi, Zhangyue Yin, Yu He, Gan Yunhui, Xiang Liu, Zhang Jian, Sen Liu, Xipeng Qiu, Yixin Cao, Guangnan Ye, Hongfeng Chai. 24139-24173 [doi]

Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter EraDan Oneata, Desmond Elliott, Stella Frank. 24174-24191 [doi]

Communication-Efficient and Tensorized Federated Fine-Tuning of Large Language ModelsSajjad Ghiasvand, Yifan Yang, Zhiyu Xue, Mahnoosh Alizadeh, Zheng Zhang, Ramtin Pedarsani. 24192-24207 [doi]

A rebuttal of two common deflationary stances against LLM cognitionZak Hussain, Rui Mata, Dirk U. Wulff. 24208-24213 [doi]

COVER: Context-Driven Over-Refusal Verification in LLMsGiovanni Sullutrone, Riccardo Amerigo Vigliermo, Sonia Bergamaschi, Luca Sala. 24214-24229 [doi]

MOSAIC: Multiple Observers Spotting AI ContentMatthieu Dubois, François Yvon, Pablo Piantanida. 24230-24247 [doi]

GUIDEX: Guided Synthetic Data Generation for Zero-Shot Information ExtractionNeil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre. 24248-24262 [doi]

Missing the Margins: A Systematic Literature Review on the Demographic Representativeness of LLMsIndira Sen, Marlene Lutz, Elisa Rogers, David García 0001, Markus Strohmaier. 24263-24289 [doi]

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMsOmkar Thawakar, Dinura Dissanayake, Ketan Pravin More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman H. Khan. 24290-24315 [doi]

Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?Yingjin Song, Yupei Du, Denis Paperno, Albert Gatt. 24316-24342 [doi]

Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical ReasoningHuimin Xu, Xin Mao, Feng-Lin Li, Xiaobao Wu, Wang Chen, Wei Zhang 0218, Anh Tuan Luu. 24343-24356 [doi]

Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation ChecksYanran Chen, Steffen Eger. 24357-24381 [doi]

SCOPE: Compress Mathematical Reasoning Steps for Efficient Automated Process AnnotationHuimin Xu, Xin Mao, Feng-Lin Li, Xiaobao Wu, Wang Chen, Wei Zhang, Anh Tuan Luu. 24382-24394 [doi]

Compositional Syntactico-SemBanking for English as a Second or Foreign LanguageWenxi Li, Xihao Wang, Weiwei Sun. 24395-24406 [doi]

Semantics-aware prompting for translating NOtices To AirMenMinal Nitin Dani, Aishwarya Maheswaran, Maunendra Sankar Desarkar. 24407-24417 [doi]

Stereotype or Personalization? User Identity Biases Chatbot RecommendationsAnjali Kantharuban, Jeremiah Milbauer, Maarten Sap, Emma Strubell, Graham Neubig. 24418-24436 [doi]

Automated main concept generation for narrative discourse assessment in aphasiaAnkita Gupta, Marisa Hudspeth, Polly Stokes, Jacquie Kurland, Brendan T. O'Connor 0001. 24437-24451 [doi]

Can VLMs Actually See and Read? A Survey on Modality Collapse in Vision-Language ModelsMong Yuan Sim, Wei Emma Zhang, Xiang Dai, Biaoyan Fang. 24452-24470 [doi]

"You are Beautiful, Body Image Stereotypes are Ugly!" BIStereo: A Benchmark to Measure Body Image Stereotypes in Language ModelsNarjis Asad, Nihar Ranjan Sahoo, Rudra Murthy, Swaprava Nath, Pushpak Bhattacharyya. 24471-24496 [doi]

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language ModelsZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren. 24497-24524 [doi]

FineCite: A Novel Approach For Fine-Grained Citation Context AnalysisLasse M. Jantsch, Dong-Jae Koh, Seonghwan Yoon, Jisu Lee, Anne Lauscher, Young-Kyoon Suh. 24525-24542 [doi]

Decoupling Reasoning and Knowledge Injection for In-Context Knowledge EditingChangyue Wang, Weihang Su, Qingyao Ai, Yujia Zhou 0002, Yiqun Liu 0001. 24543-24562 [doi]

Entrospect: Information-Theoretic Self-Reflection Elicits Better Response Refinement of Small Language ModelsTianqiang Yan, Ziqiao Lin, Lin Zhang, Zhenglong Sun 0001, Yuan Gao. 24563-24577 [doi]

Iterative Repair with Weak Verifiers for Few-shot Transfer in KBQA with UnanswerabilityRiya Sawhney, Samrat Yadav, Indrajit Bhattacharya, Mausam. 24578-24596 [doi]

Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document DetectionSan Kim, Jonghwi Kim, Yejin Jeon, Gary Geunbae Lee. 24597-24614 [doi]

EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic MaintenanceHeejae Suh, Yejin Jeon, Deokhyung Kang, Taehee Park, Yejin Min, Gary Geunbae Lee. 24615-24631 [doi]

MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query TranslationZhiqian Qin, Yuanfeng Song, Jinwei Lu, Yuanwei Song, Shuaimin Li, Chen Jason Zhang. 24632-24657 [doi]

Tool learning via Inference-time Scaling and Cycle VerifierXiaobo Liang, Wenjin Xie, Juntao Li, Wanfu Wang, Yibin Chen, Kehai Chen, Min Zhang. 24658-24671 [doi]

When Benchmarks Talk: Re-Evaluating Code LLMs with Interactive FeedbackJane Pan, Ryan Shar, Jacob Pfau, Ameet Talwalkar, He He 0001, Valerie Chen. 24672-24700 [doi]

Reranking-based Generation for Unbiased Perspective SummarizationNarutatsu Ri, Nicholas Deas, Kathleen McKeown. 24701-24723 [doi]

KARPA: A Training-free Method of Adapting Knowledge Graph as References for Large Language Model's Reasoning Path AggregationSiyuan Fang, Kaijing Ma, Tianyu Zheng, Xeron Du, Ningxuan Lu, Ge Zhang 0009, Qingkun Tang. 24724-24746 [doi]

Enhancing LLM-based Hatred and Toxicity Detection with Meta-Toxic Knowledge GraphYibo Zhao 0005, Jiapeng Zhu 0002, Can Xu, Yao Liu, Xiang Li. 24747-24760 [doi]

Mixture-of-Personas Language Models for Population SimulationNgoc Bui, Hieu Trung Nguyen, Shantanu Kumar, Julian Theodore, Weikang Qiu, Viet Anh Nguyen, Rex Ying. 24761-24778 [doi]

ClusComp: A Simple Paradigm for Model Compression and Efficient FinetuningBaohao Liao, Christian Herold, Seyyed Hadi Hashemi, Stefan Vasilev, Shahram Khadivi, Christof Monz. 24779-24804 [doi]

Decomposed Opinion Summarization with Verified Aspect-Aware ModulesMiao Li, Jey Han Lau, Eduard H. Hovy, Mirella Lapata. 24805-24841 [doi]

Token-Budget-Aware LLM ReasoningTingxu Han, Zhenting Wang, Chunrong Fang, Shiyu Zhao, ShiQing Ma, Zhenyu Chen 0001. 24842-24855 [doi]

HATA: Trainable and Hardware-Efficient Hash-Aware Top-k Attention for Scalable Large Model InferencePing Gong 0009, Jiawei Yi, Shengnan Wang, Juncheng Zhang, Zewen Jin, Ouxiang Zhou, Ruibo Liu, Guanbin Xu, Youhui Bai, Bowen Ye, Kun Yuan, Tong Yang, Gong Zhang, Renhai Chen, Feng Wu, Cheng Li. 24856-24871 [doi]

Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge UnlearningShota Takashiro, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo. 24872-24885 [doi]

LIST: Linearly Incremental SQL Translator for Single-Hop Reasoning, Generation and VerificationKaiyuan Guan, Ruoxin Li, Xudong Guo, Zhenning Huang, Xudong Weng, Hehuan Liu, Zheng Wei, Zang Li. 24886-24897 [doi]

MAGI: Multi-Agent Guided Interview for Psychiatric AssessmentGuanqun Bi, Zhuang Chen 0002, Zhoufu Liu, Hongkai Wang, Xiyao Xiao, Yuqiang Xie, Wen Zhang, Yongkang Huang, Yuxuan Chen, Libiao Peng, Minlie Huang. 24898-24921 [doi]

TituLLMs: A Family of Bangla LLMs with Comprehensive BenchmarkingShahriar Kabir Nahin, Rabindra Nath Nandi, Sagor Sarker, Quazi Sarwar Muhtaseem, Md. Kowsher, Apu Chandraw Shill, Md Ibrahim, Mehadi Hasan Menon, Tareq Al Muntasir, Firoj Alam. 24922-24940 [doi]

WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and ChartsNegar Foroutan, Angelika Romanou, Matin Ansaripour, Julian Martin Eisenschlos, Karl Aberer, Rémi Lebret. 24941-24958 [doi]

Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Robust and Instruction-Aware ASR and OCRChan-Jan Hsu, Yi-Chang Chen, Feng-Ting Liao, Pei-Chen Ho, Yu-Hsiang Wang, Po-Chun Hsu, Da-shan Shiu. 24959-24973 [doi]

HPSS: Heuristic Prompting Strategy Search for LLM EvaluatorsBosi Wen, Pei Ke, Yufei Sun, Cunxiang Wang, Xiaotao Gu, Jinfeng Zhou, Jie Tang, Hongning Wang, Minlie Huang. 24974-25007 [doi]

A Fully Generative Motivational Interviewing Counsellor Chatbot for Moving Smokers Towards the Decision to QuitZafarullah Mahmood, Soliman Ali, Jiading Zhu, Mohamed Abdelwahab, Michelle Yu Collins, Sihan Chen, Yi-Cheng Zhao, Jodi Wolff, Osnat C. Melamed, Nadia Minian, Marta Maslej, Carolynne Cooper, Matt Ratto, Peter Selby, Jonathan Rose. 25008-25043 [doi]

LegalCore: A Dataset for Event Coreference Resolution in Legal DocumentsKangda Wei, Xi Shi, Jonathan Tong, Sai Ramana Reddy, Anandhavelu Natarajan, Rajiv Jain, Aparna Garimella, Ruihong Huang. 25044-25059 [doi]

Rectifying Belief Space via Unlearning to Harness LLMs' ReasoningAyana Niwa, Masahiro Kaneko, Kentaro Inui. 25060-25075 [doi]

MemeDetoxNet: Balancing Toxicity Reduction and Context PreservationGitanjali Kumari, Jitendra Solanki, Asif Ekbal. 25076-25098 [doi]

Should I Trust You? Detecting Deception in Negotiations using Counterfactual RLWichayaporn Wongkamjan, Yanze Wang, Feng Gu, Denis Peskoff, Jonathan K. Kummerfeld, Jonathan May, Jordan Lee Boyd-Graber. 25099-25113 [doi]

Multi-matrix Factorization AttentionJingcheng Hu, Houyi Li, Yinmin Zhang, Zili Wang, Shuigeng Zhou, Xiangyu Zhang 0005, Heung-Yeung Shum. 25114-25126 [doi]

Self-Training Elicits Concise Reasoning in Large Language ModelsTergel Munkhbat, Namgyu Ho, Seo Hyun Kim, Yongjin Yang, Yujin Kim, Se-Young Yun. 25127-25152 [doi]

Reason from Future: Reverse Thought Chain Enhances LLM ReasoningYinlong Xu, Yanzhao Zheng, Shuoshuo Sun, Shuaihan Huang, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Hongxia Xu, Jian Wu. 25153-25166 [doi]

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning ModelsMarcus Tantakoun, Christian Muise, Xiaodan Zhu. 25167-25188 [doi]

From Conversation to Automation: Leveraging LLMs for Problem-Solving Therapy AnalysisElham Aghakhani, Lu Wang, Karla T. Washington, George Demiris, Jina Huh-Yoo, Rezvaneh Rezapour. 25189-25207 [doi]

Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer AggregationYiwei Li 0001, Ji Zhang, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li 0001. 25208-25223 [doi]

Don't Say No: Jailbreaking LLM by Suppressing RefusalYukai Zhou, Jian Lou 0001, Zhijie Huang, Zhan Qin, Sibei Yang, Wenjie Wang 0008. 25224-25249 [doi]

From Perception to Reasoning: Enhancing Vision-Language Models for Mobile UI UnderstandingSettaluri Lakshmi Sravanthi, Ankit Mishra, Debjyoti Mondal, Subhadarshi Panda, Rituraj Singh, Pushpak Bhattacharyya. 25250-25269 [doi]

Lemmas Matter, But Not Like That: Predictors of Lemma-Based Generalization in Morphological InflectionSarah Ruth Brogden Payne, Jordan Kodner. 25270-25286 [doi]

Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction TuningMing Li, Pei Chen, Chenguang Wang, Hongyu Zhao, Yijun Liang, Yupeng Hou, Fuxiao Liu, Tianyi Zhou. 25287-25318 [doi]

MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized CollaborationYucheng Zhou 0001, Lingran Song, Jianbing Shen. 25319-25333 [doi]

ATLAS: Agent Tuning via Learning Critical StepsZhixun Chen, Ming Li, Yuxuan Huang, Yali Du 0001, Meng Fang, Tianyi Zhou 0001. 25334-25349 [doi]

Syntactic Control of Language Models by Posterior InferenceVicky Xefteri, Tim Vieira, Ryan Cotterell, Afra Amini. 25350-25365 [doi]

Small Models Struggle to Learn from Strong ReasonersYuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran. 25366-25394 [doi]

Sparse Rewards Can Self-Train Dialogue AgentsBarrett Martin Lattimer, Varun Prashant Gangal, Ryan Mcdonald, Yi Yang 0038. 25395-25413 [doi]

Almost AI, Almost Human: The Challenge of Detecting AI-Polished WritingShoumik Saha, Soheil Feizi. 25414-25431 [doi]

The Reader is the Metric: How Textual Features and Reader Profiles Explain Conflicting Evaluations of AI Creative WritingGuillermo Marco, Julio Gonzalo, Víctor Fresno. 25432-25449 [doi]

Summary Factual Inconsistency Detection Based on LLMs Enhanced by Universal Information ExtractionAnguo Li, Lei Yu. 25450-25465 [doi]

ELI-Why: Evaluating the Pedagogical Utility of Language Model ExplanationsBrihi Joshi, Keyu He, Sahana Ramnath, Sadra Sabouri, Kaitlyn Zhou, Souti Chattopadhyay, Swabha Swayamdipta, Xiang Ren 0001. 25466-25499 [doi]

Beyond Generation: Leveraging LLM Creativity to Overcome Label Bias in ClassificationXiaoyue Wang, Xin Liu. 25500-25506 [doi]

CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language ModelsXintong Wang 0001, Jingheng Pan, Liang Ding 0006, Longyue Wang, Longqin Jiang, Xingshan Li, Chris Biemann. 25507-25522 [doi]

PASTEL : Polarity-Aware Sentiment Triplet Extraction with LLM-as-a-JudgeAaditya Bodke, Avinoor Singh Kohli, Hemant Subhash Pardeshi, Prathamesh Bhosale. 25523-25533 [doi]

COSMIC: Generalized Refusal Direction Identification in LLM ActivationsVincent Siu, Nicholas Crispino, Zihao Yu, Sam Pan, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang 0001. 25534-25553 [doi]

Red Queen: Exposing Latent Multi-Turn Risks in Large Language ModelsYifan Jiang 0001, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee. 25554-25591 [doi]

MDBench: A Synthetic Multi-Document Reasoning Benchmark Generated with Knowledge GuidanceJoseph J. Peper, Wenzhao Qiu, Ali Payani, Lu Wang 0008. 25592-25621 [doi]

DiaLLMs: EHR-Enhanced Clinical Conversational System for Clinical Test Recommendation and Diagnosis PredictionWeijieying Ren, Tianxiang Zhao 0001, Lei Wang, Tianchun Wang, Vasant G. Honavar. 25622-25635 [doi]

Can Hallucination Correction Improve Video-Language Alignment?Lingjun Zhao, Mingyang Xie, Paola Cascante-Bonilla, Hal Daumé III, Kwonjoon Lee. 25636-25646 [doi]

IMPARA-GED: Grammatical Error Detection is Boosting Reference-free Grammatical Error Quality EstimatorYusuke Sakai 0010, Takumi Goto, Taro Watanabe. 25647-25654 [doi]

Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMsChenjun Xu, Bingbing Wen, Bin Han 0011, Robert Wolfe, Lucy Lu Wang, Bill Howe. 25655-25672 [doi]

Why Multi-Interest Fairness Matters: Hypergraph Contrastive Multi-Interest Learning for Fair Conversational Recommender SystemYongsen Zheng, Zongxuan Xie, Guohua Wang, Ziyao Liu, Liang Lin, Kwok-Yan Lam. 25673-25684 [doi]

Cautious Next Token PredictionYizhou Wang, Lingzhi Zhang, Yue Bai, Mang Tik Chiu, Zhengmian Hu, Mingyuan Zhang, Qihua Dong, Yu Yin 0001, Sohrab Amirghodsi, Yun Fu 0001. 25685-25697 [doi]

Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs ReasoningHaoyu Han 0001, Yaochen Xie, Hui Liu, Xianfeng Tang, Sreyashi Nag, William Headden, Yang Li, Chen Luo, Shuiwang Ji, Qi He, Jiliang Tang. 25698-25714 [doi]

Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt AdjustmentHongda Sun 0001, Jiaren Peng, Wenzhong Yang, Liang He 0003, Bo Du 0001, Rui Yan 0001. 25715-25726 [doi]

Feature-Level Insights into Artificial Text Detection with Sparse AutoencodersKristian Kuznetsov, Laida Kushnareva, Anton Razzhigaev, Polina Druzhinina, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov. 25727-25748 [doi]

Low-Resource Grammatical Error Correction: Selective Data Augmentation with Round-Trip Machine TranslationFrank Palma Gomez, Alla Rozovskaya. 25749-25770 [doi]

Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective TasksHope Schroeder, Deb Roy, Jad Kabbara. 25771-25795 [doi]

Research Community Perspectives on "Intelligence" and Large Language ModelsBertram Højer, Terne Sasha Thorn Jakobsen, Anna Rogers, Stefan Heinrich. 25796-25812 [doi]

LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real WorldSina J. Semnani, Pingyue Zhang, Wanyue Zhai, Haozhuo Li, Ryan Beauchamp, Trey Billing, Katayoun Kishi, Manling Li, Monica S. Lam. 25813-25852 [doi]

Memorization vs. Reasoning: Updating LLMs with New KnowledgeAochong Oliver Li, Tanya Goyal. 25853-25874 [doi]

CourtEval: A Courtroom-Based Multi-Agent Evaluation FrameworkSandeep Kumar, Abhijit A. Nargund, Vivek Sridhar. 25875-25887 [doi]

Multilingual Definition ModelingEdison Marrese-Taylor, Erica K. Shimomoto, Alfredo Solano, Enrique Reid. 25888-25906 [doi]

Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI GeneratedTiffany Zhu, Iain Weissburg, Kexun Zhang, William Yang Wang. 25907-25914 [doi]

Redundancy, Isotropy, and Intrinsic Dimensionality of Prompt-based Text EmbeddingsHayato Tsukagoshi, Ryohei Sasano. 25915-25930 [doi]

Harnessing Whisper for Prosodic Stress AnalysisSamuel S. Sohn, Sten Knutsen, Karin Stromswold. 25931-25942 [doi]

Can You Share Your Story? Modeling Clients' Metacognition and Openness for LLM Therapist EvaluationMinju Kim, Dongje Yoo, Yeonjun Hwang, Minseok Kang, Namyoung Kim, Minju Gwak, Beong-woo Kwak, Hyungjoo Chae, Harim Kim, Yunjoong Lee, Min-Hee Kim, Dayi Jung, Kyong-Mee Chung, Jinyoung Yeo. 25943-25962 [doi]

Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual DictionariesHaruki Sakajo, Yusuke Ide, Justin Vasselli, Yusuke Sakai 0010, Yingtao Tian, Hidetaka Kamigaito, Taro Watanabe. 25963-25976 [doi]

When Should Dense Retrievers Be Updated in Evolving Corpora? Detecting Out-of-Distribution Corpora Using GradNormIRDayoon Ko, Jinyoung Kim, Sohyeon Kim, Jinhyuk Kim, Jaehoon Lee, Seonghak Song, Minyoung Lee, Gunhee Kim. 25977-25996 [doi]

The Million Authors Corpus: A Cross-Lingual and Cross-Domain Wikipedia Dataset for Authorship VerificationAbraham Israeli, Shuai Liu, Jonathan May, David Jurgens. 25997-26017 [doi]

BridG MT: Enhancing LLMs' Machine Translation Capabilities with Sentence Bridging and Gradual MTSeungwoo Choi, Gahyun Yoo, Jay Yoon Lee. 26018-26042 [doi]

Text2World: Benchmarking Large Language Models for Symbolic World Model GenerationMengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu 0001, Hongyuan Zhang 0001, Wenqi Shao, Ping Luo. 26043-26066 [doi]

Blinded by Context: Unveiling the Halo Effect of MLLM in AI HiringKyusik Kim, Jeongwoo Ryu, Hyeonseok Jeon, Bongwon Suh. 26067-26113 [doi]

CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-ThoughtBoxuan Zhang, Ruqi Zhang. 26114-26133 [doi]

ADO: Automatic Data Optimization for Inputs in LLM PromptsSam Lin, Wenyue Hua, Lingyao Li, Zhenting Wang, Yongfeng Zhang. 26134-26146 [doi]

Large Language Models Still Exhibit Bias in Long TextWonje Jeung, Dongjae Jeon, Ashkan Yousefpour, Jonghyun Choi. 26147-26169 [doi]

Do Vision-Language Models Have Internal World Models? Towards an Atomic EvaluationQiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, XinYu Fang, Lu Sun, Gautham Kishore, Bo Ai 0008, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su 0001, Tianmin Shu, Ziqiao Ma 0001, Lianhui Qin, Zhiting Hu. 26170-26195 [doi]

Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational AgentsIvoline C. Ngong, Swanand Ravindra Kadhe, Hao Wang 0063, Keerthiram Murugesan, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy. 26196-26220 [doi]

Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive LearningKe-ji, Yixin Lian, Linxu Li, Jingsheng Gao, Weiyuan Li, Bin Dai. 26221-26238 [doi]

M²-TabFact: Multi-Document Multi-Modal Fact Verification with Visual and Textual Representations of Tabular DataMingyang Zhou, Lingyu Zhang, Sophia Horng, Maximillian Chen, Kung-Hsiang Huang, Shih-Fu Chang. 26239-26256 [doi]

Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime TradeoffMaximilian Holsman, Yukun Huang, Bhuwan Dhingra. 26257-26273 [doi]

PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool PlayWei Fang, Yang Zhang 0001, Kaizhi Qian, James R. Glass, Yada Zhu. 26274-26290 [doi]

Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive FailureRomain Puech, Jakub Macina, Julia Chatain, Mrinmaya Sachan, Manu Kapur. 26291-26311 [doi]

Spotting Out-of-Character Behavior: Atomic-Level Evaluation of Persona Fidelity in Open-Ended GenerationJisu Shin 0001, Juhyun Oh, Eunsu Kim, Hoyun Song, Alice Oh. 26312-26332 [doi]

What Language Do Non-English-Centric Large Language Models Think in?Chengzhi Zhong, Qianying Liu, Fei Cheng 0002, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi. 26333-26346 [doi]

T⁵Score: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic SetsItamar Trainin, Omri Abend. 26347-26375 [doi]

Uncertainty-Aware Contrastive DecodingHakyung Lee, Subeen Park, Joowang Kim, Sungjun Lim 0002, Kyungwoo Song. 26376-26391 [doi]

GEMS: Generation-Based Event Argument Extraction via Multi-perspective Prompts and Ontology SteeringRun Lin, Yao Liu, Yanglei Gan, Yuxiang Cai, Tian Lan 0005, Qiao Liu 0003. 26392-26409 [doi]

RomanLens: The Role Of Latent Romanization In Multilinguality In LLMsAlan Saji, Jaavid Aktar Husain, Thanmay Jayakumar, Raj Dabre, Anoop Kunchukuttan, Ratish Puduppully. 26410-26429 [doi]

7 Points to Tsinghua but 10 Points to ? Assessing Large Language Models in Agentic Multilingual National BiasQianying Liu, Katrina Qiyao Wang, Fei Cheng 0002, Sadao Kurohashi. 26430-26442 [doi]

Search-in-Context: Efficient Multi-Hop QA over Long Contexts via Monte Carlo Tree Search with Dynamic KV RetrievalJiabei Chen, Guang Liu, Shizhu He, Kun Luo, Yao Xu, Jun Zhao, Kang Liu. 26443-26455 [doi]

LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM EvaluationEunsu Kim, Juyoung Suk, Seungone Kim, Niklas Muennighoff, Dongkwan Kim 0001, Alice Oh. 26456-26493 [doi]

IntentionESC: An Intention-Centered Framework for Enhancing Emotional Support in Dialogue SystemsXinjie Zhang, Wenxuan Wang, Qin Jin. 26494-26516 [doi]

Beyond Context to Cognitive Appraisal: Emotion Reasoning as a Theory of Mind Benchmark for Large Language ModelsGerard Christopher Yeo, Kokil Jaidka. 26517-26525 [doi]

CSTRL: Context-Driven Sequential Transfer Learning for Abstractive Radiology Report SummarizationMst. Fahmida Sultana Naznin, Adnan Ibney Faruq, Mostafa Rifat Tazwar, Md Jobayer, Md. Mehedi Hasan Shawon, Md. Rakibul Hasan 0001. 26526-26537 [doi]

Rethinking Prompt-based Debiasing in Large Language ModelXinyi Yang 0008, Runzhe Zhan, Shu Yang, Junchao Wu, Lidia S. Chao, Derek F. Wong. 26538-26553 [doi]

Exploring In-context Example Generation for Machine TranslationDohyun Lee, Seungil Chad Lee, Chanwoo Yang, Yujin Baek, Jaegul Choo. 26554-26568 [doi]

Knowledge Base Construction for Knowledge-Augmented Text-to-SQLJinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya. 26569-26583 [doi]

NBDESCRIB: A Dataset for Text Description Generation from Tables and Code in Jupyter Notebooks with GuidelinesXuye Liu, Tengfei Ma 0001, Yimu Wang, Fengjie Wang, Jian Zhao. 26584-26606 [doi]

ECoRAG: Evidentiality-guided Compression for Long Context RAGYeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang. 26607-26628 [doi]

From Complexity to Clarity: AI/NLP's Role in Regulatory ComplianceJivitesh Jain, Nivedhitha Dhanasekaran, Mona T. Diab. 26629-26641 [doi]

EXPERT: An Explainable Image Captioning Evaluation Metric with Structured ExplanationsHyunjong Kim, Sangyeop Kim, Jongheon Jeong, Yeongjae Cho, Sungzoon Cho. 26642-26657 [doi]

Mind Your Theory: Theory of Mind Goes Deeper Than ReasoningEitan Wagner, Nitay Alon, Joseph M. Barnby, Omri Abend. 26658-26668 [doi]

LLMs are Biased Evaluators But Not Biased for Fact-Centric Retrieval Augmented GenerationYen-Shan Chen, Jing Jin, Peng-Ting Kuo, Chao-Wei Huang, Yun-Nung Chen. 26669-26684 [doi]

Standard Quality Criteria Derived from Current NLP Evaluations for Guiding Evaluation Design and Grounding Comparability and AI Compliance AssessmentsAnya Belz, Simon Mille, Craig Thomson. 26685-26715 [doi]

skLEP: A Slovak General Language Understanding BenchmarkMarek Suppa, Andrej Ridzik, Daniel Hládek, Tomas Javurek, Viktoria Ondrejova, Kristína Sásiková, Martin Tamajka, Marián Simko. 26716-26743 [doi]

Can Vision Language Models Understand Mimed Actions?Hyundong Justin Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan May. 26744-26759 [doi]

Training Language Model to Critique for Better RefinementTianshu Yu 0004, Chao Xiang, Mingchuan Yang, Pei Ke, Bosi Wen, Cunxiang Wang, Jiale Cheng, Li Zhang, Xinyu Mu, Chuxiong Sun, Minlie Huang. 26760-26804 [doi]

Dynamic Task Vector Grouping for Efficient Multi-Task Prompt TuningPeiyi Zhang, Richong Zhang, Zhijie Nie, Ziqiao Wang. 26805-26821 [doi]

DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party DialoguesKyochul Jang, Donghyeon Lee, Kyusik Kim, Dongseok Heo, Taewhoo Lee, Woojeong Kim, Bongwon Suh. 26822-26846 [doi]

HASH-RAG: Bridging Deep Hashing with Retriever for Efficient, Fine Retrieval and Augmented GenerationJinyu Guo, Xunlei Chen, Qiyang Xia, Zhaokun Wang, Jie Ou, Libo Qin 0001, Shunyu Yao, Wenhong Tian. 26847-26858 [doi]

A Constrained Text Revision Agent via Iterative Planning and SearchingHannan Cao, Hwee Tou Ng. 26859-26882 [doi]

MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language ModelsGio Paik, Geewook Kim, Jinbae Im. 26883-26904 [doi]

How Programming Concepts and Neurons Are Shared in Code Language ModelsAmir Hossein Kargaran, Yihong Liu 0001, François Yvon, Hinrich Schütze. 26905-26917 [doi]

DynaQuest: A Dynamic Question Answering Dataset Reflecting Real-World Knowledge UpdatesQian Lin, Junyi Li, Hwee Tou Ng. 26918-26936 [doi]

ProcrustesGPT: Compressing LLMs with Structured Matrices and Orthogonal TransformationsEkaterina Grishina, Mikhail Gorbunov, Maxim Rakhuba. 26937-26949 [doi]

Revisiting In-Context Learning with Long Context Language ModelsJinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob Oh, Siddharth Dalmia, Prateek Kolhar. 26950-26966 [doi]

Rationalize and Align: Enhancing Writing Assistance with Rationale via Self-Training for Improved AlignmentHannan Cao, Hai Ye, Hwee Tou Ng. 26967-26982 [doi]

Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval OverlapsJie Ou, Jinyu Guo, Shuaihong Jiang, Zhaokun Wang, Libo Qin 0001, Shunyu Yao, Wenhong Tian. 26983-27000 [doi]

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual AlignmentAmir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze. 27001-27023 [doi]

Automated Fine-Grained Mixture-of-Experts QuantizationZhanhao Xie, Yuexiao Ma, Xiawu Zheng, Fei Chao 0001, Wanchen Sui, Yong Li, Shen Li, Rongrong Ji. 27024-27037 [doi]

Enhancing Complex Reasoning in Knowledge Graph Question Answering through Query Graph ApproximationHongjun Jeong, Minji Kim, Heesoo Jung, Ko Keun Kim, Hogun Park. 27038-27056 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, July 27 - August 1, 2025

Abstract

Table of Contents