Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024, Miami, FL, USA, November 12-16, 2024

researchr

You are not signed in
Sign in
Sign up

Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen, editors, Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024, Miami, FL, USA, November 12-16, 2024. Association for Computational Linguistics, 2024. [doi]

Conference: emnlp2024

Abstract is missing.

Frontmatter [doi]

UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset GenerationJuhwan Choi, Yeonghwa Kim, Seunguk Yu, Jungmin Yun, Youngbin Kim. 1-14 [doi]

Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data AnnotationJuhwan Choi, Jungmin Yun, Kyohoon Jin, Youngbin Kim. 15-29 [doi]

FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out DocumentJoonho Yang, Seunghyun Yoon 0002, Byeongjeong Kim, Hwanhee Lee. 30-45 [doi]

Prompts have evil twinsRimon Melamed, Lucas H. McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adserà. 46-74 [doi]

Table Question Answering for Low-resourced Indic LanguagesVaishali Pal, Evangelos Kanoulas, Andrew Yates, Maarten de Rijke. 75-92 [doi]

ImageInWords: Unlocking Hyper-Detailed Image DescriptionsRoopal Garg, Andrea Burns, Burcu Karagol-Ayan, Yonatan Bitton, Ceslee Montgomery, Yasumasa Onoe, Andrew Bunner, Ranjay Krishna, Jason Baldridge, Radu Soricut. 93-127 [doi]

LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon GameplayYihuai Lan, Zhiqiang Hu, Lei Wang 0185, Yang Wang, Deheng Ye, Peilin Zhao, Ee-Peng Lim, Hui Xiong 0001, Hao Wang 0094. 128-145 [doi]

When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression DetectionXiangyu Zhang, Hexin Liu, Kaishuai Xu, Qiquan Zhang, Daijiao Liu, Beena Ahmed, Julien Epps. 146-158 [doi]

Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion ModelXiangyu Zhang, Daijiao Liu, Hexin Liu, Qiquan Zhang, Hanyu Meng, Leibny Paola García-Perera, Engsiong Chng, Lina Yao. 159-171 [doi]

Hateful Word in Context ClassificationSanne Hoeken, Sina Zarrieß, Özge Alaçam. 172-186 [doi]

Eyes Don't Lie: Subjective Hate Annotation and Detection with GazeÖzge Alaçam, Sanne Hoeken, Sina Zarrieß. 187-205 [doi]

NumeroLogic: Number Encoding for Enhanced LLMs' Numerical ReasoningEli Schwartz, Leshem Choshen, Joseph Shtok, Sivan Doveh, Leonid Karlinsky, Assaf Arbelle. 206-212 [doi]

"Thinking" Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language ModelsShaz Furniturewala, Surgan Jandial, Abhinav Java, Pragyan Banerjee, Simra Shahid, Sumit Bhatia, Kokil Jaidka. 213-227 [doi]

A Usage-centric Take on Intent Understanding in E-CommerceWendi Zhou, Tianyi Li, Pavlos Vougiouklis, Mark Steedman, Jeff Z. Pan. 228-236 [doi]

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMsOded Ovadia, Menachem Brief, Moshik Mishaeli, Oren Elisha. 237-250 [doi]

Systematic Biases in LLM Simulations of DebatesAmir Taubenfeld, Yaniv Dover, Roi Reichart, Ariel Goldstein. 251-267 [doi]

Studying and Mitigating Biases in Sign Language Understanding ModelsKatherine Atwell, Danielle Bragg, Malihe Alikhani. 268-283 [doi]

Uncertainty in Language Models: Assessment through Rank-CalibrationXinmeng Huang, Shuo Li, Mengxin Yu, Matteo Sesia, Hamed Hassani, Insup Lee 0001, Osbert Bastani, Edgar Dobriban. 284-312 [doi]

RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool LearningJunjie Ye, Yilong Wu, Songyang Gao, Caishuang Huang, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang 0001, Tao Gui, Xuanjing Huang 0001. 313-333 [doi]

Learning Planning-based Reasoning by Trajectories Collection and Process Reward SynthesizingFangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy Chen, Shafiq Joty. 334-350 [doi]

Scaling Properties of Speech Language ModelsSantiago Cuervo, Ricard Marxer. 351-361 [doi]

"We Demand Justice!": Towards Social Context Grounding of Political TextsRajkumar Pujari, Chengfei Wu, Dan Goldwasser. 362-372 [doi]

An Experimental Analysis on Evaluating Patent CitationsRabindra Nath Nandi, Suman Kalyan Maity, Brian Uzzi, Sourav Medya. 373-387 [doi]

Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice?Dawei Zhu, Pinzhen Chen, Miaoran Zhang, Barry Haddow, Xiaoyu Shen 0001, Dietrich Klakow. 388-409 [doi]

Consolidating Ranking and Relevance Predictions of Large Language Models through Post-ProcessingLe Yan, Zhen Qin 0001, Honglei Zhuang, Rolf Jagerman, Xuanhui Wang, Michael Bendersky, Harrie Oosterhuis. 410-423 [doi]

Strength Lies in Differences! Improving Strategy Planning for Non-collaborative Dialogues via Diversified User SimulationTong Zhang, Chen Huang, Yang Deng 0002, Hongru Liang, Jia Liu, Zujie Wen, Wenqiang Lei, Tat-Seng Chua. 424-444 [doi]

Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial PerturbationSaiful Salim, Rubin Yang, Alexander Cooper, Suryashree Ray, Saumya Debray, Sazzadur Rahaman. 445-463 [doi]

Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality EstimationYuan Ge, Yilun Liu 0001, Chi Hu, Weibin Meng, Shimin Tao, Xiaofeng Zhao, Mahong Xia, Zhang Li, Boxing Chen, Hao Yang 0006, Bei Li, Tong Xiao, Jingbo Zhu. 464-478 [doi]

On the Influence of Gender and Race in Romantic Relationship Prediction from Large Language ModelsAbhilasha Sancheti, Haozhe An, Rachel Rudinger. 479-494 [doi]

EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech ModelsMaureen de Seyssel, Antony D'Avirro, Adina Williams, Emmanuel Dupoux. 495-507 [doi]

On Fake News Detection with LLM Enhanced Semantics MiningXiaoxiao Ma 0002, Yuchen Zhang, Kaize Ding, Jian Yang 0001, Jia Wu 0001, Hao Fan 0003. 508-521 [doi]

On Sensitivity of Learning with Limited Labelled Data to the Effects of Randomness: Impact of Interactions and Systematic ChoicesBranislav Pecher, Ivan Srba, Mária Bieliková. 522-556 [doi]

Evaluating the Instruction-Following Robustness of Large Language Models to Prompt InjectionZekun Li 0008, Baolin Peng, Pengcheng He, Xifeng Yan. 557-568 [doi]

A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet ClassifiersValentin Barrière, Sebastian Cifuentes. 569-579 [doi]

Mitigating the Alignment Tax of RLHFYong Lin, Hangyu Lin, Wei Xiong 0015, Shizhe Diao, Jianmeng Liu, Jipeng Zhang, Rui Pan, Haoxiang Wang 0003, Wenbin Hu 0002, Hanning Zhang, Hanze Dong, Renjie Pi, Han Zhao 0002, Nan Jiang 0008, Heng Ji, Yuan Yao, Tong Zhang 0001. 580-606 [doi]

Evaluating Readability and Faithfulness of Concept-based ExplanationsMeng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang. 607-625 [doi]

Personality-aware Student Simulation for Conversational Intelligent Tutoring SystemsZhengyuan Liu, Stella Xin Yin, Geyu Lin, Nancy Chen. 626-642 [doi]

MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-MakingDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou 0002. 643-659 [doi]

CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted CrowdsMin-Hsuan Yeh, Ruyuan Wan, Ting-Hao Huang. 660-677 [doi]

Tokenization Is More Than CompressionCraig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan, Yuval Pinter, Chris Tanner. 678-702 [doi]

FLIRT: Feedback Loop In-context Red TeamingNinareh Mehrabi, Palash Goyal, Christophe Dupuy, Qian Hu, Shalini Ghosh, Richard S. Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta 0001. 703-718 [doi]

Successfully Guiding Humans with Imperfect Instructions by Highlighting Potential Errors and Suggesting CorrectionsLingjun Zhao, Khanh Nguyen, Hal Daumé III. 719-736 [doi]

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General TasksHaoyuan Wu, Haisheng Zheng, Zhuolun He, Bei Yu 0001. 737-749 [doi]

GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image GenerationShihao Cai, Keqin Bao, Hangyu Guo, Jizhi Zhang, Jun Song, Bo Zheng. 750-766 [doi]

DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with EntitiesThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton 0001, Andrew Yates. 767-783 [doi]

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language ModelsZihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Yu Wu. 784-801 [doi]

LongEmbed: Extending Embedding Models for Long Context RetrievalDawei Zhu, Liang Wang 0046, Nan Yang 0002, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li. 802-816 [doi]

Making Large Language Models Better Reasoners with Orchestrated Streaming ExperiencesXiangyang Liu, Junliang He, Xipeng Qiu. 817-838 [doi]

Overcome Noise and Bias: Segmentation-Aided Multi-Granularity Denoising and Debiasing for Enhanced Quarduples Extraction in DialogueXianlong Luo, Meng Yang 0001, Yihao Wang. 839-856 [doi]

Integrating Plutchik's Theory with Mixture of Experts for Enhancing Emotion ClassificationDongjun Lim, Yun-Gyung Cheong. 857-867 [doi]

In-context Contrastive Learning for Event Causality IdentificationChao Liang, Wei Xiang, Bang Wang. 868-881 [doi]

What's Mine becomes Yours: Defining, Annotating and Detecting Context-Dependent Paraphrases in News Interview DialogsAnna Wegmann, Tijs A. van den Broek, Dong Nguyen 0002. 882-912 [doi]

Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNsKanishka Misra, Kyle Mahowald. 913-929 [doi]

Large Language Models for Data Annotation and Synthesis: A SurveyZhen Tan, Dawei Li 0008, Song Wang, Alimohammad Beigi, Bohan Jiang, Amrita Bhattacharjee, Mansooreh Karami, Jundong Li, Lu Cheng 0001, Huan Liu 0001. 930-957 [doi]

Chain-of-Dictionary Prompting Elicits Translation in Large Language ModelsHongyuan Lu, Haoran Yang, Haoyang Huang, DongDong Zhang, Wai Lam, Furu Wei. 958-976 [doi]

AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-TuningYifan Yang, Kai Zhen, Ershad Banijamali, Athanasios Mouchtaris, Zheng Zhang. 977-995 [doi]

RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuningHaoyu Wang 0004, Tianci Liu 0003, Ruirui Li 0002, Monica Xiao Cheng, Tuo Zhao, Jing Gao 0004. 996-1008 [doi]

BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge FilteringHaoyu Wang 0004, Ruirui Li 0002, Haoming Jiang, Jinjin Tian, Zhengyang Wang, Chen Luo 0003, Xianfeng Tang, Monica Xiao Cheng, Tuo Zhao, Jing Gao 0004. 1009-1025 [doi]

HEART-felt Narratives: Tracing Empathy and Narrative Style in Personal Stories with LLMsJocelyn Shen, Joel Mire, Hae Park, Cynthia Breazeal, Maarten Sap. 1026-1046 [doi]

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL DivergenceJunru Lu, Jiazheng Li 0002, Siyu An, Meng Zhao, Yulan He 0001, Di Yin, Xing Sun. 1047-1067 [doi]

Bridging Cultures in the Kitchen: A Framework and Benchmark for Cross-Cultural Recipe RetrievalTianyi Hu, Maria Maistro, Daniel Hershcovich. 1068-1080 [doi]

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language ModelsPeng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao. 1081-1093 [doi]

CryptoTrade: A Reflective LLM-based Agent to Guide Zero-shot Cryptocurrency TradingYuan Li, Bingqiao Luo, Qian Wang, Nuo Chen, Xu Liu 0014, Bingsheng He. 1094-1106 [doi]

A Survey on In-context LearningQingxiu Dong, Lei Li 0039, Damai Dai, Ce Zheng, Jingyuan Ma, Rui Li, Heming Xia, Jingjing Xu 0001, Zhiyong Wu 0011, Baobao Chang, Xu Sun 0001, Zhifang Sui. 1107-1128 [doi]

DocHieNet: A Large and Diverse Dataset for Document Hierarchy ParsingHangdi Xing, Changxu Cheng, Feiyu Gao, Zirui Shao, Zhi Yu, Jiajun Bu, Qi Zheng, Cong Yao. 1129-1142 [doi]

AMR-Evol: Adaptive Modular Response Evolution Elicits Better Knowledge Distillation for Large Language Models in Code GenerationZiyang Luo, Xin Li 0056, Hongzhan Lin 0001, Jing Ma 0004, Lidong Bing. 1143-1166 [doi]

EFUF: Efficient Fine-Grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language ModelsShangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai. 1167-1181 [doi]

Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error MinimizationSungbin Shin, Wonpyo Park, Jaeho Lee 0001, Namhoon Lee. 1182-1191 [doi]

LLMs Are Zero-Shot Context-Aware Simultaneous TranslatorsRoman Koshkin, Katsuhito Sudoh, Satoshi Nakamura 0001. 1192-1207 [doi]

AgentReview: Exploring Peer Review Dynamics with LLM AgentsYiqiao Jin, Qinlin Zhao, Yiyang Wang, Hao Chen 0102, Kaijie Zhu, Yijia Xiao, Jindong Wang 0001. 1208-1226 [doi]

ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense RetrievalKelong Mao, Chenlong Deng, Haonan Chen 0005, Fengran Mo, Zheng Liu 0011, Tetsuya Sakai, Zhicheng Dou. 1227-1240 [doi]

Fairer Preferences Elicit Improved Human-Aligned Large Language Model JudgmentsHan Zhou, Xingchen Wan, Yinhong Liu, Nigel Collier, Ivan Vulic, Anna Korhonen. 1241-1252 [doi]

Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case ReformulationChenlong Deng, Kelong Mao, Zhicheng Dou. 1253-1265 [doi]

Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point ProcessPeng Wang 0104, XiaoBin Wang, Chao Lou, Shengyu Mao, Pengjun Xie, Yong Jiang 0001. 1266-1280 [doi]

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image GenerationYuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev. 1281-1287 [doi]

QUDSELECT: Selective Decoding for Questions Under Discussion ParsingAshima Suvarna, Xiao Liu, Tanmay Parekh, Kai-Wei Chang, Nanyun Peng. 1288-1299 [doi]

Mitigating Language Bias of LMMs in Social Intelligence Understanding with Virtual Counterfactual CalibrationPeng Chen, Xiao-Yu Guo, Yuan-Fang Li, Xiaowang Zhang, Zhiyong Feng 0002. 1300-1310 [doi]

Model Balancing Helps Low-data Training and Fine-tuningZihang Liu, Yuanzhe Hu, Tianyu Pang, Yefan Zhou, Pu Ren, Yaoqing Yang. 1311-1331 [doi]

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual AlignmentZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami. 1332-1353 [doi]

Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical AssessmentKun Luo, Minghao Qin, Zheng Liu 0011, Shitao Xiao, Jun Zhao 0001, Kang Liu 0001. 1354-1365 [doi]

A New Pipeline for Knowledge Graph Reasoning Enhanced by Large Language Models Without Fine-TuningZhongwu Chen, Long Bai 0002, Zixuan Li, Zhen Huang 0002, Xiaolong Jin, Yong Dou. 1366-1381 [doi]

Towards Tool Use Alignment of Large Language ModelsZhiyuan Chen, Shiqi Shen, Guangyao Shen, Gong Zhi, Xu Chen 0017, Yankai Lin. 1382-1400 [doi]

DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language ModelsRanchi Zhao, Zhen Leng Thai, Yifan Zhang, Shengding Hu, Jie Zhou, Yunqi Ba, Jie Cai, Zhiyuan Liu 0001, Maosong Sun 0001. 1401-1418 [doi]

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention MapsYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James R. Glass. 1419-1436 [doi]

Controllable Preference Optimization: Toward Controllable Multi-Objective AlignmentYiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding 0002, Zexu Sun, Bowen Sun, Huimin Chen, Ruobing Xie, Jie Zhou 0016, Yankai Lin, Zhiyuan Liu 0001, Maosong Sun 0001. 1437-1454 [doi]

Mitigating Matthew Effect: Multi-Hypergraph Boosted Multi-Interest Self-Supervised Learning for Conversational RecommendationYongsen Zheng, Ruilin Xu 0006, Guohua Wang, Liang Lin, Kwok-Yan Lam. 1455-1466 [doi]

Advancing Event Causality Identification via Heuristic Semantic Dependency Inquiry NetworkHaoran Li, Qiang Gao, Hongmei Wu, Li Huang 0002. 1467-1478 [doi]

Exploring Union and Intersection of Visual Regions for Generating Questions, Answers, and DistractorsWenjian Ding, Yao Zhang, Jun Wang 0023, Adam Jatowt, Zhenglu Yang. 1479-1489 [doi]

UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and GenerationXiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu 0003. 1490-1507 [doi]

Tracking the perspectives of interacting language modelsHayden S. Helm, Brandon Duderstadt, Youngser Park, Carey E. Priebe. 1508-1519 [doi]

MAR: Matching-Augmented Reasoning for Enhancing Visual-based Entity Question AnsweringZhengxuan Zhang, Yin Wu, Yuyu Luo, Nan Tang 0001. 1520-1530 [doi]

Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?Zhe Yang, Yichang Zhang, Tianyu Liu 0001, Jian Yang 0003, Junyang Lin, Chang Zhou, Zhifang Sui. 1531-1555 [doi]

Watch Every Step! LLM Agent Learning via Iterative Step-level Process RefinementWeimin Xiong, Yifan Song, Xiutian Zhao, Wenhao Wu, Xun Wang, Ke Wang, Cheng Li, Wei Peng, Sujian Li. 1556-1572 [doi]

Standardize: Aligning Language Models with Expert-Defined Standards for Content GenerationJoseph Marvin Imperial, Gail Forey, Harish Tayyar Madabushi. 1573-1594 [doi]

Cross-domain NER with Generated Task-Oriented Knowledge: An Empirical Study from Information Density PerspectiveZhihao Zhang, Sophia Yat Mei Lee, Junshuang Wu, Dong Zhang, Shoushan Li, Erik Cambria, Guodong Zhou. 1595-1609 [doi]

Glue pizza and eat rocks - Exploiting Vulnerabilities in Retrieval-Augmented Generative ModelsZhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Song Wang, Jundong Li, Tianlong Chen, Huan Liu 0001. 1610-1626 [doi]

Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation EnhancementYuxuan Wang, Xiaoyuan Liu. 1627-1639 [doi]

SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text GenerationXiaoze Liu, Ting Sun, Tianyang Xu, Feijie Wu, Cunxiang Wang, Xiaoqian Wang 0001, Jing Gao 0004. 1640-1670 [doi]

MatchTime: Towards Automatic Soccer Game Commentary GenerationJiayuan Rao, Haoning Wu 0002, Chang Liu 0079, Yanfeng Wang 0001, Weidi Xie. 1671-1685 [doi]

Rethinking Token Reduction for State Space ModelsZheng Zhan 0001, Yushu Wu, Zhenglun Kong, Changdi Yang, Yifan Gong 0004, Xuan Shen, Xue Lin, Pu Zhao 0001, Yanzhi Wang. 1686-1697 [doi]

Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question AnsweringChang Zong, Yuchen Yan, Weiming Lu 0001, Jian Shao, Yongfeng Huang, Heng Chang, Yueting Zhuang. 1698-1710 [doi]

MetaGPT: Merging Large Language Models Using Model Exclusive Task ArithmeticYuyan Zhou, Liang Song, Bingning Wang, Weipeng Chen. 1711-1724 [doi]

Event Causality Identification with Synthetic ControlHaoyu Wang 0005, Fengze Liu, Jiayao Zhang 0001, Dan Roth, Kyle Richardson 0001. 1725-1737 [doi]

Retrieved Sequence Augmentation for Protein Representation LearningChang Ma, Haiteng Zhao, Lin Zheng, Jiayi Xin, Qintong Li, Lijun Wu, Zhihong Deng, Yang Lu, Qi Liu, Sheng Wang, Lingpeng Kong. 1738-1767 [doi]

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty DecodingFan Yuan, Chi Qin, Xiaogang Xu, Piji Li. 1768-1785 [doi]

TopViewRS: Vision-Language Models as Top-View Spatial ReasonersChengzu Li, Caiqi Zhang, Han Zhou, Nigel Collier, Anna Korhonen, Ivan Vulic. 1786-1807 [doi]

DA³: A Distribution-Aware Adversarial Attack against Language ModelsYibo Wang 0001, Xiangjue Dong, James Caverlee, Philip S. Yu. 1808-1825 [doi]

Evaluating Psychological Safety of Large Language ModelsXingxuan Li, Yutong Li, Lin Qiu, Shafiq Joty, Lidong Bing. 1826-1843 [doi]

An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment ClassificationZhuowei Chen, Lianxi Wang 0001, Yuben Wu, Xinfeng Liao, Yujia Tian, Junyang Zhong. 1844-1856 [doi]

Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question AnsweringDongze Hao, Qunbo Wang, Longteng Guo, Jie Jiang 0016, Jing Liu 0001. 1857-1868 [doi]

PsFuture: A Pseudo-Future-based Zero-Shot Adaptive Policy for Simultaneous Machine TranslationLibo Zhao, Jing Li, Ziqian Zeng. 1869-1881 [doi]

TinyChart: Efficient Chart Understanding with Program-of-Thoughts Learning and Visual Token MergingLiang Zhang, Anwen Hu, Haiyang Xu, Ming Yan, Yichen Xu, Qin Jin, Ji Zhang 0011, Fei Huang 0004. 1882-1898 [doi]

Do We Need Language-Specific Fact-Checking Models? The Case of ChineseCaiqi Zhang, Zhijiang Guo, Andreas Vlachos 0001. 1899-1914 [doi]

Enhancing Advanced Visual Reasoning Ability of Large Language ModelsZhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang 0007, Tengfei Xue, Weidong Cai 0001. 1915-1929 [doi]

CMD: a framework for Context-aware Model self-DetoxificationZecheng Tang, Keyan Zhou, Juntao Li, Yuyang Ding, Pinzheng Wang, Yan Bowen, Renjie Hua, Min Zhang 0005. 1930-1949 [doi]

Embedding and Gradient Say Wrong: A White-Box Method for Hallucination DetectionXiaomeng Hu, Yiming Zhang 0023, Ru Peng, Haozhe Zhang, Chenwei Wu, Gang Chen 0001, Junbo Zhao 0002. 1950-1959 [doi]

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style ControlYu Zhang 0126, Ziyue Jiang 0001, Ruiqi Li, Changhao Pan, Jinzheng He, Rongjie Huang, Chuxin Wang, Zhou Zhao. 1960-1975 [doi]

Be Helpful but Don't Talk too Much - Enhancing Helpfulness in Conversations through Relevance in Multi-Turn Emotional SupportJunlin Li, Bo Peng, Yu-Yin Hsu, Chu-Ren Huang. 1976-1988 [doi]

Aligning Language Models to Explicitly Handle AmbiguityHyuhng Joon Kim, Youna Kim, Cheonbok Park, Junyeob Kim, Choonghyun Park, Kang Min Yoo, Sang-goo Lee, Taeuk Kim. 1989-2007 [doi]

Tag-grounded Visual Instruction Tuning with Retrieval AugmentationDaiqing Qi, Handong Zhao, Zijun Wei, Sheng Li 0001. 2008-2026 [doi]

GLaPE: Gold Label-agnostic Prompt Evaluation for Large Language ModelsXuanchang Zhang, Zhuosheng Zhang 0001, Hai Zhao 0001. 2027-2039 [doi]

Decoding the Echoes of Vision from fMRI: Memory Disentangling for Past Semantic InformationRunze Xia, Congchi Yin, Piji Li. 2040-2052 [doi]

Optimizing Code Retrieval: High-Quality and Scalable Dataset Annotation through Large Language ModelsRui Li 0093, Qi Liu 0003, Liyang He, Zheng Zhang 0048, Hao Zhang, Shengyu Ye, Junyu Lu, Zhenya Huang. 2053-2065 [doi]

Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language ModelsYongjin Yang, Jongwoo Ko, Se-Young Yun. 2066-2085 [doi]

Advancing Process Verification for Large Language Models via Tree-Based Preference LearningMingqian He, Yongliang Shen 0001, Wenqi Zhang, Zeqi Tan, Weiming Lu 0001. 2086-2099 [doi]

An Inversion Attack Against Obfuscated Embedding Matrix in Language Model InferenceYu Lin, Qizhi Zhang, Quanwei Cai, Jue Hong, Wu Ye, Huiqi Liu, Bing Duan. 2100-2104 [doi]

VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video GenerationXuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Bill Yuchen Lin, Wenhu Chen. 2105-2123 [doi]

LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language ModelsYuxuan Wan, Wenxuan Wang 0001, Yiliu Yang, Youliang Yuan, Jen-tse Huang 0001, Pinjia He, Wenxiang Jiao, Michael R. Lyu. 2124-2155 [doi]

Integrating Structural Semantic Knowledge for Enhanced Information Extraction Pre-trainingXiaoyang Yi, Yuru Bao, Jian Zhang, Yifang Qin, Faxin Lin. 2156-2171 [doi]

FuseGen: PLM Fusion for Data-generation based Zero-shot LearningTianyuan Zou, Yang Liu 0005, Peng Li 0030, Jianqing Zhang, Jingjing Liu, Ya-Qin Zhang. 2172-2190 [doi]

I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL GenerationCheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen. 2191-2199 [doi]

Oddballs and Misfits: Detecting Implicit Abuse in Which Identity Groups are Depicted as Deviating from the NormMichael Wiegand, Josef Ruppenhofer. 2200-2218 [doi]

By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual PromptingHyungjun Yoon, Biniyam Aschalew Tolera, Taesik Gong, Kimin Lee, Sung-Ju Lee. 2219-2241 [doi]

Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model QuantizationSeungwoo Son, Wonpyo Park, Woohyun Han, Kyuyeun Kim, Jaeho Lee 0001. 2242-2252 [doi]

CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational SearchFengran Mo, Abbas Ghaddar, Kelong Mao, Mehdi Rezagholizadeh, Boxing Chen, Qun Liu 0001, Jian-Yun Nie. 2253-2268 [doi]

Towards Low-Resource Harmful Meme Detection with LMM AgentsJianzhao Huang, Hongzhan Lin 0001, Ziyan Liu, Ziyang Luo, Guang Chen 0003, Jing Ma 0004. 2269-2293 [doi]

VIVA: A Benchmark for Vision-Grounded Decision-Making with Human ValuesZhe Hu, Yixiao Ren, Jing Li, Yu Yin 0001. 2294-2311 [doi]

Direct Multi-Turn Preference Optimization for Language AgentsWentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng. 2312-2324 [doi]

Self-Refine Instruction-Tuning for Aligning Reasoning in Language ModelsLeonardo Ranaldi, André Freitas. 2325-2347 [doi]

In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided SearchHuihan Li 0001, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Li 0069, Ximing Lu, Wenting Zhao, Faeze Brahman, Yejin Choi 0001, Xiang Ren 0001. 2348-2370 [doi]

AutoScraper: A Progressive Understanding Web Agent for Web Scraper GenerationWenhao Huang, Zhouhong Gu, Chenghao Peng, Jiaqing Liang, Zhixu Li, Yanghua Xiao, Liqian Wen, Zulong Chen. 2371-2389 [doi]

Backward Lens: Projecting Language Model Gradients into the Vocabulary SpaceShahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf. 2390-2422 [doi]

Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument UnderstandingJiwan Chung, Sungjae Lee, Minseo Kim, Seungju Han, Ashkan Yousefpour, Jack Hessel, Youngjae Yu. 2423-2451 [doi]

Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you!Jiwan Chung, Seungwon Lim, Jaehyun Jeon, Seungbeen Lee, Youngjae Yu. 2452-2469 [doi]

Reusing Transferable Weight Increments for Low-resource Style GenerationChunzhen Jin, Eliot Huang, Heng Chang, Yaqi Wang, Peng Cao 0001, Osmar R. Zaïane. 2470-2488 [doi]

Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student CourseCheng-Han Chiang, Wei-Chih Chen, Chun-Yi Kuan, Chienchou Yang, Hung-yi Lee. 2489-2513 [doi]

Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers?Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler 0001. 2514-2528 [doi]

Instruction Pre-Training: Language Models are Supervised Multitask LearnersDaixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei. 2529-2550 [doi]

LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language ModelsRenzhi Wang 0001, Piji Li. 2551-2575 [doi]

Collaborative Performance Prediction for Large Language ModelsQiyuan Zhang, Fuyuan Lyu, Xue Liu 0001, Chen Ma 0001. 2576-2596 [doi]

Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical ChineseYuqi Chen 0024, Sixuan Li, Ying Li, Mohammad Atari. 2597-2615 [doi]

Knowledge Verification to Nip Hallucination in the BudFanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi 0001. 2616-2633 [doi]

QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning ScenariosTimo Pierre Schrader, Lukas Lange, Simon Razniewski, Annemarie Friedrich. 2634-2652 [doi]

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object ClassificationGregor Geigle, Radu Timofte, Goran Glavas. 2653-2669 [doi]

Whispers that Shake Foundations: Analyzing and Mitigating False Premise Hallucinations in Large Language ModelsHongbang Yuan, Pengfei Cao, Zhuoran Jin, Yubo Chen 0001, Daojian Zeng, Kang Liu 0001, Jun Zhao 0001. 2670-2683 [doi]

To Word Senses and Beyond: Inducing Concepts with Contextualized Language ModelsBastien Liétard, Pascal Denis, Mikaela Keller. 2684-2696 [doi]

ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix EmbeddingsHao Wang, Hao Li, Minlie Huang, Lei Sha. 2697-2711 [doi]

An Electoral Approach to Diversify LLM-based Multi-Agent Collective Decision-MakingXiutian Zhao, Ke Wang, Wei Peng. 2712-2727 [doi]

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?Gregor Geigle, Radu Timofte, Goran Glavas. 2728-2742 [doi]

Take Off the Training Wheels! Progressive In-Context Learning for Effective AlignmentZhenyu Liu, Dongfang Li, Xinshuo Hu, Xinping Zhao, Yibin Chen, Baotian Hu, Min Zhang. 2743-2757 [doi]

MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task LearningYufei Ma 0011, ZiHan Liang, Huangyu Dai, Ben Chen, Dehong Gao, Zhuoran Ran, Zihan Wang, Linbo Jin, Wen Jiang 0002, Guannan Zhang, Xiaoyan Cai, Libin Yang. 2758-2770 [doi]

Message Passing on Semantic-Anchor-Graphs for Fine-grained Emotion Representation Learning and ClassificationPinyi Zhang, Jingyang Chen, Junchen Shen, Zijie Zhai, Ping Li, Jie Zhang, Kai Zhang. 2771-2783 [doi]

PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case StudyYuqing Zhang, Baoyi He, Yihan Chen, Hangqi Li, Han Yue, Shengyu Zhang 0001, Huaiyong Dou, Junchi Yan, Zemin Liu, YongQuan Zhang, Fei Wu 0001. 2784-2801 [doi]

Alignment-Enhanced Decoding: Defending Jailbreaks via Token-Level Adaptive Refining of Probability DistributionsQuan Liu, Zhenhong Zhou, Longzhu He, Yi Liu, Wei Zhang, Sen Su. 2802-2816 [doi]

MiniConGTS: A Near Ultimate Minimalist Contrastive Grid Tagging Scheme for Aspect Sentiment Triplet ExtractionQiao Sun, Liujia Yang, Minghao Ma, Nanyang Ye 0001, Qinying Gu. 2817-2834 [doi]

Evaluating Large Language Models via Linguistic ProfilingAlessio Miaschi, Felice dell'Orletta, Giulia Venturi. 2835-2848 [doi]

With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language ModelsTyler Loakman, Yucheng Li 0001, Chenghua Lin. 2849-2867 [doi]

KB-Plugin: A Plug-and-play Framework for Large Language Models to Induce Programs over Low-resourced Knowledge BasesJiajie Zhang, Shulin Cao, Linmei Hu, Ling Feng, Lei Hou 0001, Juanzi Li. 2868-2882 [doi]

Understanding Higher-Order Correlations Among Semantic Components in EmbeddingsMomose Oyama, Hiroaki Yamagiwa, Hidetoshi Shimodaira. 2883-2899 [doi]

DGLF: A Dual Graph-based Learning Framework for Multi-modal Sarcasm DetectionZhihong Zhu, Kefan Shen, Zhaorun Chen, Yunyan Zhang, Yuyan Chen, Xiaoqi Jiao, Zhongwei Wan, Shaorong Xie, Wei Liu 0027, Xian Wu 0001, Yefeng Zheng 0001. 2900-2912 [doi]

Evaluating D-MERIT of Partial-annotation on Information RetrievalRoyi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg. 2913-2932 [doi]

Verification and Refinement of Natural Language Explanations through LLM-Symbolic Theorem ProvingXin Quan, Marco Valentino, Louise A. Dennis, André Freitas. 2933-2958 [doi]

Calibrating the Confidence of Large Language Models by Eliciting FidelityMozhi Zhang, Mianqiu Huang, Rundong Shi, Linsen Guo, Chong Peng, Peng Yan, Yaqian Zhou, Xipeng Qiu. 2959-2979 [doi]

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language ModelsYanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen. 2980-2989 [doi]

How Hard is this Test Set? NLI Characterization by Exploiting Training DynamicsAdrian Cosma, Stefan Ruseti, Mihai Dascalu, Cornelia Caragea. 2990-3001 [doi]

Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error DetectionGaetan Latouche, Marc-André Carbonneau, Benjamin Swanson. 3002-3016 [doi]

CUTE: Measuring LLMs' Understanding of Their TokensLukas Edman, Helmut Schmid, Alexander Fraser 0001. 3017-3026 [doi]

SEER: Self-Aligned Evidence Extraction for Retrieval-Augmented GenerationXinping Zhao, Dongfang Li, Yan Zhong, Boren Hu, Yibin Chen, Baotian Hu, Min Zhang. 3027-3041 [doi]

On the Role of Context in Reading Time PredictionAndreas Opedal, Eleanor Chodroff, Ryan Cotterell, Ethan Wilcox. 3042-3058 [doi]

BC-Prover: Backward Chaining Prover for Formal Theorem ProvingYuhang He, Jihai Zhang, Jianzhu Bao, Fangquan Lin, Cheng Yang, Bing Qin 0001, Ruifeng Xu 0001, Wotao Yin. 3059-3077 [doi]

From Insights to Actions: The Impact of Interpretability and Analysis Research on NLPMarius Mosbach, Vagrant Gautam, Tomás Vergara Browne, Dietrich Klakow, Mor Geva. 3078-3105 [doi]

Autoregressive Pre-Training on Pixels and TextsYekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu 0003. 3106-3125 [doi]

On Training Data Influence of GPT ModelsYekun Chai, Qingyi Liu, Shuohuan Wang, Yu Sun 0004, Qiwei Peng 0002, Hua Wu 0003. 3126-3150 [doi]

Understanding "Democratization" in NLP and ML ResearchArjun Subramonian, Vagrant Gautam, Dietrich Klakow, Zeerak Talat. 3151-3166 [doi]

DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding ModelsSungnyun Kim, Haofu Liao, Srikar Appalaraju, Peng Tang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan, Stefano Soatto. 3167-3193 [doi]

Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target LanguagesSeonjeong Hwang, Yunsu Kim 0001, Gary Geunbae Lee. 3194-3208 [doi]

ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling LawsRuihang Li, Yixuan Wei, Miaosen Zhang, Nenghai Yu, Han Hu 0001, Houwen Peng. 3209-3222 [doi]

Word Alignment as Preference for Machine TranslationQiyu Wu 0001, Masaaki Nagata, Zhongtao Miao, Yoshimasa Tsuruoka. 3223-3239 [doi]

Improving Multi-party Dialogue Generation via Topic and Rhetorical CoherenceYaxin Fan, Peifeng Li, Qiaoming Zhu. 3240-3253 [doi]

SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language ModelsJinghan He, Haiyun Guo, Kuan Zhu, Zihan Zhao, Ming Tang 0001, Jinqiao Wang. 3254-3266 [doi]

Neuron-Level Knowledge Attribution in Large Language ModelsZeping Yu, Sophia Ananiadou. 3267-3280 [doi]

How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric LearningZeping Yu, Sophia Ananiadou. 3281-3292 [doi]

Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron AnalysisZeping Yu, Sophia Ananiadou. 3293-3306 [doi]

Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language ModelsKushal Tatariya, Vladimir Araujo, Thomas Bauwens, Miryam de Lhoneux. 3307-3320 [doi]

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity TheoryWei Fan, Haoran Li 0003, Zheye Deng, Weiqi Wang 0001, Yangqiu Song. 3321-3343 [doi]

Noise, Novels, Numbers. A Framework for Detecting and Categorizing Noise in Danish and Norwegian LiteratureAli Al-Laith, Daniel Hershcovich, Jens Bjerring-Hansen, Jakob Parby, Alexander Conroy, Timothy Tangherlini. 3344-3354 [doi]

QUIK: Towards End-to-end 4-Bit Inference on Generative Large Language ModelsSaleh Ashkboos, Ilia Markov, Elias Frantar, Tingxuan Zhong, Xincheng Wang, Jie Ren, Torsten Hoefler, Dan Alistarh. 3355-3371 [doi]

Fine-Grained Prediction of Reading Comprehension from Eye MovementsOmer Shubi, Yoav Meiri, Cfir Avraham Hadar, Yevgeni Berzak. 3372-3391 [doi]

EfficientRAG: Efficient Retriever for Multi-Hop Question AnsweringZiyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang 0001, Qi Zhang. 3392-3411 [doi]

Unsupervised Human Preference LearningSumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakanni-Tür. 3412-3445 [doi]

Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech CounteringHelena Bonaldi, Greta Damo, Nicolas Ocampo, Elena Cabrio, Serena Villata, Marco Guerini. 3446-3463 [doi]

Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word ProbabilitiesByung-Doh Oh, William Schuler. 3464-3472 [doi]

LLM4Decompile: Decompiling Binary Code with Large Language ModelsHanzhuo Tan, Qi Luo, Jing Li 0049, Yuqun Zhang. 3473-3487 [doi]

From Bottom to Top: Extending the Potential of Parameter Efficient Fine-TuningJihao Gu, Zelin Wang, Yibo Zhang, Ziji Zhang, Ping Gong. 3488-3500 [doi]

CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question AnsweringYike Wu, Yi Huang, Nan Hu, Yuncheng Hua, Guilin Qi, Jiaoyan Chen 0001, Jeff Z. Pan. 3501-3520 [doi]

MTLS: Making Texts into Linguistic SymbolsWenlong Fei, Xiaohua Wang, Min Hu, Qingyu Zhang, Hongbo Li. 3521-3535 [doi]

D2R: Dual-Branch Dynamic Routing Network for Multimodal Sentiment DetectionYifan Chen, Kuntao Li, Weixing Mai, Qiaofeng Wu, Yun Xue, Fenghuan Li. 3536-3547 [doi]

A Generic Method for Fine-grained Category Discovery in Natural Language TextsChang Tian, Matthew B. Blaschko, Wenpeng Yin 0001, Mingzhe Xing, Yinliang Yue, Marie-Francine Moens. 3548-3566 [doi]

Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators through a User-Centric MethodYang Trista Cao, Lovely-Frances Domingo, Sarah A. Gilbert, Michelle L. Mazurek, Katie Shilton, Hal Daumé III. 3567-3587 [doi]

A User-Centric Multi-Intent Benchmark for Evaluating Large Language ModelsJiayin Wang, Fengran Mo, Weizhi Ma, Peijie Sun, Min Zhang 0006, Jian-Yun Nie. 3588-3612 [doi]

Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency ComparisonQian Yang, Weixiang Yan, Aishwarya Agrawal. 3613-3627 [doi]

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal MechanismLang Cao. 3628-3646 [doi]

VGBench: A Comprehensive Benchmark of Vector Graphics Understanding and Generation for Large Language ModelsBocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee. 3647-3659 [doi]

What do Large Language Models Need for Machine Translation Evaluation?Shenbin Qian, Archchana Sindhujan, Minnie Kabra, Diptesh Kanojia, Constantin Orasan, Tharindu Ranasinghe, Frédéric Blain. 3660-3674 [doi]

Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at ScaleFlavio Palo, Prateek Singhi, Bilal Fadlallah. 3675-3687 [doi]

External Knowledge-Driven Argument Mining: Leveraging Attention-Enhanced Multi-Network ModelsDebela Gemechu, Chris Reed 0001. 3688-3709 [doi]

C3PA: An Open Dataset of Expert-Annotated and Regulation-Aware Privacy Policies to Enable Scalable Regulatory Compliance AuditsMaaz Bin Musa, Steven M. Winston, Garrison Allen, Jacob Schiller, Kevin Moore, Sean Quick, Johnathan Melvin, Padmini Srinivasan, Mihailis Diamantis, Rishab Nithyanand. 3710-3722 [doi]

M²PT: Multimodal Prompt Tuning for Zero-shot Instruction LearningTaowen Wang, Yiyang Liu, James Liang, Junhan Zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu. 3723-3740 [doi]

Text Grafting: Near-Distribution Weak Supervision for Minority Classes in Text ClassificationLetian Peng, Yi Gu, Chengyu Dong, Zihan Wang 0001, Jingbo Shang. 3741-3752 [doi]

Incubating Text Classifiers Following User Instruction with Nothing but LLMLetian Peng, Zilong Wang 0002, Jingbo Shang. 3753-3766 [doi]

PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQLRuilin Luo, Liyuan Wang, Binghuai Lin, Zicheng Lin, Yujiu Yang. 3767-3799 [doi]

Conditional and Modal Reasoning in Large Language ModelsWesley H. Holliday, Matthew Mandelkern, Cedegao Zhang. 3800-3821 [doi]

Advancing Large Language Model Attribution through Self-ImprovingLei Huang 0021, Xiaocheng Feng, Weitao Ma, Liang Zhao, Yuchun Fan, Weihong Zhong, Dongliang Xu, Qing Yang 0033, Hongtao Liu, Bing Qin 0001. 3822-3836 [doi]

AlignCap: Aligning Speech Emotion Captioning to Human PreferencesZiqi Liang, Haoxiang Shi, Hanhui Chen. 3837-3846 [doi]

Interpretability-based Tailored Knowledge Editing in TransformersYihuai Hong, Aldo Lipani. 3847-3858 [doi]

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based SamplingYongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan. 3859-3920 [doi]

Empowering Large Language Model for Continual Video Question Answering with Collaborative PromptingChen Cai, Zheng Wang, Jianjun Gao, Wenyang Liu, Ye Lu, Runzhong Zhang, Kim-Hui Yap. 3921-3932 [doi]

Dissecting Fine-Tuning Unlearning in Large Language ModelsYihuai Hong, Yuelin Zou, Lijie Hu, Ziqian Zeng, Di Wang 0015, Haiqin Yang. 3933-3941 [doi]

Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language ModelsZhengxuan Wu, Yuhao Zhang 0004, Peng Qi 0003, Yumo Xu, Rujun Han, Yian Zhang, Jifan Chen, Bonan Min, Zhiheng Huang. 3942-3965 [doi]

Where is the signal in tokenization space?Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck. 3966-3979 [doi]

Private Language Models via Truncated Laplacian MechanismTianhao Huang, Tao Yang, Ivan Habernal, Lijie Hu, Di Wang. 3980-3993 [doi]

Estimating Knowledge in Large Language Models Without Generating a Single TokenDaniela Gottesman, Mor Geva. 3994-4019 [doi]

Consistent Autoformalization for Constructing Mathematical LibrariesLan Zhang, Xin Quan, André Freitas. 4020-4033 [doi]

When Context Leads but Parametric Memory Follows in Large Language ModelsYufei Tao 0004, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. 4034-4058 [doi]

Semantic Training Signals Promote Hierarchical Syntactic Generalization in TransformersAditya Yedetore, Najoung Kim. 4059-4073 [doi]

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource LanguagesTyler A. Chang, Catherine Arnett, Zhuowen Tu, Ben Bergen 0001. 4074-4096 [doi]

Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language UseJiajun Xi, Yinong He, Jianing Yang, Yinpei Dai, Joyce Chai. 4097-4114 [doi]

MiTTenS: A Dataset for Evaluating Gender MistranslationKevin Robinson, Sneha Kudugunta, Romina Stella, Sunipa Dev, Jasmijn Bastings. 4115-4124 [doi]

Teaching LLMs to Abstain across Languages via Multilingual FeedbackShangbin Feng, Weijia Shi, Yike Wang 0002, Wenxuan Ding 0001, Orevaoghene Ahia, Shuyue Stella Li, Vidhisha Balachandran, Sunayana Sitaram, Yulia Tsvetkov. 4125-4150 [doi]

Modular Pluralism: Pluralistic Alignment via Multi-LLM CollaborationShangbin Feng, Taylor Sorensen, Yuhan Liu, Jillian Fisher, Chan Young Park, Yejin Choi 0001, Yulia Tsvetkov. 4151-4171 [doi]

StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style ElementsJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell L. Gordon, Zaïd Harchaoui, Yejin Choi 0001. 4172-4206 [doi]

I Could've Asked That: Reformulating Unanswerable QuestionsWenting Zhao, Ge Gao, Claire Cardie, Alexander M. Rush. 4207-4220 [doi]

STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive ProgressionsRobert Morabito, Sangmitra Madhusudan, Tyler McDonald, Ali Emami. 4221-4243 [doi]

Hidden Persuaders: LLMs' Political Leaning and Their Influence on VotersYujin Potter, Shiyang Lai, Junsol Kim, James Evans, Dawn Song. 4244-4275 [doi]

SOUL: Unlocking the Power of Second-Order Optimization for LLM UnlearningJinghan Jia, Yihua Zhang, Yimeng Zhang, Jiancheng Liu, Bharat Runwal, James Diffenderfer, Bhavya Kailkhura, Sijia Liu 0001. 4276-4292 [doi]

When Reasoning Meets Information Aggregation: A Case Study with Sports NarrativesYebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Wenlin Yao, Hassan Foroosh, Dong Yu 0001, Fei Liu 0004. 4293-4308 [doi]

An Analysis of Multilingual FActScoreVu Trong Kim, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai. 4309-4333 [doi]

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language ModelsSeungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee 0002, Minjoon Seo. 4334-4353 [doi]

RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question AnsweringRujun Han, Yuhao Zhang 0004, Peng Qi 0003, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli. 4354-4374 [doi]

PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document RetrievalShengyao Zhuang, Xueguang Ma, Bevan Koopman, Jimmy Lin, Guido Zuccon. 4375-4391 [doi]

Voices Unheard: NLP Resources and Models for Yorùbá Regional DialectsOrevaoghene Ahia, Anuoluwapo Aremu, Diana Abagyan, Hila Gonen, David Ifeoluwa Adelani, Daud Abolade, Noah A. Smith, Yulia Tsvetkov. 4392-4409 [doi]

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI FeedbackJu-Seung Byun, Jiyun Chun, Jihyung Kil, Andrew Perrault. 4410-4430 [doi]

Order of Magnitude Speedups for LLM Membership InferenceRongting Zhang, Martín Bertrán, Aaron Roth 0001. 4431-4443 [doi]

VIMI: Grounding Video Generation through Multi-modal InstructionYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chieh Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov. 4444-4456 [doi]

F²RL: Factuality and Faithfulness Reinforcement Learning Framework for Claim-Guided Evidence-Supported Counterspeech GenerationHaiyang Wang, Yuchen Pan, Xin Song, Xuechen Zhao, Minghao Hu, Bin Zhou 0004. 4457-4470 [doi]

Deciphering Rumors: A Multi-Task Learning Approach with Intent-aware Hierarchical Contrastive LearningChang Yang, Peng Zhang, Hui Gao, Jing Zhang. 4471-4483 [doi]

Visual Prompting in LLMs for Enhancing Emotion RecognitionQixuan Zhang, Zhifeng Wang, Dylan Zhang, Wenjia Niu, Sabrina B. Caldwell, Tom Gedeon, Yang Liu 0003, Zhenyue Qin. 4484-4499 [doi]

IDEAW: Robust Neural Audio Watermarking with Invertible Dual-EmbeddingPengcheng Li, Xulong Zhang 0001, Jing Xiao 0006, Jianzong Wang. 4500-4511 [doi]

Leveraging Conflicts in Social Media Posts: Unintended Offense DatasetChe-Wei Tsai, Yen-Hao Huang, Tsu-Keng Liao, Didier Estrada, Retnani Latifah, Yi-Shin Chen. 4512-4522 [doi]

Outcome-Constrained Large Language Models for Countering Hate SpeechLingzi Hong, Pengcheng Luo, Eduardo Blanco 0002, Xiaoying Song. 4523-4536 [doi]

Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource GlossingChangbing Yang, Garrett Nicolai, Miikka Silfverberg. 4537-4552 [doi]

Adaptive Immune-based Sound-Shape Code Substitution for Adversarial Chinese Text AttacksAo Wang, Xinghao Yang, Chen Li, Baodi Liu, Weifeng Liu 0001. 4553-4565 [doi]

Bootstrapped Policy Learning for Task-oriented Dialogue through Goal ShapingYangyang Zhao, Ben Niu, Mehdi Dastani, Shihan Wang 0001. 4566-4580 [doi]

PsyGUARD: An Automated System for Suicide Detection and Risk Assessment in Psychological CounselingHuachuan Qiu, Lizhi Ma, Zhenzhong Lan. 4581-4607 [doi]

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and FilteringJiacong Wang, Bohong Wu, Haiyong Jiang, Xun Zhou, Xin Xiao, Haoyuan Guo, Jun Xiao. 4608-4623 [doi]

DVD: Dynamic Contrastive Decoding for Knowledge Amplification in Multi-Document Question AnsweringJing Jin, Houfeng Wang, Hao Zhang, Xiaoguang Li, Zhijiang Guo. 4624-4637 [doi]

How Do Humans Write Code? Large Models Do It the Same Way TooLong Li, Xuzheng He, Haozhe Wang, Linlin Wang, Liang He. 4638-4649 [doi]

Retrospex: Language Agent Meets Offline Reinforcement Learning CriticYufei Xiang, Yiqun Shen, Yeqin Zhang, Cam-Tu Nguyen. 4650-4666 [doi]

Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-Context ModelsXinyu Liu, Runsong Zhao, Pengcheng Huang, Chunyang Xiao, Bei Li, Jingang Wang, Tong Xiao, Jingbo Zhu. 4667-4682 [doi]

Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM GenerationYuanjie Lyu, Zihan Niu, Zheyong Xie, Chao Zhang, Tong Xu 0001, Yang Wang, Enhong Chen. 4683-4702 [doi]

CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent CooperationRenhao Li, Minghuan Tan, Derek F. Wong, Min Yang 0007. 4703-4721 [doi]

A Peek into Token Bias: Large Language Models Are Not Yet Genuine ReasonersBowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie Su 0001, Camillo J. Taylor, Dan Roth. 4722-4756 [doi]

Bayesian Calibration of Win Rate Estimation with LLM EvaluatorsYicheng Gao, Gonghan Xu, Zhe Wang, Arman Cohan. 4757-4769 [doi]

MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical ReasoningShuo Yin, Weihao You, Zhilong Ji, Guoqiang Zhong 0001, Jinfeng Bai. 4770-4785 [doi]

Seeing the Forest through the Trees: Data Leakage from Partial Transformer GradientsWeijun Li, Qiongkai Xu, Mark Dras. 4786-4798 [doi]

RWKV-CLIP: A Robust Vision-Language Representation LearnerTiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai 0001, Jiankang deng. 4799-4812 [doi]

KidLM: Advancing Language Models for Children - Early Insights and Future DirectionsMir Tafseer Nayeem, Davood Rafiei. 4813-4836 [doi]

Using Language Models to Disambiguate Lexical Choices in TranslationJosh Barua, Sanjay Subramanian, Kayo Yin, Alane Suhr. 4837-4848 [doi]

How Does the Disclosure of AI Assistance Affect the Perceptions of Writing?Zhuoyan Li, Chen Liang, Jing Peng, Ming Yin 0001. 4849-4868 [doi]

An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare RecordsJoakim Edin, Maria Maistro, Lars Maaløe, Lasse Borgholt, Jakob D. Havtorn, Tuukka Ruotsalo. 4869-4890 [doi]

Crafting Personalized Agents through Retrieval-Augmented Generation on Editable Memory GraphsZheng Wang, Zhongyang Li, Zeren Jiang, Dandan Tu, Wei Shi. 4891-4906 [doi]

EVEDIT: Event-based Knowledge Editing for Deterministic Knowledge PropagationJiateng Liu, Pengfei Yu, Yuji Zhang, Sha Li, Zixuan Zhang, Ruhi Sarikaya, Kevin Small, Heng Ji. 4907-4926 [doi]

Modeling Nonnative Sentence Processing with L2 Language ModelsTatsuya Aoyama, Nathan Schneider 0001. 4927-4940 [doi]

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data SynthesisChuanqi Cheng, Jian Guan 0002, Wei Wu 0014, Rui Yan 0001. 4941-4957 [doi]

Quality Matters: Evaluating Synthetic Data for Tool-Using LLMsShadi Iskander, Sofia Tolmach, Ori Shapira, Nachshon Cohen, Zohar Karnin. 4958-4976 [doi]

Cross-Domain Audio Deepfake Detection: Dataset and AnalysisYuang Li, Min Zhang 0042, Mengxin Ren, Xiaosong Qiao, Miaomiao Ma, Daimeng Wei, Hao Yang 0006. 4977-4983 [doi]

MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression ComprehensionTing Liu, Zunnan Xu, Yue Hu, Liangtao Shi, Zhiqiang Wang, Quanjun Yin. 4984-4994 [doi]

Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge UtilizationMiyoung Ko, Sue Hyun Park, Joonsuk Park, Minjoon Seo. 4995-5027 [doi]

Aligning Translation-Specific Understanding to General Understanding in Large Language ModelsYichong Huang, Baohang Li, Xiaocheng Feng, Wenshuai Huo, Chengpeng Fu, Ting Liu 0001, Bing Qin 0001. 5028-5041 [doi]

FOOL ME IF YOU CAN! An Adversarial Dataset to Investigate the Robustness of LMs in Word Sense DisambiguationMohamad Ballout, Anne Dedert, Nohayr Abdelmoneim, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger. 5042-5059 [doi]

Concept-skill Transferability-based Data Selection for Large Vision-Language ModelsJaewoo Lee, Boyang Li, Sung Ju Hwang. 5060-5080 [doi]

LLMs Assist NLP Researchers: Critique Paper (Meta-)ReviewingJiangshu Du, Yibo Wang 0001, Wenting Zhao 0006, Zhongfen Deng, Shuaiqi Liu 0002, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Zhang 0004, Vipul Gupta, Yinghui Li, Tao Li 0039, Fei Wang 0060, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Cheng Jiayang, Zhaowei Wang 0003, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li 0003, Kangda Wei, Zihao Wang 0001, Lu Cheng 0001, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco 0002, Yixin Cao 0006, Rui Zhang 0037, Philip S. Yu, Wenpeng Yin 0001. 5081-5099 [doi]

Academics Can Contribute to Domain-Specialized Language ModelsMark Dredze, Genta Indra Winata, Prabhanjan Kambadur, Shijie Wu, Ozan Irsoy, Steven Lu 0003, Vadim Dabravolski, David S. Rosenberg, Sebastian Gehrmann. 5100-5110 [doi]

Beyond Reference: Evaluating High Quality Translations Better than Human ReferencesKeonwoong Noh, Seokjin Oh, Woohwan Jung. 5111-5127 [doi]

Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt EnhancementPengwei Zhan, Zhen Xu 0009, Qian Tan, Jie Song, Ru Xie. 5128-5154 [doi]

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian LanguagesHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Jann Montalan, Ryan Hadiwijaya, Joanito Agili Lopo, William Nixon, Börje Karlsson 0001, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus Irawan, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu 0012, Ngee Tai Chia, Ayu Purwarianti, Sebastian Ruder, William-Chandra Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng Xin Yong, Samuel Cahyawijaya. 5155-5203 [doi]

Induct-Learn: Short Phrase Prompting with Instruction InductionPo-Chun Chen, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen. 5204-5231 [doi]

Multi-Granularity History and Entity Similarity Learning for Temporal Knowledge Graph ReasoningShi Mingcong, Chunjiang Zhu, Detian Zhang, Shiting Wen, Qing Li 0001. 5232-5243 [doi]

LUQ: Long-text Uncertainty Quantification for LLMsCaiqi Zhang, Fangyu Liu 0001, Marco Basaldella, Nigel Collier. 5244-5262 [doi]

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration MethodWeichao Zhang, Ruqing Zhang 0001, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng. 5263-5274 [doi]

Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative GrammarsDamien Sileo. 5275-5283 [doi]

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning ApproachMaxime Poli, Emmanuel Chemla, Emmanuel Dupoux. 5284-5292 [doi]

Safely Learning with Private Data: A Federated Learning Framework for Large Language ModelJiaying Zheng, Hainan Zhang, Lingxiang Wang, Wangjie Qiu, Hong-Wei Zheng, Zhi Ming Zheng. 5293-5306 [doi]

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting KnowledgeJiahuan Li, Yiqing Cao, Shujian Huang, Jiajun Chen. 5307-5320 [doi]

How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?Yang Luo, Zangwei Zheng, Zirui Zhu, Yang You 0001. 5321-5335 [doi]

How Far Can We Extract Diverse Perspectives from Large Language Models?Shirley Anugrah Hayati, Minhwa Lee, Dheeraj Rajagopal, Dongyeop Kang. 5336-5366 [doi]

EXPLORA: Efficient Exemplar Subset Selection for Complex ReasoningKiran Purohit, Venktesh V, Raghuram Devalla, Krishna Yerragorla, Sourangshu Bhattacharya, Avishek Anand. 5367-5388 [doi]

An LLM Feature-based Framework for Dialogue Constructiveness AssessmentLexin Zhou, Youmna Farag, Andreas Vlachos 0001. 5389-5409 [doi]

Relevance Is a Guiding Light: Relevance-aware Adaptive Learning for End-to-end Task-oriented Dialogue SystemZhanpeng Chen, Zhihong Zhu, Wanshi Xu, Xianwei Zhuang, Yuexian Zou. 5410-5420 [doi]

Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow ExtractionSergio Burdisso, Srikanth R. Madikeri, Petr Motlícek. 5421-5440 [doi]

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image GenerationRaphael Tang, Crystina Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture. 5441-5454 [doi]

Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024Ilias Chalkidis. 5455-5467 [doi]

Adaption-of-Thought: Learning Question Difficulty Improves Large Language Models for ReasoningMayi Xu, Yongqi Li 0002, Ke Sun 0010, Tieyun Qian. 5468-5495 [doi]

LogicST: A Logical Self-Training Framework for Document-Level Relation Extraction with Incomplete AnnotationsShengda Fan, Yanting Wang, Shasha Mo, Jianwei Niu 0002. 5496-5510 [doi]

Concept Space Alignment in Multilingual LLMsQiwei Peng 0003, Anders Søgaard. 5511-5526 [doi]

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language ModelChenhan Yuan, Fei Huang 0004, Ru Peng, Keming Lu, Bowen Yu 0002, Chang Zhou, Jingren Zhou. 5527-5542 [doi]

NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in NorwegianPeng Liu 0025, Lemei Zhang, Terje Nissen Farup, Even W. Lauvrak, Jon Espen Ingvaldsen, Simen Eide, Jon Atle Gulla, Zhirong Yang. 5543-5560 [doi]

RSA-Control: A Pragmatics-Grounded Lightweight Controllable Text Generation FrameworkYifan Wang, Vera Demberg. 5561-5582 [doi]

Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language ModelsSiqi Wang, Zhengyu Chen 0001, Bei Li, Keqing He 0001, Min Zhang, Jingang Wang. 5583-5595 [doi]

Synergizing In-context Learning with Hints for End-to-end Task-oriented Dialog SystemsVishal Vivek Saley, Rocktim Jyoti Das, Dinesh Raghu, Mausam. 5596-5612 [doi]

REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question AnsweringYuhao Wang, Ruiyang Ren, Junyi Li, Xin Zhao 0018, Jing Liu 0022, Ji-Rong Wen. 5613-5626 [doi]

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QAMinzheng Wang, Longze Chen, Fu Cheng, Shengyi Liao, Xinghua Zhang 0001, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang 0007, Fei Huang 0004, Yongbin Li. 5627-5646 [doi]

On Mitigating Performance Disparities in Multilingual Speech RecognitionMonorama Swain, Anna Zee, Anders Søgaard. 5647-5655 [doi]

Thinking Outside of the Differential Privacy Box: A Case Study in Text Privatization with Language Model PromptingStephen Meisenbacher, Florian Matthes. 5656-5665 [doi]

To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language ModelsJunyan Lin, Haoran Chen, Dawei Zhu, Xiaoyu Shen 0001. 5666-5680 [doi]

What is "Typological Diversity" in NLP?Esther Ploeger, Wessel Poelman, Miryam de Lhoneux, Johannes Bjerva. 5681-5700 [doi]

The Computational Anatomy of Humility: Modeling Intellectual Humility in Online Public DiscourseXiaobo Guo, Neil Potnis, Melody Yu, Nabeel Gillani, Soroush Vosoughi. 5701-5723 [doi]

Consistent Bidirectional Language Modelling: Expressive Power and Representational ConcisenessGeorgi Shopov, Stefan Gerdjikov. 5724-5768 [doi]

Benchmarking Vision Language Models for Cultural UnderstandingShravan Nayak, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stanczak, Aishwarya Agrawal. 5769-5790 [doi]

Methods of Automatic Matrix Language Determination for Code-Switched SpeechOlga Iakovenko, Thomas Hain. 5791-5800 [doi]

Analyzing Key Factors Influencing Emotion Prediction Performance of VLLMs in Conversational ContextsJaewook Lee, Yeajin Jang, Hongjin Kim, Woojin Lee, Harksoo Kim. 5801-5816 [doi]

Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language ModelsJerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar. 5817-5830 [doi]

Teaching Small Language Models Reasoning through Counterfactual DistillationTao Feng, Yicheng Li, Chenglin Li, Hao Chen, Fei Yu, Yin Zhang. 5831-5842 [doi]

Pretraining Language Models Using TranslationeseMeet Doshi, Raj Dabre, Pushpak Bhattacharyya. 5843-5862 [doi]

Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual RetrievalKyle Buettner, Adriana Kovashka. 5863-5870 [doi]

MTA4DPR: Multi-Teaching-Assistants Based Iterative Knowledge Distillation for Dense Passage RetrievalQixi Lu, Endong Xun, Gongbo Tang. 5871-5883 [doi]

Fine-Grained Detection of Solidarity for Women and Migrants in 155 Years of German Parliamentary DebatesAida Kostikova, Dominik Beese, Benjamin Paassen, Ole Pütz, Gregor Wiedemann, Steffen Eger. 5884-5907 [doi]

CItruS: Chunked Instruction-aware State Eviction for Long Sequence ModelingYu Bai 0018, Xiyuan Zou, Heyan Huang, Sanxing Chen, Marc-Antoine Rondeau, Yang Gao 0016, Jackie C. K. Cheung. 5908-5930 [doi]

Story Embeddings - Narrative-Focused Representations of Fictional StoriesHans Ole Hatzel, Chris Biemann. 5931-5943 [doi]

C-LLM: Learn to Check Chinese Spelling Errors Character by CharacterKunting Li, Yong Hu, Liang He 0003, Fandong Meng, Jie Zhou 0016. 5944-5957 [doi]

PSC: Extending Context Window of Large Language Models via Phase Shift CalibrationWenqiao Zhu, Chao Xu, Lulu Wang, Jun Wu. 5958-5970 [doi]

Video-LLaVA: Learning United Visual Representation by Alignment Before ProjectionBin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 0001. 5971-5984 [doi]

SaySelf: Teaching LLMs to Express Confidence with Self-Reflective RationalesTianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang 0002, Yangyi Chen, Jing Gao 0004. 5985-5998 [doi]

Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic SmoothingRichard Diehl Martinez, Zebulon Goriely, Andrew Caines, Paula Buttery, Lisa Beinborn. 5999-6011 [doi]

ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking PerturbationsYunze Xiao, Yujia Hu, Kenny T. W. Choo, Roy Ka-Wei Lee. 6012-6025 [doi]

Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models?Siyu Yuan, Cheng Jiayang, Lin Qiu, Deqing Yang. 6026-6036 [doi]

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented GenerationJirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza. 6037-6053 [doi]

Do Large Language Models Know How Much They Know?Gabriele Prato, Jerry Huang, Prasanna Parthasarathi, Shagun Sodhani, Sarath Chandar. 6054-6070 [doi]

Investigating Mysteries of CoT-Augmented DistillationSomin Wadhwa, Silvio Amir, Byron C. Wallace. 6071-6086 [doi]

SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific TopicsZhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner. 6087-6104 [doi]

Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIPSamyadeep Basu, Shell Xu Hu, Maziar Sanjabi, Daniela Massiceti, Soheil Feizi. 6105-6113 [doi]

Learning from Natural Language Explanations for Generalizable Entity MatchingSomin Wadhwa, Adit Krishnan, Runhui Wang, Byron C. Wallace, Luyang Kong. 6114-6129 [doi]

Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented GenerationZhuohang Li, Jiaxin Zhang 0005, Chao Yan 0004, Kamalika Das, Kumar Sricharan, Murat Kantarcioglu, Bradley Malin. 6130-6151 [doi]

On the Reliability of Psychological Scales on Large Language ModelsJen-tse Huang 0001, Wenxiang Jiao, Man Ho Lam, Eric John Li, Wenxuan Wang 0001, Michael R. Lyu. 6152-6173 [doi]

Contrastive Entity Coreference and Disambiguation for Historical TextsAbhishek Arora 0003, Emily Silcock, Melissa Dell, Leander Heldring. 6174-6186 [doi]

Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language ModelsJeonghwan Kim, Heng Ji. 6187-6207 [doi]

Evaluating LLMs for Targeted Concept Simplification for Domain-Specific TextsSumit Asthana, Hannah Rashkin, Elizabeth Clark, Fantine Huot, Mirella Lapata. 6208-6226 [doi]

VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models AlignmentLei Li 0039, Zhihui Xie 0002, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen 0024, Yazheng Yang, Benyou Wang, Lingpeng Kong, Qi Liu 0049. 6227-6246 [doi]

Focused Large Language Models are Stable Many-Shot LearnersPeiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Heda Wang, Yao Hu, Kan Li. 6247-6261 [doi]

Reconsidering Sentence-Level Sign Language TranslationGarrett Tanzer, Maximus Shengelia, Ken Harrenstien, David Uthus. 6262-6287 [doi]

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning AbilitiesSreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha. 6288-6313 [doi]

Verba volant, scripta volant? Don't worry! There are computational solutions for protoword reconstructionLiviu P. Dinu, Ana Sabina Uban, Alina Maria Cristea, Ioan-Bogdan Iordache, Teodor-George Marchitan, Simona Georgescu, Laurentiu Zoicas. 6314-6326 [doi]

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in ContextVictoria R. Li, Yida Chen, Naomi Saphra. 6327-6345 [doi]

Personas as a Way to Model Truthfulness in Language ModelsNitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He 0001. 6346-6359 [doi]

Satyrn: A Platform for Analytics Augmented GenerationMarko Sterbentz, Cameron Barrie, Shubham Shahi, Abhratanu Dutta, Donna Hooshmand, Harper Pack, Kristian J. Hammond. 6360-6385 [doi]

EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation LearningAshish Seth, Ramaneswaran Selvakumar, S. Sakshi, Sonal Kumar, Sreyan Ghosh, Dinesh Manocha. 6386-6400 [doi]

EPO: Hierarchical LLM Agents with Environment Preference OptimizationQi Zhao, Haotian Fu, Chen Sun, George Konidaris 0001. 6401-6415 [doi]

Detection and Measurement of Syntactic Templates in Generated TextChantal Shaib, Yanai Elazar, Junyi Jessy Li, Byron C. Wallace. 6416-6431 [doi]

UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language ModelsXinyu Pi, Mingyuan Wu, Jize Jiang, Haozhen Zheng, Beitong Tian, ChengXiang Zhai, Klara Nahrstedt, Zhiting Hu. 6432-6441 [doi]

Optimized Speculative Sampling for GPU Hardware AcceleratorsDominik Wagner 0002, Seanie Lee, Ilja Baumann, Philipp Seeberger, Korbinian Riedhammer, Tobias Bocklet. 6442-6458 [doi]

Personalized Pieces: Efficient Personalized Large Language Models through Collaborative EffortsZhaoxuan Tan, Zheyuan Liu 0010, Meng Jiang 0001. 6459-6475 [doi]

Democratizing Large Language Models via Personalized Parameter-Efficient Fine-tuningZhaoxuan Tan, Qingkai Zeng 0001, Yijun Tian 0001, Zheyuan Liu 0010, Bing Yin, Meng Jiang 0001. 6476-6491 [doi]

Unifying Multimodal Retrieval via Document Screenshot EmbeddingXueguang Ma, Sheng-Chieh Lin, Minghan Li 0002, Wenhu Chen, Jimmy Lin. 6492-6505 [doi]

Neuron Specialization: Leveraging Intrinsic Task Modularity for Multilingual Machine TranslationShaomu Tan, Di Wu, Christof Monz. 6506-6527 [doi]

An Audit on the Perspectives and Challenges of Hallucinations in NLPPranav Narayanan Venkit, Tatiana Chakravorti, Vipul Gupta, Heidi Biggs, Mukund Srinath, Koustava Goswami, Sarah Rajtmajer, Shomir Wilson. 6528-6548 [doi]

Discovering Knowledge-Critical Subnetworks in Pretrained Language ModelsDeniz Bayazit, Negar Foroutan, Zeming Chen, Gail Weiss, Antoine Bosselut. 6549-6583 [doi]

Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT ModelsJunjie Chu, Zeyang Sha, Michael Backes 0001, Yang Zhang 0016. 6584-6600 [doi]

Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question AnsweringArmin Toroghi, Willis Guo, Mohammad Mahdi Abdollah Pour, Scott Sanner. 6601-6633 [doi]

Verifiable, Debuggable, and Repairable Commonsense Logical Reasoning via LLM-based Theory ResolutionArmin Toroghi, Willis Guo, Ali Pesaranghader, Scott Sanner. 6634-6652 [doi]

Understanding and Mitigating Language Confusion in LLMsKelly Marchisio, Wei-Yin Ko, Alexandre Berard, Théo Dehaze, Sebastian Ruder. 6653-6677 [doi]

Can Large Language Models Learn Independent Causal Mechanisms?Gaël Gendron, Bao Trung Nguyen, Alex Yuxuan Peng, Michael J. Witbrock, Gillian Dobbie. 6678-6701 [doi]

MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language ModelsSarfaroz Yunusov, Hamza Sidat, Ali Emami. 6702-6717 [doi]

InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game ContextZiyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang 0003, Jieyu Zhao. 6718-6746 [doi]

Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on WikipediaFarhan Samir, Chan Young Park, Anjalie Field, Vered Shwartz, Yulia Tsvetkov. 6747-6762 [doi]

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language ModelsMehar Bhatia, Sahithya Ravi, Aditya Chinchure, EunJeong Hwang, Vered Shwartz. 6763-6782 [doi]

Dynamic Multi-Reward Weighting for Multi-Style Controllable GenerationKarin de Langis, Ryan Koo, Dongyeop Kang. 6783-6800 [doi]

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language ModelJiahao Huo, Yibo Yan, Boren Hu, Yutao Yue, Xuming Hu. 6801-6816 [doi]

Learning to Extract Structured Entities Using Language ModelsHaolun Wu, Ye Yuan, Liana Mikaelyan, Alexander Meulemans, Xue Liu 0004, James Hensman, Bhaskar Mitra 0001. 6817-6834 [doi]

Efficient LLM Comparative Assessment: A Product of Experts Framework for Pairwise ComparisonsAdian Liusie, Vatsal Raina, Yassir Fathullah, Mark J. F. Gales. 6835-6855 [doi]

A Survey of AMR ApplicationsShira Wein, Juri Opitz. 6856-6875 [doi]

Beyond Embeddings: The Promise of Visual Table in Visual ReasoningYiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang 0009. 6876-6911 [doi]

CareCorpus+: Expanding and Augmenting Caregiver Strategy Data to Support Pediatric RehabilitationShahla Farzana, Ivana Lucero, Vivian Villegas, Vera C. Kaelin, Mary A. Khetani, Natalie Parde. 6912-6927 [doi]

Taylor Unswift: Secured Weight Release for Large Language Models via Taylor ExpansionGuanchu Wang, Yu-Neng Chuang, Ruixiang Tang, Shaochen Zhong, Jiayi Yuan, Hongye Jin, Zirui Liu 0001, Vipin Chaudhary, Shuai Xu, James Caverlee, Xia Ben Hu. 6928-6941 [doi]

TimeR⁴ : Time-aware Retrieval-Augmented Large Language Models for Temporal Knowledge Graph Question AnsweringXinying Qian, Ying Zhang, Yu Zhao, Baohang Zhou, Xuhui Sui, Li Zhang, Kehui Song. 6942-6952 [doi]

Knowledge-Centric Hallucination DetectionXiangkun Hu, Dongyu Ru, Lin Qiu, Qipeng Guo, Tianhang Zhang, Yang Xu, Yun Luo, Pengfei Liu, Yue Zhang, Zheng Zhang. 6953-6975 [doi]

Revealing the Parallel Multilingual Learning within Large Language ModelsYongyu Mu, Peinan Feng, Zhiquan Cao, Yuzhang Wu, Bei Li, Chenglong Wang, Tong Xiao, Kai Song, Tongran Liu, Chunliang Zhang, Jingbo Zhu. 6976-6997 [doi]

Automatic Instruction Evolving for Large Language ModelsWeihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, Weizhu Chen. 6998-7018 [doi]

RepEval: Effective Text Evaluation with LLM RepresentationShuqian Sheng, Yi Xu 0004, Tianhang Zhang, Zanwei Shen, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xiaoying Gan, Xinbing Wang, Chenghu Zhou. 7019-7033 [doi]

Generative Models for Automatic Medical Decision Rule Extraction from TextYuxin He, Buzhou Tang, Xiaoling Wang. 7034-7048 [doi]

Encoding and Controlling Global Semantics for Long-form Video Question AnsweringThong Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy Nguyen, See-Kiong Ng, Anh Tuan Luu. 7049-7066 [doi]

Towards Understanding Jailbreak Attacks in LLMs: A Representation Space AnalysisYuping Lin, Pengfei He, Han Xu 0002, Yue Xing 0002, Makoto Yamada, Hui Liu 0031, Jiliang Tang. 7067-7085 [doi]

Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate PairsCheng Gao, Chaojun Xiao, Zhenghao Liu, Huimin Chen, Zhiyuan Liu 0001, Maosong Sun 0001. 7086-7100 [doi]

Does Large Language Model Contain Task-Specific Neurons?Ran Song, Shizhu He, Shuting Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu 0001, Zhengtao Yu 0001. 7101-7113 [doi]

Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language ModelsPhilipp Mondorf, Barbara Plank. 7114-7137 [doi]

Advancing Test-Time Adaptation in Wild Acoustic Test SettingsHongfu Liu 0002, Hengguan Huang, Ye Wang 0007. 7138-7155 [doi]

Learning to Retrieve Iteratively for In-Context LearningYunmo Chen, Tongfei Chen, Harsh Jhamtani, Patrick Xia 0002, Richard Shin, Jason Eisner, Benjamin Van Durme. 7156-7168 [doi]

Taxonomy-guided Semantic Indexing for Academic Paper SearchSeongKu Kang, Yunyi Zhang 0001, Pengcheng Jiang, Dongha Lee 0003, Jiawei Han 0001, Hwanjo Yu. 7169-7184 [doi]

Python is Not Always the Best Choice: Embracing Multilingual Program of ThoughtsXianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin 0001, Xuanyu Zhang, Qing Yang 0033, Dongliang Xu, Wanxiang Che. 7185-7212 [doi]

Advancing Adversarial Suffix Transfer Learning on Aligned Large Language ModelsHongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh. 7213-7224 [doi]

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance AugmentationZhiyu Cao, Peifeng Li, Yaxin Fan, Qiaoming Zhu. 7225-7238 [doi]

FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in LLMsYiyuan Li, Shichao Sun, Pengfei Liu. 7239-7256 [doi]

Aligning Large Language Models with Diverse Political ViewpointsDominik Stammbach, Philine Widmer, Eunjung Cho, Caglar Gulcehre, Elliott Ash. 7257-7267 [doi]

"You Gotta be a Doctor, Lin" : An Investigation of Name-Based Bias of Large Language Models in Employment RecommendationsHuy Nghiem, John Prindle, Jieyu Zhao, Hal Daumé III. 7268-7287 [doi]

Extending Context Window of Large Language Models from a Distributional PerspectiveYingsheng Wu, Yuxuan Gu, Xiaocheng Feng, Weihong Zhong, Dongliang Xu, Qing Yang 0033, Hongtao Liu, Bing Qin 0001. 7288-7301 [doi]

Leveraging pre-trained language models for linguistic analysis: A case of argument structure constructionsHakyung Sung, Kristopher Kyle. 7302-7314 [doi]

MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and CollaborationLin Xu, Zhiyuan Hu, Daquan Zhou, Hongyu Ren, Zhen Dong 0003, Kurt Keutzer, See-Kiong Ng, Jiashi Feng. 7315-7332 [doi]

Position Engineering: Boosting Large Language Models through Positional Information ManipulationZhiyuan He, Huiqiang Jiang, Zilong Wang, Yuqing Yang 0001, Luna Qiu, Lili Qiu. 7333-7345 [doi]

Towards Injecting Medical Visual Knowledge into Multimodal LLMs at ScaleJunying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Chen, Xidong Wang, Zhenyang Cai, Ke-ji, Xiang Wan, Benyou Wang. 7346-7370 [doi]

ADELIE: Aligning Large Language Models on Information ExtractionYunjia Qi, Hao Peng 0015, Xiaozhi Wang, Bin Xu 0001, Lei Hou 0001, Juanzi Li. 7371-7387 [doi]

Unveiling Factual Recall Behaviors of Large Language Models through Knowledge NeuronsYifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Zeng 0001. 7388-7402 [doi]

Lexically Grounded Subword SegmentationJindrich Libovický, Jindrich Helcl. 7403-7420 [doi]

EAGLE-2: Faster Inference of Language Models with Dynamic Draft TreesYuhui Li, Fangyun Wei, Chao Zhang 0001, Hongyang Zhang 0001. 7421-7432 [doi]

Do Text-to-Vis Benchmarks Test Real Use of Visualisations?Hy Nguyen, Xuefei He, Andrew Reeson, Cécile Paris, Josiah Poon, Jonathan K. Kummerfeld. 7433-7441 [doi]

Gold Panning in Vocabulary: An Adaptive Method for Vocabulary Expansion of Domain-Specific LLMsChengyuan Liu, Shihang Wang, Lizhi Qing, Kun Kuang, Yangyang Kang, Changlong Sun, Fei Wu 0001. 7442-7459 [doi]

Strategic Demonstration Selection for Improved Fairness in LLM In-Context LearningJingyu Hu, Weiru Liu, Mengnan Du. 7460-7475 [doi]

Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and ChallengesNguyen-Dinh, Thanh Dang, Luan Thanh Nguyen, Kiet Van Nguyen. 7476-7498 [doi]

Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM AssessmentVyas Raina, Adian Liusie, Mark J. F. Gales. 7499-7517 [doi]

Rethinking the Reversal Curse of LLMs: a Prescription from Human Knowledge ReversalZhicong Lu, Li Jin, Peiguang Li, Yu Tian, Linhao Zhang, Sirui Wang, Guangluan Xu, Changyuan Tian, Xunliang Cai. 7518-7530 [doi]

More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMsChengyuan Liu, Yangyang Kang, Shihang Wang, Lizhi Qing, Fubang Zhao, Chao Wu 0001, Changlong Sun, Kun Kuang, Fei Wu 0001. 7531-7548 [doi]

Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation ModelsVyas Raina, Rao Ma, Charles McGhee, Kate M. Knill, Mark J. F. Gales. 7549-7565 [doi]

GENRA: Enhancing Zero-shot Retrieval with Rank AggregationGeorgios Katsimpras, Georgios Paliouras. 7566-7577 [doi]

XplainLLM: A Knowledge-Augmented Dataset for Reliable Grounded Explanations in LLMsZichen Chen, Jianda Chen, Ambuj K. Singh, Misha Sra. 7578-7596 [doi]

Divide and Conquer Radiology Report Generation via Observation Level Fine-grained Pretraining and Prompt TuningYuanpin Zhou, Huogen Wang. 7597-7610 [doi]

SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved InformationJiashuo Sun, Jihai Zhang 0002, Yucheng Zhou, Zhaochen Su, Xiaoye Qu, Yu Cheng 0001. 7611-7629 [doi]

UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language ModelsZhanyue Qin, Haochuan Wang, Deyuan Liu, Ziyang Song, Cunhang Fan, Zhao Lv, Jinlin Wu, Zhen Lei 0001, Zhiying Tu, Dianhui Chu, Xiaoyan Yu, Dianbo Sui. 7630-7645 [doi]

Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex EnvironmentsYu Gu 0016, Yiheng Shu, Hao Yu, Xiao Liu 0036, Yuxiao Dong, Jie Tang 0001, Jayanth Srinivasa, Hugo Latapie, Yu Su 0001. 7646-7663 [doi]

MORPHEUS: Modeling Role from Personalized Dialogue History by Exploring and Utilizing Latent SpaceYihong Tang, Bo Wang, Dongming Zhao, Jinxiaojia Jinxiaojia, Zhangjijun Zhangjijun, Ruifang He, Yuexian Hou. 7664-7676 [doi]

KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from ServerWenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang 0001. 7677-7695 [doi]

DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object HallucinationXuan Gong, Tianshi Ming, Xinpeng Wang, Zhihua Wei. 7696-7712 [doi]

Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in Large Language ModelsTianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen 0001, Kang Liu 0001, Jun Zhao 0001. 7713-7724 [doi]

Breaking Language Barriers: Cross-Lingual Continual Pre-Training at ScaleWenzhen Zheng, Wenbo Pan, Xu Xu, Libo Qin 0001, Li Yue 0010, Ming Zhou. 7725-7738 [doi]

An Empirical Study of Multilingual Reasoning Distillation for Question AnsweringPatomporn Payoungkhamdee, Peerat Limkonchotiwat, Jinheon Baek, Potsawee Manakul, Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong. 7739-7751 [doi]

Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?Gal Yona, Roee Aharoni, Mor Geva. 7752-7764 [doi]

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig. 7765-7784 [doi]

Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context LearningMing Shan Hee, Aditi Kumaresan, Roy Ka-Wei Lee. 7785-7799 [doi]

MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase UnderstandingBaixuan Xu, Weiqi Wang 0001, Haochen Shi, Wenxuan Ding 0001, Huihao Jing, Tianqing Fang, Jiaxin Bai, Xin Liu 0039, Changlong Yu, Zheng Li 0018, Chen Luo 0003, Qingyu Yin, Bing Yin, Long Chen, Yangqiu Song. 7800-7815 [doi]

ECON: On the Detection and Resolution of Evidence ConflictsCheng Jiayang, Chunkit Chan, Qianqian Zhuang, Lin Qiu, Tianhang Zhang, Tengxiao Liu, Yangqiu Song, Yue Zhang 0004, Pengfei Liu 0003, Zheng Zhang 0001. 7816-7844 [doi]

"Image, Tell me your story!" Predicting the original meta-context of visual misinformationJonathan Tonglet, Marie-Francine Moens, Iryna Gurevych. 7845-7864 [doi]

Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema PruningZhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan. 7865-7879 [doi]

Mixture-of-Subspaces in Low-Rank AdaptationTaiqiang Wu, Jiahao Wang, Zhe Zhao 0006, Ngai Wong. 7880-7899 [doi]

PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural DataIshaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan 0001, Sunayana Sitaram. 7900-7932 [doi]

LawBench: Benchmarking Legal Knowledge of Large Language ModelsZhiwei Fei, Xiaoyu Shen 0001, Dawei Zhu, Fengzhe Zhou, Zhuo Han, Alan Huang, Songyang Zhang, Kai Chen 0026, Zhixin Yin, Zongwen Shen, JiDong Ge, Vincent Ng 0001. 7933-7962 [doi]

Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific LeaderboardsFurkan Sahinuç, Thy Thy Tran, Yulia Grishina, Yufang Hou 0001, Bei Chen, Iryna Gurevych. 7963-7977 [doi]

Efficient Vision-Language pre-training via domain-specific learning for human activitiesAdrian Bulat, Yassine Ouali, Ricardo Guerrero, Brais Martínez, Georgios Tzimiropoulos. 7978-8000 [doi]

Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware TrainingWenbo Li, Guohao Li 0002, Zhibin Lan, Xue Xu, Wanru Zhuang, Jiachen Liu, Xinyan Xiao, Jinsong Su. 8001-8014 [doi]

Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional WorksXinfeng Yuan, Siyu Yuan, Yuhan Cui, Tianhe Lin, Xintao Wang, Rui Xu, Jiangjie Chen, Deqing Yang. 8015-8036 [doi]

Getting More from Less: Large Language Models are Good Spontaneous Multilingual LearnersShimao Zhang, Changjiang Gao, Wenhao Zhu, Jiajun Chen, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang. 8037-8051 [doi]

AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative LearningHao Sun 0015, Jiayi Wu, Hengyi Cai, Xiaochi Wei, Yue Feng, Bo Wang, Shuaiqiang Wang, Yan Zhang, Dawei Yin. 8052-8062 [doi]

CoBa: Convergence Balancer for Multitask Finetuning of Large Language ModelsZi Gong, Hang Yu 0002, Cong Liao, Bingchang Liu, Chaoyu Chen, Jianguo Li. 8063-8077 [doi]

mDPO: Conditional Preference Optimization for Multimodal Large Language ModelsFei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen. 8078-8088 [doi]

Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language ModelsFei Wang 0060, Ninareh Mehrabi, Palash Goyal, Rahul Gupta 0001, Kai-Wei Chang, Aram Galstyan. 8089-8100 [doi]

Language-to-Code Translation with a Single Labeled ExampleKaj Bostrom, Harsh Jhamtani, Hao Fang, Sam Thomson, Richard Shin, Patrick Xia 0002, Benjamin Van Durme, Jason Eisner, Jacob Andreas. 8101-8112 [doi]

Attribute or Abstain: Large Language Models as Long Document AssistantsJan Buchmann, Xiao Liu, Iryna Gurevych. 8113-8140 [doi]

FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation ModelsXiaochen Wang, Jiaqi Wang 0002, Houping Xiao, Jinghui Chen, Fenglong Ma. 8141-8154 [doi]

Retrieved In-Context Principles from Previous MistakesHao Sun, Yong Jiang, Bo Wang, Yingyan Hou, Yan Zhang, Pengjun Xie, Fei Huang 0004. 8155-8169 [doi]

EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion ControlHaozhe Chen, Run Chen, Julia Hirschberg. 8170-8180 [doi]

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language ModelsYiFei Liu, Jicheng Wen, Yang Wang 0053, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li 0001, Mao Yang 0004. 8181-8196 [doi]

An L* Algorithm for Deterministic Weighted Regular LanguagesClemente Pasti, Talu Karagöz, Franz Nowak, Anej Svete, Reda Boumasmoud, Ryan Cotterell. 8197-8210 [doi]

Towards Verifiable Text Generation with Evolving Memory and Self-ReflectionHao Sun, Hengyi Cai, Bo Wang, Yingyan Hou, Xiaochi Wei, Shuaiqiang Wang, Yan Zhang, Dawei Yin. 8211-8227 [doi]

Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought VerificationPritish Sahu, Karan Sikka, Ajay Divakaran. 8228-8248 [doi]

Resampled Datasets Are Not Enough: Mitigating Societal Bias Beyond Single AttributesYusuke Hirota, Jerone Theodore Alexander Andrews, Dora Zhao, Orestis Papakyriakopoulos, Apostolos Modas, Yuta Nakashima, Alice Xiang. 8249-8267 [doi]

RealVul: Can We Detect Vulnerabilities in Web Applications with LLM?Di Cao, Yong Liao, Xiuwei Shang. 8268-8282 [doi]

Unsupervised End-to-End Task-Oriented Dialogue with LLMs: The Power of the Noisy ChannelBrendan King, Jeffrey Flanigan. 8283-8300 [doi]

Humans or LLMs as the Judge? A Study on Judgement BiasGuiming Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang. 8301-8327 [doi]

WPO: Enhancing RLHF with Weighted Preference OptimizationWenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu. 8328-8340 [doi]

Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and BiasRongwu Xu, Zi'an Zhou, Tianwei Zhang 0004, Zehan Qi, Su Yao, Ke Xu 0002, Wei Xu, Han Qiu 0001. 8341-8368 [doi]

MetaReflection: Learning Instructions for Language Agents using Past ReflectionsPriyanshu Gupta, Shashank Kirtania, Ananya Singha, Sumit Gulwani, Arjun Radhakrishna, Gustavo Soares, Sherry Shi. 8369-8385 [doi]

Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model TutorsNico Daheim, Jakub Macina, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan. 8386-8411 [doi]

On Eliciting Syntax from Language Models via HashingYiran Wang 0006, Masao Utiyama. 8412-8427 [doi]

CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical ScenariosZetian Ouyang, Yishuai Qiu, Linlin Wang, Gerard de Melo, Ya Zhang 0002, Yanfeng Wang 0001, Liang He 0001. 8428-8438 [doi]

The Best Defense is Attack: Repairing Semantics in Textual Adversarial ExamplesHeng Yang, Ke Li. 8439-8457 [doi]

CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource LanguagesPretam Ray, Jivnesh Sandhan, Amrith Krishna, Pawan Goyal 0002. 8458-8466 [doi]

Perceptions of Linguistic Uncertainty by Language Models and HumansCatarina G. Belém, Markelle Kelly, Mark Steyvers, Sameer Singh 0001, Padhraic Smyth. 8467-8502 [doi]

Explaining and Improving Contrastive Decoding by Extrapolating the Probabilities of a Huge and Hypothetical LMHaw-Shiuan Chang, Nanyun Peng, Mohit Bansal, Anil Ramakrishna, Tagyoung Chung. 8503-8526 [doi]

Zero-shot Cross-domain Dialogue State Tracking via Context-aware Auto-prompting and Instruction-following Contrastive DecodingXiaoyu Dong, Yujie Feng, Zexin Lu, Guangyuan Shi, Xiao-Ming Wu 0003. 8527-8540 [doi]

Knowledge Conflicts for LLMs: A SurveyRongwu Xu, Zehan Qi, Zhijiang Guo, Cunxiang Wang, Hongru Wang 0003, Yue Zhang 0004, Wei Xu. 8541-8565 [doi]

MisinfoEval: Generative AI in the Era of "Alternative Facts"Saadia Gabriel, Liang Lyu, James Siderius, Marzyeh Ghassemi, Jacob Andreas, Asuman E. Ozdaglar. 8566-8578 [doi]

MEANT: Multimodal Encoder for Antecedent InformationBenjamin Irving, Annika Schoene. 8579-8600 [doi]

A Thorough Examination of Decoding Methods in the Era of LLMsChufan Shi, Haoran Yang, Deng Cai 0002, Zhisong Zhang, Yifan Wang, Yujiu Yang, Wai Lam. 8601-8629 [doi]

AGRaME: Any-Granularity Ranking with Multi-Vector EmbeddingsRevanth Gangi Reddy, Omar Attia, Yunyao Li 0001, Heng Ji, Saloni Potdar. 8630-8641 [doi]

FIRST: Faster Improved Listwise Reranking with Single Token DecodingRevanth Gangi Reddy, JaeHyeok Doo, Yifei Xu, Md. Arafat Sultan, Deevya Swain, Avirup Sil, Heng Ji. 8642-8652 [doi]

Exploring Nested Named Entity Recognition with Large Language Models: Methods, Challenges, and InsightsHongjin Kim, Jai-Eun Kim, Harksoo Kim. 8653-8670 [doi]

ReCaLL: Membership Inference via Relative Conditional Log-LikelihoodsRoy Xie, Junlin Wang, Ruomin Huang, Minxing Zhang, Rong Ge, Jian Pei, Neil Gong 0001, Bhuwan Dhingra. 8671-8689 [doi]

"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language ModelsKarina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut. 8690-8707 [doi]

Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention PerspectiveYujian Liu, Yang Zhang 0001, Tommi S. Jaakkola, Shiyu Chang. 8708-8731 [doi]

LIONs: An Empirically Optimized Approach to Align Language ModelsXiao Yu, Qingyang Wu, Yu Li, Zhou Yu 0005. 8732-8753 [doi]

Jellyfish: Instruction-Tuning Local Large Language Models for Data PreprocessingHaochen Zhang, Yuyang Dong, Chuan Xiao 0001, Masafumi Oyamada. 8754-8782 [doi]

A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific DiscoveryYu Zhang 0044, Xiusi Chen, Bowen Jin, Sheng Wang 0012, Shuiwang Ji, Wei Wang 0010, Jiawei Han 0001. 8783-8817 [doi]

MiniCheck: Efficient Fact-Checking of LLMs on Grounding DocumentsLiyan Tang, Philippe Laban, Greg Durrett. 8818-8847 [doi]

Beyond Label Attention: Transparency in Language Models for Automated Medical Coding via Dictionary LearningJohn Wu, David Wu, Jimeng Sun 0001. 8848-8871 [doi]

MOSEL: Inference Serving Using Dynamic Modality SelectionBodun Hu, Le Xu, Jeongyoon Moon, Neeraja J. Yadwadkar, Aditya Akella. 8872-8886 [doi]

From RAG to Riches: Retrieval Interlaced with Sequence GenerationPalak Jain 0006, Livio Baldini Soares, Tom Kwiatkowski. 8887-8904 [doi]

Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech RecognitionHsuan Su, Hua Farn, Fan-Yun Sun, Shang-Tse Chen, Hung-yi Lee. 8905-8915 [doi]

Learning to Correct for QA Reasoning with Black-box LLMsJaehyung Kim 0001, Dongyoung Kim, Yiming Yang. 8916-8937 [doi]

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant. 8938-8968 [doi]

PostMark: A Robust Blackbox Watermark for Large Language ModelsYapei Chang, Kalpesh Krishna, Amir Houmansadr, John Wieting, Mohit Iyyer. 8969-8987 [doi]

Assessing "Implicit" Retrieval Robustness of Large Language ModelsXiaoyu Shen, Rexhina Blloshmi, Dawei Zhu, Jiahuan Pei, Wei Zhang. 8988-9003 [doi]

On the Relationship between Truth and Political Bias in Language ModelsSuyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan, Deb Roy, Jad Kabbara. 9004-9018 [doi]

Can Active Label Correction Improve LLM-based Modular AI Systems?Karan Taneja, Ashok K. Goel 0001. 9019-9031 [doi]

Statistical Uncertainty in Word Embeddings: GloVe-VAndrea Vallebueno, Cassandra Handan-Nader, Christopher D. Manning, Daniel E. Ho. 9032-9047 [doi]

Annotation alignment: Comparing LLM and human annotations of conversational safetyRajiv Movva, Pang Wei Koh, Emma Pierson. 9048-9062 [doi]

DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice QuestionsNigel Fernandez, Alexander Scarlatos, Wanyong Feng, Simon Woodhead 0002, Andrew S. Lan. 9063-9081 [doi]

The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented InterventionYixin Wan, Di Wu, Haoran Wang, Kai-Wei Chang. 9082-9100 [doi]

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language ModelsYuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran. 9101-9118 [doi]

Enhancing Reinforcement Learning with Dense Rewards from Language Model CriticMeng Cao, Lei Shu 0004, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei Meng. 9119-9138 [doi]

Words Matter: Reducing Stigma in Online Conversations about Substance Use with Large Language ModelsLayla Bouzoubaa, Elham Aghakhani, Rezvaneh Rezapour. 9139-9156 [doi]

Efficient Sequential Decision Making with Large Language ModelsDingyang Chen, Qi Zhang, Yinglun Zhu. 9157-9170 [doi]

SignCLIP: Connecting Text and Sign Language by Contrastive LearningZifan Jiang, Gerard Sant, Amit Moryossef, Mathias Müller 0002, Rico Sennrich, Sarah Ebling. 9171-9193 [doi]

APPLS: Evaluating Evaluation Metrics for Plain Language SummarizationYue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang. 9194-9211 [doi]

Ontologically Faithful Generation of Non-Player Character DialoguesNathaniel Weir, Ryan Thomas, Randolph D'Amore, Kellie Hill, Benjamin Van Durme, Harsh Jhamtani. 9212-9242 [doi]

LLM See, LLM Do: Leveraging Active Inheritance to Target Non-Differentiable ObjectivesLuísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker. 9243-9267 [doi]

RuBLiMP: Russian Benchmark of Linguistic Minimal PairsEkaterina Taktasheva, Maxim Bazhukov, Kirill Koncha, Alena Fenogenova, Ekaterina Artemova, Vladislav Mikhailov. 9268-9299 [doi]

Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple ExtractionZheye Deng, Chunkit Chan, Weiqi Wang 0001, Yuxi Sun 0010, Wei Fan, Tianshi Zheng, Yauwai Yim, Yangqiu Song. 9300-9322 [doi]

Toward Compositional Behavior in Neural Models: A Survey of Current ViewsKate McCurdy, Paul Soulos, Paul Smolensky, Roland Fernandez, Jianfeng Gao 0001. 9323-9339 [doi]

Optimizing Instructions and Demonstrations for Multi-Stage Language Model ProgramsKrista Opsahl-Ong, Michael J. Ryan, Josh Purtell, David Broman, Christopher Potts, Matei Zaharia, Omar Khattab. 9340-9366 [doi]

Reverse-Engineering the ReaderSamuel Kiegeland, Ethan Wilcox, Afra Amini, David Reich, Ryan Cotterell. 9367-9389 [doi]

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented GenerationDi Wu, Jia-Chen Gu, Fan Yin, Nanyun Peng, Kai-Wei Chang. 9390-9406 [doi]

Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the TextKewei Cheng, Nesreen K. Ahmed, Theodore L. Willke, Yizhou Sun. 9407-9430 [doi]

Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer LearningDavid Schulte, Felix Hamborg, Alan Akbik. 9431-9442 [doi]

The effects of distance on NPI illusive effects in BERTSo Lee, Mai Vu. 9443-9457 [doi]

Enhancing Systematic Decompositional Natural Language Inference Using Informal LogicNathaniel Weir, Kate Sanders 0002, Orion Weller, Shreya Sharma 0010, Dongwei Jiang, Zhengping Jiang, Bhavana Dalvi Mishra, Oyvind Tafjord, Peter A. Jansen, Peter Clark, Benjamin Van Durme. 9458-9482 [doi]

Susu Box or Piggy Bank: Assessing Cultural Commonsense Knowledge between Ghana and the USChristabel Acquaye, Haozhe An, Rachel Rudinger. 9483-9502 [doi]

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens GroundingYue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Wang. 9503-9522 [doi]

Ranking Manipulation for Conversational Search EnginesSamuel Pfrommer, Yatong Bai, Tanmay Gautam, Somayeh Sojoudi. 9523-9552 [doi]

Fast Forwarding Low-Rank TrainingAdir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov. 9553-9562 [doi]

Precise Model Benchmarking with Only a Few ObservationsRiccardo Fogliato, Pratik Patil, Nil-Jana Akpinar, Mathew Monfort. 9563-9575 [doi]

Attribute Diversity Determines the Systematicity Gap in VQAIan Berlot-Attwell, Kumar Krishna Agrawal, Annabelle Michael Carrell, Yash Sharma, Naomi Saphra. 9576-9611 [doi]

ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language ModelsBenjamin Newman, Yoonjoo Lee, Aakanksha Naik, Pao Siangliulue, Raymond Fok, Juho Kim, Daniel S. Weld, Joseph Chee Chang, Kyle Lo. 9612-9631 [doi]

Development of Cognitive Intelligence in Pre-trained Language ModelsRaj Sanjay Shah, Khushi Bhardwaj, Sashank Varma. 9632-9657 [doi]

Modeling Layout Reading Order as Ordering Relations for Visually-rich Document UnderstandingChong Zhang, Yi Tu, Yixi Zhao, Chenshu Yuan, Huan Chen, Yue Zhang 0004, Mingxu Chai, Ya Guo, Huijia Zhu, Qi Zhang 0001, Tao Gui. 9658-9678 [doi]

Birdie: Advancing State Space Language Modeling with Dynamic Mixtures of Training ObjectivesSam Blouir, Jimmy Smith, Antonios Anastasopoulos, Amarda Shehu. 9679-9705 [doi]

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow. 9706-9726 [doi]

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMsSheridan Feucht, David Atkinson, Byron C. Wallace, David Bau. 9727-9739 [doi]

TraveLER: A Modular Multi-LMM Agent Framework for Video Question-AnsweringChuyi Shang, Amos You, Sanjay Subramanian, Trevor Darrell, Roei Herzig. 9740-9766 [doi]

Evaluating the Effectiveness of Large Language Models in Establishing Conversational GroundingBiswesh Mohapatra, Manav Nitin Kapadnis, Laurent Romary, Justine Cassell. 9767-9781 [doi]

Unlocking Memorization in Large Language Models with Dynamic Soft PromptingZhepeng Wang 0001, Runxue Bao, Yawen Wu, Jackson Taylor, Cao Xiao, Feng Zheng, Weiwen Jiang, Shangqian Gao, Yanfu Zhang. 9782-9796 [doi]

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept DescriptionsReza Esfandiarpoor, Cristina Menghini, Stephen H. Bach. 9797-9819 [doi]

Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph ConstructionBowen Zhang, Harold Soh. 9820-9836 [doi]

MQuinE: a Cure for "Z-paradox" in Knowledge Graph EmbeddingYang Liu 0320, Huang Fang, Yunfeng Cai, Mingming Sun. 9837-9850 [doi]

Can Transformers Learn n-gram Language Models?Anej Svete, Nadav Borenstein, Mike Zhou, Isabelle Augenstein, Ryan Cotterell. 9851-9867 [doi]

StablePrompt : Automatic Prompt Tuning using Reinforcement Learning for Large Language ModelMinchan Kwon, Gaeun Kim, Jongsuk Kim, Haeil Lee, Junmo Kim 0002. 9868-9884 [doi]

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG SystemsPhilippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu. 9885-9903 [doi]

Multi-pass Decoding for Grammatical Error CorrectionXiaoying Wang, Lingling Mu, Jingyi Zhang 0002, Hongfei Xu. 9904-9916 [doi]

Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent ConversationsYucheng Jiang, Yijia Shao, Dekun Ma, Sina J. Semnani, Monica S. Lam. 9917-9955 [doi]

SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine TranslationChenming Tang, Zhixiang Wang, Yunfang Wu. 9956-9971 [doi]

Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding BridgeYuxuan Wang, Yueqian Wang, Pengfei Wu 0003, Jianxin Liang, Dongyan Zhao 0001, Yang Liu, Zilong Zheng. 9972-9987 [doi]

STORYSUMM: Evaluating Faithfulness in Story SummarizationMelanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen R. McKeown. 9988-10005 [doi]

MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction ExpertsHaofei Yu, Zhengyang Qi, Lawrence Jang, Russ Salakhutdinov, Louis-Philippe Morency, Paul Pu Liang. 10006-10030 [doi]

OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-ConquerLu Zhang, Tiancheng Zhao, Heting Ying, Yibo Ma, Kyusong Lee. 10031-10045 [doi]

Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading ComprehensionLin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg. 10046-10063 [doi]

CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data PartitionsJun Rao, Xuebo Liu 0002, Lian-lian, Shengjun Cheng, Yunjie Liao, Min Zhang 0005. 10064-10083 [doi]

ESC: Efficient Speech Coding with Cross-Scale Residual Vector Quantized TransformersYuzhe Gu, Enmao Diao. 10084-10096 [doi]

Breaking ReLU Barrier: Generalized MoEfication for Dense Pretrained ModelsJaeseong Lee 0002, Seung-won Hwang, Wonpyo Park, Mingi Ji. 10097-10107 [doi]

Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative LikelihoodYang Xu, Yu Wang, Hao An, Zhichen Liu, Yongyuan Li. 10108-10121 [doi]

Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement LearningJiahui Li 0003, Hanlin Zhang, Fengda Zhang, Tai-Wei Chang, Kun Kuang, Long Chen 0016, Jun Zhou 0011. 10122-10140 [doi]

Fine-grained Pluggable Gradient Ascent for Knowledge Unlearning in Language ModelsXiaohua Feng, Chaochao Chen 0001, Yuyuan Li, Zibin Lin. 10141-10155 [doi]

ARM: An Alignment-and-Replacement Module for Chinese Spelling Check Based on LLMsChangchun Liu, Kai Zhang 0038, Junzhe Jiang, Zirui Liu 0010, Hanqing Tao, Min Gao, Enhong Chen. 10156-10168 [doi]

On the In-context Generation of Language ModelsZhongtao Jiang, Yuanzhe Zhang, Kun Luo, Xiaowei Yuan, Jun Zhao, Kang Liu. 10169-10187 [doi]

Atomic Inference for NLI with Generated Facts as AtomsJoe Stacey, Pasquale Minervini, Haim Dubossarsky, Oana-Maria Camburu, Marek Rei. 10188-10204 [doi]

Towards Robust Speech Representation Learning for Thousands of LanguagesWilliam Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe 0001. 10205-10224 [doi]

I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated ResponsesXuan Ren, Biao Wu, Lingqiao Liu. 10225-10245 [doi]

PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual AlignmentJiahuan Li, Shujian Huang, Aarron Ching, Xinyu Dai, Jiajun Chen 0001. 10246-10257 [doi]

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevanceSimran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, Graham Neubig. 10258-10279 [doi]

When Parts Are Greater Than Sums: Individual LLM Components Can Outperform Full ModelsTing-Yun Chang, Jesse Thomason, Robin Jia. 10280-10299 [doi]

Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation InferenceJianxing Yu, Shiqi Wang 0016, Han Yin, Zhenlong Sun, Ruobing Xie, Bo Zhang 0056, Yanghui Rao. 10300-10317 [doi]

Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding DimensionsJinsung Yoon, Rajarishi Sinha, Sercan Ömer Arik, Tomas Pfister. 10318-10336 [doi]

KNN-Instruct: Automatic Instruction Construction with K Nearest Neighbor DeductionJianshang Kou, Benfeng Xu, Chiwei Zhu, Zhendong Mao. 10337-10350 [doi]

Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language GenerationZhen Lin, Shubhendu Trivedi, Jimeng Sun 0001. 10351-10368 [doi]

MixGR: Enhancing Retriever Generalization for Scientific Domain through Complementary GranularityFengyu Cai, Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang 0009, Iryna Gurevych, Heinz Koeppl. 10369-10391 [doi]

CARER - ClinicAl Reasoning-Enhanced Representation for Temporal Health Risk PredictionTuan Nguyen, Thanh Trung Huynh, Minh-Hieu Phan, Quoc Viet Hung Nguyen, Phi-Le Nguyen. 10392-10407 [doi]

"In-Dialogues We Learn": Towards Personalized Dialogue Without Pre-defined Profiles through In-Dialogue LearningChuanqi Cheng, Quan Tu, Wei Wu 0014, Shuo Shang, Cunli Mao, Zhengtao Yu 0001, Rui Yan 0001. 10408-10422 [doi]

Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation PerspectiveHanqi Yan, Yanzheng Xiang, Guangyi Chen 0002, Yifei Wang, Lin Gui 0003, Yulan He 0001. 10423-10435 [doi]

Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided DecodingXin Liu, Farima Fatahi Bayat, Lu Wang. 10436-10448 [doi]

Reasoning Robustness of LLMs to Adversarial Typographical ErrorsEsther Gan, Yiran Zhao, LiYing Cheng, Yancan Mao, Anirudh Goyal, Kenji Kawaguchi, Min-Yen Kan, Michael Shieh. 10449-10459 [doi]

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model GuidancePengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Mozhi Zhang, Ke Ren, Botian Jiang, Xipeng Qiu. 10460-10479 [doi]

Belief Revision: The Adaptability of Large Language Models ReasoningBryan Wilie, Samuel Cahyawijaya, Etsuko Ishii, Junxian He, Pascale Fung. 10480-10496 [doi]

Fisher Information-based Efficient Curriculum Federated Learning with Large Language ModelsJi Liu 0003, Jiaxiang Ren 0001, Ruoming Jin, Zijie Zhang 0001, Yang Zhou 0001, Patrick Valduriez, Dejing Dou. 10497-10523 [doi]

Bio-RFX: Refining Biomedical Extraction via Advanced Relation Classification and Structural ConstraintsMinjia Wang, Fangzhou Liu, Xiuxing Li, Bowen Dong, Zhenyu Li, Tengyu Pan, Jianyong Wang 0001. 10524-10539 [doi]

Decoding Matters: Addressing Amplification Bias and Homogeneity Issue in Recommendations for Large Language ModelsKeqin Bao, Jizhi Zhang, Yang Zhang 0072, Xinyue Huo, Chong Chen 0001, Fuli Feng. 10540-10552 [doi]

LLMs Are Prone to Fallacies in Causal InferenceNitish Joshi, Abulhair Saparov, Yixin Wang, He He 0001. 10553-10569 [doi]

Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to PrinciplesRyan Louie, Ananjan Nandi, William Fang, Cheng Chang, Emma Brunskill, Diyi Yang. 10570-10603 [doi]

The Lou Dataset - Exploring the Impact of Gender-Fair Language in German Text ClassificationAndreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych. 10604-10624 [doi]

When Generative Adversarial Networks Meet Sequence Labeling ChallengesYu Tong 0033, Ge Chen, Guokai Zheng, Rui Li, Jiang Dazhi. 10625-10635 [doi]

Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot Question AnsweringSungHo Ko, Hyunjin Cho, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee. 10636-10651 [doi]

Speechworthy Instruction-tuned Language ModelsHyundong Cho, Nicolaas Paul Jedema, Leonardo F. R. Ribeiro, Karishma Sharma, Pedro A. Szekely, Alessandro Moschitti, Ruben Janssen, Jonathan May. 10652-10670 [doi]

Data, Data Everywhere: A Guide for Pretraining Dataset ConstructionJupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Bo Liu, Aastha Jhunjhunwala, Zhilin Wang, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro. 10671-10695 [doi]

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better TogetherDilara Soylu, Christopher Potts, Omar Khattab. 10696-10710 [doi]

Demystifying Verbatim Memorization in Large Language ModelsJing Huang 0014, Diyi Yang, Christopher Potts. 10711-10732 [doi]

AmbigNLG: Addressing Task Ambiguity in Instruction for NLGAyana Niwa, Hayate Iso. 10733-10752 [doi]

Distributional Properties of Subword RegularizationMarco Cognetta, Vilém Zouhar, Naoaki Okazaki. 10753-10763 [doi]

DataTales: A Benchmark for Real-World Intelligent Data NarrationYajing Yang, Qian Liu, Min-Yen Kan. 10764-10788 [doi]

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized DraftersEuiin Yi, Taehyeon Kim 0001, Hongseok Jeung, Du-Seong Chang, Se-Young Yun. 10789-10802 [doi]

GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News SummarizationYangfan Ye, Xiachong Feng, Xiaocheng Feng, Weitao Ma, Libo Qin 0001, Dongliang Xu, Qing Yang 0033, Hongtao Liu, Bing Qin 0001. 10803-10821 [doi]

Breaking the Curse of Multilinguality with Cross-lingual Expert Language ModelsTerra Blevins, Tomasz Limisiewicz, Suchin Gururangan, Margaret Li, Hila Gonen, Noah A. Smith, Luke Zettlemoyer. 10822-10837 [doi]

More Insightful Feedback for Tutoring: Enhancing Generation Mechanisms and Automatic EvaluationWencke Liermann, Jin-Xia Huang, Yohan Lee, Kong-Joo Lee. 10838-10851 [doi]

Stable Language Model Pre-training by Reducing Embedding VariabilityWoojin Chung, Jiwoo Hong, Na Min An, James Thorne, Se-Young Yun. 10852-10863 [doi]

What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model EvaluationsKavya Manohar, Leena G. Pillai. 10864-10869 [doi]

Diversity Over Size: On the Effect of Sample and Topic Sizes for Topic-Dependent Argument Mining DatasetsBenjamin Schiller, Johannes Daxenberger, Andreas Waldis, Iryna Gurevych. 10870-10887 [doi]

Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual PersonasSeungjong Sun, Eungu Lee, Seo Baek, Seunghyun Hwang, Wonbyung Lee, Dongyan Nan, Bernard J. Jansen, Jang-Hyun Kim 0001. 10888-10901 [doi]

ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented GeneratorJunda Zhu, Lingyong Yan, Haibo Shi, Dawei Yin, Lei Sha. 10902-10919 [doi]

Dynamic Multi-granularity Attribution Network for Aspect-based Sentiment AnalysisYanjiang Chen, Kai Zhang, Feng Hu, Xianquan Wang, Ruikang Li, Qi Liu. 10920-10931 [doi]

Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance RegularizationShahed Masoudian, Markus Frohmann, Navid Rekabsaz, Markus Schedl. 10932-10938 [doi]

Large Language Models Know What is Key Visual Entity: An LLM-assisted Multimodal Retrieval for VQAPu Jian, Donglei Yu, Jiajun Zhang 0001. 10939-10956 [doi]

Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and InsightsHao Yang, Lizhen Qu, Ehsan Shareghi, Reza Haf. 10957-10973 [doi]

Self-AMPLIFY: Improving Small Language Models with Self Post Hoc ExplanationsMilan Bhan, Jean-Noël Vittaut, Nicolas Chesneau, Marie-Jeanne Lesot. 10974-10991 [doi]

What are the Generator Preferences for End-to-end Task-Oriented Dialog System?Wanshi Xu, Xianwei Zhuang, Zhanpeng Chen, Zhihong Zhu, Xuxin Cheng, Yuexian Zou. 10992-11003 [doi]

Paraphrase Types Elicit Prompt Engineering CapabilitiesJan Philip Wahle, Terry Ruas, Yang Xu, Bela Gipp. 11004-11033 [doi]

VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image ModelsJingtao Cao, Zhang Zheng, Hongru Wang 0003, Kam-Fai Wong. 11034-11049 [doi]

Towards Online Continuous Sign Language Recognition and TranslationRonglai Zuo, Fangyun Wei, Brian Mak. 11050-11067 [doi]

Mitigate Extrinsic Social Bias in Pre-trained Language Models via Continuous Prompts AdjustmentYiwei Dai, Hengrui Gu 0002, Ying Wang 0009, Xin Wang 0035. 11068-11083 [doi]

Split and Merge: Aligning Position Biases in LLM-based EvaluatorsZongjie Li, Chaozheng Wang, Pingchuan Ma 0004, Daoyuan Wu, Shuai Wang 0011, Cuiyun Gao, Yang Liu 0003. 11084-11108 [doi]

Integrating Argumentation and Hate-Speech-based Techniques for Countering MisinformationSougata Saha, Rohini K. Srihari. 11109-11124 [doi]

BPO: Staying Close to the Behavior LLM Creates Better Online LLM AlignmentWenda Xu, Jiachen Li, William Yang Wang, Lei Li 0005. 11125-11139 [doi]

One2Set + Large Language Model: Best Partners for Keyphrase GenerationLiangying Shao, Liang Zhang, Minlong Peng, Guoqi Ma, Hao Yue, Mingming Sun, Jinsong Su. 11140-11153 [doi]

Unlocking Markets: A Multilingual Benchmark to Cross-Market Question AnsweringYifei Yuan 0002, Yang Deng 0002, Anders Søgaard, Mohammad Aliannejadi. 11154-11169 [doi]

ORPO: Monolithic Preference Optimization without Reference ModelJiwoo Hong, Noah Lee, James Thorne. 11170-11189 [doi]

A Multi-Perspective Analysis of Memorization in Large Language ModelsBowen Chen, Namgi Han, Yusuke Miyao. 11190-11209 [doi]

Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in ConversationsNicolò Penzo, Maryam Sajedinia, Bruno Lepri, Sara Tonelli, Marco Guerini. 11210-11233 [doi]

Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMsHaritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych. 11234-11258 [doi]

Unveiling the Role of Pretraining in Direct Speech TranslationBelen Alastruey, Gerard I. Gállego, Marta R. Costa-Jussà. 11259-11265 [doi]

PCQPR: Proactive Conversational Question Planning with ReflectionShasha Guo, Lizi Liao, Jing Zhang 0001, Cuiping Li 0001, Hong Chen 0001. 11266-11278 [doi]

CodeAgent: Autonomous Communicative Agents for Code ReviewXunzhu Tang, Kisub Kim, Yewei Song, Cedric Lothritz, Bei Li, Saad Ezzini, Haoye Tian, Jacques Klein, Tegawendé F. Bissyandé. 11279-11313 [doi]

TroL: Traversal of Layers for Large Language and Vision ModelsByung kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro. 11314-11342 [doi]

MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical LanguageShun Wang, Ge Zhang, Han Wu, Tyler Loakman, Wenhao Huang, Chenghua Lin. 11343-11358 [doi]

Revisiting Supertagging for faster HPSG parsingOlga Zamaraeva, Carlos Gómez-Rodríguez. 11359-11374 [doi]

Improve Dense Passage Retrieval with Entailment TuningLu Dai, Hao Liu, Hui Xiong. 11375-11387 [doi]

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language ModelsYuxiang Zhang, Jing Chen, Junjie Wang, Yaxin Liu, Cheng Yang, Chufan Shi, Xinyu Zhu, Zihao Lin, Hanwen Wan, Yujiu Yang, Tetsuya Sakai, Tian Feng, Hayato Yamana. 11388-11422 [doi]

TEMA: Token Embeddings Mapping for Enriching Low-Resource Language ModelsRodolfo Zevallos, Núria Bel, Mireia Farrús. 11423-11435 [doi]

DECOR: Improving Coherence in L2 English Writing with a Novel Benchmark for Incoherence Detection, Reasoning, and RewritingXuanming Zhang, Anthony Diaz, Zixun Chen, Qingyang Wu, Kun Qian 0016, Erik Voss, Zhou Yu 0005. 11436-11458 [doi]

Text2Chart31: Instruction Tuning for Chart Generation with Automatic FeedbackFatemeh Pesaran zadeh, Juyeon Kim, Jin-Hwa Kim, Gunhee Kim. 11459-11480 [doi]

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization EvaluationChristoph Leiter, Steffen Eger. 11481-11506 [doi]

Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context LearningShuai Zhao, Meihuizi Jia, Anh Tuan Luu, Fengjun Pan, Jinming Wen. 11507-11522 [doi]

Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language ModelsFrancisco Javier Chiyah Garcia, Alessandro Suglia, Arash Eshghi. 11523-11542 [doi]

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex ModelsXinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han 0007, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun 0001, Zhiyuan Liu 0001. 11543-11557 [doi]

Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic TransformationsMatthias Lindemann, Alexander Koller, Ivan Titov. 11558-11573 [doi]

Puzzle Solving using Reasoning of Large Language Models: A SurveyPanagiotis Giadikiaroglou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou. 11574-11591 [doi]

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic GradingTu Anh Dinh, Carlos Mullov, Leonard Bärmann, Zhaolin Li, Danni Liu, Simon Reiß, Jueun Lee, Nathan Lerzer, Jianfeng Gao 0002, Fabian Peller-Konrad, Tobias Röddiger, Alexander Waibel, Tamim Asfour, Michael Beigl, Rainer Stiefelhagen, Carsten Dachsbacher, Klemens Böhm, Jan Niehues. 11592-11610 [doi]

Red Teaming Language Models for Processing Contradictory DialoguesXiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen. 11611-11630 [doi]

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language ModelsSander Land, Max Bartolo. 11631-11646 [doi]

Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMsHouman Mehrafarin, Arash Eshghi, Ioannis Konstas. 11647-11662 [doi]

Pragmatic Norms Are All You Need - Why The Symbol Grounding Problem Does Not Apply to LLMsReto Gubelmann. 11663-11678 [doi]

Major Entity Identification: A Generalizable Alternative to Coreference ResolutionKawshik Sundar, Shubham Toshniwal, Makarand Tapaswi, Vineet Gandhi. 11679-11695 [doi]

Enhancing High-order Interaction Awareness in LLM-based Recommender ModelXinfeng Wang, Jin Cui, Fumiyo Fukumoto, Yoshimi Suzuki. 11696-11711 [doi]

What Are the Odds? Language Models Are Capable of Probabilistic ReasoningAkshay Paruchuri, Jake Garrison, Shun Liao, John Hernandez, Jacob E. Sunshine, Tim Althoff, Xin Liu 0034, Daniel McDuff. 11712-11733 [doi]

MARE: Multi-Aspect Rationale Extractor on Unsupervised Rationale ExtractionHan Jiang, Junwen Duan, Zhe Qu, Jianxin Wang 0001. 11734-11745 [doi]

LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language ModelsHayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay. 11746-11765 [doi]

"A good pun is its own reword": Can Large Language Models Understand Puns?Zhijun Xu, Siyu Yuan, Lingjie Chen, Deqing Yang. 11766-11782 [doi]

QGEval: Benchmarking Multi-dimensional Evaluation for Question GenerationWeiping Fu, Bifan Wei, Jianxiang Hu, Zhongmin Cai, Jun Liu 0002. 11783-11803 [doi]

Dependency Graph Parsing as Sequence LabelingAna Ezquerro, David Vilares 0001, Carlos Gómez-Rodríguez. 11804-11828 [doi]

NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated DataSergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé, Etienne Bernard. 11829-11841 [doi]

Towards a Greek Proverb Atlas: Computational Spatial Exploration and Attribution of Greek ProverbsJohn Pavlopoulos, Panos Louridas, Panagiotis Filos. 11842-11854 [doi]

Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their ApplicationsWeize Liu, Yinlong Xu, Hongxia Xu, Jintai Chen, Xuming Hu, Jian Wu 0001. 11855-11881 [doi]

Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 LossBowen Zhang, Chunping Li. 11882-11893 [doi]

Rationalizing Transformer Predictions via End-To-End Differentiable Self-TrainingMarc Brinner, Sina Zarrieß. 11894-11907 [doi]

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence SegmentationMarkus Frohmann, Igor Sterner, Ivan Vulic, Benjamin Minixhofer, Markus Schedl. 11908-11941 [doi]

Applying Contrastive Learning to Code Vulnerability Type ClassificationChen Ji, Su Yang, Hongyu Sun, Yuqing Zhang 0001. 11942-11952 [doi]

TheoremLlama: Transforming General-Purpose LLMs into Lean4 ExpertsRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang. 11953-11974 [doi]

Multi-Level Cross-Modal Alignment for Speech Relation ExtractionLiang Zhang, Zhen Yang, Biao Fu, Ziyao Lu, Liangying Shao, Shiyu Liu, Fandong Meng, Jie Zhou, Xiaoli Wang, Jinsong Su. 11975-11986 [doi]

Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language ModelsChristopher Schröder 0001, Gerhard Heyer. 11987-12004 [doi]

PANDA: Persona Attributes Navigation for Detecting and Alleviating Overuse Problem in Large Language ModelsJinsung Kim, Seonmin Koo, HeuiSeok Lim. 12005-12026 [doi]

The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce HarmAakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker. 12027-12049 [doi]

Subword Segmentation in LLMs: Looking at Inflection and ConsistencyMarion Di Marco, Alexander Fraser 0001. 12050-12060 [doi]

Explicit, Implicit, and Scattered: Revisiting Event Extraction to Capture Complex ArgumentsOmar Sharif, Joseph Gatto, Madhusudan Basak, Sarah Masud Preum. 12061-12081 [doi]

Let Me Teach You: Pedagogical Foundations of Feedback for Language ModelsBeatriz Borges, Niket Tandon, Tanja Käser, Antoine Bosselut. 12082-12104 [doi]

Unknown Claims: Generation of Fact-Checking Training Examples from Unstructured and Structured DataJean-Flavien Bussotti, Luca Ragazzi, Giacomo Frisoni, Gianluca Moro, Paolo Papotti. 12105-12122 [doi]

TL-CL: Task And Language Incremental Continual LearningShrey Satapara, P. K. Srijith. 12123-12142 [doi]

Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?Daniel P. Jeong, Saurabh Garg, Zachary C. Lipton, Michael Oberst. 12143-12170 [doi]

Empowering Multi-step Reasoning across Languages via Program-Aided Language ModelsLeonardo Ranaldi, Giulia Pucci, Barry Haddow, Alexandra Birch. 12171-12187 [doi]

Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language ModelsYu Yuan, Lili Zhao, Kai Zhang, Guangting Zheng, Qi Liu. 12188-12200 [doi]

ControlMath: Controllable Data Generation Promotes Math Generalist ModelsNuo Chen 0001, Ning Wu, Jianhui Chang, Linjun Shou, Jia Li 0009. 12201-12217 [doi]

Where Am I From? Identifying Origin of LLM-generated ContentLiying Li, Yihan Bai, Minhao Cheng. 12218-12229 [doi]

ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability AssessmentTarek Naous, Michael J. Ryan, Anton Lavrouk, Mohit Chandra, Wei Xu 0004. 12230-12266 [doi]

GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed TextMichael Ginn, Lindia Tjuatja, Taiqi He, Enora Rice, Graham Neubig, Alexis Palmer, Lori S. Levin. 12267-12286 [doi]

GDTB: Genre Diverse Data for English Shallow Discourse Parsing across Modalities, Text Types, and DomainsYang Janet Liu, Tatsuya Aoyama, Wesley Scivetti, Yilun Zhu, Shabnam Behzad, Lauren Levine, Jessica Lin 0004, Devika Tiwari, Amir Zeldes. 12287-12303 [doi]

RA2FD: Distilling Faithfulness into Efficient Dialogue SystemsZhiyuan Zhu, Yusheng Liao, Chenxin Xu, Yunfeng Guan 0001, Yanfeng Wang 0001, Yu Wang 0027. 12304-12317 [doi]

Subjective Topic meets LLMs: Unleashing Comprehensive, Reflective and Creative Thinking through the Negation of NegationFangrui Lv, Kaixiong Gong, Jian Liang 0002, Xinyu Pang, Changshui Zhang. 12318-12341 [doi]

Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but InconsistentlyKanishka Misra, Allyson Ettinger, Kyle Mahowald. 12342-12355 [doi]

Leveraging Estimated Transferability Over Human Intuition for Model Selection in Text RankingJun Bai, Zhuofan Chen, Zhenzi Li, Hanhua Hong, Jianfei Zhang, Chen Li 0046, Chenghua Lin, Wenge Rong. 12356-12374 [doi]

Unveiling In-Context Learning: A Coordinate System to Understand Its Working MechanismAnhao Zhao, Fanghua Ye 0001, JinLan Fu, Xiaoyu Shen. 12375-12400 [doi]

Self-Powered LLM Modality Expansion for Large Speech-Text ModelsTengfei Yu, Xuebo Liu 0002, Zhiyi Hou, Liang Ding 0006, Dacheng Tao, Min Zhang 0005. 12401-12417 [doi]

ABSEval: An Agent-based Framework for Script EvaluationSirui Liang, Baoli Zhang, Jun Zhao 0001, Kang Liu 0001. 12418-12434 [doi]

Latent Concept-based Explanation of NLP ModelsXuemin Yu, Fahim Dalvi, Nadir Durrani, Marzia Nouri, Hassan Sajjad 0001. 12435-12459 [doi]

Decoding with Limited Teacher Supervision Requires Understanding When to Trust the TeacherHyunjong Ok, Jegwang Ryu, Jaeho Lee. 12460-12476 [doi]

Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science ResearchYida Mu, Mali Jin, Xingyi Song, Nikolaos Aletras. 12477-12492 [doi]

The Mystery of the Pathological Path-star Task for Language ModelsArvid Frydenlund. 12493-12516 [doi]

Voices in a Crowd: Searching for clusters of unique perspectivesNikolas Vitsakis, Amit Parekh 0001, Ioannis Konstas. 12517-12539 [doi]

Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing AgentXiaoyan Yu, Tongxu Luo, Yifan Wei, Fangyu Lei, Yiming Huang, Hao Peng 0001, Liehuang Zhu. 12540-12557 [doi]

SLANG: New Concept Comprehension of Large Language ModelsLingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Cheng. 12558-12575 [doi]

Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language ModelsMichael Lan, Philip Torr 0001, Fazl Barez. 12576-12601 [doi]

Why Does New Knowledge Create Messy Ripple Effects in LLMs?Jiaxin Qin, Zixuan Zhang, Chi Han, Pengfei Yu, Manling Li, Heng Ji. 12602-12609 [doi]

Lifelong Event Detection via Optimal TransportViet Dao, Van-Cuong Pham, Quyen Tran, Thanh-Thien Le, Linh Ngo, Thien Nguyen. 12610-12621 [doi]

SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research RepositoriesBen Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson 0001, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot. 12622-12645 [doi]

FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy DistillationKashun Shum, Minrui Xu, Jianshu Zhang, Zixin Chen, Shizhe Diao, Hanze Dong, Jipeng Zhang, Muhammad Omer Raza. 12646-12659 [doi]

Domain adapted machine translation: What does catastrophic forgetting forget and why?Danielle Saunders, Steve DeNeefe. 12660-12671 [doi]

Enhancing AI Assisted Writing with One-Shot Implicit Negative FeedbackBenjamin Towle, Ke Zhou. 12672-12680 [doi]

Atomic Self-Consistency for Better Long Form GenerationsRaghuveer Thirukovalluru, Yukun Huang, Bhuwan Dhingra. 12681-12694 [doi]

"Global is Good, Local is Bad?": Understanding Brand Bias in LLMsMahammed Kamruzzaman, Hieu Nguyen, Gene Louis Kim. 12695-12702 [doi]

Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration ApproachSiqi Li, Danni Liu, Jan Niehues. 12703-12719 [doi]

ACE: A LLM-based Negotiation Coaching SystemRyan Shea, Aymen Kallala, Xin Liu, Michael W. Morris, Zhou Yu. 12720-12749 [doi]

TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer CapabilitiesMing Zhang 0030, Caishuang Huang, Yilong Wu, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao 0019, Junjie Ye, Qi Zhang 0001, Tao Gui, Xuanjing Huang 0001. 12750-12771 [doi]

PATIENT-ψ: Using Large Language Models to Simulate Patients for Training Mental Health ProfessionalsRuiyi Wang, Stephanie Milani, Jamie C. Chiu, Jiayin Zhi, Shaun M. Eack, Travis Labrum, Samuel M. Murphy, Nev Jones, Kate Hardy, Hong Shen 0004, Fei Fang 0001, Zhiyu Chen 0002. 12772-12797 [doi]

DKEC: Domain Knowledge Enhanced Multi-Label Classification for Diagnosis PredictionXueren Ge, Abhishek Satpathy, Ronald D. Williams, John A. Stankovic, Homa Alemzadeh. 12798-12813 [doi]

ModSCAN: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language ModalitiesYukun Jiang, Zheng Li 0023, Xinyue Shen, Yugeng Liu, Michael Backes 0001, Yang Zhang 0016. 12814-12845 [doi]

Large Language Models Can Self-Correct with Key Condition VerificationZhenyu Wu 0004, Qingkai Zeng 0001, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang 0001. 12846-12867 [doi]

Learning to Write Rationally: How Information Is Distributed in Non-native Speakers' EssaysZixin Tang, Janet Van Hell. 12868-12879 [doi]

Defending Against Social Engineering Attacks in the Age of LLMsLin Ai, Tharindu Kumarage, Amrita Bhattacharjee, Zizhou Liu, Zheng Hui, Michael Davinroy, James Cook, Laura Cassani, Kirill Trapeznikov, Matthias Kirchner, Arslan Basharat, Anthony Hoogs, Joshua Garland, Huan Liu 0001, Julia Hirschberg. 12880-12902 [doi]

Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation ModelsYae Jee Cho, Luyang Liu, Zheng Xu 0002, Aldi Fahrezi, Gauri Joshi. 12903-12913 [doi]

Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy TrainingYixuan Wang, Xianzhen Luo, Fuxuan Wei, Yijun Liu, Qingfu Zhu, Xuanyu Zhang, Qing Yang 0033, Dongliang Xu, Wanxiang Che. 12914-12926 [doi]

Target-Aware Language Modeling via Granular Data SamplingErnie Chang, Pin-Jie Lin, Yang Li 0183, Changsheng Zhao 0002, Daeil Kim, Rastislav Rabatin, Zechun Liu, Yangyang Shi, Vikas Chandra. 12927-12935 [doi]

SPEED++: A Multilingual Event Extraction Framework for Epidemic Prediction and PreparednessTanmay Parekh, Jeffrey Kwan, Jiarui Yu, Sparsh Johri, Hyosang Ahn, Sreya Muppalla, Kai-Wei Chang, Wei Wang 0010, Nanyun Peng. 12936-12965 [doi]

CoGen: Learning from Feedback with Coupled Comprehension and GenerationMustafa Omer Gul, Yoav Artzi. 12966-12982 [doi]

UNICORN: A Unified Causal Video-Oriented Language-Modeling Framework for Temporal Video-Language TasksYuanhao Xiong, Yixin Nie, Haotian Liu, Boxin Wang, Jun Chen, Rong Jin 0001, Cho-Jui Hsieh, Lorenzo Torresani, Jie Lei. 12983-12997 [doi]

Story Morals: Surfacing value-driven narrative schemas using large language modelsDavid Hobson, Haiqi Zhou, Derek Ruths, Andrew Piper. 12998-13032 [doi]

OATH-Frames: Characterizing Online Attitudes Towards Homelessness with LLM AssistantsJaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta. 13033-13059 [doi]

AnaloBench: Benchmarking the Identification of Abstract and Long-context AnalogiesXiao-ye, Andrew Wang, Jacob Choi, Yining Lu, Shreya Sharma, Lingfeng Shen, Vijay Murari Tiyyala, Nicholas Andrews, Daniel Khashabi. 13060-13082 [doi]

SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific DocumentsQi Zhang, Zhijia Chen, Huitong Pan, Cornelia Caragea, Longin Jan Latecki, Eduard Dragut. 13083-13100 [doi]

Analysis of Plan-based Retrieval for Grounded Text GenerationAmeya Godbole, Nicholas Monath, Seungyeon Kim, Ankit Singh Rawat, Andrew McCallum, Manzil Zaheer. 13101-13119 [doi]

Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual ErrorsAlex Chandler, Devesh Surve, Hui Su. 13120-13133 [doi]

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMsJohn Dang, Arash Ahmadian, Kelly Marchisio, Julia Kreutzer, Ahmet Üstün, Sara Hooker. 13134-13156 [doi]

Boosting Logical Fallacy Reasoning in LLMs via Logical Structure TreeYuanyuan Lei 0001, Ruihong Huang. 13157-13173 [doi]

Chain and Causal Attention for Efficient Entity TrackingErwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen. 13174-13188 [doi]

BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language ModelsYi Zeng 0005, Weiyu Sun, Tran Ngoc Huynh, Dawn Song, Bo Li 0026, Ruoxi Jia 0001. 13189-13215 [doi]

A Bayesian Approach to Harnessing the Power of LLMs in Authorship AttributionZhengmian Hu, Tong Zheng, Heng Huang. 13216-13227 [doi]

FAC²E: Better Understanding Large Language Model Capabilities by Dissociating Language and CognitionXiaoqiang Wang 0007, Lingfei Wu 0001, Tengfei Ma 0001, Bang Liu. 13228-13243 [doi]

OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio SeparationTanvir Mahmud, Diana Marculescu. 13244-13260 [doi]

Language Concept Erasure for Language-invariant Dense RetrievalZhiqi Huang, Puxuan Yu, Shauli Ravfogel, James Allan. 13261-13273 [doi]

Learning Personalized Alignment for Evaluating Open-ended Text GenerationDanqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li 0005, Yuandong Tian. 13274-13292 [doi]

Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak AttacksYue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang. 13293-13304 [doi]

Turn Waste into Worth: Rectifying Top-k Router of MoEZhiyuan Zeng, Qipeng Guo, Zhaoye Fei, Zhangyue Yin, Yunhua Zhou, Linyang Li, Tianxiang Sun, Hang Yan 0001, Dahua Lin, Xipeng Qiu. 13305-13320 [doi]

Null-Shot Prompting: Rethinking Prompting Large Language Models With HallucinationPittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas. 13321-13361 [doi]

CommVQA: Situating Visual Question Answering in Communicative ContextsNandita Naik, Christopher Potts, Elisa Kreiss. 13362-13377 [doi]

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative DecodingWeilin Zhao, Yuxiang Huang, Xu Han 0007, Wang Xu, Chaojun Xiao, Xinrong Zhang, Yewei Fang, Kaihuo Zhang, Zhiyuan Liu, Maosong Sun 0001. 13378-13393 [doi]

1+1\textgreater2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators?Yue Huang, Chenrui Fan, Yuan Li 0032, Siyuan Wu, Tianyi Zhou 0001, Xiangliang Zhang 0001, Lichao Sun 0001. 13394-13412 [doi]

How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning PerspectiveTeng Xiao, Mingxiao Li, Yige Yuan, Huaisheng Zhu, Chao Cui, Vasant G. Honavar. 13413-13426 [doi]

Style-Specific Neurons for Steering LLMs in Text Style TransferWen Lai, Viktor Hangya, Alexander Fraser 0001. 13427-13443 [doi]

Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational AnswersTianhua Zhang, Kun Li 0003, Hongyin Luo, Xixin Wu, James R. Glass, Helen Meng. 13444-13461 [doi]

Grasping the Essentials: Tailoring Large Language Models for Zero-Shot Relation ExtractionSizhe Zhou, Yu Meng 0001, Bowen Jin, Jiawei Han 0001. 13462-13486 [doi]

DA-Code: Agent Data Science Code Generation Benchmark for Large Language ModelsYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu. 13487-13521 [doi]

Leveraging Context-Aware Prompting for Commit Message GenerationZhihua Jiang, Jianwei Chen, Dongning Rao, Guanghui Ye. 13522-13540 [doi]

Linguistic Bias in ChatGPT: Language Models Reinforce Dialect DiscriminationEve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein. 13541-13564 [doi]

Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt LearningQizhou Chen, Taolin Zhang 0001, Xiaofeng He, Dongyang Li, Chengyu Wang 0001, Longtao Huang, Hui Xue'. 13565-13580 [doi]

A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language ModelsZhiHao Wang, Shiyu Liu, Jianheng Huang, Wang Zheng, Yixuan Liao, Xiaoxin Chen 0001, Junfeng Yao, Jinsong Su. 13581-13594 [doi]

Zero-Shot Cross-Lingual NER Using Phonemic Representations for Low-Resource LanguagesJimin Sohn, Haeji Jung, Alex Cheng, Jooeon Kang, Yilin Du, David R. Mortensen. 13595-13602 [doi]

An Analysis and Mitigation of the Reversal CurseAng Lv, Kaiyi Zhang, Shufang Xie 0003, Quan Tu, Yuhan Chen, Ji-Rong Wen, Rui Yan 0001. 13603-13615 [doi]

Exploring the Practicality of Generative Retrieval on Dynamic CorporaChaeeun Kim, Soyoung Yoon, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo. 13616-13633 [doi]

OneNet: A Fine-Tuning Free Framework for Few-Shot Entity Linking via Large Language Model PromptingXukai Liu, Ye Liu 0011, Kai Zhang 0038, Kehang Wang, Qi Liu 0003, Enhong Chen. 13634-13651 [doi]

Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with ExplanationsYang Deng 0002, Yong Zhao, Moxin Li, See-Kiong Ng, Tat-Seng Chua. 13652-13673 [doi]

Fewer is More: Boosting Math Reasoning with Reinforced Context PruningXijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Fan Yang 0024, Mao Yang 0004. 13674-13695 [doi]

Large Language Models Are Poor Clinical Decision-Makers: A Comprehensive BenchmarkFenglin Liu, Zheng Li 0018, Hongjian Zhou, Qingyu Yin, Jingfeng Yang 0001, Xianfeng Tang, Chen Luo 0003, Ming Zeng, Haoming Jiang, Yifan Gao 0001, Priyanka Nigam, Sreyashi Nag, Bing Yin, Yining Hua, Xuan Zhou, Omid Rohanian, Anshul Thakur, Lei A. Clifton, David A. Clifton. 13696-13710 [doi]

Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn InteractionJinchuan Zhang, Yan Zhou, Yaxin Liu, Ziming Li, Songlin Hu. 13711-13736 [doi]

Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude PerspectiveVan-Cuong Pham, Thien Nguyen. 13737-13751 [doi]

DynamicER: Resolving Emerging Mentions to Dynamic Entities for RAGJinyoung Kim, Dayoon Ko, Gunhee Kim. 13752-13770 [doi]

Preserving Generalization of Language models in Few-shot Continual Relation ExtractionQuyen Tran, Nguyen Xuan Thanh, Nguyen Hoang Anh, Nam Le Hai, Trung Le, Linh Van Ngo 0001, Thien Huu Nguyen. 13771-13784 [doi]

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and RecommendationsMd. Tahmid Rahman Laskar, Sawsan Alqahtani, M. Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan, Haidar Khan, Israt Jahan, Amran Bhuiyan, Chee-Wei Tan 0001, Md. Rizwan Parvez, Enamul Hoque, Shafiq Joty, Jimmy Huang 0001. 13785-13816 [doi]

Consecutive Batch Model Editing with HooK LayersShuaiyi Li, Yang Deng 0002, Deng Cai 0002, Hongyuan Lu, Liang Chen 0001, Wai Lam. 13817-13833 [doi]

Topic-Oriented Open Relation Extraction with A Priori Seed GenerationLinyi Ding, Jinfeng Xiao, Sizhe Zhou, Chaoqi Yang, Jiawei Han 0001. 13834-13845 [doi]

Related Work and Citation Text Generation: A SurveyXiangci Li, Jessica Ouyang 0001. 13846-13864 [doi]

Curriculum Consistency Learning for Conditional Sentence GenerationLiangxin Liu, Xuebo Liu 0002, Lian-lian, Shengjun Cheng, Jun Rao, Tengfei Yu, Hexuan Deng, Min Zhang 0005. 13865-13881 [doi]

A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic InferencesLeonardo Bertolazzi, Albert Gatt, Raffaella Bernardi. 13882-13905 [doi]

Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic SupervisionFan Jiang, Tom Drummond, Trevor Cohn. 13906-13933 [doi]

MOSEL: 950, 000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU LanguagesMarco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri. 13934-13947 [doi]

Improving Knowledge Graph Completion with Structure-Aware Supervised Contrastive LearningJiashi Lin, Lifang Wang, Xinyu Lu, Zhongtian Hu, Wei Zhang, Wenxuan Lu. 13948-13959 [doi]

Contribution of Linguistic Typology to Universal Dependency Parsing: An Empirical InvestigationAli Basirat, Navid Hemmati. 13960-13971 [doi]

TRoTR: A Framework for Evaluating the Re-contextualization of Text ReuseFrancesco Periti, Pierluigi Cassotti, Stefano Montanelli, Nina Tahmasebi, Dominik Schlechtweg. 13972-13990 [doi]

Structured Optimal Brain Pruning for Large Language ModelsJiateng Wei, Quan Lu, Ning Jiang, Siqi Li, Jingyang Xiang, Jun Chen 0023, Yong Liu 0007. 13991-14007 [doi]

Automatically Generated Definitions and their utility for Modeling Word MeaningFrancesco Periti, David Alfter, Nina Tahmasebi. 14008-14026 [doi]

How Do Your Code LLMs perform? Empowering Code Instruction Tuning with Really Good DataYejie Wang, Keqing He 0001, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu. 14027-14043 [doi]

MAIR: A Massive Benchmark for Evaluating Instructed RetrievalWeiwei Sun 0001, Zhengliang Shi, Wu Long, Lingyong Yan, Xinyu Ma, Yiding Liu, Min Cao, Dawei Yin, Zhaochun Ren. 14044-14067 [doi]

Rethinking the Evaluation of In-Context Learning for LLMsGuoxin Yu, Lemao Liu, Mo Yu, Yue Yu, Xiang Ao 0001. 14068-14082 [doi]

Cluster-Norm for Unsupervised Probing of KnowledgeWalter Laurito, Sharan Maiya, Grégoire Dhimoïla, Owen Yeung, Kaarel Hänni. 14083-14112 [doi]

Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop QueriesEden Biran, Daniela Gottesman, Sohee Yang, Mor Geva, Amir Globerson. 14113-14130 [doi]

Enhancing Training Data Attribution for Large Language Models with Fitting Error ConsiderationKangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng. 14131-14143 [doi]

Where am I? Large Language Models Wandering between Semantics and Structures in Long ContextsSeonmin Koo, Jinsung Kim, Youngjoon Jang, Chanjun Park, HeuiSeok Lim. 14144-14160 [doi]

KARL: Knowledge-Aware Retrieval and Representations aid Retention and Learning in StudentsMatthew Shu, Nishant Balepur, Shi Feng, Jordan L. Boyd-Graber. 14161-14178 [doi]

Large Language Models Can Be Contextual Privacy Protection LearnersYijia Xiao, Yiqiao Jin, Yushi Bai, Yue Wu, Xianjun Yang, Xiao Luo 0001, Wenchao Yu, Xujiang Zhao, Yanchi Liu, Quanquan Gu, Haifeng Chen, Wei Wang 0010, Wei Cheng 0002. 14179-14201 [doi]

A SMART Mnemonic Sounds like "Glue Tonic": Mixing LLMs with Student Feedback to Make Mnemonic Learning StickNishant Balepur, Matthew Shu, Alexander Miserlis Hoyle, Alison Robey, Shi Feng, Seraphina Goldfarb-Tarrant, Jordan L. Boyd-Graber. 14202-14225 [doi]

Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language ModelsMinghao Wu, Thuy-Trang Vu, Lizhen Qu, Reza Haf. 14226-14240 [doi]

MolTRES: Improving Chemical Language Representation Learning for Molecular Property PredictionJun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee 0001. 14241-14254 [doi]

First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model ReasoningYoichi Aoki, Keito Kudo, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Keisuke Sakaguchi, Kentaro Inui. 14255-14271 [doi]

Tools Fail: Detecting Silent Errors in Faulty ToolsJimin Sun, So Yeon Min, Yingshan Chang, Yonatan Bisk. 14272-14289 [doi]

Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual SimilarityBowen Zhang, Chunping Li. 14290-14302 [doi]

Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic ParsingDeokhyung Kang, Seonjeong Hwang, Yunsu Kim 0001, Gary Geunbae Lee. 14303-14317 [doi]

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language ModelingGeorgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi. 14318-14337 [doi]

Are LLMs Good Zero-Shot Fallacy Classifiers?Fengjun Pan, Xiaobao Wu, Zongrui Li, Anh Tuan Luu. 14338-14364 [doi]

The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and AnalysisYuxiang Zhou, Jiazheng Li 0002, Yanzheng Xiang, Hanqi Yan, Lin Gui 0003, Yulan He 0001. 14365-14378 [doi]

More DWUGs: Extending and Evaluating Word Usage Graph Datasets in Multiple LanguagesDominik Schlechtweg, Pierluigi Cassotti, Bill Noble, David Alfter, Sabine Schulte im Walde, Nina Tahmasebi. 14379-14393 [doi]

Vision-Language Model Fine-Tuning via Simple Parameter-Efficient ModificationMing Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama. 14394-14410 [doi]

ECIS-VQG: Generation of Entity-centric Information-seeking Questions from VideosArpan Phukan, Manish Gupta, Asif Ekbal. 14411-14436 [doi]

Distractor Generation in Multiple-Choice Tasks: A Survey of Methods, Datasets, and EvaluationElaf Alhazmi, Quan Sheng, Wei Emma Zhang, Munazza Zaib, Ahoud Alhazmi. 14437-14458 [doi]

Evaluating n-Gram Novelty of Language Models Using Rusty-DAWGWilliam Merrill, Noah A. Smith, Yanai Elazar. 14459-14473 [doi]

ASL STEM Wiki: Dataset and Benchmark for Interpreting STEM ArticlesKayo Yin, Chinmay Singh, Fyodor Minakov, Vanessa Milan, Hal Daumé III, Cyril Zhang, Alex Lu 0002, Danielle Bragg. 14474-14490 [doi]

Can Automatic Metrics Assess High-Quality Translations?Sweta Agrawal, António Farinhas, Ricardo Rei, André F. T. Martins. 14491-14502 [doi]

Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine TranslationSweta Agrawal, José Guilherme Camargo de Souza, Ricardo Rei, António Farinhas, Gonçalo Rui Alves Faria, Patrick Fernandes, Nuno Miguel Guerreiro, André Martins. 14503-14519 [doi]

DC-Instruct: An Effective Framework for Generative Multi-intent Spoken Language UnderstandingBowen Xing, Lizi Liao, Minlie Huang, Ivor W. Tsang. 14520-14534 [doi]

KnowTuning: Knowledge-aware Fine-tuning for Large Language ModelsYougang Lyu, Lingyong Yan, Shuaiqiang Wang, Haibo Shi, Dawei Yin, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren. 14535-14556 [doi]

SecCoder: Towards Generalizable and Robust Secure Code GenerationBoyu Zhang, Tianyu Du, Junkai Tong, Xuhong Zhang 0002, Kingsum Chow, Sheng Cheng, Xun Wang, Jianwei Yin. 14557-14571 [doi]

Nash CoT: Multi-Path Inference with Preference EquilibriumZiqi Zhang, Cunxiang Wang, Xiao-Xiong, Yue Zhang, Donglin Wang. 14572-14587 [doi]

Scalable Efficient Training of Large Language Models with Low-dimensional Projected AttentionXingtai Lv, Ning Ding 0002, Kaiyan Zhang, Ermo Hua, Ganqu Cui, Bowen Zhou 0002. 14588-14599 [doi]

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination DetectorXiaoxue Cheng, Junyi Li, Xin Zhao 0018, Hongzhi Zhang, Fuzheng Zhang, Di Zhang, Kun Gai, Ji-Rong Wen. 14600-14615 [doi]

Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional UnderstandingWei Li, Zhen Huang, Xinmei Tian 0001, Le Lu 0001, Houqiang Li, Xu Shen, Jieping Ye. 14616-14632 [doi]

LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational HistoryAkash Gupta, Ivaxi Sheth, Vyas Raina, Mark J. F. Gales, Mario Fritz. 14633-14652 [doi]

Social Bias Probing: Fairness Benchmarking for Language ModelsMarta Marchiori Manerba, Karolina Stanczak, Riccardo Guidotti, Isabelle Augenstein. 14653-14671 [doi]

Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language ModelsWenhao Yu 0011, Hongming Zhang 0009, Xiaoman Pan, Peixin Cao, Kaixin Ma, Jian Li, Hongwei Wang 0001, Dong Yu 0001. 14672-14685 [doi]

DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language ModelsJiabao Pan, Yan Zhang 0004, Chen Zhang 0020, Zuozhu Liu, Hongwei Wang 0001, Haizhou Li 0001. 14686-14695 [doi]

Revisiting Automated Evaluation for Long-form Table Question AnsweringYuqi Wang, Lyuhao Chen, Songcheng Cai, Zhijian Xu, Yilun Zhao 0001. 14696-14706 [doi]

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction SystemsItalo Luis da Silva, Hanqi Yan, Lin Gui 0003, Yulan He 0001. 14707-14719 [doi]

Learn Beyond The Answer: Training Language Models with Reflection for Mathematical ReasoningZhihan Zhang, Tao Ge, Zhenwen Liang, Wenhao Yu 0002, Dian Yu 0001, Mengzhao Jia, Dong Yu 0001, Meng Jiang 0001. 14720-14738 [doi]

FinDVer: Explainable Claim Verification over Long and Hybrid-content Financial DocumentsYilun Zhao 0001, Yitao Long, Tintin Jiang, Chengye Wang, Weiyuan Chen, Hongjun Liu, Xiangru Tang, Yiming Zhang, Chen Zhao, Arman Cohan. 14739-14752 [doi]

Extracting Prompts by Inverting LLM OutputsCollin Zhang, John X. Morris, Vitaly Shmatikov. 14753-14777 [doi]

BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMsZhiting Fan, Ruizhe Chen, Ruiling Xu, Zuozhu Liu. 14778-14790 [doi]

VHASR: A Multimodal Speech Recognition System With Vision HotwordsJiliang Hu, Zuchao Li, Ping Wang, Haojun Ai, Lefei Zhang, Hai Zhao 0001. 14791-14804 [doi]

A Probability-Quality Trade-off in Aligned Language Models and its Relation to Sampling AdaptorsNaaman Tan, Josef Valvoda, Tianyu Liu 0004, Anej Svete, Yanxia Qin, Min-Yen Kan, Ryan Cotterell. 14805-14829 [doi]

Bridging Local Details and Global Context in Text-Attributed GraphsYaoke Wang, Yun Zhu, Wenqiao Zhang, Yueting Zhuang, Liyunfei Liyunfei, Siliang Tang. 14830-14841 [doi]

Building Resources for Emakhuwa: Machine Translation and News Classification BenchmarksFelermino Dario Mario Ali, Henrique Lopes Cardoso, Rui Sousa-Silva. 14842-14857 [doi]

RepMatch: Quantifying Cross-Instance Similarities in Representation SpaceMohammad Modarres, Sina Abbasi, Mohammad Taher Pilehvar. 14858-14869 [doi]

Commonsense Knowledge Editing Based on Free-Text in LLMsXiusheng Huang, Yequan Wang, Jun Zhao 0001, Kang Liu 0001. 14870-14880 [doi]

A Closer Look at Multidimensional Online Political IncivilitySagi Pendzel, Nir Lotan, Alon Zoizner, Einat Minkov. 14881-14896 [doi]

Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-TrainingZetong Li, Qinliang Su, Shijing Si, Jianxing Yu. 14897-14913 [doi]

Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine TranslationBar Iluz, Yanai Elazar, Asaf Yehudai, Gabriel Stanovsky. 14914-14921 [doi]

Unsupervised Named Entity Disambiguation for Low Resource DomainsDebarghya Datta, Soumajit Pramanik. 14922-14928 [doi]

SparseGrad: A Selective Method for Efficient Fine-tuning of MLP LayersViktoria Chekalina, Anna Rudenko, Gleb Mezentsev, Aleksandr Mikhalev, Alexander Panchenko, Ivan V. Oseledets. 14929-14939 [doi]

MoCoKGC: Momentum Contrast Entity Encoding for Knowledge Graph CompletionQingyang Li, Yanru Zhong, Yuchu Qin. 14940-14952 [doi]

ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household ActivitiesYing Su, Zhan Ling, Haochen Shi, Cheng Jiayang, Yauwai Yim, Yangqiu Song. 14953-14965 [doi]

Shortcuts Arising from Contrast: Towards Effective and Lightweight Clean-Label Attacks in Prompt-Based LearningXiaopeng Xie, Ming Yan 0007, Xiwen Zhou, Chenlong Zhao, Suli Wang, Yong Zhang, Joey Zhou. 14966-14977 [doi]

GRASS: Compute Efficient Low-Memory LLM Training with Structured Sparse GradientsAashiq Muhamed, Oscar Li, David P. Woodruff, Mona Diab, Virginia Smith. 14978-15003 [doi]

RaTEScore: A Metric for Radiology Report GenerationWeike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang 0002, Yanfeng Wang 0001, Weidi Xie. 15004-15019 [doi]

HalluMeasure: Fine-grained Hallucination Measurement Using Chain-of-Thought ReasoningShayan Ali Akbar, Md Mosharaf Hossain, Tess Wood, Si-Chi Chin, Erica Salinas, Victor Alvarez, Erwin Cornejo. 15020-15037 [doi]

Learning to Rank Salient Content for Query-focused SummarizationSajad Sotudeh, Nazli Goharian. 15038-15048 [doi]

Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document RevisionsQian Ruan, Ilia Kuznetsov, Iryna Gurevych. 15049-15067 [doi]

LitSearch: A Retrieval Benchmark for Scientific Literature SearchAnirudh Ajith, Mengzhou Xia, Alexis Chevalier, Tanya Goyal, Danqi Chen 0001, Tianyu Gao 0001. 15068-15083 [doi]

Open-world Multi-label Text Classification with Extremely Weak SupervisionXintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang. 15084-15096 [doi]

LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling lawToni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls. 15097-15117 [doi]

AKEW: Assessing Knowledge Editing in the WildXiaobao Wu, Liangming Pan, William Yang Wang, Anh Tuan Luu. 15118-15133 [doi]

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model GenerationTong Chen, Akari Asai, Niloofar Mireshghallah, Sewon Min, James Grimmelmann, Yejin Choi 0001, Hannaneh Hajishirzi, Luke Zettlemoyer, Pang Wei Koh. 15134-15158 [doi]

Dense X Retrieval: What Retrieval Granularity Should We Use?Tong Chen, Hongwei Wang 0010, Sihao Chen, Wenhao Yu 0011, Kaixin Ma, Xinran Zhao, Hongming Zhang 0009, Dong Yu 0001. 15159-15177 [doi]

Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational ApproachYanchen Liu, Mingyu Derek Ma, Wenna Qin, Azure Zhou, Jiaao Chen, Weiyan Shi, Wei Wang 0010, Diyi Yang. 15178-15194 [doi]

Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language ModelsZheng Zhao 0005, Yftah Ziser, Shay B. Cohen. 15195-15214 [doi]

XDetox: Text Detoxification with Token-Level Toxicity ExplanationsBeomseok Lee, Hyunwoo Kim, Keon Kim, Yong Suk Choi. 15215-15226 [doi]

Optimizing Chinese Lexical Simplification Across Word Types: A Hybrid ApproachZihao Xiao, Jiefu Gong, Shijin Wang 0001, Wei Song 0010. 15227-15239 [doi]

Control Large Language Models via Divide and ConquerBingxuan Li, Yiwei Wang, Tao Meng, Kai-Wei Chang, Nanyun Peng. 15240-15256 [doi]

Joint Pre-Encoding Representation and Structure Embedding for Efficient and Low-Resource Knowledge Graph CompletionChenyu Qiu, Pengjiang Qian, Chuang Wang, Jian Yao 0005, Li Liu, Wei Fang 0001, Eddie Eddie. 15257-15269 [doi]

Improving Discriminative Capability of Reward Models in RLHF Using Contrastive LearningLu Chen, Rui Zheng, Binghai Wang, Senjie Jin, Caishuang Huang, Junjie Ye, Zhihao Zhang, Yuhao Zhou, Zhiheng Xi, Tao Gui, Qi Zhang 0001, Xuanjing Huang 0001. 15270-15283 [doi]

RoCEL: Advancing Table Entity Linking through Distinctive Row and Column ContextsYuanzheng Wang, Yixing Fan, Jiafeng Guo, Ruqing Zhang 0001, Xueqi Cheng. 15284-15298 [doi]

Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language ModelsZi'ou Zheng, Christopher Malon, Martin Renqiang Min, Xiaodan Zhu 0001. 15299-15312 [doi]

Efficient Overshadowed Entity Disambiguation by Mitigating Shortcut LearningPanuthep Tasawong, Peerat Limkonchotiwat, Potsawee Manakul, Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong. 15313-15321 [doi]

AppBench: Planning of Multiple APIs from Various APPs for Complex User InstructionHongru Wang 0003, Rui Wang 0092, Boyang Xue, Heming Xia, Jingtao Cao, Zeming Liu, Jeff Z. Pan, Kam-Fai Wong. 15322-15336 [doi]

Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model AlignmentZhipeng Chen 0001, Kun Zhou 0002, Xin Zhao 0018, Jingyuan Wang, Ji-Rong Wen. 15337-15351 [doi]

AudioVSR: Enhancing Video Speech Recognition with Audio DataXiaoda Yang, Xize Cheng, Jiaqi Duan, Hongshun Qiu, Minjie Hong, Minghui Fang 0002, Shengpeng Ji, Jialong Zuo, Zhiqing Hong, Zhimeng Zhang, Tao Jin 0004. 15352-15361 [doi]

ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness?Siddhant Waghjale, Vishruth Veerendranath, Zhiruo Wang, Daniel Fried. 15362-15376 [doi]

Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next LevelZhaopeng Feng, Ruizhe Chen, Yan Zhang, Zijie Meng, Zuozhu Liu. 15377-15393 [doi]

Re-ReST: Reflection-Reinforced Self-Training for Language AgentsZi-Yi Dou, Cheng-Fu Yang, Xueqing Wu 0001, Kai-Wei Chang, Nanyun Peng. 15394-15411 [doi]

Effective Synthetic Data and Test-Time Adaptation for OCR CorrectionShuhao Guan, Cheng Xu 0006, Moule Lin, Derek Greene. 15412-15425 [doi]

SRF: Enhancing Document-Level Relation Extraction with a Novel Secondary Reasoning FrameworkFu Zhang 0001, Qi Miao, Jingwei Cheng, Hongsen Yu, Yi Yan, Xin Li, Yongxue Wu. 15426-15439 [doi]

FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression ComprehensionJunzhuo Liu 0002, Xuzheng Yang, Weiwei Li 0005, Peng Wang. 15440-15457 [doi]

Exploring the Learning Capabilities of Language Models using LEVERWORLDSEitan Wagner, Amir Feder, Omri Abend. 15458-15468 [doi]

CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language ModelsEitan Wagner, Yuli Slavutsky, Omri Abend. 15469-15484 [doi]

DocEdit-v2: Document Structure Editing Via Multimodal LLM GroundingManan Suri, Puneet Mathur, Franck Dernoncourt, Rajiv Jain, Vlad I. Morariu, Ramit Sawhney, Preslav Nakov, Dinesh Manocha. 15485-15505 [doi]

DogeRM: Equipping Reward Models with Domain Knowledge through Model MergingTzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen. 15506-15524 [doi]

Understanding Slang with LLMs: Modelling Cross-Cultural Nuances through ParaphrasingIfeoluwa Wuraola, Nina Dethlefs, Daniel Marciniak. 15525-15531 [doi]

Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models DecodingLifu Tu, Semih Yavuz, Jin Qu, Jiacheng Xu, Rui Meng, Caiming Xiong, Yingbo Zhou. 15532-15548 [doi]

Re-Reading Improves Reasoning in Large Language ModelsXiaohan Xu, Chongyang Tao, Tao Shen 0001, Can Xu, Hongbo Xu, Guodong Long, Jian-Guang Lou, Shuai Ma. 15549-15575 [doi]

Adaptive Axes: A Pipeline for In-domain Social Stereotype AnalysisQingcheng Zeng, Mingyu Jin, Rob Voigt. 15576-15593 [doi]

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital EnvironmentsSourjyadip Ray, Kushal Gupta, Soumi Kundu, Payal Arvind Kasat, Somak Aditya, Pawan Goyal 0002. 15594-15608 [doi]

Human-LLM Hybrid Text Answer Aggregation for Crowd AnnotationsJiyi Li. 15609-15622 [doi]

Improve Student's Reasoning Generalizability through Cascading Decomposed CoTs DistillationChengwei Dai, Kun Li, Wei Zhou, Songlin Hu. 15623-15643 [doi]

Revisiting Supervised Contrastive Learning for Microblog ClassificationJunbo Huang, Ricardo Usbeck. 15644-15653 [doi]

BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait CraftingRui Pu, Chaozhuo Li 0001, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang 0008. 15654-15668 [doi]

Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation PerspectiveZhaotian Weng, Zijun Gao, Jerone Theodore Alexander Andrews, Jieyu Zhao. 15669-15680 [doi]

Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model EditingWeichuan Wang, Zhaoyi Li, Defu Lian, Chen Ma 0001, Linqi Song, Ying Wei 0001. 15681-15700 [doi]

SciAgent: Tool-augmented Language Models for Scientific ReasoningYubo Ma, Zhibin Gou, Junheng Hao, Ruochen Xu, Shuohang Wang, Liangming Pan, Yujiu Yang, Yixin Cao 0002, Aixin Sun. 15701-15736 [doi]

Global Reward to Local Rewards: Multimodal-Guided Decomposition for Improving Dialogue AgentsDong Won Lee 0007, Hae Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency. 15737-15762 [doi]

Towards Measuring and Modeling "Culture" in LLMs: A SurveyMuhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury. 15763-15784 [doi]

ESC-Eval: Evaluating Emotion Support Conversations in Large Language ModelsHaiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexin Huang, Tianle Gu, Yixu Wang, Jian Wang, Dandan Liang, Zhixu Li, Yan Teng, Yanghua Xiao, Yingchun Wang. 15785-15810 [doi]

Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic PromptingSagnik Mukherjee, Muhammad Farid Adilazuarda, Sunayana Sitaram, Kalika Bali, Alham Fikri Aji, Monojit Choudhury. 15811-15837 [doi]

Text Fluoroscopy: Detecting LLM-Generated Text through Intrinsic FeaturesXiao Yu, Kejiang Chen, Qi Yang, Weiming Zhang 0001, Nenghai Yu. 15838-15846 [doi]

Hate Personified: Investigating the role of LLMs in content moderationSarah Masud, Sahajpreet Singh, Viktor Hangya, Alexander Fraser 0001, Tanmoy Chakraborty 0002. 15847-15863 [doi]

Temporally Consistent Factuality Probing for Large Language ModelsAshutosh Bajpai, Aaryan Goyal, Atif Anwer, Tanmoy Chakraborty 0002. 15864-15881 [doi]

A Comparison of Language Modeling and Translation as Multilingual Pretraining ObjectivesZihao Li, Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann. 15882-15894 [doi]

Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science CommunicatorsPrasoon Bajpai, Niladri Chatterjee, Subhabrata Dutta, Tanmoy Chakraborty 0002. 15895-15912 [doi]

LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-TrainingTong Zhu 0002, Xiaoye Qu, Daize Dong, Jiacheng Ruan, Jingqi Tong, Conghui He, Yu Cheng 0001. 15913-15923 [doi]

Themis: A Reference-free NLG Evaluation Language Model with Flexibility and InterpretabilityXinyu Hu, Li Lin, Mingqi Gao 0002, Xunjian Yin, Xiaojun Wan 0001. 15924-15951 [doi]

Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter MergingYiming Ju, Ziyi Ni, Xingrun Xing, Zhixiong Zeng, Hanyu Zhao, Siqi Fan 0001, Zheng Zhang 0006. 15952-15959 [doi]

Generating Demonstrations for In-Context Compositional Generalization in Grounded Language LearningSam Spilsbury, Pekka Marttinen, Alexander Ilin. 15960-15991 [doi]

FAME: Towards Factual Multi-Task Model EditingLi Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo 0001. 15992-16011 [doi]

MLLM-Protector: Ensuring MLLM's Safety without Hurting PerformanceRenjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang 0001. 16012-16027 [doi]

Leveraging Large Language Models for NLG Evaluation: Advances and ChallengesZhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Yuxuan Lai, Chongyang Tao, Shuai Ma. 16028-16045 [doi]

InfiniPot: Infinite Context Processing on Memory-Constrained LLMsMinsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang. 16046-16060 [doi]

VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP ModelsJiapeng Wang, Chengyu Wang 0001, Kunzhe Huang, Jun Huang 0007, Lianwen Jin. 16061-16075 [doi]

CorrSynth - A Correlated Sampling Method for Diverse Dataset Generation from LLMsSuhas S. Kowshik, Abhishek Divekar, Vijit Malik. 16076-16095 [doi]

Defining Knowledge: Bridging Epistemology and Large Language ModelsConstanza Fierro, Ruchira Dhar, Filippos Stamatiou, Nicolas Garneau, Anders Søgaard. 16096-16111 [doi]

TKGT: Redefinition and A New Way of Text-to-Table Tasks Based on Real World Demands and Knowledge Graphs Augmented LLMsPeiwen Jiang, Xinbo Lin, Zibo Zhao, Ruhui Ma, Yvonne Chen, Jinhua Cheng. 16112-16126 [doi]

Free your mouse! Command Large Language Models to Generate Code to Format Word DocumentsShihao Rao, Liang Li, Jiapeng Liu, Guan Weixin, Xiyan Gao, Bing Lim, Can Ma. 16127-16142 [doi]

CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language ModelsJiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan. 16143-16162 [doi]

The Instinctive Bias: Spurious Images lead to Illusion in MLLMsTianyang Han, Qing Lian, Rui Pan, Renjie Pi, Jipeng Zhang, Shizhe Diao, Yong Lin, Tong Zhang. 16163-16177 [doi]

Rationale-Aware Answer Verification by Pairwise Self-EvaluationAkira Kawabata, Saku Sugawara. 16178-16196 [doi]

On the Robustness of Editing Large Language ModelsXinbei Ma, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang 0001, Hai Zhao 0001, Lifeng Liu, Yulong Wang 0004. 16197-16216 [doi]

IM-BERT: Enhancing Robustness of BERT through the Implicit Euler MethodMihyeon Kim, Juhyoung Park, Youngbin Kim. 16217-16229 [doi]

Distract Large Language Models for Automatic Jailbreak AttackZeguan Xiao, Yan Yang, Guanhua Chen 0001, Yun Chen 0007. 16230-16244 [doi]

Exploring Space Efficiency in a Tree-based Linear Model for Extreme Multi-label ClassificationHe-Zhe Lin, Cheng-Hung Liu, Chih-Jen Lin. 16245-16260 [doi]

WorryWords: Norms of Anxiety Association for over 44k English WordsSaif Mohammad. 16261-16278 [doi]

Finding Blind Spots in Evaluator LLMs with Interpretable ChecklistsSumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M. Khapra. 16279-16309 [doi]

LONGAGENT: Achieving Question Answering for 128k-Token-Long Documents through Multi-Agent CollaborationJun Zhao 0019, Can Zu, Xu Hao, Yi Lu, Wei He 0024, Yiwen Ding, Tao Gui, Qi Zhang 0001, Xuanjing Huang 0001. 16310-16324 [doi]

AutoPersuade: A Framework for Evaluating and Explaining Persuasive ArgumentsTill Saenger, Musashi Hinck, Justin Grimmer, Brandon M. Stewart. 16325-16342 [doi]

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge GraphsSimone Conia, Daniel Lee, Min Li, Umar Farooq Minhas, Saloni Potdar, Yunyao Li 0001. 16343-16360 [doi]

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap ProblemsJun Zhao 0019, Jingqi Tong, Yurong Mou, Ming Zhang 0030, Qi Zhang 0001, Xuanjing Huang 0001. 16361-16376 [doi]

Scaling Laws for Linear Complexity Language ModelsXuyang Shen, Dong Li 0033, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong. 16377-16426 [doi]

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple RewardsHeejin Do, Sangwon Ryu, Gary Geunbae Lee. 16427-16438 [doi]

Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial HypothesisGuangliang Liu, Haitao Mao, Jiliang Tang, Kristen Johnson. 16439-16455 [doi]

ATAP: Automatic Template-Augmented Commonsense Knowledge Graph Completion via Pre-Trained Language ModelsFu Zhang 0001, Yifan Ding, Jingwei Cheng. 16456-16472 [doi]

LM2: A Simple Society of Language Models Solves Complex ReasoningGurusha Juneja, Subhabrata Dutta, Tanmoy Chakraborty 0002. 16473-16484 [doi]

Towards a Similarity-adjusted Surprisal TheoryClara Meister, Mario Giulianelli, Tiago Pimentel. 16485-16498 [doi]

Multi-Level Information Retrieval Augmented Generation for Knowledge-based Visual Question AnsweringOmar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. 16499-16513 [doi]

Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization?Jianfeng He, Runing Yang, Linlin Yu, Changbin Li, Ruoxi Jia 0001, Feng Chen 0001, Ming Jin 0002, Chang-Tien Lu. 16514-16575 [doi]

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLPOmer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty. 16576-16586 [doi]

BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer TrainingPavel Chizhov, Catherine Arnett, Elizaveta Korotkova, Ivan P. Yamshchikov. 16587-16604 [doi]

SEGMENT+: Long Text Processing with Short-Context Language ModelsWei Shi, Shuang Li, Kerun Yu, Jinglei Chen, Zujie Liang, Xinhui Wu, Yuxi Qian, Feng Wei, Bo Zheng, Jiaqing Liang, Jiangjie Chen, Yanghua Xiao. 16605-16617 [doi]

Explicit Memory Learning with Expectation MaximizationZhangyue Yin, Qiushi Sun, Qipeng Guo, Zhiyuan Zeng, Qinyuan Cheng, Xipeng Qiu, Xuanjing Huang 0001. 16618-16635 [doi]

Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student RevisionsInderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang. 16636-16657 [doi]

Small LLMs Are Weak Tool Learners: A Multi-LLM AgentWeizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang 0011, Fei Huang 0004. 16658-16680 [doi]

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP InteractionsClement Neo, Shay B. Cohen, Fazl Barez. 16681-16697 [doi]

Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health DiagnosisAmey Hengle, Atharva Kulkarni, Shantanu Patankar, Madhumitha Chandrasekaran, Sneha D'Silva, Jemima Jacob, Rashmi Gupta. 16698-16721 [doi]

The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge ReasoningShaobo Cui 0006, Zhijing Jin 0001, Bernhard Schölkopf, Boi Faltings. 16722-16763 [doi]

Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain SetupsRazvan-Alexandru Smadu, David-Gabriel Ion, Dumitru-Clementin Cercel, Florin Pop, Mihaela-Claudia Cercel. 16764-16800 [doi]

Model Editing Harms General Abilities of Large Language Models: Regularization to the RescueJia-Chen Gu, Hao-Xiang Xu, Jun-Yu Ma, Pan Lu, Zhen-Hua Ling, Kai-Wei Chang, Nanyun Peng. 16801-16819 [doi]

Are Large Language Models In-Context Personalized Summarizers? Get an iCOPERNICUS Test Done!Divya Patel, Pathik Patel, Ankush Chander, Sourish Dasgupta, Tanmoy Chakraborty 0002. 16820-16842 [doi]

MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive AnnotationsVishal Vivek Saley, Goonjan Saha, Rocktim Jyoti Das, Dinesh Raghu, Mausam. 16843-16877 [doi]

***YesBut***: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language ModelsAbhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal 0002, Niloy Ganguly. 16878-16895 [doi]

Working Memory Identifies Reasoning Limits in Language ModelsChunhui Zhang, Yiren Jian, Zhongyu Ouyang, Soroush Vosoughi. 16896-16922 [doi]

RAFT: Realistic Attacks to Fool Text DetectorsJames Wang, Ran Li, Junfeng Yang, Chengzhi Mao. 16923-16936 [doi]

LLM-Evolve: Evaluation for LLM's Evolving Capability on BenchmarksJiaxuan You, Mingjie Liu, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro. 16937-16942 [doi]

FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward SkippingAjay Jaiswal, Bodun Hu, Lu Yin 0006, Yeonju Ro, Tianlong Chen, Shiwei Liu 0003, Aditya Akella. 16943-16956 [doi]

LLM-based Code-Switched Text Generation for Grammatical Error CorrectionTom Potter, Zheng Yuan. 16957-16965 [doi]

Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language ModelsMehrdad Farahani, Richard Johansson. 16966-16977 [doi]

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and ReasoningGeewook Kim, Minjoon Seo. 16978-17000 [doi]

Community-Cross-Instruct: Unsupervised Instruction Generation for Aligning Large Language Models to Online CommunitiesZihao He, Minh Duc Chu, Rebecca Dorn, Siyi Guo, Kristina Lerman. 17001-17019 [doi]

Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language ModelsEldar Kurtic, Amir Moeini, Dan Alistarh. 17020-17027 [doi]

Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language ModelsYuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna. 17028-17047 [doi]

One Thousand and One Pairs: A "novel" challenge for long-context language modelsMarzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. 17048-17085 [doi]

Foundational Autoraters: Taming Large Language Models for Better Automatic EvaluationTu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung. 17086-17105 [doi]

Do LLMs learn a true syntactic universal?John T. Hale, Milos Stanojevic. 17106-17119 [doi]

GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNetsOh Joon Kwon, Daiki E. Matsunaga, Kee-Eung Kim. 17120-17139 [doi]

How Susceptible are Large Language Models to Ideological Manipulation?Kai Chen, Zihao He, Jun Yan, Taiwei Shi, Kristina Lerman. 17140-17161 [doi]

Measuring Psychological Depth in Language ModelsFabrice Harel-Canada, Hanyu Zhou, Sreya Muppalla, Zeynep Yildiz, Miryung Kim, Amit Sahai, Nanyun Peng. 17162-17196 [doi]

Media Attitude Detection via Framing Analysis with Events and their RelationsJin Zhao, Jingxuan Tu, Han Du, Nianwen Xue. 17197-17210 [doi]

Fill In The Gaps: Model Calibration and Generalization with Synthetic DataYang Ba, Michelle Mancenido, Rong Pan. 17211-17225 [doi]

Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source CitationsSagi Shaier, Ari Kobren, Philip V. Ogren. 17226-17239 [doi]

Granular Privacy Control for Geolocation with Vision Language ModelsEthan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu 0004, Alan Ritter. 17240-17292 [doi]

MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical DomainChao Jiang, Wei Xu. 17293-17319 [doi]

MemeCLIP: Leveraging CLIP Representations for Multimodal Meme ClassificationSiddhant Bikram Shah, Shuvam Shiwakoti, Maheep Chaudhary, Haohan Wang. 17320-17332 [doi]

FlipGuard: Defending Preference Alignment against Update Regression with Constrained OptimizationMingye Zhu, Yi Liu, Quan Wang 0002, Junbo Guo, Zhendong Mao. 17333-17350 [doi]

StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children's Story-Based LearningJiaju Chen, Yuxuan Lu 0003, Shao Zhang, Bingsheng Yao, Yuanzhe Dong, Ying Xu, Yunyao Li 0001, Qianwen Wang, Dakuo Wang, Yuling Sun. 17351-17370 [doi]

MedCoT: Medical Chain of Thought via Hierarchical ExpertJiaxiang Liu, Yuan Wang, Jiawei Du, Joey Zhou, Zuozhu Liu. 17371-17389 [doi]

Varying Sentence Representations via Condition-Specified RoutersZiyong Lin, Quansen Wang, Zixia Jia, Zilong Zheng. 17390-17401 [doi]

Inductive-Deductive Strategy Reuse for Multi-Turn Instructional DialoguesJiao Ou, Jiayu Wu, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai. 17402-17431 [doi]

Information Flow Routes: Automatically Interpreting Language Models at ScaleJavier Ferrando, Elena Voita. 17432-17445 [doi]

A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language ModelsHouquan Zhou 0001, Zhenghua Li, Bo Zhang 0071, Chen Li 0001, Shaopeng Lai, Ji Zhang 0011, Fei Huang 0004, Min Zhang 0005. 17446-17467 [doi]

Representational Analysis of Binding in Language ModelsQin Dai, Benjamin Heinzerling, Kentaro Inui. 17468-17493 [doi]

CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue CoreferenceErxin Yu, Jing Li, Ming Liao, Siqi Wang, Zuchen Gao, Fei Mi, Lanqing Hong. 17494-17508 [doi]

ClimRetrieve: A Benchmarking Dataset for Information Retrieval from Corporate Climate DisclosuresTobias Schimanski, Jingwei Ni, Roberto Martín, Nicola Ranger, Markus Leippold. 17509-17524 [doi]

Context-Aware Adapter Tuning for Few-Shot Relation Learning in Knowledge GraphsLiu Ran, Zhongzhou Liu, Xiaoli Li 0001, Yuan Fang 0001. 17525-17537 [doi]

Zero-Shot Detection of LLM-Generated Text using Token CohesivenessShixuan Ma, Quan Wang. 17538-17553 [doi]

Dual-oriented Disentangled Network with Counterfactual Intervention for Multimodal Intent DetectionZhanpeng Chen, Zhihong Zhu, Xianwei Zhuang, Zhiqi Huang, Yuexian Zou. 17554-17567 [doi]

From LLMs to MLLMs: Exploring the Landscape of Multimodal JailbreakingSiyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei. 17568-17582 [doi]

Symbolic Working Memory Enhances Language Models for Complex Rule ApplicationSiyuan Wang, Zhongyu Wei, Yejin Choi 0001, Xiang Ren 0001. 17583-17604 [doi]

LLoCO: Learning Long Contexts OfflineSijun Tan, Xiuyu Li, Shishir G. Patil, Ziyang Wu, Tianjun Zhang, Kurt Keutzer, Joseph Gonzalez 0001, Raluca A. Popa. 17605-17621 [doi]

Don't Forget Your Reward Values: Language Model Alignment via Value-based CalibrationXin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang 0218, Wang Chen, Anh Tuan Luu. 17622-17642 [doi]

Mentor-KD: Making Small Language Models Better Multi-step ReasonersHojae Lee, Junho Kim, SangKeun Lee 0001. 17643-17658 [doi]

Are Large Language Models Capable of Generating Human-Level Narratives?Yufei Tian, Tenghao Huang, Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng. 17659-17681 [doi]

MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge GraphsYerin Hwang, Yongil Kim, Yunah Jang, Jeesoo Bang, Hyunkyung Bae, Kyomin Jung. 17682-17702 [doi]

Can Large Language Models Enhance Predictions of Disease Progression? Investigating Through Disease Network Link PredictionHaohui Lu, Usman Naseem. 17703-17715 [doi]

Searching for Best Practices in Retrieval-Augmented GenerationXiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi, Zhengyuan Wang, Shizheng Li, Qi Qian, Ruicheng Yin, Changze Lv, Xiaoqing Zheng, Xuanjing Huang 0001. 17716-17736 [doi]

Moral Foundations of Large Language ModelsMarwa Abdulhai, Gregory Serapio-García, Clément Crepy, Daria Valter, John Canny, Natasha Jaques. 17737-17752 [doi]

The Zeno's Paradox of 'Low-Resource' LanguagesHellina Hailu Nigatu, Atnafu Lambebo Tonja, Benjamin Rosman, Thamar Solorio, Monojit Choudhury. 17753-17774 [doi]

Knowledge Planning in Large Language Models for Domain-Aligned Counseling SummarizationAseem Srivastava, Smriti Joshi, Tanmoy Chakraborty 0002, Md. Shad Akhtar. 17775-17789 [doi]

Enhancing Post-Hoc Attributions in Long Document Comprehension via Coarse Grained Answer DecompositionPritika Ramu, Koustava Goswami, Apoorv Saxena, Balaji Vasan Srinivasan. 17790-17806 [doi]

From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption EnrichmentYusuke Hirota, Ryo Hachiuma, Chao-Han Huck Yang, Yuta Nakashima. 17807-17816 [doi]

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer MergingDeyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Bo Li, Xi Chen 0003, Cunhang Fan, Zhao Lv, Dianhui Chu, Zhiying Tu, Dianbo Sui. 17817-17829 [doi]

Embedded Named Entity Recognition using Probing ClassifiersNicholas Popovic, Michael Färber 0001. 17830-17850 [doi]

Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-TrainingZhou Zhang, Dongzeng Tan, Jiaan Wang, Yilong Chen, Jiarong Xu. 17851-17863 [doi]

Data Contamination Can Cross Language BarriersFeng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang. 17864-17875 [doi]

Automated Essay Scoring: A Reflection on the State of the ArtShengjie Li 0002, Vincent Ng 0001. 17876-17888 [doi]

Encouraging Divergent Thinking in Large Language Models through Multi-Agent DebateTian Liang, Zhiwei He 0002, Wenxiang Jiao, Xing Wang 0007, Yan Wang 0060, Rui Wang 0015, Yujiu Yang, Shuming Shi 0001, Zhaopeng Tu. 17889-17904 [doi]

Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMsXin Zhou 0012, Ping Nie, Yiwen Guo, Haojie Wei, Zhanqiu Zhang, Pasquale Minervini, Ruotian Ma, Tao Gui, Qi Zhang 0001, Xuanjing Huang 0001. 17905-17923 [doi]

CURE: Context- and Uncertainty-Aware Mental Disorder DetectionMigyeong Kang, Goun Choi, Hyolim Jeon, Ji Hyun An, Daejin Choi, Jinyoung Han. 17924-17940 [doi]

PepRec: Progressive Enhancement of Prompting for RecommendationYakun Yu, Shiang Qi, Baochun Li, Di Niu. 17941-17953 [doi]

In-Context Compositional Generalization for Large Vision-Language ModelsChuanhao Li 0001, Chenchen Jing, Zhen Li 0026, Mingliang Zhai, Yuwei Wu 0001, Yunde Jia. 17954-17966 [doi]

Improving Zero-shot LLM Re-Ranker with Risk MinimizationXiaowei Yuan, Zhao Yang, Yequan Wang, Jun Zhao, Kang Liu. 17967-17983 [doi]

Game on Tree: Visual Hallucination Mitigation via Coarse-to-Fine View Tree and Game TheoryXianwei Zhuang, Zhihong Zhu, Zhanpeng Chen, Yuxin Xie, Liming Liang, Yuexian Zou. 17984-18003 [doi]

Label Confidence Weighted Learning for Target-level Sentence SimplificationXin Ying Qiu, Jingshen Zhang. 18004-18019 [doi]

Quantum Recurrent Architectures for Text ClassificationWenduan Xu, Stephen Clark, Douglas Brown, Gabriel Matos, Konstantinos Meichanetzidis. 18020-18027 [doi]

Tree of Problems: Improving structured problem solving with compositionalityArmel Zebaze, Benoît Sagot, Rachel Bawden. 18028-18047 [doi]

What the Harm? Quantifying the Tangible Impact of Gender Bias in Machine Translation with a Human-centered StudyBeatrice Savoldi, Sara Papi, Matteo Negri, Ana Guerberof Arenas, Luisa Bentivogli. 18048-18076 [doi]

Seg2Act: Global Context-aware Action Generation for Document Logical StructuringZichao Li, Shaojie He, Meng Liao, Xuanang Chen, Yaojie Lu 0001, Hongyu Lin, Yanxiong Lu, Xianpei Han, Le Sun 0001. 18077-18088 [doi]

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM PruningAbhinav Bandari, Lu Yin 0006, Cheng-Yu Hsieh, Ajay Jaiswal, Tianlong Chen, Li Shen 0008, Ranjay Krishna, Shiwei Liu 0003. 18089-18099 [doi]

Revisiting the Robustness of Watermarking to Paraphrasing AttacksSaksham Rastogi, Danish Pruthi. 18100-18110 [doi]

A Survey of Ontology Expansion for Conversational UnderstandingJinggui Liang, Yuxia Wu, Yuan Fang 0001, Hao Fei 0001, Lizi Liao. 18111-18127 [doi]

Calibrating Language Models with Adaptive Temperature ScalingJohnathan Xie, Annie S. Chen, Yoonho Lee 0001, Eric Mitchell, Chelsea Finn. 18128-18138 [doi]

Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?Fumiya Uchiyama, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo. 18139-18149 [doi]

Why do objects have many names? A study on word informativeness in language use and lexical systemsEleonora Gualdoni, Gemma Boleda. 18150-18163 [doi]

Dual-Space Knowledge Distillation for Large Language ModelsSongming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen 0005, Jinan Xu. 18164-18181 [doi]

NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity RecognitionElena Merdjanovska, Ansar Aynetdinov, Alan Akbik. 18182-18198 [doi]

On the Universal Truthfulness Hyperplane Inside LLMsJunteng Liu, Shiqi Chen, Yu Cheng, Junxian He. 18199-18224 [doi]

PairDistill: Pairwise Relevance Distillation for Dense RetrievalChao-Wei Huang, Yun-Nung Chen. 18225-18237 [doi]

User Inference Attacks on Large Language ModelsNikhil Kandpal, Krishna Pillutla, Alina Oprea, Peter Kairouz, Christopher A. Choquette-Choo, Zheng Xu 0002. 18238-18265 [doi]

HiFT: A Hierarchical Full Parameter Fine-Tuning StrategyYongkang Liu 0002, Yiqun Zhang, Qian Li, Tong Liu, Shi Feng 0001, Daling Wang, Yifei Zhang 0003, Hinrich Schütze. 18266-18287 [doi]

Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) ModelsYufang Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, Aimin Zhou. 18288-18301 [doi]

Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous TranslationMatthew Raffel, Victor Agostinelli, Lizhong Chen. 18302-18314 [doi]

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and FeedbackQinzhuo Wu, Wei Liu 0005, Jian Luan 0001, Bin Wang 0004. 18315-18339 [doi]

Please note that I'm just an AI: Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech IdentificationEsra Dönmez, Thang Vu, Agnieszka Falenska. 18340-18357 [doi]

How to Compute the Probability of a WordTiago Pimentel, Clara Meister. 18358-18375 [doi]

A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasksElie Antoine, Frédéric Béchet, Géraldine Damnati, Philippe Langlais. 18376-18392 [doi]

GuardBench: A Large-Scale Benchmark for Guardrail ModelsElias Bassani, Ignacio Sanchez. 18393-18409 [doi]

Generate-on-Graph: Treat LLM as both Agent and KG for Incomplete Knowledge Graph Question AnsweringYao Xu, Shizhu He, Jiabei Chen, Zihao Wang 0001, Yangqiu Song, Hanghang Tong, Guang Liu, Jun Zhao 0001, Kang Liu 0001. 18410-18430 [doi]

Language models and brains align due to more than next-word prediction and word-level informationGabriele Merlin, Mariya Toneva. 18431-18454 [doi]

LLMEdgeRefine: Enhancing Text Clustering with LLM-Based Boundary Point RefinementZijin Feng, Luyang Lin, Lingzhi Wang, Hong Cheng 0001, Kam-Fai Wong. 18455-18462 [doi]

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative StructuresEkaterina Sviridova, Anar Yeginbergen, Ainara Estarrona, Elena Cabrio, Serena Villata, Rodrigo Agerri. 18463-18475 [doi]

A Simple and Effective L_2 Norm-Based Strategy for KV Cache CompressionAlessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini. 18476-18499 [doi]

GOME: Grounding-based Metaphor Binding With Conceptual Elaboration For Figurative Language IllustrationLinhao Zhang, Jintao Liu, Li Jin, Hao Wang, Kaiwen Wei, Guangluan Xu. 18500-18510 [doi]

D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and EvaluationAida Mostafazadeh Davani, Mark Diaz, Dylan K. Baker, Vinodkumar Prabhakaran. 18511-18526 [doi]

PALM: Few-Shot Prompt Learning for Audio Language ModelsAsif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi, Hanan Aldarmaki. 18527-18536 [doi]

Annotator-Centric Active Learning for Subjective NLP TasksMichiel van der Meer, Neele Falk, Pradeep K. Murukannaiah, Enrico Liscio. 18537-18555 [doi]

On the Proper Treatment of Tokenization in PsycholinguisticsMario Giulianelli, Luca Malagutti, Juan Luis Gastaldi, Brian DuSell, Tim Vieira, Ryan Cotterell. 18556-18572 [doi]

Enhanced Hallucination Detection in Neural Machine Translation through Simple Detector AggregationAnas Himmi, Guillaume Staerman, Marine Picot, Pierre Colombo, Nuno Guerreiro. 18573-18583 [doi]

Jailbreaking LLMs with Arabic Transliteration and ArabiziMansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou. 18584-18600 [doi]

Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language ModelsZara Siddique, Liam D. Turner, Luis Espinosa Anke. 18601-18619 [doi]

Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific TasksChangho Lee, Janghoon Han, Seonghyeon Ye, Stanley Jungkyu Choi, Honglak Lee, Kyunghoon Bae. 18620-18642 [doi]

Recurrent Alignment with Hard Attention for Hierarchical Text RatingChenxi Lin, Jiayu Ren, Guoxiu He, Zhuoren Jiang, Haiyan Yu, Xiaomin Zhu. 18643-18657 [doi]

CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective SparsificationJunhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li. 18658-18668 [doi]

Semformer: Transformer Language Models with Semantic PlanningYongjing Yin, Junran Ding, Kai Song, Yue Zhang 0004. 18669-18680 [doi]

DocCGen: Document-based Controlled Code GenerationSameer Pimparkhede, Mehant Kammakomati, Srikanth Tamilselvam, Prince Kumar, Ashok Pon Kumar, Pushpak Bhattacharyya. 18681-18697 [doi]

Semantics and Sentiment: Cross-lingual Variations in Emoji UseGiulio Zhou, Sydelle de Souza, Ella Markham, Oghenetekevwe Kwakpovwe, Sumin Zhao. 18698-18712 [doi]

The Emergence of Compositional Languages in Multi-entity Referential Games: from Image to Graph RepresentationsDaniel Akkerman, Phong Le, Raquel G. Alhama. 18713-18723 [doi]

Transformers are Multi-State RNNsMatanel Oren, Michael Hassid, Yarden Nir, Yossi Adi, Roy Schwartz 0001. 18724-18741 [doi]

Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual GeneralizationNiyati Bafna, Kenton Murray, David Yarowsky. 18742-18762 [doi]

Fuse to Forget: Bias Reduction and Selective Memorization through Model FusionKerem Zaman, Leshem Choshen, Shashank Srivastava. 18763-18783 [doi]

Collective Critics for Creative Story GenerationMinwook Bae, Hyounghun Kim. 18784-18819 [doi]

Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form DiscourseEleftheria Tsipidi, Franz Nowak, Ryan Cotterell, Ethan Wilcox, Mario Giulianelli, Alex Warstadt. 18820-18836 [doi]

Model-based Preference Optimization in Abstractive Summarization without Human FeedbackJaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim. 18837-18851 [doi]

Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation?Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe. 18852-18867 [doi]

NeuroTrialNER: An Annotated Corpus for Neurological Diseases and Therapies in Clinical Trial RegistriesSimona Doneva, Tilia Ellendorff, Beate Sick, Jean Philippe Goldman, Amelia Cannon, Gerold Schneider, Benjamin Ineichen. 18868-18890 [doi]

Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support SettingMaxime Kayser, Bayar Menzat, Cornelius Emde, Bogdan Bercean, Alex Novak, Abdalá Morgado, Bartlomiej W. Papiez, Susanne Gaube, Thomas Lukasiewicz, Oana-Maria Camburu. 18891-18919 [doi]

Towards Faithful Knowledge Graph Explanation Through Deep Alignment in Commonsense Question AnsweringWeihe Zhai, Arkaitz Zubiaga, Bingquan Liu, Chengjie Sun, Yalong Zhao. 18920-18930 [doi]

Generation with Dynamic VocabularyYanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, Xiaoling Wang. 18931-18948 [doi]

Argument Relation Classification through Discourse Markers and Adversarial TrainingMichele Contalbo, Francesco Guerra 0001, Matteo Paganelli. 18949-18954 [doi]

Getting The Most Out of Your Training Data: Exploring Unsupervised Tasks for Morphological InflectionAbhishek Purushothama, Adam Wiemerslage, Katharina von der Wense. 18955-18970 [doi]

Link, Synthesize, Retrieve: Universal Document Linking for Zero-Shot Information RetrievalDae-Yon Hwang, Bilal Taha, Harshit Pande, Yaroslav Nechaev. 18971-18982 [doi]

Efficient Unseen Language Adaptation for Multilingual Pre-Trained Language ModelsPo-Heng Chen, Yun-Nung Chen. 18983-18994 [doi]

Prove Your Point!: Bringing Proof-Enhancement Principles to Argumentative Essay GenerationRuiyu Xiao, Lei Wu, Yuhang Gou, Weinan Zhang, Ting Liu. 18995-19008 [doi]

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video ReasoningKate Sanders 0002, Nathaniel Weir, Benjamin Van Durme. 19009-19028 [doi]

Unsupervised Extraction of Dialogue Policies from ConversationsMakesh Narsimhan Sreedhar, Traian Rebedea, Christopher Parisien. 19029-19045 [doi]

GRIZAL: Generative Prior-guided Zero-Shot Temporal Action LocalizationOnkar Susladkar, Gayatri Deshmukh, Vandan Gorade, Sparsh Mittal. 19046-19059 [doi]

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic CompositionalityYoungtaek Oh, Jae-Won Cho, Dong-Jin Kim 0003, In-So Kweon, Junmo Kim 0002. 19060-19076 [doi]

FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food CultureWenyan Li, Crystina Zhang, Jiaang Li, Qiwei Peng 0003, Raphael Tang, Li Zhou, Weijia Zhang, Guimin Hu, Yifei Yuan, Anders Søgaard, Daniel Hershcovich, Desmond Elliott. 19077-19095 [doi]

A Two-Step Approach for Data-Efficient French Pronunciation LearningHoyeon Lee, Hyeeun Jang, Jong-Hwan Kim, Jae Min Kim. 19096-19103 [doi]

Exploring Intra and Inter-language Consistency in Embeddings with ICARongzhi Li, Takeru Matsuda, Hitomi Yanaka. 19104-19111 [doi]

DetoxLLM: A Framework for Detoxification with ExplanationsMd Tawkat Islam Khondaker, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan. 19112-19139 [doi]

Comparing a BERT Classifier and a GPT classifier for Detecting Connective Language Across Multiple Social MediaJosephine Lukito, Bin Chen, Gina M. Masullo, Natalie Jomini Stroud. 19140-19153 [doi]

ShadowLLM: Predictor-based Contextual Sparsity for Large Language ModelsYash Akhauri, Ahmed F. AbouElhamayed, Jordan Dotzel, Zhiru Zhang, Alexander M. Rush, Safeen Huda, Mohamed S. Abdelfattah. 19154-19167 [doi]

Emotion Granularity from Text: An Aggregate-Level Indicator of Mental HealthKrishnapriya Vishnubhotla, Daniela Teodorescu, Mallory J. Feldman, Kristen A. Lindquist, Saif M. Mohammad. 19168-19185 [doi]

BLSP-Emo: Towards Empathetic Large Speech-Language ModelsChen Wang, Minpeng Liao, Zhongqiang Huang, Junhong Wu, Chengqing Zong, Jiajun Zhang. 19186-19199 [doi]

SynthesizRR: Generating Diverse Datasets with Retrieval AugmentationAbhishek Divekar, Greg Durrett. 19200-19227 [doi]

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language ModelWenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen 0001, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu 0001, Yueting Zhuang. 19228-19252 [doi]

DataNarrative: Automated Data-Driven Storytelling with Visualizations and TextsMohammed Saidul Islam, Md. Tahmid Rahman Laskar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty. 19253-19286 [doi]

DEM: Distribution Edited Model for Training with Mixed Data DistributionsDhananjay Ram, Aditya Rawal, Momchil Hardalov, Nikolaos Pappas 0002, Sheng Zha. 19287-19301 [doi]

Altogether: Image Captioning via Re-aligning Alt-textHu Xu 0001, Po-Yao Huang 0001, Xiaoqing Ellen Tan, Ching-feng Yeh, Jacob Kahn, Christine Jou, Gargi Ghosh, Omer Levy, Luke Zettlemoyer, Wen-tau Yih, Shang-wen Li 0001, Saining Xie, Christoph Feichtenhofer. 19302-19318 [doi]

VerifyMatch: A Semi-Supervised Learning Paradigm for Natural Language Inference with Confidence-Aware MixUpSeoyeon Park, Cornelia Caragea. 19319-19335 [doi]

CaT-Bench: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in PlansYash Kumar Lal, Vanya Cohen, Nathanael Chambers, Niranjan Balasubramanian, Raymond J. Mooney. 19336-19354 [doi]

Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free MetricsThéo Gigant, Camille Guinaudeau, Marc Decombas, Frédéric Dufaux. 19355-19368 [doi]

An Empirical Analysis of the Writing Styles of Persona-Assigned LLMsManuj Malik, Jing Jiang, Kian Ming Chai. 19369-19388 [doi]

Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation TasksAmit Parekh 0001, Nikolas Vitsakis, Alessandro Suglia, Ioannis Konstas. 19389-19424 [doi]

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-TuningAleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev. 19425-19432 [doi]

CoCoST: Automatic Complex Code Generation with Online Searching and Correctness TestingXinyi He, Jiaru Zou, Yun Lin, Mengyu Zhou, Shi Han, Zejian Yuan, Dongmei Zhang 0001. 19433-19451 [doi]

Sequential API Function Calling Using GraphQL SchemaAvirup Saha, Lakshmi Mandal, Balaji Ganesan, Sambit Ghosh, Renuka Sindhgatta, Carlos Eberhardt, Dan Debrunner, Sameep Mehta. 19452-19458 [doi]

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering SystemsJudith Sieker, Simeon Junker, Ronja Utescher, Nazia Attari, Heiko Wersing, Hendrik Buschmeier, Sina Zarrieß. 19459-19475 [doi]

Re-Evaluating Evaluation for Multilingual SummarizationJessica Forde, Ruochen Zhang, Lintang Sutawika, Alham Fikri Aji, Samuel Cahyawijaya, Genta Indra Winata, Minghao Wu, Carsten Eickhoff, Stella Biderman, Ellie Pavlick. 19476-19493 [doi]

Video-Text Prompting for Weakly Supervised Spatio-Temporal Video GroundingHeng Zhao, Yinjie Zhao, Bihan Wen, Yew-Soon Ong, Joey Zhou. 19494-19505 [doi]

A Fast and Sound Tagging Method for Discontinuous Named-Entity RecognitionCaio Corro. 19506-19518 [doi]

Factuality of Large Language Models: A SurveyYuxia Wang, Minghan Wang, Muhammad Arslan Manzoor, Fei Liu, Georgi Georgiev, Rocktim Jyoti Das, Preslav Nakov. 19519-19529 [doi]

Discovering Biases in Information Retrieval Models Using Relevance Thesaurus as Global ExplanationYoungWoo Kim, Razieh Rahimi, James Allan. 19530-19547 [doi]

Adaptable Moral Stances of Large Language Models on Sexist Content: Implications for Society and Gender DiscourseRongchen Guo, Isar Nejadgholi, Hillary Dawkins, Kathleen C. Fraser, Svetlana Kiritchenko. 19548-19564 [doi]

DISCERN: Decoding Systematic Errors in Natural Language for Text ClassifiersRakesh R. Menon, Shashank Srivastava. 19565-19583 [doi]

IntCoOp: Interpretability-Aware Vision-Language Prompt TuningSoumya Suvra Ghosal, Samyadeep Basu, Soheil Feizi, Dinesh Manocha. 19584-19601 [doi]

Scope-enhanced Compositional Semantic Parsing for DRTXiulin Yang, Jonas Groschwitz, Alexander Koller, Johan Bos. 19602-19616 [doi]

The Generation Gap: Exploring Age Bias in the Value Systems of Large Language ModelsSiyang Liu 0003, Trisha Maturi, Bowen Yi, Siqi Shen, Rada Mihalcea. 19617-19634 [doi]

TempoFormer: A Transformer for Temporally-aware Representations in Change DetectionTalia Tseriotou, Adam Tsakalidis, Maria Liakata. 19635-19653 [doi]

Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?Guillermo Marco, Julio Gonzalo, María Teresa Mateo Girona, Ramón Santos. 19654-19670 [doi]

Evaluating Diversity in Automatic Poetry GenerationYanran Chen, Hannes Gröner, Sina Zarrieß, Steffen Eger. 19671-19692 [doi]

Evaluating Short-Term Temporal Fluctuations of Social Biases in Social Media Data and Masked Language ModelsYi Zhou 0019, Danushka Bollegala, José Camacho-Collados. 19693-19708 [doi]

Delving into Qualitative Implications of Synthetic Data for Hate Speech DetectionCamilla Casula, Sebastiano Salto, Alan Ramponi, Sara Tonelli. 19709-19726 [doi]

Grounding Language in Multi-Perspective Referential CommunicationZineng Tang, Lingjun Mao, Alane Suhr. 19727-19741 [doi]

Threshold-driven Pruning with Segmented Maximum Term Weights for Approximate Cluster-based Sparse RetrievalYifan Qiao, Parker Carlson, Shanxiu He, Yingrui Yang, Tao Yang. 19742-19757 [doi]

Error Analysis of Multilingual Language Models in Machine Translation: A Case Study of English-Amharic TranslationHizkiel Alemayehu, Hamada M. Zahera, Axel-Cyrille Ngonga Ngomo. 19758-19768 [doi]

MIPD: Exploring Manipulation and Intention In a Novel Corpus of Polish DisinformationArkadiusz Modzelewski, Giovanni Da San Martino, Pavel Savov, Magdalena Wilczynska, Adam Wierzbicki. 19769-19785 [doi]

Unsupervised Discrete Representations of American Sign LanguageArtem Abzaliev, Rada Mihalcea. 19786-19793 [doi]

Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language ModelsChani Jung, Dongkwan Kim 0001, Jiho Jin, Jiseon Kim, Yeon Seonwoo, Yejin Choi 0001, Alice Oh, Hyunwoo Kim 0002. 19794-19809 [doi]

Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMsMihir Parmar, Hanieh Deilamsalehy, Franck Dernoncourt, Seunghyun Yoon 0002, Ryan A. Rossi, Trung Bui. 19810-19820 [doi]

Jump Starting Bandits with LLM-Generated Prior KnowledgeParand A. Alamdari, Yanshuai Cao, Kevin H. Wilson. 19821-19833 [doi]

Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve?Firat Öncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, Çagatay Yildiz. 19834-19843 [doi]

Not All Contexts Are Equal: Teaching LLMs Credibility-aware GenerationRuotong Pan, Boxi Cao, Hongyu Lin, Xianpei Han, Jia Zheng, Sirui Wang, Xunliang Cai, Le Sun 0001. 19844-19863 [doi]

Virtual Personas for Language Models via an Anthology of BackstoriesSuhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M. Chan. 19864-19897 [doi]

Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?Nemika Tyagi, Mihir Parmar, Mohith Kulkarni, Aswin RRV, Nisarg Patel, Mutsumi Nakamura, Arindam Mitra, Chitta Baral. 19898-19915 [doi]

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning StrategiesJunlin Wang, Siddhartha Jain 0001, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun. 19916-19939 [doi]

The Empirical Variability of Narrative Perceptions of Social Media TextsJoel Mire, Maria Antoniak, Elliott Ash, Andrew Piper, Maarten Sap. 19940-19968 [doi]

Which questions should I answer? Salience Prediction of Inquisitive QuestionsYating Wu, Ritika Mangla, Alex Dimakis, Greg Durrett, Junyi Jessy Li. 19969-19987 [doi]

Revealing Personality Traits: A New Benchmark Dataset for Explainable Personality Recognition on DialoguesLei Sun, Jinming Zhao, Qin Jin. 19988-20002 [doi]

Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy SpeechGuan-Ting Lin, Wei Huang, Hung-yi Lee. 20003-20015 [doi]

Whiteboard-of-Thought: Thinking Step-by-Step Across ModalitiesSachit Menon, Richard S. Zemel, Carl Vondrick. 20016-20031 [doi]

CodeJudge: Evaluating Code Generation with Large Language ModelsWeixi Tong, Tianyi Zhang. 20032-20051 [doi]

Self-Training Large Language and Vision Assistant for Medical Question AnsweringGuohao Sun, Can Qin, Huazhu Fu, Linwei Wang, Zhiqiang Tao. 20052-20060 [doi]

SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical SummarizationPrakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu 0001. 20061-20083 [doi]

Defending Jailbreak Prompts via In-Context Adversarial GameYujun Zhou 0002, Yufei Han, Haomin Zhuang, Kehan Guo, Zhenwen Liang, Hongyan Bao, Xiangliang Zhang 0001. 20084-20105 [doi]

Detecting Online Community Practices with Large Language Models: A Case Study of Pro-Ukrainian Publics on TwitterKateryna Kasianenko, Shima Khanehzar, Stephen Wan 0001, Ehsan Dehghan, Axel Bruns. 20106-20135 [doi]

Multilingual Topic Classification in X: Dataset and AnalysisDimosthenis Antypas, Asahi Ushio, Francesco Barbieri, José Camacho-Collados. 20136-20152 [doi]

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language ModelsWai-Chung Kwan, Xingshan Zeng, Yuxin Jiang, Yufei Wang 0005, Liangyou Li, Lifeng Shang, Xin Jiang 0002, Qun Liu 0001, Kam-Fai Wong. 20153-20177 [doi]

Updating CLIP to Prefer Descriptions Over CaptionsAmir Zur, Elisa Kreiss, Karel D'Oosterlinck, Christopher Potts, Atticus Geiger. 20178-20187 [doi]

CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security ResearchSian-Yao Huang, Cheng-Lin Yang, Che-Yu Lin, Chun-Ying Huang. 20188-20206 [doi]

Back to School: Translation Using Grammar BooksJonathan Hus, Antonios Anastasopoulos. 20207-20219 [doi]

VIEWS: Entity-Aware News Video CaptioningHammad A. Ayyubi, Tianqi Liu 0002, Arsha Nagrani, Xudong Lin 0003, Mingda Zhang, Anurag Arnab, Feng Han, Yukun Zhu, Xuande Feng, Kevin Zhang, Jialu Liu, Shih-Fu Chang. 20220-20239 [doi]

Towards Aligning Language Models with Textual FeedbackSaüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan. 20240-20266 [doi]

AMPO: Automatic Multi-Branched Prompt OptimizationSheng Yang, Yurong Wu, Yan Gao, Zineng Zhou, Bin Zhu, Xiaodi Sun, Jian-Guang Lou, Zhiming Ding, Anbang Hu, Yuan Fang, Yunsong Li, Junyan Chen, Linjun Yang. 20267-20279 [doi]

DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware TranslatorsXinglin Lyu, Junhui Li, Yanqing Zhao, Min Zhang, Daimeng Wei, Shimin Tao, Hao Yang. 20280-20295 [doi]

DEFT-UCS: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection for Text-EditingDevleena Das, Vivek Khetan. 20296-20312 [doi]

Unveiling Multi-level and Multi-modal Semantic Representations in the Human Brain using Large Language ModelsYuko Nakagi, Takuya Matsuyama, Naoko Koide-Majima, Hiroto Yamaguchi, Rieko Kubo, Shinji Nishimoto, Yu Takagi. 20313-20338 [doi]

"They are uncultured": Unveiling Covert Harms and Social Threats in LLM Generated ConversationsPreetam Prabhu Srikar Dammu, Hayoung Jung, Anjali Singh, Monojit Choudhury, Tanushree Mitra. 20339-20369 [doi]

Multi-expert Prompting Improves Reliability, Safety and Usefulness of Large Language ModelsDo Xuan Long, Duong Yen, Anh Tuan Luu, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen. 20370-20401 [doi]

Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi. 20402-20415 [doi]

Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional PropertiesKeunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Shane Storks, Joyce Chai. 20416-20431 [doi]

Waterfall: Scalable Framework for Robust Text Watermarking and Provenance for LLMsGregory Kang Ruey Lau, Xinyuan Niu, Hieu Dao, Jiangwei Chen, Chuan-Sheng Foo, Bryan Kian Hsiang Low. 20432-20466 [doi]

MASIVE: Open-Ended Affective State Identification in English and SpanishNicholas Deas, Elsbeth Turcan, Iván Pérez Mejía, Kathleen R. McKeown. 20467-20485 [doi]

You Make me Feel like a Natural Question: Training QA Systems on Transformed Trivia QuestionsTasnim Kabir, Yoo yeon Sung, Saptarashmi Bandyopadhyay, Hao Zou, Abhranil Chandra, Jordan L. Boyd-Graber. 20486-20510 [doi]

AlphaLoRA: Assigning LoRA Experts Based on Layer Training QualityPeijun Qing, Chongyang Gao, Yefan Zhou, Xingjian Diao, Yaoqing Yang, Soroush Vosoughi. 20511-20523 [doi]

Flee the Flaw: Annotating the Underlying Logic of Fallacious Arguments Through Templates and Slot-fillingIrfan Robbani, Paul Reisert, Surawat Pothong, Naoya Inoue, Camélia Guerraoui, Wenzhi Wang, Shoichi Naito, Jungmin Choi, Kentaro Inui. 20524-20540 [doi]

Advancing Social Intelligence in AI Agents: Technical Challenges and Open QuestionsLeena Mathur, Paul Pu Liang, Louis-Philippe Morency. 20541-20560 [doi]

RAt: Injecting Implicit Bias for Text-To-Image Prompt Refinement ModelsZiyi Kou, Shichao Pei, Meng Jiang 0001, Xiangliang Zhang 0001. 20561-20570 [doi]

Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and SundaneseRifki Afina Putri, Faiz Ghifari Haznitrama, Dea Adhista, Alice Oh. 20571-20590 [doi]

Can Language Models Induce Grammatical Knowledge from Indirect Evidence?Miyu Oba, Yohei Oseki, Akiyo Fukatsu, Akari Haga, Hiroki Ouchi, Taro Watanabe, Saku Sugawara. 20591-20603 [doi]

Do LLMs Know to Respect Copyright Notice?Jialiang Xu, Shenglan Li, Zhaozhuo Xu, Denghui Zhang. 20604-20619 [doi]

SpecHub: Provable Acceleration to Multi-Draft Speculative DecodingRyan Sun, Tianyi Zhou 0001, Xun Chen, Lichao Sun 0001. 20620-20641 [doi]

Interventional Speech Noise Injection for ASR Generalizable Spoken Language UnderstandingYeonJoon Jung, Jaeseong Lee 0002, Seungtaek Choi, Dohyeon Lee, Minsoo Kim, Seung-won Hwang. 20642-20655 [doi]

Rethinking the Role of Proxy Rewards in Language Model AlignmentSungdong Kim, Minjoon Seo. 20656-20674 [doi]

Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal AssistantAbhirama Subramanyam Penamakuri, Anand Mishra 0001. 20675-20688 [doi]

Beyond Correlation: Interpretable Evaluation of Machine Translation MetricsStefano Perrella, Lorenzo Proietti 0002, Pere-Lluís Huguet Cabot, Edoardo Barba, Roberto Navigli. 20689-20714 [doi]

IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot CaptioningSoeun Lee, Si-Woo Kim, Taewhan Kim, Dong Jin Kim. 20715-20727 [doi]

Encoding Spreadsheets for Large Language ModelsHaoyu Dong 0001, Jianbo Zhao, Yuzhang Tian, Junyu Xiong, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang 0001. 20728-20748 [doi]

Let's discuss! Quality Dimensions and Annotated Datasets for Computational Argument Quality AssessmentRositsa V. Ivanova, Thomas Huber, Christina Niklaus. 20749-20779 [doi]

Automatic sentence segmentation of clinical record narratives in real-world dataDongfang Xu, Davy Weissenbacher, Karen O'Connor, Siddharth Rawal, Graciela Gonzalez-Hernandez. 20780-20793 [doi]

One-to-Many Communication and Compositionality in Emergent CommunicationHeeyoung Lee. 20794-20811 [doi]

Bayesian Example Selection Improves In-Context Learning for Speech, Text and Visual ModalitiesSiyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang 0031. 20812-20828 [doi]

Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions?Alexander Arno Weber, Klaudia Thellmann, Jan Ebert, Nicolas Flores-Herr, Jens Lehmann 0001, Michael Fromm 0001, Mehdi Ali. 20829-20855 [doi]

Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language ModelsNisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura, Neeraj Varshney, Chitta Baral. 20856-20879 [doi]

Linear Layer Extrapolation for Fine-Grained Emotion ClassificationMayukh Sharma, Sean O'Brien, Julian J. McAuley. 20880-20888 [doi]

Task Oriented In-Domain Data AugmentationXiao Liang, Xinyu Hu, Simiao Zuo, Yeyun Gong, Qiang Lou, Yi Liu, Shao-Lun Huang, Jian Jiao. 20889-20907 [doi]

SciDQA: A Deep Reading Comprehension Dataset over Scientific PapersShruti Singh, Nandan Sarkar, Arman Cohan. 20908-20923 [doi]

Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of ModulesZhuocheng Gong, Ang Lv, Jian Guan 0002, Wei Wu 0014, Huishuai Zhang, Minlie Huang, Dongyan Zhao 0001, Rui Yan 0001. 20924-20938 [doi]

No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 LanguagesYoussef Mohamed, Runjia Li, Ibrahim Ahmad, Kilichbek Haydarov, Philip Torr 0001, Kenneth Church 0001, Mohamed Elhoseiny. 20939-20962 [doi]

PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech DetectionSomeen Park, Jaehoon Kim, Seungwan Jin, Sohyun Park, Kyungsik Han. 20963-20987 [doi]

TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASRShashi Kumar, Srikanth R. Madikeri, Juan Pablo Zuluaga-Gomez, Iuliia Thorbecke, Esaú Villatoro-Tello, Sergio Burdisso, Petr Motlícek, Karthik S, Aravind Ganapathiraju. 20988-20995 [doi]

ApiQ: Finetuning of 2-Bit Quantized Large Language ModelBaohao Liao, Christian Herold, Shahram Khadivi, Christof Monz. 20996-21020 [doi]

Memorize Step by Step: Efficient Long-Context Prefilling with Incremental Memory and Decremental ChunkZhiyuan Zeng, Qipeng Guo, Xiaoran Liu, Zhangyue Yin, Wentao Shu, Mianqiu Huang, Bo Wang, Yunhua Zhou, Linlin Li 0008, Qun Liu 0001, Xipeng Qiu. 21021-21034 [doi]

A Morphology-Based Investigation of Positional EncodingsPoulami Ghosh, Shikhar Vashishth, Raj Dabre, Pushpak Bhattacharyya. 21035-21045 [doi]

I love pineapple on pizza != I hate pineapple on pizza: Stance-Aware Sentence Transformers for Opinion MiningVahid Ghafouri, Jose Such, Guillermo Suarez-Tangil. 21046-21058 [doi]

BiasWipe: Mitigating Unintended Bias in Text Classifiers through Model InterpretabilityMamta Mamta, Rishikant Chigrupaatii, Asif Ekbal. 21059-21070 [doi]

ArMeme: Propagandistic Content in Arabic MemesFiroj Alam, Abul Hasnat 0001, Fatema Ahmad, Md. Arid Hasan, Maram Hasanain. 21071-21090 [doi]

Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven PromptsArianna Muti, Federico Ruggeri, Khalid Al Khatib, Alberto Barrón-Cedeño, Tommaso Caselli. 21091-21107 [doi]

Thoughts to Target: Enhance Planning for Target-driven ConversationZhonghua Zheng, Lizi Liao, Yang Deng 0002, Ee-Peng Lim, Minlie Huang, Liqiang Nie. 21108-21124 [doi]

Scalable Data Ablation Approximations for Language Models through Modular Training and MergingClara Na, Ian Magnusson, Ananya Harsh Jha, Tom Sherborne, Emma Strubell, Jesse Dodge, Pradeep Dasigi. 21125-21141 [doi]

Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine TranslationZhe Cao, Zhi Qu, Hidetaka Kamigaito, Taro Watanabe. 21142-21157 [doi]

Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also MattersZhiyu Guo, Hidetaka Kamigaito, Taro Watanabe. 21158-21166 [doi]

Generative Subgraph Retrieval for Knowledge Graph-Grounded Dialog GenerationJinyoung Park, Minseok Joo, Joo-Kyung Kim, Hyunwoo J. Kim. 21167-21182 [doi]

Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text ClassifiersTuc Nguyen, Thai Le. 21183-21203 [doi]

Generalizing Clinical De-identification Models by Privacy-safe Data Augmentation using GPT-4Woojin Kim, Sungeun Hahm, Jaejin Lee. 21204-21218 [doi]

Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word GamePrisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan. 21219-21236 [doi]

GottBERT: a pure German Language ModelRaphael Scheible, Johann Frei, Fabian Thomczyk, Henry He, Patric Tippmann, Jochen Knaus, Victor Jaravine, Frank Kramer 0001, Martin Boeker. 21237-21250 [doi]

Computational Meme Understanding: A SurveyKhoi P. N. Nguyen, Vincent Ng. 21251-21267 [doi]

CoverICL: Selective Annotation for In-Context Learning via Active Graph CoverageCostas Mavromatis, Balasubramaniam Srinivasan, Zhengyuan Shen, Jiani Zhang 0003, Huzefa Rangwala, Christos Faloutsos, George Karypis. 21268-21286 [doi]

Retrieval-enriched zero-shot image classification in low-resource domainsNicola Dall'Asen, Yiming Wang 0002, Enrico Fini, Elisa Ricci 0001. 21287-21302 [doi]

I-AM-G: Interest Augmented Multimodal Generator for Item PersonalizationXianquan Wang, Likang Wu, Shukang Yin, Zhi Li, Yanjiang Chen, Hufeng Hufeng, Yu Su, Qi Liu. 21303-21317 [doi]

Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance GapsGiuseppe Attanasio, Beatrice Savoldi, Dennis Fucci, Dirk Hovy. 21318-21340 [doi]

Enhancing Language Model Alignment: A Confidence-Based Approach to Label SmoothingBaihe Huang, Hiteshi Sharma, Yi Mao. 21341-21352 [doi]

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashionYannis Flet-Berliac, Nathan Grinsztajn, Florian Strub, Eugene Choi, Bill Wu, Chris Cremer, Arash Ahmadian, Yash Chandak, Mohammad Gheshlaghi Azar, Olivier Pietquin, Matthieu Geist. 21353-21370 [doi]

Show and Guide: Instructional-Plan Grounded Vision and Language ModelDiogo Glória-Silva, David Semedo, João Magalhães. 21371-21389 [doi]

Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue AgentsBandhav Veluri, Benjamin N. Peloquin, Bokai Yu, Hongyu Gong, Shyamnath Gollakota. 21390-21402 [doi]

QuBE: Question-based Belief Enhancement for Agentic LLM ReasoningMinsoo Kim, Jongyoon Kim, Jihyuk Kim, Seung-won Hwang. 21403-21423 [doi]

CompAct: Compressing Retrieved Documents Actively for Question AnsweringChanwoong Yoon, Taewhoo Lee, Hyeon Hwang, Minbyul Jeong, Jaewoo Kang. 21424-21439 [doi]

An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal ModelsFatemeh Shiri, Xiao-Yu Guo, Mona Far, Xin Yu 0002, Reza Haf, Yuan-Fang Li. 21440-21455 [doi]

Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language ModelsJiaxin Zhang, Wendi Cui, Yiran Huang, Kamalika Das, Kumar Sricharan. 21456-21473 [doi]

Local Contrastive Editing of Gender StereotypesMarlene Lutz, Rochelle Choenni, Markus Strohmaier, Anne Lauscher. 21474-21493 [doi]

De-Identification of Sensitive Personal Data in Datasets Derived from IIT-CDIPStefan Larson, Nicole Lima, Santiago Diaz, Amogh Joshi, Siddharth Betala, Jamiu Suleiman, Yash Mathur, Kaushal Prajapati, Ramla Alakraa, Junjie Shen, Temi Okotore, Kevin Leach. 21494-21505 [doi]

RAR: Retrieval-augmented retrieval for code generation in low resource languagesAvik Dutta, Mukul Singh, Gust Verbruggen, Sumit Gulwani, Vu Le 0002. 21506-21515 [doi]

STAR: SocioTechnical Approach to Red Teaming Language ModelsLaura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, A. Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac 0001. 21516-21532 [doi]

Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRAMaharshi Gor, Hal Daumé III, Tianyi Zhou 0001, Jordan L. Boyd-Graber. 21533-21564 [doi]

Memory-Efficient Fine-Tuning of Transformers via Token SelectionAntoine Simoulin, Namyong Park, Xiaoyi Liu, Grey Yang. 21565-21580 [doi]

Unveiling the mystery of visual attributes of concrete and abstract concepts: Variability, nearest neighbors, and challenging categoriesTarun Tater, Sabine Schulte im Walde, Diego Frassinelli. 21581-21597 [doi]

Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and BenchmarkElizabeth Fons, Rachneet Kaur, Soham Palande, Zhen Zeng, Tucker Balch, Manuela Veloso, Svitlana Vyetrenko. 21598-21634 [doi]

Can LLMs Learn Uncertainty on Their Own? Expressing Uncertainty Effectively in A Self-Training MannerShudong Liu 0004, Zhaocong Li, Xuebo Liu 0002, Runzhe Zhan, Derek F. Wong, Lidia S. Chao, Min Zhang 0005. 21635-21645 [doi]

Preference-Guided Reflective Sampling for Aligning Language ModelsHai Ye, Hwee Tou Ng. 21646-21668 [doi]

Metrics for What, Metrics for Whom: Assessing Actionability of Bias Evaluation Metrics in NLPPieter Delobelle, Giuseppe Attanasio, Debora Nozza, Su Lin Blodgett, Zeerak Talat. 21669-21691 [doi]

Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMsXuhui Zhou, Zhe Su, Tiwalayo Eisape, Hyunwoo Kim 0002, Maarten Sap. 21692-21714 [doi]

A Simple LLM Framework for Long-Range Video Question-AnsweringCe Zhang 0010, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius. 21715-21737 [doi]

Rebuilding ROME : Resolving Model Collapse during Sequential Model EditingAkshat Gupta, Sidharth Baskaran, Gopala Anumanchipalli. 21738-21744 [doi]

Casablanca: Data and Models for Multidialectal Arabic Speech RecognitionBashar Talafha, Karima Kadaoui, Samar M. Magdy, Mariem Habiboullah, Chafei Mohamed Chafei, Ahmed Oumar El-Shangiti, Hiba Zayed, Mohamedou Cheikh Tourad, Rahaf Alhamouri, Rwaa Assi, Aisha Alraeesi, Hour Mohamed, Fakhraddin Alwajih, Abdelrahman Mohamed, Abdellah El Mekki, El Moatez Billah Nagoudi, Benelhadj Saadia, Hamzah A. Alsayadi, Walid Al-Dhabyani, Sara Shatnawi, Yasir Ech-Chammakhy, Amal Makouar, Yousra Berrachedi, Mustafa Jarrar, Shady Shehata, Ismail Berrada, Muhammad Abdul-Mageed. 21745-21758 [doi]

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and ActivationsRima Hazra, Sayan Layek, Somnath Banerjee 0002, Soujanya Poria. 21759-21776 [doi]

Communicating with Speakers and Listeners of Different Pragmatic LevelsKata Naszádi, Frans A. Oliehoek, Christof Monz. 21777-21783 [doi]

RECANTFormer: Referring Expression Comprehension with Varying Numbers of TargetsBhathiya Hemanthage, Hakan Bilen, Phil Bartie, Christian Dondrup, Oliver Lemon. 21784-21798 [doi]

Sprout: Green Generative AI with Carbon-Efficient LLM InferenceBaolin Li, Yankai Jiang 0002, Vijay Gadepally, Devesh Tiwari. 21799-21813 [doi]

Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMsAlexander Spangher, Nanyun Peng, Sebastian Gehrmann, Mark Dredze. 21814-21828 [doi]

T-FREE: Subword Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient EmbeddingsBjörn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach. 21829-21851 [doi]

SpeechQE: Estimating the Quality of Direct Speech TranslationHyoJung Han, Kevin Duh, Marine Carpuat. 21852-21867 [doi]

Assessing and Verifying Task Utility in LLM-Powered ApplicationsNegar Arabzadeh, Siqing Huo, Nikhil Mehta 0003, Qingyun Wu, Chi Wang 0001, Ahmed Awadallah 0001, Charles L. A. Clarke, Julia Kiseleva. 21868-21888 [doi]

Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language ModelsSomanshu Singla, Zhen Wang, Tianyang Liu, Abdullah Ashfaq, Zhiting Hu, Eric P. Xing. 21889-21909 [doi]

Accurate and Data-Efficient Toxicity Prediction when Annotators DisagreeHarbani Jaggi, Kashyap Coimbatore Murali, Eve Fleisig, Erdem Biyik. 21910-21917 [doi]

Adversarial Text Generation using Large Language Models for Dementia DetectionYouxiang Zhu, Nana Lin, Kiran Balivada, Daniel Haehn, Xiaohui Liang. 21918-21933 [doi]

xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation MetricsDaniil Larionov, Mikhail Seleznyov, Vasiliy Viskov, Alexander Panchenko, Steffen Eger. 21934-21949 [doi]

The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral DilemmasGiovanni Marraffini, Andrés Cotton, Noe Hsueh, Axel Fridman, Juan Wisznia, Luciano Corro. 21950-21959 [doi]

FairFlow: Mitigating Dataset Biases through Undecided Learning for Natural Language UnderstandingJiali Cheng, Hadi Amiri. 21960-21975 [doi]

Style-Shifting Behaviour of the Manosphere on RedditJai Aggarwal, Suzanne Stevenson. 21976-21989 [doi]

The Death and Life of Great Prompts: Analyzing the Evolution of LLM Prompts from the Structural PerspectiveYihan Ma, Xinyue Shen, Yixin Wu, Boyang Zhang, Michael Backes 0001, Yang Zhang 0016. 21990-22001 [doi]

Holistic Evaluation for Interleaved Text-and-Image GenerationMinqian Liu, Zhiyang Xu, Zihao Lin 0003, Trevor Ashby, Joy Rimchala, Jiaxin Zhang 0005, Lifu Huang. 22002-22016 [doi]

FOLIO: Natural Language Reasoning with First-Order LogicSimeng Han, Hailey Schoelkopf, Yilun Zhao 0001, Zhenting Qi, Martin Riddell, Wenfei Zhou, James Coady, David Peng, Yujie Qiao, Luke Benson, Lucy Sun, Alexander Wardle-Solano, Hannah Szabó, Ekaterina Zubova, Matthew Burtell, Jonathan Fan 0001, Yixin Liu 0003, Brian Wong, Malcolm Sailor, Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu 0009, Rui Zhang 0037, Alexander R. Fabbri, Wojciech Kryscinski, Semih Yavuz, Ye Liu 0006, Xi Victoria Lin, Shafiq Joty, Yingbo Zhou, Caiming Xiong, Rex Ying, Arman Cohan, Dragomir Radev. 22017-22031 [doi]

The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead?Alexander S. Choi, Syeda Sabrina Akter, J. P. Singh, Antonios Anastasopoulos. 22032-22054 [doi]

Is Child-Directed Speech Effective Training Data for Language Models?Steven Y. Feng, Noah D. Goodman, Michael Frank. 22055-22071 [doi]

RevMUX: Data Multiplexing with Reversible Adapters for Efficient LLM Batch InferenceYige Xu 0001, Xu Guo 0002, Zhiwei Zeng, Chunyan Miao. 22072-22087 [doi]

Inference Helps PLMs' Conceptual Understanding: Improving the Abstract Inference Ability with Hierarchical Conceptual Entailment GraphsJuncai Li, Ru Li 0001, Xiaoli Li 0001, Qinghua Chai, Jeff Z. Pan. 22088-22104 [doi]

M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-ThoughtGitanjali Kumari, Kirtan Jain, Asif Ekbal. 22105-22138 [doi]

GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-ExplanationGovind Ramesh, Yao Dou, Wei Xu 0004. 22139-22148 [doi]

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented GenerationKiSeung Kim, Jay Yoon Lee. 22149-22161 [doi]

Evaluating Concurrent Robustness of Language Models Across Diverse Challenge SetsVatsal Gupta 0001, Pranshu Pandya, Tushar Kataria, Vivek Gupta 0001, Dan Roth. 22162-22184 [doi]

Simul-MuST-C: Simultaneous Multilingual Speech Translation Corpus Using Large Language ModelMana Makinae, Yusuke Sakai 0010, Hidetaka Kamigaito, Taro Watanabe. 22185-22205 [doi]

Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from TextPritika Ramu, Aparna Garimella, Sambaran Bandyopadhyay. 22206-22216 [doi]

On the Fragility of Active Learners for Text ClassificationAbhishek Ghose 0004, Emma Nguyen. 22217-22233 [doi]

BMRetriever: Tuning Large Language Models as Better Biomedical Text RetrieversRan Xu 0002, Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu 0001, May Dongmei Wang, Joyce C. Ho, Chao Zhang 0014, Carl Yang 0001. 22234-22254 [doi]

Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective RetrievalJonghyun Song, Cheyon Jin, Wenlong Zhao 0001, Andrew McCallum, Jay Yoon Lee. 22255-22269 [doi]

M3D: MultiModal MultiDocument Fine-Grained Inconsistency DetectionChia-Wei Tang, Ting-Chih Chen, Kiet Nguyen, Kazi Sajeed Mehrab, Alvi Md. Ishmam, Chris Thomas 0004. 22270-22293 [doi]

MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical ReasoningWenqi Shi, Ran Xu 0002, Yuchen Zhuang, Yue Yu, Haotian Sun, Hang Wu, Carl Yang 0001, May Dongmei Wang. 22294-22314 [doi]

EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health RecordsWenqi Shi, Ran Xu 0002, Yuchen Zhuang, Yue Yu, Jieyu Zhang, Hang Wu, Yuanda Zhu, Joyce C. Ho, Carl Yang 0001, May Dongmei Wang. 22315-22339 [doi]

SimLLM: Detecting Sentences Generated by Large Language Models Using Similarity between the Generation and its Re-generationHoang-Quoc Nguyen-Son, Minh-Son Dao, Koji Zettsu. 22340-22352 [doi]

CELLO: Causal Evaluation of Large Vision-Language ModelsMeiqi Chen 0001, Bo Peng, Yan Zhang, Chaochao Lu. 22353-22374 [doi]

Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language PairYusuke Sakai 0010, Mana Makinae, Hidetaka Kamigaito, Taro Watanabe. 22375-22398 [doi]

Training-free Deep Concept Injection Enables Language Models for Video Question AnsweringXudong Lin 0003, Manling Li, Richard S. Zemel, Heng Ji, Shih-Fu Chang. 22399-22416 [doi]

MIBench: Evaluating Multimodal Large Language Models over Multiple ImagesHaowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang 0011, Fei Huang 0004, Chunfeng Yuan, Bing Li 0001, Weiming Hu. 22417-22428 [doi]

ZEBRA: Zero-Shot Example-Based Retrieval Augmentation for Commonsense Question AnsweringFrancesco Molfese 0001, Simone Conia, Riccardo Orlando, Roberto Navigli. 22429-22444 [doi]

ABLE: Personalized Disability Support with Politeness and Empathy IntegrationKshitij Mishra, Manisha Burja, Asif Ekbal. 22445-22470 [doi]

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language ModelsHyungjoo Chae, Yeonghyeon Kim, Seungone Kim, Kai Tzu-iunn Ong, Beong-woo Kwak, Moohyeon Kim, Sunghwan Kim, Taeyoon Kwon, Jiwan Chung, Youngjae Yu, Jinyoung Yeo. 22471-22502 [doi]

Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous CodeHyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo. 22503-22524 [doi]

Improving Minimum Bayes Risk Decoding with Multi-PromptDavid Heineman, Yao Dou, Wei Xu 0004. 22525-22545 [doi]

Deciphering Cognitive Distortions in Patient-Doctor Mental Health Conversations: A Multimodal LLM-Based Detection and Reasoning FrameworkGopendra Vikram Singh, Sai Vemulapalli, Mauajama Firdaus, Asif Ekbal. 22546-22570 [doi]

Nearest Neighbor Normalization Improves Multimodal RetrievalNeil Chowdhury, Franklin Wang, Sumedh Shenoy, Douwe Kiela, Sarah Schwettmann, Tristan Thrush. 22571-22582 [doi]

Rethinking Pragmatics in Large Language Models: Towards Open-Ended Evaluation and Preference TuningShengguang Wu, Shusheng Yang, Zhenglun Chen, Qi Su 0001. 22583-22599 [doi]

LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question AnsweringQingfei Zhao, Ruobing Wang, Yukuo Cen, Daren Zha, Shicheng Tan, Yuxiao Dong, Jie Tang 0001. 22600-22632 [doi]

Context-aware Watermark with Semantic Balanced Green-red Lists for Large Language ModelsYuxuan Guo, Zhiliang Tian, Yiping Song, Tianlun Liu, Liang Ding 0006, Dongsheng Li 0001. 22633-22646 [doi]

Knowledge Graph Enhanced Large Language Model EditingMengqi Zhang, Xiaotian Ye, Qiang Liu 0006, Pengjie Ren, Shu Wu, Zhumin Chen. 22647-22662 [doi]

'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviewsSandeep Kumar, Mohit Sahu, Vardhan Gacche, Tirthankar Ghosal, Asif Ekbal. 22663-22679 [doi]

Mitigating Open-Vocabulary Caption HallucinationsAssaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor. 22680-22698 [doi]

Initialization of Large Language Models via Reparameterization to Mitigate Loss SpikesKosuke Nishida, Kyosuke Nishida, Kuniko Saito. 22699-22714 [doi]

ALVIN: Active Learning Via INterpolationMichalis Korakakis, Andreas Vlachos 0003, Adrian Weller. 22715-22728 [doi]

Filtered Direct Preference OptimizationTetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu. 22729-22770 [doi]

Instruction Fine-Tuning: Does Prompt Loss Matter?Mathew Huerta-Enochian, Seung Ko. 22771-22795 [doi]

Entity Insertion in Multilingual Linked Corpora: The Case of WikipediaTomás Feith, Akhil Arora 0001, Martin Gerlach, Debjit Paul, Robert West 0001. 22796-22819 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024, Miami, FL, USA, November 12-16, 2024

Abstract

Table of Contents