Proceedings of the 2025 International Conference on Multimedia Retrieval, ICMR 2025, Chicago, IL, USA, 30 June 2025 - 3 July 2025 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Zhongfei (Mark) Zhang, Elisa Ricci 0001, Yan Yan 0002, Liqiang Nie, Vincent Oria, Lamberto Ballan, editors, Proceedings of the 2025 International Conference on Multimedia Retrieval, ICMR 2025, Chicago, IL, USA, 30 June 2025 - 3 July 2025. ACM, 2025. [doi]

Conference: mir2025

Abstract is missing.

The Power of "Why?" in Decision Making in Complex, Dynamic SystemsK. Selçuk Candan. 1-2 [doi]

Three and a Half Generations of Video Generation ModelsSergey Tulyakov. 3 [doi]

Unveiling Bias and Safety Issues in Generative ModelsNicu Sebe. 4 [doi]

Divide and Conquer: Static-Dynamic Collaboration for Few-Shot Class-Incremental LearningKexin Bao, Daichi Zhang, Yong Li, Dan Zeng 0001, Shiming Ge. 5-14 [doi]

Visual Grounding with Feature Enhancement and Language-Aware Attribute GuidanceXiya Bu, Jizhe Yu, Yu Liu 0035, Kaiping Xu. 15-24 [doi]

AnchorTalk: High-Fidelity Upper-Body Talking Human Generation From SpeechYali Cai, Peng Qiao, Dongsheng Li 0001. 25-34 [doi]

Adaptive Hypergraph-Based 3D Multi-Person Pose Estimation Method for Intangible Cultural Heritage Dance VideosXingquan Cai, Xiaoyu Wang, Kaijie Qu, Mengrui Dai, Ying Li. 35-42 [doi]

CrackMamba with Normalized Soft-Frangi-Filter Enhancement towards Accurate Crack SegmentationWanqiang Cai, Xudong Wang, Yifan Xue, Yingyao Ma, Jiasong Wu, ZongYuan Ge, Bin Wang 0041. 43-51 [doi]

Few-Shot Adaptive Diffusion with Semantic Injection and Parameter SmoothingYunjie Cai, Ting Xiao, Yanbing Zhang, Zhe Wang. 52-60 [doi]

From Skeleton to Flesh: Aggregated Relational Transformer Towards Controllable Video Captioning with Two-Step DecodingQianwen Cao, Heyan Huang, Boran Wang. 61-70 [doi]

Unified Multi-modal Salient Object Detection via Frequency Prompt and Adapter TuningChaojun Cen, Fei Li, Zhenbo Li. 71-80 [doi]

HM3D: A Lightweight Hierarchical Mamba Model for Efficient 3D Point Cloud AnalysisTianyi Chen, Xian-Feng Han. 81-89 [doi]

GRE-SLAM: 6-DoF Pure Event-Based SLAM with Semi-Dense Depth Recovery Assisted Bundle AdjustmentYang Chen, Lin Zhang 0014. 90-98 [doi]

SCNet: Spatio-temporal Feature Aggregation and Cross-modal Interactive Encoding Network for DAVIS Object DetectionYunhua Chen, Jinyu Zhong, Pinghua Chen, Wei Wu, Jinsheng Xiao. 99-107 [doi]

Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio PretrainingRuoxi Cheng, Yizhong Ding, Shuirong Cao, Zhiqiang Wang. 108-116 [doi]

Learning 3D Volume Cloud from Single ImageYuhang Cheng, Yu Zhang 0035, Xiaogang Wang 0005. 117-125 [doi]

TF-MERC: Integrating Time-Frequency Information for Multimodal Emotion Recognition in ConversationJiawei Cheng, Xiaofei Zhu, Zhou Yang 0012. 126-134 [doi]

CFSynthesis: Controllable and Free-view 3D Human Video SynthesisLiyuan Cui, Xiaogang Xu 0002, Wenqi Dong, Zesong Yang, Hujun Bao, Zhaopeng Cui. 135-144 [doi]

EmoHuman: Fine-Grained Emotion-Controlled Talking Head Generation via Audio-Text Multimodal DetanglingQifeng Dai, Huidong Feng, Wendi Cui, Xinqi Cai, Yinglin Zheng, Ming Zeng 0008. 145-154 [doi]

BRepFormer: Transformer-Based B-rep Geometric Feature RecognitionYongkang Dai, Xiaoshui Huang, Yunpeng Bai, Hao Guo, Hongping Gan, Ling Yang, Yilei Shi. 155-163 [doi]

RobustPT: Dynamic Disentanglement Prompt Tuning in Vision-Language Models with Missing ModalitiesRuiting Dai, Yuqiao Tan, Lisi Mo, Tao He 0007, Ke Qin, Shuang Liang 0002. 164-172 [doi]

γ-CRD: Gamma-Cooperative Retrieval Diffusion Model for Robust Incomplete Multimodal LearningRuiting Dai, Wenwei Zhu, Zheyu Wang, Haoran Meng, Zhengdao Yuan, Yandong Yan, Lisi Mo. 173-182 [doi]

Identity-domain Removal for Robust EEG-based Emotion RecognitionWenchang Deng, Shenghua Zhong, Rongrong Lu, Yi Wang. 183-191 [doi]

MuSeLLM: SDF Generation and Understanding via Multi-Scale Tokenization with Position-Aware GuidanceTianwei Ding 0002, Lanshan He, Weijian Ma, Xiangdong Zhou. 192-201 [doi]

SEPA: An Semantic Projection Alignment Framework for Multimodal Named Entity RecognitionGuohui Ding, Yushuo Kong, Xinlei Li. 202-210 [doi]

DNVC-FC: A Low-Latency Distributed Neural Video Codec for Resource-Constrained Multimedia ApplicationsYiming Ding, Jianguo Wei. 211-218 [doi]

FLAIN: Mitigating Backdoor Attacks in Federated Learning via Flipping Weight Updates of Low-Activation Input NeuronsBinbin Ding, Penghui Yang 0001, Sheng-Jun Huang. 219-227 [doi]

STGFuse: Semantic Text-Guided Medical Image Fusion with Interactive Degradation HandlingAimei Dong, Zhen Chen, Long Wang, Yongxing Cai. 228-236 [doi]

DRoLaS: Diffusion-Based Coarse-to-Fine Conditional Synthesis of Hierarchical Road LayoutsShenao Dong, Weitao Li, Bo Li, Long Li, Junao Shen, Tian Feng. 237-245 [doi]

Multi-scale Feature Field with Anti-brightness-sensitivity Postprocessing for Few-shot Neural Panoptic SegmentationBin Dou, Yongjia Ma, Tianyu Zhang, Zejian Yuan. 246-254 [doi]

ViT-Enhanced Prompts: Integrating Pre-Trained Knowledge for Robust Continuous LearningXiaoyu Du, Guoqiang Xiao 0001, Michael S. Lew, Song Wu 0003. 255-264 [doi]

Video Frame Enhancement based Text Semantic Fusion for Cross-modal Text-video RetrievalKang Du, Huaxiang Zhang 0001, Li Liu 0031, Dongmei Liu, Hao Du. 265-274 [doi]

KEGNN: Knowledge-Enhanced Graph Neural Networks for User Engagement PredictionChing-Hao Fan, Hao Zhou, Yao Sun, Geovanny Palomino Roldan, Olga Kokshagina, Marc Santolini, Lijing Wang. 275-283 [doi]

QUEST: QUasi-clique Enhanced Structure-aware Transformation for Low-overlap Point Cloud RegistrationYance Fang, Hualong Cao, Yongcai Wang, Haoyu Liu, Deying Li 0001. 284-293 [doi]

UMLLA-AD: Mamba-Driven Adaptive Feature Selection for Industrial Anomaly DetectionTingting Fang, Junjie Wang, Ming Ye, Yuefei Huang. 294-302 [doi]

Taming Vision-Language Models for Federated Foundation Models on Heterogeneous Medical Imaging ModalitiesLulu Feng, Shengchao Chen. 303-311 [doi]

PTSR: A Unified Patch Tokenization, Selection and Representation Framework for Efficient Micro-expression RecognitionLiangyu Fu, Junbo Wang, Qiangguo Jin, Yining Zhu, Hongsong Wang, Yuke Li, Xuecheng Wu, Kun Hu. 312-320 [doi]

MedQuery: A Graph-Driven Medical Literature-Enhanced Query Answering SystemChenhan Fu, Yu Xia, Guoming Wang, Rongxing Lu, Siliang Tang. 321-329 [doi]

VLMs bridging-enhanced Scene Semantic Reasoning Framework for Image-Text MatchingYihua Gao, Junyu Chen, Mingyong Li. 330-339 [doi]

An Explainable Machine Learning Approach for Cognitive Load Detection in Virtual Reality Using Eye Tracking DataHong Gao 0008, Yapeng Gao, Enkelejda Kasneci. 340-348 [doi]

Contextual Reasoning for Robust Composed Image Retrieval with Vision-Language ModelsPeng Gao, Yujian Lee, Xubo Liu, Hui Zhang, Zailong Chen, Yiyang Hu, Guquan Jing, Yunting Lai. 349-357 [doi]

Enhancing OOD Detection Using Latent DiffusionHeng Gao, Jun Li. 358-367 [doi]

ClothHMR: 3D Mesh Recovery of Humans in Diverse Clothing from Single ImageYunqi Gao, Leyuan Liu 0001, Yuhan Li 0009, Changxin Gao, Yuanyuan Liu 0004, Jingying Chen. 368-377 [doi]

Exploring Objectness Information via Progressively Decoupled Adaptation for Cross-Domain DetectionYiming Ge, Hui Liu, Ertong Shang, Junzhao Du, Jie Zhao, Zhaocheng Niu. 378-387 [doi]

ArtNVG: Content-Style Separated Artistic Neighboring-View Gaussian StylizationZixiao Gu, Zhenye Zhang, Mengtian Li, Zhongxia Ji, Ruhua Chen, Zuo Hu, Guangnan Ye. 388-397 [doi]

LLAUS: A High-Quality Instruction-Tuned Large Vision Language Assistant for UltraSoundJunhao Guo, XueFeng Shan, Guoming Wang, Dong Chen, Rongxing Lu, Siliang Tang. 398-406 [doi]

Ensemble CLIPs: Effective Zero-shot Classification with Hundreds of Multi-modal CLIPsBowen Han, Shizhuo Deng, Zehua Gan, Da Teng, Dongyue Chen 0001, Tong Jia 0001. 407-415 [doi]

Open-World 3D Scene Understanding with Cross-Modal Dual Consistency LearningXian-Feng Han, Chuyu Wang, Yuhang Wang, Mingjie Wang 0002. 416-423 [doi]

Optimal Transport-Driven Federated Out-of-Distribution Detection in Heterogeneous DataYuan He, Yingchun Cui, Zhengda Wu, Heran Xi, Jinghua Zhu. 424-432 [doi]

Few-Shot Learning with Class-Number Non-Aligned Training and Cross-Scale Feature Differential Network for Hyperspectral Image ClassificationPan He, Bodong Li, Han Xiang, Bowen Xu, Chunhong Cao. 433-441 [doi]

MambaHash: Visual State Space Deep Hashing Model for Large-Scale Image RetrievalChao He, Hongxi Wei. 442-450 [doi]

Learning to Predict Advertisement Expansion Moments in Short-Form Video PlatformsWenxuan Hou, Kaibing Yang, Di Hu 0001. 451-459 [doi]

Heterogeneous Graph Embedding for Multimodal Multi-Label Emotion RecognitionDisen Hu, Xun Jiang 0001, Zhe Sun, Fumin Shen, Xing Xu 0001. 460-468 [doi]

Exploiting Multimodal Prompt Learning and Distillation for RGB-T TrackingQingkuo Hu, Yichen Li, Wenbin Yu. 469-477 [doi]

Adversarial Masked Graph Autoencoders for Improved Graph Representation LearningYulan Hu, Zhirui Yang, Sheng Ouyang, Yong Liu. 478-486 [doi]

3D Scene Graph Generation with Cross-Modal Alignment and Adversarial LearningYujun Hu, Xiaoyu Zhou, Changbo Wang, Weiliang Meng, Gaoqi He. 487-496 [doi]

Inter - Diffusion Generation Model of Speakers and Listeners for Effective CommunicationJinhe Huang, Yongkang Cheng, Minghang Yu, Gaoge Han, Jinwei Li, Jing Zhang, Shilei Wang, Xingjian Gu. 497-505 [doi]

Efficient Prompt-based Multimodal Interaction for Audio-Visual Event LocalizationLongzhuo Huang, Liang Li 0003, Xueyang Fu, Zhengjun Zha. 506-515 [doi]

Attentive Multi-Kernel Feature Aggregation Network for Cross-View Geo-LocalizationShuheng Huang, Deyong Wu, Jinliang Lin, Lei Peng, Zhiming Luo. 516-524 [doi]

A Cooperative Safety-Enhanced Control Framework for Driving Assistance in the Internet of VehiclesChen Huang, Yan Zhang, Chao Yang, Zhifei Li, Kui Xiao, Miao Zhang, Wenxin Huang, Cheng Zeng, Hao Chen, Jianhua Song, Shihui Wang, Xian Zhong, Haobo Ma. 525-532 [doi]

The Multimedia Recommendation System Based on Multimodal Fine-Grained Classification MiningYifan Huo, Zheng Fan, Ming Liu, Junhong Zheng, Lili He. 533-541 [doi]

Efficient Monocular Depth Estimation Via Single-Step Latent Diffusion ModelsZhiyong Huo, Zhendong Wang. 542-549 [doi]

Enhancing Adversarial Robustness of Vision-Language Models through Low-Rank AdaptationYuheng Ji, Yue Liu, Zhicheng Zhang, Zhao Zhang, Yuting Zhao, Xiaoshuai Hao, Gang Zhou, Xingwei Zhang, Xiaolong Zheng 0001. 550-559 [doi]

Dual-Branch Sentiment Enhancement Modeling For Joint Multimodal Aspect-Based Sentiment AnalysisXiangbo Ji, Haoyu Shi, Wei Wu, Na Li, Jinyang Wang. 560-568 [doi]

Hierarchical Neural Architecture Search for Fast and Accurate Depth CompletionXiaogang Jia, Songlei Jian, Yusong Tan, Yonggang Che, Wei Chen 0009, Zhengfa Liang, Yulin He. 569-578 [doi]

TLENet: Two-stage Low-light Enhancement Network Based on Illuminance AdaptationHaixin Jia, Yu Zhang, Guoying Zhang, Xing Yang, Han Wang, Hengchen Xu. 579-587 [doi]

Evaluate the Generative Capability of Diffusion Models from a Discriminative PerspectiveYixuan Jiang, Hsiao-Dong Chiang, Yiqing Shen 0003. 588-596 [doi]

Enhanced Multi-View Clustering with Multiple Linear Graph FilteringHenghui Jiang, Liang Du 0003. 597-606 [doi]

MAD-paint: Mask-Aware Diffusion Sampling for Image InpaintingShipeng Jiang, Jingwei Qu, BingYao Huang. 607-615 [doi]

Scene-guided Attention Network for Spatial Understanding in 3D ScenesYunqi Jiang, Jianwei Zhang, Chaoyang Lin, Yi Yu 0001, Zhenguo Yang. 616-624 [doi]

MixSENet: A Lightweight Model for Speech Enhancement with Multi-Scale Features and Contextual ModelingChuike Kong, Guangcun Wei, Shuo Li, Penghao Ma, Changhao Li. 625-633 [doi]

OpenSGen: Fine-Grained Relation-Aware Prompt for Open-Vocabulary Scene Graph GenerationZihan Kong, Haiwei Zhang. 634-643 [doi]

Text-Guided Realistic Single Image Relighting with Wavelet Mamba Diffusion NetworkYunting Lai, Hui Zhang, Xin Zhang, Yiyang Hu, Peng Gao, Guquan Jing. 644-652 [doi]

AGGA-MVFLN: Multivariate Time Series Forecasting via Adaptive Generalized Graph Accompanied with Multi-View Learning in Frequency DomainJierui Lei, Fangzheng Chen, Haina Tang. 653-661 [doi]

MTDIR: A Malicious Traffic Detection Model Based on the Image Retrieval PerspectiveZiang Li, Haonan He, Zhou Zhou, Chengxiang Si. 662-670 [doi]

MeloDance: Dance Generation Guided by Music Structure and EmotionYixuan Li, Qiang Jin, Huaping Liu, Jinhai Chen, Xiangyu Zhao, Peng Li. 671-679 [doi]

TexDreamer: Text-driven Photorealistic and Robust Texture Synthesis via Multi-View DiffusionZhenqiang Li 0003, Jie Li 0002, Yangjie Cao. 680-688 [doi]

DML-FitAR: A Deep Metric Learning Approach for IMU-Based Fitness Activity RecognitionTimin Li, Dongmei Li, Yuepeng Chen, Zhuangzhuang Li, Ye Ma, Dongwei Liu, Xuefeng Feng, Ji Wu, Chenyi Guo. 689-697 [doi]

LDNet: Dynamic Feature Extraction and Attention Fusion for Building Change DetectionXue Li, Dong Li, Xueying Feng. 698-705 [doi]

MFLCP: Personalized Multimodal Federated Learning via Collaborative Prompting with Missing ModalitiesWenli Li, MeiYu Liang, Ruoyu Fan, Yuxuan Li. 706-714 [doi]

Diffusion Alignment for Cross Domain RecommendationFengxin Li, Hongyan Liu 0002, Jun He 0008. 715-723 [doi]

MIMCL: Multilayer Interaction Module with Contrastive Learning for Speech Emotion RecognitionFeng Li, Rongsheng Liu, Bing Wang. 724-732 [doi]

COMAE: COMprehensive Attribute Exploration for Zero-shot HashingYuqi Li, Qingqing Long, Yihang Zhou, Ran Zhang 0008, Zhiyuan Ning, Zhihong Zhu, Yuanchun Zhou, Xuezhi Wang 0004, Meng Xiao 0001. 733-742 [doi]

CCDCNet: Cross-Modal Change Detection CNN for Flood MappingYacheng Li, Juan Luo, Kexuan Feng, Shuyang Teng, Ying Qiao. 743-751 [doi]

Edge-Aware Network with Confidence Feature Fusion for Infrared Small Target DetectionBoyuan Li, Zitong Ren, Xiuhong Li, Kurban Ubul. 752-759 [doi]

SFi-Former: Sparse Flow Induced Attention for Graph TransformerZhonghao Li, Ji Shi, Xinming Zhang, Miao Zhang, Bo Li. 760-769 [doi]

CABRec: A Category-Aware Bundle Recommendation ModelMengmeng Li, Jinlong Tian, Hongmei Li, Qiyuan Zhang, Xianglong Li, Xinhai Xu. 770-778 [doi]

Joint Adversarial Purification: Mitigating the Threat of Multimodal Adversarial ExamplesQin Li, Youze Wang, Wenbo Hu 0001, Richang Hong. 779-787 [doi]

SCN-Pillar: Construct a Pillar-based Fully Sparse Lightweight 3D Detector via Sparse ConvNeXtXusheng Li, Chengliang Wang, Tian Jiang, Yonggang Luo, Bo Zheng. 788-795 [doi]

MIE-GAT: Multi-perspective Information Enhancement for Slice-based Image Retrieval in Multi-modal Medical DiagnosisYuan Li, Yinjian Zhao, Minghao Wang, Xia Feng, Qian Peng, Airu Yin, Hua Ji. 796-805 [doi]

Multilayer Graph Clustering with Lightweight Contrastive LearningWentao Li, Xingwang Zhao, Zhiqiang Wang. 806-814 [doi]

Two Heads are Better than One: A Network Attack Detection Model Based on Multimodal and Multimedia RetrievalZiang Li, Zhou Zhou, Chengxiang Si. 815-823 [doi]

STrack: Confidence-Level-Based Separate Tracking for Robust Multi-Object TrackingZheng Liang, Shuo Yang. 824-832 [doi]

A Generic Framework for Evaluating Gaze Representations for Gaze EstimationXinyu Lin, Buyu Liu, Suguo Zhu, Jun Bao. 833-841 [doi]

DC-SNet: Efficient Spatio-Temporal Prediction Network Based On Dual-Domain Collaborative Spatiotemporal NetworkTiantian Liu, Kai Li, Ming Ma. 842-850 [doi]

CoATA: Effective Co-Augmentation of Topology and Attribute for Graph Neural NetworksTao Liu, Longlong Lin, Yunfeng Yu, Xi Ou, Youan Zhang, Zhiqiu Ye, Tao Jia 0001. 851-860 [doi]

MR4SseC: A Multimodal Representation Learning Framework for Space Science Experiment of China's Space StationYunfei Liu, Anqi Liu, Yanan Liu, Yunziwei Deng, Yizhao Wang, Shengyang Li. 861-870 [doi]

MDN: Modality Decomposition Network for Multimodal RecommendationZhuoyang Liu, Weihai Lu. 871-879 [doi]

MedVSA: Medical Visual Spoken-Question AnsweringLei Liu, Xiangdong Su, Guanglai Gao. 880-888 [doi]

Bottom-Up and Top-Down Thoughts for Visual Intention GroundingKangcheng Liu, Junbin Xiao, Rui Zhang 0040, Hanqi Lv, Zidong Du. 889-898 [doi]

Face-DM: An Efficient Framework for Makeup Transfer and Face SwappingDepei Liu, Ruochong Xiong, Rongxing Wang, Junfei Liu. 899-907 [doi]

Adaptive Asymmetric Online Hashing for Cross-Modal RetrievalYuhao Liu, Yanbo Zhang, Hao Fu, Guanghua Gu. 908-916 [doi]

FewMEA: Few-shot Model Extraction Attack against Sequential RecommendersFu Liu, Hui Zhang, Yuqin Lan, Min Li. 917-925 [doi]

MoRLACS: A Monocular RGBD-based Locomotion Approach for CAVE SystemsHaopeng Lu, Ruiqi Li, Qian Yin 0002, Li Song 0001, Xinfeng Zhang 0001, Shanshe Wang, Siwei Ma, Wen Gao 0001. 926-934 [doi]

DeepSPG: Exploring Deep Semantic Prior Guidance for Low-light Image Enhancement with Multimodal LearningJialang Lu, Huayu Zhao, Huiyu Zhai, Xingxing Yang 0002, Shini Han. 935-943 [doi]

Mitigating Expression Class Bias with Class-Incremental Learning in Facial Expression RecognitionYiqin Luo, Yinghui Li, Tianlong Gu, Liang Chang 0003. 944-952 [doi]

Lifelong Visible-Infrared Person Re-Identification with Prompt Pool and Instance-level Prompt GeneratorZhenxi Luo, Guoqiang Xiao 0001, Michael S. Lew, Song Wu 0003. 953-962 [doi]

Low-Rank Adaptation for Parameter-Efficient Fine-Tuning in Composed Image RetrievalJiaxin Luo, Mingbo Zhao, Hongtao Zhang. 963-971 [doi]

Text-Guided Attribute Enhancement Framework for Composed Image RetrievalZhi Ma, Yizi Huang, Di Wang 0011, Bo Wan, Lin Zhao 0003, Quan Wang 0006. 972-981 [doi]

Robust Relevance Feedback for Interactive Known-Item Video SearchZhixin Ma, Chong-Wah Ngo. 982-990 [doi]

Towards Effective and Consistent Information Extraction for Social Recommendation: A Minimum and Sufficiency PerspectiveWenze Ma, Yuexian Wang, Chenyu Sun, Yanmin Zhu 0006, Zhaobo Wang, Xuhao Zhao, Jiadi Yu, Feilong Tang. 991-999 [doi]

A Transformer-Based Multimodal Framework for Hidden Emotion Recognition through Micro-Expression and EEG FusionChuang Ma, Shaokai Zhao, Yu Pei, Liang Xie 0012, Erwei Yin. 1000-1008 [doi]

HM3: Hierarchical Modeling of Multimedia Metaverses on 10000 Thematic Museums via Theme-aware Contrastive Loss FunctionGianluca Macrì, Lorenzo Bazzana, Alex Falcon, Giuseppe Serra 0001. 1009-1017 [doi]

HyHE: Enhancing Image-Text Retrieval through Hyperbolic Hierarchical EmbeddingsAohui Miao, Wei Wei. 1018-1026 [doi]

Towards Robust Polyp Segmentation: Multi-Focus Attention Network with Fine-grained Polyp CuesNan Mu, Xianchao Zhang 0004, Yazhou Feng, Xiaoning Li, Jingfeng Jiang, Lei Liu. 1027-1035 [doi]

FREAK: Frequency-modulated High-fidelity and Real-time Audio-driven Talking Portrait SynthesisZiqi Ni, Ao Fu, Yi Zhou. 1036-1044 [doi]

Composed Query-Based Event Retrieval in Video Corpus with Multimodal Episodic PerceptronFan Ni, Xun Jiang 0001, Hao Yang, Chong Peng, Peng Yan, Zheng Wang 0044, Fumin Shen, Xing Xu 0001. 1045-1053 [doi]

BlockIQA: Local Sensitivity-Enhanced Blind Image Quality Assessment through Deep Block AnalysisYuqi Pang, Yican Liu, Zhiqi Lin, Delu Zeng. 1054-1062 [doi]

Multimodal and Multilingual Fact-Checked Article RetrievalStefanos-Iordanis Papadopoulos, Ivana Benová, Sebastian Kula, Michal Gregor, George Karantaidis, Tomas Javurek, Marián Simko, Symeon Papadopoulos. 1063-1071 [doi]

A Multi-Stream Visual-Spectral-Spatial Adaptive Hyperspectral Object TrackingPengfei Wei, Liu Qiao, Zhenyu He, Di Yuan. 1072-1080 [doi]

RagMe: Retrieval Augmented Video Generation for Enhanced Motion RealismElia Peruzzo, Dejia Xu, Xingqian Xu, Humphrey Shi, Nicu Sebe. 1081-1090 [doi]

Advancing Food Nutrition Estimation via Visual-Ingredient Feature FusionHuiyan Qi, Bin Zhu 0006, Chong-Wah Ngo, Jingjing Chen 0001, Ee-Peng Lim. 1091-1099 [doi]

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor IdentificationWenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li. 1100-1108 [doi]

RPUDet: Learning Relational Prior and Uncertainty for Robust Aerial Object DetectionKun Qian, Wei Liu, Minshi Chen, Xiao Wang, Xin Yuan. 1109-1117 [doi]

On the Adversarial Robustness of Visual-Language Chat ModelsTianrui Qin, Xuan Wang, Juanjuan Zhao, Kejiang Ye, Cheng-Zhong Xu 0001, Xitong Gao. 1118-1127 [doi]

Diffusion-Based Adversarial Generation with SAM-Guided Spatial Semantics for Text-to-Image ModelsZhanghao Qin. 1128-1134 [doi]

Few-Shot Generalized Category Discovery With Retrieval-Guided Decision Boundary EnhancementYunhan Ren, Feng Luo, Siyu Huang. 1135-1144 [doi]

Multi-modal Similarity Guided Adaptive Fusion Network for Short Video Fake News DetectionJing Shen, Yanjia Wang, Shengze Wang 0006, Yuping Zhang, Haibo Liu. 1145-1153 [doi]

Mixture of Experts for Node ClassificationYu Shi, Yiqi Wang 0001, Weixuan Liang, Jiaxin Zhang 0030, Pan Dong, Aiping Li. 1154-1162 [doi]

Spatially-Aware Entity Relation Exploration for Remote Sensing Image-Text RetrievalJianan Shui, Shuaipeng Ding, Mingyuan Ge, Mingyong Li. 1163-1171 [doi]

Troublemaker Learning for Low-Light Image EnhancementYinghao Song, Hao Ma, Bo Yang, Yanchun Liang 0001, Hongwei Ge, Heow Pueh Lee, Chunguo Wu. 1172-1181 [doi]

ClearView: A Quality-aware Cross-modal Alignment Framework for CT Report GenerationQingyong Su, Chong Feng 0001, Bo Wang, Ge Shi 0002, Yan Zhuang. 1182-1190 [doi]

Adaptive Agent Semantic Aggregation Network for Multimodal Sentiment AnalysisYue Su, Xuying Zhao. 1191-1200 [doi]

RATE: Robust Adversarial Training and Temperature-scaled Ensemble Framework for Trustworthy Misinformation DetectionRui Sun, Wenbo Hu 0001, Qiang Liu 0006, Richang Hong. 1201-1210 [doi]

Image Description and Aspect-Aware Denoising for Aspect-Based Multimodal Sentiment AnalysisJiachang Sun, Xiuhong Li. 1211-1218 [doi]

Resolution-Aware Criss-Cross Attention Detector for Small Object Detection in Aerial ImagesHeyu Sun, Taoying Liu, Xingzhou Zhang, Qiang Guo 0003. 1219-1227 [doi]

Adaptive Social Bot Detection through Bridging the Feature Bias Between Source and Target UsersHao Sun, Huailiang Peng, Yanan Cao, Qiong Dai, Xu Bai. 1228-1236 [doi]

MaGo-I2P: Image-to-Point Cloud Registration with Mamba and Geometry RecoveryYunda Sun, Lin Zhang. 1237-1245 [doi]

Graph Alignment Using Seed-Oriented Subgraph MatchingWei Tang, Xinglin Lv, Yuang Li, Min Zhang, Hao Yang. 1246-1254 [doi]

Hierarchical Matrix-Contrastive Bilateral Fusion for Multimodal Sentiment AnalysisChaoxing Tang, Anyang Tong, Fei Wang, Zhangling Duan. 1255-1263 [doi]

Direction-aware Attention and Semantic Guidance Network for Salient Object Detection in Optical Remote Sensing ImagesYifei Teng, Zhaoru Guo, Yaqian Wang, Liejun Wang, Panpan Zheng. 1264-1272 [doi]

RetrievFace: Retrieval-Enhanced Diffusion for Controllable Text-Guided Face EditingLulu Tian, Hongxun Yao. 1273-1282 [doi]

Vividportraits: Face Parsing Guided Portrait AnimationXuze Tian, Jinshan Zhang 0001, Tao Jiang, Boxi Wu, Meng Xi 0002, Zejian Li, Jianwei Yin. 1283-1292 [doi]

Local and Global Aware Document Image Enhancement with Residual Denoising Diffusion ModelHongrui Tie, Heng Li 0014, Xiangping Wu 0001, Qingcai Chen. 1293-1302 [doi]

A RAG Approach for Multi-Modal Open-ended Lifelog Question-AnsweringQuang-Linh Tran, Ngo Ngoc Diep Pham, Quoc Trung Truong, Minh Hung Nguyen, Hong Cat Le, Dang Khoi Vu, Van Minh Thien Nguyen, Van Kinh Nguyen, Luu Phuong Ngoc Lam Nguyen, Tan Le, Minh Phuc Dang, Binh Nguyen, Gareth J. F. Jones, Cathal Gurrin. 1303-1312 [doi]

A Frequency-Based Approach for Federated Domain Generalization in Heterogeneous Medical ImagingDonghao Wang, Yingchun Cui, Zhengda Wu, Heran Xi, Jinghua Zhu. 1313-1321 [doi]

Fine-grained Block Pruning with Tiny Sets for Vision TransformersYilin Wang, Qiang Dong, Dongyang Zhang, Xin Hu, Tao He, Aiguo Chen. 1322-1330 [doi]

MirrorDiff: Learning Mirror Diffusion for Image Captioning via RegenerationJunbo Wang, Liangyu Fu, Yining Zhu, Qiangguo Jin, Hongsong Wang, Yuke Li, Xuecheng Wu, Kun Hu. 1331-1339 [doi]

OT-Talk: Animating 3D Talking Head with Optimal TransportationXinmu Wang, Xiang Gao, Xiyun Song, Heather Yu, Zongfang Lin, Liang Peng, Xianfeng Gu. 1340-1349 [doi]

A Video Frame Interpolation Framework Based on Channel and Token MixingJianchao Wang, Yongqiang Gao. 1350-1357 [doi]

EPNet: Efficient Part Segmentation for Dense Point CloudsCheng Wang, Wulong Hu, Minqian Wang, ZhenBo Cheng, Yuanming Zhang, Fei Gao 0014. 1358-1366 [doi]

Event-Driven Hybrid and Cross-Stage Guide for Video Corpus Moment RetrievalZheng Wang 0059, Kun Huang, Zengrong Lin, Cong Bai. 1367-1376 [doi]

Step-wise Soft Alignment Enhanced Procedural Text Generation from Long Instructional VideosZhiHao Wang, Lin Li 0001, Xian Zhong, Xiaohui Tao 0001, Jianquan Liu. 1377-1385 [doi]

Con2Diff: Controllable Condition Diffusion Model for Unsupervised Anomaly DetectionZhipeng Wang, Yonghong Song. 1386-1393 [doi]

Generative Emotion Cause Explanation in Multimodal ConversationsLin Wang, Xiaocui Yang, Shi Feng 0001, Daling Wang, Yifei Zhang 0003, Zhitao Zhang. 1394-1403 [doi]

SAP-DIFF: Semantic Adversarial Patch Generation for Black-Box Face Recognition Models via Diffusion ModelsMingsi Wang, Shuaiyin Yao, Chang Yue, Lijie Zhang, Guozhu Meng. 1404-1413 [doi]

GraphDC: Detecting and Confusing in Node Injection AttackJialong Wang, Shilong Zhang, Zhiguo Gong. 1414-1422 [doi]

Consistent Human Animation with Pseudo Multi-View Anchoring and Cross-Granularity IntegrationJintai Wang, Yinglin Zheng, Pengfei Liu, Qifeng Dai, Ming Zeng. 1423-1431 [doi]

DomainDiff: Unified Two-Stage Optimization for Text-Video RetrievalChenxu Wang, Dong Zhou 0001, Jianghao Lin, Yongmei Zhou, Aimin Yang 0002. 1432-1441 [doi]

TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution AlignmentZhichuan Wang, Yang Zhou 0007, Jinhai Xiang, Yulong Wang, Xinwei He 0001. 1442-1451 [doi]

ViFusion: In-Network Tensor Fusion for Scalable Video Feature IndexingYisu Wang, Yixiang Zhu, Xinjiao Li, Yulong Zhang, Ruilong Wu, Dirk Kutscher. 1452-1460 [doi]

Demonstration Meets Typed Events: Type Specific Video Semantic Role Labeling via Multimodal Prompting and RetrievalHanxiao Wei, Bin Wu, Chunjia Wang, Guangyao Su, Tao Zhou. 1461-1469 [doi]

FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency LossMeiyi Wei, Liu Xie, Ying Sun, Gang Chen. 1470-1478 [doi]

HGAtt-ARN: A Novel Adversarial Reconstruction Network Based on Higher-order Gate Attention for Incomplete Multimodal Sentiment AnalysisQingpeng Wen, Pengfei Wei, Fan Li, Qintai Hu, Bi Zeng, Guang Feng. 1479-1487 [doi]

Towards Interpretable User Intent Analysis with Deficient Evidence Fusion for Pseudo-ModalitiesChaochen Wu, Guan Luo, Meiyun Zuo. 1488-1496 [doi]

Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and BaselineXuecheng Wu, Heli Sun, Junxiao Xue, Jiayu Nie, Xiangyan Kong, Ruofan Zhai, Danlei Huang, Liang He 0006. 1497-1506 [doi]

Aligning Large Multimodal Model with Sequential Recommendation via Content-Behavior GuidanceZihao Wu 0005, Xin Wang 0019, Heng Chang, Hong Chen 0011, Lifeng Sun, Wenwu Zhu 0001. 1507-1516 [doi]

TF-IECN: Tuning-free Image Efficient Customization via Refined Collaborative Denoising StrategiesWei Xia, Jun Qin, Zheng Ye, Jing Liu, Zhou Liu. 1517-1525 [doi]

MSSA-Net: A Multi-Scale Structure-Aware Network for Edge Detection in Point CloudsYunzhou Xia, Weiqi Yan 0002, Yu Zang, Weiquan Liu, Cheng Wang. 1526-1534 [doi]

Label Ranker: Self-aware Preference for Classification Label Position in Visual Masked Self-supervised Pre-trained ModelPeihao Xiang, Ou Bai. 1535-1541 [doi]

Real-Time Dynamic Light Pixels Video Frame Interpolation with Zero-Overhead MasksZhaohong Xiang, Yigui Luo, Hejing Cai, Yuqi Kuang, Yonghong Guo, Minchi Luo, Yanfang Wang. 1542-1549 [doi]

FedRE: Robust and Effective Federated Learning with Privacy PreferenceTianzhe Xiao, Yichen Li 0006, Yu Zhou, Yining Qi, Yi Liu, Wei Wang, Haozhao Wang, Yi Wang 0004, Ruixuan Li 0001. 1550-1559 [doi]

PIG: Physically-based Multi-Material Interaction with 3D GaussiansZeyu Xiao 0001, Zhenyi Wu, Mingyang Sun, Qipeng Yan, Yufan Guo, Zhuoer Liang, Lihua Zhang. 1560-1568 [doi]

Self-supervised Bidirectional Synchronization Estimation for Multimodal Deepfake Detection with Short-term DependencyMan Xiao, Jianbin Ye, Bo Liu 0014, Zijian Gao, Kele Xu, Xiaodong Wang. 1569-1578 [doi]

FC-MonoDETR: A Monocular 3D Object Detection Network Based on Foreground ConstraintDaifeng Xiao, Dongbo Yu, Yunbiao Wang, Jun Xiao 0005, Ying Wang 0030, Lupeng Liu. 1579-1587 [doi]

Audio-Driven Talking Face Video Generation with Joint Uncertainty LearningYifan Xie, Fei Ma 0006, Yi Bin, Ying He 0006, Fei Yu. 1588-1597 [doi]

Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake DetectionZihan Xiong, Xiaohua Wu, Lei Chen, Fangqi Lou. 1598-1606 [doi]

Collaborative Cross-Complementary Unfolding Network for Pan-sharpening Remote Sensing ImageHonghui Xu, Yan Li, Yutao Jia, Chuangjie Fang, Wanjun Chen, Jianwei Zheng 0001. 1607-1616 [doi]

Floorplan-Diffusion: Automatic Floor Plan Generation via Pre-trained Large Latent Diffusion ModelMinyang Xu, Yunzhong Lou, Xiang Gao, Xiangdong Zhou. 1617-1625 [doi]

CMAD-UNet: UNet-Driven RGB-D Salient Object Detection with Cross-Modal Consistency and Aggregative DecodingQi Xu, Zhaozhao Su, Zhaoru Guo, Yongming Li, Liejun Wang, Panpan Zheng. 1626-1634 [doi]

Heterogeneous Model Knowledge Distillation via Dual Alignment for Semantic SegmentationMingzhu Xu, Jing Wang, Mingcai Wang, Yiping Li, Yupeng Hu, Xuemeng Song, Weili Guan. 1635-1643 [doi]

SSCD: Self-Supervised Coherence Discrimination Representation Learning for Scene Text RecognitionZhi-Yuan Xue, Li-jun Zhao, Jia-Ying Zhang, Xin Luo 0006, Xin-Shun Xu. 1644-1653 [doi]

TourMLLM: A Retrieval-Augmented Multimodal Large Language Model for Multitask Learning in the Tourism DomainHiromasa Yamanishi, Ling Xiao 0001, Toshihiko Yamasaki. 1654-1663 [doi]

Frequency-Semantic-enhanced Channel Attention Network for Human ParsingYitao Yan, Faliang Huang, Demin Wu, Lin Luo. 1664-1671 [doi]

Separable and Flexible Classification on Pseudo-Features for Few-Shot Class-Incremental LearningYuancheng Yang, Luyang Jin, Shuai Zhang, Chao Tong 0001. 1672-1681 [doi]

BMUNet: When Pixel-Wise Precision Meets Global Context DependencySizhe Yang, Yutao Qin, Wei Ren. 1682-1690 [doi]

DFFNet: A Super-Resolution Algorithm based on Dynamic Feature Fusion NetworkJiaqi Yang, Jin Yang, Huiying Jia, Wenguang Zheng. 1691-1699 [doi]

ALVG: Training High-Quality Multi-modal Fusion Modules for Visual Grounding with Attention LossSicheng Yang, Rongwei Yu. 1700-1709 [doi]

OccGaussian: 3D Gaussian Splatting for Occluded Human RenderingJingrui Ye, Zhongkai Zhang, Qingmin Liao. 1710-1719 [doi]

PAP-SAM: Global-Local Prior Adaptive Perception SAM for Co-Salient Object DetectionJizhe Yu, Xiya Bu, Yu Liu 0035, Kaiping Xu. 1720-1729 [doi]

DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating FusionYinfeng Yu, ShiYu Sun. 1730-1738 [doi]

DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language NavigationYinfeng Yu, Dongsheng Yang. 1739-1748 [doi]

A Coarse-to-Fine Matching Method for Reference-based Image DerainingFei Yuan, Xin Wen, Ang Zhao, Wenbo Ning, Chenchen Zhang, Rui Cao. 1749-1757 [doi]

Multiscale Feature Enhancement and Adaptive Receptive Field for Tiny Object Detection in Remote Sensing ImagesYunpeng Zeng, An Luo, Kefan Zhan, Jiaxin Li, Yuan Zhang, Kai Hu. 1758-1766 [doi]

MMCNav: MLLM-empowered Multi-agent Collaboration for Outdoor Visual Language NavigationZiheng Zhang, Minghao Chen, Suguo Zhu, Tingting Han 0003, Zhou Yu 0001. 1767-1776 [doi]

Out-of-Distribution Detection for Open-Set Semi-Supervised Medical Image ClassificationJiawei Zhang, Yingchun Cui, Zhengda Wu, Heran Xi, Jinghua Zhu. 1777-1785 [doi]

HOOI Detection: Cascade-Clue Integrated Modeling over Multiple Temporal SegmentsMingxuan Zhang, Qi He, Zhaoquan Yuan, Tingquan He, Rong Li. 1786-1794 [doi]

DASPL: Enhancing Few-Shot Learning with Dual Adapters and a Single-Step Pseudo-Label CycleYanbo Zhang, Yuhao Liu, Zhaoyang Liu, Huiying Li, Ruilin Chai, Guanghua Gu. 1795-1803 [doi]

MoAFCL: Feature-Aware Mixture-of-Adapter for Federated Continual LearningDian Zhang, Bingyan Liu. 1804-1813 [doi]

WE-LSTM: Multi-Wavelet Enhanced Seasonal-Trend Denoising for Long-Term Time Series ForecastingZhiwei Zhang, Jiwei Qin, Dezhi Sun, Xuefeng Feng, Huiguo Zhang. 1814-1822 [doi]

SpectraSpan: Zero Fine-Tuning Long Video Generation Framework and Its Frequency Domain OptimizationWentao Zhang, Fen Wang, Zheng Cao. 1823-1830 [doi]

Exploiting Event Temporal Dynamics and Sparsity Characteristics for RGB-Event Fusion Semantic SegmentationYitong Zhang, Yingmei Wei, Yanming Guo, Jiangming Chen, Yi Zhong. 1831-1839 [doi]

Towards Comprehensive Legal Document Analysis: A Multi-Round RAG ApproachWutong Zhang, Hefeng Zhou, Qiang Zhou, Yunshen Li, Yuxin Liu, Jiong Lou, Chentao Wu, Jie Li 0002. 1840-1848 [doi]

SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse ObservationsShuting Zhao, Linxin Bai, Liangjing Shao, Ye Zhang, Xinrong Chen. 1849-1857 [doi]

Enhancing Adversarial Transferability via Self-Ensemble Feature AlignmentZhiming Zhao, Jiahao Chen, Qingming Li, Chunyi Zhou, Shouling Ji. 1858-1867 [doi]

EilMoB: Emotion-aware Incongruity Learning and Modality Bridging Network for Multi-modal Sarcasm DetectionHaochen Zhao, Yongxiu Xu, Xinkui Lin, Jiarui Lu, Hongbo Xu, Yubin Wang. 1868-1876 [doi]

Incremental Information-Aware: Mine Abundant and Accurate Information for Video CaptioningNingkai Zhong, Bin Fang, Mengdi Li, Langping Wang. 1877-1885 [doi]

Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory PredictionZihan Zhou, Changrui Dai, Aibo Song, Xiaolin Fang 0001. 1886-1893 [doi]

AgentStory: A Multi-Agent System for Story Visualization with Multi-Subject Consistent Text-to-Image GenerationTianchen Zhou, Zhongjie Duan, Cen Chen 0001, Wenmeng Zhou, Yanhao Wang 0001, Yaliang Li. 1894-1902 [doi]

DMR-XNet: Dynamic Multi-Relation Cross-Fusion Network for Aspect-Based Multimodal Sentiment AnalysisFengling Zhou, Zhixin Li 0001. 1903-1911 [doi]

Single-Source Dual-Stream Representation Learning for DNA Sequence ClassificationJiarui Zhou, Zongmeng Zhang, Min Wang 0019, Wengang Zhou 0001, Houqiang Li. 1912-1921 [doi]

CMS-YOLO for Small-Scale UAV DetectionJun-Yan Zhu, Bo-Wen Yang, Yizhe Luo, Haoran Zhang, Shuo Feng, Zhao Jin, Yucheng Shi, Ming-Liang Xu. 1922-1930 [doi]

MAGIC: Noise Mitigation and Knowledge Alignment for Knowledge Graph-Based Multi-modal RecommendationShiJie Zhu, Yan Zhang, Li Zhang, Xi Chen, Lei Zhao. 1931-1939 [doi]

Knowledge Discovery in Fuzzy Linguistic Triadic Context: Mining Data Hidden under ConditionsYujie Cao, Hongping Liu, Benshuai Wang, Li Zou. 1940-1948 [doi]

Inverse Farthest Point Sampling (IFPS): A Universal and Hierarchical Shell Representation for Discrete DataNayu Ding, Yujie Lu, Yao Huang, Long Wan, Yan Zhao, Zhijun Fang, Shen Cai, Lin Gao. 1949-1957 [doi]

Reproducibility Companion Paper: AdOCTeRA - Adaptive Optimization Constraints for Improved text-guided Retrieval of ApartmentsAli Abdari, Alex Falcon, Giuseppe Serra 0001, Qiushi Huang. 1958-1960 [doi]

Reproducibility Companion Paper: Learning Differentiable Particle Filter on the FlyJiaxi Li, Xilu Wang 0001, Yunfan Hu. 1961-1963 [doi]

Reproducibility Companion Paper: u-LLaVA: Unifying Multi-Modal Tasks via Large Language ModelJinjin Xu, Xilu Wang, Liwu Xu, Yuzhe Yang 0001, Xiang Li, Fanyi Wang, Yanchun Xie, Yi-Jie Huang, Yaqian Li, Yunfan Hu. 1964-1967 [doi]

Latent Sensor Fusion: Multimedia Learning of Physiological Signals for Resource-Constrained DevicesAbdullah Ahmed, Jeremy Gummeson. 1968-1972 [doi]

ROAD-6: A Diverse Dataset for Unexpected Hazard Recognition in Autonomous VehiclesShehzad Ali, Md Tanvir Islam, Minh-Son Dao, Ik Hyun Lee, Shuai Liu 0009, Khan Muhammad 0001. 1973-1977 [doi]

TeMTG: Text-Enhanced Multi-Hop Temporal Graph Modeling for Audio-Visual Video ParsingYaru Chen, Peiliang Zhang, Fei Li, Faegheh Sardari, Ruohao Guo, Zhenbo Li, Wenwu Wang 0001. 1978-1982 [doi]

MGSGM: Multi-Granularity Selective Graph Mamba for Image-Text RetrievalYongle Huang, Yongfeng Bu, Keyu Guo, Zedong Liu, Xiangyu Song, Shijie Sun 0001. 1983-1987 [doi]

A Prior Representation-Guided Method for Low-Resolution Human Pose EstimationMengting Jiang, Xiaoqi An, Yang Gao, Yalong Xu, Di Wang, Lin Zhao. 1988-1992 [doi]

Intent-Augmented Multimodal Graph Embedding for Multimedia RecommendationRuoxi Li, Meng Jian, Lifang Wu, Xinying Wu. 1993-1997 [doi]

DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV TrackingXuzhao Li, Xuchen Li, Shiyu Hu. 1998-2002 [doi]

PRNet: Parallel Refinement Network with Selective Feature Enhancement for Infrared Small Target DetectionBoyuan Li, Xiuhong Li, Kurban Ubul. 2003-2007 [doi]

Alternating Guided Training for Robust Adversarial DefenseXinlei Liu, Chunlai Ma, Bo Chen, Tao Hu 0002, Hailong Ma, Peng Yi 0003, Yiming Jiang 0002, Yuxiang Hu. 2008-2012 [doi]

Multimodal Contrastive Learning for Music with Incomplete ModalitiesKoto Nakata, Koji Eguchi. 2013-2017 [doi]

Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation LearningXiaofeng Pan, Jing Chen, Haitong Zhang, Menglin Xing, Jiayi Wei, Xuefeng Mu, Zhongqian Xie. 2018-2022 [doi]

AI Got Your Tongue? Analysing the Sounds of Audio Deepfake Generation MethodsKarla Schäfer. 2023-2027 [doi]

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal RetrievalLi-Cheng Shen, Jih-Kang Hsieh, Wei-Hua Li, Chu-Song Chen. 2028-2032 [doi]

CrossHand: Multimodal 3D Hand Reconstruction via Vision and Wearable Sensor Data FusionLin Song, Guanya Zhou, Changyunkun Xiao, Qiyu Jiang, Daquan Yang, He Yu. 2033-2037 [doi]

DSSM-KG: Dual-Stream State-Space Modeling with Adaptive Knowledge Injection for Video CaptioningHaoying Sun, Shuyi Li, Zeyu Xi, Bowen Zhang, Lifang Wu. 2038-2042 [doi]

Audio-Visual Driven Compression for Low-Bitrate Talking Head VideosRiku Takahashi, Ryugo Morita, Jinjia Zhou. 2043-2047 [doi]

GarmentGS: Point-Cloud Guided Gaussian Splatting for High-Fidelity Non-Watertight 3D Garment ReconstructionZhihao Tang 0008, Shenghao Yang 0006, Hongtao Zhang, Mingbo Zhao. 2048-2052 [doi]

Optimization of CLIP Models for Domain-Specific Video SearchKazuya Ueki, Haruki Sato, Yuma Suzuki, Takayuki Hori, Hiroki Takushima, Takumi Takada, Hayato Tanoue, Aiswariya Manoj Kumar, Hiroki Nishihara, Yuki Shibata. 2053-2057 [doi]

Assisted Refinement Network Based on Channel Information Interaction for Camouflaged Object DetectionKuan Wang, Xiuhong Li, Yulong Bai, Songlin Li, Mengge Lu, Zhenhong Jia. 2058-2062 [doi]

Efficient Camouflaged Object Detection Network Based on Channel Reconstruction and Hybrid AttentionKuan Wang, Xiuhong Li, Songlin Li, Yulong Bai, Boyuan Li, Mengge Lu, Zhenhong Jia. 2063-2067 [doi]

Face Anti-spoofing based on Contour-constrained Anomaly DetectionJiahui Wang, Yuan Liu, Chunlei Peng, Yu Zheng. 2068-2072 [doi]

Octree-STCM: Octree-Based Spatio-Temporal Context Model for Lossless Geometry Compression of Dynamic Point CloudZhecheng Wang, Shuai Wan, Jianqiang Huang. 2073-2077 [doi]

Contrastive Single-Stream Spatio-Temporal Joint Modeling for Few-Shot Action RecognitionXingyang Xu, Jixiang Du, Jing Wang, Hongbo Zhang, Qing Lei, Lijing Ye, Jiayu Xiong. 2078-2082 [doi]

Q-Chain: A Causal-Aware Framework for Structural and Educational Question GenerationJunqi Xu, Lvcheng Wang, Zeyd Boukhers, Bipin Indurkhya, Cong Yang. 2083-2087 [doi]

A Dual Coupled Feature Pyramid for Traditional Paintings Inpainting with Multi-level Semantic FilteringBiao Yang, Zihan Chen, Yi Zhang. 2088-2092 [doi]

Guided Infrared Image Super-Resolution via Cross-modal Progressive GuidanceXinchen Ye, Siqi Wang, Rui Xu, Haojie Li. 2093-2097 [doi]

Dynamic Motion Modeling for Enhanced Visual-Inertial OdometryXinchen Ye, Haobo Wang, Rui Xu, Haojie Li. 2098-2102 [doi]

SSTAP: Generating Sample-Specific Transferable Adversarial Patch in Multimodal Contrastive LearningChangchun Yin, Liming Fang 0001. 2103-2107 [doi]

Core Inter-Category Contrastive Learning for Enhancing Robustness of Caries ClassificationPeiliang Zhang, Yaru Chen, Yunjiong Liu, Chao Che, Yongjun Zhu. 2108-2112 [doi]

GroupAC: Inter-Group Context Modeling for Point Cloud Attribute Compression with RAHTGuangjie Zhang, Chunyang Fu, Qiang Xu, Shan Liu, Ge Li. 2113-2117 [doi]

Visible-Infrared Person Re-Identification via Mutual Reinforcement of Prompts and Image EncodersHongde Zhang, Bingpeng Ma. 2118-2122 [doi]

MFSVFND: Multimodal Fusion Network for Detecting Fake News on Short Video PlatformsLiyuan Zhang, Yang Yajing, Yan Yang, Yong Liu, Zhongyan Gui, Ruofan Li, Hao Fei. 2123-2127 [doi]

Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-trainingZijian Zhao. 2128-2132 [doi]

Metal Surface Defect Detection based on Variable Mask Ratio Multi-scale ReconstructionYu Zheng, Meng Du, Lin Zhao, Chunlei Peng. 2133-2137 [doi]

Tutorial Proposal: Hallucinations in Large Language Models and Large Vision-Language ModelsLiqiang Jing, Yue Zhang, Xinya Du. 2138-2139 [doi]

Visual Content Generation in the Era of Large Foundation ModelsLeigang Qu, Fei Shen, Zhenglin Zhou, Jiayi Lyu, Wenjie Wang, Lu Jiang. 2140-2142 [doi]

Introduction to the 8th Annual Lifelog Search Challenge, LSC'25Cathal Gurrin, Liting Zhou, Graham Healy, Allie Tran, Luca Rossetto, Werner Bailer, Duc-Tien Dang-Nguyen, Steve Hodges 0001, Björn Þór Jónsson 0001, Minh-Triet Tran, Klaus Schöffmann. 2143-2144 [doi]

ICDAR 25: Intelligent Cross-Data Analysis and RetrievalTakahiro Komamizu, Marc A. Kastner, Minh-Son Dao, Michael Alexander Riegler, Duc-Tien Dang-Nguyen, Son Tran. 2145-2147 [doi]

MAD'25: 4th ACM International Workshop on Multimedia AI against DisinformationDan-Cristian Stanciu, Bogdan Ionescu, Symeon Papadopoulos, Giorgos Kordopatis-Zilos, Adrian Popescu 0001, Roberto Caldelli, Milica Gerhardt, Vera Schmitt. 2148-2150 [doi]

CEFSW'25: The 2nd Collaboration and Evolution of Foundation and Specialized Models WorkshopShengyu Zhang 0001, Fan Yao, Yujie Lu, Chaoyue Niu, Hongxia Yang, Fan Wu 0006, Fei Wu 0001. 2151-2153 [doi]

runs on WebDSL