Proceedings of the 32nd ACM International Conference on Multimedia, MM 2024, Melbourne, VIC, Australia, 28 October 2024 - 1 November 2024

researchr

You are not signed in
Sign in
Sign up

Jianfei Cai 0001, Mohan S. Kankanhalli, Balakrishnan Prabhakaran 0001, Susanne Boll, Ramanathan Subramanian, Liang Zheng 0001, Vivek K. Singh 0001, Pablo César, Lexing Xie, Dong Xu 0001, editors, Proceedings of the 32nd ACM International Conference on Multimedia, MM 2024, Melbourne, VIC, Australia, 28 October 2024 - 1 November 2024. ACM, 2024. [doi]

Conference: mm

Abstract is missing.

From Assistants to Agents in the LLM EraPascale Fung. 1 [doi]

TM LCS: Cutting-edge AI/ML Technology-based SaMD for Enhanced Patient CareBenoit Huet. 2-3 [doi]

Empowering People to Harness and Control their Multimodal Data in Scrutable User modelsJudy Kay. 4-5 [doi]

Large Multimodal Models as Social Multimedia Analysis EnginesJiebo Luo. 6-7 [doi]

When, Where, and What? A Benchmark for Accident Anticipation and Localization with Large Language ModelsHaicheng Liao, Yongkang Li, Chengyue Wang, Yanchen Guan, Kahou Tam, Chunlin Tian, Li Li 0064, Chengzhong Xu 0001, Zhenning Li. 8-17 [doi]

A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training ModelsHaonan Zheng, Xinyang Deng, Wen Jiang 0002, Wenrui Li. 18-27 [doi]

Not All Inputs Are Valid: Towards Open-Set Video Moment Retrieval using LanguageXiang Fang, Wanlong Fang, Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou 0001, Renfu Li, Zichuan Xu, Lixing Chen, Panpan Zheng, Yu Cheng 0001. 28-37 [doi]

Towards Flexible Evaluation for Generative Visual Question AnsweringHuishan Ji, Qingyi Si, Zheng Lin 0001, Weiping Wang 0005. 38-47 [doi]

Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly DetectionJiaqi Zhu, Shaofeng Cai, Fang Deng, Beng Chin Ooi, Junran Wu. 48-57 [doi]

FLIP-80M: 80 Million Visual-Linguistic Pairs for Facial Language-Image Pre-TrainingYudong Li, Xianxu Hou, Dezhi Zheng, LinLin Shen, Zhe Zhao 0006. 58-67 [doi]

Towards Trustworthy MetaShopping: Studying Manipulative Audiovisual Designs in Virtual-Physical Commercial PlatformsEsmée Henrieke Anne de Haas, Lik Hang Lee, Yiming Huang, Carlos Bermejo, Pan Hui 0001, Zijun Lin. 68-77 [doi]

ResVR: Joint Rescaling and Viewport Rendering of Omnidirectional ImagesWeiqi Li, Shijie Zhao, Bin Chen, Xinhua Cheng, Junlin Li, Li Zhang 0006, Jian Zhang 0018. 78-87 [doi]

Improving Interaction Comfort in Authoring Task in AR-HRI through Dynamic Dual-Layer Interaction AdjustmentYunqiang Pei, Keiyue Zhang, Hongrong Yang, Yong Tao, Qihang Tang, Jialei Tang, Guoqing Wang 0001, Zhitao Liu, Ning Xie 0003, Peng Wang 0023, Yang Yang 0002, Hengtao Shen. 88-97 [doi]

Designing Spatial Visualization and Interactions of Immersive Sankey Diagram in Virtual RealityYang Lu, Junxian Li, Zhitong Cui, Jiapeng Hu, Yanna Lin, Shijian Luo. 98-107 [doi]

DragEntity: Trajectory Guided Video Generation using Entity and Positional RelationshipsZhang Wan, Sheng Tang, Jiawei Wei, Ruize Zhang, Juan Cao 0001. 108-116 [doi]

VR-Mediated Cognitive Defusion: A Comparative Study for Managing Negative ThoughtsKento Shigyo, Yifan Cao, Kentaro Takahira, Mingming Fan 0001, Huamin Qu. 117-126 [doi]

Navigating Weight Prediction with Diet DiaryYinxuan Gui, Bin Zhu 0006, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang. 127-136 [doi]

Egocentric Vehicle Dense Video CaptioningFeiyu Chen 0005, Cong Xu, Qi Jia 0004, Yihua Wang, Yuhan Liu, Haotian Zhang, Endong Wang. 137-146 [doi]

OneChart: Purify the Chart Structural Extraction via One Auxiliary TokenJinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang 0005. 147-155 [doi]

IconDM: Text-Guided Icon Set Expansion Using Diffusion ModelsJiawei Lin, Zhaoyun Jiang, Jiaqi Guo, Shizhao Sun, Ting Liu 0002, Zijiang Yang 0006, Jian-Guang Lou, Dongmei Zhang 0001. 156-165 [doi]

Timeline and Boundary Guided Diffusion Network for Video Shadow DetectionHaipeng Zhou, Hongqiu Wang, Tian Ye 0001, Zhaohu Xing, Jun Ma 0008, Ping Li 0016, Qiong Wang 0001, Lei Zhu 0003. 166-175 [doi]

Training Pansharpening Networks at Full Resolution Using Degenerate InvarianceYichang Qu, Bing Li, Jie Huang 0017, Feng Zhao 0004. 176-185 [doi]

Towards Multi-view Consistent Graph DiffusionJielong Lu, Zhihao Wu 0003, Zhaoliang Chen, Zhiling Cai, Shiping Wang. 186-195 [doi]

Equilibrated Diffusion: Frequency-aware Textual Embedding for Equilibrated Image CustomizationLiyuan Ma, Xueji Fang, Guo-Jun Qi. 196-204 [doi]

Relational Diffusion Distillation for Efficient Image GenerationWeilun Feng, Chuanguang Yang, Zhulin An, Libo Huang, Boyu Diao, Fei Wang 0014, Yongjun Xu. 205-213 [doi]

Diffusion Posterior Proximal Sampling for Image RestorationHongjie Wu, Linchao He, Mingqin Zhang, Dongdong Chen 0004, Kunming Luo, Mengting Luo, Jizhe Zhou, Hu Chen 0002, Jiancheng Lv 0001. 214-223 [doi]

StableMoFusion: Towards Robust and Efficient Diffusion-based Motion Generation FrameworkYiheng Huang, Hui Yang, Chuanchen Luo, Yuxi Wang, Shibiao Xu, Zhaoxiang Zhang 0001, Man Zhang 0005, Junran Peng. 224-232 [doi]

Making Large Language Models Perform Better in Knowledge Graph CompletionYichi Zhang 0009, Zhuo Chen 0007, Lingbing Guo, Yajing Xu, Wen Zhang 0015, Huajun Chen. 233-242 [doi]

Seeing Beyond Words: Multimodal Aspect-Level Complaint Detection in Ecommerce VideosRishikesh Devanathan, Apoorva Singh, A. s. Poornash, Sriparna Saha 0001. 243-252 [doi]

TimeNeRF: Building Generalizable Neural Radiance Fields across Time from Few-Shot Input ViewsHsiang-Hui Hung, Huu-Phu Do, Yung-hui Li, Ching-Chun Huang. 253-262 [doi]

Revisiting Knowledge Tracing: A Simple and Powerful ModelXiaoxuan Shen, Fenghua Yu, Yaqi Liu, Ruxia Liang, Qian Wan, Kai Yang, Jianwen Sun. 263-272 [doi]

ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion ModelsPeiming Li, Ziyi Wang, Mengyuan Liu, Hong Liu 0008, Chen Chen 0001. 273-281 [doi]

Private Gradient Estimation is Useful for Generative ModelingBochao Liu, Pengju Wang, Weijia Guo, Yong Li, Liansheng Zhuang, Weiping Wang 0005, Shiming Ge. 282-290 [doi]

Self-Supervised Visual Preference AlignmentKe Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang 0005. 291-300 [doi]

Evolution-aware VAriance (EVA) Coreset Selection for Medical Image ClassificationYuxin Hong, Xiao Zhang 0006, Xin Zhang 0092, Joey Tianyi Zhou. 301-310 [doi]

FacialPulse: An Efficient RNN-based Depression Detection via Temporal Facial LandmarksRuiqi Wang, Jinyang Huang, Jie Zhang 0042, Xin Liu, Xiang Zhang 0011, Zhi Liu 0002, Peng Zhao, Sigui Chen, Xiao Sun 0003. 311-320 [doi]

MDDR: Multi-modal Dual-Attention aggregation for Depression RecognitionWei Zhang, En Zhu, Juan Chen, Yunpeng Li. 321-329 [doi]

Cluster-Phys: Facial Clues Clustering Towards Efficient Remote Physiological MeasurementWei Qian, Kun Li 0008, Dan Guo, Bin Hu 0001, Meng Wang 0001. 330-339 [doi]

EEG-MACS: Manifold Attention and Confidence Stratification for EEG-based Cross-Center Brain Disease Diagnosis under Unreliable AnnotationsZhenxi Song, Ruihan Qin, Huixia Ren, Zhen Liang, Yi Guo 0007, Min Zhang 0005, Zhiguo Zhang 0001. 340-349 [doi]

WSEL: EEG Feature Selection with Weighted Self-expression Learning for Incomplete Multi-dimensional Emotion RecognitionXueyuan Xu, Li Zhuo 0001, Jinxin Lu, Xia Wu. 350-359 [doi]

Unpaired Photo-realistic Image Deraining with Energy-informed Diffusion ModelYuanbo Wen, Tao Gao 0001, Ting Chen 0003. 360-369 [doi]

MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D AssetsZeYu Li, Ruitong Gan, Chuanchen Luo, Yuxi Wang, Jiaheng Liu, Ziwei Zhu, Qing Li 0001, XuCheng Yin, Man Zhang 0005, Zhaoxiang Zhang 0001, Junran Peng. 370-379 [doi]

Gait Recognition in Large-scale Free Environment via Single LiDARXiao Han, Yiming Ren, Peishan Cong, Yujing Sun, Jingya Wang, Lan Xu, Yuexin Ma. 380-389 [doi]

LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance FieldsTang Tao, Longfei Gao, Guangrun Wang, Yixing Lao, Peng Chen, Hengshuang Zhao, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu. 390-398 [doi]

Transferring to Real-World Layouts: A Depth-aware Framework for Scene AdaptationMu Chen, Zhedong Zheng, Yi Yang 0001. 399-408 [doi]

Sparse Query Dense: Enhancing 3D Object Detection with Pseudo PointsYujian Mo, Yan Wu 0011, Junqiao Zhao, Zhenjie Hou, Weiquan Huang, Yinghao Hu, Jijun Wang, Jun Yan 0009. 409-418 [doi]

A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal ReasoningChangmeng Zheng, Dayong Liang, Wengyu Zhang, Xiaoyong Wei, Tat-Seng Chua, Qing Li 0001. 419-428 [doi]

A Progressive Skip Reasoning Fusion Method for Multi-Modal ClassificationQian Guo, Xinyan Liang, Yuhua Qian, Zhihua Cui, Jie Wen 0008. 429-437 [doi]

Leveraging Knowledge of Modality Experts for Incomplete Multimodal LearningWenxin Xu, Hexin Jiang, Xuefeng Liang. 438-446 [doi]

Generating Multimodal Metaphorical Features for Meme UnderstandingBo Xu 0008, Junzhe Zheng, Jiayuan He 0002, Yuxuan Sun, Hongfei Lin, Liang Zhao 0005, Feng Xia 0001. 447-455 [doi]

PASSION: Towards Effective Incomplete Multi-Modal Medical Image Segmentation with Imbalanced Missing RatesJunjie Shi, Caozhi Shang, Zhaobin Sun, Li Yu 0003, Xin Yang 0008, Zengqiang Yan. 456-465 [doi]

Cross-modal Observation Hypothesis InferenceMengze Li 0001, Kairong Han, Jiahe Xu, Yueying Li, Tao Wu, Zhou Zhao, Jiaxu Miao, Shengyu Zhang 0001, Jingyuan Chen. 466-475 [doi]

LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion FieldJiyang Li, Lechao Cheng, Zhangye Wang, Tingting Mu, Jingxuan He. 476-485 [doi]

Q-Ground: Image Quality Grounding with Large Multi-modality ModelsChaofeng Chen, Sensen Yang, Haoning Wu 0001, Liang Liao, Zicheng Zhang, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin. 486-495 [doi]

Dual-path Collaborative Generation Network for Emotional Video CaptioningCheng Ye, Weidong Chen, Jingyu Li, Lei Zhang 0119, Zhendong Mao. 496-505 [doi]

Exploring Matching Rates: From Keypoint Selection to Camera RelocalizationHu Lin, Chengjiang Long, Yifeng Fei, Qianchen Xia, Erwei Yin, Baocai Yin, Xin Yang 0011. 506-514 [doi]

InMu-Net: Advancing Multi-modal Intent Detection via Information Bottleneck and Multi-sensory ProcessingZhihong Zhu, Xuxin Cheng, Zhaorun Chen, Yuyan Chen, Yunyan Zhang, Xian Wu 0001, Yefeng Zheng 0001, Bowen Xing. 515-524 [doi]

Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language ModelsChaoya Jiang, Hongrui Jia, Mengfan Dong, Wei Ye 0004, Haiyang Xu, Ming Yan, Ji Zhang 0011, Shikun Zhang. 525-534 [doi]

ArtSpeech: Adaptive Text-to-Speech Synthesis with Articulatory RepresentationsZhongxu Wang, Yujia Wang, Mingzhu Li, Hua Huang 0001. 535-544 [doi]

HKDSME: Heterogeneous Knowledge Distillation for Semi-supervised Singing Melody Extraction Using Harmonic SupervisionShuai Yu 0002, Xiaoliang He, Ke Chen 0021, Yi Yu 0001. 545-553 [doi]

VoxInstruct: Expressive Human Instruction-to-Speech Generation with Unified Multilingual Codec Language ModellingYixuan Zhou 0002, Xiaoyu Qin, Zeyu Jin, Shuoyi Zhou, Shun Lei, Songtao Zhou, Zhiyong Wu 0001, Jia Jia 0001. 554-563 [doi]

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference OptimizationNavonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria. 564-572 [doi]

TiVA: Time-Aligned Video-to-Audio GenerationXihua Wang, Yuyue Wang 0003, Yihan Wu, Ruihua Song, Xu Tan 0003, Zehua Chen, Hongteng Xu, Guodong Sui. 573-582 [doi]

MUSCAT: A Multimodal mUSic Collection for Automatic Transcription of Real Recordings and Image ScoresAlejandro Galán-Cuenca, Jose J. Valero-Mas, Juan C. Martinez-Sevilla, Antonio Hidalgo-Centeno, Antonio Pertusa, Jorge Calvo-Zaragoza. 583-591 [doi]

Hawkeye: Discovering and Grounding Implicit Anomalous Sentiment in Recon-videos via Scene-enhanced Video Large Language ModelJianing Zhao, Jingjing Wang, Yujie Jin, Jiamin Luo, Guodong Zhou. 592-601 [doi]

Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text PairsDaiqing Wu, Dongbao Yang, Yu Zhou 0015, Can Ma. 602-611 [doi]

Towards Emotion-enriched Text-to-Motion Generation via LLM-guided Limb-level Emotion ManipulatingTan Yu, Jingjing Wang, Jiawen Wang, Jiamin Luo, Guodong Zhou. 612-621 [doi]

A Unimodal Valence-Arousal Driven Contrastive Learning Framework for Multimodal Multi-Label Emotion RecognitionWenjie Zheng, Jianfei Yu, Rui Xia. 622-631 [doi]

All rivers run into the sea: Unified Modality Brain-Inspired Emotional Central MechanismXinji Mai, Junxiong Lin, Haoran Wang, Zeng Tao, Yan Wang 0068, Shaoqi Yan, Xuan Tong, Jiawen Yu, Boyang Wang, Ziheng Zhou, Qing Zhao 0007, Shuyong Gao, Wenqiang Zhang. 632-641 [doi]

Temporal Enhancement for Video Affective Content AnalysisXin Li, Shangfei Wang, Xuandong Huang. 642-650 [doi]

Domain Generalization-Aware Uncertainty Introspective Learning for 3D Point Clouds SegmentationPei He, Licheng Jiao, Lingling Li 0002, Xu Liu 0006, Fang Liu 0001, Wenping Ma 0002, Shuyuan Yang, Ronghua Shang. 651-660 [doi]

Color4E: Event Demosaicing for Full-color Event Guided Image DeblurringYi Ma 0001, Peiqi Duan, Yuchen Hong, Chu Zhou, Yu Zhang 0035, Jimmy S. J. Ren, Boxin Shi. 661-670 [doi]

DP-RAE: A Dual-Phase Merging Reversible Adversarial Example for Image Privacy ProtectionJiajie Zhu, Xia Du, Jizhe Zhou, Chi-Man Pun, Qizhen Xu, Xiaoyuan Liu. 671-680 [doi]

Geometry-Guided Diffusion Model with Masked Transformer for Robust Multi-View 3D Human Pose EstimationXinyi Zhang, Qinpeng Cui, Qiqi Bao, Wenming Yang, Qingmin Liao. 681-690 [doi]

AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity RecognitionMeiqi Cao, Rui Yan 0001, Xiangbo Shu, Guangzhao Dai, Yazhou Yao, Guo-Sen Xie. 691-700 [doi]

Partially Aligned Cross-modal Retrieval via Optimal Transport-based Prototype Alignment LearningJunsheng Wang, Tiantian Gong, Yan Yan 0002. 701-709 [doi]

Learning Enriched Features via Selective State Spaces Model for Efficient Image DeblurringHu Gao, Bowen Ma, Ying Zhang, Jingfan Yang, Jing Yang, Depeng Dang. 710-718 [doi]

Enhanced Tensorial Self-representation Subspace Learning for Incomplete Multi-view ClusteringHangjun Che, Xinyu Pu, Deqiang Ouyang, Beibei Li 0002. 719-728 [doi]

CartoonNet: Cartoon Parsing with Semantic Consistency and Structure CorrelationJian-Jun Qiao, Meng-Yu Duan, Xiao Wu 0001, Yu-Pei Song. 729-737 [doi]

Visual-Language Collaborative Representation Network for Broad-Domain Few-Shot Image ClassificationQianyu Guo, Jieji Ren, Haofen Wang, Tianxing Wu 0001, Weifeng Ge, Wenqiang Zhang. 738-747 [doi]

Highly Transferable Diffusion-based Unrestricted Adversarial Attack on Pre-trained Vision-Language ModelsWenzhuo Xu, Kai Chen 0027, Ziyi Gao, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang. 748-757 [doi]

PSSD-Transformer: Powerful Sparse Spike-Driven Transformer for Image Semantic SegmentationHongzhi Wang, Xiubo Liang, Tao Zhang, Yue Gu, Weidong Geng. 758-767 [doi]

Learning Context with Priors for 3D Interacting Hand-Object Pose EstimationZengsheng Kuang, Changxing Ding, Huan Yao. 768-777 [doi]

Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action RecognitionYang Chen, Jingcai Guo, Tian He, Xiaocheng Lu, Ling Wang 0013. 778-786 [doi]

FusionOcc: Multi-Modal Fusion for 3D Occupancy PredictionShuo Zhang, Yupeng Zhai, Jilin Mei, Yu Hu 0001. 787-796 [doi]

Enhancing Pre-trained ViTs for Downstream Task Adaptation: A Locality-Aware Prompt Learning MethodShaokun Wang, Yifan Yu, Yuhang He, Yihong Gong. 797-806 [doi]

Advancing Prompt Learning through an External LayerFangming Cui, Xun Yang, Chao Wu 0001, Liang Xiao 0007, Xinmei Tian 0001. 807-816 [doi]

Q-MoE: Connector for MLLMs with Text-Driven RoutingHanzi Wang, Jiamin Ren, Yifeng Ding, Lei Ren, Huixing Jiang, Wei Chen, Fangxiang Feng, Xiaojie Wang 0006. 817-825 [doi]

GLGait: A Global-Local Temporal Receptive Field Network for Gait Recognition in the WildGuozhen Peng, Yunhong Wang, Yuwei Zhao, Shaoxiong Zhang, Annan Li. 826-835 [doi]

RFFNet: Towards Robust and Flexible Fusion for Low-Light Image DenoisingQiang Wang, Yuning Cui 0001, Yawen Li, Yaping Ruan, Ben Zhu, Wenqi Ren. 836-845 [doi]

Fact : Teaching MLLMs with Faithful, Concise and Transferable RationalesMinghe Gao, Shuang Chen, Liang Pang, Yuan Yao 0013, Jisheng Dang, Wenqiao Zhang, Juncheng Li 0006, Siliang Tang, Yueting Zhuang, Tat-Seng Chua. 846-855 [doi]

Narrowing the Gap between Vision and Action in NavigationYue Zhang 0004, Parisa KordJamshidi. 856-865 [doi]

HICEScore: A Hierarchical Metric for Image Captioning EvaluationZequn Zeng, Jianqiao Sun, Hao Zhang 0050, Tiansheng Wen, Yudi Su, Yan Xie, Zhengjue Wang, Bo Chen 0001. 866-875 [doi]

CLIPCleaner: Cleaning Noisy Labels with CLIPChen Feng, Georgios Tzimiropoulos, Ioannis Patras. 876-885 [doi]

GuidedNet: Semi-Supervised Multi-Organ Segmentation via Labeled Data Guide Unlabeled DataHaochen Zhao, Hui Meng, Deqian Yang, Xiaozheng Xie, Xiaoze Wu, Qingfeng Li, Jianwei Niu 0002. 886-895 [doi]

Point Cloud Densification for 3D Gaussian Splatting from Sparse Input ViewsKin-Chung Chan, Jun Xiao 0010, Hana Lebeta Goshu, Kin-Man Lam 0001. 896-904 [doi]

Deep Instruction Tuning for Segment Anything ModelXiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji. 905-914 [doi]

CIEASR: Contextual Image-Enhanced Automatic Speech Recognition for Improved Homophone DiscriminationZiyi Wang, Yiming Rong, Deyang Jiang, Haoran Wu, Shiyu Zhou, Bo Xu 0002. 915-924 [doi]

CREAM: Coarse-to-Fine Retrieval and Multi-modal Efficient Tuning for Document VQAJinxu Zhang, Yongqi Yu, Yu Zhang 0030. 925-934 [doi]

TeRF: Text-driven and Region-aware Flexible Visible and Infrared Image FusionHebaixu Wang, Hao Zhang 0073, Xunpeng Yi, Xinyu Xiang, Leyuan Fang, Jiayi Ma 0001. 935-944 [doi]

Synergetic Prototype Learning Network for Unbiased Scene Graph GenerationRuonan Zhang, Ziwei Shang, Fengjuan Wang, Zhaoqilin Yang, Shan Cao, Yigang Cen, GaoYun An. 945-954 [doi]

Combating Visual Question Answering Hallucinations via Robust Multi-Space Co-Debias LearningJiawei Zhu, Yishu Liu, Huanjia Zhu, Hui Lin, Yuncheng Jiang, Zheng Zhang 0006, Bingzhi Chen. 955-964 [doi]

See or Guess: Counterfactually Regularized Image CaptioningQian Cao, Xu Chen 0017, Ruihua Song, Xiting Wang, Xinting Huang, Yuchen Ren. 965-974 [doi]

Cross-Modal Meta Consensus for Heterogeneous Federated LearningShuai Li, Fan Qi, Zixin Zhang 0004, Changsheng Xu. 975-984 [doi]

CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event LocalizationXiang He, Xiangxi Liu, Yang Li 0141, Dongcheng Zhao, Guobin Shen, Qingqun Kong, Xin Yang 0001, Yi Zeng 0001. 985-993 [doi]

Style-conditional Prompt Token Learning for Generalizable Face Anti-spoofingJiabao Guo, Huan Liu, Yizhi Luo, Xueli Hu, Hang Zou, Yuan Zhang, Hui Liu 0018, Bo Zhao 0023. 994-1003 [doi]

SSAT-Adapter: Enhancing Vision-Language Model Few-shot Learning with Auxiliary TasksBowen Chen, Yun Sing Koh, Gillian Dobbie. 1004-1013 [doi]

Balancing Generalization and Robustness in Adversarial Training via Steering through Clean and Adversarial Gradient DirectionsHaoyu Tong, Xiaoyu Zhang 0010, Yulin Jin, Jian Lou 0001, Kai Wu 0003, Xiaofeng Chen 0001. 1014-1023 [doi]

Saliency-Guided Fine-Grained Temporal Mask Learning for Few-Shot Action RecognitionShuo Zheng, Yuanjie Dang, Peng Chen 0008, Ruohong Huan, Dongdong Zhao, Ronghua Liang. 1024-1033 [doi]

Unsupervised Multi-view Pedestrian DetectionMengyin Liu, Chao Zhu 0003, Shiqi Ren, Xu-Cheng Yin. 1034-1042 [doi]

Motion-aware Latent Diffusion Models for Video Frame InterpolationZhilin Huang, Yijie Yu, Ling Yang 0006, Chujun Qin, Bing Zheng, Xiawu Zheng, Zikun Zhou, Yaowei Wang 0001, Wenming Yang. 1043-1052 [doi]

AbsGS: Recovering Fine Details in 3D Gaussian SplattingZongxin Ye, Wenyu Li, Sidun Liu, Peng Qiao, Yong Dou. 1053-1061 [doi]

Multi-fineness Boundaries and the Shifted Ensemble-aware Encoding for Point Cloud Semantic SegmentationZiming Wang, Boxiang Zhang, Ming Ma, Yue Wang, Taoli Du, Wenhui Li 0002. 1062-1071 [doi]

Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language ModelsYubo Wang, Chaohu Liu, Yanqiu Qu, Haoyu Cao, Deqiang Jiang, Linli Xu. 1072-1081 [doi]

KNN Transformer with Pyramid Prompts for Few-Shot LearningWenhao Li, Qiangchang Wang, Peng Zhao, Yilong Yin. 1082-1091 [doi]

AlignCLIP: Align Multi Domains of Texts Input for CLIP models with Object-IoU LossLu Zhang 0060, Ke Yan, Shouhong Ding. 1092-1100 [doi]

Adaptive Selection based Referring Image SegmentationPengfei Yue, Jianghang Lin, Shengchuan Zhang, Jie Hu 0018, Yilin Lu, Hongwei Niu, Haixin Ding, Yan Zhang 0002, Guannan Jiang, Liujuan Cao, Rongrong Ji. 1101-1110 [doi]

Dual-stream Feature Augmentation for Domain GeneralizationShanshan Wang 0008, Alusi, Xun Yang, Ke Xu 0011, Huibin Tan, Xingyi Zhang 0001. 1111-1119 [doi]

Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple Human AvatarsYang Liu, Xiang Huang, Minghan Qin, Qinwei Lin, Haoqian Wang. 1120-1129 [doi]

Multi-View Clustering Based on Deep Non-negative Tensor FactorizationWei Feng 0010, Dongyuan Wei, Qianqian Wang 0001, Bo Dong 0001, Quanxue Gao. 1130-1138 [doi]

AerialGait: Bridging Aerial and Ground Views for Gait RecognitionAoqi Li, Saihui Hou, Chenye Wang, Qingyuan Cai, Yongzhen Huang. 1139-1147 [doi]

Caption-Aware Multimodal Relation Extraction with Mutual Information MaximizationZefan Zhang, Weiqi Zhang, Yanhui Li, Tian Bai 0002. 1148-1157 [doi]

TS-ILM: Class Incremental Learning for Online Action DetectionXiaochen Li, Jian Cheng 0003, Ziying Xia, Zichong Chen, Junhao Shi, Zhicheng Dong, Nyima Tashi. 1158-1167 [doi]

MultiDAN: Unsupervised, Multistage, Multisource and Multitarget Domain Adaptation for Semantic Segmentation of Remote Sensing ImagesYuxiang Cai, Yongheng Shang, Jianwei Yin. 1168-1177 [doi]

MMDFND: Multi-modal Multi-Domain Fake News DetectionYu Tong, Weihai Lu, Zhe Zhao 0008, Song Lai, Tong Shi. 1178-1186 [doi]

ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual GroundingMinghang Zheng, Jiahua Zhang, Qingchao Chen, Yuxin Peng, Yang Liu 0105. 1187-1196 [doi]

Purified Distillation: Bridging Domain Shift and Category Gap in Incremental Object DetectionShilong Jia, Tingting Wu 0001, Yingying Fang, Tieyong Zeng, Guixu Zhang, Zhi Li. 1197-1205 [doi]

MPT: Multi-grained Prompt Tuning for Text-Video RetrievalHaonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Heng Tao Shen. 1206-1214 [doi]

Rethinking the Architecture Design for Efficient Generic Event Boundary DetectionZiwei Zheng, Zechuan Zhang, Yulin Wang, Shiji Song, Gao Huang 0001, Le Yang 0007. 1215-1224 [doi]

TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center LearningJinglun Li, Xinyu Zhou, Kaixun Jiang, Lingyi Hong, Pinxue Guo, Zhaoyu Chen, Weifeng Ge, Wenqiang Zhang. 1225-1234 [doi]

A Novel State Space Model with Local Enhancement and State Sharing for Image FusionZihan Cao, Xiao Wu, Liang-Jian Deng, Yu Zhong. 1235-1244 [doi]

Semantic Editing Increment Benefits Zero-Shot Composed Image RetrievalZhenyu Yang, Shengsheng Qian, Dizhan Xue, Jiahong Wu, Fan Yang 0094, Weiming Dong, Changsheng Xu. 1245-1254 [doi]

SpeechCraft: A Fine-Grained Expressive Speech Dataset with Natural Language DescriptionZeyu Jin, Jia Jia 0001, Qixin Wang, Kehan Li 0007, Shuoyi Zhou, Songtao Zhou, Xiaoyu Qin, Zhiyong Wu 0001. 1255-1264 [doi]

TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex Traffic ScenariosLihao Liu, Yanqi Cheng, Zhongying Deng, Shujun Wang, Dongdong Chen 0001, Xiaowei Hu 0001, Pietro Liò, Carola-Bibiane Schönlieb, Angelica E. Avilés-Rivero. 1265-1273 [doi]

Generalize to Fully Unseen Graphs: Learn Transferable Hyper-Relation Structures for Inductive Link PredictionJing Yang, Xiaowen Jiang, Yuan Gao, Laurence T. Yang, Jieming Yang. 1274-1282 [doi]

MLP Embedded Inverse Tone MappingPanjun Liu, Jiacheng Li 0004, Lizhi Wang, Zheng-Jun Zha, Zhiwei Xiong. 1283-1291 [doi]

Scalable Multi-Source Pre-training for Graph Neural NetworksMingkai Lin, Wenzhong Li, Xiaobin Hong, Sanglu Lu. 1292-1301 [doi]

Efficient Single Image Super-Resolution with Entropy Attention and Receptive Field AugmentationXiaole Zhao, Linze Li 0001, Chengxing Xie, Xiaoming Zhang 0008, Ting Jiang, Wenjie Lin, Shuaicheng Liu, Tianrui Li 0001. 1302-1310 [doi]

Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech RepresentationMinsu Kim, Jeong Hun Yeo, Se Jin Park, Hyeongseop Rha, Yong Man Ro. 1311-1320 [doi]

LDCNet: Long-Distance Context Modeling for Large-Scale 3D Point Cloud Scene Semantic SegmentationShoutong Luo, Zhengxing Sun, Yi Wang, Yunhan Sun, Chendi Zhu. 1321-1330 [doi]

Stochastic Context Consistency Reasoning for Domain Adaptive Object DetectionYiming Cui, Liang Li 0003, Jiehua Zhang, Chenggang Yan 0001, Hongkui Wang, Shuai Wang 0003, Heng Jin, Li Wu. 1331-1340 [doi]

FewVS: A Vision-Semantics Integration Framework for Few-Shot Image ClassificationZhuoling Li, Yong Wang 0002, Kaitong Li. 1341-1350 [doi]

FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative ProcessYuyan Bu, Qiang Sheng 0001, Juan Cao 0001, Peng Qi 0005, Danding Wang, Jintao Li 0001. 1351-1360 [doi]

PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape MappingSubash Khanal, Eric Xing, Srikumar Sastry, Aayush Dhakal, Zhexiao Xiong, Adeel Ahmad, Nathan Jacobs. 1361-1369 [doi]

3D Question Answering with Scene Graph ReasoningZizhao Wu, Haohan Li, Gongyi Chen, Zhou Yu 0001, Xiaoling Gu, Yigang Wang. 1370-1378 [doi]

Focus & Gating: A Multimodal Approach for Unveiling Relations in Noisy Social MediaLiang He 0009, Hongke Wang, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen 0001. 1379-1388 [doi]

DINO is Also a Semantic Guider: Exploiting Class-aware Affinity for Weakly Supervised Semantic SegmentationYuanchen Wu, Xiaoqiang Li, Jide Li, Kequan Yang, Pinpin Zhu, Shaohua Zhang. 1389-1397 [doi]

Parameter-efficient is not Sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense PredictionsDongshuo Yin, Xueting Han, Bin Li 0038, Hao Feng, Jing Bai 0010. 1398-1406 [doi]

One-Stage Fair Multi-View Spectral ClusteringRongwen Li, HaiYang Hu, Liang Du 0003, Jiarong Chen, Bingbing Jiang 0001, Peng Zhou 0006. 1407-1416 [doi]

Blind Face Video Restoration with Temporal Consistent Generative Prior and Degradation-Aware PromptJingfan Tan, Hyunhee Park, Ying Zhang, Tao Wang 0052, Kaihao Zhang, Xiangyu Kong, Pengwen Dai, Zikun Liu, Wenhan Luo. 1417-1426 [doi]

p-Norm for Fast Multi-view Graph ClusteringYinghui Sun, Xingfeng Li 0004, Quansen Sun, Min-Ling Zhang, Zhenwen Ren. 1427-1436 [doi]

VrdONE: One-stage Video Visual Relation DetectionXinJie Jiang, Chenxi Zheng, Xuemiao Xu, Bangzhen Liu, Weiying Zheng, Huaidong Zhang, Shengfeng He. 1437-1446 [doi]

Learning Cross-Spectral Prior for Image Super-ResolutionChenxi Ma, Weimin Tan, Shili Zhou, Bo Yan 0001. 1447-1455 [doi]

Reliable Attribute-missing Multi-view Clustering with Instance-level and feature-level Cooperative ImputationDayu Hu, Suyuan Liu, Jun Wang 0118, Junpu Zhang, Siwei Wang 0001, Xingchen Hu, Xinzhong Zhu, Chang Tang, Xinwang Liu 0002. 1456-1466 [doi]

MSTA3D: Multi-scale Twin-attention for 3D Instance SegmentationDuc Dang Trung Tran, Byeongkeun Kang, Yeejin Lee. 1467-1475 [doi]

Maskable Retentive Network for Video Moment RetrievalJingjing Hu, Dan Guo, Kun Li 0008, Zhan Si, Xun Yang, Meng Wang 0001. 1476-1485 [doi]

Linearly-evolved Transformer for Pan-sharpeningJunming Hou, Zihan Cao, Naishan Zheng, Xuan Li, Xiaoyu Chen, Xinyang Liu, Xiaofeng Cong, Danfeng Hong, Man Zhou. 1486-1494 [doi]

Towards Open-vocabulary HOI Detection with Calibrated Vision-language Models and Locality-aware QueriesZhenhao Yang, Xin Liu, Deqiang Ouyang, Guiduo Duan, Dongyang Zhang, Tao He 0007, Yuan-Fang Li. 1495-1504 [doi]

MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space ModelKang Zeng, Hao Shi, Jiacheng Lin, Siyu Li, Jintao Cheng, Kaiwei Wang, Zhiyong Li 0001, Kailun Yang 0001. 1505-1513 [doi]

ARTS: Semi-Analytical Regressor using Disentangled Skeletal Representations for Human Mesh Recovery from VideosTao Tang, Hong Liu 0008, Yingxuan You, Ti Wang, Wenhao Li. 1514-1523 [doi]

DCAFuse: Dual-Branch Diffusion-CNN Complementary Feature Aggregation Network for Multi-Modality Image FusionXudong Lu, Yuqi Jiang, Haiwen Hong, Qi Sun 0002, Cheng Zhuo. 1524-1533 [doi]

Wave-Mamba: Wavelet State Space Model for Ultra-High-Definition Low-Light Image EnhancementWenbin Zou, Hongxia Gao, Weipeng Yang, Tongtong Liu. 1534-1543 [doi]

HGOE: Hybrid External and Internal Graph Outlier Exposure for Graph Out-of-Distribution DetectionJunwei He 0003, Qianqian Xu, Yangbangyan Jiang, Zitai Wang, YuChen Sun, Qingming Huang. 1544-1553 [doi]

Simple Yet Effective: Structure Guided Pre-trained Transformer for Multi-modal Knowledge Graph ReasoningKe Liang 0006, Lingyuan Meng, Yue Liu 0008, Meng Liu 0014, Wei Wei, Suyuan Liu, Wenxuan Tu, Siwei Wang 0001, Sihang Zhou 0001, Xinwang Liu 0002. 1554-1563 [doi]

2M-AF: A Strong Multi-Modality Framework For Human Action Quality Assessment with Self-supervised Representation LearningYuning Ding, Sifan Zhang, Shenglan Liu, Jinrong Zhang, Wenyue Chen, Haifei Duan, Bingcheng Dong, Tao Sun. 1564-1572 [doi]

Simplifying Cross-modal Interaction via Modality-Shared Features for RGBT TrackingLiqiu Chen, Yuqing Huang, Hengyu Li, Zikun Zhou, Zhenyu He 0001. 1573-1582 [doi]

ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-IdentificationCan Cui, Siteng Huang, Wenxuan Song, Pengxiang Ding, Min Zhang, Donglin Wang. 1583-1592 [doi]

Benchmarking In-the-Wild Multimodal Disease Recognition and A Versatile BaselineTianqi Wei, Zhi Chen 0010, Zi Huang, Xin Yu 0002. 1593-1601 [doi]

Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language ExplainerJiaMing Lei, Lin Li 0065, Chunping Wang, Jun Xiao 0001, Long Chen 0016. 1602-1611 [doi]

Gaussian Mutual Information Maximization for Efficient Graph Self-Supervised Learning: Bridging Contrastive-based to Decorrelation-basedJinyong Wen. 1612-1621 [doi]

Consistency Guided Diffusion Model with Neural Syntax for Perceptual Image CompressionHaowei Kuang, Yiyang Ma, Wenhan Yang, Zongming Guo, Jiaying Liu 0001. 1622-1631 [doi]

Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and NegativesZhangchi Feng, Richong Zhang, Zhijie Nie. 1632-1641 [doi]

Domain-Agnostic Crowd Counting via Uncertainty-Guided Style Diversity AugmentationGuanchen Ding, Lingbo Liu, Zhenzhong Chen, Changwen Chen. 1642-1651 [doi]

MSFNet: Multi-Scale Fusion Network for Brain-Controlled Speaker ExtractionCunhang Fan, Jingjing Zhang, Hongyu Zhang, Wang Xiang, Jianhua Tao 0001, Xinhui Li, Jiangyan Yi, Dianbo Sui, Zhao Lv. 1652-1661 [doi]

Eliminate Before Align: A Remote Sensing Image-Text Retrieval Framework with Keyword Explicit ReasoningZhong Ji, Changxu Meng, Yan Zhang, Haoran Wang, Yanwei Pang, Jungong Han. 1662-1671 [doi]

APP: Adaptive Pose Pooling for 3D Human Pose Estimation from VideosJinyan Zhang, Mengyuan Liu, Hong Liu 0008, Guoquan Wang, Wenhao Li. 1672-1681 [doi]

EAGLE: Egocentric AGgregated Language-video EngineJing Bi, Yunlong Tang 0002, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu. 1682-1691 [doi]

Expanded Convolutional Neural Network Based Look-Up Tables for High Efficient Single-Image Super-ResolutionKai Yin, Jie Shen 0013. 1692-1700 [doi]

Exploring Stable Meta-Optimization Patterns via Differentiable Reinforcement Learning for Few-Shot ClassificationZheng Han, Xiaobin Zhu 0001, Chun Yang, Hongyang Zhou, Jingyan Qin, Xu-Cheng Yin. 1701-1710 [doi]

Unseen No More: Unlocking the Potential of CLIP for Generative Zero-shot HOI DetectionYixin Guo, Yu Liu 0012, Jianghao Li, Weimin Wang 0007, Qi Jia 0001. 1711-1720 [doi]

MetaEnzyme: Meta Pan-Enzyme Learning for Task-Adaptive RedesignJiangbin Zheng, Han Zhang, Qianqing Xu, An-Ping Zeng 0001, Stan Z. Li. 1721-1730 [doi]

DreamLCM: Towards High Quality Text-to-3D Generation via Latent Consistency ModelYiming Zhong, Xiaolin Zhang, Yao Zhao 0001, Yunchao Wei. 1731-1740 [doi]

Trust Prophet or Not? Taking a Further Verification Step toward Accurate Scene Text RecognitionAnna Zhu, Ke Xiao, Bo Zhou, Runmin Wang. 1741-1750 [doi]

Global Patch-wise Attention is Masterful Facilitator for Masked Image ModelingGongli Xi, Ye Tian 0008, Mengyu Yang, Lanshan Zhang, Xirong Que, Wendong Wang. 1751-1760 [doi]

SimCLIP: Refining Image-Text Alignment with Simple Prompts for Zero-/Few-shot Anomaly DetectionChenghao Deng, Haote Xu, Xiaolu Chen, Haodi Xu, Xiaotong Tu, Xinghao Ding, Yue Huang 0001. 1761-1770 [doi]

Diffusion Networks with Task-Specific Noise Control for Radiology Report GenerationYuanhe Tian, Fei Xia, Yan Song 0003. 1771-1780 [doi]

MetaRepair: Learning to Repair Deep Neural Networks from Repairing ExperiencesYun Xing, Qing Guo 0005, Xiaofeng Cao 0002, Ivor W. Tsang, Lei Ma 0003. 1781-1790 [doi]

Mesh Denoising Using Filtering Coefficients Jointly Aware of Noise and GeometryXingtao Wang, Xianqi Zhang, Wenxue Cui, Ruiqin Xiong, Xiaopeng Fan, Debin Zhao. 1791-1799 [doi]

GLoMo: Global-Local Modal Fusion for Multimodal Sentiment AnalysisYan Zhuang, Yanru Zhang, Zheng Hu, Xiaoyue Zhang, Jiawen Deng, Fuji Ren. 1800-1809 [doi]

JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image EnhancementYuhui Wu, Guoqing Wang 0001, Zhiwen Wang, Yang Yang 0002, Tianyu Li, Malu Zhang, Chongyi Li, Heng Tao Shen. 1810-1818 [doi]

Dual-Optimized Adaptive Graph Reconstruction for Multi-View Graph ClusteringZichen Wen, Tianyi Wu, Yazhou Ren 0001, Yawen Ling, Chenhang Cui, Xiaorong Pu, Lifang He 0001. 1819-1828 [doi]

3D Priors-Guided Diffusion for Blind Face RestorationXiaobin Lu, Xiaobin Hu, Jun Luo 0012, Ben Zhu, Yaping Ruan, Wenqi Ren. 1829-1838 [doi]

CoAst: Validation-Free Contribution Assessment for Federated Learning based on Cross-Round ValuationHao Wu 0067, Likun Zhang, Shucheng Li, Fengyuan Xu, Sheng Zhong 0002. 1839-1847 [doi]

Vi2ACT: Video-enhanced Cross-modal Co-learning with Representation Conditional Discriminator for Few-shot Human Activity RecognitionKang Xia, Wenzhong Li, Yimiao Shao, Sanglu Lu. 1848-1856 [doi]

Reference-based Burst Super-resolutionSeonggwan Ko, Yeong Jun Koh, Donghyeon Cho. 1857-1865 [doi]

Poisoning for Debiasing: Fair Recognition via Eliminating Bias Uncovered in Data PoisoningYi Zhang, Zhefeng Wang 0001, Rui Hu, Xinyu Duan, Yi Zheng, Baoxing Huai, Jiarun Han, Jitao Sang. 1866-1874 [doi]

Few-Shot Multimodal Explanation for Visual Question AnsweringDizhan Xue, Shengsheng Qian, Changsheng Xu. 1875-1884 [doi]

3DPCP-Net: A Lightweight Progressive 3D Correspondence Pruning Network for Accurate and Efficient Point Cloud RegistrationJingtao Wang, Zechao Li. 1885-1894 [doi]

Consistencies are All You Need for Semi-supervised Vision-Language TrackingJiawei Ge, Jiuxin Cao, Xuelin Zhu, Xinyu Zhang, Chang Liu, Kun Wang 0021, Bo Liu 0004. 1895-1904 [doi]

FreqMamba: Viewing Mamba from a Frequency Perspective for Image DerainingZhen Zou, Hu Yu, Jie Huang 0017, Feng Zhao 0004. 1905-1914 [doi]

MaskMentor: Unlocking the Potential of Masked Self-Teaching for Missing Modality RGB-D Semantic SegmentationZhida Zhao, Jia Li, Lijun Wang, Yifan Wang 0004, Huchuan Lu. 1915-1923 [doi]

Edit As You Wish: Video Caption Editing with Multi-grained User ControlLinli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Xu Sun 0001, Qin Jin. 1924-1933 [doi]

Dual Advancement of Representation Learning and Clustering for Sparse and Noisy ImagesWenlin Li, Yucheng Xu, Xiaoqing Zheng, Suoya Han, Jun Wang 0018, Xiaobo Sun. 1934-1942 [doi]

PrimKD: Primary Modality Guided Multimodal Fusion for RGB-D Semantic SegmentationZhiwei Hao, Zhongyu Xiao, Yong Luo 0002, Jianyuan Guo, Jing Wang 0055, Li Shen 0008, Han Hu 0003. 1943-1951 [doi]

Neural Interaction Energy for Multi-Agent Trajectory PredictionKaixin Shen, Ruijie Quan, Linchao Zhu, Jun Xiao 0001, Yi Yang 0001. 1952-1960 [doi]

Utilizing Speaker Profiles for Impersonation Audio DetectionHao Gu, Jiangyan Yi, Chenglong Wang, Yong Ren, Jianhua Tao 0001, Xinrui Yan, Yujie Chen, Xiaohui Zhang 0006. 1961-1970 [doi]

ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented BenchmarksZejun Li, Ye Wang, Mengfei Du, Qingwen Liu, Binhao Wu, Jiwen Zhang, Chengxing Zhou, Zhihao Fan, Jie Fu 0001, Jingjing Chen, Zhongyu Wei, Xuanjing Huang 0001. 1971-1980 [doi]

FodFoM: Fake Outlier Data by Foundation Models Creates Stronger Visual Out-of-Distribution DetectorJiankang Chen, Ling Deng, Zhiyong Gan, Wei-Shi Zheng 0001, Ruixuan Wang. 1981-1990 [doi]

Uni-YOLO: Vision-Language Model-Guided YOLO for Robust and Fast Universal Detection in the Open WorldXudong Wang, Weihong Ren, Xi'ai Chen, Huijie Fan, Yandong Tang, Zhi Han. 1991-2000 [doi]

A Lightweight Multi-domain Multi-attention Progressive Network for Single Image DerainingJunliu Zhong, Zhiyi Li, Dan Xiang, Maotang Han, Changsheng Li, Yanfen Gan. 2001-2010 [doi]

Cross-View Consistency Regularisation for Knowledge DistillationWeijia Zhang, Dongnan Liu, Weidong Cai 0001, Chao Ma 0004. 2011-2020 [doi]

Autogenic Language Embedding for Coherent Point TrackingZikai Song, Ying Tang, Run Luo, Lintao Ma, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang 0034. 2021-2030 [doi]

Rethinking the Implicit Optimization Paradigm with Dual Alignments for Referring Remote Sensing Image SegmentationYuwen Pan, Rui Sun 0006, Yuan Wang, Tianzhu Zhang, Yongdong Zhang 0001. 2031-2040 [doi]

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality LocalizationZhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen 0003, Hao Li, Ming Tang 0001, Jinqiao Wang. 2041-2049 [doi]

DenseTrack: Drone-Based Crowd Tracking via Density-Aware Motion-Appearance SynergyYi Lei, Huilin Zhu, Jingling Yuan, Guangli Xiang, Xian Zhong, Shengfeng He. 2050-2058 [doi]

Task-Conditional Adapter for Multi-Task Dense PredictionFengze Jiang, Shuling Wang, Xiaojin Gong. 2059-2068 [doi]

HmPEAR: A Dataset for Human Pose Estimation and Action RecognitionYitai Lin, Zhijie Wei, Wanfa Zhang, Xiping Lin, Yudi Dai, Chenglu Wen, Siqi Shen, Lan Xu, Cheng Wang 0003. 2069-2078 [doi]

AutoGraph: Enabling Visual Context via Graph Alignment in Open Domain Multi-Modal Dialogue GenerationDeji Zhao, Donghong Han, Ye Yuan 0001, Bo Ning 0002, Mengxiang Li, Zhongjiang He, Shuangyong Song. 2079-2088 [doi]

Test-Time Training on Graphs with Large Language Models (LLMs)Jiaxin Zhang 0030, Yiqi Wang 0001, Xihong Yang, Siwei Wang 0001, Yu Feng, Yu Shi, Ruichao Ren, En Zhu, Xinwang Liu 0002. 2089-2098 [doi]

Contrastive Context-Speech Pretraining for Expressive Text-to-Speech SynthesisYujia Xiao, Xi Wang 0016, Xu Tan 0003, Lei He 0005, Xinfa Zhu, Sheng Zhao, Tan Lee 0001. 2099-2107 [doi]

Cross-view Contrastive Unification Guides Generative Pretraining for Molecular Property PredictionJunyu Lin, Yan Zheng, Xinyue Chen, Yazhou Ren 0001, Xiaorong Pu, Jing He 0004. 2108-2116 [doi]

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing ImagesBo Yuan, Danpei Zhao, Zhuoran Liu 0006, Wentao Li, Tian Li. 2117-2126 [doi]

Joint Homophily and Heterophily Relational Knowledge Distillation for Efficient and Compact 3D Object DetectionShidi Chen, Lili Wei, Liqian Liang, Congyan Lang. 2127-2135 [doi]

Cascaded Adversarial Attack: Simultaneously Fooling Rain Removal and Semantic Segmentation NetworksZhiwen Wang, Yuhui Wu, Zheng Wang 0044, Jiwei Wei, Tianyu Li, Guoqing Wang 0001, Yang Yang 0002, Hengtao Shen. 2136-2145 [doi]

Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image ClassificationJiexuan Yan, Sheng Huang 0001, Nankun Mu, Luwen Huangfu, Bo Liu 0005. 2146-2155 [doi]

3D Question Answering for City Scene UnderstandingPenglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang 0022, Tiefeng Li, Yang Yang 0002, Xiaowen Chu 0001. 2156-2165 [doi]

Dual-Branch Fusion with Style Modulation for Cross-Domain Few-Shot Semantic SegmentationQiuyu Kong, Jiangming Chen, Jie Jiang 0017, Zanxi Ruan, Lai Kang. 2166-2174 [doi]

MDR: Multi-stage Decoupled Relational Knowledge Distillation with Adaptive Stage SelectionJiaqi Wang 0009, Lu Lu, Mingmin Chi, Jian Chen. 2175-2183 [doi]

Report-Concept Textual-Prompt Learning for Enhancing X-ray DiagnosisXiongjun Zhao, Zhengyu Liu, Fen Liu, Guanting Li, Yutao Dou, Shaoliang Peng. 2184-2193 [doi]

FacialFlowNet: Advancing Facial Optical Flow Estimation with a Diverse Dataset and a Decomposed ModelJianzhi Lu, Ruian He, Shili Zhou, Weimin Tan, Bo Yan 0001. 2194-2203 [doi]

REmoNet: Reducing Emotional Label Noise via Multi-regularized Self-supervisionWei-Bang Jiang, Yu-Ting Lan, Bao-Liang Lu. 2204-2213 [doi]

NFT1000: A Cross-Modal Dataset For Non-Fungible Token RetrievalShuxun Wang, Yunfei Lei, Ziqi Zhang, Wei Liu, Haowei Liu, Li Yang, Bing Li, Wenjuan Li, Jin Gao, Weiming Hu. 2214-2222 [doi]

Sample Efficiency Matters: Training Multimodal Conversational Recommendation Systems in a Small Data SettingHaoyang Su, Wenzhe Du, Xiaoliang Wang 0001, Cam-Tu Nguyen. 2223-2232 [doi]

ECFCON: Emotion Consequence Forecasting in ConversationsXincheng Ju, Dong Zhang, Suyang Zhu, Junhui Li, Shoushan Li, Guodong Zhou. 2233-2241 [doi]

Robust Pseudo-label Learning with Neighbor Relation for Unsupervised Visible-Infrared Person Re-IdentificationXiangbo Yin, Jiangming Shi, Yachao Zhang 0001, Yang Lu 0009, Zhizhong Zhang 0001, Yuan Xie 0006, Yanyun Qu. 2242-2251 [doi]

Disentangling Identity Features from Interference Factors for Cloth-Changing Person Re-identificationYubo Li, De Cheng, Chaowei Fang, Changzhe Jiao, Nannan Wang 0001, Xinbo Gao 0001. 2252-2261 [doi]

Harmfully Manipulated Images Matter in Multimodal Misinformation DetectionBing Wang, Shengsheng Wang 0001, Changchun Li, Renchu Guan, Ximing Li 0002. 2262-2271 [doi]

Correlation-Driven Multi-Modality Graph Decomposition for Cross-Subject Emotion RecognitionWuliang Huang, Yiqiang Chen, Xinlong Jiang, Chenlong Gao, Qian Chen, Teng Zhang, Bingjie Yan, Yifan Wang, Jianrong Yang. 2272-2281 [doi]

WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World KnowledgeWenbin Wang, Liang Ding 0006, Li Shen 0008, Yong Luo 0002, Han Hu 0003, Dacheng Tao. 2282-2291 [doi]

Aspects are Anchors: Towards Multimodal Aspect-based Sentiment Analysis via Aspect-driven Alignment and RefinementZhanpeng Chen, Zhihong Zhu, Wanshi Xu, Yunyan Zhang, Xian Wu 0001, Yefeng Zheng 0001. 2292-2300 [doi]

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERsHaodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao. 2301-2310 [doi]

SimCEN: Simple Contrast-enhanced Network for CTR PredictionHonghao Li, Lei Sang, Yi Zhang 0103, Yiwen Zhang 0001. 2311-2320 [doi]

MGR-Dark: A Large Multimodal Video Dataset and RGB-IR Benchmark for Gesture Recognition in DarknessYuanyuan Shi, Yunan Li, Siyu Liang, Huizhou Chen, Qiguang Miao. 2321-2330 [doi]

Prototypical Prompting for Text-to-image Person Re-identificationShuanglin Yan, Jun Liu 0036, Neng Dong, Liyan Zhang 0002, Jinhui Tang 0001. 2331-2340 [doi]

Unifying Spike Perception and Prediction: A Compact Spike Representation Model Using Multi-scale CorrelationKexiang Feng, Chuanmin Jia, Siwei Ma, Wen Gao 0001. 2341-2349 [doi]

Overcoming the Pitfalls of Vision-Language Model for Image-Text RetrievalFeifei Zhang, Sijia Qu, Fan Shi, Changsheng Xu. 2350-2359 [doi]

AL-GTD: Deep Active Learning for Gaze Target DetectionFrancesco Tonini, Nicola Dall'Asen, Lorenzo Vaquero, Cigdem Beyan, Elisa Ricci 0001. 2360-2369 [doi]

AVHash: Joint Audio-Visual Hashing for Video RetrievalYuxiang Zhou, Zhe Sun, Rui Liu 0007, Yong Chen 0008, Dell Zhang. 2370-2378 [doi]

DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval GuidelinesXin Jiang, Hao Tang 0007, Rui Yan 0001, Jinhui Tang 0001, Zechao Li. 2379-2388 [doi]

Multi-Modal Inductive Framework for Text-Video RetrievalQian Li, Yucheng Zhou, Cheng Ji, Feihong Lu, Jianian Gong, Shangguang Wang, Jianxin Li 0002. 2389-2398 [doi]

Attribute-Driven Multimodal Hierarchical Prompts for Image Aesthetic Quality AssessmentHancheng Zhu, Ju Shi, Zhiwen Shao, Rui Yao, Yong Zhou 0003, Jiaqi Zhao 0001, Leida Li. 2399-2408 [doi]

Asymmetric Event-Guided Video Super-ResolutionZeyu Xiao, Dachun Kai, Yueyi Zhang, Xiaoyan Sun 0001, Zhiwei Xiong. 2409-2418 [doi]

Model-Based Non-Independent Distortion Cost Design for Effective JPEG SteganographyYuanfeng Pan, Wenkang Su, Jiangqun Ni, Qingliang Liu 0001, Yulin Zhang, Donghua Jiang 0001. 2419-2427 [doi]

MMAL: Multi-Modal Analytic Learning for Exemplar-Free Audio-Visual Class Incremental TasksXianghu Yue, Xueyi Zhang, Yiming Chen, Chengwei Zhang, Mingrui Lao, Huiping Zhuang, Xinyuan Qian, Haizhou Li 0001. 2428-2437 [doi]

Sampling to Distill: Knowledge Transfer from Open-World DataYuzheng Wang, Zhaoyu Chen, Jie Zhang, Dingkang Yang, Zuhao Ge, Yang Liu 0246, Siao Liu, Yunquan Sun, Wenqiang Zhang, Lizhe Qi. 2438-2447 [doi]

Multiple Kernel Clustering with Shifted Laplacian on Grassmann ManifoldXi Wu, Chuang Huang, Xinliu Liu, Fei Zhou, Zhenwen Ren. 2448-2456 [doi]

GLATrack: Global and Local Awareness for Open-Vocabulary Multiple Object TrackingGuangyao Li, Yajun Jian, Yan Yan 0001, Hanzi Wang. 2457-2466 [doi]

Addressing Imbalance for Class Incremental Learning in Medical Image ClassificationXuze Hao, Wenqian Ni, Xuhao Jiang, Weimin Tan, Bo Yan 0001. 2467-2476 [doi]

Progressive Prototype Evolving for Dual-Forgetting Mitigation in Non-Exemplar Online Continual LearningQiwei Li, Yuxin Peng, Jiahuan Zhou. 2477-2486 [doi]

Rethinking Impersonation and Dodging Attacks on Face Recognition SystemsFengfan Zhou, Qianyu Zhou 0001, Bangjie Yin, Hui Zheng, Xuequan Lu, Lizhuang Ma, Hefei Ling. 2487-2496 [doi]

SDePR: Fine-Grained Leaf Image Retrieval with Structural Deep Patch RepresentationXin Chen, Bin Wang 0041, Jinzheng Jiang, Kunkun Zhang, Yongsheng Gao 0001. 2497-2505 [doi]

Semantic-aware Representation Learning for Homography EstimationYuhan Liu, Qianxin Huang, Siqi Hui, Jingwen Fu, Sanping Zhou, Kangyi Wu, Pengna Li, Jinjun Wang. 2506-2514 [doi]

2-CSNet: Scale-Aware Scalable Sampling Network for Image Compressive SensingChen hui, Haiqi Zhu, Shuya Yan, Shaohui Liu, Feng Jiang 0001, Debin Zhao. 2515-2524 [doi]

Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text RetrievalGangyan Zeng, Yuan Zhang 0013, Jin Wei, Dongbao Yang, Peng Zhang 0044, Yiwen Gao 0001, Xugong Qin, Yu Zhou 0015. 2525-2534 [doi]

Towards Efficient and Diverse Generative Model for Unconditional Human Motion SynthesisHua Yu 0006, Weiming Liu 0005, Jiapeng Bai, Xu Gui, Yaqing Hou, Yew-Soon Ong, Qiang Zhang 0008. 2535-2544 [doi]

Towards Labeling-free Fine-grained Animal Pose EstimationDan Zeng 0002, Yu Zhu, Shuiwang Li, Qijun Zhao, Qiaomu Shen, Bo Tang 0016. 2545-2553 [doi]

"Special Relativity" of Image Aesthetics Assessment: a Preliminary Empirical PerspectiveRui Xie, Anlong Ming, Shuai He, Yi Xiao, Huadong Ma. 2554-2563 [doi]

Exploring Data Efficiency in Image Restoration: A Gaussian Denoising Case StudyZhengwei Yin, Mingze Ma, Guixu Lin, Yinqiang Zheng. 2564-2573 [doi]

MFRGN: Multi-scale Feature Representation Generalization Network for Ground-to-Aerial Geo-localizationYuntao Wang, Jinpu Zhang, Ruonan Wei, Wenbo Gao, Yuehuan Wang. 2574-2583 [doi]

QS-NeRV: Real-Time Quality-Scalable Decoding with Neural Representation for VideosChang Wu, Guancheng Quan, Gang He 0002, Xin-Quan Lai, Yunsong Li, Wenxin Yu, Xianmeng Lin, Cheng Yang. 2584-2592 [doi]

Shape-Guided Clothing Warping for Virtual Try-OnXiaoyu Han, Shunyuan Zheng, Zonglin Li, Chenyang Wang, Xin Sun, Quanling Meng. 2593-2602 [doi]

ScaleTraversal: Creating Multi-Scale Biomedical Animation with Limited Hardware ResourcesRichen Liu, Hansheng Wang, Hailong Wang, Siru Chen, Chufan Lai, Ayush Kumar 0004, Siming Chen 0001. 2603-2612 [doi]

Spatio-temporal Heterogeneous Federated Learning for Time Series Classification with Multi-view Orthogonal TrainingChenrui Wu, Haishuai Wang, Xiang Zhang 0012, Zhen Fang 0001, Jiajun Bu. 2613-2622 [doi]

Group Vision TransformerYaopeng Peng, Milan Sonka, Danny Z. Chen. 2623-2631 [doi]

Semantics-Aware Image Aesthetics Assessment using Tag Matching and Contrastive RankingZhichao Yang 0013, Leida Li, Pengfei Chen 0003, Jinjian Wu, Weisheng Dong. 2632-2641 [doi]

Prompting Continual Person SearchPengcheng Zhang, Xiaohan Yu 0001, Xiao Bai 0001, Jin Zheng, Xin-ning. 2642-2651 [doi]

MaskBEV: Towards A Unified Framework for BEV Detection and Map SegmentationXiao Zhao, Xukun Zhang, Dingkang Yang, Mingyang Sun, Mingcheng Li, Shunli Wang 0001, Lihua Zhang. 2652-2661 [doi]

SCPSN: Spectral Clustering-based Pyramid Super-resolution Network for Hyperspectral ImagesYong Yang 0001, Aoqi Zhao, Shuying Huang, Xiaozheng Wang, Yajing Fan. 2662-2670 [doi]

Learning A Low-Level Vision Generalist via Visual Task PromptXiangyu Chen 0006, Yihao Liu 0001, Yuandong Pu, Wenlong Zhang, Jiantao Zhou 0001, Yu Qiao 0001, Chao Dong 0005. 2671-2680 [doi]

Alleviating the Equilibrium Challenge with Sample Virtual Labeling for Adversarial Domain AdaptationWenxu Shi, Bochuan Zheng. 2681-2689 [doi]

The Room: Design and Embodiment of Spaces as Social BeingsFederico Espositi, Andrea Bonarini. 2690-2699 [doi]

A Coarse to Fine Detection Method for Prohibited Object in X-ray Images Based on Progressive Transformer DecoderChunjie Ma, Lina Du, Zan Gao, Li Zhuo 0001, Meng Wang 0001. 2700-2708 [doi]

QPT-V2: Masked Image Modeling Advances Visual ScoringQizhi Xie, Kun Yuan, Yunpeng Qu, Mingda Wu, Ming Sun 0008, Chao Zhou 0003, Jihong Zhu 0001. 2709-2718 [doi]

Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and Multi-Source SupervisionShengguang Wu, Zhenglun Chen, Qi Su 0001. 2719-2728 [doi]

CP-Prompt: Composition-Based Cross-modal Prompting for Domain-Incremental Continual LearningYu Feng, Zhen Tian, Yifan Zhu, Zongfu Han, Haoran Luo, Guangwei Zhang, Meina Song. 2729-2738 [doi]

DepthCloak: Projecting Optical Camouflage Patches for Erroneous Monocular Depth Estimation of VehiclesHuixiang Wen, Shizong Yan, Shan Chang, Jie Xu, Hongzi Zhu, Yanting Zhang 0001, Bo Li 0001. 2739-2747 [doi]

RSC-SNN: Exploring the Trade-off Between Adversarial Robustness and Accuracy in Spiking Neural Networks via Randomized Smoothing CodingKeming Wu, Man Yao, Yuhong Chou, Xuerui Qiu, Rui Yang, Bo Xu 0002, Guoqi Li. 2748-2756 [doi]

From Covert Hiding To Visual Editing: Robust Generative Video SteganographyXueying Mao, Xiaoxiao Hu, Wanli Peng, Zhenliang Gan, Zhenxing Qian, Xinpeng Zhang 0001, Sheng Li 0006. 2757-2765 [doi]

Rainmer: Learning Multi-view Representations for Comprehensive Image Deraining and BeyondWu Ran, Peirong Ma, Zhiquan He, Hong Lu 0001. 2766-2775 [doi]

MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language ModelsHaoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang 0002, Tat-Seng Chua. 2776-2785 [doi]

CDEA: Context- and Detail-Enhanced Unsupervised Learning for Domain Adaptive Semantic SegmentationShuyuan Wen, Bingrui Hu, Wenchao Li. 2786-2794 [doi]

Agent Aggregator with Mask Denoise Mechanism for Histopathology Whole Slide Image AnalysisXitong Ling, Minxi Ouyang, Yizhi Wang, Xinrui Chen, Renao Yan, Hongbo Chu, Junru Cheng, Tian Guan, Sufang Tian, Xiaoping Liu, Yonghong He. 2795-2803 [doi]

An End-to-End Real-World Camera Imaging PipelineKepeng Xu, Zijia Ma, Li Xu 0008, Gang He 0002, Yunsong Li, Wenxin Yu, Taichu Han, Cheng Yang. 2804-2813 [doi]

ShiftMorph: A Fast and Robust Convolutional Neural Network for 3D Deformable Medical Image RegistrationLijian Yang, Weisheng Li 0001, Yucheng Shu, Jian-Xun Mi, Yuping Huang, Bin Xiao 0002. 2814-2823 [doi]

Edge-assisted Real-time Dynamic 3D Point Cloud Rendering for Multi-party Mobile Virtual RealityXiming Wu, Kongyange Zhao, Xu Chen 0004, Teng Liang. 2824-2832 [doi]

Adaptive Vision Transformer for Event-Based Human Pose EstimationNannan Yu, Tao Ma, Jiqing Zhang, Yuji Zhang, Qirui Bao, Xiaopeng Wei, Xin Yang. 2833-2841 [doi]

Mitigating Social Hazards: Early Detection of Fake News via Diffusion-Guided Propagation Path GenerationLitian Zhang, Xiaoming Zhang 0001, Chaozhuo Li 0001, Ziyi Zhou, Jiacheng Liu, Feiran Huang, Xi Zhang 0008. 2842-2851 [doi]

LD-BFR: Vector-Quantization-Based Face Restoration Model with Latent Diffusion EnhancementYuzhen Du, Teng Hu, Ran Yi, Lizhuang Ma. 2852-2860 [doi]

Label Decoupling and Reconstruction: A Two-Stage Training Framework for Long-tailed Multi-label Medical Image RecognitionJie Huang, Zhao-Min Chen, Xiaoqin Zhang 0002, Yisu Ge, Lusi Ye, Guodao Zhang, Huiling Chen 0001. 2861-2869 [doi]

Seeing Text in the Dark: Algorithm and BenchmarkChengpei Xu, Hao Fu, Long Ma 0002, Wenjing Jia, Chengqi Zhang, Feng Xia 0001, Xiaoyu Ai, Binghao Li, Wenjie Zhang 0001. 2870-2878 [doi]

Time-Frequency Domain Fusion Enhancement for Audio Super-ResolutionYe Tian 0027, Zhe Wang, Jianguo Sun, Liguo Zhang. 2879-2887 [doi]

Prior-free Balanced Replay: Uncertainty-guided Reservoir Sampling for Long-Tailed Continual LearningLei Liu, Li Liu, Yawen Cui. 2888-2897 [doi]

A Chinese Multimodal Social Video Dataset for Controversy DetectionTianjiao Xu, Aoxuan Chen, Yuxi Zhao, Jinfei Gao, Tian Gan. 2898-2907 [doi]

A Principled Approach to Natural Language WatermarkingZhe Ji, Qiansiqi Hu, Yicheng Zheng, Liyao Xiang, Xinbing Wang. 2908-2916 [doi]

PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video PredictionHao Wu, Fan Xu, Chong Chen 0002, Xian-Sheng Hua 0001, Xiao Luo 0001, Haixin Wang 0003. 2917-2926 [doi]

QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied ContextsJiawei Yao, Yingxin Lai, Hongrui Kou, Tong Wu, Ruixi Liu. 2927-2935 [doi]

CompGS: Efficient 3D Scene Representation via Compressed Gaussian SplattingXiangrui Liu, Xinju Wu, Pingping Zhang, Shiqi Wang 0001, Zhu Li 0001, Sam Kwong. 2936-2944 [doi]

Ego3DT: Tracking Every 3D Object in Ego-centric VideosShengyu Hao, Wenhao Chai, Zhonghan Zhao, Meiqi Sun, Wendi Hu, Jieyang Zhou, Yixian Zhao, Qi Li, Yizhou Wang 0005, Xi Li, Gaoang Wang. 2945-2954 [doi]

FedBCGD: Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated LearningJunkang Liu, Fanhua Shang, Yuanyuan Liu 0001, Hongying Liu, Yuangang Li, Yunxiang Gong. 2955-2963 [doi]

Serial Section Microscopy Image Inpainting Guided by Axial Optical FlowYiran Cheng, Bintao He, Fa Zhang 0001, Renmin Han. 2964-2972 [doi]

DERO: Diffusion-Model-Erasure Robust WatermarkingHan Fang, Kejiang Chen, Yupeng Qiu, Zehua Ma, Weiming Zhang 0001, Ee-Chien Chang. 2973-2981 [doi]

rPPG-HiBa: Hierarchical Balanced Framework for Remote Physiological MeasurementYin Wang 0004, Hao Lu 0009, Ying-Cong Chen, Li Kuang, MengChu Zhou, ShuiGuang Deng. 2982-2991 [doi]

Multi-scale Change-Aware Transformer for Remote Sensing Image Change DetectionHuan Chen, Tingfa Xu, Zhenxiang Chen, Peifu Liu, Huiyan Bai, Jianan Li 0001. 2992-3000 [doi]

LDStega: Practical and Robust Generative Image Steganography based on Latent Diffusion ModelsYinyin Peng, Yaofei Wang, Donghui Hu, Kejiang Chen, Xianjin Rong, Weiming Zhang 0001. 3001-3009 [doi]

HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image CompressionLei Lu, Yanyue Xie, Wei Jiang, Wei Wang, Xue Lin, Yanzhi Wang. 3010-3018 [doi]

3LAM: Gaussian Semantic Splatting SLAMLinfei Li, Lin Zhang 0014, Zhong Wang 0009, Ying Shen 0005. 3019-3027 [doi]

Live on the Hump: Self Knowledge Distillation via Virtual Teacher-Students Mutual LearningShuang Wang, Pengyi Hao, Fuli Wu, Cong Bai. 3028-3036 [doi]

Calibration for Long-tailed Scene Graph GenerationXuhan Zhu, Yifei Xing, Ruiping Wang 0001, Yaowei Wang 0001, Xiangyuan Lan. 3037-3046 [doi]

VisHanfu: An Interactive System for the Promotion of Hanfu Knowledge via Cross-Shaped Flat StructureMinjing Yu, Lingzhi Zeng, Xinxin Du, Jenny Sheng, Qiantian Liao, Yong-Jin Liu 0001. 3047-3055 [doi]

CBNet: Cooperation-Based Weakly Supervised Polyp DetectionXiuquan Du, Jiajia Chen, Xuejun Zhang. 3056-3064 [doi]

Unraveling Motion Uncertainty for Local Motion DeblurringZeyu Xiao, Zhihe Lu, Michael Bi Mi, Zhiwei Xiong, Xinchao Wang. 3065-3074 [doi]

Tangram-Splatting: Optimizing 3D Gaussian Splatting Through Tangram-inspired Shape PriorsYi Wang, Ningze Zhong, Minglin Chen, Longguang Wang, Yulan Guo. 3075-3083 [doi]

Deconfounded Emotion Guidance Sticker Selection with Causal InferenceJiali Chen, Yi Cai 0001, Ruohang Xu, Jiexin Wang, Jiayuan Xie, Qing Li 0001. 3084-3093 [doi]

Compacter: A Lightweight Transformer for Image RestorationZhijian Wu, Jun Li 0033, Yang Hu, Dingjiang Huang. 3094-3103 [doi]

PriFU: Capturing Task-Relevant Information Without Adversarial LearningXiuli Bi, Yang Hu, Bo Liu 0047, Weisheng Li 0001, Pamela C. Cosman, Bin Xiao 0002. 3104-3112 [doi]

Connectivity-based Cerebrovascular Segmentation in Time-of-Flight Magnetic Resonance AngiographyZan Chen, Xiao Yu, Yuanjing Feng. 3113-3121 [doi]

Efficiency in Focus: LayerNorm as a Catalyst for Fine-tuning Medical Visual Language ModelsJiawei Chen 0012, Dingkang Yang, Yue Jiang, Mingcheng Li, Jinjie Wei, Xiaolu Hou, Lihua Zhang. 3122-3130 [doi]

SymAttack: Symmetry-aware Imperceptible Adversarial Attacks on 3D Point CloudsKeke Tang, Zhensu Wang, Weilong Peng, Lujie Huang, Le Wang 0008, Peican Zhu, Wenping Wang, Zhihong Tian. 3131-3140 [doi]

High Fidelity Aggregated Planar Prior Assisted PatchMatch Multi-View StereoJie Liang, Rongjie Wang, Rui Peng, Zhe Zhang, Kaiqiang Xiong, Ronggang Wang. 3141-3150 [doi]

Remembering is Not Applying: Interpretable Knowledge Tracing for Problem-solving ProcessesTao Huang 0017, Xinjia Ou, Huali Yang, Shengze Hu, Jing Geng, Junjie Hu, Zhuoran Xu. 3151-3159 [doi]

TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided OptimizationKien T. Pham, Jingye Chen, Qifeng Chen. 3160-3169 [doi]

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local EditingLingyu Xiong, Xize Cheng, Jintao Tan, Xianjia Wu, Xiandong Li, Lei Zhu, Fei Ma, Minglei Li 0001, Huang Xu, Zhihui Hu. 3170-3179 [doi]

InstantAS: Minimum Coverage Sampling for Arbitrary-Size Image GenerationChangshuo Wang 0003, Mingzhe Yu, Lei Wu 0002, Lei Meng, Xiang Li, Xiangxu Meng. 3180-3188 [doi]

SSL: A Self-similarity Loss for Improving Generative Image Super-resolutionDu Chen, Zhengqiang Zhang, Jie Liang 0007, Lei Zhang 0006. 3189-3198 [doi]

Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in VideosZhengze Xu, Mengting Chen, Zhao Wang, Linyu Xing, Zhonghua Zhai, Nong Sang, Jinsong Lan, Shuai Xiao, Changxin Gao. 3199-3208 [doi]

Multi-view X-ray Image Synthesis with Multiple Domain Disentanglement from CT ScansLixing Tan, Shuang Song 0005, Kangneng Zhou, Chengbo Duan, Lanying Wang, Huayang Ren, Linlin Liu, Wei Zhang, Ruoxiu Xiao. 3209-3218 [doi]

Can We Debias Multimodal Large Language Models via Model Editing?Zecheng Wang, Xinye Li, Zhanyue Qin, Chunshan Li, Zhiying Tu, Dianhui Chu, Dianbo Sui. 3219-3228 [doi]

ExpressiveSinger: Multilingual and Multi-Style Score-based Singing Voice Synthesis with Expressive Performance ControlShuqi Dai, Ming-Yu Liu 0001, Rafael Valle, Siddharth Gururani. 3229-3238 [doi]

DIG: Complex Layout Document Image Generation with Authentic-looking Text for Enhancing Layout AnalysisDehao Ying, Fengchang Yu, Haihua Chen 0002, Wei Lu 0019. 3239-3247 [doi]

Cons2Plan: Vector Floorplan Generation from Various Conditions via a Learning Framework based on Conditional Diffusion ModelsShibo Hong, Xuhong Zhang 0002, Tianyu Du, Sheng Cheng, Xun Wang, Jianwei Yin. 3248-3256 [doi]

Towards Small Object Editing: A Benchmark Dataset and A Training-Free ApproachQihe Pan, Zhen Zhao 0001, ZiCheng Wang, Sifan Long, Yiming Wu 0005, Wei Ji 0008, Haoran Liang, Ronghua Liang. 3257-3265 [doi]

MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture GenerationXiaofeng Mao, Zhengkai Jiang 0001, Qilin Wang, Chencan Fu, Jiangning Zhang, Jiafu Wu, Yabiao Wang, Chengjie Wang, Wei Li 0190, Mingmin Chi. 3266-3274 [doi]

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image InpaintingJihoon Lee, Yunhong Min, Hwidong Kim, Sangtae Ahn. 3275-3283 [doi]

Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object DetectorBoyong He, Yuxiang Ji, Zhuoyue Tan, Liaoni Wu. 3284-3293 [doi]

GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio SynthesisWeizhi Liu, Yue Li, Dongdong Lin, Hui Tian 0002, Haizhou Li 0001. 3294-3302 [doi]

Miko: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense DiscoveryFeihong Lu, Weiqi Wang 0001, Yangyifei Luo, Ziqin Zhu, Qingyun Sun, Baixuan Xu, Haochen Shi, Shiqi Gao, Qian Li, Yangqiu Song, Jianxin Li 0002. 3303-3312 [doi]

PROMOTE: Prior-Guided Diffusion Model with Global-Local Contrastive Learning for Exemplar-Based Image TranslationGuojin Zhong, Yihu Guo, Jin Yuan, Qianjun Zhang, Weili Guan, Long Chen 0016. 3313-3322 [doi]

ANFluid: Animate Natural Fluid Photos base on Physics-Aware Simulation and Dual-Flow Texture LearningXiangcheng Zhai, Yingqi Jie, Xueguang Xie, Aimin Hao, Na Jiang, Yang Gao 0032. 3323-3331 [doi]

Zero-Shot Controllable Image-to-Video Animation via Motion DecompositionShoubin Yu, Jacob Zhiyuan Fang, Jian Zheng, Gunnar A. Sigurdsson, Vicente Ordonez, Robinson Piramuthu, Mohit Bansal. 3332-3341 [doi]

LoMOE: Localized Multi-Object Editing via Multi-DiffusionGoirik Chakrabarty, Aditya Chandrasekar, Ramya Hebbalaguppe, Prathosh AP. 3342-3351 [doi]

XMeCap: Meme Caption Generation with Sub-Image AdaptabilityYuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao. 3352-3361 [doi]

ImageBind3D: Image as Binding Step for Controllable 3D GenerationZhenqiang Li, Jie Li 0002, Yangjie Cao, Jiayi Wang, Runfeng Lv. 3362-3371 [doi]

Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive MannerPengxiang Cai, Zhiwei Liu, Guibo Zhu, Yunfang Niu, Jinqiao Wang. 3372-3380 [doi]

PD-Refiner: An Underlying Surface Inheritance Refiner with Adaptive Edge-Aware Supervision for Point Cloud DenoisingChengwei Zhang, Xueyi Zhang, Xianghu Yue, Mingrui Lao, Tao Jiang, Jiawei Wang, Fubo Zhang, Longyong Chen. 3381-3390 [doi]

Mitigating Social Biases in Text-to-Image Diffusion Models via Linguistic-Aligned Attention GuidanceYue Jiang, Yueming Lyu, Ziwen He, Bo Peng 0002, Jing Dong 0003. 3391-3400 [doi]

Edit3D: Elevating 3D Scene Editing with Attention-Driven Multi-Turn InteractivityPeng Zhou 0010, Dunbo Cai, Yujian Du, Runqing Zhang, Bingbing Ni, Jie Qin, Ling Qian. 3401-3410 [doi]

FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion ModelZiyu Yao 0001, Xuxin Cheng, Zhiqi Huang. 3411-3420 [doi]

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion ModelsXiaomin Li, Xu Jia, Qinghe Wang, Haiwen Diao, Mengmeng Ge, Pengxiang Li, You He, Huchuan Lu. 3421-3430 [doi]

Reversing Structural Pattern Learning with Biologically Inspired Knowledge Distillation for Spiking Neural NetworksQi Xu, Yaxin Li, Xuanye Fang, Jiangrong Shen, Qiang Zhang 0008, Gang Pan 0001. 3431-3439 [doi]

Learning to Transfer Heterogeneous Translucent Materials from a 2D Image to 3D ModelsXiaogang Wang 0001, Yuhang Cheng, Ziyang Fan, Kai Xu 0004. 3440-3448 [doi]

Frame Interpolation with Consecutive Brownian Bridge DiffusionZonglin Lyu, Ming Li 0010, Jianbo Jiao, Chen Chen 0001. 3449-3458 [doi]

COMD: Training-free Video Motion Transfer With Camera-Object Motion DisentanglementTeng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Jieyu Weng, Hongrui Huang, Yabiao Wang, Lizhuang Ma. 3459-3468 [doi]

4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One ModelYihao Liu, Feng Xue, Anlong Ming, Mingshuai Zhao, Huadong Ma, Nicu Sebe. 3469-3478 [doi]

TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge DeploymentQinfeng Li, Zhiqiang Shen, Zhenghan Qin, Yangfan Xie, Xuhong Zhang 0002, Tianyu Du, Sheng Cheng, Xun Wang, Jianwei Yin. 3479-3488 [doi]

Semantic Alignment for Multimodal Large Language ModelsTao Wu, Mengze Li 0001, Jingyuan Chen, Wei Ji 0008, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu 0001. 3489-3498 [doi]

A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation ModelsWenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan 0001. 3499-3508 [doi]

ZePo: Zero-Shot Portrait Stylization with Faster SamplingJin Liu, Huaibo Huang, Jie Cao 0002, Ran He 0001. 3509-3518 [doi]

Control-Talker: A Rapid-Customization Talking Head Generation Method for Multi-Condition Control and High-Texture EnhancementYiding Li, Lingyun Yu 0002, Li Wang, Hongtao Xie. 3519-3527 [doi]

Boosting Non-causal Semantic Elimination: An Unconventional Harnessing of LVM for Open-World Deepfake InterpretationZhaoyang Li, Zhu Teng, Baopeng Zhang, Jianping Fan 0007. 3528-3537 [doi]

Rethinking Image Editing Detection in the Era of Generative AI RevolutionZhihao Sun, Haipeng Fang, Juan Cao 0001, Xinying Zhao, Danding Wang. 3538-3547 [doi]

GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian SplattingHongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang 0007, Zhiwen Chen 0002, Shengyu Zhang 0001, Jimin Xu, Fei Wu 0001, Chengfei Lv, Gang Yu. 3548-3557 [doi]

Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value OptimizationXingqi Wang, Xiaoyuan Yi, Xing Xie 0001, Jia Jia 0001. 3558-3567 [doi]

Infusion: Preventing Customized Text-to-Image Diffusion from OverfittingWeili Zeng, Yichao Yan, Qi Zhu, Zhuo Chen, Pengzhi Chu, Weiming Zhao, Xiaokang Yang. 3568-3577 [doi]

Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak PromptsYi Liu 0057, Chengjun Cai, Xiaoli Zhang 0003, Xingliang Yuan, Cong Wang 0001. 3578-3586 [doi]

Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based CustomizationYisu Liu, Jinyang An, Wanqian Zhang, Dayan Wu, Jingzi Gu, Zheng Lin 0001, Weiping Wang 0005. 3587-3596 [doi]

View-consistent Object Removal in Radiance FieldsYiren Lu 0002, Jing Ma 0002, Yu Yin 0001. 3597-3606 [doi]

DGMamba: Domain Generalization via Generalized State Space ModelShaocong Long, Qianyu Zhou 0001, Xiangtai Li, Xuequan Lu, Chenhao Ying, Yuan Luo 0003, Lizhuang Ma, Shuicheng Yan. 3607-3616 [doi]

Sketch3D: Style-Consistent Guidance for Sketch-to-3D GenerationWangguandong Zheng, Haifeng Xia, Rui Chen, Libo Sun, Ming Shao, Siyu Xia, Zhengming Ding. 3617-3626 [doi]

StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion ModelZiyin Zhou, Ke Sun, Zhongxi Chen, Huafeng Kuang, Xiaoshuai Sun, Rongrong Ji. 3627-3636 [doi]

DisenStudio: Customized Multi-Subject Text-to-Video Generation with Disentangled Spatial ControlHong Chen, Xin Wang 0019, Yipeng Zhang 0003, Yuwei Zhou, Zeyang Zhang, Siao Tang, Wenwu Zhu 0001. 3637-3646 [doi]

CFDiffusion: Controllable Foreground Relighting in Image Compositing via Diffusion ModelZiqi Yu, Jing Zhou, Zhongyun Bao, Gang Fu, Weilei He, Chao Liang, Chunxia Xiao. 3647-3656 [doi]

EvilEdit: Backdooring Text-to-Image Diffusion Models in One SecondHao Wang 0003, Shangwei Guo, Jialing He, Kangjie Chen, Shudong Zhang, Tianwei Zhang 0004, Tao Xiang 0001. 3657-3665 [doi]

In Situ 3D Scene Synthesis for Ubiquitous Embodied InterfacesHaiyan Jiang, Leiyu Song, Dongdong Weng, Zhe Sun, Huiying Li, Xiaonuo Dongye, Zhenliang Zhang. 3666-3675 [doi]

T2I-Scorer: Quantitative Evaluation on Text-to-Image Generation via Fine-Tuned Large Multi-Modal ModelsHaoning Wu 0001, Xiele Wu, Chunyi Li, Zicheng Zhang, Chaofeng Chen, Xiaohong Liu 0001, Guangtao Zhai, Weisi Lin. 3676-3685 [doi]

Masked Random Noise for Communication-Efficient Federated LearningShiwei Li, Yingyi Cheng, Haozhao Wang, Xing Tang 0007, Shijie Xu, Weihong Luo, Yuhua Li 0003, Dugang Liu, Xiuqiang He 0001, Ruixuan Li 0001. 3686-3694 [doi]

Task-Oriented Multi-Bitstream Optimization for Image Compression and Transmission via Optimal TransportSa Yan, Nuowen Kan, Chenglin Li, Wenrui Dai, Junni Zou, Hongkai Xiong. 3695-3703 [doi]

Minerva: Enhancing Quantum Network Performance for High-Fidelity Multimedia TransmissionTingting Li, Ziming Zhao 0008, Jianwei Yin. 3704-3712 [doi]

Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual PerceptionXiaotong Yu, Chang Wen Chen. 3713-3721 [doi]

Partial Multi-label Learning Based On Near-Far Neighborhood Label Enhancement And Nonlinear GuidanceYu Chen, Yanan Wu, Na Han, Xiaozhao Fang, Bingzhi Chen, Jie Wen 0001. 3722-3731 [doi]

Adaptive Hierarchical Aggregation for Federated Object DetectionRuofan Jia, Weiying Xie, Jie Lei 0001, Yunsong Li. 3732-3740 [doi]

ROI-Guided Point Cloud Geometry Compression Towards Human and Machine VisionLiang Xie, Wei Gao 0003, Huiming Zheng, Ge Li 0002. 3741-3750 [doi]

Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion ModelsXiyu Wang, Yufei Wang, Satoshi Tsutsui, Weisi Lin, Bihan Wen, Alex C. Kot. 3751-3760 [doi]

HeroMaker: Human-centric Video Editing with Motion PriorsShiyu Liu, Zibo Zhao, YiHao Zhi, Yiqun Zhao, Binbin Huang, Shuo Wang, Ruoyu Wang 0014, Michael Xuan, Zhengxin Li, Shenghua Gao. 3761-3770 [doi]

PhysReaction: Physically Plausible Real-Time Humanoid Reaction Synthesis via Forward Dynamics Guided 4D ImitationYunze Liu, Changxi Chen, Chenjing Ding, Li Yi 0001. 3771-3780 [doi]

New Job, New Gender? Measuring the Social Bias in Image Generation ModelsWenxuan Wang 0001, Haonan Bai, Jen-tse Huang 0001, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu. 3781-3789 [doi]

Segment Anything with Precise InteractionMengzhen Liu, Mengyu Wang 0003, Henghui Ding, Yilong Xu, Yao Zhao 0001, Yunchao Wei. 3790-3799 [doi]

Self-Supervised Emotion Representation Disentanglement for Speech-Preserving Facial Expression ManipulationZhihua Xu, Tianshui Chen, Zhijing Yang, Chunmei Qing, Yukai Shi, Liang Lin. 3800-3808 [doi]

Generalizing ISP Model by Unsupervised Raw-to-raw MappingDongyu Xie, Chaofan Qiao, Lanyue Liang, Zhiwen Wang, Tianyu Li, Qiao Liu 0003, Chongyi Li, Guoqing Wang 0001, Yang Yang 0002. 3809-3817 [doi]

Cross-Task Knowledge Transfer for Semi-supervised Joint 3D Grounding and CaptioningYang Liu, Daizong Liu, Zongming Guo, Wei Hu 0003. 3818-3827 [doi]

Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video RetrievalYang Liu 0006, Qianqian Xu, Peisong Wen, Siran Dai, Qingming Huang. 3828-3837 [doi]

Boosting Speech Recognition Robustness to Modality-Distortion with Contrast-Augmented PromptsDongjie Fu, Xize Cheng, Xiaoda Yang, Hanting Wang, Zhou Zhao, Tao Jin 0004. 3838-3847 [doi]

Selective Vision-Language Subspace Projection for Few-shot CLIPXingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang 0008, Yanbin Hao, Hanwang Zhang. 3848-3857 [doi]

Learning Exposure Correction in Dynamic ScenesJin Liu, Bo Wang, Chuanming Wang, Huiyuan Fu, Huadong Ma. 3858-3866 [doi]

Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective ModelFuqiang Niu, Zebang Cheng, Xianghua Fu, Xiaojiang Peng, Genan Dai, Yin Chen, Hu Huang, Bowen Zhang 0005. 3867-3876 [doi]

Visual Grounding with Multi-modal Conditional AdaptationRuilin Yao, Shengwu Xiong, Yichen Zhao, Yi Rong. 3877-3886 [doi]

Identity-Driven Multimedia Forgery Detection via Reference AssistanceJunhao Xu, Jingjing Chen, Xue-song, Feng Han, Haijun Shan, Yu-Gang Jiang. 3887-3896 [doi]

2C-QA: Multimodal Question Answering over Chinese Text, Table and ChartBowen Zhao, Tianhao Cheng, Yuejie Zhang, Ying Cheng 0005, Rui Feng, Xiaobo Zhang. 3897-3906 [doi]

GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware GenerationZhanyu Wang, Longyue Wang, Zhen Zhao 0001, Minghao Wu, Chenyang Lyu, Huayang Li, Deng Cai 0002, Luping Zhou, Shuming Shi 0001, Zhaopeng Tu. 3907-3916 [doi]

NovaChart: A Large-scale Dataset towards Chart Understanding and Generation of Multimodal Large Language ModelsLinmei Hu, Duokang Wang, Yiming Pan, Jifan Yu, Yingxia Shao, Chong Feng, Liqiang Nie. 3917-3925 [doi]

SelM: Selective Mechanism based Audio-Visual SegmentationJiaxu Li, Songsong Yu, Yifan Wang 0004, Lijun Wang, Huchuan Lu. 3926-3935 [doi]

Modeling Event-level Causal Representation for Video ClassificationYuqing Wang, Lei Meng, Haokai Ma, Yuqing Wang, Haibei Huang, Xiangxu Meng. 3936-3944 [doi]

Spatiotemporal Fine-grained Video Description for Short VideosTe Yang, Jian Jia, Bo Wang, Yanhua Cheng, Yan Li 0043, Dongze Hao, Xipeng Cao, Quan Chen 0006, Han Li, Peng Jiang 0002, Xiangyu Zhu 0001, Zhen Lei 0001. 3945-3954 [doi]

T2VIndexer: A Generative Video Indexer for Efficient Text-Video RetrievalYili Li, Jing Yu 0007, Keke Gai, Bang Liu, Gang Xiong 0001, Qi Wu 0001. 3955-3963 [doi]

ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal GuidanceHaijie Yang, Zhenyu Zhang 0005, Hao Tang 0005, Jianjun Qian, Jian Yang 0003. 3964-3973 [doi]

Rate-aware Compression for NeRF-based Volumetric VideoZhiyu Zhang, Guo Lu, Huanxiong Liang, Zhengxue Cheng, Anni Tang, Li Song 0001. 3974-3983 [doi]

PathUp: Patch-wise Timestep Tracking for Multi-class Large Pathology Image Synthesising Diffusion ModelJingxiong Li, Sunyi Zheng, Chenglu Zhu, Yuxuan Sun, Pingyi Chen, Zhongyi Shui, YunLong Zhang, Honglin Li 0001, Lin Yang 0002. 3984-3993 [doi]

BrainRAM: Cross-Modality Retrieval-Augmented Image Reconstruction from Human Brain ActivityDian Xie, Peiang Zhao, Jiarui Zhang, Kangqi Wei, Xiaobao Ni, Jiong Xia. 3994-4003 [doi]

SleepMG: Multimodal Generalizable Sleep Staging with Inter-modal Balance of Classification and Domain DiscriminationShuo Ma, Yingwei Zhang, Qiqi Zhang, Yiqiang Chen, Haoran Wang, Ziyu Jia. 4004-4013 [doi]

Lite-Mind: Towards Efficient and Robust Brain Representation LearningZixuan Gong, Qi Zhang 0020, Guangyin Bao, Lei Zhu 0002, Yu Zhang 0133, Ke Liu, Liang Hu 0004, Duoqian Miao 0001. 4014-4023 [doi]

Realistic Full-Body Motion Generation from Sparse Tracking with State Space ModelKun Dong, Jian Xue, Zehai Niu, Xing Lan, Ke Lu 0002, Qingyuan Liu, Xiaoyu Qin. 4024-4033 [doi]

Vaccine Misinformation Detection in X using Cooperative Multimodal FrameworkUsman Naseem, Adam G. Dunn, Matloob Khushi, Jinman Kim. 4034-4042 [doi]

Fooling 3D Face Recognition with One Single 2D ImageShizong Yan, Huixiang Wen, Shan Chang, Hongzi Zhu, Luo Zhou. 4043-4052 [doi]

Cloth-aware Augmentation for Cloth-generalized Person Re-identificationFangyi Liu, Mang Ye, Bo Du 0001. 4053-4062 [doi]

Dual-Resolution Fusion Modeling for Unsupervised Cross-Resolution Person Re-IdentificationZhiqi Pang, Lingling Zhao, Chunyu Wang. 4063-4072 [doi]

Loc4Plan: Locating Before Planning for Outdoor Vision and Language NavigationHuilin Tian, Jingke Meng, Wei-Shi Zheng 0001, Yuan-Ming Li, Junkai Yan, Yunong Zhang. 4073-4081 [doi]

MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space ModelChangcheng Xiao, Qiong Cao, Zhigang Luo, Long Lan. 4082-4091 [doi]

Translating Motion to Notation: Hand Labanotation for Intuitive and Comprehensive Hand Movement DocumentationLing Li, Wenrui Yang, Xinchun Yu, Junliang Xing, Xiao-Ping Zhang 0002. 4092-4100 [doi]

FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image TranslationXiang Gao, Jiaying Liu 0001. 4101-4109 [doi]

Backdoor Attacks on Bimodal Salient Object Detection with RGB-Thermal DataWen Yin, Bin Benjamin Zhu, Yulai Xie, Pan Zhou 0001, Dan Feng 0001. 4110-4119 [doi]

Balanced Multi-Relational Graph ClusteringZhixiang Shen, Haolan He, Zhao Kang 0001. 4120-4128 [doi]

Digging into Contrastive Learning for Robust Depth Estimation with Diffusion ModelsJiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao 0001. 4129-4137 [doi]

DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object DetectionZhuoxiao Chen, Zixin Wang, Yadan Luo, Sen Wang 0001, Zi Huang. 4138-4147 [doi]

Differential-Perceptive and Retrieval-Augmented MLLM for Change CaptioningXian Zhang, Haokun Wen, Jianlong Wu, Pengda Qin, Hui Xue', Liqiang Nie. 4148-4157 [doi]

Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image EditingBingyan Liu, Chengyu Wang 0001, Jun Huang 0007, Kui Jia. 4158-4166 [doi]

Robust Variational Contrastive Learning for Partially View-unaligned ClusteringChanghao He, Hongyuan Zhu, Peng Hu 0002, Xi Peng 0001. 4167-4176 [doi]

QueryMatch: A Query-based Contrastive Learning Framework for Weakly Supervised Visual GroundingShengxin Chen, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Rongrong Ji. 4177-4186 [doi]

Generative Expressive Conversational Speech SynthesisRui Liu 0008, Yifan Hu, Yi Ren 0006, Xiang Yin 0006, Haizhou Li 0001. 4187-4196 [doi]

Eglcr: Edge Structure Guidance and Scale Adaptive Attention for Iterative Stereo MatchingZhien Dai, ZhaoHui Tang, Hu Zhang, Can Tian, Mingjun Pan, Yongfang Xie. 4197-4206 [doi]

VL-Reader: Vision and Language Reconstructor is an Effective Scene Text RecognizerHumen Zhong, Zhibo Yang 0003, Zhaohai Li, Peng Wang 0028, Jun Tang, Wenqing Cheng, Cong Yao. 4207-4216 [doi]

DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and CorrectionChaofan Gan, Yuanpeng Tu, Yuxi Li, Weiyao Lin. 4217-4226 [doi]

Virtual Visual-Guided Domain-Shadow Fusion via Modal Exchanging for Domain-Specific Multi-Modal Neural Machine TranslationZhenyu Hou, Junjun Guo. 4227-4235 [doi]

Learning with Alignments: Tackling the Inter- and Intra-domain Shifts for Cross-multidomain Facial Expression RecognitionYuxiang Yang, Lu Wen, Xinyi Zeng, Yuanyuan Xu, Xi Wu 0004, Jiliu Zhou, Yan Wang. 4236-4245 [doi]

Causal Visual-semantic Correlation for Zero-shot LearningShuhuang Chen, Dingjie Fu, Shiming Chen 0002, Shuo Ye, Wenjin Hou, Xinge You. 4246-4255 [doi]

256 Metaverse Records DatasetPatrick Steinert, Stefan Wagenpfeil, Ingo Frommholz, Matthias L. Hemmje. 4256-4263 [doi]

MoBA: Mixture of Bi-directional Adapter for Multi-modal Sarcasm DetectionYifeng Xie, Zhihong Zhu, Xin Chen, Zhanpeng Chen, Zhiqi Huang. 4264-4272 [doi]

WaveDN: A Wavelet-based Training-free Zero-shot Enhancement for Vision-Language ModelsJiulin Li, Mengyu Yang, Ye Tian 0008, Lanshan Zhang, Yongchun Lu, Jice Liu, Wendong Wang. 4273-4282 [doi]

LaneCMKT: Boosting Monocular 3D Lane Detection with Cross-Modal Knowledge TransferRunkai Zhao, Heng Wang 0007, Weidong Cai 0001. 4283-4291 [doi]

Incremental Learning via Robust Parameter Posterior FusionWenju Sun, Qingyong Li, Siyu Zhang, Wen Wang 0009, Yangli-ao Geng. 4292-4301 [doi]

Calibrating Prompt from History for Continual Vision-Language Retrieval and GroundingTao Jin 0004, Weicai Yan, Ye Wang, Sihang Cai, Qifan Shuai, Zhou Zhao. 4302-4311 [doi]

Triple Alignment Strategies for Zero-shot Phrase Grounding under Weak SupervisionPengyue Lin, Ruifan Li, Yuzhe Ji, Zhihan Yu, Fangxiang Feng, Zhanyu Ma, Xiaojie Wang 0006. 4312-4321 [doi]

Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object DetectionZhenni Yu, Xiaoqin Zhang 0002, Li Zhao 0005, Yi Bin, Guobao Xiao. 4322-4330 [doi]

Causal-driven Large Language Models with Faithful Reasoning for Knowledge Question AnsweringJiawei Wang 0025, Da Cao, Shaofei Lu, Zhanchang Ma, Junbin Xiao, Tat-Seng Chua. 4331-4340 [doi]

Multimodal Fusion via Hypergraph Autoencoder and Contrastive Learning for Emotion Recognition in ConversationZijian Yi, Ziming Zhao 0010, Zhishu Shen, Tiehua Zhang. 4341-4348 [doi]

EPL-UFLSID: Efficient Pseudo Labels-Driven Underwater Forward-Looking Sonar Images Object DetectionCheng Shen, Liquan Shen, Mengyao Li, Meng Yu. 4349-4357 [doi]

Interpretable Matching of Optical-SAR Image via Dynamically Conditioned Diffusion ModelsShuiping Gou, Xin Wang, Xinlin Wang, Yunzhi Chen. 4358-4367 [doi]

Masked Snake Attention for Fundus Image Restoration with Vessel PreservationXiaohuan Ding, Yangrui Gong, Tianyi Shi, Zihang Huang, Gangwei Xu, Xin Yang 0008. 4368-4376 [doi]

Mixed Prototype Correction for Causal Inference in Medical Image ClassificationYajie Zhang, Zhi-an Huang, Zhiliang Hong, Songsong Wu, Jibin Wu, Kay Chen Tan. 4377-4386 [doi]

Training-Free Feature Reconstruction with Sparse Optimization for Vision-Language ModelsYi Zhang, Ke Yu, Angelica I. Avilés-Rivero, Jiyuan Jia, Yushun Tang, Zhihai He. 4387-4396 [doi]

A Simple and Provable Approach for Learning on Noisy Labeled Medical ImagesNan Wang, Zonglin Di, Houlin He, Qingchao Jiang, Xiaoxiao Li. 4397-4405 [doi]

Enhancing Robustness in Learning with Noisy Labels: An Asymmetric Co-Training ApproachMengmeng Sheng, Zeren Sun, Gensheng Pei, Tao Chen 0012, Haonan Luo, Yazhou Yao. 4406-4415 [doi]

Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion AugmentationMuquan Li, Dongyang Zhang, Tao He 0007, Xiurui Xie, Yuan-Fang Li, Ke Qin. 4416-4425 [doi]

SMART: Self-Weighted Multimodal Fusion for Diagnostics of Neurodegenerative DisordersQiuhui Chen, Yi Hong. 4426-4435 [doi]

IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity AlignmentTaoyu Su, Jiawei Sheng, Shicheng Wang, Xinghua Zhang 0001, Hongbo Xu, Tingwen Liu. 4436-4445 [doi]

Convert and Speak: Zero-shot Accent Conversion with Minimum SupervisionZhijun Jia, Huaying Xue, Xiulian Peng, Yan Lu 0001. 4446-4454 [doi]

CoPL: Parameter-Efficient Collaborative Prompt Learning for Audio-Visual TasksYihan Zhao, Wei Xi, Yuhang Cui, Gairui Bai, Xinhui Liu, Jizhong Zhao. 4455-4464 [doi]

Distilled Cross-Combination Transformer for Image Captioning with Dual Refined Visual FeaturesJunbo Hu, Zhixin Li 0001. 4465-4474 [doi]

GeNSeg-Net: A General Segmentation Framework for Any Nucleus in Immunohistochemistry ImagesSiyuan Xu, Guannan Li, Haofei Song, Jiansheng Wang, Yan Wang 0033, Qingli Li. 4475-4484 [doi]

ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial AttackZiyi Gao, Kai Chen 0027, Zhipeng Wei, Tingshu Mou, Jingjing Chen, Zhiyu Tan, Hao Li, Yu-Gang Jiang. 4485-4494 [doi]

Towards Video-based Activated Muscle Group Estimation in the WildKunyu Peng, David Schneider, Alina Roitberg, Kailun Yang 0001, Jiaming Zhang 0001, Chen Deng, Kaiyu Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen. 4495-4504 [doi]

OSNeRF: On-demand Semantic Neural Radiance Fields for Fast and Robust 3D Object ReconstructionRui Xu, Gaolei Li, Changze Li, Zhaohui Yang 0001, Yuchen Liu 0001, Mingzhe Chen. 4505-4514 [doi]

Efficient Face Super-Resolution via Wavelet-based Feature Enhancement NetworkWenjie Li, Heng Guo 0003, Xuannan Liu, Kongming Liang, Jiani Hu, Zhanyu Ma, Jun Guo 0002. 4515-4523 [doi]

Advancing Semantic Edge Detection through Cross-Modal Knowledge LearningRuoxi Deng, Bin Yu, Jinxuan Lu, Caixia Zhou, Zhao-Min Chen, Jie Hu. 4524-4532 [doi]

TreeReward: Improve Diffusion Model via Tree-Structured Feedback LearningJiacheng Zhang, Jie Wu 0030, Huafeng Kuang, Haiming Zhang, Yuxi Ren, Weifeng Chen, Manlin Zhang, XueFeng Xiao, Guanbin Li. 4533-4542 [doi]

Student-Oriented Teacher Knowledge Refinement for Knowledge DistillationChaomin Shen, Yaomin Huang, Haokun Zhu, Jinsong Fan, Guixu Zhang. 4543-4552 [doi]

Hydrodynamics-Informed Neural Network for Simulating Dense Crowd Motion PatternsYanshan Zhou, Pingrui Lai, Jiaqi Yu, Yingjie Xiong, Hua Yang 0001. 4553-4561 [doi]

PFFAA: Prototype-based Feature and Frequency Alteration Attack for Semantic SegmentationZhidong Yu, Zhenbo Shi, Xiaoman Liu, Wei Yang 0011. 4562-4571 [doi]

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action RecognitionWenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang 0009, Lei Zhang 0130. 4572-4580 [doi]

Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot LearningXiangyan Qu, Jing Yu 0007, Keke Gai, Jiamin Zhuang, Yuanmin Tang, Gang Xiong 0001, Gaopeng Gou, Qi Wu 0001. 4581-4590 [doi]

ERL-MR: Harnessing the Power of Euler Feature Representations for Balanced Multi-modal LearningWeixiang Han, Chengjun Cai, Yu Guo 0003, Jialiang Peng. 4591-4600 [doi]

Estimating the Semantic Density of Visual MediaLuca Rossetto, Cristina Sarasua, Abraham Bernstein. 4601-4609 [doi]

HyperTime: Hyperparameter Optimization for Combating Temporal Distribution ShiftsShaokun Zhang, Yiran Wu, Zhonghua Zheng, Qingyun Wu, Chi Wang 0001. 4610-4619 [doi]

RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric StrategiesXiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Yao Li, Yanyong Zhang. 4620-4629 [doi]

Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative LearningYi Bin, Junrong Liao, Yujuan Ding, Haoxuan Li, Yang Yang 0002, See-Kiong Ng, Heng Tao Shen. 4630-4639 [doi]

Generating Action-conditioned Prompts for Open-vocabulary Video Action RecognitionChengyou Jia, Minnan Luo, Xiaojun Chang, Zhuohang Dang, Mingfei Han 0002, Mengmeng Wang, Guang Dai, Sizhe Dang, Jingdong Wang 0001. 4640-4649 [doi]

Visual-linguistic Cross-domain Feature Learning with Group Attention and Gamma-correct Gated Fusion for Extracting Commonsense KnowledgeJialu Zhang 0003, Xinyi Wang, Chenglin Yao, Jianfeng Ren, Xudong Jiang 0001. 4650-4659 [doi]

Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed TransformerWenhan Wu, Ce Zheng, Zihao Yang, Chen Chen 0001, Srijan Das, Aidong Lu. 4660-4669 [doi]

Towards Multimodal-augmented Pre-trained Language Models via Self-balanced Expectation-Maximization IterationXianwei Zhuang, Xuxin Cheng, Zhihong Zhu, Zhanpeng Chen, Hongxiang Li, Yuexian Zou. 4670-4679 [doi]

Towards High-resolution 3D Anomaly Detection via Group-Level Feature Contrastive LearningHongze Zhu, Guoyang Xie, Chengbin Hou, Tao Dai 0001, Can Gao, Jinbao Wang, LinLin Shen. 4680-4689 [doi]

Non-Overlapped Multi-View Weak-Label Learning Guided by Multiple CorrelationsKaixiang Wang, Xiaojian Ding, Fan Yang 0071. 4690-4698 [doi]

Medical Report Generation via Multimodal Spatio-Temporal FusionXin Mei, Rui Mao 0010, Xiaoyan Cai, Libin Yang, Erik Cambria. 4699-4708 [doi]

Point-GCC: Universal Self-supervised 3D Scene Pre-training via Geometry-Color ContrastGuofan Fan, Zekun Qi, Wenkai Shi, Kaisheng Ma. 4709-4718 [doi]

Video Anomaly Detection via Progressive Learning of Multiple Proxy TasksMenghao Zhang 0004, Jingyu Wang 0001, Qi Qi 0001, Pengfei Ren, Haifeng Sun 0001, Zirui Zhuang, Huazheng Wang, Lei Zhang 0094, Jianxin Liao. 4719-4728 [doi]

Not All Frequencies Are Created Equal: Towards a Dynamic Fusion of Frequencies in Time-Series ForecastingXingyu Zhang, Siyu Zhao, Zeen Song, Huijie Guo, Jianqi Zhang, Changwen Zheng, Wenwen Qiang. 4729-4737 [doi]

CMT: Co-training Mean-Teacher for Unsupervised Domain Adaptation on 3D Object DetectionShijie Chen, Junbao Zhuo, Xin Li, Haizhuang Liu, Rongquan Wang, Jiansheng Chen, Huimin Ma 0001. 4738-4747 [doi]

RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual CuesTianrui Pan, Jie Liu 0040, Bohan Wang, Jie Tang 0006, Gangshan Wu. 4748-4756 [doi]

Decoding Urban Industrial Complexity: Enhancing Knowledge-Driven Insights via IndustryScopeGPTSiqi Wang, Chao Liang, Yunfan Gao, Yang Liu, Jing Li 0049, Haofen Wang. 4757-4765 [doi]

Semi-supervised Camouflaged Object Detection from Noisy DataYuanbin Fu, Jie Ying, Houlei Lv, Xiaojie Guo 0001. 4766-4775 [doi]

Embodied Contrastive Learning with Geometric Consistency and Behavioral Awareness for Object NavigationBolei Chen, Jiaxu Kang, Ping Zhong 0002, Yixiong Liang, Yu Sheng, Jianxin Wang 0001. 4776-4785 [doi]

Adversarial Example Quality Assessment: A Large-scale Dataset and Strong BaselineJia-Li Yin, Menghao Chen, Jin Han, Bo-Hao Chen, Ximeng Liu. 4786-4794 [doi]

DQ-Former: Querying Transformer with Dynamic Modality Priority for Cognitive-aligned Multimodal Emotion Recognition in ConversationYe Jing, Xinpei Zhao. 4795-4804 [doi]

Exploring in Extremely Dark: Low-Light Video Enhancement with Real EventsXicong Wang, Huiyuan Fu, Jiaxuan Wang, Xin Wang 0001, Heng Zhang, Huadong Ma. 4805-4813 [doi]

An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback MechanismQing Zhang, Haocheng Lv, Jie Liu 0022, Zhiyun Chen, Jianyong Duan, Hao Wang 0018, Li He, Mingying Xu. 4814-4822 [doi]

Interactive Segmentation by Considering First-Click Intentional AmbiguityKangpeng Hu, Quansen Sun, Yinghui Sun, Tao Wang 0020. 4823-4831 [doi]

Multi-Label Learning with Block Diagonal LabelsLeqi Shen, Sicheng Zhao, Yifeng Zhang, Hui Chen 0013, Jundong Zhou, Pengzhang Liu, Yongjun Bao, Guiguang Ding. 4832-4840 [doi]

Hierarchical Perceptual and Predictive Analogy-Inference Network for Abstract Visual ReasoningWentao He, Jianfeng Ren, Ruibin Bai, Xudong Jiang 0001. 4841-4850 [doi]

SparseFormer: Detecting Objects in HRW Shots via Sparse Vision TransformerWenxi Li, Yuchen Guo, Jilai Zheng, Haozhe Lin, Chao Ma 0004, Lu Fang 0001, Xiaokang Yang. 4851-4860 [doi]

Towards Medical Vision-Language Contrastive Pre-training via Study-Oriented Semantic ExplorationBo Liu, Zexin Lu, Yan Wang. 4861-4870 [doi]

Adaptively Building a Video-language Model for Video Captioning and Retrieval without Massive Video PretrainingZihao Liu, Xiaoyu Wu, Shengjin Wang, Jiayao Qian. 4871-4880 [doi]

BCSCN: Reducing Domain Gap through Bézier Curve basis-based Sparse Coding Network for Single-Image Super-ResolutionWenhao Guo, Peng Lu, Xujun Peng, Zhaoran Zhao, Ji Qiu, Xiangtao Dong. 4881-4889 [doi]

UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich DocumentsYi Tu, Chong Zhang, Ya Guo, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang 0001. 4890-4898 [doi]

Federated Morozov Regularization for Shortcut Learning in Privacy Preserving Learning with Watermarked Image DataTao Ling, Siping Shi, Hao Wang 0022, Chuang Hu, Dan Wang 0002. 4899-4908 [doi]

Multi-Modality Co-Learning for Efficient Skeleton-based Action RecognitionJinfu Liu, Chen Chen 0001, Mengyuan Liu. 4909-4918 [doi]

LDA-AQU: Adaptive Query-guided Upsampling via Local Deformable AttentionZewen Du, Zhenjiang Hu, Guiyu Zhao, Ying Jin, Hongbin Ma. 4919-4927 [doi]

Collaborative Training of Tiny-Large Vision Language ModelsShichen Lu, Longteng Guo, Wenxuan Wang 0002, Zijia Zhao, Tongtian Yue, Jing Liu 0001, Si Liu 0001. 4928-4937 [doi]

BSBP-RWKV: Background Suppression with Boundary Preservation for Efficient Medical Image SegmentationXudong Zhou, Tianxiang Chen. 4938-4946 [doi]

LinkThief: Combining Generalized Structure Knowledge with Node Similarity for Link Stealing Attack against GNNYuxing Zhang, Siyuan Meng, Chunchun Chen, Mengyao Peng, Hongyan Gu, Xinli Huang. 4947-4956 [doi]

Restoring Real-World Degraded Events Improves Deblurring QualityYeqing Shen, Shang Li, Kun Song. 4957-4966 [doi]

Divide and Conquer: Isolating Normal-Abnormal Attributes in Knowledge Graph-Enhanced Radiology Report GenerationXiao Liang, Yanlei Zhang, Di Wang 0011, Haodi Zhong, Ronghan Li, Quan Wang 0006. 4967-4975 [doi]

Multimodal Low-light Image Enhancement with Depth InformationZhen Wang, Dongyuan Li, Guang Li 0008, Ziqing Zhang, Renhe Jiang. 4976-4985 [doi]

SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary DetectionZishuo Wang, Wenhao Zhou, Jinglin Xu, Yuxin Peng. 4986-4994 [doi]

Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space ModelXu Han, Yuan Tang, Zhaoxuan Wang, Xianzhi Li. 4995-5004 [doi]

Cross-Class Domain Adaptive Semantic Segmentation with Visual Language ModelsWenqi Ren, Ruihao Xia, Meng Zheng 0002, Ziyan Wu, Yang Tang, Nicu Sebe. 5005-5014 [doi]

CSO: Constraint-Guided Space Optimization for Active Scene MappingXuefeng Yin, Chenyang Zhu 0002, Shanglai Qu, Yuqi Li, Kai Xu 0004, Baocai Yin, Xin Yang 0011. 5015-5024 [doi]

Auto-ACD: A Large-scale Dataset for Audio-Language Representation LearningLuoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie. 5025-5034 [doi]

Dual-Modeling Decouple Distillation for Unsupervised Anomaly DetectionXinyue Liu, Jianyuan Wang, Biao Leng, Shuo Zhang 0003. 5035-5044 [doi]

Automatic and Aligned Anchor Learning Strategy for Multi-View ClusteringHuimin Ma, Siwei Wang 0001, Shengju Yu, Suyuan Liu, Junjie Huang 0001, Huijun Wu 0001, Xinwang Liu 0002, En Zhu. 5045-5054 [doi]

TDSD: Text-Driven Scene-Decoupled Weakly Supervised Video Anomaly DetectionShengyang Sun, Jiashen Hua, Junyi Feng, Dongxu Wei, Baisheng Lai, Xiaojin Gong. 5055-5064 [doi]

RobustFace: Adaptive Mining of Noise and Hard Samples for Robust Face RecognitionsYang Xin 0004, Yu Zhou 0027, Jianmin Jiang. 5065-5073 [doi]

Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text MatchingXiang Ma, Xuemei Li 0001, Lexin Fang, Caiming Zhang 0001. 5074-5082 [doi]

ReWiTe: Realistic Wide-angle and Telephoto Dual Camera Fusion Dataset via Beam Splitter Camera RigChunli Peng, Xuan Dong 0001, Tiantian Cao, Zhengqing Li, Kun Dong, Weixin Li 0001. 5083-5091 [doi]

MTSNet: Joint Feature Adaptation and Enhancement for Text-Guided Multi-view Martian Terrain SegmentationYang Fang, Xuefeng Rao, Xinbo Gao 0001, Weisheng Li 0001, Zijian Min. 5092-5101 [doi]

Hunting Blemishes: Language-guided High-fidelity Face Retouching Transformer with Limited Paired DataLe Jiang, Yan Huang 0031, Lianxin Xie, Wen Xue, Cheng Liu 0001, Si Wu 0002, Hau-San Wong. 5102-5111 [doi]

PRTGS: Precomputed Radiance Transfer of Gaussian Splats for Real-Time High-Quality RelightingYijia Guo, Yuanxi Bai, Liwen Hu, Ziyi Guo, Mianzhi Liu, Yu Cai 0008, Tiejun Huang 0001, Lei Ma 0008. 5112-5120 [doi]

AdapMTL: Adaptive Pruning Framework for Multitask Learning ModelMingcan Xiang, Jiaxun Tang, Qizheng Yang, Hui Guan 0001, Tongping Liu. 5121-5130 [doi]

Towards Robust Physical-world Backdoor Attacks on Lane DetectionXinwei Zhang, Aishan Liu, Tianyuan Zhang 0004, Siyuan Liang, Xianglong Liu 0001. 5131-5140 [doi]

SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language RetrievalLongtao Jiang, Min Wang 0019, Zecheng Li, Yao Fang, Wengang Zhou, Houqiang Li. 5141-5150 [doi]

X-Prompt: Multi-modal Visual Prompt for Video Object SegmentationPinxue Guo, Wanyun Li, Hao Huang, Lingyi Hong, Xinyu Zhou, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Wei Zhang 0016, Wenqiang Zhang. 5151-5160 [doi]

Language-Guided Visual Prompt Compensation for Multi-Modal Remote Sensing Image Classification with Modality AbsenceLing Huang, Wenqian Dong, Song Xiao 0001, Jiahui Qu, Yuanbo Yang, Yunsong Li. 5161-5170 [doi]

PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair ExtractionZening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei Xiong, Lianwen Jin. 5171-5180 [doi]

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot LearningHaojian Huang, Xiaozhen Qiao, Zhuo Chen 0007, Haodong Chen, Bingyu Li, Zhe Sun, Mulin Chen, Xuelong Li 0001. 5181-5190 [doi]

Decoder Pre-Training with only Text for Scene Text RecognitionShuai Zhao, Yongkun Du, Zhineng Chen, Yu-Gang Jiang. 5191-5200 [doi]

One-Shot Sequential Federated Learning for Non-IID Data by Enhancing Local Model DiversityNaibo Wang, Yuchen Deng, Wenjie Feng 0001, Shichen Fan, Jianwei Yin, See-Kiong Ng. 5201-5210 [doi]

Anatomical Prior Guided Spatial Contrastive Learning for Few-Shot Medical Image SegmentationWendong Huang, Jinwu Hu, Xiuli Bi, Bin Xiao 0002. 5211-5220 [doi]

Learning to Handle Large Obstructions in Video Frame InterpolationLibo Long, Xiao Hu 0008, Jochen Lang 0001. 5221-5229 [doi]

Event-Guided Rolling Shutter Correction with Time-Aware Cross-AttentionsHefei Huang, Xu Jia, Xinyu Zhang 0017, Shengming Li, Huchuan Lu. 5230-5239 [doi]

Contrastive Graph Distribution Alignment for Partially View-Aligned ClusteringXibiao Wang, Hang Gao, XinDian Wei, Liang Peng, Rui Li 0045, Cheng Liu 0001, Si Wu 0002, Hau-San Wong. 5240-5249 [doi]

PRISM: PRogressive dependency maxImization for Scale-invariant image MatchingXudong Cai, Yongcai Wang, Lun Luo, Minhang Wang, Deying Li 0001, Jintao Xu, Weihao Gu, Rui Ai 0001. 5250-5259 [doi]

Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text RetrievalYang Du, Yuqi Liu 0003, Qin Jin. 5260-5269 [doi]

Shapley Value-based Contrastive Alignment for Multimodal Information ExtractionWen Luo, Yu Xia, Tianshu Shen, Sujian Li. 5270-5279 [doi]

Overcoming Spatial-Temporal Catastrophic Forgetting for Federated Class-Incremental LearningHao Yu, Xin Yang 0012, Xin Gao, Yihui Feng, Hao Wang 0068, Yan Kang 0001, Tianrui Li 0001. 5280-5288 [doi]

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question AnsweringHaibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge. 5289-5298 [doi]

Adaptive Instance-wise Multi-view ClusteringShudong Huang, Hecheng Cai, Hao Dai, Wentao Feng, Jiancheng Lv 0001. 5299-5307 [doi]

VRDistill: Vote Refinement Distillation for Efficient Indoor 3D Object DetectionZe Yuan, Jinyang Guo, Dakai An, Junran Wu, He Zhu, Jianhao Li, Xueyuan Chen, Ke Xu, Jiaheng Liu. 5308-5317 [doi]

Learnable Negative Proposals Using Dual-Signed Cross-Entropy Loss for Weakly Supervised Video Moment LocalizationSunoh Kim, Daeho Um, Hyunjun Choi, Jin Young Choi 0002. 5318-5327 [doi]

GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space HyperplaneYansong Qu, Shaohui Dai, Xinyang Li, Jianghang Lin, Liujuan Cao, Shengchuan Zhang, Rongrong Ji. 5328-5337 [doi]

Decoupling Heterogeneous Features for Robust 3D Interacting Hand Poses EstimationHuan Yao, Changxing Ding, Xuanda Xu, Zhifeng Lin. 5338-5346 [doi]

Enhancing Model Interpretability with Local Attribution over Global ExplorationZhiyu Zhu, Zhibo Jin, Jiayu Zhang, Huaming Chen. 5347-5355 [doi]

Tracking-forced Referring Video Object SegmentationRuxue Yan, Wenya Guo, Xubo Liu, Xumeng Liu, Ying Zhang 0015, Xiaojie Yuan. 5356-5364 [doi]

Effective Optimization of Root Selection Towards Improved Explanation of Deep ClassifiersXin Zhang 0056, Shenghua Zhong, Jianmin Jiang. 5365-5373 [doi]

Few-shot Semantic Segmentation via Perceptual Attention and Spatial ControlGuangchen Shi, Wei Zhu, Yirui Wu, Danhuai Zhao, Kang Zheng, Tong Lu. 5374-5383 [doi]

ADDG: An Adaptive Domain Generalization Framework for Cross-Plane MRI SegmentationZibo Ma, Bo Zhang 0032, Zheng Zhang 0038, Wu Liu, Wufan Wang, Hui Gao 0002, Wendong Wang. 5384-5392 [doi]

Parameter-Efficient Complementary Expert Learning for Long-Tailed Visual RecognitionLixiang Ru, Xin Guo, Lei Yu 0005, Yingying Zhang, Jiangwei Lao, Jian Wang 0108, Jingdong Chen, Yansheng Li 0001, Ming Yang 0007. 5393-5402 [doi]

LanEvil: Benchmarking the Robustness of Lane Detection to Environmental IllusionsTianyuan Zhang 0004, Lu Wang, Hainan Li, Yisong Xiao, Siyuan Liang, Aishan Liu, Xianglong Liu 0001, Dacheng Tao. 5403-5412 [doi]

Imbalanced Multi-instance Multi-label Learning via Coding Ensemble and Adaptive ThresholdsXinyue Zhang, Tingjin Luo, Yueying Liu, Chenping Hou. 5413-5422 [doi]

Holistic-CAM: Ultra-lucid and Sanity Preserving Visual Interpretation in Holistic Stage of CNNsPengxu Chen, Huazhong Liu, Jihong Ding, Jiawen Luo, Peng Tan, Laurence T. Yang. 5423-5431 [doi]

Fine-grained Semantic Alignment with Transferred Person-SAM for Text-based Person RetrievalYihao Wang, Meng Yang 0001, Rui Cao 0003. 5432-5441 [doi]

CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot ClassificationQijie Wang, Guandu Liu, Bin Wang 0021. 5442-5450 [doi]

VeCAF: Vision-language Collaborative Active Finetuning with Training Objective AwarenessRongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis A. Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang. 5451-5459 [doi]

HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual GroundingLinhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang 0001, Changsheng Xu. 5460-5469 [doi]

Detached and Interactive Multimodal LearningYunfeng Fan, Wenchao Xu 0001, Haozhao Wang, Junhong Liu, Song Guo 0001. 5470-5478 [doi]

Scalable Multi-view Unsupervised Feature Selection with Structure Learning and FusionChenglong Zhang, Xinyan Liang, Peng Zhou 0006, Zhaolong Ling, Yingwei Zhang, Xingyu Wu, Weiguo Sheng, Bingbing Jiang 0001. 5479-5488 [doi]

Introducing Common Null Space of Gradients for Gradient Projection Methods in Continual LearningChengyi Yang, Mingda Dong, Xiaoyue Zhang, Jiayin Qi, Aimin Zhou. 5489-5497 [doi]

Fractional Correspondence Framework in Detection TransformerMasoumeh Zareapoor, Pourya Shamsolmoali, Huiyu Zhou 0001, Yue Lu, Salvador García 0001. 5498-5506 [doi]

Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action LocalizationGeuntaek Lim, Hyunwoo Kim, Joonsoo Kim, Yukyung Choi. 5507-5516 [doi]

GraphLearner: Graph Node Clustering with Fully Learnable AugmentationXihong Yang, Erxue Min, Ke Liang 0006, Yue Liu 0008, Siwei Wang 0001, Sihang Zhou 0001, Huijun Wu 0001, Xinwang Liu 0002, En Zhu. 5517-5526 [doi]

Language-Driven Interactive Shadow DetectionHongqiu Wang, Wei Wang, Haipeng Zhou, Huihui Xu, Shaozhi Wu, Lei Zhu 0003. 5527-5536 [doi]

Towards Effective Federated Graph Anomaly Detection via Self-boosted Knowledge DistillationJinyu Cai, Yunhe Zhang, Zhoumin Lu, Wenzhong Guo, See-Kiong Ng. 5537-5546 [doi]

Monocular Human-Object Reconstruction in the WildChaofan Huo, Ye Shi 0001, Jingya Wang. 5547-5555 [doi]

STAR-VP: Improving Long-term Viewport Prediction in 360° Videos via Space-aligned and Time-varying FusionBaoqi Gao, Daoxu Sheng, Lei Zhang 0094, Qi Qi 0001, Bo He 0003, Zirui Zhuang, Jingyu Wang 0001. 5556-5565 [doi]

Learning Optimal Combination Patterns for Lightweight Stereo Image Super-ResolutionHu Gao, Jing Yang, Ying Zhang, Jingfan Yang, Bowen Ma, Depeng Dang. 5566-5574 [doi]

Semantic Distillation from Neighborhood for Composed Image RetrievalYifan Wang, Wuliang Huang, Lei Li, Chun Yuan. 5575-5583 [doi]

Text-prompt Camouflaged Instance Segmentation with Graduated Camouflage LearningZhentao He, Changqun Xia, Shengye Qiao, Jia Li 0003. 5584-5593 [doi]

Embracing Domain Gradient Conflicts: Domain Generalization Using Domain Gradient EquilibriumZuyu Zhang, Yan Li 0050, Byung-Seok Shin. 5594-5603 [doi]

Multi-Granularity Hand Action DetectionTing Zhe, Jing Zhang 0037, Yongqian Li, Yong Luo 0002, Han Hu 0003, Dacheng Tao. 5604-5613 [doi]

Cluster-driven Personalized Federated Recommendation with Interest-aware Graph Convolution Network for MultimediaXingyuan Mao, Yuwen Liu, Lianyong Qi, Li Duan, Xiaolong Xu 0001, Xuyun Zhang, Wanchun Dou, Amin Beheshti, Xiaokang Zhou. 5614-5622 [doi]

Distribution Consistency Guided Hashing for Cross-Modal RetrievalYuan Sun 0016, Kaiming Liu, Yongxiang Li, Zhenwen Ren, Jian Dai, Dezhong Peng. 5623-5632 [doi]

TrGa: Reconsidering the Application of Graph Neural Networks in Two-View Correspondence PruningLuanyuan Dai, Xiaoyu Du 0002, Jinhui Tang 0001. 5633-5642 [doi]

Revisiting Unsupervised Temporal Action Localization: The Primacy of High-Quality Actionness and PseudolabelsHan Jiang, Haoyu Tang, Ming Yan, Ji Zhang 0011, Mingzhu Xu, Yupeng Hu, Jihua Zhu, Liqiang Nie. 5643-5652 [doi]

Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval MethodYu Liao, Xinfeng Zhang, Rui Yang, Jianwei Tao, Bai Liu, Zhipeng Hu, Shuang Wang 0001, Zeng Zhao. 5653-5662 [doi]

Multimodal-aware Multi-intention Learning for RecommendationWei Yang, Qingchen Yang. 5663-5672 [doi]

Domain Knowledge Enhanced Vision-Language Pretrained Model for Dynamic Facial Expression RecognitionLiupeng Li, Yuhua Zheng, Shupeng Liu, Xiaoyin Xu, Taihao Li. 5673-5682 [doi]

Tag Tree-Guided Multi-grained Alignment for Multi-Domain Short Video RecommendationYuting Zhang, Zhao Zhang 0011, Yiqing Wu, Ying Sun 0006, Fuzhen Zhuang, Wenhui Yu, Lantao Hu, Han Li, Kun Gai, Zhulin An, Yongjun Xu. 5683-5691 [doi]

Multimodal Physiological Signals Representation Learning via Multiscale Contrasting for Depression RecognitionKai Shao, Rui Wang 0077, Yixue Hao, Long Hu, Min Chen 0003, Hans-Arno Jacobsen. 5692-5701 [doi]

GRACE: GRadient-based Active Learning with Curriculum Enhancement for Multimodal Sentiment AnalysisXinyu Li, Wenqing Ye, Yueyi Zhang, Xiaoyan Sun 0001. 5702-5711 [doi]

Disentangled-Multimodal Privileged Knowledge Distillation for Depression Recognition with Incomplete Multimodal DataYuchen Pan, Junjun Jiang, Kui Jiang, Xianming Liu. 5712-5721 [doi]

Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive PromptingYuanyuan Liu 0004, Yuxuan Huang, Shuyang Liu, Yibing Zhan, Zijing Chen, Zhe Chen 0013. 5722-5731 [doi]

KEBR: Knowledge Enhanced Self-Supervised Balanced Representation for Multimodal Sentiment AnalysisAoqiang Zhu, Min Hu, Xiaohua Wang 0002, Jiaoyun Yang, Yiming Tang 0001, Fuji Ren. 5732-5741 [doi]

PTSBench: A Comprehensive Post-Training Sparsity Benchmark Towards Algorithms and ModelsZining Wang, Jinyang Guo, Ruihao Gong, Yang Yong, Aishan Liu, Yushi Huang, Jiaheng Liu, Xianglong Liu 0001. 5742-5751 [doi]

Robust Contrastive Cross-modal Hashing with Noisy LabelsLongan Wang, Yang Qin, Yuan Sun 0016, Dezhong Peng, Xi Peng 0001, Peng Hu 0002. 5752-5760 [doi]

Semi-supervised Visible-Infrared Person Re-identification via Modality Unification and Confidence GuidanceXiying Zheng, Yukang Zhang, Yang Lu 0009, Hanzi Wang. 5761-5770 [doi]

PAIR: Pre-denosing Augmented Image Retrieval Model for Defending Adversarial PatchesZiyang Zhou, Pinghui Wang, Zi Liang, Ruofei Zhang, Haitao Bai. 5771-5779 [doi]

Robust Multimodal Sentiment Analysis of Image-Text Pairs by Distribution-Based Feature Recovery and FusionDaiqing Wu, Dongbao Yang, Yu Zhou 0015, Can Ma. 5780-5789 [doi]

Mitigate Catastrophic Remembering via Continual Knowledge Purification for Noisy Lifelong Person Re-IdentificationKunlun Xu, Haozhuo Zhang, Yu Li, Yuxin Peng, Jiahuan Zhou. 5790-5799 [doi]

Resisting Over-Smoothing in Graph Neural Networks via Dual-Dimensional DecouplingWei Shen, Mang Ye, Wenke Huang. 5800-5809 [doi]

Sentiment-oriented Sarcasm Integration for Video Sentiment Analysis Enhancement with Sarcasm AssistanceJunlin Fang, Wenya Wang, Guosheng Lin, Fengmao Lv. 5810-5819 [doi]

Observe before Generate: Emotion-Cause aware Video Caption for Multimodal Emotion Cause Generation in ConversationsFanfan Wang, Heqing Ma, Xiangqing Shen, Jianfei Yu, Rui Xia. 5820-5828 [doi]

Multi-Instance Multi-Label Learning for Text-motion RetrievalYang Yang 0121, Liyuan Cao, Haoyu Shi, Huaiwen Zhang. 5829-5837 [doi]

SOIL: Contrastive Second-Order Interest Learning for Multimodal RecommendationHongzu Su, Jingjing Li 0001, Fengling Li, Ke Lu 0001, Lei Zhu 0002. 5838-5846 [doi]

Visual Question Answering Driven Eye Tracking Paradigm for Identifying Children with Autism Spectrum DisorderJiansong Qi, Yaping Huang, Ying Zhang, Sihui Zhang, Mei Tian, Yi Tian, Fanchao Meng, Lin Guan, Tianyi Chang. 5847-5855 [doi]

TUT4CRS: Time-aware User-preference Tracking for Conversational Recommendation SystemDongxiao He, Jinghan Zhang, Xiaobao Wang, Meng Ge, Zhiyong Feng 0002, Longbiao Wang, Xiaoke Ma. 5856-5864 [doi]

A Multilevel Guidance-Exploration Network and Behavior-Scene Matching Method for Human Behavior Anomaly DetectionGuoqing Yang, Zhiming Luo, Jianzhe Gao, Yingxin Lai, Kun Yang, Yifan He, Shaozi Li. 5865-5873 [doi]

SkipVSR: Adaptive Patch Routing for Video Super-Resolution with Inter-Frame MaskZekun Ai, Xiaotong Luo, Yanyun Qu, Yuan Xie 0006. 5874-5882 [doi]

Similarity Preserving Transformer Cross-Modal Hashing for Video-Text RetrievalQianxin Huang, Siyao Peng, Xiaobo Shen 0001, Yunhao Yuan 0001, Shirui Pan. 5883-5891 [doi]

Reverse2Complete: Unpaired Multimodal Point Cloud Completion via Guided DiffusionWenxiao Zhang, Hossein Rahmani 0001, Xun Yang, Jun Liu 0036. 5892-5901 [doi]

Embodied Laser Attack: Leveraging Scene Priors to Achieve Agent-based Robust Non-contact AttacksYitong Sun, Yao Huang, Xingxing Wei. 5902-5910 [doi]

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics PerceptionYipo Huang, Xiangfei Sheng, Zhichao Yang 0013, Quan Yuan, Zhichao Duan, Pengfei Chen 0003, Leida Li, Weisi Lin, Guangming Shi. 5911-5920 [doi]

Learning Realistic Sketching: A Dual-agent Reinforcement Learning ApproachJi Qiu, Peng Lu, Xujun Peng, Wenhao Guo, Zhaoran Zhao, Xiangtao Dong. 5921-5929 [doi]

Graph Convolutional Semi-Supervised Cross-Modal HashingXiaobo Shen 0001, Gaoyao Yu, Yinfan Chen, Xichen Yang, Yuhui Zheng. 5930-5938 [doi]

Diffusion Facial Forgery DetectionHarry Cheng 0002, Yangyang Guo, Tianyi Wang 0006, Liqiang Nie, Mohan S. Kankanhalli. 5939-5948 [doi]

Regional Attention For Shadow RemovalHengxing Liu, Mingjia Li, Xiaojie Guo 0001. 5949-5957 [doi]

Robust Live Streaming over LEO Satellite Constellations: Measurement, Analysis, and Handover-Aware AdaptationHao Fang, Haoyuan Zhao, Jianxin Shi, Miao Zhang, Guanzhen Wu, Yi-Ching Chou, Feng Wang 0001, Jiangchuan Liu. 5958-5966 [doi]

Generalized Source-Free Domain-adaptive Segmentation via Reliable Knowledge PropagationQi Zang, Shuang Wang 0001, Dong Zhao, Yang Hu, Dou Quan, Jinlong Li, Nicu Sebe, Zhun Zhong. 5967-5976 [doi]

Emotion Recognition in HMDs: A Multi-task Approach Using Physiological Signals and Occluded FacesYunqiang Pei, Jialei Tang, Qihang Tang, Mingfeng Zha, Dongyu Xie, Guoqing Wang 0001, Zhitao Liu, Ning Xie 0003, Peng Wang 0023, Yang Yang 0002, Hengtao Shen. 5977-5986 [doi]

HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving ScenariosXiaochao Pan, Jiawei Yao, Hongrui Kou, Tong Wu, Canran Xiao. 5987-5996 [doi]

Boosting Audio Visual Question Answering via Key Semantic-Aware CuesGuangyao Li, Henghui Du, Di Hu 0001. 5997-6005 [doi]

HS-Surf: A Novel High-Frequency Surface Shell Radiance Field to Improve Large-Scale Scene RenderingJiongming Qin, Fei Luo 0004, Tuo Cao, Wenju Xu, Chunxia Xiao. 6006-6014 [doi]

Harmony in Diversity: Improving All-in-One Image Restoration via Multi-Task CollaborationGang Wu 0010, Junjun Jiang, Kui Jiang, Xianming Liu. 6015-6023 [doi]

Dual-head Genre-instance Transformer Network for Arbitrary Style TransferMeichen Liu, Shuting He, Songnan Lin, Bihan Wen. 6024-6032 [doi]

Subjective and Objective Quality-of-Experience Assessment for 3D Talking HeadsYingjie Zhou, Zicheng Zhang, Wei Sun 0029, Xiaohong Liu 0001, Xiongkuo Min, Guangtao Zhai. 6033-6042 [doi]

Gaussian Splatting with Neural Basis ExtensionZhi Zhou, Junke Zhu, Zhangjin Huang. 6043-6052 [doi]

Learning Unknowns from Unknowns: Diversified Negative Prototypes Generator for Few-shot Open-Set RecognitionZhenyu Zhang, Guangyao Chen, Yixiong Zou, Yuhua Li 0003, Ruixuan Li 0001. 6053-6062 [doi]

Spatial-Temporal Context Model for Remote Sensing Imagery CompressionJinxiao Zhang, Runmin Dong, Juepeng Zheng, Mengxuan Chen, Lixian Zhang, Yi Zhao, Haohuan Fu. 6063-6072 [doi]

Adaptive Pruning of Channel Spatial Dependability in Convolutional Neural NetworksWeiying Xie, Mei Yuan, Jitao Ma, Yunsong Li. 6073-6082 [doi]

SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image ClassificationHeng Fang, Sheng Huang 0001, Wenhao Tang, Luwen Huangfu, Bo Liu 0005. 6083-6092 [doi]

HMR-Adapter: A Lightweight Adapter with Dual-Path Cross Augmentation for Expressive Human Mesh RecoveryWenhao Shen, Wanqi Yin, Hao Wang 0094, Chen Wei, Zhongang Cai, Lei Yang 0045, Guosheng Lin. 6093-6102 [doi]

Task-Interaction-Free Multi-Task Learning with Efficient Hierarchical Feature RepresentationShalayiding Sirejiding, Bayram Bayramli, Yuxiang Lu, Yuwen Yang, Tamam Alsarhan, Hongtao Lu, Yue Ding 0001. 6103-6112 [doi]

EGGesture: Entropy-Guided Vector Quantized Variational AutoEncoder for Co-Speech Gesture GenerationYiyong Xiao, Kai Shu, Haoyi Zhang, Baohua Yin, Wai Seng Cheang, Haoyang Wang, Jiechao Gao. 6113-6122 [doi]

Audio-Driven Identity Manipulation for Face InpaintingYuqi Sun, Qing Lin, Weimin Tan, Bo Yan 0001. 6123-6132 [doi]

Text-Region Matching for Multi-Label Image Recognition with Missing LabelsLeilei Ma, Hongxing Xie, Lei Wang 0095, Yanping Fu, Dengdi Sun, Haifeng Zhao 0001. 6133-6142 [doi]

FlexIR: Towards Flexible and Manipulable Image RestorationZhengwei Yin, Guixu Lin, Mengshun Hu, Hao Zhang, Yinqiang Zheng. 6143-6152 [doi]

Swarical: An Integrated Hierarchical Approach to Localizing Flying Light SpecksHamed Alimohammadzadeh, Shahram Ghandeharizadeh. 6153-6161 [doi]

Frequency-Aware GAN for Imperceptible Transfer Attack on 3D Point CloudsXiaowen Cai, Yunbo Tao, Daizong Liu, Pan Zhou 0001, Xiaoye Qu, Jianfeng Dong, Keke Tang, Lichao Sun 0001. 6162-6171 [doi]

Explore Hybrid Modeling for Moving Infrared Small Target DetectionMingjin Zhang, Shilong Liu, Yuanjun Ouyang, Jie Guo 0009, Zhihong Tang, Yunsong Li. 6172-6181 [doi]

Enhancing Underwater Images via Asymmetric Multi-Scale Invertible NetworksYuhui Quan, Xiaoheng Tan, Yan Huang 0031, Yong Xu 0007, Hui Ji. 6182-6191 [doi]

SATPose: Improving Monocular 3D Pose Estimation with Spatial-aware Ground TactilityLishuang Zhan, Enting Ying, Jiabao Gan, Shihui Guo, Boyu Gao 0003, Yipeng Qin. 6192-6201 [doi]

Free Lunch: Frame-level Contrastive Learning with Text Perceiver for Robust Scene Text Recognition in Lightweight ModelsHongjian Zhan, Yangfu Li, Yu-Jie Xiong, Umapada Pal 0001, Yue Lu 0001. 6202-6211 [doi]

AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt TuningXin Wang 0119, Kai Chen 0027, Xingjun Ma, Zhineng Chen, Jingjing Chen, Yu-Gang Jiang. 6212-6221 [doi]

SAR-SLAM: Self-Attentive Rendering-based SLAM with Neural Point Cloud EncodingXudong Lv, Zhiwei He 0001, Yuxiang Yang, Jiahao Nie 0001, Jing Zhang 0037. 6222-6231 [doi]

SceneExpander: Real-Time Scene Synthesis for Interactive Floor Plan EditingShao-Kui Zhang, Junkai Huang, Liang Yue, Jia-Tong Zhang, Jia-Hong Liu, Yu-Kun Lai, Song-Hai Zhang. 6232-6240 [doi]

FOCT: Few-shot Industrial Anomaly Detection with Foreground-aware Online Conditional TransportLong Tian, Hongyi Zhao, Ruiying Lu, Rongrong Wang, Yujie Wu, Liming Wang, Xiongpeng He, Xiyang Liu. 6241-6249 [doi]

Universal Frequency Domain Perturbation for Single-Source Domain GeneralizationChuang Liu, Yichao Cao, Xiu Su, Haogang Zhu. 6250-6259 [doi]

Domain-Conditioned Transformer for Fully Test-time AdaptationYushun Tang, Shuoshuo Chen, Jiyuan Jia, Yi Zhang, Zhihai He. 6260-6269 [doi]

SpecGaussian with Latent Features: A High-quality Modeling of the View-dependent Appearance for 3D Gaussian SplattingZhiru Wang, Shiyun Xie, Chengwei Pan, Guoping Wang. 6270-6278 [doi]

Prior Metadata-Driven RAW Reconstruction: Eliminating the Need for Per-Image MetadataWencheng Han, Chen Zhang, Yang Zhou, Wentao Liu 0002, Chen Qian 0006, Chengzhong Xu 0001, Jianbing Shen. 6279-6287 [doi]

EMVCC: Enhanced Multi-View Contrastive Clustering for Hyperspectral ImagesFulin Luo, Yi Liu, Xiuwen Gong, Zhixiong Nan, Tan Guo. 6288-6296 [doi]

FRADE: Forgery-aware Audio-distilled Multimodal Learning for Deepfake DetectionFan Nie, Jiangqun Ni, Jian Zhang, Bin Zhang 0048, Weizhe Zhang. 6297-6306 [doi]

UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain AdaptationSiru Zhong, Xixuan Hao, Yibo Yan, Ying Zhang 0047, Yangqiu Song, Yuxuan Liang. 6307-6315 [doi]

MiNet: Weakly-Supervised Camouflaged Object Detection through Mutual Interaction between Region and Edge CuesYuzhen Niu, Lifen Yang, Rui Xu, Yuezhou Li, Yuzhong Chen. 6316-6325 [doi]

PixelFade: Privacy-preserving Person Re-identification with Noise-guided Progressive ReplacementDelong Zhang, Yi-Xing Peng, Xiao-Ming Wu 0002, Ancong Wu, Weishi Zheng 0001. 6326-6334 [doi]

MetaDragonBoat: Exploring Paddling Techniques of Virtual Dragon Boating in a Metaverse CampusWei He, Xiang Li 0101, Shengtian Xu, Yuzheng Chen, Chan-In Sio, Ge Lin Kan, Lik Hang Lee. 6335-6344 [doi]

VoxelTrack: Exploring Multi-level Voxel Representation for 3D Point Cloud Object TrackingYuxuan Lu 0007, Jiahao Nie 0001, Zhiwei He 0001, Hongjie Gu, Xudong Lv. 6345-6354 [doi]

Two Teachers Are Better Than One: Semi-supervised Elliptical Object Detection by Dual-Teacher Collaborative GuidanceYu Liu 0012, Longhan Feng, Qi Jia 0001, Zezheng Liu, Zi-Huang Cao. 6355-6363 [doi]

Dual-view Pyramid Network for Video Frame InterpolationYao Luo, Ming Yang 0014, Jinhui Tang 0001. 6364-6373 [doi]

Suppressing Uncertainties in Degradation Estimation for Blind Super-ResolutionJunxiong Lin, Zen Tao, Xuan Tong, Xinji Mai, Haoran Wang, Boyang Wang, Yan Wang 0068, Qing Zhao 0007, Jiawen Yu, Yuxuan Lin, Shaoqi Yan, Shuyong Gao, Wenqiang Zhang. 6374-6383 [doi]

Informative Point cloud Dataset Extraction for Classification via Gradient-based Points MovingWenxiao Zhang, Ziqi Wang, Li Xu, Xun Yang, Jun Liu 0036. 6384-6393 [doi]

Controllable Procedural Generation of LandscapesJia-Hong Liu, Shao-Kui Zhang, Chuyue Zhang, Song-Hai Zhang. 6394-6403 [doi]

Uni-DlLoRA: Style Fine-Tuning for Fashion Image TranslationFangjian Liao, Xingxing Zou, Waikeung Wong. 6404-6413 [doi]

MegaSurf: Scalable Large Scene Neural Surface ReconstructionYusen Wang, Kaixuan Zhou, Wenxiao Zhang, Chunxia Xiao. 6414-6423 [doi]

Deformable NeRF using Recursively Subdivided TetrahedraZherui Qiu, Chenqu Ren, Kaiwen Song, Xiaoyi Zeng, Leyuan Yang, Juyong Zhang. 6424-6432 [doi]

Aspect-Based Multimodal Mining: Unveiling Sentiments, Complaints, and Beyond in User-Generated ContentMamta, Gopendra Vikram Singh, Deepak Raju Kori, Asif Ekbal. 6433-6442 [doi]

InsVP: Efficient Instance Visual Prompting from Image ItselfZichen Liu, Yuxin Peng, Jiahuan Zhou. 6443-6452 [doi]

S2TD-Face: Reconstruct a Detailed 3D Face with Controllable Texture from a Single SketchZidu Wang, Xiangyu Zhu 0001, Jiang Yu, Tianshuo Zhang, Zhen Lei 0001. 6453-6462 [doi]

Prompt-Guided Image-Adaptive Neural Implicit Lookup Tables for Interpretable Image EnhancementSatoshi Kosugi. 6463-6471 [doi]

Counterfactually Augmented Event Matching for De-biased Temporal Sentence GroundingXun Jiang 0001, Zhuoyuan Wei, Shenshen Li, Xing Xu 0001, Jingkuan Song, Heng Tao Shen. 6472-6481 [doi]

Stay Focused is All You Need for Adversarial RobustnessBingzhi Chen, Ruihan Liu, Yishu Liu, Xiaozhao Fang, Jiahui Pan, Guangming Lu, Zheng Zhang 0006. 6482-6491 [doi]

Mitigating World Biases: A Multimodal Multi-View Debiasing Framework for Fake News Video DetectionZhi Zeng, Minnan Luo, Xiangzheng Kong, Huan Liu 0012, Hao Guo, Hao Yang, Zihan Ma, Xiang Zhao 0002. 6492-6500 [doi]

Optical Flow-Guided 6DoF Object Pose Tracking with an Event CameraZibin Liu, Banglei Guan, Yang Shang, Shunkun Liang, Zhenbao Yu, Qifeng Yu. 6501-6509 [doi]

Uncovering Capabilities of Model Pruning in Graph Contrastive LearningJunran Wu, Xueyuan Chen, Shangzhe Li. 6510-6519 [doi]

Hearing the Moment with MetaEcho! From Physical to Virtual in Synchronized Sound RecordingZheng Wei, Yuzheng Chen, Wai Tong, Xuan Zong, Huamin Qu, Xian Xu, Lik Hang Lee. 6520-6529 [doi]

PercepLIE: A New Path to Perceptual Low-Light Image EnhancementCong Wang 0018, Chengjin Yu, Jie Mu, Wei Wang 0335. 6530-6539 [doi]

Advancing Quantization Steps Estimation: A Two-Stream Network Approach for Enhancing RobustnessXin Cheng, Hao Wang 0060, Jinwei Wang, Xiangyang Luo, Bin Ma 0003. 6540-6548 [doi]

VmambaSCI: Dynamic Deep Unfolding Network with Mamba for Compressive Spectral ImagingMingjin Zhang, Longyi Li, Wenxuan Shi, Jie Guo 0009, Yunsong Li, Xinbo Gao 0001. 6549-6558 [doi]

Speech Reconstruction from Silent Lip and Tongue Articulation by Diffusion Models and Text-Guided Pseudo Target GenerationRui-Chen Zheng, Yang Ai, Zhen-Hua Ling. 6559-6568 [doi]

R4D-planes: Remapping Planes For Novel View Synthesis and Self-Supervised Decoupling of Monocular VideosJunyuan Guo, Hao Tang, Teng Wang, Chao Wang 0003. 6569-6577 [doi]

Progressive Point Cloud Denoising with Cross-Stage Cross-Coder Adaptive Edge Graph Convolution NetworkWu Chen, Hehe Fan, Qiuping Jiang, Chao Huang 0008, Yi Yang 0001. 6578-6587 [doi]

IF-Garments: Reconstructing Your Intersection-Free Multi-Layered Garments from Monocular VideosMingyang Sun, Qipeng Yan, Zhuoer Liang, Dongliang Kou, Dingkang Yang, Ruisheng Yuan, Xiao Zhao, Mingcheng Li, Lihua Zhang. 6588-6597 [doi]

Adaptive Query Selection for Camouflaged Instance SegmentationBo Dong, Pichao Wang, Hao Luo 0004, Fan Wang 0019. 6598-6606 [doi]

TAVGBench: Benchmarking Text to Audible-Video GenerationYuxin Mao, Xuyang Shen, Jing Zhang 0052, Zhen Qin, Jinxing Zhou, Mochu Xiang, Yiran Zhong, Yuchao Dai. 6607-6616 [doi]

MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D PriorsYuan Tang, Xu Han 0013, Xianzhi Li, Qiao Yu, Yixue Hao, Long Hu, Min Chen 0003. 6617-6626 [doi]

3D Gaussian Editing with A Single ImageGuan Luo, Tian-Xing Xu, Ying-Tian Liu, Xiaoxiong Fan, Fang-Lue Zhang, Song-Hai Zhang. 6627-6636 [doi]

EGGen: Image Generation with Multi-entity Prior Learning through Entity GuidanceZhenhong Sun, Junyan Wang 0001, Zhiyu Tan, Daoyi Dong, Hailan Ma, Hao Li 0030, Dong Gong. 6637-6645 [doi]

Latent Representation Reorganization for Face Privacy ProtectionZhengzhong Kuang, Jianan Lu, Chenhui Hong, Haobin Huang, Suguo Zhu, Xiaowei Zhao, Jun Yu 0002, Jianping Fan 0007. 6646-6655 [doi]

Uncertainty-Aware Pseudo-Labeling and Dual Graph Driven Network for Incomplete Multi-View Multi-Label ClassificationWulin Xie, Xiaohuan Lu, Yadong Liu, Jiang Long, Bob Zhang 0001, Shuping Zhao, Jie Wen 0001. 6656-6665 [doi]

FedDEO: Description-Enhanced One-Shot Federated Learning with Diffusion ModelsMingzhao Yang, Shangchao Su, Bin Li 0015, Xiangyang Xue 0001. 6666-6675 [doi]

Advancing Generalized Deepfake Detector with Forgery Perception GuidanceRuiyang Xia, Dawei Zhou 0004, Decheng Liu, Lin Yuan, Shuodi Wang, Jie Li 0001, Nannan Wang 0001, Xinbo Gao 0001. 6676-6685 [doi]

Dig into Detailed Structures: Key Context Encoding and Semantic-based Decoding for Point Cloud CompletionHongye Hou, Xuehao Gao, Zhan Liu, Yang Yang 0066. 6686-6695 [doi]

AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion EncodingTao Liu, Feilong Chen, Shuai Fan 0005, Chenpeng Du, Qi Chen, Xie Chen 0001, Kai Yu 0004. 6696-6705 [doi]

A Novel Confidence Guided Training Method for Conditional GANs with Auxiliary ClassifierQi Chen, Wenjie Liu, Hu Ding. 6706-6714 [doi]

Consistent123: One Image to Highly Consistent 3D Asset Using Case-Aware Diffusion PriorsYukang Lin, Haonan Han, Chaoqun Gong, Zunnan Xu, Yachao Zhang 0001, Xiu Li 0001. 6715-6724 [doi]

Improving the Training of the GANs with Limited Data via Dual Adaptive Noise InjectionZhaoyu Zhang, Yang Hua, Guanxiong Sun, Hui Wang 0001, Seán F. McLoone. 6725-6734 [doi]

FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion ModelsChanggu Chen, Libing Yang, Xiaoyan Yang, Lianggangxu Chen, Gaoqi He, Changbo Wang, Yang Li 0041. 6735-6744 [doi]

Fuse Your Latents: Video Editing with Multi-source Latent Diffusion ModelsTianyi Lu, Xing Zhang 0013, Jiaxi Gu, Renjing Pei, Songcen Xu, Xingjun Ma, Hang Xu, Zuxuan Wu. 6745-6754 [doi]

Freehand Sketch Generation from Mechanical ComponentsZhichao Liao, Fengyuan Piao, Di Huang, Xinghui Li, Yue Ma, Pingfa Feng, Heming Fang, Long Zeng. 6755-6764 [doi]

Audio Deepfake Detection with Self-Supervised XLS-R and SLS ClassifierQishan Zhang, Shuangbing Wen, Tao Hu. 6765-6773 [doi]

Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion GenerationBohong Chen 0004, Yumeng Li, Yao-Xiang Ding 0001, Tianjia Shao, Kun Zhou 0001. 6774-6783 [doi]

MultiColor: Image Colorization by Learning from Multiple Color SpacesXiangcheng Du, Zhao Zhou, Xingjiao Wu, Yanlong Wang, Zhuoyao Wang, Yingbin Zheng, Cheng Jin 0001. 6784-6792 [doi]

DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image EditingHaozhe Jia, Yan Li, Hengfei Cui, Di Xu, Yuwang Wang, Tao Yu 0007. 6793-6802 [doi]

A General Framework to Boost 3D GS Initialization for Text-to-3D Generation by Lexical RichnessLutao Jiang, Hangyu Li, Lin Wang 0025. 6803-6812 [doi]

Understanding the Impact of AI-Generated Content on Social Media: The Pixiv CaseYiluo Wei, Gareth Tyson. 6813-6822 [doi]

Mesh-Centric Gaussian Splatting for Human Avatar Modelling with Real-time Dynamic Mesh ReconstructionRuiqi Zhang, Jie Chen 0026. 6823-6832 [doi]

Real-time Parameter Evaluation of High-speed Microfluidic Droplets using Continuous Spike StreamsBo Xiong, Changqing Su, Zihan Lin, Yanqin Chen, You Zhou, Zhen Cheng, Zhaofei Yu, Tiejun Huang 0001. 6833-6841 [doi]

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted GuidanceQi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou. 6842-6850 [doi]

Controllable Music Loops Generation with MIDI and Text via Multi-Stage Cross Attention and Instrument-Aware Reinforcement LearningGuan-Yuan Chen, Von-Wun Soo. 6851-6859 [doi]

3Gen: Efficient, Expressive and Editable Avatars GenerationWeitian Zhang, Yichao Yan, Yunhui Liu 0006, Xingdong Sheng, Xiaokang Yang. 6860-6869 [doi]

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion ModelsHaibo Yang 0002, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei 0001. 6870-6879 [doi]

PlacidDreamer: Advancing Harmony in Text-to-3D GenerationShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia 0001. 6880-6889 [doi]

Streamable Portrait Video Editing with Probabilistic Pixel CorrespondenceXiaodi Li. 6890-6899 [doi]

What's the Real: A Novel Design Philosophy for Robust AI-Synthesized Voice DetectionXuan Hai, Xin Liu 0050, yuan Tan, Gang Liu, Song Li 0006, Weina Niu, Rui Zhou 0005, Xiaokang Zhou. 6900-6909 [doi]

CodeSwap: Symmetrically Face Swapping Based on Prior CodebookXiangyang Luo, Xin Zhang, Yifan Xie, Xinyi Tong, Weijiang Yu, Heng Chang, Fei Ma, Fei Richard Yu. 6910-6919 [doi]

White-box Multimodal Jailbreaks Against Large Vision-Language ModelsRuofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye, Yu-Gang Jiang. 6920-6928 [doi]

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language ModelAnwen Hu, Yaya Shi, Haiyang Xu, Jiabo Ye, Qinghao Ye, Ming Yan, Chenliang Li, Qi Qian 0001, Ji Zhang 0011, Fei Huang 0004. 6929-6938 [doi]

Magic Clothing: Controllable Garment-Driven Image SynthesisWeifeng Chen, Tao Gu, Yuhao Xu, Arlene Chen. 6939-6948 [doi]

Exploring the Use of Abusive Generative AI Models on CivitaiYiluo Wei, Yiming Zhu, Pan Hui 0001, Gareth Tyson. 6949-6958 [doi]

Reason-and-Execute Prompting: Enhancing Multi-Modal Large Language Models for Solving Geometry QuestionsXiuliang Duan, Dating Tan, Liangda Fang, Yuyu Zhou, Chaobo He, Ziliang Chen, Lusheng Wu, Guanliang Chen, Zhiguo Gong, Weiqi Luo 0002, Quanlong Guan. 6959-6968 [doi]

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday TaskWeiYe Xu, Min Wang 0019, Wengang Zhou, Houqiang Li. 6969-6978 [doi]

When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following AbilityWenjie Xuan, Yufei Xu, Shanshan Zhao 0001, Chaoyue Wang, Juhua Liu, Bo Du 0001, Dacheng Tao. 6979-6988 [doi]

SATO: Stable Text-to-Motion FrameworkWenshuo Chen, Hongru Xiao, Erhang Zhang, Lijie Hu, Lei Wang 0108, Mengyuan Liu, Chen Chen 0001. 6989-6997 [doi]

FlashSpeech: Efficient Zero-Shot Speech SynthesisZhen Ye, Zeqian Ju, Haohe Liu, Xu Tan 0003, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Wei Xue, Qifeng Liu, Yike Guo. 6998-7007 [doi]

AudioLCM: Efficient and High-Quality Text-to-Audio Generation with Minimal Inference StepsHuadai Liu, Rongjie Huang, Yang Liu, Hengyuan Cao, Jialei Wang, Xize Cheng, Siqi Zheng, Zhou Zhao. 7008-7017 [doi]

Generative Motion Stylization of Cross-structure Characters within Canonical Motion SpaceJiaxu Zhang, Xin Chen 0059, Gang Yu 0002, Zhigang Tu 0001. 7018-7026 [doi]

Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture GenerationFengqi Liu, Hexiang Wang, Jingyu Gong, Ran Yi, Qianyu Zhou 0001, Xuequan Lu, Jiangbo Lu, Lizhuang Ma. 7027-7035 [doi]

Non-uniform Timestep Sampling: Towards Faster Diffusion Model TrainingTianyi Zheng, Cong Geng, Peng-Tao Jiang, Ben Wan, Hao Zhang, Jinwei Chen, Jia Wang 0004, Bo Li 0115. 7036-7045 [doi]

GAN-based Symmetric Embedding Costs Adjustment for Enhancing Image Steganographic SecurityMiaoxin Ye, Saixing Zhou, Weiqi Luo 0001, Shunquan Tan, Jiwu Huang. 7046-7054 [doi]

GOAL: Grounded text-to-image Synthesis with Joint Layout Alignment TuningYaqi Li, Han Fang, Zerun Feng, Kaijing Ma, Chao Ban, Xianghao Zang, Lanxiang Zhou, Zhongjiang He, Jingyan Chen, Jiani Hu, Hao Sun, Huayu Zhang. 7055-7064 [doi]

DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting LayerJinfeng Wei, Xiaofeng Zhang. 7065-7074 [doi]

FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising ProcessYang Luo, Yiheng Zhang, Zhaofan Qiu, Ting Yao, Zhineng Chen, Yu-Gang Jiang, Tao Mei 0001. 7075-7084 [doi]

HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional InpaintingWenquan Lu, Yufei Xu, Jing Zhang 0037, Chaoyue Wang, Dacheng Tao. 7085-7093 [doi]

ListenFormer: Responsive Listening Head Generation with Non-autoregressive TransformersMiao Liu, Jing Wang 0037, Xinyuan Qian, Haizhou Li 0001. 7094-7103 [doi]

Prompting to Adapt Foundational Segmentation ModelsJie Hu 0018, Jie Li 0052, Yue Ma, Liujuan Cao, Songan Zhang, Wei Zhang 0217, Guannan Jiang, Rongrong Ji. 7104-7112 [doi]

Safe-SD: Safe and Traceable Stable Diffusion with Text Prompt Trigger for Invisible Generative WatermarkingZhiyuan Ma 0005, Guoli Jia, Biqing Qi, Bowen Zhou. 7113-7122 [doi]

Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-ConcatenationJin Sun 0005, Xiaoshuang Shi, Zhiyuan Wang, Kaidi Xu, Heng Tao Shen, Xiaofeng Zhu 0001. 7123-7132 [doi]

GPD-VVTO: Preserving Garment Details in Video Virtual Try-OnYuanbin Wang, Weilun Dai, Long Chan, Huanyu Zhou, Aixi Zhang, Si Liu 0001. 7133-7142 [doi]

TextGaze: Gaze-Controllable Face Generation with Natural LanguageHengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang. 7143-7151 [doi]

ViewPCGC: View-Guided Learned Point Cloud Geometry CompressionHuiming Zheng, Wei Gao 0003, Zhuozhen Yu, Tiesong Zhao, Ge Li 0002. 7152-7161 [doi]

One-bit Deep Hashing: Towards Resource-Efficient Hashing Model with Binary Neural NetworkLiyang He, Zhenya Huang, Chenglong Liu, Rui Li 0093, Runze Wu, Qi Liu 0003, Enhong Chen. 7162-7171 [doi]

Decoupling General and Personalized Knowledge in Federated Learning via Additive and Low-rank DecompositionXinghao Wu, Xuefeng Liu 0001, Jianwei Niu 0002, Haolin Wang, Shaojie Tang 0001, Guogang Zhu, Hao Su. 7172-7181 [doi]

FedSLS: Exploring Federated Aggregation in Saliency Latent SpaceHengyi Wang, Weiying Xie, Jitao Ma, Daixun Li, Yunsong Li. 7182-7190 [doi]

FedEvalFair: A Privacy-Preserving and Statistically Grounded Federated Fairness Evaluation FrameworkZhongchi Wang, Hailong Sun 0001, Zhengyang Zhao. 7191-7199 [doi]

Zenith: Real-time Identification of DASH Encrypted Video Traffic with DistortionWeitao Tang, JianQiang Li, Meijie Du, Die Hu, Qingyun Liu. 7200-7209 [doi]

Lumos: Optimizing Live 360-degree Video Upstreaming via Spatial-Temporal Integrated Neural EnhancementBeizhang Guo, Juntao Bao, Baili Chai, Di Wu 0001, Miao Hu. 7210-7219 [doi]

Learning from Concealed LabelsZhongnian Li, Meng Wei, Peng Ying, Tongfeng Sun, Xinzheng Xu. 7220-7228 [doi]

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video AnalyticsXiangxiang Dai, Zeyu Zhang, Peng Yang 0004, Yuedong Xu, Xutong Liu 0002, John C. S. Lui. 7229-7238 [doi]

GSLAMOT: A Tracklet and Query Graph-based Simultaneous Locating, Mapping, and Multiple Object Tracking SystemShuo Wang, Yongcai Wang, Zhimin Xu, Yongyu Guo, Wanting Li, Zhe Huang, Xuewei Bai, Deying Li 0001. 7239-7248 [doi]

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment RetrievalYiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li 0001. 7249-7258 [doi]

Unveiling and Mitigating Bias in Audio Visual SegmentationPeiwen Sun, Honggang Zhang 0002, Di Hu 0001. 7259-7268 [doi]

Dynamic Evidence Decoupling for Trusted Multi-view LearningYing Liu, Lihong Liu, Cai Xu, Xiangyu Song, Ziyu Guan, Wei Zhao 0019. 7269-7277 [doi]

Building Trust in Decision with Conformalized Multi-view Deep ClassificationWei Liu 0027, Yufei Chen 0002, Xiaodong Yue. 7278-7287 [doi]

Toward Explainable Physical Audiovisual Commonsense ReasoningDaoming Zong, Chaoyue Ding, Kaitao Chen. 7288-7297 [doi]

Peeling Back the Layers: Interpreting the Storytelling of ViTJingjie Zeng, Zhihao Yang, Qi Yang, Liang Yang 0003, Hongfei Lin. 7298-7306 [doi]

Investigating Conceptual Blending of a Diffusion Model for Improving Nonword-to-Image GenerationChihaya Matsuhira, Marc A. Kastner 0001, Takahiro Komamizu, Takatsugu Hirayama, Ichiro Ide. 7307-7315 [doi]

Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video UnderstandingMinghui Wu, Chenxu Zhao, Anyang Su, Donglin Di, Tianyu Fu 0001, Da An, Min He, Ya Gao, Meng Ma, Kun Yan, Ping Wang 0003. 7316-7325 [doi]

MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image FusionYanglin Deng, Tianyang Xu, Chunyang Cheng, Xiao-Jun Wu 0001, Josef Kittler. 7326-7335 [doi]

Generative Multimodal Data Augmentation for Low-Resource Multimodal Named Entity RecognitionZiyan Li, Jianfei Yu, Jia Yang, Wenya Wang, Li Yang, Rui Xia. 7336-7345 [doi]

WorldGPT: Empowering LLM as Multimodal World ModelZhiqi Ge, Hongzhe Huang, Mingze Zhou, Juncheng Li 0006, Guoming Wang, Siliang Tang, Yueting Zhuang. 7346-7355 [doi]

Advancing Multi-grained Alignment for Contrastive Language-Audio Pre-trainingYiming Li, Zhifang Guo, Xiangdong Wang, Hong Liu 0007. 7356-7365 [doi]

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal FusionYingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui. 7366-7374 [doi]

G-Refine: A General Quality Refiner for Text-to-Image GenerationChunyi Li, Haoning Wu 0001, Hongkun Hao, Zicheng Zhang, Tengchuan Kou, Chaofeng Chen, Lei Bai 0001, Xiaohong Liu 0001, Weisi Lin, Guangtao Zhai. 7375-7384 [doi]

Point Cloud Upsampling with Geometric Algebra Driven Inverse Heat DissipationWenqiang Xu, Wenrui Dai, Ziyang Zheng, Chenglin Li, Junni Zou, Hongkai Xiong. 7385-7394 [doi]

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and LocalizationJunyan Wu, Wei Lu 0001, Xiangyang Luo, Rui Yang, Qian Wang 0002, Xiaochun Cao. 7395-7403 [doi]

Ada-iD: Active Domain Adaptation for Intrusion DetectionFujun Han, Peng Ye, Shukai Duan, Lidan Wang 0001. 7404-7413 [doi]

AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake DatasetZhixi Cai, Shreya Ghosh 0001, Aman Pankaj Adatia, Munawar Hayat, Abhinav Dhall, Tom Gedeon, Kalin Stefanov. 7414-7423 [doi]

DQG: Database Question Generation for Exact Text-based Image RetrievalRintaro Yanagi, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 7424-7433 [doi]

DMFourLLIE: Dual-Stage and Multi-Branch Fourier Network for Low-Light Image EnhancementTongshun Zhang, Pingping Liu, Ming Zhao, Haotian Lv. 7434-7443 [doi]

AesMamba: Universal Image Aesthetic Assessment with State Space ModelsFei Gao 0006, Yuhao Lin, Jiaqi Shi, Maoying Qiao, Nannan Wang 0001. 7444-7453 [doi]

MovingColor: Seamless Fusion of Fine-grained Video Color EnhancementYi Dong, Yuxi Wang, Zheng Fang 0008, Wenqi Ouyang, Xianhui Lin, Zhiqi Shen 0001, Peiran Ren, Xuansong Xie, Qingming Huang. 7454-7463 [doi]

FreePIH: Training-Free Painterly Image Harmonization with Diffusion ModelRuibin Li, Jingcai Guo, Qihua Zhou, Song Guo 0001. 7464-7473 [doi]

Portrait Shadow Removal via Self-Exemplar Illumination EqualizationQian Huang, Cheng Xu, Guiqing Li, Ziheng Wu, Shengxin Liu, Shengfeng He. 7474-7482 [doi]

Perceptual-Distortion Balanced Image Super-Resolution is a Multi-Objective Optimization ProblemQiwen Zhu, Yanjie Wang, Shilv Cai, Liqun Chen, Jiahuan Zhou, Luxin Yan, Sheng Zhong 0001, Xu Zou. 7483-7492 [doi]

MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and BilibiliHan Wang, Tan Rui Yang, Usman Naseem, Roy Ka-Wei Lee. 7493-7502 [doi]

OpenAVE: Moving towards Open Set Audio-Visual Event LocalizationJiale Yu, Baopeng Zhang, Zhu Teng, Jianping Fan 0007. 7503-7512 [doi]

UniStyle: Unified Style Modeling for Speaking Style Captioning and Stylistic Speech SynthesisXinfa Zhu, WenJie Tian, Xinsheng Wang, Lei He 0005, Yujia Xiao, Xi Wang 0016, Xu Tan 0003, Sheng Zhao, Lei Xie 0001. 7513-7522 [doi]

From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency LearningZhedong Zhang, Liang Li 0003, Gaoxiang Cong, Haibing Yin, YuHan Gao, Chenggang Yan 0001, Anton van den Hengel, Yuankai Qi. 7523-7532 [doi]

Open-Vocabulary Audio-Visual Semantic SegmentationRuohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying. 7533-7541 [doi]

Diversified Semantic Distribution Matching for Dataset DistillationHongcheng Li, Yucan Zhou, Xiaoyan Gu, Bo Li 0063, Weiping Wang 0005. 7542-7550 [doi]

Modality-Balanced Learning for Multimedia RecommendationJinghao Zhang, Guofan Liu, Qiang Liu 0006, Shu Wu, Liang Wang 0001. 7551-7560 [doi]

Query Augmentation with Brain SignalsZiyi Ye, Jingtao Zhan, Qingyao Ai, Yiqun Liu 0001, Maarten de Rijke, Christina Lioma, Tuukka Ruotsalo. 7561-7570 [doi]

Self-derived Knowledge Graph Contrastive Learning for RecommendationLei Shi, Jiapeng Yang, Pengtao Lv, Lu Yuan, Feifei Kou, Jia Luo 0001, Mingying Xu. 7571-7580 [doi]

Mitigating Sample Selection Bias with Robust Domain Adaption in Multimedia RecommendationJiaye Lin, Qing Li 0006, Guorui Xie, Zhongxu Guan, Yong Jiang 0001, Ting Xu, Zhong Zhang, Peilin Zhao. 7581-7590 [doi]

DiffMM: Multi-Modal Diffusion Model for RecommendationYangqin Jiang, Lianghao Xia, Wei Wei 0027, Da Luo, Kangyi Lin, Chao Huang 0001. 7591-7599 [doi]

U2UData: A Large-scale Cooperative Perception Dataset for Swarm UAVs Autonomous FlightTongtong Feng, Xin Wang 0019, Feilin Han, Leping Zhang, Wenwu Zhu 0001. 7600-7608 [doi]

Neural Boneprint: Person Identification from Bones Using Generative Contrastive Deep LearningChaoqun Niu, Dongdong Chen 0004, Jizhe Zhou, Jian Wang, Xiang Luo, Quan-Hui Liu, Yuan Li, Jiancheng Lv 0001. 7609-7618 [doi]

Fine-Grained Prompt Learning for Face Anti-SpoofingXueli Hu, Huan Liu, Haocheng Yuan, Zhiyang Fu, Yizhi Luo, Ning Zhang, Hang Zou, Jianwen Gan, Yuan Zhang. 7619-7628 [doi]

Towards Practical Human Motion Prediction with LiDAR Point CloudsXiao Han, Yiming Ren, Yichen Yao, Yujing Sun, Yuexin Ma. 7629-7638 [doi]

Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed EnvironmentsHaodong Hong, Sen Wang 0001, Zi Huang, Qi Wu 0001, Jiajun Liu. 7639-7648 [doi]

De-fine: Decomposing and Refining Visual Programs with Auto-FeedbackMinghe Gao, Juncheng Li 0006, Hao Fei 0001, Liang Pang, Wei Ji 0008, Guoming Wang, Zheqi Lv, Wenqiao Zhang, Siliang Tang, Yueting Zhuang. 7649-7657 [doi]

Virtual Agent Positioning Driven by Personal CharacteristicsJingjing Liu, Youyi Zheng, Kun Zhou 0001. 7658-7666 [doi]

PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment AnalysisMeng Luo, Hao Fei 0001, Bobo Li, Shengqiong Wu, Qian Liu 0012, Soujanya Poria, Erik Cambria, Mong-Li Lee, Wynne Hsu. 7667-7676 [doi]

Video Bokeh Rendering: Make Casual Videography CinematicYawen Luo, Min Shi 0004, Liao Shen, Yachuan Huang, Zixuan Ye, Juewen Peng, Zhiguo Cao 0001. 7677-7685 [doi]

MICM: Rethinking Unsupervised Pretraining for Enhanced Few-shot LearningZhenyu Zhang, Guangyao Chen, Yixiong Zou, Zhimeng Huang, Yuhua Li 0003, Ruixuan Li 0001. 7686-7695 [doi]

An In-depth Study of Bandwidth Allocation across Media Sources in Video ConferencingZejun Zhang, Xiao Zhu 0001, Anlan Zhang, Feng Qian 0001. 7696-7704 [doi]

Once-for-all: Efficient Visual Face Privacy Protection via Person-specific VeilsZixuan Yang, Yushu Zhang 0001, Tao Wang 0026, Zhongyun Hua, Zhihua Xia, Jian Weng 0001. 7705-7713 [doi]

Reproducing the Past: A Dataset for Benchmarking Inscription RestorationShipeng Zhu, Hui Xue 0002, Na Nie, Chenjie Zhu, Haiyue Liu, Pengfei Fang. 7714-7723 [doi]

Reconstructing, Understanding, and Analyzing Relief Type Cultural Heritage from a Single Old PhotoJiao Pan, Liang Li 0002, Hiroshi Yamaguchi, Kyoko Hasegawa, Fadjar Ibnu Thufail, Brahmantara, Xiaojuan Ban, Satoshi Tanaka. 7724-7733 [doi]

GalleryGPT: Analyzing Paintings with Large Multimodal ModelsYi Bin, Wenhao Shi, Yujuan Ding, Zhiqiang Hu, Zheng Wang 0044, Yang Yang 0002, See-Kiong Ng, Heng Tao Shen. 7734-7743 [doi]

Cognition-Supervised Saliency Detection: Contrasting EEG Signals and Visual StimuliJun Ma, Tuukka Ruotsalo. 7744-7753 [doi]

RoSe: Rotation-Invariant Sequence-Aware Consensus for Robust Correspondence PruningYizhang Liu, Weiwei Zhou, Yanping Li, Shengjie Zhao. 7754-7763 [doi]

ScanTD: 360° Scanpath Prediction based on Time-Series DiffusionYujia Wang, Fang-Lue Zhang, Neil A. Dodgson. 7764-7773 [doi]

SafePaint: Anti-forensic Image Inpainting with Domain AdaptationDunyun Chen, Xin Liao, Xiaoshuai Wu, Shiwei Chen. 7774-7782 [doi]

LMM-PCQA: Assisting Point Cloud Quality Assessment with LMMZicheng Zhang, Haoning Wu 0001, Yingjie Zhou, Chunyi Li, Wei Sun 0029, Chaofeng Chen, Xiongkuo Min, Xiaohong Liu 0001, Weisi Lin, Guangtao Zhai. 7783-7792 [doi]

Subjective-Aligned Dataset and Metric for Text-to-Video Quality AssessmentTengchuan Kou, Xiaohong Liu 0001, Zicheng Zhang, Chunyi Li, Haoning Wu 0001, Xiongkuo Min, Guangtao Zhai, Ning Liu. 7793-7802 [doi]

Large Multi-modality Model Assisted AI-Generated Image Quality AssessmentPuyi Wang, Wei Sun 0029, Zicheng Zhang, Jun Jia, Yanwei Jiang, Zhichao Zhang, Xiongkuo Min, Guangtao Zhai. 7803-7812 [doi]

Deciphering Perceptual Quality in Colored Point Cloud: Prioritizing Geometry or Texture Distortion?Xuemei Zhou, Irene Viola 0001, Yunlu Chen, Jiahuan Pei, Pablo César. 7813-7822 [doi]

Dual-Criterion Quality Loss for Blind Image Quality AssessmentDesen Yuan, Lei Wang 0186. 7823-7832 [doi]

RoCo: Robust Cooperative Perception By Iterative Object Matching and Pose AdjustmentZhe Huang, Shuo Wang, Yongcai Wang, Wanting Li, Deying Li 0001, Lei Wang 0001. 7833-7842 [doi]

ScenePhotographer: Object-Oriented Photography for Residential ScenesShao-Kui Zhang, Hanxi Zhu, Xuebin Chen, Jinghuan Chen, Zhike Peng, Ziyang Chen, Yong-Liang Yang, Song-Hai Zhang. 7843-7851 [doi]

3D-GRES: Generalized 3D Referring Expression SegmentationChangli Wu, Yihang Liu, Jiayi Ji, Yiwei Ma, Haowei Wang 0001, Gen Luo, Henghui Ding, Xiaoshuai Sun, Rongrong Ji. 7852-7861 [doi]

Scene Diffusion: Text-driven Scene Image Synthesis Conditioning on a Single 3D ModelXuan Han, Yihao Zhao, Mingyu You. 7862-7870 [doi]

4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic ScenesJinbo Yan, Rui Peng, Luyang Tang, Ronggang Wang. 7871-7880 [doi]

RainMamba: Enhanced Locality Learning with State Space Models for Video DerainingHongtao Wu, Yijun Yang, Huihui Xu, Weiming Wang 0002, Jinni Zhou, Lei Zhu 0003. 7881-7890 [doi]

Toward Timeliness-Enhanced Loss Recovery for Large-Scale Live StreamingBo Wu, Tong Li 0014, Cheng Luo, Xu Yan, Fuyu Wang, Xinle Du, Ke Xu 0002. 7891-7899 [doi]

Enhanced Screen Content Image Compression: A Synergistic Approach for Structural Fidelity and Text Integrity PreservationFangtao Zhou, Xiaofeng Huang, Peng Zhang 0007, Meng Wang 0017, Zhao Wang 0004, Yang Zhou, Haibing Yin. 7900-7908 [doi]

StarStream: Live Video Analytics over Space NetworkingMiao Zhang, Jiaxing Li, Haoyuan Zhao, Linfeng Shen, Jiangchuan Liu. 7909-7917 [doi]

LiteQUIC: Improving QoE of Video Streams by Reducing CPU Overhead of QUICPengqiang Bi, Yifei Zou, Mengbai Xiao, Dongxiao Yu, Yijun Li, Zhixiong Liu, Qun Xie. 7918-7927 [doi]

HeadsetOff: Enabling Photorealistic Video Conferencing on Economical VR HeadsetsYili Jin, Xize Duan, Fangxin Wang 0001, Xue Liu 0001. 7928-7936 [doi]

HPC: Hierarchical Progressive Coding Framework for Volumetric VideoZihan Zheng, Houqiang Zhong, Qiang Hu 0003, Xiaoyun Zhang, Li Song 0001, Ya Zhang 0002, Yanfeng Wang. 7937-7946 [doi]

WeakSAM: Segment Anything Meets Weakly-supervised Instance-level RecognitionLianghui Zhu, Junwei Zhou, Yan Liu, Xin Hao, Wenyu Liu 0001, Xinggang Wang. 7947-7956 [doi]

F-3DGS: Factorized Coordinates and Representations for 3D Gaussian SplattingXiangyu Sun, Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Usman Ali 0006, Eunbyung Park. 7957-7965 [doi]

MMHead: Towards Fine-grained Multi-modal 3D Facial AnimationSijing Wu, Yunhao Li, Yichao Yan, Huiyu Duan, Ziwei Liu 0002, Guangtao Zhai. 7966-7975 [doi]

Thinking Temporal Automatic White Balance: Datasets, Models and BenchmarksChunxiao Li, Shuyang Wang, Xuejing Kang, Anlong Ming. 7976-7984 [doi]

Cefdet: Cognitive Effectiveness Network Based on Fuzzy Inference for Action DetectionZhe Luo, Weina Fu, Shuai Liu 0002, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad 0001. 7985-7994 [doi]

Advancing 3D Object Grounding Beyond a Single 3D SceneWencan Huang, Daizong Liu, Wei Hu 0003. 7995-8004 [doi]

Neighbor Does Matter: Curriculum Global Positive-Negative Sampling for Vision-Language Pre-trainingBin Huang, Feng He, Qi Wang, Hong Chen, Guohao Li 0002, Zhifan Feng, Xin Wang 0019, Wenwu Zhu 0001. 8005-8014 [doi]

Object-Level Pseudo-3D Lifting for Distance-Aware TrackingHaoyuan Jin, Xuesong Nie, Yunfeng Yan, Xi Chen, Zhihang Zhu, Donglian Qi. 8015-8023 [doi]

Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive LearningXinwei Liu, Xiaojun Jia, Yuan Xun, Siyuan Liang, Xiaochun Cao. 8024-8033 [doi]

Engaging Live Video Comments GenerationGe Luo 0003, Yuchen Ma, Manman Zhang, Junqiang Huang, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001. 8034-8042 [doi]

Hypergraph-guided Intra- and Inter-category Relation Modeling for Fine-grained Visual RecognitionLu Chen, Qiangchang Wang, Zhaohui Li, Yilong Yin. 8043-8052 [doi]

Traj2Former: A Local Context-aware Snapshot and Sequential Dual Fusion Transformer for Trajectory ClassificationYuan Xie, Yichen Zhang 0002, Yifang Yin, Sheng Zhang 0023, Ying Zhang 0047, Rajiv Ratn Shah, Roger Zimmermann, Guoqing Xiao 0001. 8053-8061 [doi]

Multimodal Inplace Prompt Tuning for Open-set Object DetectionGuilin Li, Mengdan Zhang, Xiawu Zheng, Peixian Chen, Zihan Wang, Yunhang Shen, Mingchen Zhuge, Chenglin Wu, Fei Chao 0001, Ke Li 0015, Xing Sun, Rongrong Ji. 8062-8071 [doi]

StylizedFacePoint: Facial Landmark Detection for Stylized CharactersShengran Cheng, Chuhang Ma, Ye Pan. 8072-8080 [doi]

Information Fusion with Knowledge Distillation for Fine-grained Remote Sensing Object DetectionSheng Zhang, Xi Yang 0011. 8081-8089 [doi]

DFMVC: Deep Fair Multi-view ClusteringBowen Zhao, Qianqian Wang 0001, Zhiqiang Tao, Wei Feng 0010, Quanxue Gao. 8090-8099 [doi]

ColVO: Colonoscopic Visual Odometry Considering Geometric and Photometric ConsistencyRuyu Liu, Zhengzhe Liu, Haoyu Zhang, Guodao Zhang, Jianhua Zhang 0002, Sunbo, Weiguo Sheng, Xiufeng Liu, Yaochu Jin. 8100-8109 [doi]

HideMIA: Hidden Wavelet Mining for Privacy-Enhancing Medical Image AnalysisXun Lin, Yi Yu, Zitong Yu, Ruohan Meng, Jiale Zhou, Ajian Liu 0001, Yizhong Liu, Shuai Wang, Wenzhong Tang, Zhen Lei 0001, Alex C. Kot. 8110-8119 [doi]

Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based Embodied ModelsShuyuan Liu, Jiawei Chen, Shouwei Ruan, Hang Su 0006, Zhaoxia Yin. 8120-8128 [doi]

Dynamic Mixed-Prototype Model for Incremental Deepfake DetectionJiahe Tian, Cai Yu, Xi Wang 0014, Peng Chen, Zihao Xiao, Jizhong Han, Yesheng Chai. 8129-8138 [doi]

Label Text-aided Hierarchical Semantics Mining for Panoramic Activity RecognitionTianshan Liu, Kin-Man Lam 0001, Bing-Kun Bao. 8139-8148 [doi]

SyncTalklip: Highly Synchronized Lip-Readable Speaker Generation with Multi-Task LearningXiaoda Yang, Xize Cheng, Dongjie Fu, Minghui Fang 0002, Jialung Zuo, Shengpeng Ji, Zhou Zhao, Tao Jin 0004. 8149-8158 [doi]

Learning Spectral-Decomposited Tokens for Domain Generalized Semantic SegmentationJingjun Yi, Qi Bi, Hao Zheng 0008, Haolan Zhan, Wei Ji 0011, Yawen Huang, Yuexiang Li, Yefeng Zheng 0001. 8159-8168 [doi]

SI-BiViT: Binarizing Vision Transformers with Spatial InteractionPeng Yin, Xiaosu Zhu, Jingkuan Song, Lianli Gao, Heng Tao Shen. 8169-8178 [doi]

Efficient Dual-Confounding Eliminating for Weakly-supervised Temporal Action LocalizationAo Li, Huijun Liu, Jinrong Sheng, Zhongming Chen, Yongxin Ge. 8179-8188 [doi]

Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint LearningXuri Ge, Junchen Fu, Fuhai Chen, Shan An, Nicu Sebe, Joemon M. Jose. 8189-8198 [doi]

Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text UnderstandingJongbhin Woo, Hyeonggon Ryu, Youngjoon Jang, Jae-Won Cho, Joon Son Chung. 8199-8208 [doi]

Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning DistractorJiali Chen, Xusen Hei, Yuqi Xue, Yuancheng Wei, Jiayuan Xie, Yi Cai 0001, Qing Li 0001. 8209-8218 [doi]

MagicCartoon: 3D Pose and Shape Estimation for Bipedal Cartoon CharactersYu-Pei Song, Yuan-Tong Liu, Xiao Wu 0001, Qi He, Zhaoquan Yuan, Ao Luo. 8219-8227 [doi]

FM-CLIP: Flexible Modal CLIP for Face Anti-SpoofingAjian Liu 0001, Hui Ma, Junze Zheng, Haocheng Yuan, Xiaoyuan Yu, Yanyan Liang 0001, Sergio Escalera, Jun Wan 0001, Zhen Lei 0001. 8228-8237 [doi]

MagicVFX: Visual Effects Synthesis in Just MinutesJiaqi Guo, Lianli Gao, Junchen Zhu, Jiaxin Zhang, Siyang Li, Jingkuan Song. 8238-8246 [doi]

DySarl: Dynamic Structure-Aware Representation Learning for Multimodal Knowledge Graph ReasoningKangzheng Liu, Feng Zhao 0003, Yu Yang 0012, Guandong Xu 0001. 8247-8256 [doi]

Low-rank Prompt Interaction for Continual Vision-Language RetrievalWeicai Yan, Ye Wang, Wang Lin, Zirun Guo, Zhou Zhao, Tao Jin 0004. 8257-8266 [doi]

Foreground Harmonization and Shadow Generation for Composite ImageJing Zhou, Ziqi Yu, Zhongyun Bao, Gang Fu, Weilei He, Chao Liang, Chunxia Xiao. 8267-8276 [doi]

Bi-directional Task-Guided Network for Few-Shot Fine-Grained Image ClassificationZhen-Xiang Ma, Zhen-Duo Chen, Li-jun Zhao, Zi-Chao Zhang 0002, Tai Zheng, Xin Luo 0006, Xin-Shun Xu. 8277-8286 [doi]

Heterogeneous Graph Guided Contrastive Learning for Spatially Resolved Transcriptomics DataXiao He 0010, Chang Tang, Xinwang Liu 0002, Chuankun Li, Shan An, Zhenglai Li. 8287-8295 [doi]

Multimodal LLM Enhanced Cross-lingual Cross-modal RetrievalYabing Wang, Le Wang 0003, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua 0001, Wei Tang 0016. 8296-8305 [doi]

Domain Shared and Specific Prompt Learning for Incremental Monocular Depth EstimationZhiwen Yang, Liang Li 0003, Jiehua Zhang, Tingyu Wang, Yaoqi Sun, Chenggang Yan 0001. 8306-8315 [doi]

RefMask3D: Language-Guided Transformer for 3D Referring SegmentationShuting He, Henghui Ding. 8316-8325 [doi]

FSL-QuickBoost: Minimal-Cost Ensemble for Few-Shot LearningYunwei Bai, Bill Yang Cai, Ying Kiat Tan, Zangwei Zheng, Shiming Chen 0002, Tsuhan Chen. 8326-8335 [doi]

FTF-ER: Feature-Topology Fusion-Based Experience Replay Method for Continual Graph LearningJinhui Pang, Changqing Lin, Xiaoshuai Hao, Rong Yin 0001, Zixuan Wang, Zhihui Zhang, Jinglin He, Huang Tai Sheng. 8336-8344 [doi]

Rethinking the Effect of Uninformative Class Name in Prompt LearningFengmao Lv, Changru Nie, Jianyang Zhang, Guowu Yang, Guosheng Lin, Xiao Wu 0001, Tianrui Li 0001. 8345-8354 [doi]

UniL: Point Cloud Novelty Detection through Multimodal Pre-trainingYuhan Wang, Mofei Song. 8355-8364 [doi]

P-BiC: Ultra-High-Definition Image Moiré Patterns Removal via Patch Bilateral CompensationZeyu Xiao, Zhihe Lu, Xinchao Wang. 8365-8373 [doi]

Multimodal Contextual Interactions of Entities: A Modality Circular Fusion Approach for Link PredictionJing Yang, Shundong Yang, Yuan Gao, Jieming Yang, Laurence T. Yang. 8374-8382 [doi]

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and SynopsesChaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng 0001, Jian-Fang Hu. 8383-8392 [doi]

MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and GeneralizabilityBuyu Liu, Kai Wang, Yansong Liu, Jun Bao, Tingting Han 0003, Jun Yu 0002. 8393-8401 [doi]

Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless PredictionsJunzhang Liu, Zhecan Wang, Hammad A. Ayyubi, Haoxuan You, Chris Thomas 0004, Rui Sun, Shih-Fu Chang, Kai-Wei Chang. 8402-8411 [doi]

SFP: Spurious Feature-Targeted Pruning for Out-of-Distribution GeneralizationYingchun Wang, Jingcai Guo, Song Guo 0001, Yi Liu 0057, Jie Zhang 0076, Weizhan Zhang. 8412-8420 [doi]

FARFusion V2: A Geometry-based Radar-Camera Fusion Method on the Ground for Roadside Far-Range 3D Object DetectionYao Li, Jiajun Deng, Yuxuan Xiao, Yingjie Wang 0004, Xiaomeng Chu, Jianmin Ji, Yanyong Zhang. 8421-8430 [doi]

View Gap Matters: Cross-view Topology and Information Decoupling for Multi-view ClusteringFangdi Wang, Jiaqi Jin, Zhibin Dong, Xihong Yang, Yu Feng, Xinwang Liu 0002, Xinzhong Zhu, Siwei Wang 0001, Tianrui Liu, En Zhu. 8431-8440 [doi]

Q-SNNs: Quantized Spiking Neural NetworksWenjie Wei, Yu Liang, Ammar Belatreche, Yichen Xiao, Honglin Cao, Zhenbang Ren, Guoqing Wang 0003, Malu Zhang, Yang Yang 0060. 8441-8450 [doi]

DiffGlue: Diffusion-Aided Image Feature MatchingShihua Zhang, Jiayi Ma 0001. 8451-8460 [doi]

CAD Translator: An Effective Drive for Text to 3D Parametric Computer-Aided Design Generative ModelingXueyang Li, Yu Song, Yunzhong Lou, Xiangdong Zhou. 8461-8470 [doi]

Point Cloud Reconstruction Is Insufficient to Learn 3D RepresentationsWeichen Xu, Jian Cao 0002, Tianhao Fu, Ruilong Ren, Zicong Hu, Xixin Cao, Xing Zhang. 8471-8479 [doi]

SemGIR: Semantic-Guided Image Regeneration Based Method for AI-generated Image Detection and AttributionXiao Yu, Kejiang Chen, Kai Zeng, Han Fang, Zijin Yang, Xiuwei Shang, Yuang Qi, Weiming Zhang 0001, Nenghai Yu. 8480-8488 [doi]

Bridging Fourier and Spatial-Spectral Domains for Hyperspectral Image DenoisingJiahua Xiao, Yang Liu, Shizhou Zhang, Xing Wei 0001. 8489-8497 [doi]

2: Mixture of Scale and Shift Experts for Text-Only Video CaptioningHeng Jia, Yunqiu Xu, Linchao Zhu, Guang Chen, Yufei Wang, Yi Yang 0001. 8498-8507 [doi]

Learning Geometry Consistent Neural Radiance Fields from Sparse and Unposed ViewsQi Zhang, Chi Huang, Qian Zhang 0051, Nan Li, Wei Feng 0005. 8508-8517 [doi]

Beyond the Known: Ambiguity-Aware Multi-view LearningZihan Fang, Shide Du, Yuhong Chen, Shiping Wang. 8518-8526 [doi]

Beyond Direct Relationships: Exploring Multi-Order Label Pair Dependencies for Knowledge DistillationJingchao Wang, Zhengnan Deng, Tongxu Lin, Wenyuan Li 0007, Shaobin Ling, Junyu Lin. 8527-8535 [doi]

Harmony Everything! Masked Autoencoders for Video HarmonizationYuhang Li, Jincen Jiang, Xiaosong Yang, Youdong Ding, Jian-Jun Zhang 0001. 8536-8545 [doi]

DRMF: Degradation-Robust Multi-Modal Image Fusion via Composable Diffusion PriorLinfeng Tang, Yuxin Deng, Xunpeng Yi, Qinglong Yan, Yixuan Yuan, Jiayi Ma 0001. 8546-8555 [doi]

UniGM: Unifying Multiple Pre-trained Graph Models via Adaptive Knowledge AggregationJintao Chen, Fan Wang 0020, Shengye Pang, Siwei Tan, Mingshuai Chen, Tiancheng Zhao, Meng Xi, Jianwei Yin. 8556-8565 [doi]

Open-Vocabulary Video Scene Graph Generation via Union-aware Semantic AlignmentZiyue Wu, Junyu Gao 0002, Changsheng Xu. 8566-8575 [doi]

Self-Adaptive Fine-grained Multi-modal Data Augmentation for Semi-supervised Muti-modal Coreference ResolutionLi Zheng, Boyu Chen, Hao Fei 0001, Fei Li 0021, Shengqiong Wu, Lizi Liao, Donghong Ji, Chong Teng. 8576-8585 [doi]

3L: An Automated Multimodal Machine Learning Framework with Large Language ModelsDaqin Luo, Chengjian Feng, Yuxuan Nong, Yiqing Shen 0003. 8586-8594 [doi]

Enhancing Adaptive Deep Networks for Image Classification via Uncertainty-aware Decision FusionXu Zhang, Zhipeng Xie, Haiyang Yu, Qitong Wang 0003, Peng Wang 0027, Wei Wang 0009. 8595-8603 [doi]

Towards Robustness Prompt Tuning with Fully Test-Time Adaptation for CLIP's Zero-Shot GeneralizationRan Wang, Hua Zuo, Zhen Fang 0001, Jie Lu 0001. 8604-8612 [doi]

A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain GapLijun Zhang, Wei Suo, Peng Wang 0015, Yanning Zhang. 8613-8622 [doi]

MAJL: A Model-Agnostic Joint Learning Framework for Music Source Separation and Pitch EstimationHaojie Wei, Jun Yuan, Rui Zhang 0003, Quanyu Dai, Yueguo Chen. 8623-8632 [doi]

Graph based Consistency Learning for Contrastive Multi-View ClusteringBinbin Xu, Jun Yin 0003, Nan Zhang 0014. 8633-8641 [doi]

Enhancing Images with Coupled Low-Resolution and Ultra-Dark Degradations: A Tri-level Learning FrameworkJiaxin Gao, Yaohua Liu. 8642-8651 [doi]

A Lightweight Anchor-Based Incremental Framework for Multi-view ClusteringQian Qu, Xinhang Wan, Weixuan Liang, Jiyuan Liu 0003, Yu Feng, Huiying Xu, Xinwang Liu 0002, En Zhu. 8652-8661 [doi]

CLIP2UDA: Making Frozen CLIP Reward Unsupervised Domain Adaptation in 3D Semantic SegmentationYao Wu, Mingwei Xing, Yachao Zhang 0001, Yuan Xie 0006, Yanyun Qu. 8662-8671 [doi]

Adaptive Multi-Modality Prompt LearningZongqian Wu, Yujing Liu, Mengmeng Zhan, Ping Hu 0001, Xiaofeng Zhu 0001. 8672-8680 [doi]

Boosting Semi-supervised Crowd Counting with Scale-based Active LearningShiwei Zhang, Wei Ke 0003, Shuai Liu 0016, Xiaopeng Hong, Tong Zhang 0023. 8681-8690 [doi]

PS-TTL: Prototype-based Soft-labels and Test-Time Learning for Few-shot Object DetectionYingjie Gao, Yanan Zhang 0005, Ziyue Huang, Nanqing Liu, Di Huang 0001. 8691-8700 [doi]

Few-Shot Joint Multimodal Entity-Relation Extraction via Knowledge-Enhanced Cross-modal Prompt ModelLi Yuan, Yi Cai 0001, Junsheng Huang. 8701-8710 [doi]

Regularized Contrastive Partial Multi-view Outlier DetectionYijia Wang, Qianqian Xu, Yangbangyan Jiang, Siran Dai, Qingming Huang. 8711-8720 [doi]

In-Context Learning for Zero-shot Medical Report GenerationRui Liu, Mingjie Li 0006, Shen Zhao, Ling Chen 0006, Xiaojun Chang, Lina Yao 0001. 8721-8730 [doi]

Learning Dual Enhanced Representation for Contrastive Multi-view ClusteringGuoliang Zou, Yangdong Ye, Tongji Chen, Shizhe Hu. 8731-8739 [doi]

Hybrid Cost Volume for Memory-Efficient Optical FlowYang Zhao, Gangwei Xu, Gang Wu. 8740-8749 [doi]

Hierarchical Multi-label Learning for Incremental Multilingual Text RecognitionXiao-Qian Liu, Ming-hui Liu, Zhen-Duo Chen, Xin Luo 0006, Xin-Shun Xu. 8750-8758 [doi]

RHKH: Relational Hypergraph Neural Network for Link Prediction on N-ary Knowledge HypergraphYuzhuo Wang, Junwei He 0002, Hongzhi Wang 0001. 8759-8767 [doi]

Understanding and Tackling Scattering and Reflective Flare for Mobile Camera SystemsFengbo Lan, Chang Wen Chen. 8768-8776 [doi]

Crossmodal Few-shot 3D Point Cloud Semantic Segmentation via View SynthesisZiyu Zhao, Pingping Cai, Canyu Zhang, Xiaoguang Li, Song Wang 0002. 8777-8785 [doi]

It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity AlignmentJinkai Zheng, Xinchen Liu, Boyue Zhang, Chenggang Yan 0001, Jiyong Zhang, Wu Liu, Yongdong Zhang 0001. 8786-8794 [doi]

Unsupervised Image-to-Video Adaptation via Category-aware Flow Memory Bank and Realistic Video GenerationKenan Huang, Junbao Zhuo, Shuhui Wang, Chi Su, Qingming Huang, Huimin Ma 0001. 8795-8804 [doi]

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object DetectionLv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jin-Wei Chen, Bo Li 0115. 8805-8814 [doi]

UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph GenerationXinyao Liao, Wei Wei 0002, Dangyang Chen, Yuanyuan Fu. 8815-8824 [doi]

Image-free Pre-training for Low-Level VisionSiyang Wang, Jinghao Zhang, Jie Huang 0017, Feng Zhao 0004. 8825-8834 [doi]

GIST: Improving Parameter Efficient Fine-Tuning via Knowledge InteractionJiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang, Zefang Yu, Ting Liu 0016, Yuzhuo Fu, Xiaoye Qu. 8835-8844 [doi]

LLaVA-Ultra: Large Chinese Language and Vision Assistant for UltrasoundXuechen Guo, Wenhao Chai, Shiyan Li, Gaoang Wang. 8845-8854 [doi]

Event Traffic Forecasting with Sparse Multimodal DataXiao Han, Zhenduo Zhang, Yiling Wu, Xinfeng Zhang 0001, Zhe Wu 0006. 8855-8864 [doi]

Probabilistic Distillation Transformer: Modelling Uncertainties for Visual Abductive ReasoningWanru Xu, Zhenjiang Miao, Yi Tian, Yigang Cen, Lili Wan, Xiaole Ma. 8865-8873 [doi]

Importance-aware Shared Parameter Subspace Learning for Domain Incremental LearningShiye Wang, Changsheng Li, Jialin Tang, Xing Gong, Ye Yuan 0001, Guoren Wang. 8874-8883 [doi]

2-GNeSF: Geometry-Semantics Synergy for Generalizable Neural Semantic FieldsChengshun Wang, Na Zhao 0004. 8884-8892 [doi]

Fast and Scalable Incomplete Multi-View Clustering with Duality Optimal Graph FilteringLiang Du 0003, Yukai Shi, Yan Chen, Peng Zhou 0006, Yuhua Qian. 8893-8902 [doi]

LiteGfm: A Lightweight Self-supervised Monocular Depth Estimation Framework for Artifacts Reduction via Guided Image FilteringZhilin He, Yawei Zhang, Jingchang Mu, Xiaoyue Gu, Tianhao Gu. 8903-8912 [doi]

Generating Prompts in Latent Space for Rehearsal-free Continual LearningChengyi Yang, WenTao Liu, Shisong Chen, Jiayin Qi, Aimin Zhou. 8913-8922 [doi]

Improving Out-of-Distribution Detection with Disentangled Foreground and Background FeaturesChoubo Ding, Guansong Pang. 8923-8931 [doi]

Leveraging RGB-Pressure for Whole-body Human-to-Humanoid Motion ImitationYi Lu, Shenghao Ren, Qiu Shen, Xun Cao. 8932-8941 [doi]

VoCAPTER: Voting-based Pose Tracking for Category-level Articulated Object via Inter-frame PriorsLi Zhang 0104, Zean Han, Yan Zhong 0001, Qiaojun Yu, Xingyu Wu, Xue Wang, Rujing Wang. 8942-8951 [doi]

GeoFormer: Learning Point Cloud Completion with Tri-Plane Integrated TransformerJinpeng Yu 0002, Binbin Huang, Yuxuan Zhang, Huaxia Li, Xu Tang, Shenghua Gao. 8952-8961 [doi]

Joint-Motion Mutual Learning for Pose Estimation in VideoSifan Wu, Haipeng Chen 0002, Yifang Yin, Sihao Hu, Runyang Feng, Yingying Jiao, Ziqi Yang, Zhenguang Liu. 8962-8971 [doi]

Align2Concept: Language Guided Interpretable Image Recognition by Visual Prototype and Textual Concept AlignmentJiaqi Wang 0006, Pichao Wang, Yi Feng, Huafeng Liu 0001, Chang Gao, Liping Jing. 8972-8981 [doi]

Adversarial Experts Model for Black-box Domain AdaptationSiying Xiao, Mao Ye 0001, Qichen He, Shuaifeng Li, Song Tang 0001, Xiatian Zhu. 8982-8991 [doi]

MB2C: Multimodal Bidirectional Cycle Consistency for Learning Robust Visual Neural RepresentationsYayun Wei, Lei Cao 0002, Hao Li, Yilin Dong. 8992-9000 [doi]

Bilateral Adaptive Cross-Modal Fusion Prompt Learning for CLIPQiang Wang, Ke Yan, Shouhong Ding. 9001-9009 [doi]

AIGCs Confuse AI Too: Investigating and Explaining Synthetic Image-induced Hallucinations in Large Vision-Language ModelsYifei Gao, Jiaqi Wang, Zhiyu Lin, Jitao Sang. 9010-9018 [doi]

Affinity3D: Propagating Instance-Level Semantic Affinity for Zero-Shot Point Cloud Semantic SegmentationHaizhuang Liu, Junbao Zhuo, Chen Liang, Jiansheng Chen, Huimin Ma 0001. 9019-9028 [doi]

TAS: Personalized Text-guided Audio SpatializationZhaojian Li, Bin Zhao 0001, Yuan Yuan 0001. 9029-9037 [doi]

Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action RecognitionCongqi Cao, Yueran Zhang, Yating Yu, Qinyi Lv, Lingtong Min, Yanning Zhang. 9038-9047 [doi]

Deep Incomplete Multi-View Network Semi-Supervised Multi-Label Learning with Unbiased LossQuanjiang Li, Tingjin Luo, Mingdie Jiang, Jiahui Liao, Zhangqi Jiang. 9048-9056 [doi]

Conditional Diffusion Model for Open-ended Video Question AnsweringXinyue Liu, Jiahui Wan, Linlin Zong, Bo Xu 0009. 9057-9066 [doi]

Sniffing Threatening Open-World Objects in Autonomous Driving by Open-Vocabulary ModelsYulin He, Siqi Wang, Wei Chen 0009, Tianci Xun, Yusong Tan. 9067-9076 [doi]

Learning from Distinction: Mitigating Backdoors Using a Low-Capacity ModelHaosen Sun, Yiming Li, Xixiang Lyu, Jing Ma. 9077-9086 [doi]

GDR-GMA: Machine Unlearning via Direction-Rectified and Magnitude-Adjusted GradientsShen Lin 0006, Xiaoyu Zhang 0010, Willy Susilo, Xiaofeng Chen 0001, Jun Liu 0036. 9087-9095 [doi]

Cantor: Inspiring Multimodal Chain-of-Thought of MLLMTimin Gao, Peixian Chen, Mengdan Zhang, Chaoyou Fu, Yunhang Shen, Yan Zhang 0002, Shengchuan Zhang, Xiawu Zheng, Xing Sun, Liujuan Cao, Rongrong Ji. 9096-9105 [doi]

MAGIC: Rethinking Dynamic Convolution Design for Medical Image SegmentationShijie Li, Yunbin Tu, Qingyuan Xiang, Zheng Li. 9106-9115 [doi]

Illumination Distribution Prior for Low-light Image EnhancementChao Wang 0091, Yang Zhou, Liangtian He, Fenglai Lin, Hongming Chen 0003, Liang-Jian Deng. 9116-9125 [doi]

CoMO-NAS: Core-Structures-Guided Multi-Objective Neural Architecture Search for Multi-Modal ClassificationPinhan Fu, Xinyan Liang, Yuhua Qian, Qian Guo, Zhifang Wei, Wen Li. 9126-9135 [doi]

HcaNet: Haze-concentration-aware Network for Real-scene Dehazing with Codebook PriorsYi Liu, Jiachen Li 0002, Yanchun Ma, Qing Xie 0002, Yongjian Liu. 9136-9144 [doi]

CalibRBEV: Multi-Camera Calibration via Reversed Bird's-eye-view Representations for Autonomous DrivingWenlong Liao, Sunyuan Qiang, Xianfei Li, Xiaolei Chen, Haoyu Wang, Yanyan Liang 0001, Junchi Yan, Tao He, Pai Peng. 9145-9154 [doi]

HazeSpace2M: A Dataset for Haze Aware Single Image DehazingMd Tanvir Islam, Nasir Rahim, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad 0001. 9155-9164 [doi]

ReCoS: A Novel Benchmark for Cross-Modal Image-Text Retrieval in Complex Real-Life ScenariosXiaojun Chen 0006, Jimeng Lou, Wenxi Huang, Ting Wan, Qin Zhang 0011, Min Yang 0007. 9165-9174 [doi]

Channel-Spatial Support-Query Cross-Attention for Fine-Grained Few-Shot Image ClassificationShicheng Yang, Xiaoxu Li, Dongliang Chang, Zhanyu Ma, Jing-Hao Xue. 9175-9183 [doi]

Heterogeneity-Aware Federated Deep Multi-View Clustering towards Diverse Feature RepresentationsXiaorui Jiang, Zhongyi MA, Yulin Fu, Yong Liao, Pengyuan Zhou. 9184-9193 [doi]

SpikeGS: 3D Gaussian Splatting from Spike Streams with High-Speed Camera MotionJiyuan Zhang, Kang Chen, Shiyan Chen, Yajing Zheng, Tiejun Huang 0001, Zhaofei Yu. 9194-9203 [doi]

On-the-fly Point Feature Representation for Point Clouds AnalysisJiangyi Wang, Zhongyao Cheng, Na Zhao 0004, Jun Cheng 0003, XuLei Yang. 9204-9213 [doi]

Explicit Granularity and Implicit Scale Correspondence Learning for Point-Supervised Video Moment LocalizationKun Wang, Hao Liu, Lirong Jie, Zixu Li, Yupeng Hu, Liqiang Nie. 9214-9223 [doi]

SparseInteraction: Sparse Semantic Guidance for Radar and Camera 3D Object DetectionShaoqing Xu, Shengyin Jiang, Fang Li, Li Liu, Ziying Song, Bo Yang, Zhixin Yang 0001. 9224-9233 [doi]

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question AnsweringMahiro Ukai, Shuhei Kurita, Atsushi Hashimoto 0001, Yoshitaka Ushiku, Nakamasa Inoue. 9234-9243 [doi]

Multi-grained Correspondence Learning of Audio-language Models for Few-shot Audio RecognitionShengwei Zhao, Linhai Xu, Yuying Liu, Shaoyi Du. 9244-9252 [doi]

Cross-View Mutual Learning for Semi-Supervised Medical Image SegmentationSong Wu, Xiaoyu Wei, Xinyue Chen, Yazhou Ren 0001, Jing He 0004, Xiaorong Pu. 9253-9261 [doi]

Deblurring Neural Radiance Fields with Event-driven Bundle AdjustmentYunshan Qi, Lin Zhu 0012, Yifan Zhao 0002, Nan Bao, Jia Li 0003. 9262-9270 [doi]

Hierarchical Debiasing and Noisy Correction for Cross-domain Video Tube RetrievalJingqiao Xiu, Mengze Li 0001, Wei Ji 0008, Jingyuan Chen, Hanbin Zhao, Shin'ichi Satoh 0001, Roger Zimmermann. 9271-9280 [doi]

Diverse Consensuses Paired with Motion Estimation-Based Multi-Model FittingWenyu Yin, Shuyuan Lin, Yang Lu 0009, Hanzi Wang. 9281-9290 [doi]

Breaking Modality Gap in RGBT Tracking: Coupled Knowledge DistillationAndong Lu, Jiacong Zhao, Chenglong Li 0002, Yun Xiao, Bin Luo 0001. 9291-9300 [doi]

Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal PromptsPeng Wu, Xuerong Zhou, Guansong Pang, Zhiwei Yang, Qingsen Yan, Peng Wang, Yanning Zhang. 9301-9310 [doi]

Bridging Gaps in Content and Knowledge for Multimodal Entity LinkingPengfei Luo, Tong Xu 0001, Che Liu, Suojuan Zhang, Linli Xu, Minglei Li 0001, Enhong Chen. 9311-9320 [doi]

LOVD: Large-and-Open Vocabulary Object DetectionShiyu Tang, Zhaofan Luo, Yifan Wang 0004, Lijun Wang, Huchuan Lu, Weibo Su, Libo Liu. 9321-9329 [doi]

Ada2I: Enhancing Modality Balance for Multimodal Conversational Emotion RecognitionCam-Van Thi Nguyen, The-Son Le, Anh-Tuan Mai, Duc-Trong Le. 9330-9339 [doi]

Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context TransformerXinpeng Li, Teng Wang, Jian Zhao 0006, Shuyi Mao, Jinbao Wang, Feng Zheng, Xiaojiang Peng, Xuelong Li 0001. 9340-9349 [doi]

Efficient Perceiving Local Details via Adaptive Spatial-Frequency Information Integration for Multi-focus Image FusionJingjia Huang, Jingyan Tu, Ge Meng, Yingying Wang, Yuhang Dong, Xiaotong Tu, Xinghao Ding, Yue Huang 0001. 9350-9359 [doi]

Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer LearningWonwoo Cho, Kangyeol Kim, Saemee Choi, Jaegul Choo. 9360-9368 [doi]

Cross-Modal Coherence-Enhanced Feedback Prompting for News CaptioningNing Xu 0003, Yifei Gao, Ting-ting Zhang, Hongshuo Tian, An-An Liu. 9369-9377 [doi]

GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-ResolutionYuzhen Li, Zehang Deng, Yuxin Cao, Lihua Liu. 9378-9386 [doi]

Siformer: Feature-isolated Transformer for Efficient Skeleton-based Sign Language RecognitionMuxin Pu, Mei Kuan Lim, Chun Yong Chong. 9387-9396 [doi]

2: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal RetrievalYue Duan, Zhangxuan Gu, Zhenzhe Ying, Lei Qi 0001, Changhua Meng, Yinghuan Shi. 9397-9406 [doi]

p Norm MinimizationWei Feng 0010, Zhenwei Wu, Qianqian Wang 0001, Bo Dong 0001, Quanxue Gao. 9407-9416 [doi]

Tracing Training Progress: Dynamic Influence Based Selection for Active LearningTianjiao Wan, Kele Xu, Long Lan, Zijian Gao, Dawei Feng, Bo Ding, Huaimin Wang. 9417-9425 [doi]

Instance-Level Panoramic Audio-Visual Saliency Detection and RankingRuohao Guo, Dantong Niu, Liao Qu, Yanyu Qi, Ji Shi, Wenzhen Yue, Bowei Xing, Taiyan Chen, Xianghua Ying. 9426-9434 [doi]

Embracing Adaptation: An Effective Dynamic Defense Strategy Against Adversarial ExamplesShenglin Yin, Kelu Yao, Zhen Xiao, Jieyi Long. 9435-9444 [doi]

Class Balance Matters to Active Class-Incremental LearningZitong Huang, Ze Chen, Yuanze Li, Bowen Dong, Erjin Zhou, Yong Liu 0026, Rick Siow Mong Goh, Chun-Mei Feng, Wangmeng Zuo. 9445-9454 [doi]

RCA: Region Conditioned Adaptation for Visual Abductive ReasoningHao Zhang 0047, Ee Yeo Keat, Basura Fernando. 9455-9464 [doi]

ReCorD: Reasoning and Correcting Diffusion for HOI GenerationJian-Yu Jiang-Lin, Kang-Yang Huang, Ling Lo, Yi-Ning Huang, Terence Lin, Jhih-Ciang Wu, Hong-Han Shuai, Wen-Huang Cheng. 9465-9474 [doi]

DeepPointMap2: Accurate and Robust LiDAR-Visual SLAM with Neural DescriptorsXiaze Zhang, Ziheng Ding, Qi Jing, Ying Cheng 0005, Wenchao Ding 0005, Rui Feng. 9475-9484 [doi]

Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative GroundingHongYu Li, Tianrui Hui, Zihan Ding, Jing Zhang 0017, Bin Ma 0028, Xiaoming Wei, Jizhong Han, Si Liu 0001. 9485-9494 [doi]

PerFRDiff: Personalised Weight Editing for Multiple Appropriate Facial Reaction GenerationHengde Zhu, Xiangyu Kong, Weicheng Xie 0001, Xin Huang, LinLin Shen, Lu Liu 0001, Hatice Gunes, Siyang Song. 9495-9504 [doi]

Deeply Fusing Semantics and Interactions for Item Representation Learning via Topology-driven Pre-trainingShiqin Liu, Chaozhuo Li 0001, Xi Zhang 0008, Minjun Zhao, Yuanbo Xu, Jiajun Bu. 9505-9514 [doi]

Diversity Matters: User-Centric Multi-Interest Learning for Conversational Movie RecommendationYongsen Zheng, Guohua Wang, Yang Liu 0084, Liang Lin. 9515-9524 [doi]

Integrating Stickers into Multimodal Dialogue Summarization: A Novel Dataset and Approach for Enhancing Social Media InteractionYuanchen Shi, Fang Kong 0001. 9525-9534 [doi]

Dissecting Temporal Understanding in Text-to-Audio RetrievalAndreea-Maria Oncescu, João F. Henriques, A. Sophia Koepke. 9535-9543 [doi]

AMG-Embedding: A Self-Supervised Embedding Approach for Audio IdentificationYuHang Su, Wei Hu 0004, Fan Zhang 0007, Qiming Xu. 9544-9553 [doi]

Dr. CLIP: CLIP-Driven Universal Framework for Zero-Shot Sketch Image RetrievalXue Li, Jiong Yu, Ziyang Li, Hongchun Lu, Ruifeng Yuan. 9554-9562 [doi]

Future Motion Dynamic Modeling via Hybrid Supervision for Multi-Person Motion Prediction Uncertainty ReductionYan Zhuang, Yanlu Cai, Weizhong Zhang, Cheng Jin 0001. 9563-9572 [doi]

Rethinking the One-shot Object Detection: Cross-Domain Object SearchYupeng Zhang, Shuqi Zheng, Ruize Han, Yuzhong Feng, Junhui Hou, Linqi Song, Wei Feng 0005, Liang Wan. 9573-9581 [doi]

Multi-view Self-Supervised Contrastive Learning for Multivariate Time SeriesYuhan Wu, Xiyu Meng, Yang He, Junru Zhang, Haowen Zhang, Yabo Dong, Dongming Lu. 9582-9590 [doi]

SCREEN: A Benchmark for Situated Conversational RecommendationDongding Lin, Jian Wang 0054, Chak Tou Leong, Wenjie Li 0002. 9591-9600 [doi]

Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product RetrievalXiaowan Hu, Yiyi Chen, Yan Li 0043, Minquan Wang, Haoqian Wang, Quan Chen 0006, Han Li, Peng Jiang 0002. 9601-9610 [doi]

Semantic Codebook Learning for Dynamic Recommendation ModelsZheqi Lv, Shaoxuan He, Tianyu Zhan, Shengyu Zhang 0001, Wenqiao Zhang, Jingyuan Chen, Zhou Zhao, Fei Wu 0001. 9611-9620 [doi]

Multimodal Emotion Recognition Calibration in ConversationsGeng Tu, Feng Xiong, Bin Liang, Hui Wang, Xi Zeng, Ruifeng Xu. 9621-9630 [doi]

Perceive before Respond: Improving Sticker Response Selection by Emotion Distillation and Hard MiningWuyou Xia, Shengzhe Liu, Qin Rong, Guoli Jia, Eunil Park, Jufeng Yang. 9631-9640 [doi]

CIRP: Cross-Item Relational Pre-training for Multimodal Product BundlingYunshan Ma, Yingzhi He, Wenjun Zhong, Xiang Wang 0010, Roger Zimmermann, Tat-Seng Chua. 9641-9649 [doi]

Enhanced Experts with Uncertainty-Aware Routing for Multimodal Sentiment AnalysisZixian Gao, Disen Hu, Xun Jiang 0001, Huimin Lu 0001, Heng Tao Shen, Xing Xu 0001. 9650-9659 [doi]

Attribute-driven Disentangled Representation Learning for Multimodal RecommendationZhenyang Li, Fan Liu, Yinwei Wei, Zhiyong Cheng 0001, Liqiang Nie, Mohan S. Kankanhalli. 9660-9669 [doi]

FedCAFE: Federated Cross-Modal Hashing with Adaptive Feature EnhancementTing Fu, Yu-Wei Zhan, Chong-Yu Zhang, Xin Luo 0006, Zhen-Duo Chen, Yongxin Wang 0001, Xun Yang, Xin-Shun Xu. 9670-9679 [doi]

An Active Masked Attention Framework for Many-to-Many Cross-Domain RecommendationsFeng Zhu 0011, Xinxing Yang, Longfei Li, Jun Zhou 0011. 9680-9689 [doi]

Predicting the Unseen: A Novel Dataset for Hidden Intention Localization in Pre-abnormal AnalysisZehao Qi, Ruixu Zhang, Xinyi Hu, Wenxuan Liu, Zheng Wang 0007. 9690-9698 [doi]

Information Diffusion Prediction with Graph Neural Ordinary Differential Equation NetworkDing Wang, Wei Zhou 0019, Songlin Hu. 9699-9708 [doi]

TGCA-PVT: Topic-Guided Context-Aware Pyramid Vision Transformer for Sticker Emotion RecognitionJian Chen, Wei Wang 0077, Yuzhu Hu, Junxin Chen 0001, Han Liu 0008, Xiping Hu 0001. 9709-9718 [doi]

Accurate and Lightweight Learning for Specific Domain Image-Text RetrievalRui Yang, Shuang Wang 0001, Jianwei Tao, Yingping Han, Qiaoling Lin, Yanhe Guo, Biao Hou, Licheng Jiao. 9719-9728 [doi]

Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment AnalysisXianbing Zhao, Lizhen Qu, Tao Feng 0013, Jianfei Cai 0001, Buzhou Tang. 9729-9738 [doi]

An Inverse Partial Optimal Transport Framework for Music-guided Trailer GenerationYutong Wang, Sidan Zhu, Hongteng Xu, Dixin Luo. 9739-9748 [doi]

Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training ModelsHaonan Zheng, Wen Jiang 0002, Xinyang Deng, Wenrui Li. 9749-9758 [doi]

MVP-Net: Multi-View Depth Image Guided Cross-Modal Distillation Network for Point Cloud UpsamplingJiade Chen, Jin Wang, Yunhui Shi, Nam Ling, Baocai Yin. 9759-9768 [doi]

PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-ResolutionZuoyan Zhao, Hui Xue 0002, Pengfei Fang, Shipeng Zhu. 9769-9778 [doi]

2SAM: Probabilistically Prompted SAMs Are Efficient Segmentator for Ambiguous Medical ImagesYuzhi Huang, Chenxin Li, Zixu Lin, Hengyu Liu 0007, Haote Xu, Yifan Liu 0010, Yue Huang 0001, Xinghao Ding, Xiaotong Tu, Yixuan Yuan. 9779-9788 [doi]

AesStyler: Aesthetic Guided Universal Style TransferRan Yi, Haokun Zhu, Teng Hu, Yu-Kun Lai, Paul L. Rosin. 9789-9798 [doi]

Sustainable Self-evolution Adversarial TrainingWenxuan Wang, Chenglei Wang, Huihui Qi, Menghao Ye, Xuelin Qian, Peng Wang 0015, Yanning Zhang. 9799-9808 [doi]

CAPNet: Cartoon Animal Parsing with Spatial Learning and Structural ModelingJian-Jun Qiao, Meng-Yu Duan, Xiao Wu 0001, Wei Li 0110. 9809-9817 [doi]

2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright ProtectionXuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang 0018. 9818-9827 [doi]

Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural NetworksXian Zhong, Shengwang Hu, Wenxuan Liu, Wenxin Huang, Jianhao Ding, Zhaofei Yu, Tiejun Huang 0001. 9828-9836 [doi]

HINER: Neural Representation for Hyperspectral ImageJunqi Shi, Mingyi Jiang, Ming Lu, Tong Chen 0004, Xun Cao, Zhan Ma. 9837-9846 [doi]

RDLNet: A Novel and Accurate Real-world Document Localization MethodYaqiang Wu, Zhen Xu, Yong Duan, Yanlai Wu, Qinghua Zheng, Hui Li 0006, Xiaochen Hu, Lianwen Jin. 9847-9855 [doi]

Enhancing Unsupervised Visible-Infrared Person Re-Identification with Bidirectional-Consistency Gradual MatchingXiao Teng, Xingyu Shen, Kele Xu, Long Lan. 9856-9865 [doi]

RefScale: Multi-temporal Assisted Image Rescaling in Repetitive Observation ScenariosZhen Zhang, Jing Xiao 0004, Liang Liao, Mi Wang. 9866-9874 [doi]

Towards Stricter Black-box Integrity Verification of Deep Neural Network ModelsChaoxiang He, Xiaofan Bai, Xiaojing Ma 0002, Bin B. Zhu, Pingyi Hu, Jiayun Fu, Hai Jin 0001, Dongmei Zhang 0001. 9875-9884 [doi]

SimpliGuard: Robust Mesh Simplification In the WildPeibin Chen, Xijin Zhang, Daniel Kang Du. 9885-9893 [doi]

Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object DetectionShixuan Gao, Pingping Zhang, Tianyu Yan, Huchuan Lu. 9894-9903 [doi]

Blind Video Bit-Depth ExpansionPanjun Duan, Yang Zhao 0002, Yuan Chen, Wei Jia 0001, Zhao Zhang, Ronggang Wang. 9904-9912 [doi]

Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training StrategyXiaoheng Tan, Jiabin Zhang, Yuhui Quan, Jing Li 0026, Yajing Wu, Zilin Bian. 9913-9922 [doi]

AutoSFX: Automatic Sound Effect Generation for VideosYujia Wang, Zhongxu Wang, Hua Huang 0001. 9923-9932 [doi]

Document Registration: Towards Automated Labeling of Pixel-Level Alignment Between Warped-Flat DocumentsWeiguang Zhang, Qiufeng Wang 0001, Kaizhu Huang, Xiaowei Huang 0001, Fengjun Guo, Xiaomeng Gu. 9933-9942 [doi]

Maximizing Feature Distribution Variance for Robust Neural NetworksHao Yang, Min Wang 0034, Zhengfei Yu, Zhi Zeng, Mingrui Lao, Yun Zhou 0001. 9943-9951 [doi]

3U-Net: Dual-Domain Collaborative Optimization Deep Unfolding Network for Image Compressive SensingKai Han, Jin Wang, Yunhui Shi, Nam Ling, Baocai Yin. 9952-9960 [doi]

IC-Mapper: Instance-Centric Spatio-Temporal Modeling for Online Vectorized Map ConstructionJiangtong Zhu, Zhao Yang, Yinan Shi, Jianwu Fang, Jianru Xue. 9961-9969 [doi]

Semantic-Aware and Quality-Aware Interaction Network for Blind Video Quality AssessmentJianjun Xiang, Yuanjie Dang, Peng Chen 0008, Ronghua Liang, Ruohong Huan, Nan Gao. 9970-9979 [doi]

Part-level Reconstruction for Self-Supervised Category-level 6D Object Pose Estimation with Coarse-to-Fine Correspondence OptimizationZerui Zhang, Jun Yu 0001, Liangxian Cui, Qiang Ling, Tianyu Liu. 9980-9988 [doi]

CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level Semantic Information related to Human FeelingsYachun Mi, Yan Shu, Yu Li, Chen hui, Puchao Zhou, Shaohui Liu. 9989-9998 [doi]

Multi-view Feature Extraction via Tunable Prompts is Enough for Image Manipulation LocalizationXuntao Liu, Yuzhou Yang, Haoyue Wang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang 0001, Sheng Li 0006. 9999-10007 [doi]

Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable GuidanceJunfeng Yang, Jing Fu, Zhen Zhang 0025, Limei Liu, Qin Li 0010, Wei Zhang 0074, Wenzhi Cao. 10008-10017 [doi]

Generalized News Event Discovery via Dynamic Augmentation and Entropy OptimizationZehang Lin, Jiayuan Xie, Zhenguo Yang, Yi Yu 0001, Qing Li 0001. 10018-10026 [doi]

Exposure Completing for Temporally Consistent Neural High Dynamic Range Video RenderingJiahao Cui, Wei Jiang, Zhan Peng, Zhiyu Pan, Zhiguo Cao 0001. 10027-10035 [doi]

Scalable Super-Resolution Neural OperatorLei Han, Xuesong Zhang 0001. 10036-10045 [doi]

HighlightRemover: Spatially Valid Pixel Learning for Image Specular Highlight RemovalLing Zhang, Yidong Ma, Zhi Jiang, Weilei He, Zhongyun Bao, Gang Fu, Wenju Xu, Chunxia Xiao. 10046-10054 [doi]

DERD: Data-free Adversarial Robustness Distillation through Self-adversarial Teacher GroupYuhang Zhou, Yushu Zhang 0001, Leo Yu Zhang, Zhongyun Hua. 10055-10064 [doi]

Enhancing Multi-view Graph Neural Network with Cross-view Confluent Message PassingShuman Zhuang, Sujia Huang, Wei Huang 0013, Yuhong Chen, Zhihao Wu 0003, Ximeng Liu. 10065-10074 [doi]

Driving Scene Understanding with Traffic Scene-Assisted Topology Graph TransformerFu Rong, Wenjin Peng, Meng Lan, Qian Zhang 0009, Lefei Zhang. 10075-10084 [doi]

From Question to Exploration: Can Classic Test-Time Adaptation Strategies Be Effectively Applied in Semantic Segmentation?Chang'an Yi, Haotian Chen, Yifan Zhang 0004, Yonghui Xu, Yan Zhou, LiZhen Cui. 10085-10094 [doi]

Event-ID: Intrinsic Decomposition Using an Event CameraZehao Chen, Zhan Lu, De Ma, Huajin Tang, Xudong Jiang 0001, Qian Zheng, Gang Pan 0001. 10095-10104 [doi]

TVPR: Text-to-Video Person Retrieval and a New BenchmarkXu Zhang, Fan Ni, Guannan Dong, Aichun Zhu, Jianhui Wu, Mingcheng Ni, Hui Liu 0026. 10105-10113 [doi]

Modal-Enhanced Semantic Modeling for Fine-Grained 3D Human Motion RetrievalHaoyu Shi, Huaiwen Zhang. 10114-10123 [doi]

Reliable Model Watermarking: Defending against Theft without Compromising on EvasionHongyu Zhu 0004, Sichu Liang, Wentao Hu, Fangqi Li 0001, Ju Jia, Shi-Lin Wang. 10124-10133 [doi]

DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising TrainingQian Qiao, Yu Xie, Jun Gao, Tianxiang Wu, Shaoyao Huang, Jiaqing Fan, Ziqiang Cao, Zili Wang, Yue Zhang 0011. 10134-10143 [doi]

3D Scene De-occlusion in Neural Radiance Fields: A Framework for Obstacle Removal and Realistic InpaintingYi Liu 0004, Xinyi Li, Wenjing Shuai. 10144-10153 [doi]

FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMsXuannan Liu, Peipei Li, Huaibo Huang, Zekun Li 0008, Xing Cui, Jiahao Liang, Lixiong Qin, Weihong Deng, Zhaofeng He. 10154-10163 [doi]

Fast Elastic-Net Multi-view Clustering: A Geometric Interpretation PerspectiveYalan Qin, Li Qian 0001. 10164-10172 [doi]

Dual-Hybrid Attention Network for Specular Highlight RemovalXiaojiao Guo, Xuhang Chen 0002, Shenghong Luo, Shuqiang Wang, Chi-Man Pun. 10173-10181 [doi]

Context-Aware Indoor Point Cloud Object Generation through User InstructionsYiyang Luo, Ke Lin 0003, Chao Gu. 10182-10190 [doi]

Towards Artist-Like Painting Agents with Multi-Granularity Semantic AlignmentZhangli Hu, Ye Chen, Zhongyin Zhao, Jinfan Liu, Bilian Ke, Bingbing Ni. 10191-10199 [doi]

DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera SynthesisZixuan Wang, Jiayi Li, Xiaoyu Qin, Shikun Sun, Songtao Zhou, Jia Jia 0001, Jiebo Luo. 10200-10209 [doi]

OmniStitch: Depth-Aware Stitching Framework for Omnidirectional Vision with Multiple CamerasSooho Kim, Soyeon Hong, Kyungsoo Park, Hyunsouk Cho, Kyung-Ah Sohn. 10210-10219 [doi]

SIRLUT: Simulated Infrared Fusion Guided Image-adaptive 3D Lookup Tables for Lightweight Image EnhancementKaijiang Li, Hao Li, HaiNing Li, Peisen Wang, Chunyi Guo, Wenfeng Jiang. 10220-10228 [doi]

IGSPAD: Inverting 3D Gaussian Splatting for Pose-agnostic Anomaly DetectionBolin Jiang, Yuqiu Xie, Jiawei Li 0006, Naiqi Li, Bin Chen 0011, Shu-Tao Xia. 10229-10237 [doi]

Cover-separable Fixed Neural Network Steganography via Deep Generative ModelsGuobiao Li, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001. 10238-10247 [doi]

Inferring 3D Occupancy Fields through Implicit Reasoning on Silhouette ImagesBaorui Ma, Yu-Shen Liu, Matthias Zwicker, Zhizhong Han. 10248-10257 [doi]

Prototype-Guided Dual-Transformer Reasoning for Video Individual CountingRui Li, Yishu Liu, Huafeng Li, Jinxing Li, Guangming Lu. 10258-10267 [doi]

Make Privacy Renewable! Generating Privacy-Preserving Faces Supporting Cancelable Biometric RecognitionTao Wang 0026, Yushu Zhang 0001, Xiangli Xiao, Lin Yuan, Zhihua Xia, Jian Weng 0001. 10268-10276 [doi]

2SFD: Improving Single Image Reflection Removal using Semantic Feature DictionaryGreen Rosh K. S, B. H. Pawan Prasad, Lokesh R. Boregowda, Kaushik Mitra. 10277-10286 [doi]

Bridging the Gap: Sketch-Aware Interpolation Network for High-Quality Animation Sketch InbetweeningJiaming Shen, Kun Hu, Wei Bao 0001, Chang Wen Chen, Zhiyong Wang 0001. 10287-10295 [doi]

Model X-ray: Detecting Backdoored Models via Decision BoundaryYanghao Su, Jie Zhang 0073, Ting Xu 0004, Tianwei Zhang 0004, Weiming Zhang 0001, Nenghai Yu. 10296-10305 [doi]

Towards Distortion-Debiased Blind Image Quality AssessmentLize Zhou, Xiaoqi Wang, Jian Xiong 0005, Xianzhong Long, Hao Gao 0005. 10306-10315 [doi]

A Descriptive Basketball Highlight Dataset for Automatic Commentary GenerationBenhui Zhang 0003, Junyu Gao 0001, Yuan Yuan 0001. 10316-10325 [doi]

Progressive Local and Non-Local Interactive Networks with Deeply Discriminative Training for Image DerainingCong Wang 0018, Liyan Wang, Jie Mu, Chengjin Yu, Wei Wang 0335. 10326-10335 [doi]

Semantic Aware Just Noticeable Differences for VVC Compressed Text Screen Content ImagesKaifang Yang, Xinrong Zhao, Yanchao Gong. 10336-10344 [doi]

Generative Text Steganography with Large Language ModelJiaxuan Wu, Zhengxian Wu, Yiming Xue, Juan Wen, Wanli Peng. 10345-10353 [doi]

Achieving Resolution-Agnostic DNN-based Image Watermarking: A Novel Perspective of Implicit Neural RepresentationYuchen Wang, Xingyu Zhu 0016, Guanhui Ye, Shiyao Zhang, Xuetao Wei. 10354-10362 [doi]

3D Human Pose Estimation from Multiple Dynamic Views via Single-view Pretraining with Procrustes AlignmentRenshu Gu, Jiajun Zhu, Yixuan Si, Fei Gao 0006, Jiamin Xu, Gang Xu 0001. 10363-10372 [doi]

Integrating Content-Semantics-World Knowledge to Detect Stress from VideosYang Ding, Yi Dai, Xin Wang 0117, Ling Feng, Lei Cao, Huijun Zhang. 10373-10381 [doi]

LoFormer: Local Frequency Transformer for Image DeblurringXintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang 0033. 10382-10391 [doi]

Unleashing the Power of Generic Segmentation Model: A Simple Baseline for Infrared Small Target DetectionMingjin Zhang, Chi Zhang, Qiming Zhang 0001, Yunsong Li, Xinbo Gao 0001, Jing Zhang 0037. 10392-10401 [doi]

Robust Prototype Completion for Incomplete Multi-view ClusteringHonglin Yuan, Shiyun Lai, Xingfeng Li 0004, Jian Dai, Yuan Sun 0016, Zhenwen Ren. 10402-10411 [doi]

Laplacian Matrix Learning for Point Cloud Attribute Compression with Ternary Search-Based Adaptive Block PartitionChanghao Peng, Wei Gao 0003. 10412-10420 [doi]

Superpixel-based Efficient Sampling for Learning Neural Fields from Large InputZhongwei Xuan, Zunjie Zhu, Shuai Wang 0003, Haibing Yin, Hongkui Wang, Ming Lu. 10421-10430 [doi]

Dual-stream Perception-driven Blind Quality Assessment for Stereoscopic Omnidirectional ImagesZhaolin Wan, Qiushuang Yang, Zhiyang Li 0001, Xiaopeng Fan, Wangmeng Zuo, Debin Zhao. 10431-10439 [doi]

Dig a Hole and Fill in Sand: Adversary and Hiding Decoupled SteganographyWeixuan Tang, Haoyu Yang, Yuan Rao, Zhili Zhou, Fei Peng 0001. 10440-10448 [doi]

SpeechEE: A Novel Benchmark for Speech Event ExtractionBin Wang 0004, Meishan Zhang, Hao Fei 0001, Yu Zhao, Bobo Li, Shengqiong Wu, Wei Ji 0008, Min Zhang 0005. 10449-10458 [doi]

VR-DiagNet: Medical Volumetric and Radiomic Diagnosis Networks with Interpretable Clinician-like Optimizing Visual InspectionShouyu Chen, Liang Hu 0004, Tangwei Ye, Zhongyuan Lai, Qi Zhang 0020, Ke Liu, Usman Naseem, Ke Sun, Nengjun Zhu. 10459-10467 [doi]

ECAvatar: 3D Avatar Facial Animation with Controllable Identity and EmotionMinjing Yu, Delong Pang, Ziwen Kang, Zhiyao Sun, Tian Lv, Jenny Sheng, Ran Yi, Yu-Hui Wen, Yong-Jin Liu 0001. 10468-10476 [doi]

3D Reconstruction and Novel View Synthesis of Indoor Environments Based on a Dual Neural Radiance FieldZhenyu Bao, Guibiao Liao, Zhongyuan Zhao, Kanglin Liu, Qing Li 0029, Guoping Qiu. 10477-10486 [doi]

CoTuning: A Large-Small Model Collaborating Distillation Framework for Better Model GeneralizationZimo Liu, Kangjun Liu, Mingyue Guo, Shiliang Zhang, Yaowei Wang 0001. 10487-10496 [doi]

PIMT: Physics-Based Interactive Motion Transition for Hybrid Character AnimationYanbin Deng, Zheng Li, Ning Xie 0003, Wei Zhang. 10497-10505 [doi]

DEITalk: Speech-Driven 3D Facial Animation with Dynamic Emotional Intensity ModelingKang Shen, Haifeng Xia, Guangxing Geng, Guangyue Geng, Siyu Xia, Zhengming Ding. 10506-10514 [doi]

LampMark: Proactive Deepfake Detection via Training-Free Landmark Perceptual WatermarksTianyi Wang 0006, Mengxiao Huang, Harry Cheng 0002, Xiao Zhang, Zhiqi Shen 0001. 10515-10524 [doi]

UniDense: Unleashing Diffusion Models with Meta-Routers for Universal Few-Shot Dense PredictionLintao Dong, Wei Zhai, Zheng-Jun Zha. 10525-10534 [doi]

Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image PersonalizationHenglei Lv, Jiayu Xiao, Liang Li 0003. 10535-10543 [doi]

Data Generation Scheme for Thermal Modality with Edge-Guided Adversarial Conditional Diffusion ModelGuoqing Zhu, Honghu Pan, Qiang Wang 0051, Chao Tian, Chao Yang, Zhenyu He 0001. 10544-10553 [doi]

Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion ModelsQiao Li, Xiaomeng Fu, Xi Wang 0014, Jin Liu 0020, Xingyu Gao 0001, Jiao Dai, Jizhong Han. 10554-10562 [doi]

RelScene: A Benchmark and baseline for Spatial Relations in text-driven 3D Scene GenerationZhaoda Ye, Xinhan Zheng, Yang Liu 0105, Yuxin Peng. 10563-10571 [doi]

QVD: Post-training Quantization for Video Diffusion ModelsShilong Tian, Hong Chen 0004, Chengtao Lv, Yu Liu 0031, Jinyang Guo, Xianglong Liu 0001, Shengxi Li, Hao Yang, Tao Xie. 10572-10581 [doi]

Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient AdaptationJingjing Xie, Yuxin Zhang 0002, Mingbao Lin, Liujuan Cao, Rongrong Ji. 10582-10591 [doi]

DiffHarmony++: Enhancing Image Harmonization with Harmony-VAE and Inverse Harmonization ModelPengfei Zhou, Fangxiang Feng, Guang Liu 0006, Ruifan Li, Xiaojie Wang 0006. 10592-10601 [doi]

RSNN: Recurrent Spiking Neural Networks for Dynamic Spatial-Temporal Information ProcessingQi Xu, Xuanye Fang, Yaxin Li, Jiangrong Shen, De Ma, Yi Xu 0008, Gang Pan 0001. 10602-10610 [doi]

Enhancing Transformer-based Semantic Matching for Few-shot Learning through Weakly Contrastive Pre-trainingWei Yang, Tengfei Huo, Zhiqiang Liu. 10611-10620 [doi]

ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image GenerationStanislav Frolov, Brian B. Moser, Sebastian Palacio, Andreas Dengel 0001. 10621-10629 [doi]

VoiceTuner: Self-Supervised Pre-training and Efficient Fine-tuning For Voice GenerationRongjie Huang, Yongqi Wang, Ruofan Hu, Xiaoshan Xu, Zhiqing Hong, Dongchao Yang, Xize Cheng, Zehan Wang 0001, Ziyue Jiang 0001, Zhenhui Ye, Luping Liu, Siqi Zheng, Zhou Zhao. 10630-10639 [doi]

Devil is in Details: Locality-Aware 3D Abdominal CT Volume Generation for Self-Supervised Organ SegmentationYuran Wang, Zhijing Wan, Yansheng Qiu, Zheng Wang 0007. 10640-10648 [doi]

Transferable Adversarial Facial Images for Privacy ProtectionMinghui Li, Jiangxiong Wang, Hao Zhang, Ziqi Zhou, Shengshan Hu, Xiaobing Pei. 10649-10658 [doi]

CoIn: A Lightweight and Effective Framework for Story Visualization and ContinuationMing Tao, Bing-Kun Bao, Hao Tang 0005, Yaowei Wang 0001, Changsheng Xu. 10659-10668 [doi]

Generative Active Learning for Image Synthesis PersonalizationXulu Zhang, Wengyu Zhang, Xiaoyong Wei, Jinlin Wu, Zhaoxiang Zhang 0001, Zhen Lei 0001, Qing Li 0001. 10669-10677 [doi]

SAT3D: Image-driven Semantic Attribute Transfer in 3DZhijun Zhai, Zengmao Wang, Xiaoxiao Long, Kaixuan Zhou, Bo Du 0001. 10678-10687 [doi]

Towards High-performance Spiking Transformers from ANN to SNN ConversionZihan Huang, Xinyu Shi, Zecheng Hao, Tong Bu, Jianhao Ding, Zhaofei Yu, Tiejun Huang 0001. 10688-10697 [doi]

Are handcrafted filters helpful for attributing AI-generated images?Jialiang Li, Haoyue Wang, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001, Athanasios V. Vasilakos. 10698-10706 [doi]

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed InputsPeng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen 0001, Shujian Huang. 10707-10715 [doi]

Prompt2Poster: Automatically Artistic Chinese Poster Creation from Prompt OnlyShaodong Wang, Yunyang Ge, Liuhan Chen, Haiyang Zhou, Qian Wang, Xinhua Cheng, Li Yuan 0007. 10716-10724 [doi]

UVMap-ID: A Controllable and Personalized UV Map Generative ModelWeijie Wang, Jichao Zhang, Chang Liu 0030, Xia Li 0005, Xingqian Xu, Humphrey Shi, Nicu Sebe, Bruno Lepri. 10725-10734 [doi]

Multi-modal Auto-regressive Modeling via Visual TokensTianshuo Peng, Zuchao Li, Lefei Zhang, Hai Zhao 0001, Ping Wang, Bo Du 0001. 10735-10744 [doi]

MappingFormer: Learning Cross-modal Feature Mapping for Visible-to-infrared Image TranslationHaining Wang 0007, Na Li 0014, Huijie Zhao, Yan Wen, Yi Su, Yuqiang Fang. 10745-10754 [doi]

A Sample-driven Selection Framework: Towards Graph Contrastive Networks with Reinforcement LearningXiangping Zheng, Xiuxin Hao, Bo Wu, Xigang Bao, Xuan Zhang 0009, Wei Li 0109, Xun Liang 0001. 10755-10764 [doi]

Score-Based Image-to-Image Brownian BridgePeiyong Wang, Bohan Xiao, Qisheng He, Carri Glide-Hurst, Ming Dong 0001. 10765-10773 [doi]

Product2IMG: Prompt-Free E-commerce Product Background Generation with Diffusion Model and Self-Improved LMMTingfeng Cao, Junsheng Kong, Xue Zhao, Wenqing Yao, Junwei Ding, Jinhui Zhu, Jiandong zhang. 10774-10783 [doi]

DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion ModelsZhenyu Xie, Haoye Dong, Yufei Gao, Zehua Ma, Xiaodan Liang. 10784-10793 [doi]

MambaGesture: Enhancing Co-Speech Gesture Generation with Mamba and Disentangled Multi-Modality FusionChencan Fu, Yabiao Wang, Jiangning Zhang, Zhengkai Jiang 0001, Xiaofeng Mao, Jiafu Wu, Weijian Cao, Chengjie Wang, Yanhao Ge, Yong Liu 0007. 10794-10803 [doi]

Multi-modal Denoising Diffusion Pre-training for Whole-Slide Image ClassificationWei Lou, Guanbin Li, Xiang Wan, Haofeng Li. 10804-10813 [doi]

iControl3D: An Interactive System for Controllable 3D Scene GenerationXingyi Li, Yizheng Wu, Jun Cen, Juewen Peng, Kewei Wang, Ke Xian, Zhe Wang 0006, Zhiguo Cao 0001, Guosheng Lin. 10814-10823 [doi]

PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention SteeringYibin Wang, Weizhong Zhang, Jianwei Zheng 0001, Cheng Jin 0001. 10824-10832 [doi]

MagicFight: Personalized Martial Arts Combat Video GenerationJiancheng Huang, Mingfu Yan, Songyan Chen, Yi Huang, Shifeng Chen. 10833-10842 [doi]

Large Point-to-Gaussian Model for Image-to-3D GenerationLongfei Lu, Huachen Gao, Tao Dai 0001, Yaohua Zha, Zhi Hou, Junta Wu, Shu-Tao Xia. 10843-10852 [doi]

MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video GenerationMingzhen Sun, Weining Wang, Yanyuan Qiao, Jiahui Sun, Zihan Qin, Longteng Guo, Xinxin Zhu, Jing Liu 0001. 10853-10861 [doi]

GenUDC: High Quality 3D Mesh Generation With Unsigned Dual Contouring RepresentationRuowei Wang, Jiaqi Li, Dan Zeng 0002, Xueqi Ma, Zixiang Xu, Jianwei Zhang 0013, Qijun Zhao. 10862-10871 [doi]

Natural Language Induced Adversarial ImagesXiaopei Zhu, Peiyang Xu, Guanning Zeng, Yinpeng Dong, Xiaolin Hu 0001. 10872-10881 [doi]

FC-4DFS: Frequency-controlled Flexible 4D Facial Expression SynthesizingXin Lu, Chuanqing Zhuang, Zhengda Lu, Yiqun Wang 0001, Jun Xiao 0005. 10882-10890 [doi]

Towards Photorealistic Video Colorization via Gated Color-Guided Image Diffusion ModelsJiaxing Li, Hongbo Zhao, Yijun Wang, Jianxin Lin. 10891-10900 [doi]

Customizing Text-to-Image Generation with Inverted InteractionMengmeng Ge, Xu Jia, Takashi Isobe, Xiaomin Li, Qinghe Wang, Jing Mu, Dong Zhou 0003, Li Wang, Huchuan Lu, Lu Tian, Ashish Sirasao, Emad Barsoum. 10901-10909 [doi]

GG-Editor: Locally Editing 3D Avatars with Multimodal Large Language Model GuidanceYunqiu Xu, Linchao Zhu, Yi Yang 0001. 10910-10919 [doi]

RainyScape: Unsupervised Rainy Scene Reconstruction using Decoupled Neural RenderingXianqiang Lyu, Hui Liu 0032, Junhui Hou. 10920-10929 [doi]

DiffTV: Identity-Preserved Thermal-to-Visible Face Translation via Feature Alignment and Dual-Stage ConditionsJingyu Lin, Guiqin Zhao, Jing Xu, Guoli Wang 0004, Zejin Wang, Antitza Dantcheva, Lan Du 0002, Cunjian Chen. 10930-10938 [doi]

COCO-LC: Colorfulness Controllable Language-based ColorizationYifan Li, Yuhang Bai, Shuai Yang 0001, Jiaying Liu 0001. 10939-10947 [doi]

Boundary-Aware Periodicity-based Sparsification Strategy for Ultra-Long Time Series ForecastingYiying Bao, Hao Zhou, Chao Peng, Chenyang Xu 0002, Shuo Shi, Kecheng Cai. 10948-10956 [doi]

Decoder-Only LLMs are Better Controllers for Diffusion ModelsZiyi Dong, Yao Xiao, Pengxu Wei, Liang Lin. 10957-10965 [doi]

One-shot In-context Part SegmentationZhenqi Dai, Ting Liu 0012, Xingxing Zhang, Yunchao Wei, Yanning Zhang. 10966-10975 [doi]

CustomNet: Object Customization with Variable-Viewpoints in Text-to-Image Diffusion ModelsZiyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan. 10976-10984 [doi]

GaussianTalker: Real-Time Talking Head Synthesis with 3D Gaussian SplattingKyusun Cho, Joungbin Lee, Heeji Yoon, Yeobin Hong, Jaehoon Ko, SangJun Ahn, Seungryong Kim. 10985-10994 [doi]

QNCD: Quantization Noise Correction for Diffusion ModelsHuanpeng Chu, Wei Wu 0002, Chengjie Zang, Kun Yuan. 10995-11003 [doi]

InNeRF: Learning Interpretable Radiance Fields for Generalizable 3D Scene Representation and RenderingDan Wang 0011, Xinrui Cui. 11004-11012 [doi]

DreamBooth++: Boosting Subject-Driven Generation via Region-Level References PackingZhongyi Fan, Zixin Yin, Gang Li, Yibing Zhan, Heliang Zheng. 11013-11021 [doi]

Group-aware Parameter-efficient Updating for Content-Adaptive Neural Video CompressionZhenghao Chen, Luping Zhou, Zhihao Hu, Dong Xu 0001. 11022-11031 [doi]

Heterophilic Graph Invariant Learning for Out-of-Distribution of Fraud DetectionLingfei Ren, Ruimin Hu, Zheng Wang 0007, Yilin Xiao, Dengshi Li, Junhang Wu, Yilong Zang, Jinzhang Hu, Zijun Huang. 11032-11040 [doi]

CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus AttentionsHaicheng Liao, Haoyu Sun, Huanming Shen, Chengyue Wang, Chunlin Tian, Kahou Tam, Li Li 0064, Chengzhong Xu 0001, Zhenning Li. 11041-11050 [doi]

SemNFT: A Semantically Enhanced Decentralized Middleware for Digital Asset ImmortalityLehao Lin, Hong Kang, Xinyao Sun, Wei Cai 0002. 11051-11059 [doi]

DualFed: Enjoying both Generalization and Personalization in Federated Learning via Hierachical RepresentationsGuogang Zhu, Xuefeng Liu 0001, Jianwei Niu 0002, Shaojie Tang 0001, Xinghao Wu, Jiayuan Zhang. 11060-11069 [doi]

One-shot-but-not-degraded Federated LearningHui Zeng, Minrui Xu, Tongqing Zhou, Xinyi Wu, Jiawen Kang 0001, Zhiping Cai, Dusit Niyato. 11070-11079 [doi]

Towards Real-time Video Compressive Sensing on Mobile DevicesMiao Cao, Lishun Wang, Huan Wang 0014, Guoqing Wang 0001, Xin Yuan 0002. 11080-11088 [doi]

FSVFG: Towards Immersive Full-Scene Volumetric Video Streaming with Adaptive Feature GridDaheng Yin, Jianxin Shi, Miao Zhang, Zhaowu Huang, Jiangchuan Liu, Fang Dong 0001. 11089-11098 [doi]

AraLive: Automatic Reward Adaption for Learning-based Live Video StreamingHuanhuan Zhang, Liu Zhuo, Haotian Li, Anfu Zhou, Chuanming Wang, Huadong Ma. 11099-11108 [doi]

HOGDA: Boosting Semi-supervised Graph Domain Adaptation via High-Order Structure-Guided Adaptive Feature AlignmentJun Dan, Weiming Liu 0005, Mushui Liu, Chunfeng Xie, Shunjie Dong, Guofang Ma, Yanchao Tan, Jiazheng Xing. 11109-11118 [doi]

Reproducibility Companion Paper: Aesthetics-Driven Virtual Time-Lapse Photography GenerationXin Jin 0015, Longteng Jiang, Yihao Zhang, Lihua Lu, Xiaobo Gao, Boyan Dong. 11119-11122 [doi]

Generative AI in Multimedia: Challenges and Opportunities for Academic and Industrial ImpactZi Helen Huang, Phoebe Chen, Shuicheng Yan. 11123-11124 [doi]

An Innovative Industry Program in A New Era of Multimedia with Generative AIJianquan Liu, Balu Adsumilli, Yukiko Yanagawa, Haiwei Dong 0001. 11125-11126 [doi]

Utilizing Very High-resolution Optical RGB Satellite Imagery in Geo-information Extraction for Fine-scale Map-makingWenmiao Hu. 11127-11131 [doi]

Practical Deep Learning Models for QIM-based VoIP SteganalysisCheng Zhang. 11132-11136 [doi]

OpenLEAF: A Novel Benchmark for Open-Domain Interleaved Image-Text GenerationJie An 0002, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu 0001, Lijuan Wang, Jiebo Luo. 11137-11145 [doi]

Perceptual Visual Similarity from EEG: Prediction and Image GenerationCarlos de la Torre-Ortiz, Tuukka Ruotsalo. 11146-11155 [doi]

ModelLock: Locking Your Model With a SpellYifeng Gao, Yuhua Sun, Xingjun Ma, Zuxuan Wu, Yu-Gang Jiang. 11156-11165 [doi]

Finding Input Data Domains of Image Classification Models with Hard-Label Black-Box AccessJiyi Zhang, Han Fang, Ee-Chien Chang. 11166-11174 [doi]

PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe QuestionsYudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Yu Wang 0002. 11175-11183 [doi]

Sophia-in-Audition: Virtual Production with a Robot PerformerTaotao Zhou, Teng Xu 0008, Dong Zhang, Yuyang Jiao, Peijun Xu, Yaoyu He, Lan Xu, Jingyi Yu. 11184-11193 [doi]

CLaM: An Open-Source Library for Performance Evaluation of Text-driven Human Motion GenerationXiaodong Chen, Kunlang He, Wu Liu, Xinchen Liu, Zheng-Jun Zha, Tao Mei 0001. 11194-11197 [doi]

VLMEvalKit: An Open-Source ToolKit for Evaluating Large Multi-Modality ModelsHaodong Duan, Junming Yang, Yuxuan Qiao, XinYu Fang, Lin Chen 0019, Yuan Liu 0025, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang 0003, Dahua Lin, Kai Chen 0026. 11198-11201 [doi]

OpenDIC: An Open-Source Library and Performance Evaluation for Deep-learning-based Image CompressionWei Gao 0003, Huiming Zheng, Chenhao Zhang, Kaiyu Zheng, Zhuozhen Yu, Yuan Li, Hua Ye, Yongchi Zhang. 11202-11205 [doi]

Room2XR: Virtual Interactive Collaboration in Real-world ScenesHung-Jui Guo, Hiranya Garbha Kumar, Minhas Kamal, Balakrishnan Prabhakaran 0001. 11206-11209 [doi]

Open-Sourcing VR2Gather: A Collaborative Social VR System for Adaptive Multi-Party Real Time CommunicationJack Jansen 0001, Thomas Röggla, Silvia Rossi 0001, Irene Viola 0001, Pablo César. 11210-11213 [doi]

uvgComm: Open Software for Low-Latency Multi-party Video CommunicationJoni Räsänen, Heikki Tampio, Alexandre Mercat, Jarno Vanne. 11214-11217 [doi]

TransNet V2: An Effective Deep Network Architecture for Fast Shot Transition DetectionTomás Soucek, Jakub Lokoc. 11218-11221 [doi]

Generalized Sampling of Non-Local Textural Clues Multi-View Stereo FrameworkJingyuan Tang, Yangang Cai, Xuesong Gao, Songlin Sun. 11222-11225 [doi]

NNVISR: Bring Neural Network Video Interpolation and Super Resolution into Video Processing FrameworkYuan Tong, Mengshun Hu, Zheng Wang 0007. 11226-11229 [doi]

uvg266: Open-Source VVC Intra EncoderMarko Viitanen, Joose Sainio, Kari Siivonen, Alexandre Mercat, Jarno Vanne. 11230-11233 [doi]

LearningPCC: A PyTorch Library for Learning-Based Point Cloud CompressionLiang Xie, Wei Gao 0003. 11234-11238 [doi]

PCHMVision: An Open-Source Library of Point Cloud Compression for Human and Machine VisionLiang Xie, Wei Gao 0003. 11239-11243 [doi]

Deep Video Compression with Scaled Hierarchical Bi-directional Motion ModelFeng Ye, Li Zhang 0006, Chuanmin Jia. 11244-11247 [doi]

OpenSEP: An Open Source Subjective Experiment PlatformHang Yuan, Wei Gao 0003, Wenxu Gao. 11248-11251 [doi]

MIRACLE: An Online, Explainable Multimodal Interactive Concept Learning SystemAnsel Blume, Khanh-Duy Nguyen, Zhenhailong Wang, Yangyi Chen, Michal Shlapentokh-Rothman, Xiaomeng Jin, Jeonghwan Kim, Zhen Zhu, Jiateng Liu, Kuan-Hao Huang, Mankeerat Sidhu, Xuanming Zhang, Vivian Liu, Raunak Sinha, Te-Lin Wu, Abhay Zala, Elias Stengel-Eskin, Da Yin, Yao Xiao, Utkarsh Mall, Zhou Yu 0005, Kai-Wei Chang, Camille Cobb, Karrie Karahalios, Lydia B. Chilton, Mohit Bansal, Nanyun Peng, Carl Vondrick, Derek Hoiem, Heng Ji. 11252-11254 [doi]

AssistEditor: Multi-Agent Collaboration for GUI Workflow Automation in Video CreationDifei Gao, Siyuan Hu, Zechen Bai, Qinghong Lin, Mike Zheng Shou. 11255-11257 [doi]

U2USim - A UAV Telepresence Simulation Platform with Multi-agent Sensing and Dynamic EnvironmentFeilin Han, Leping Zhang, Xin Wang 0019, Ke-Ao Zhao, Ying Zhong, Ziyi Su, Tongtong Feng, Wenwu Zhu 0001. 11258-11260 [doi]

MAF-ID: Multi-Agent Framework for Interactive Dubbing through Deep Video UnderstandingZhanbin Hu, Xiaodong He, Renzhou Pan, Xianzhou Zeng, Chenming Fan, Qiang Zhu. 11261-11263 [doi]

Unlimited Vision: Professional Composition by YourselfXin Jin 0015, Liaoruxing Zhang, Longteng Jiang, Dandan Li. 11264-11266 [doi]

DanceMimic: Awaken Your Dancing Instinct through a Real-time Dance Imitation Capture SystemSeongjean Kim, Jungwoo Huh, Yeseung Park, Jungsu Kim, Sanghoon Lee 0001. 11267-11269 [doi]

Video Editing Chatbot: Language-Driven Video Compositing SystemYing Ma, Xinyan Yang, Aiqi Wang, Jianglin Zeng, Shaofei Liu. 11270-11272 [doi]

Measure and Improve Your Food: Ingredient Estimation Based Nutrition CalculatorLiangyu Wang, Yoko Yamakata, Ryoma Maeda, Kiyoharu Aizawa. 11273-11275 [doi]

Scene Graph Driven Hybrid Interactive VR TeleconferencingMingyuan Wu, Ruifan Ji, Haozhen Zheng, Jiaxi Li, Beitong Tian, Bo Chen 0025, Ruixiao Zhang, Jacob Chakareski, Michael Zink, Ramesh K. Sitaraman, Klara Nahrstedt. 11276-11278 [doi]

Muskits-ESPnet: A Comprehensive Toolkit for Singing Voice Synthesis in New ParadigmYuning Wu, Jiatong Shi, Yifeng Yu, Yuxun Tang, Tao Qian, Yueqian Lin, Jionghao Han, Xinyi Bai, Shinji Watanabe 0001, Qin Jin. 11279-11281 [doi]

Enhancing Speaking and Slide Design Skills with Deep Learning: An Online Presentation Assessment SystemShengzhou Yi, Junichiro Matsugami, Takuya Yamamoto, Toshihiko Yamasaki. 11282-11284 [doi]

Multimedia Information Retrieval in XRRahel Arnold, Werner Bailer, Ralph Gasser, Björn Þór Jónsson 0001, Omar Shahbaz Khan, Heiko Schuldt, Florian Spiess 0001, Lucia Vadicamo. 11285-11286 [doi]

Learning Backward Compatible RepresentationsNiccolo Biondi, Simone Ricci, Federico Pernici, Alberto Del Bimbo. 11287-11288 [doi]

From Multimodal LLM to Human-level AI: Modality, Instruction, Reasoning and BeyondHao Fei 0001, Xiangtai Li, Haotian Liu, Fuxiao Liu, Zhuosheng Zhang 0001, Hanwang Zhang, Shuicheng Yan. 11289-11291 [doi]

Point Cloud Compression, Enhancement and Applications: From 3D Perception to Large ModelsWei Gao 0003, Ge Li 0002. 11292-11293 [doi]

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and BeyondSoyeon Caren Han, Feiqi Cao, Josiah Poon, Roberto Navigli. 11294-11295 [doi]

Curriculum Learning for Multimedia in the Era of Large Language ModelsXin Wang 0019, Yuwei Zhou, Hong Chen, Wenwu Zhu 0001. 11296-11297 [doi]

Tutorial: Large Language-Vision Model in SocietyKaicheng Yu, Zhuang Shao, Siyuan Qi, Dongfang Liu. 11298-11299 [doi]

Label-Efficient Emotion and Sentiment AnalysisSicheng Zhao, Guoli Jia, Xiaopeng Hong, Yanyan Zhao, Jianhua Tao 0001. 11300-11301 [doi]

Dataset, Challenge, and Evaluation for Tumor Segmentation VariabilityYicheng Wu 0001, Yutong Xie, Xiangde Luo, Qi Wu 0001, Jianfei Cai 0001. 11302-11303 [doi]

MAC 2024: Micro-Action Analysis Grand ChallengeDan Guo, Xiaobai Li, Kun Li 0008, Haoyu Chen 0001, Jingjing Hu, Guoying Zhao 0001, Yi Yang, Meng Wang 0001. 11304-11305 [doi]

End-to-end Spatio-Temporal Information Aggregation For Micro-Action DetectionJun Yu 0001, Mohan Jing, Guopeng Zhao, Keda Lu, Yifan Wang, Feng Zhao 0005, Jiaqing Sun, Qingsong Liu, Jiaen Liang. 11306-11312 [doi]

Advancing Micro-Action Recognition with Multi-Auxiliary Heads and Hybrid Loss OptimizationQiankun Li, Xiaolong Huang, Huabao Chen, Feng He, Qiupu Chen, Zengfu Wang. 11313-11319 [doi]

Instance-aware Fine-grained Micro-action RecognitionChen Wang, Xun Mei, Feng Zhang. 11320-11326 [doi]

Micro-Action Recognition via Hierarchical Fusion and InferenceFan Gong, Jialiang Chen, Jiajun Zhu, Qijian Bao, Fei Gao 0006, Renshu Gu, Gang Xu 0001. 11327-11332 [doi]

A Synopsis of FAME 2024 Challenge: Associating Faces with Voices in Multilingual EnvironmentsMuhammad Saad Saeed, Shah Nawaz, Marta Moscati, Rohan Kumar Das, Muhammad Salman Tahir, Muhammad Zaigham Zaheer, Muhammad Irzam Liaqat, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, Markus Schedl. 11333-11334 [doi]

Exploring Robust Face-Voice Matching in Multilingual EnvironmentsJiehui Tang, Xiaofei Wang, Zhen Xiao, Jiayi Liu, Xueliang Liu, Richang Hong. 11335-11341 [doi]

Multi-Stage Face-Voice Association Learning with Keynote Speaker DiarizationRuijie Tao, Zhan Shi, Yidi Jiang, Duc-Tuan Truong, Eng Siong Chng, Massimo Alioto, Haizhou Li 0001. 11342-11347 [doi]

Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face AssociationWuyang Chen, Yanjie Sun, Kele Xu, Yong Dou. 11348-11354 [doi]

1M-Deepfakes Detection ChallengeZhixi Cai, Abhinav Dhall, Shreya Ghosh 0001, Munawar Hayat, Dimitrios Kollias, Kalin Stefanov, Usman Tariq. 11355-11359 [doi]

Vigo: Audiovisual Fake Detection and Segment LocalizationDiego Pérez-Vieites, Juan José Moreira-Pérez, Ángel Aragón-Kifute, Raquel Román-Sarmiento, Rubén Castro-González. 11360-11364 [doi]

MFMS: Learning Modality-Fused and Modality-Specific Features for Deepfake Detection and Localization TasksYi Zhang, Changtao Miao, Man Luo, Jianshu Li, Wenzhong Deng, Weibin Yao, Zhe Li, Bingyu Hu, Weiwei Feng, Tao Gong, Qi Chu 0001. 11365-11369 [doi]

Building Robust Video-Level Deepfake Detection via Audio-Visual Local-Global InteractionsYifan Wang, Xuecheng Wu, Jia Zhang, Mohan Jing, Keda Lu, Jun Yu 0001, Wen Su, Fang Gao 0001, Qingsong Liu, Jianqing Sun, Jiaen Liang. 11370-11376 [doi]

MultiMediate'24: Multi-Domain Engagement EstimationPhilipp Müller 0001, Michal Balazia, Tobias Baur 0001, Michael Dietz, Alexander Heimerl, Anna Penzkofer, Dominik Schiller, François Brémond, Jan Alexandersson, Elisabeth André, Andreas Bulling. 11377-11382 [doi]

Towards Engagement Prediction: A Cross-Modality Dual-Pipeline Approach using Visual and Audio FeaturesDeepak Kumar, Surbhi Madan, Pradeep Singh, Abhinav Dhall, Balasubramanian Raman. 11383-11389 [doi]

Less is More: Adaptive Feature Selection and Fusion for Eye Contact DetectionFuyan Ma, Yiran He, Bin Sun 0001, Shutao Li. 11390-11396 [doi]

DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement EstimationJia Li 0013, Yangchen Yu, Yin Chen, Yu Zhang 0082, Peng Jia, Yunbo Xu, Ziqiang Li, Meng Wang 0001, Richang Hong. 11397-11403 [doi]

The ACM Multimedia 2024 Viual Spatial Description Grand ChallengeYu Zhao, Hao Fei 0001, Bobo Li, Meishan Zhang, Min Zhang 0005. 11404-11406 [doi]

RAG-Guided Large Language Models for Visual Spatial Description with Adaptive Hallucination CorrectorJun Yu 0001, Yunxiang Zhang, Zerui Zhang, Zhao Yang, Gongpeng Zhao, Fengzhao Sun, Fanrui Zhang, Qingsong Liu, Jianqing Sun, Jiaen Liang, Yaohui Zhang. 11407-11413 [doi]

A Method for Visual Spatial Description Based on Large Language Model Fine-tuningJiabao Wang, Fang Gao 0001, Jingfeng Tang, Shaodong Li, Hanbo Zheng, Shengheng Ma, Feng Shuang 0002, Jun Yu 0001. 11414-11419 [doi]

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial DescriptionYizhang Jin, Jian Li 0062, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu 0007, Yabiao Wang, Chengjie Wang, Lizhuang Ma. 11420-11425 [doi]

DEMON24: ACM MM24 Demonstrative Instruction Following ChallengeZhiqi Ge, Juncheng Li 0006, Qifan Yu, Wei Zhou, Siliang Tang, Yueting Zhuang. 11426-11428 [doi]

Enhancing Multimodal Large Language Models on Demonstrative Multi-Image InstructionsXian Fu. 11429-11434 [doi]

Demonstrative Instruction Following in Multimodal LLMs via Integrating Low-Rank Adaptation with Ensemble LearningJingyu Wei, Yi Su, Kele Xu, Lingbin Zeng, Bo Liu 0014, Huaimin Wang. 11435-11441 [doi]

SMP Challenge Summary: Social Media Prediction ChallengeBo Wu 0018, Peiye Liu, Qiushi Huang, Zhaoyang Zeng, Jia Wang, Bei Liu 0001, Jiebo Luo, Wen-Huang Cheng. 11442-11444 [doi]

MMF: Winning Solution to Social Media Popularity Prediction Challenge 2024Yu-Shi Lin, Anthony J. T. Lee. 11445-11449 [doi]

Dual-Stream Pre-Training Transformer to Enhance Multimodal Learning for Social Media PredictionWenhao Hu, Weilong Chen, WeiMin Yuan, Yan Wang 0083, Shimin Cai, Yanru Zhang. 11450-11456 [doi]

Higher-Order Vision-Language Alignment for Social Media PredictionMingSheng Tu, Tianjiao Wan, Qisheng Xu, Xinhao Jiang, Kele Xu, Cheng Yang 0004. 11457-11463 [doi]

Revisiting Vision-Language Features Adaptation and Inconsistency for Social Media Popularity PredictionChih-Chung Hsu, Chia-Ming Lee, Yu-Fan Lin, Yi-Shiuan Chou, Chih-Yu Jian, Chi-Han Tsai. 11464-11469 [doi]

ACM Multimedia 2024 Grand Challenge Report for Artificial Intelligence Generated Image DetectionShien Song, Jie Yang, Jin Chen, Han Qi, Yifei Xue, Yizhen Lao, Yi Yu. 11470-11471 [doi]

Optimizing AIGC Image Detection: Strategies in Data Augmentation and Model ArchitectureHuihui Fu. 11472-11474 [doi]

A Solution to ACMMM 2024 on Artificial Intelligence Generated Image DetectionShihang Li, Haishan Wu, Biao Wang. 11475-11477 [doi]

Optimizing the Baseline Approach for the 2024 ACM Multimedia Grand Challenge in Artificial Intelligence Generated Image DetectionJin Chen. 11478-11481 [doi]

MEGC2024: ACM Multimedia 2024 Facial Micro-Expression Grand ChallengeJohn See, Jingting Li, Adrian K. Davison, Gen-Bing Liong, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang. 11482-11483 [doi]

Temporal-Informative Adapters in VideoMAE V2 and Multi-Scale Feature Fusion for Micro-Expression Spotting-then-RecognizeJun Yu 0001, Gongpeng Zhao, Yaohui Zhang, Peng He, Zerui Zhang, Zhao Yang, Qingsong Liu, Jianqing Sun, Jiaen Liang. 11484-11489 [doi]

Micro-Expression Spotting Based on Optical Flow Feature with Boundary CalibrationJun Yu 0001, Yaohui Zhang, Gongpeng Zhao, Peng He, Zerui Zhang, Zhongpeng Cai, Qingsong Liu, Jianqing Sun, Jiaen Liang. 11490-11496 [doi]

A Multi-scale Feature Learning Network with Optical Flow Correction for Micro- and Macro-expression SpottingZhengye Zhang, Sirui Zhao, Xinglong Mao, Shifeng Liu, Hao Wang 0076, Tong Xu 0001, Enhong Chen. 11497-11502 [doi]

Enhancing Micro-Expression Analysis Performance by Effectively Addressing Data ImbalanceYuhong He, Wenchao Liu 0004, Guangyu Wang, Lin Ma 0003, Haifeng Li 0001. 11503-11507 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Proceedings of the 32nd ACM International Conference on Multimedia, MM 2024, Melbourne, VIC, Australia, 28 October 2024 - 1 November 2024

Abstract

Table of Contents