Proceedings of the 31st ACM International Conference on Multimedia, MM 2023, Ottawa, ON, Canada, 29 October 2023- 3 November 2023 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Abdulmotaleb El-Saddik, Tao Mei, Rita Cucchiara, Marco Bertini 0001, Diana Patricia Tobon Vallejo, Pradeep K. Atrey, M. Shamim Hossain, editors, Proceedings of the 31st ACM International Conference on Multimedia, MM 2023, Ottawa, ON, Canada, 29 October 2023- 3 November 2023. ACM, 2023. [doi]

Conference: mm

Abstract is missing.

Internet of Video Things: Technical Challenges and Emerging ApplicationsChang Wen Chen. 1-2 [doi]

Multimodal AI & LLMs for Peacekeeping and Emergency ResponseAlejandro Jaimes. 3-4 [doi]

Transition and Adaptability: The Cornerstone of Resilience in Future Networked Multimedia Systems and BeyondRalf Steinmetz. 5-6 [doi]

Mutual Information-driven Triple Interaction Network for Efficient Image DehazingHao Shen, Zhong-Qiu Zhao, Yulun Zhang, Zhao Zhang 0001. 7-16 [doi]

Suspected Objects Matter: Rethinking Model's Prediction for One-stage Visual GroundingYang Jiao, Zequn Jie, Jingjing Chen, Lin Ma 0002, Yu-Gang Jiang. 17-26 [doi]

Self-Relational Graph Convolution Network for Skeleton-Based Action RecognitionSophyani Banaamwini Yussif, Ning Xie, Yang Yang, Heng Tao Shen. 27-36 [doi]

Exploring Correlations in Degraded Spatial Identity Features for Blind Face RestorationQian Ning, Fangfang Wu, Weisheng Dong, Xin Li, Guangming Shi. 37-45 [doi]

Video-based Visible-Infrared Person Re-Identification via Style Disturbance Defense and Dual InteractionChuhao Zhou, Jinxing Li, Huafeng Li, Guangming Lu, Yong Xu, Min Zhang. 46-55 [doi]

PetalView: Fine-grained Location and Orientation Extraction of Street-view Images via Cross-view Local SearchWenmiao Hu, Yichen Zhang 0002, Yuxuan Liang, Xianjing Han, Yifang Yin, Hannes Kruppa, See-Kiong Ng, Roger Zimmermann. 56-66 [doi]

Shifted GCN-GAT and Cumulative-Transformer based Social Relation Recognition for Long VideosHaorui Wang, Yibo Hu 0005, Yangfu Zhu, Jinsheng Qi, Bin Wu. 67-76 [doi]

Causal Intervention for Sparse-View Gait RecognitionJilong Wang, Saihui Hou, Yan Huang 0008, Chunshui Cao, Xu Liu, Yongzhen Huang, Liang Wang 0001. 77-85 [doi]

MM-AU: Towards Multimodal Understanding of Advertisement VideosDigbalay Bose, Rajat Hebbar, TianTian Feng, Krishna Somandepalli, Anfeng Xu, Shrikanth Narayanan. 86-95 [doi]

UER: A Heuristic Bias Addressing Approach for Online Continual LearningHuiwei Lin, Shanshan Feng, Baoquan Zhang, Hongliang Qiao, Xutao Li, Yunming Ye. 96-104 [doi]

Clip Fusion with Bi-level Optimization for Human Mesh Reconstruction from Monocular VideosPeng Wu, Xiankai Lu, Jianbing Shen, Yilong Yin. 105-115 [doi]

Parsing is All You Need for Accurate Gait Recognition in the WildJinkai Zheng, Xinchen Liu, Shuai Wang, Lihao Wang, Chenggang Yan 0001, Wu Liu. 116-124 [doi]

Multi-Scale Similarity Aggregation for Dynamic Metric LearningDingyi Zhang, Yingming Li, Zhongfei Zhang. 125-134 [doi]

RefineTAD: Learning Proposal-free Refinement for Temporal Action DetectionYue Feng, Zhengye Zhang, Rong-Quan, Limin Wang, Jie Qin. 135-143 [doi]

Video Infringement Detection via Feature Disentanglement and Mutual Information MaximizationZhenguang Liu, XinYang Yu, Ruili Wang, Shuai Ye, Zhe Ma, Jianfeng Dong, Sifeng He, Feng Qian, Xiaobo Zhang, Roger Zimmermann, Lei Yang. 144-152 [doi]

Pseudo Object Replay and Mining for Incremental Object DetectionDongbao Yang, Yu Zhou, Xiaopeng Hong, Aoting Zhang, Xin Wei, Linchengxi Zeng, Zhi Qiao, Weipinng Wang. 153-162 [doi]

Informative Classes Matter: Towards Unsupervised Domain Adaptive Nighttime Semantic SegmentationShiqin Wang, Xin Xu, Xianzheng Ma, Kui Jiang, Zheng Wang 0007. 163-172 [doi]

View while Moving: Efficient Video Recognition in Long-untrimmed VideosYe Tian 0008, Mengyu Yang, Lanshan Zhang, Zhizhen Zhang, Yang Liu, Xiaohui Xie, Xirong Que, Wendong Wang. 173-183 [doi]

PMVC: Data Augmentation-Based Prosody Modeling for Expressive Voice ConversionYimin Deng, Huaizhen Tang, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 184-192 [doi]

Alleviating Spatial Misalignment and Motion Interference for UAV-based Video RecognitionGege Shi, Xueyang Fu, Chengzhi Cao, Zheng-Jun Zha. 193-202 [doi]

Learning Causality-inspired Representation Consistency for Video Anomaly DetectionYang Liu 0246, Zhaoyang Xia, Mengyang Zhao, Donglai Wei 0002, Yuzheng Wang, Siao Liu, Bobo Ju, Gaoyun Fang, Jing Liu, Liang Song. 203-212 [doi]

M2ATS: A Real-world Multimodal Air Traffic Situation Benchmark Dataset and BeyondDongyue Guo, Yi Lin 0006, Xuehang You, Zhongping Yang, Jizhe Zhou, Bo Yang, Jianwei Zhang, Han Shi, Shasha Hu, Zheng Zhang. 213-221 [doi]

Federated Learning with Label-Masking DistillationJianghu Lu, Shikun Li, Kexin Bao, Pengju Wang, Zhenxing Qian, Shiming Ge. 222-232 [doi]

Painterly Image Harmonization using Diffusion ModelLingxiao Lu, Jiangtong Li, Junyan Cao, Li Niu 0002, Liqing Zhang 0001. 233-241 [doi]

Exploring Hyperspectral Histopathology Image Segmentation from a Deformable PerspectiveXingran Xie, Ting Jin, Boxiang Yun, Qingli Li, Yan Wang. 242-251 [doi]

Uncertainty-Aware Variate Decomposition for Self-supervised Blind Image DeblurringRunhua Jiang, Yahong Han. 252-260 [doi]

SCLAV: Supervised Cross-modal Contrastive Learning for Audio-Visual CodingChao Sun, Min Chen 0003, Jialiang Cheng, Han Liang, Chuanbo Zhu 0002, Jincai Chen. 261-270 [doi]

Cross-Modal and Multi-Attribute Face Recognition: A BenchmarkFeng Lin 0004, Kaiqiang fu, Hao Luo, Ziyue Zhan, Zhibo Wang, Zhenguang Liu, Lorenzo Cavallaro, Kui Ren 0001. 271-279 [doi]

A Closer Look at Classifier in Adversarial Domain GeneralizationYe Wang, Junyang Chen, Mengzhu Wang, Hao Li, Wei Wang, Houcheng Su, Zhihui Lai, Wei Wang, Zhenghan Chen. 280-289 [doi]

Mixture-of-Experts Learner for Single Long-Tailed Domain GeneralizationMengzhu Wang, Jianlong Yuan, Zhibin Wang. 290-299 [doi]

Robust Spectral Embedding Completion Based Incomplete Multi-view ClusteringChao Zhang 0078, Jingwen Wei, Bo Wang 0027, Zechao Li, Chunlin Chen, Huaxiong Li. 300-308 [doi]

SA-GDA: Spectral Augmentation for Graph Domain AdaptationJinhui Pang, Zixuan Wang, Jiliang Tang, Mingyan Xiao, Nan Yin. 309-318 [doi]

CONVERT: Contrastive Graph Clustering with Reliable AugmentationXihong Yang, Cheng Tan, Yue Liu, Ke Liang 0006, Siwei Wang, Sihang Zhou, Jun Xia, Stan Z. Li, Xinwang Liu, En Zhu. 319-327 [doi]

High-order Complementarity Induced Fast Multi-View Clustering with Enhanced Tensor Rank MinimizationJintian Ji, Songhe Feng. 328-336 [doi]

DealMVC: Dual Contrastive Calibration for Multi-view ClusteringXihong Yang, Jin Jiaqi, Siwei Wang, Ke Liang 0006, Yue Liu 0008, Yi Wen, Suyuan Liu, Sihang Zhou, Xinwang Liu, En Zhu. 337-346 [doi]

Bidomain Modeling Paradigm for PansharpeningJunming Hou, Qi Cao, Ran Ran, Che Liu, Junling Li, Liang-Jian Deng. 347-357 [doi]

Learning High-frequency Feature Enhancement and Alignment for Pan-sharpeningYingying Wang, Yunlong Lin, Ge Meng, Zhenqi Fu, Yuhang Dong, Linyu Fan, Hedeng Yu, Xinghao Ding, Yue Huang 0001. 358-367 [doi]

Distribution Consistency based Fast Anchor Imputation for Incomplete Multi-view ClusteringXingfeng Li 0004, Yinghui Sun, Quansen Sun, Jia Dai, Zhenwen Ren. 368-376 [doi]

Visual Causal Scene Refinement for Video Question AnsweringYushen Wei, Yang Liu 0084, Hong Yan, Guanbin Li, Liang Lin. 377-386 [doi]

Parameter-Efficient Transfer Learning for Audio-Visual-Language TasksHongye Liu, Xianhai Xie, Yang Gao, Zhou Yu. 387-396 [doi]

ReCo: A Dataset for Residential Community Layout PlanningXi Chen, Yun Xiong, Siqi Wang, Haofen Wang, Tao Sheng, Yao Zhang 0009, Yu Ye. 397-405 [doi]

Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object DetectionRunmin Cong, Hongyu Liu, Chen Zhang, Wei Zhang, Feng Zheng, Ran Song, Sam Kwong. 406-416 [doi]

Multi-view Self-Expressive Subspace Clustering NetworkJinrong Cui, Yuting Li, Yulu Fu, Jie Wen 0001. 417-425 [doi]

Cross-modality Representation Interactive Learning for Multimodal Sentiment AnalysisJian Huang, Yanli Ji, Yang Yang, Heng Tao Shen. 426-434 [doi]

Entropy Neural Estimation for Graph Contrastive LearningYixuan Ma, Xiaolin Zhang, Peng Zhang, Kun Zhan. 435-443 [doi]

Cross-modal and Cross-medium Adversarial Attack for AudioLiguo Zhang, Zilin Tian, Yunfei Long, Sizhao Li, Guisheng Yin. 444-453 [doi]

Unsupervised Multiplex Graph learning with Complementary and Consistent InformationLiang Peng, Xin Wang, Xiaofeng Zhu. 454-462 [doi]

GCL: Gradient-Guided Contrastive Learning for Medical Image Segmentation with Multi-Perspective Meta LabelsYixuan Wu, Jintai Chen, Jiahuan Yan, Yiheng Zhu, Danny Z. Chen, Jian Wu 0001. 463-471 [doi]

Multi-Spectral Image Stitching via Spatial Graph ReasoningZhiying Jiang, Zengxi Zhang, Jinyuan Liu, Xin Fan 0001, Risheng Liu. 472-480 [doi]

Propagation is All You Need: A New Framework for Representation Learning and Classifier Training on GraphsJiaming Zhuo, Can Cui, Kun Fu, Bingxin Niu, Dongxiao He, Yuanfang Guo, Zhen Wang, Chuan Wang, Xiaochun Cao, Liang Yang. 481-489 [doi]

Cross-modal Unsupervised Domain Adaptation for 3D Semantic Segmentation via Bidirectional Fusion-then-DistillationYao Wu, Mingwei Xing, Yachao Zhang, Yuan Xie 0006, Jianping Fan 0007, Zhongchao Shi, Yanyun Qu. 490-498 [doi]

Distortion-aware Transformer in 360° Salient Object DetectionYinjie Zhao, Lichen Zhao, Qian Yu, Lu Sheng, Jing Zhang, Dong Xu. 499-508 [doi]

Symmetrical Linguistic Feature Distillation with CLIP for Scene Text RecognitionZixiao Wang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Boqiang Zhang, Yongdong Zhang 0001. 509-518 [doi]

SpaceCLIP: A Vision-Language Pretraining Framework With Spatial Reconstruction On TextBo Zou, Chao Yang, Chengbin Quan, Youjian Zhao. 519-528 [doi]

Improving Cross-Modal Recipe Retrieval with Component-Aware Prompted CLIP EmbeddingXu Huang, Jin Liu, Zhizhong Zhang, Yuan Xie 0006. 529-537 [doi]

Dynamic Contrastive Learning with Pseudo-samples Intervention for Weakly Supervised Joint Video MR and HDShuhan Kong, Liang Li 0003, Beichen Zhang, Wenyu Wang, Bin Jiang, Chenggang Yan 0001, Changhao Xu. 538-546 [doi]

RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-trainingZheng Yuan 0005, Qiao Jin 0001, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei Huang, Songfang Huang. 547-556 [doi]

RTQ: Rethinking Video-language Understanding Based on Image-text ModelXiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, Liqiang Nie. 557-566 [doi]

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language ModelsShanShan Zhong, Zhongzhan Huang, Weushao Wen, Jinghui Qin, Liang Lin. 567-578 [doi]

Face Encryption via Frequency-Restricted Identity-Agnostic AttacksXin Dong, Rui Wang, Siyuan Liang, Aishan Liu, Lihua Jing. 579-588 [doi]

Emotion-Prior Awareness Network for Emotional Video CaptioningPeipei Song, Dan Guo, Xun Yang, Shengeng Tang, Erkun Yang, Meng Wang. 589-600 [doi]

TE-KWS: Text-Informed Speech Enhancement for Noise-Robust Keyword SpottingDong Liu, Qirong Mao, Lijian Gao, Qinghua Ren, Zhenghan Chen, Ming Dong. 601-610 [doi]

A Prior Instruction Representation Framework for Remote Sensing Image-text RetrievalJiancheng Pan, Qing Ma, Cong Bai. 611-620 [doi]

PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using Large Language ModelsNirmalendu Prakash, Han Wang, Nguyen-Khoi Hoang, Ming Shan Hee, Roy Ka-Wei Lee. 621-631 [doi]

Dynamic Low-Rank Instance Adaptation for Universal Neural Image CompressionYue Lv, Jinxi Xiang, Jun Zhang, Wenming Yang, Xiao Han, Wei Yang 0032. 632-642 [doi]

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image GenerationLeigang Qu, Shengqiong Wu, Hao Fei 0001, Liqiang Nie, Tat-Seng Chua. 643-654 [doi]

POAR: Towards Open Vocabulary Pedestrian Attribute RecognitionYue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-Peng Tan. 655-665 [doi]

PointCRT: Detecting Backdoor in 3D Point Cloud via Corruption RobustnessShengshan Hu, Wei Liu, Minghui Li, Yechao Zhang, Xiaogeng Liu, Xianlong Wang, Leo Yu Zhang, Junhui Hou. 666-675 [doi]

Blind Image Super-resolution with Rich Texture-Aware CodebookRui Qin, Ming Sun, Fangyuan Zhang, Xing Wen, Bin Wang. 676-687 [doi]

V2Depth: Monocular Depth Estimation via Feature-Level Virtual-View Simulation and RefinementZizhang Wu, Zhuozheng Li, Zhi-Gang Fan, Yunzhe Wu, Jian Pu, Xianzhi Li. 688-697 [doi]

GCMA: Generative Cross-Modal Transferable Adversarial Attacks from Images to VideosKai Chen 0027, Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang. 698-708 [doi]

AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language RecognitionLianyu Hu 0003, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng 0005. 709-718 [doi]

Dynamic Triple Reweighting Network for Automatic Femoral Head Necrosis Diagnosis from Computed TomographyLingfeng Li, Gangming Zhao, Yizhou Yu, Jinpeng Li 0002. 719-727 [doi]

Category-Level Articulated Object 9D Pose Estimation via Reinforcement LearningLiu Liu, Jianming Du, Hao Wu, Xun Yang, Zhenguang Liu, Richang Hong, Meng Wang. 728-736 [doi]

RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching DetectionQichao Ying, Jiaxin Liu, Sheng Li, Haisheng Xu, Zhenxing Qian, Xinpeng Zhang 0001. 737-746 [doi]

Slow-Fast Time Parameter Aggregation Network for Class-Incremental Lip ReadingXueyi Zhang, Chengwei Zhang, Tao Wang, Jun Tang, Songyang Lao, Haizhou Li. 747-756 [doi]

Text-based Person Search without Parallel Image-Text DataYang Bai, Jingyao Wang, Min Cao, Chen Chen 0036, Ziqiang Cao, Liqiang Nie, Min Zhang. 757-767 [doi]

Exploring Inconsistent Knowledge Distillation for Object Detection with Data AugmentationJiawei Liang, Siyuan Liang, Aishan Liu, Ke Ma 0001, Jingzhi Li, Xiaochun Cao. 768-778 [doi]

CARIS: Context-Aware Referring Image SegmentationSun'ao Liu, Yiheng Zhang, Zhaofan Qiu, Hongtao Xie, Yongdong Zhang 0001, Ting Yao. 779-788 [doi]

Ground-to-Aerial Person Search: Benchmark Dataset and ApproachShizhou Zhang, Qingchun Yang, De Cheng, Yinghui Xing, Guoqiang Liang, Peng Wang 0015, Yanning Zhang. 789-799 [doi]

Sparse Sharing Relation Network for Panoptic Driving PerceptionFan Jiang, Zilei Wang. 800-808 [doi]

AcFormer: An Aligned and Compact Transformer for Multimodal Sentiment AnalysisDaoming Zong, Chaoyue Ding, Baoxiang Li, Jiakui Li, Ken Zheng, Qunyan Zhou. 833-842 [doi]

Freq-HD: An Interpretable Frequency-based High-Dynamics Affective Clip Selection Method for in-the-Wild Facial Expression Recognition in VideosZeng Tao, Yan Wang, Zhaoyu Chen, Boyang Wang, Shaoqi Yan, Kaixun Jiang, Shuyong Gao, Wenqiang Zhang. 843-852 [doi]

StyleEDL: Style-Guided High-order Attention Network for Image Emotion Distribution LearningPeiguang Jing, Xianyi Liu, Ji Wang, Yinwei Wei, Liqiang Nie, Yuting Su 0001. 853-861 [doi]

Variance-Aware Bi-Attention Expression Transformer for Open-Set Facial Expression Recognition in the WildJunJie Zhu, Bingjun Luo, Ao Sun, Jinghang Tan, Xibin Zhao, Yue Gao 0002. 862-870 [doi]

AffectFAL: Federated Active Affective Computing with Non-IID DataZixin Zhang, Fan Qi, Shuai Li, Changsheng Xu. 871-882 [doi]

ASTDF-Net: Attention-Based Spatial-Temporal Dual-Stream Fusion Network for EEG-Based Emotion RecognitionPeiliang Gong, Ziyu Jia, Pengpai Wang, Yueying Zhou, Daoqiang Zhang. 883-892 [doi]

Multi-Granularity Interactive Transformer Hashing for Cross-modal RetrievalYishu Liu, Qingpeng Wu, Zheng Zhang, Jingyi Zhang, Guangming Lu. 893-902 [doi]

Equivariant Learning for Out-of-Distribution Cold-start RecommendationWenjie Wang, Xinyu Lin, Liuhui Wang, Fuli Feng, Yinwei Wei, Tat-Seng Chua. 903-914 [doi]

Target-Guided Composed Image RetrievalHaokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie. 915-923 [doi]

Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative EliminationHaoxuan Li, Yi Bin, Junrong Liao, Yang Yang 0002, Heng Tao Shen. 924-934 [doi]

A Tale of Two Graphs: Freezing and Denoising Graph Structures for Multimodal RecommendationXin Zhou, Zhiqi Shen. 935-943 [doi]

ProtoHPE: Prototype-guided High-frequency Patch Enhancement for Visible-Infrared Person Re-identificationGuiwei Zhang, Yongfei Zhang, Zichang Tan. 944-954 [doi]

Online Distillation-enhanced Multi-modal Transformer for Sequential RecommendationWei Ji, Xiangyan Liu, An Zhang, Yinwei Wei, Yongxin Ni, Xiang Wang. 955-965 [doi]

Zero-shot Micro-video Classification with Neural Variational Inference in Graph Prototype NetworkJunyang Chen, Jialong Wang, Zhijiang Dai, Huisi Wu, Mengzhu Wang, Qin Zhang, Huan Wang. 966-974 [doi]

Joint Searching and Grounding: Multi-Granularity Video Content RetrievalZhiguo Chen, Xun Jiang, Xing Xu, Zuo Cao, Yijun Mo, Heng Tao Shen. 975-983 [doi]

Making Users Indistinguishable: Attribute-wise Unlearning in Recommender SystemsYuyuan Li, Chaochao Chen 0001, Xiaolin Zheng, Yizhao Zhang, Zhongxuan Han, Dan Meng, Jun Wang 0020. 984-994 [doi]

Prior-Guided Accuracy-Bias Tradeoff Learning for CTR Prediction in Multimedia RecommendationDugang Liu, Yang Qiao, Xing Tang 0007, Liang Chen, Xiuqiang He 0001, Zhong Ming 0001. 995-1003 [doi]

GoRec: A Generative Cold-start Recommendation FrameworkHaoyue Bai, Min Hou, Le Wu, Yonghui Yang, Kun Zhang, Richang Hong, Meng Wang. 1004-1012 [doi]

Prototype-guided Knowledge Transfer for Federated Unsupervised Cross-modal HashingJingzhi Li, Fengling Li, Lei Zhu 0002, Hui Cui, Jingjing Li 0001. 1013-1022 [doi]

EAT: An Enhancer for Aesthetics-Oriented TransformersShuai He, Anlong Ming, Shuntian Zheng, Haobin Zhong, Huadong Ma. 1023-1032 [doi]

UnifiedGesture: A Unified Gesture Synthesis Model for Multiple SkeletonsSicheng Yang, Zilin Wang, Zhiyong Wu 0001, Minglei Li 0001, Zhensong Zhang, Qiaochu Huang, Lei Hao, Songcen Xu, Xiaofei Wu, Changpeng Yang, Zonghong Dai. 1033-1044 [doi]

Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted ApproachHaoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin. 1045-1054 [doi]

Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input RecognitionGuangming Zhu, Siyuan Wang, Qing Cheng, Kelong Wu, Hao Li, Liang Zhang. 1055-1065 [doi]

StableVQA: A Deep No-Reference Quality Assessment Model for Video StabilityTengchuan Kou, Xiaohong Liu, Wei Sun 0029, Jun Jia, Xiongkuo Min, Guangtao Zhai, Ning Liu. 1066-1076 [doi]

Spatial-angular Quality-aware Representation Learning for Blind Light Field Image Quality AssessmentJianjun Xiang, Yuanjie Dang, Peng Chen 0008, Ronghua Liang, Ruohong Huan, Zhengyu Zhang. 1077-1087 [doi]

Light-VQA: A Multi-Dimensional Quality Assessment Model for Low-Light Video EnhancementYunlong Dong, Xiaohong Liu, Yixuan Gao, Xunchu Zhou, Tao Tan, Guangtao Zhai. 1088-1097 [doi]

Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality AssessmentKun Yuan, Zishang Kong, Chuanchuan Zheng, Ming Sun, Xing Wen. 1098-1107 [doi]

Understanding User Behavior in Volumetric Video Watching: Dataset, Analysis and PredictionKaiyuan Hu, Haowen Yang, Yili Jin, Junhua Liu, Yongting Chen, Miao Zhang, Fangxin Wang 0001. 1108-1116 [doi]

AesCLIP: Multi-Attribute Contrastive Learning for Image Aesthetics AssessmentXiangfei Sheng, Leida Li, Pengfei Chen, Jinjian Wu, Weisheng Dong, Yuzhe Yang, Liwu Xu, Yaqian Li, Guangming Shi. 1117-1126 [doi]

Feeling Present! From Physical to Virtual Cinematography Lighting Education with MetashadowZheng Wei, Xian Xu, Lik Hang Lee, Wai Tong, Huamin Qu, Pan Hui 0001. 1127-1136 [doi]

Automatic Generation of Commercial ScenesShaokui Zhang, Jia-Hong Liu, Yike Li, Tianyi Xiong, Ke-Xin Ren, Hongbo Fu 0001, Song-Hai Zhang. 1137-1147 [doi]

Control3D: Towards Controllable Text-to-3D GenerationYang Chen, Yingwei Pan, Yehao Li, Ting Yao, Tao Mei 0001. 1148-1156 [doi]

Reconnecting the Broken Civilization: Patchwork Integration of Fragments from Ancient ManuscriptsYuqing Zhang, Zhou Fang, Xinyu Yang, Shengyu Zhang 0001, Baoyi He, Huaiyong Dou, Junchi Yan, YongQuan Zhang, Fei Wu. 1157-1166 [doi]

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration ErrorZixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang. 1167-1178 [doi]

Frequency Perception Network for Camouflaged Object DetectionRunmin Cong, Mengyao Sun, Sanyi Zhang, Xiaofei Zhou, Wei Zhang, Yao Zhao. 1179-1189 [doi]

SepMark: Deep Separable Watermarking for Unified Source Tracing and Deepfake DetectionXiaoshuai Wu, Xin Liao, Bo Ou. 1190-1201 [doi]

SDDNet: Style-guided Dual-layer Disentanglement Network for Shadow DetectionRunmin Cong, Yuchen Guan, Jinpeng Chen, Wei Zhang, Yao Zhao, Sam Kwong. 1202-1211 [doi]

High-Order Tensor Recovery Coupling Multilayer Subspace Priori with Application in Video RestorationHao Tan, Weichao Kong, Feng Zhang 0023, Wenjin Qin, Jianjun Wang 0003. 1212-1220 [doi]

Digging into Depth Priors for Outdoor Neural Radiance FieldsChen Wang, Jiadai Sun, Lina Liu, Chenming Wu, Zhelun Shen, Dayan Wu, Yuchao Dai, Liangjun Zhang. 1221-1230 [doi]

ECENet: Explainable and Context-Enhanced Network for Muti-modal Fact verificationFanrui Zhang, Jiawei Liu 0001, Qiang Zhang, Esther Sun, Jingyi Xie, Zheng-Jun Zha. 1231-1240 [doi]

Client-Adaptive Cross-Model Reconstruction Network for Modality-Incomplete Multimodal Federated LearningBaochen Xiong, Xiaoshan Yang, Yaguang Song, Yaowei Wang, Changsheng Xu. 1241-1249 [doi]

AutoPoster: A Highly Automatic and Content-aware Design System for Advertising Poster GenerationJinpeng Lin, Min Zhou, Ye Ma, YiFan Gao, Chenxi Fei, Yangjian Chen, Zhang Yu, Tiezheng Ge. 1250-1260 [doi]

Filling in the Blank: Rationale-Augmented Prompt Tuning for TextVQAGangyan Zeng, Yuan Zhang, Yu Zhou, Bo Fang, Guoqing Zhao, Xin Wei, Weiping Wang. 1261-1272 [doi]

End-to-end XY Separation for Single Image Blind DeblurringLiuhan Chen, Yirou Wang, Yongyong Chen. 1273-1282 [doi]

SD-Net: Spatially-Disentangled Point Cloud Completion NetworkJunxian Chen, Ying Liu, Yiqi Liang, Dandan Long, Xiaolin He, Ruihui Li. 1283-1293 [doi]

Latent-space Unfolding for MRI ReconstructionJiawei Jiang, Yuchao Feng, Jiacheng Chen, Dongyan Guo, Jianwei Zheng 0001. 1294-1302 [doi]

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real WorldHongpeng Lin, Ludan Ruan, Wenke Xia, Peiyu Liu 0002, Jingyuan Wen, Yixin Xu, Di Hu 0001, Ruihua Song, Wayne Xin Zhao, Qin Jin, Zhiwu Lu 0001. 1303-1313 [doi]

IGG: Improved Graph Generation for Domain Adaptive Object DetectionPengteng Li, Ying He, F. Richard Yu, Pinhao Song, Dongfu Yin, Guang Zhou. 1314-1324 [doi]

Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReIDDe Cheng, Lingfeng He, Nannan Wang, Shizhou Zhang, Zhen Wang, Xinbo Gao 0001. 1325-1333 [doi]

Faster Video Moment Retrieval with Point-Level SupervisionXun Jiang, Zailei Zhou, Xing Xu, Yang Yang, Guoqing Wang, Heng Tao Shen. 1334-1342 [doi]

IDDR-NGP: Incorporating Detectors for Distractors Removal with Instant Neural Radiance FieldXianliang Huang, Jiajie Gou, Shuhang Chen, Zhizhou Zhong, Jihong Guan, Shuigeng Zhou. 1343-1351 [doi]

G-PCC++: Enhanced Geometry-based Point Cloud CompressionJunzhe Zhang, Tong Chen 0004, Dandan Ding, Zhan Ma. 1352-1363 [doi]

Gradient-Free Textual InversionZhengcong Fei, Mingyuan Fan, Junshi Huang. 1364-1373 [doi]

DiffDance: Cascaded Human Motion Diffusion Model for Dance GenerationQiaosong Qi, Le Zhuo, Aixi Zhang, Yue Liao, Fei Fang, Si Liu, Shuicheng Yan. 1374-1382 [doi]

Video Inverse Tone Mapping Network with Luma and Chroma MappingPeihuan Huang, Gaofeng Cao, Fei Zhou 0001, Guoping Qiu. 1383-1391 [doi]

Learning Pixel-wise Alignment for Unsupervised Image StitchingQi Jia, Xiaomei Feng, Yu Liu, Xin Fan 0001, Longin Jan Latecki. 1392-1400 [doi]

FashionDiff: A Controllable Diffusion Model Using Pairwise Fashion Elements for Intelligent DesignHan Yan, Haijun Zhang 0002, Xiangyu Mu, Jicong Fan, Zhao Zhang. 1401-1411 [doi]

Learning Non-Uniform-Sampling for Ultra-High-Definition Image EnhancementWei Yu, Qi Zhu, Naishan Zheng, Jie Huang, Man Zhou, Feng Zhao. 1412-1421 [doi]

Hierarchical Dynamic Image HarmonizationHaoxing Chen, Zhangxuan Gu, Yaohui Li, Jun Lan, Changhua Meng, Weiqiang Wang, Huaxiong Li. 1422-1430 [doi]

Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based ApproachSha Guo, Zhuo Chen 0006, Yang Zhao, Ning Zhang, Xiaotong Li, Lingyu Duan. 1431-1442 [doi]

Towards Decision-based Sparse Attacks on Video RecognitionKaixun Jiang, Zhaoyu Chen, Xinyu Zhou, Jingyu Zhang, Lingyi Hong, Jiafeng Wang, Bo Li, Yan Wang, Wenqiang Zhang. 1443-1454 [doi]

RAIRNet: Region-Aware Identity Rectification for Face Forgery DetectionMingqi Fang, Lingyun Yu 0002, Hongtao Xie, JunQiang Wu, Zezheng Wang, Jiahong Li, Yongdong Zhang 0001. 1455-1464 [doi]

Multispectral Object Detection via Cross-Modal Conflict-Aware LearningXiao He, Chang Tang, Xin Zou, Wei Zhang. 1465-1474 [doi]

Decoupled Cross-Scale Cross-View Interaction for Stereo Image Enhancement in the DarkHuan Zheng, Zhao Zhang, Jicong Fan, Richang Hong, Yi Yang, Shuicheng Yan. 1475-1484 [doi]

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video SegmentationKexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao 0001. 1485-1494 [doi]

S-OmniMVS: Incorporating Sphere Geometry into Omnidirectional Stereo MatchingZisong Chen, Chunyu Lin, Lang Nie, Zhijie Shen, Kang Liao, Yuanzhouhan Cao, Yao Zhao. 1495-1503 [doi]

Prototypical Cross-domain Knowledge Transfer for Cervical Dysplasia Visual InspectionYichen Zhang, Yifang Yin, Ying Zhang, Zhenguang Liu, Zheng Wang, Roger Zimmermann. 1504-1514 [doi]

When Measures are Unreliable: Imperceptible Adversarial Perturbations toward Top-k Multi-Label LearningYuChen Sun, Qianqian Xu, Zitai Wang, Qingming Huang. 1515-1526 [doi]

Karma: Adaptive Video Streaming via Causal Sequence ModelingBowei Xu, Hao Chen, Zhan Ma. 1527-1535 [doi]

Joint Local Relational Augmentation and Global Nash Equilibrium for Federated Learning with Non-IID DataXinting Liao, Chaochao Chen 0001, Weiming Liu, Pengyang Zhou, Huabin Zhu, Shuheng Shen, Weiqiang Wang, Mengling Hu, Yanchao Tan, Xiaolin Zheng. 1536-1545 [doi]

SSPU-Net: A Structure Sensitive Point Cloud Upsampling Network with Multi-Scale Spatial RefinementJin Wang, Jiade Chen, Yunhui Shi, Nam Ling, Baocai Yin. 1546-1555 [doi]

On Physically Occluded Fake Identity Document DetectionHaoyue Wang, Sheng Li 0006, Silu Cao, Rui Yang, Jishen Zeng, Zhenxing Qian, Xinpeng Zhang 0001. 1556-1564 [doi]

Dynamic View Synthesis with Spatio-Temporal Feature Warping from Sparse ViewsDeqi Li, Shi-Sheng Huang, Tianyu Shen, Hua Huang 0001. 1565-1576 [doi]

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data PoisoningShengfang Zhai, Yinpeng Dong, Qingni Shen, Shi Pu, Yuejian Fang, Hang Su 0006. 1577-1587 [doi]

Deep Neural Network Watermarking against Model Extraction AttackJingxuan Tan, Nan Zhong, Zhenxing Qian, Xinpeng Zhang 0001, Sheng Li 0006. 1588-1597 [doi]

CoCa: A Connectivity-Aware Cascade Framework for Histology Gland SegmentationYu Bai, Bo Zhang, Zheng Zhang 0038, Wu Liu, Jinwen Li, Xiangyang Gong, Wendong Wang. 1598-1606 [doi]

Factorized Omnidirectional Representation based Vision GNN for Anisotropic 3D Multimodal MR Image SegmentationBo Zhang, Yunpeng Tan, Zheng Zhang, Wu Liu, Hui Gao, Zhijun Xi, Wendong Wang. 1607-1615 [doi]

Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo ChamberRui Hu, Yahan Tu, Jitao Sang. 1616-1624 [doi]

FedCE: Personalized Federated Learning Method based on Clustering EnsemblesLuxin Cai, Naiyue Chen, Yuanzhouhan Cao, Jiahuan He, Yidong Li. 1625-1633 [doi]

Relative NN-Descent: A Fast Index Construction for Graph-Based Approximate Nearest Neighbor SearchNaoki Ono, Yusuke Matsui. 1659-1667 [doi]

Flexible and Secure Watermarking for Latent Diffusion ModelCheng Xiong, Chuan Qin 0001, Guorui Feng, Xinpeng Zhang 0001. 1668-1676 [doi]

CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved Self-Supervised Video HashingRukai Wei, Yu Liu 0040, Jingkuan Song, Heng Cui, Yanzhao Xie, Ke Zhou 0001. 1677-1688 [doi]

Pagoda: Privacy Protection for Volumetric Video Streaming through Poisson Diffusion ModelRui Lu, Lai Wei, Shuntao Zhu, Chuang Hu, Dan Wang. 1689-1697 [doi]

ScaleFlow: Efficient Deep Vision Pipeline with Closed-Loop Scale-Adaptive InferenceYuyang Leng, Renyuan Liu, Hongpeng Guo, Songqing Chen, Shuochao Yao. 1698-1706 [doi]

Optimizing Adaptive Video Streaming with Human FeedbackTianchi Huang, Rui-Xiao Zhang, Chenglei Wu, Lifeng Sun. 1707-1718 [doi]

M3Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action RecognitionHao Tang 0007, Jun Liu, Shuanglin Yan, Rui Yan, Zechao Li, Jinhui Tang 0001. 1719-1728 [doi]

CUCL: Codebook for Unsupervised Continual LearningChen Cheng, Jingkuan Song, Xiaosu Zhu, Junchen Zhu, Lianli Gao, Hengtao Shen. 1729-1737 [doi]

Regress Before Construct: Regress Autoencoder for Point Cloud Self-supervised LearningYang Liu, Chen Chen, Can Wang, Xulin King, Mengyuan Liu. 1738-1749 [doi]

CropCap: Embedding Visual Cross-Partition Dependency for Image CaptioningBo Wang, Zhao Zhang, Suiyi Zhao, Haijun Zhang, Richang Hong, Meng Wang. 1750-1758 [doi]

Generalizing Face Forgery Detection via Uncertainty LearningYanqi Wu, Xue-song, Jingjing Chen, Yu-Gang Jiang. 1759-1767 [doi]

Object Detection Difficulty: Suppressing Over-aggregation for Faster and Better Video Object DetectionBingqing Zhang, Sen Wang, Yifan Liu, Brano Kusy, Xue Li, Jiajun Liu. 1768-1778 [doi]

Mutual-Guided Dynamic Network for Image FusionYuanshen Guan, Ruikang Xu, Mingde Yao, Lizhi Wang, Zhiwei Xiong. 1779-1788 [doi]

Frequency Representation Integration for Camouflaged Object DetectionChenxi Xie, Changqun Xia, Tianshu Yu, Jia Li. 1789-1797 [doi]

DecenterNet: Bottom-Up Human Pose Estimation Via Decentralized Pose RepresentationTao Wang, Lei Jin, Zhang Wang, Xiaojin Fan, Yu Cheng, Yinglei Teng, Junliang Xing, Jian Zhao. 1798-1808 [doi]

Improving Scene Graph Generation with Superpixel-Based Interaction LearningJingyi Wang, Can Zhang 0001, Jinfa Huang, Botao Ren, Zhidong Deng. 1809-1820 [doi]

Lifelong Scene Text Recognizer via Expert ModulesShifeng Xia, Lin Geng, Ningzhong Liu, Han Sun, Jie Qin. 1821-1830 [doi]

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency ModelZhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo. 1831-1839 [doi]

Exploring Motion Cues for Video Test-Time AdaptationRunhao Zeng, Qi Deng, Huixuan Xu, Shuaicheng Niu, Jian Chen. 1840-1850 [doi]

Perceiving Ambiguity and Semantics without Recognition: An Efficient and Effective Ambiguous Scene Text DetectorYan Shu, Wei Wang 0315, Yu Zhou, Shaohui Liu, Aoting Zhang, Dongbao Yang, Weipinng Wang. 1851-1862 [doi]

Single-Stage Multi-human Parsing via Point Sets and Center-based OffsetsJiaming Chu, Lei Jin, Xiaojin Fan, Yinglei Teng, Yunchao Wei, Yuqiang Fang, Junliang Xing, Jian Zhao. 1863-1873 [doi]

Partitioned Saliency Ranking with Dense Pyramid TransformersChengxiao Sun, Yan Xu, Jialun Pei, Haopeng Fang, He Tang. 1874-1883 [doi]

CenterLPS: Segment Instances by Centers for LiDAR Panoptic SegmentationJianbiao Mei, Yu Yang, Mengmeng Wang, Zizhang Li, Xiaojun Hou, Jongwon Ra, Laijian Li, Yong Liu 0007. 1884-1894 [doi]

Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided EnhancementZhenhua Ning, Zhuotao Tian, Guangming Lu, Wenjie Pei. 1895-1904 [doi]

PiPa: Pixel- and Patch-wise Self-supervised Learning for Domain Adaptative Semantic SegmentationMu Chen, Zhedong Zheng, Yi Yang, Tat-Seng Chua. 1905-1914 [doi]

Weakly-Supervised Text Instance SegmentationXinyan Zu, Haiyang Yu, Bin Li, Xiangyang Xue. 1915-1923 [doi]

PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise TransitionsWenjie Xuan, Shanshan Zhao 0001, Yu Yao, Juhua Liu, Tongliang Liu, Yixin Chen, Bo Du 0001, Dacheng Tao. 1924-1932 [doi]

Video Frame Interpolation with Flow TransformerPan Gao, Haoyue Tian, Jie Qin. 1933-1942 [doi]

DUSA: Decoupled Unsupervised Sim2Real Adaptation for Vehicle-to-Everything Collaborative PerceptionXianghao Kong, Wentao Jiang, Jinrang Jia, Yifeng Shi, Runsheng Xu, Si Liu. 1943-1954 [doi]

Explicifying Neural Implicit Fields for Efficient Dynamic Human Avatar Modeling via a Neural Explicit SurfaceRuiqi Zhang, Jie Chen, Qiang Wang. 1955-1963 [doi]

MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion Vector PriorShili Zhou, Xuhao Jiang, Weimin Tan, Ruian He, Bo Yan 0001. 1964-1974 [doi]

Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame InterpolationRi Cheng, Xuhao Jiang, Ruian He, Shili Zhou, Weimin Tan, Bo Yan. 1975-1986 [doi]

Learning Generalized Representations for Open-Set Temporal Action LocalizationJunshan Hu, Liansheng Zhuang, Weisong Dong, Shiming Ge, Shafei Wang. 1987-1996 [doi]

Unambiguous Object Tracking by Exploiting Target CuesJie Gao, Bineng Zhong, Yan Chen 0017. 1997-2005 [doi]

Masked Text Modeling: A Self-Supervised Pre-training Method for Scene Text DetectionKeran Wang, Hongtao Xie, Yuxin Wang, Dongming Zhang, Yadong Qu, Zuan Gao, Yongdong Zhang 0001. 2006-2015 [doi]

Object Part Parsing with Hierarchical Dual TransformerJiamin Chen, Jianlou Si, Naihao Liu, Yao Wu, Li Niu 0002, Chen Qian 0006. 2016-2024 [doi]

Towards Robust Real-Time Scene Text Detection: From Semantic to Instance Representation LearningXugong Qin, Pengyuan Lyu, Chengquan Zhang, Yu Zhou, Kun Yao, Peng Zhang, Hailun Lin, Weiping Wang 0005. 2025-2034 [doi]

Towards Flexible and Universal: A Novel Endpoint-based Framework for Vessel Structural Information ExtractionXiyao Ma, Shiqi Liu, Xiaoliang Xie, Xiao-Hu Zhou, Zengguang Hou, Xinkai Qu, Wenzheng Han, Ming Wang 0001, Meng Song, Lin-Sen Zhang. 2035-2044 [doi]

FDCNet: Feature Drift Compensation Network for Class-Incremental Weakly Supervised Object LocalizationSejin Park, Taehyung Lee, Yeejin Lee, Byeongkeun Kang. 2045-2053 [doi]

Collaborative Learning of Diverse Experts for Source-free Universal Domain AdaptationMeng Shen, Yanzuo Lu, Yanxu Hu, Andy J. Ma. 2054-2065 [doi]

Read Ten Lines at One Glance: Line-Aware Semi-Autoregressive Transformer for Multi-Line Handwritten Mathematical Expression RecognitionWentao Yang, Zhe Li, Dezhi Peng, Lianwen Jin, Mengchao He, Cong Yao. 2066-2077 [doi]

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person RetrievalKejun Lin, Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Shin'ichi Satoh 0001. 2078-2089 [doi]

Rethinking Pseudo-Label-Based Unsupervised Person Re-ID with Hierarchical Prototype-based GraphBen Sha, Baopu Li, Tao Chen, Jiayuan Fan, Tao Sheng. 2090-2100 [doi]

Single Domain Generalization via Unsupervised Diversity ProbeKehua Guo, Rui Ding, Tian Qiu, Xiangyuan Zhu, Zheng Wu, Liwei Wang, Hui Fang 0003. 2101-2111 [doi]

PBFormer: Capturing Complex Scene Text Shape with Polynomial Band TransformerRuijin Liu, Ning Lu, Dapeng Chen, Cheng Li, Zejian Yuan, Wei Peng. 2112-2120 [doi]

DANet: Multi-scale UAV Target Detection with Dynamic Feature Perception and Scale-aware Knowledge DistillationHouzhang Fang, Zikai Liao, Lu Wang, Qingshan Li, Yi Chang 0002, Luxin Yan, Xuhua Wang. 2121-2130 [doi]

A Unified Query-based Paradigm for Camouflaged Instance SegmentationBo Dong, Jialun Pei, Rongrong Gao, Tian-Zhu Xiang, Shuo Wang, Huan Xiong. 2131-2138 [doi]

Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image SegmentationJialun Pei, Zhangjun Zhou, Yueming Jin, He Tang, Pheng-Ann Heng. 2139-2147 [doi]

Exploring High-Correlation Source Domain Information for Multi-Source Domain Adaptation in Semantic SegmentationYuxiang Cai, Meng Xi, Yongheng Shang, Jianwei Yin. 2148-2158 [doi]

Deep Image Harmonization in Dual Color SpacesLinfeng Tan, Jiangtong Li, Li Niu 0002, Liqing Zhang 0001. 2159-2167 [doi]

Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-ResolutionWenyu Zhang 0002, Xin Deng, Baojun Jia, Xingtong Yu, Yifan Chen, Jin Ma, Qing Ding, Xinming Zhang. 2168-2179 [doi]

Where and How: Mitigating Confusion in Neural Radiance Fields from Sparse InputsYanqi Bao, Yuxin Li, Jing Huo, Tianyu Ding, Xinyue Liang, Wenbin Li, Yang Gao. 2180-2188 [doi]

One-stage Low-resolution Text Recognition with High-resolution Knowledge TransferHang Guo, Tao Dai 0001, Mingyan Zhu, Guanghao Meng, Bin Chen 0011, Zhi Wang, Shu-Tao Xia. 2189-2198 [doi]

Calibration-based Dual Prototypical Contrastive Learning Approach for Domain Generalization Semantic SegmentationMuxin Liao, Shishun Tian, Yuhang Zhang, Guoguang Hua, Wenbin Zou, Xia Li 0006. 2199-2210 [doi]

Skeleton MixFormer: Multivariate Topology Representation for Skeleton-based Action RecognitionWentian Xin, Qiguang Miao, Yi Liu, Ruyi Liu, Chi-Man Pun, Cheng Shi. 2211-2220 [doi]

Mask Again: Masked Knowledge Distillation for Masked Video ModelingXiaojie Li, Shaowei He, Jianlong Wu, Yue Yu, Liqiang Nie, Min Zhang. 2221-2232 [doi]

Human-Object-Object Interaction: Towards Human-Centric Complex Interaction DetectionMingxuan Zhang, Xiao Wu 0001, Zhaoquan Yuan, Qi He, Xiang Huang. 2233-2242 [doi]

On the Importance of Spatial Relations for Few-shot Action RecognitionYilun Zhang, Yuqian Fu, Xingjun Ma, Lizhe Qi, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang. 2243-2251 [doi]

CgT-GAN: CLIP-guided Text GAN for Image CaptioningJiarui Yu, Haoran Li, Yanbin Hao, Bin Zhu, Tong Xu 0001, Xiangnan He 0001. 2252-2263 [doi]

Fine-grained Key-Value Memory Enhanced Predictor for Video Representation LearningXiaojie Li, Jianlong Wu, Shaowei He, Shuo Kang, Yue Yu, Liqiang Nie, Min Zhang. 2264-2274 [doi]

Train One, Generalize to All: Generalizable Semantic Segmentation from Single-Scene to All Adverse ScenesZiyang Gong, Fuhao Li, Yupeng Deng, Wenjun Shen, Xianzheng Ma, Zhenming Ji, Nan Xia. 2275-2284 [doi]

All-in-one Multi-degradation Image Restoration Network via Hierarchical Degradation RepresentationCheng Zhang, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang. 2285-2293 [doi]

NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic VideosZiyu Yang, Sucheng Ren, Zongwei Wu, Nanxuan Zhao, Junle Wang, Jing Qin 0001, Shengfeng He. 2294-2304 [doi]

LandmarkGait: Intrinsic Human Parsing for Gait RecognitionZengbin Wang, Saihui Hou, Man Zhang, Xu Liu, Chunshui Cao, Yongzhen Huang, Shibiao Xu. 2305-2314 [doi]

Patchmatch Stereo++: Patchmatch Binocular Stereo with Continuous Disparity OptimizationWenjia Ren, Qingmin Liao, Zhijing Shao, Xiangru Lin, Xin Yue, Yu Zhang, Zongqing Lu. 2315-2325 [doi]

Consistency-aware Feature Learning for Hierarchical Fine-grained Visual ClassificationRui Wang, Cong Zou, Weizhong Zhang, Zixuan Zhu, Lihua Jing. 2326-2334 [doi]

FSR-Net: Deep Fourier Network for Shadow RemovalJun Yu 0001, Peng He, Ziqi Peng. 2335-2343 [doi]

Multi-Speed Global Contextual Subspace Matching for Few-Shot Action RecognitionTianwei Yu, Peng Chen 0008, Yuanjie Dang, Ruohong Huan, Ronghua Liang. 2344-2352 [doi]

Lightweight Super-Resolution Head for Human Pose EstimationHaonan Wang, Jie Liu 0040, Jie Tang 0006, Gangshan Wu. 2353-2361 [doi]

Exploiting Time-Frequency Conformers for Music Audio EnhancementYunkee Chae, Junghyun Koo, Sungho Lee, Kyogu Lee. 2362-2370 [doi]

Exploring Dual Representations in Large-Scale Point Clouds: A Simple Weakly Supervised Semantic Segmentation FrameworkJiaming Liu, Yue Wu 0004, Maoguo Gong, Qiguang Miao, Wenping Ma 0001, Cai Xu. 2371-2380 [doi]

Foreground/Background-Masked Interaction Learning for Spatio-temporal Action DetectionKeke Chen, Xiangbo Shu, Guo-Sen Xie, Rui Yan, Jinhui Tang 0001. 2381-2390 [doi]

TIVA-KG: A Multimodal Knowledge Graph with Text, Image, Video and AudioXin Wang, Benyuan Meng, Hong Chen, Yuan Meng, Ke Lv, Wenwu Zhu 0001. 2391-2399 [doi]

Enhancing Fake News Detection in Social Media via Label Propagation on Cross-modal Tweet GraphWanqing Zhao, Yuta Nakashima, HaiYuan Chen, Noboru Babaguchi. 2400-2408 [doi]

Cooperative Colorization: Exploring Latent Cross-Domain Priors for NIR Image Spectrum TranslationXingxing Yang, Jie Chen 0026, Zaifeng Yang. 2409-2417 [doi]

ALA: Naturalness-aware Adversarial Lightness AttackYihao Huang 0001, Liangru Sun, Qing Guo 0005, Felix Juefei-Xu, Jiayi Zhu, Jincao Feng, Yang Liu, Geguang Pu. 2418-2426 [doi]

Neural Image Popularity Assessment with Retrieval-augmented TransformerLiya Ji, Chan-Ho Park, Zhefan Rao, Qifeng Chen. 2427-2436 [doi]

A Figure Skating Jumping Dataset for Replay-Guided Action Quality AssessmentYanchao Liu, Xina Cheng, Takeshi Ikenaga. 2437-2445 [doi]

Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive ConvolutionYeying Jin, Beibei Lin, Wending Yan, Yuan Yuan, Wei Ye, Robby T. Tan. 2446-2457 [doi]

Rethinking Voice-Face Correlation: A Geometry ViewXiang Li, YanDong Wen, Muqiao Yang, Jinglu Wang, Rita Singh, Bhiksha Raj. 2458-2467 [doi]

Dynamic Grouped Interaction Network for Low-Light Stereo Image EnhancementBaiang Li, Huan Zheng, Zhao Zhang, Yang Zhao, Zhongqiu Zhao, Haijun Zhang. 2468-2476 [doi]

PVG: Progressive Vision Graph for Vision RecognitionJiafu Wu, Jian Li, Jiangning Zhang, Boshen Zhang, Mingmin Chi, Yabiao Wang, Chengjie Wang. 2477-2486 [doi]

StylePrompter: All Styles Need Is AttentionChenyi Zhuang, Pan Gao, Aljosa Smolic. 2487-2497 [doi]

Improving Federated Person Re-Identification through Feature-Aware Proximity and AggregationPengling Zhang, Huibin Yan, Wenhui Wu, Shuoyao Wang. 2498-2506 [doi]

Transformer-based Open-world Instance Segmentation with Cross-task Consistency RegularizationXizhe Xue, Dongdong Yu, Lingqiao Liu, Yu Liu 0015, Satoshi Tsutsui, Ying Li 0017, Zehuan Yuan, Ping Song, Mike Zheng Shou. 2507-2515 [doi]

Cross-Illumination Video Anomaly Detection BenchmarkDongliang Zhu, Ruimin Hu, Shengli Song, Xiang Guo, Xixi Li, Zheng Wang. 2516-2525 [doi]

Practical Edge Detection via Robust Collaborative LearningYuanbin Fu, Xiaojie Guo 0001. 2526-2534 [doi]

MSECNet: Accurate and Robust Normal Estimation for 3D Point Clouds by Multi-Scale Edge ConditioningHaoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Masashi Matsuoka. 2535-2543 [doi]

Efficient Parallel Multi-Scale Detail and Semantic Encoding Network for Lightweight Semantic SegmentationXiao Liu, Xiuya Shi, Lufei Chen, Linbo Qing, Chao Ren 0001. 2544-2552 [doi]

Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature Fusion in Dynamic ScenesJiquan Zhong, Xiaolin Huang, Xiao Yu. 2553-2563 [doi]

Peering into The Sketch: Ultra-Low Bitrate Face Compression for Joint Human and Machine PerceptionYudong Mao, Peilin Chen, Shurun Wang, Shiqi Wang 0001, Dapeng Wu 0001. 2564-2572 [doi]

MTSN: Multiscale Temporal Similarity Network for Temporal Action LocalizationXiaodong Jin, Taiping Zhang. 2573-2581 [doi]

Disentangling Multi-view Representations Beyond Inductive BiasGuanzhou Ke, Yang Yu, Guoqing Chao, Xiaoli Wang, Chenyang Xu, Shengfeng He. 2582-2590 [doi]

Implicit Decouple Network for Efficient Pose EstimationLei Zhao, Le Han, Min Yao, Nenggan Zheng. 2591-2599 [doi]

Occluded Skeleton-Based Human Action Recognition with Dual Inhibition TrainingZhenjie Chen, Hongsong Wang, Jie Gui. 2625-2634 [doi]

P2I-NET: Mapping Camera Pose to Image via Adversarial Learning for New View Synthesis in Real Indoor EnvironmentsXujie Kang, Kanglin Liu, Jiang Duan, Yuanhao Gong, Guoping Qiu. 2635-2643 [doi]

IRCasTRF: Inverse Rendering by Optimizing Cascaded Tensorial Radiance Fields, Lighting, and Materials From Multi-view ImagesWenpeng Xing, Jie Chen 0006, Ka-Chun Cheung, Simon See. 2644-2653 [doi]

Noise-Robust Continual Test-Time Domain AdaptationZhiqi Yu, Jingjing Li, Zhekai Du, Fengling Li, Lei Zhu, Yang Yang. 2654-2662 [doi]

TIRDet: Mono-Modality Thermal InfraRed Object Detection Based on Prior Thermal-To-Visible TranslationZeyu Wang, Fabien Colonnier, Jinghong Zheng 0001, Jyotibdha Acharya, Wenyu Jiang, Kejie Huang. 2663-2672 [doi]

HARP: Let Object Detector Undergo Hyperplasia to Counter Adversarial PatchesJunzhe Cai, Shuiyan Chen, Heng Li 0008, Beihao Xia, Zimin Mao, Wei Yuan. 2673-2683 [doi]

Scale-space Tokenization for Improving the Robustness of Vision TransformersLei Xu, Rei Kawakami, Nakamasa Inoue. 2684-2693 [doi]

Margin MCC: Chance-Robust Metric for Video Boundary Detection with Allowed MarginKosuke Mizufune, Shunsuke Tanaka, Toshihide Yukitake, Tatsushi Matsubayashi. 2694-2703 [doi]

Exploring the Knowledge Transferred by Response-Based Teacher-Student DistillationLiangchen Song, Xuan Gong, Helong Zhou, Jiajie Chen, Qian Zhang, David S. Doermann, Junsong Yuan. 2704-2713 [doi]

Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian DetectionFeng Gao, Jiaxu Leng, Ji Gan, Xinbo Gao 0001. 2714-2722 [doi]

Data-Efficient Masked Video Modeling for Self-supervised Action RecognitionQiankun Li, Xiaolong Huang, Zhifan Wan, Lanqing Hu, Shuzhe Wu, Jie Zhang 0071, Shiguang Shan, Zengfu Wang. 2723-2733 [doi]

DeNoising-MOT: Towards Multiple Object Tracking with Severe OcclusionsTeng Fu, Xiaocong Wang, Haiyang Yu, Ke Niu 0004, Bin Li, Xiangyang Xue. 2734-2743 [doi]

Co-Salient Object Detection with Semantic-Level Consensus Extraction and DispersionPeiran Xu, Yadong Mu. 2744-2755 [doi]

BLAT: Bootstrapping Language-Audio Pre-training based on AudioSet Tag-guided Synthetic DataXuenan Xu, Zhiling Zhang, Zelin Zhou, Pingyue Zhang, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu. 2756-2764 [doi]

A Simple Baseline for Open-World Tracking via Self-trainingBingyang Wang, Tanlin Li, Jiannan Wu, Yi Jiang, Huchuan Lu, You He. 2765-2774 [doi]

VTLayout: A Multi-Modal Approach for Video Text LayoutYuxuan Zhao, Jin Ma, Zhongang Qi, Zehua Xie, Yu Luo, Qiusheng Kang, Ying Shan. 2775-2784 [doi]

SEAR: Semantically-grounded Audio RepresentationsRajat Hebbar, Digbalay Bose, Shrikanth Narayanan. 2785-2794 [doi]

DocDiff: Document Enhancement via Residual Diffusion ModelsZongyuan Yang, Baolin Liu, Yongping Xiong, Lan Yi, Guibin Wu, Xiaojun Tang, Ziqi Liu, Junjie Zhou, Xing Zhang. 2795-2806 [doi]

POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-view WorldBoshen Xu, Sipeng Zheng, Qin Jin. 2807-2816 [doi]

GraMMaR: Ground-aware Motion Model for 3D Human Motion ReconstructionSihan Ma, Qiong Cao, Hongwei Yi, Jing Zhang 0037, Dacheng Tao. 2817-2828 [doi]

SpeechTripleNet: End-to-End Disentangled Speech Representation Learning for Content, Timbre and ProsodyHui Lu, Xixin Wu, Zhiyong Wu 0003, Helen Meng. 2829-2837 [doi]

Generating Explanations for Embodied Action Decision from Visual ObservationXiaohan Wang, Yuehu Liu, Xinhang Song, Beibei Wang, Shuqiang Jiang. 2838-2846 [doi]

Scene-aware Human Pose Generation using TransformerJieteng Yao, Junjie Chen, Li Niu 0002, Bin Sheng 0001. 2847-2855 [doi]

Dynamic Compositional Graph Convolutional Network for Efficient Composite Human Motion PredictionWanying Zhang, Shen Zhao, Fanyang Meng, Songtao Wu, Mengyuan Liu. 2856-2864 [doi]

Diffusion-Augmented Depth Prediction with Sparse AnnotationsJiaqi Li, Yiran Wang 0005, Zihao Huang, Jinghong Zheng 0002, Ke Xian, Zhiguo Cao 0001, Jianming Zhang 0001. 2865-2876 [doi]

Chaos to Order: A Label Propagation Perspective on Source-Free Domain AdaptationChunwei Wu, Guitao Cao, Yan Li 0063, Xidong Xi, Wenming Cao 0001, Hong Wang. 2877-2887 [doi]

Beware of Overcorrection: Scene-induced Commonsense Graph for Scene Graph GenerationLianggangxu Chen, Jiale Lu, Youqi Song, Changbo Wang, Gaoqi He. 2888-2897 [doi]

Scene Text Segmentation with Text-Focused TransformersHaiyang Yu, Xiaocong Wang, Ke Niu 0004, Bin Li 0015, Xiangyang Xue. 2898-2907 [doi]

MIEP: Channel Pruning with Multi-granular Importance Estimation for Object DetectionLiangwei Jiang, Jiaxin Chen, Di Huang 0001, Yunhong Wang. 2908-2917 [doi]

Disentangled Representation Learning with Causality for Unsupervised Domain AdaptationShanshan Wang 0008, Yiyang Chen, Zhenwei He, Xun Yang, Mengzhu Wang, Quanzeng You, Xingyi Zhang 0001. 2918-2926 [doi]

Localized and Balanced Efficient Incomplete Multi-view ClusteringJie Wen 0001, Gehui Xu, Chengliang Liu 0003, Lunke Fei, Chao Huang 0008, Wei Wang 0169, Yong Xu 0001. 2927-2935 [doi]

Interpolation Normalization for Contrast Domain GeneralizationMengzhu Wang, Junyang Chen, Huan Wang, Huisi Wu, Zhidan Liu 0001, Qin Zhang. 2936-2945 [doi]

Multi-teacher Self-training for Semi-supervised Node Classification with Noisy LabelsYujing Liu, Zongqian Wu, Zhengyu Lu, Guoqiu Wen, Junbo Ma, Guangquan Lu, Xiaofeng Zhu 0001. 2946-2954 [doi]

Long Short-Term Graph Memory Against Class-imbalanced Over-smoothingLiang Yang, Jiayi Wang, Tingting Zhang, Dongxiao He, Chuan Wang, Yuanfang Guo, Xiaochun Cao, Bingxin Niu, Zhen Wang. 2955-2963 [doi]

Class-level Structural Relation Modeling and Smoothing for Visual Representation LearningZitan Chen, Zhuang Qi, Xiao Cao, Xiangxian Li, Xiangxu Meng, Lei Meng. 2964-2972 [doi]

Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action UnderstandingShengkai Sun, Daizong Liu, Jianfeng Dong, Xiaoye Qu, Junyu Gao, Xun Yang, Xun Wang, Meng Wang. 2973-2984 [doi]

Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-exposure Image FusionPan Mu, Zhiying Du, Jinyuan Liu, Cong Bai. 2985-2993 [doi]

Triple-Granularity Contrastive Learning for Deep Multi-View Subspace ClusteringJing Wang, Songhe Feng, Gengyu Lyu, Zhibin Gu. 2994-3002 [doi]

CTCP: Cross Transformer and CNN for PansharpeningZhao Su, Yong Yang 0001, Shuying Huang, Weiguo Wan, Wei Tu, Hangyuan Lu, Changjie Chen 0002. 3003-3011 [doi]

Chain of Propagation Prompting for Node ClassificationYonghua Zhu, Zhenyun Deng, Yang Chen, Robert Amor, Michael Witbrock. 3012-3020 [doi]

Efficient Multi-View Graph Clustering with Local and Global Structure PreservationYi Wen, Suyuan Liu, Xinhang Wan, Siwei Wang, Ke Liang 0006, Xinwang Liu, Xihong Yang, Pei Zhang 0008. 3021-3030 [doi]

Scalable Incomplete Multi-View Clustering with Structure AlignmentYi Wen, Siwei Wang, Ke Liang, Weixuan Liang, Xinhang Wan, Xinwang Liu, Suyuan Liu, Jiyuan Liu 0003, En Zhu. 3031-3040 [doi]

Unifying Two-Stream Encoders with Transformers for Cross-Modal RetrievalYi Bin, Haoxuan Li, Yahui Xu, Xing Xu, Yang Yang 0002, Heng Tao Shen. 3041-3050 [doi]

Unbalanced Multi-view Deep LearningCai Xu, Zehui Li, Ziyu Guan, Wei Zhao, Xiangyu Song, Yue Wu, Jianxin Li 0001. 3051-3059 [doi]

Incomplete Multi-View Clustering with Regularized Hierarchical GraphShuping Zhao, Lunke Fei, Jie Wen 0001, Bob Zhang 0001, Pengyang Zhao. 3060-3068 [doi]

On Regularizing Multiple Clusterings for Ensemble Clustering by Graph Tensor LearningMansheng Chen, Jia-Qi Lin, Chang-Dong Wang, Wu-Dong Xi, Dong Huang 0001. 3069-3077 [doi]

Event-guided Frame Interpolation and Dynamic Range Expansion of Single Rolling Shutter ImageGuixu Lin, Jin Han, Mingdeng Cao, Zhihang Zhong, Yinqiang Zheng. 3078-3088 [doi]

Learnable Graph Filter for Multi-view ClusteringPeng Zhou 0006, Liang Du. 3089-3098 [doi]

Cross-Silo Prototypical Calibration for Federated Learning with Non-IID DataZhuang Qi, Lei Meng, Zitan Chen, Han Hu, Hui Lin, Xiangxu Meng. 3099-3107 [doi]

CALM: An Enhanced Encoding and Confidence Evaluating Framework for Trustworthy Multi-view LearningHai Zhou, Zhe Xue, Ying Liu, Boang Li, Junping Du, MeiYu Liang, Yuankai Qi. 3108-3116 [doi]

Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence GroundingHoulun Chen, Xin Wang, Xiaohan Lan, Hong Chen, Xuguang Duan, Jia Jia, Wenwu Zhu 0001. 3117-3128 [doi]

Quality-Aware RGBT Tracking via Supervised Reliability Learning and Weighted Residual GuidanceLei Liu, Chenglong Li, Yun Xiao, Jin Tang. 3129-3137 [doi]

Event-Enhanced Multi-Modal Spiking Neural Network for Dynamic Obstacle AvoidanceYang Wang, Bo Dong, Yuji Zhang, Yunduo Zhou, Haiyang Mei, Ziqi Wei, Xin Yang. 3138-3148 [doi]

Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action and Gesture RecognitionYujun Ma, Benjia Zhou, Ruili Wang, Pichao Wang. 3149-3160 [doi]

M3R: Masked Token Mixup and Cross-Modal Reconstruction for Zero-Shot LearningPeng Zhao, Qiangchang Wang, Yilong Yin. 3161-3171 [doi]

Redundancy-aware Transformer for Video Question AnsweringYicong Li 0004, Xun Yang, An Zhang, Chun Feng, Xiang Wang, Tat-Seng Chua. 3172-3180 [doi]

Frequency-based Zero-Shot Learning with Phase AugmentationWanting Yin, Hongtao Xie, Lei Zhang, Jiannan Ge, Pandeng Li, Chuanbin Liu, Yongdong Zhang 0001. 3181-3189 [doi]

Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion ModelShiyuan Yang, Xiaodong Chen, Jing Liao 0001. 3190-3199 [doi]

UniNeXt: Exploring A Unified Architecture for Vision RecognitionFangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang. 3200-3208 [doi]

MCG-MNER: A Multi-Granularity Cross-Modality Generative Framework for Multimodal NER with InstructionJunjie Wu, Chen Gong, Ziqiang Cao, Guohong Fu. 3209-3218 [doi]

U2Net: A General Framework with Spatial-Spectral-Integrated Double U-Net for Image FusionSiran Peng, Chenhao Guo, Xiao Wu, Liang-Jian Deng. 3219-3227 [doi]

Modal-aware Visual Prompting for Incomplete Multi-modal Brain Tumor SegmentationYansheng Qiu, Ziyuan Zhao, Hongdou Yao, Delin Chen, Zheng Wang. 3228-3239 [doi]

Where to Find Fascinating Inter-Graph Supervision: Imbalanced Graph Classification with Kernel Information BottleneckHui Tang, Xun Liang 0001. 3240-3249 [doi]

pmBQA: Projection-based Blind Point Cloud Quality Assessment via Multimodal LearningWuyuan Xie, Kaimin Wang, Yakun Ju, Miaohui Wang. 3250-3258 [doi]

Dropping Pathways Towards Deep Multi-View Graph Subspace Clustering NetworksZihao Zhang, Qianqian Wang, Zhiqiang Tao, Quanxue Gao, Wei Feng 0005. 3259-3267 [doi]

Multi-view Graph Clustering via Efficient Global-Local Spectral Embedding FusionPenglei Wang, Danyang Wu, Rong Wang, Feiping Nie 0001. 3268-3276 [doi]

Debunking Free Fusion Myth: Online Multi-view Anomaly Detection with Disentangled Product-of-Experts ModelingHao Wang, Zhi-Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, Yan Yang. 3277-3286 [doi]

Domain-irrelevant Feature Learning for Generalizable Pan-sharpeningYunlong Lin, Zhenqi Fu, Ge Meng, Yingying Wang, Yuhang Dong, Linyu Fan, Hedeng Yu, Xinghao Ding. 3287-3296 [doi]

Depth-aided Camouflaged Object DetectionQingwei Wang, Jinyu Yang, Xiaosheng Yu, Fangyi Wang, Peng Chen, Feng Zheng. 3297-3306 [doi]

SemanticRT: A Large-Scale Dataset and Method for Robust Semantic Segmentation in Multispectral ImagesWei Ji, Jingjing Li, Cheng Bian, Zhicheng Zhang, Li Cheng 0001. 3307-3316 [doi]

MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality HybridZhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen. 3317-3327 [doi]

Multi-Modal and Multi-Scale Temporal Fusion Architecture Search for Audio-Visual Video ParsingJiayi Zhang, Weixin Li. 3328-3336 [doi]

Incorporating Domain Knowledge Graph into Multimodal Movie Genre Classification with Self-Supervised Attention and Contrastive LearningJiaqi Li, Guilin Qi, Chuanyi Zhang, Yongrui Chen 0002, Yiming Tan, Chenlong Xia, Ye Tian. 3337-3345 [doi]

Multi-scale Spatial-Spectral Attention Guided Fusion Network for PansharpeningYong Yang, Mengzhen Li, Shuying Huang, Hangyuan Lu, Wei Tu, Weiguo Wan. 3346-3354 [doi]

Modality Profile - A New Critical Aspect to be Considered When Generating RGB-D Salient Object Detection Training SetXuehao Wang, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin. 3355-3364 [doi]

TMac: Temporal Multi-Modal Graph Learning for Acoustic Event ClassificationMeng Liu, Ke Liang 0006, Dayu Hu, Hao Yu, Yue Liu, Lingyuan Meng, Wenxuan Tu, Sihang Zhou, Xinwang Liu. 3365-3374 [doi]

FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on Optical FlowMufeng Yao, Jiaqi Wang, Jinlong Peng, Mingmin Chi, Chao Liu. 3375-3383 [doi]

ScribbleVC: Scribble-supervised Medical Image Segmentation with Vision-Class EmbeddingZihan Li, Yuan Zheng, Xiangde Luo, Dandan Shan, Qingqi Hong. 3384-3393 [doi]

Temporally Efficient Gabor Transformer for Unsupervised Video Object SegmentationJiaqing Fan, Tiankang Su, Kaihua Zhang, Bo Liu, Qingshan Liu. 3394-3402 [doi]

Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D RepresentationHaowei Wang, Jiji Tang, Jiayi Ji, Xiaoshuai Sun, Rongsheng Zhang, Yiwei Ma, Minda Zhao, Lincheng Li, Zeng Zhao, Tangjie Lv, Rongrong Ji. 3403-3414 [doi]

Hierarchical Visual Attribute Learning in the WildKongming Liang, Xinran Wang, Haiwen Zhang, Zhanyu Ma, Jun Guo 0002. 3415-3423 [doi]

Hierarchical Semantic Enhancement Network for Multimodal Fake News DetectionQiang Zhang, Jiawei Liu, Fanrui Zhang, Jingyi Xie, Zheng-Jun Zha. 3424-3433 [doi]

Towards Balanced Active Learning for Multimodal ClassificationMeng Shen 0002, Yizheng Huang, Jianxiong Yin, Heqing Zou, Deepu Rajan, Simon See. 3434-3445 [doi]

Learning Event-Specific Localization Preferences for Audio-Visual Event LocalizationShiping Ge, Zhiwei Jiang, Yafeng Yin, Cong Wang, Zifeng Cheng, Qing Gu. 3446-3454 [doi]

Object Segmentation by Mining Cross-Modal SemanticsZongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang, Cédric Demonceaux, Guolei Sun, Radu Timofte. 3455-3464 [doi]

PSNEA: Pseudo-Siamese Network for Entity Alignment between Multi-modal Knowledge GraphsWenxin Ni, Qianqian Xu, Yangbangyan Jiang, Zongsheng Cao, Xiaochun Cao, Qingming Huang. 3489-3497 [doi]

Federated Deep Multi-View Clustering with Global Self-SupervisionXinyue Chen, Jie Xu, Yazhou Ren 0001, Xiaorong Pu, Ce Zhu, Xiaofeng Zhu 0001, Zhifeng Hao, Lifang He 0001. 3498-3506 [doi]

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source LocalizationSung Jin Um, Dongjin Kim, Jung-Uk Kim. 3507-3516 [doi]

Hypergraph-Enhanced Hashing for Unsupervised Cross-Modal Retrieval via Robust Similarity GuidanceFangming Zhong, Chenglong Chu, Zijie Zhu, Zhikui Chen. 3517-3527 [doi]

Reinforcement Graph Clustering with Unknown Cluster NumberYue Liu, Ke Liang 0006, Jun Xia, Xihong Yang, Sihang Zhou, Meng Liu, Xinwang Liu, Stan Z. Li. 3528-3537 [doi]

Cultural Self-Adaptive Multimodal Gesture Generation Based on Multiple Culture Gesture DatasetJingyu Wu, Shi Chen, Shuyu Gan, Weijun Li, Changyuan Yang, Lingyun Sun. 3538-3549 [doi]

DPNET: Dynamic Poly-attention Network for Trustworthy Multi-modal ClassificationXin Zou, Chang Tang, Xiao Zheng, Zhenglai Li, Xiao He, Shan An, Xinwang Liu. 3550-3559 [doi]

Tile Classification Based Viewport Prediction with Multi-modal Fusion TransformerZhihao Zhang, Yiwei Chen, Weizhan Zhang, Caixia Yan, Qinghua Zheng, Qi Wang, Wangdu Chen. 3560-3568 [doi]

Semantic-based Selection, Synthesis, and Supervision for Few-shot LearningJinda Lu, Shuo Wang 0008, Xinyu Zhang, Yanbin Hao, Xiangnan He 0002. 3569-3578 [doi]

Exploring Universal Principles for Graph Contrastive Learning: A Statistical PerspectiveJinyong Wen, Shiming Xiang, Chunhong Pan. 3579-3589 [doi]

Text-to-Audio Generation using Instruction Guided Latent Diffusion ModelDeepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria. 3590-3598 [doi]

DRIN: Dynamic Relation Interactive Network for Multimodal Entity LinkingShangyu Xing, Fei Zhao, Zhen Wu, Chunhui Li, Jianbing Zhang, Xinyu Dai. 3599-3608 [doi]

MVCIR-net: Multi-view Clustering Information Reinforcement NetworkShaokui Gu, Xu Yuan 0002, Liang Zhao, Zhenjiao Liu, Yan Hu, Zhikui Chen. 3609-3618 [doi]

Preserving Local and Global Information: An Effective Metric-based Subspace ClusteringYixi Liu, Yuze Tan, Hongjie Wu, Shudong Huang, Yazhou Ren 0001, Jiancheng Lv. 3619-3627 [doi]

FeaCo: Reaching Robust Feature-Level Consensus in Noisy Pose ConditionsJiaming Gu, Jingyu Zhang, Muyang Zhang, Weiliang Meng, Shibiao Xu, Jiguang Zhang, Xiaopeng Zhang. 3628-3636 [doi]

Cross-Lingual Transfer of Large Language Model by Visually-Derived Supervision Toward Low-Resource LanguagesMasayasu Muraoka, Bishwaranjan Bhattacharjee, Michele Merler, Graeme Blackwood, Yulong Li, Yang Zhao. 3637-3646 [doi]

ALEX: Towards Effective Graph Transfer Learning with Noisy LabelsJingyang Yuan, Xiao Luo, Yifang Qin, Zhengyang Mao, Wei Ju, Ming Zhang. 3647-3656 [doi]

Skeletal Spatial-Temporal Semantics Guided Homogeneous-Heterogeneous Multimodal Network for Action RecognitionChenwei Zhang, Yuxuan Hu, Min Yang, Chengming Li, Xiping Hu 0001. 3657-3666 [doi]

Unveiling the Power of CLIP in Unsupervised Visible-Infrared Person Re-IdentificationZhong Chen 0005, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie. 3667-3675 [doi]

DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via Deformable Template FieldHaowen Wang, Zhipeng Fan, Zhen Zhao, Zhengping Che, Zhiyuan Xu, Dong Liu, Feifei Feng, Yakun Huang, Xiuquan Qiao, Jian Tang. 3676-3685 [doi]

Text-Only Training for Visual StorytellingYuechen Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li. 3686-3695 [doi]

Saliency Prototype for RGB-D and RGB-T Salient Object DetectionZihao Zhang, Jie Wang, Yahong Han. 3696-3705 [doi]

PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic SegmentationZhu Liu, Jinyuan Liu, Benzhuang Zhang, Long Ma 0002, Xin Fan 0001, Risheng Liu. 3706-3714 [doi]

Cross-Modal Graph Attention Network for Entity AlignmentBaogui Xu, Chengjin Xu, Bing Su. 3715-3723 [doi]

Intra- and Inter-Modal Curriculum for Multimodal LearningYuwei Zhou, Xin Wang 0019, Hong Chen, Xuguang Duan, Wenwu Zhu 0001. 3724-3735 [doi]

Graph based Spatial-temporal Fusion for Multi-modal Person Re-identificationYaobin Zhang, Jianming Lv, Chen Liu, Hongmin Cai. 3736-3744 [doi]

Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic SegmentationYuanbin Wang, Shaofei Huang, YuLu Gao, Zhen Wang, Rui Wang, Kehua Sheng, Bo Zhang, Si Liu. 3745-3754 [doi]

Bio-Inspired Audiovisual Multi-Representation Integration via Self-Supervised LearningZhaojian Li, Bin Zhao, Yuan Yuan. 3755-3764 [doi]

DLFusion: Painting-Depth Augmenting-LiDAR for Multimodal Fusion 3D Object DetectionJunyin Wang, Chenghu Du, Hui Li 0010, Shengwu Xiong. 3765-3776 [doi]

Automatic Network Architecture Search for RGB-D Semantic SegmentationWenna Wang, Tao Zhuo, Xiuwei Zhang, Mingjun Sun, Hanlin Yin, Yinghui Xing, Yanning Zhang. 3777-3786 [doi]

Attentive Alignment Network for Multispectral Pedestrian DetectionNuo Chen, Jin Xie 0005, Jing Nie, Jiale Cao, Zhuang Shao, Yanwei Pang. 3787-3795 [doi]

FedAA: Using Non-sensitive Modalities to Improve Federated Learning while Preserving Image PrivacyDong Chen, Siliang Tang, Zijin Shen, Guoming Wang, Jun Xiao, Yueting Zhuang, Carl Yang. 3796-3806 [doi]

Unsupervised Domain Adaptation for Video Object Grounding with Cascaded Debiasing LearningMengze Li, Haoyu Zhang, Juncheng Li 0006, Zhou Zhao, Wenqiao Zhang, Shengyu Zhang, Shiliang Pu, Yueting Zhuang, Fei Wu. 3807-3816 [doi]

RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph ClassificationZhengyang Mao, Wei Ju, Yifang Qin, Xiao Luo, Ming Zhang. 3817-3826 [doi]

That's What I Said: Fully-Controllable Talking Face GenerationYoungjoon Jang, Kyeongha Rho, Jong-Bin Woo, Hyeongkeun Lee, Jihwan Park, Youshin Lim, Byeong-Yeol Kim, Joon Son Chung. 3827-3836 [doi]

Event-Diffusion: Event-Based Image Reconstruction and Restoration with Diffusion ModelsQuanmin Liang, Xiawu Zheng, Kai Huang, Yan Zhang, Jie Chen, YongHong Tian. 3837-3846 [doi]

Mask to Reconstruct: Cooperative Semantics Completion for Video-text RetrievalHan Fang, Zhifei Yang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, Lanxiang Zhou. 3847-3856 [doi]

Self-Contrastive Graph Diffusion NetworkYixuan Ma, Kun Zhan. 3857-3865 [doi]

Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic SegmentationYiyang Chen, Shanshan Zhao, Changxing Ding, Liyao Tang, Chaoyue Wang, Dacheng Tao. 3866-3875 [doi]

Multi-View Representation Learning via View-Aware ModulationRen Wang 0011, Haoliang Sun, Xiushan Nie, Yuxiu Lin, Xiaoming Xi, Yilong Yin. 3876-3886 [doi]

Uni-Dual: A Generic Unified Dual-Task Medical Self-Supervised Learning FrameworkBoxiang Yun, Xingran Xie, Qingli Li, Yan Wang. 3887-3896 [doi]

Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise FilteringYifan Dong, Suhang Wu, Fandong Meng, Jie Zhou, Xiaoli Wang, Jianxin Lin, Jinsong Su. 3897-3907 [doi]

Multi-modal Social Bot Detection: Learning Homophilic and Heterophilic Connections AdaptivelyShilong Li, Boyu Qiao, Kun Li, Qianqian Lu, Meng Lin, Wei Zhou. 3908-3916 [doi]

CPU: Codebook Lookup Transformer with Knowledge Distillation for Point Cloud UpsamplingWeibing Zhao, Haiming Zhang, Chaoda Zheng, Xu Yan, Shuguang Cui, Zhen Li 0026. 3917-3925 [doi]

Your tone speaks louder than your face! Modality Order Infused Multi-modal Sarcasm DetectionMohit Tomar, Abhisek Tiwari, Tulika Saha, Sriparna Saha 0001. 3926-3933 [doi]

Fine-Grained Multimodal Named Entity Recognition and Grounding with a Generative FrameworkJieming Wang, Ziyan Li, Jianfei Yu, Li Yang, Rui Xia. 3934-3943 [doi]

SkipStreaming: Pinpointing User-Perceived Redundancy in Correlated Web Video Streaming through the Lens of ScenesWei Liu, Xinlei Yang, Zhenhua Li, Feng Qian. 3944-3953 [doi]

Synthesizing Long-Term Human Motions with Diffusion Models via Coherent SamplingZhao Yang, Bing Su 0001, Ji-Rong Wen. 3954-3964 [doi]

Layout Sequence Prediction From Noisy Mobile ModalityHaichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu 0001. 3965-3974 [doi]

Graph-Based Video-Language Learning with Multi-Grained Audio-Visual AlignmentChenyang Lyu, Wenxi Li, Tianbo Ji, Longyue Wang, Liting Zhou, Cathal Gurrin, Linyi Yang, Yi Yu, Yvette Graham, Jennifer Foster. 3975-3984 [doi]

Advancing Video Question Answering with a Multi-modal and Multi-layer Question Enhancement NetworkMeng Liu, Fenglei Zhang, Xin Luo 0006, Fan Liu, Yinwei Wei, Liqiang Nie. 3985-3993 [doi]

Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot LearningWenrui Li, Xi-Le Zhao, Zhengyu Ma, Xingtao Wang, Xiaopeng Fan, YongHong Tian. 3994-4002 [doi]

Multimodal Color Recommendation in Vector Graphic DocumentsQianru Qiu, Xueting Wang, Mayu Otani. 4003-4011 [doi]

Open-Vocabulary Object Detection via Scene Graph DiscoveryHengcan Shi, Munawar Hayat, Jianfei Cai 0001. 4012-4021 [doi]

Universal Domain Adaptive Network Embedding for Node ClassificationJushuo Chen, Feifei Dai, Xiaoyan Gu, Jiang Zhou, Bo Li, Weiping Wang. 4022-4030 [doi]

Uncertainty-Guided End-to-End Audio-Visual Speaker Diarization for Far-Field RecordingsChenyu Yang, Mengxi Chen, Yanfeng Wang, Yu Wang 0027. 4031-4041 [doi]

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source LocalizationTianyu Liu, Peng Zhang, Wei Huang, Yufei Zha, Tao You, Yanning Zhang. 4042-4052 [doi]

HELIOS: Hyper-Relational Schema Modeling from Knowledge GraphsYuhuan Lu, Bangchao Deng, Weijian Yu, Dingqi Yang. 4053-4064 [doi]

Breaking the Barrier Between Pre-training and Fine-tuning: A Hybrid Prompting Model for Knowledge-Based VQAZhongfan Sun, Yongli Hu, Qingqing Gao, Huajie Jiang, Junbin Gao, Yanfeng Sun, Baocai Yin. 4065-4073 [doi]

OccluBEV: Occlusion Aware Spatiotemporal Modeling for Multi-view 3D Object DetectionZiteng Wen, Hai Xu, Chenyu Liu, Tao Guo, Jinshui Hu, Xuming He, Fengren Wang, Shun Lou, Haibo Fan. 4074-4083 [doi]

Semantics-Enriched Cross-Modal Alignment for Complex-Query Video Moment RetrievalXingyu Shen, Xiang Zhang, Xun Yang, Yibing Zhan, Long Lan, Jianfeng Dong, Hongzhou Wu. 4109-4118 [doi]

NightHazeFormer: Single Nighttime Haze Removal Using Prior Query TransformerYun Liu, Zhongsheng Yan, Sixiang Chen, Tian Ye, Wenqi Ren, Erkang Chen. 4119-4128 [doi]

FSNet: Frequency Domain Guided Superpixel Segmentation Network for Complex ScenesHua Li, Junyan Liang, Wenjie Li, Wenhui Wu. 4129-4137 [doi]

Zero-Shot Learning by Harnessing Adversarial SamplesZhi Chen, Peng-fei Zhang, Jingjing Li, Sen Wang, Zi Huang. 4138-4146 [doi]

Sequential Affinity Learning for Video RestorationTian Ye, Sixiang Chen, Yun Liu, Wenhao Chai, Jinbin Bai, Wenbin Zou, Yunchen Zhang, Mingchao Jiang, Erkang Chen, Chenghao Xue. 4147-4156 [doi]

Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person RetrievalYiwei Ma, Xiaoshuai Sun, Jiayi Ji, Guannan Jiang, Weilin Zhuang, Rongrong Ji. 4157-4168 [doi]

Transformer-based Point Cloud Generation NetworkRui Xu, Le Hui, Yuehui Han, Jianjun Qian, Jin Xie 0001. 4169-4177 [doi]

Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing AttacksJun Guo, Xingyu Zheng, Aishan Liu, Siyuan Liang, Yisong Xiao, Yichao Wu, Xianglong Liu 0001. 4178-4189 [doi]

Filling the Information Gap between Video and Query for Language-Driven Moment RetrievalDaizong Liu, Xiaoye Qu, Jianfeng Dong, Guoshun Nan, Pan Zhou, Zichuan Xu, Lixing Chen, He Yan, Yu Cheng 0001. 4190-4199 [doi]

Improving Semi-Supervised Semantic Segmentation with Dual-Level Siamese Structure NetworkZhibo Tian, Xiaolin Zhang, Peng Zhang, Kun Zhan. 4200-4208 [doi]

Focusing on Flexible Masks: A Novel Framework for Panoptic Scene Graph Generation with Relation ConstraintsJiarui Yang, Chuan Wang, Zeming Liu, Jiahong Wu, Dongsheng Wang, Liang Yang, Xiaochun Cao. 4209-4218 [doi]

CCMB: A Large-scale Chinese Cross-modal BenchmarkChunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng, Baochang Zhang 0001, Xiangyang Ji, Yafeng Deng. 4219-4227 [doi]

CPLFormer: Cross-scale Prototype Learning Transformer for Image Snow RemovalSixiang Chen, Tian Ye, Yun Liu, Jinbin Bai, Haoyu Chen, Yunlong Lin, Jun Shi, Erkang Chen. 4228-4239 [doi]

Video Entailment via Reaching a Structure-Aware Cross-modal ConsensusXuan Yao, Junyu Gao, Mengyuan Chen, Changsheng Xu. 4240-4249 [doi]

Cerebrovascular Segmentation in TOF-MRA with Topology Regularization Adversarial ModelCheng Chen 0024, Yunqing Chen, Shuang Song, Jianan Wang, Huansheng Ning, Ruoxiu Xiao. 4250-4259 [doi]

Hierarchical Reasoning Network with Contrastive Learning for Few-Shot Human-Object Interaction RecognitionJiale Yu, Baopeng Zhang, Qirui Li, Haoyang Chen, Zhu Teng. 4260-4268 [doi]

Uncertainty-Driven Dynamic Degradation Perceiving and Background Modeling for Efficient Single Image DesnowingSixiang Chen, Tian Ye, Chenghao Xue, Haoyu Chen, Yun Liu, Erkang Chen, Lei Zhu. 4269-4280 [doi]

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion AutoencoderChenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen 0001, Kai Yu 0004, Sheng Zhao, Jiang Bian 0002. 4281-4289 [doi]

Spatio-Temporal Branching for Motion Prediction using Motion IncrementsJiexin Wang, Yujie Zhou, Wenwen Qiang, Ying Ba, Bing Su, Ji-Rong Wen. 4290-4299 [doi]

Generative Neutral Features-Disentangled Learning for Facial Expression RecognitionZhenqian Wu, Yazhou Ren 0001, Xiaorong Pu, Zhifeng Hao, Lifang He 0001. 4300-4308 [doi]

Deep Algorithm Unrolling with Registration Embedding for PansharpeningTingting Wang, Yongxu Ye, Faming Fang, Guixu Zhang, Ming Xu. 4309-4318 [doi]

DAOT: Domain-Agnostically Aligned Optimal Transport for Domain-Adaptive Crowd CountingHuilin Zhu, Jingling Yuan, Xian Zhong, Zhengwei Yang, Zheng Wang, Shengfeng He. 4319-4329 [doi]

Partial Annotation-based Video Moment Retrieval via Iterative LearningWei Ji 0008, Renjie Liang, Lizi Liao, Hao Fei 0001, Fuli Feng. 4330-4339 [doi]

Style Transfer Meets Super-Resolution: Advancing Unpaired Infrared-to-Visible Image Translation with Detail EnhancementYirui Shen, Jingxuan Kang, Shuang Li 0008, Zhenjie Yu, Shuigen Wang. 4340-4348 [doi]

Mind the Gap: Improving Success Rate of Vision-and-Language Navigation by Revisiting Oracle Success RoutesChongyang Zhao, Yuankai Qi, Qi Wu 0001. 4349-4358 [doi]

Feature-Suppressed Contrast for Self-Supervised Food Pre-trainingXinda Liu, Yaohui Zhu, Linhu Liu, Jiang Tian, Lili Wang. 4359-4367 [doi]

Learning from Easy to Hard Pairs: Multi-step Reasoning Network for Human-Object Interaction DetectionYuchen Zhou, Guang Tan, Mengtang Li, Chao Gou. 4368-4377 [doi]

Separate and Locate: Rethink the Text in Text-based Visual Question AnsweringChengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu. 4378-4388 [doi]

Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question PromptsYunshi Lan, Xiang Li, Xin Liu, Yang Li, Wei Qin, Weining Qian. 4389-4400 [doi]

Adaptive Decoupled Pose Knowledge DistillationJie Xu 0021, Shanshan Zhang, Jian Yang 0002. 4401-4409 [doi]

Biased-Predicate Annotation Identification via Unbiased Visual Predicate RepresentationLi Li, Chenwei Wang, You Qin, Wei Ji, Renjie Liang. 4410-4420 [doi]

Zero-Shot Object Detection by Semantics-Aware DETR with Adaptive Contrastive LossHuan Liu, Lu Zhang, Jihong Guan, Shuigeng Zhou. 4421-4430 [doi]

Rethinking Missing Modality Learning from a Decoding PerspectiveTao Jin, Xize Cheng, Linjun Li, Wang Lin, Ye Wang, Zhou Zhao. 4431-4439 [doi]

Improving the Transferability of Adversarial Examples with Arbitrary Style TransferZhijin Ge, Fanhua Shang, Hongying Liu, Yuanyuan Liu, Liang Wan, Wei Feng, Xiaosen Wang. 4440-4449 [doi]

Mixup-Augmented Temporally Debiased Video Grounding with Content-Location DisentanglementXin Wang 0019, Zihao Wu, Hong Chen, Xiaohan Lan, Wenwu Zhu 0001. 4450-4459 [doi]

Learning Semantics-Grounded Vocabulary Representation for Video-Text RetrievalYaya Shi, Haowei Liu, Haiyang Xu, Zongyang Ma, Qinghao Ye, Anwen Hu, Ming Yan, Ji Zhang 0011, Fei Huang 0004, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha. 4460-4470 [doi]

Learning a Graph Neural Network with Cross Modality Interaction for Image FusionJiawei Li, Jiansheng Chen, Jinyuan Liu, Huimin Ma. 4471-4479 [doi]

COPA : Efficient Vision-Language Pre-training through Collaborative Object- and Patch-Text AlignmentChaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Ji Zhang. 4480-4491 [doi]

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search BenchmarkShuyu Yang, Yinan Zhou, Zhedong Zheng, Yaxiong Wang, Li Zhu, Yujiao Wu. 4492-4501 [doi]

Towards Real-Time Sign Language Recognition and Translation on Edge DevicesShiwei Gan, Yafeng Yin, Zhiwei Jiang, Lei Xie 0004, Sanglu Lu. 4502-4512 [doi]

Enhancing Visually-Rich Document Understanding via Layout Structure ModelingQiwei Li, Zuchao Li, Xiantao Cai, Bo Du, Hai Zhao. 4513-4523 [doi]

Non-Exemplar Class-Incremental Learning via Adaptive Old Class ReconstructionShaokun Wang, Weiwei Shi 0003, Yuhang He, Yifan Yu, Yihong Gong. 4524-4534 [doi]

CLIP-Count: Towards Text-Guided Zero-Shot Object CountingRuixiang Jiang, Lingbo Liu, Changwen Chen. 4535-4545 [doi]

Self-Supervised Cross-Language Scene Text EditingFuxiang Yang, Tonghua Su, Xiang Zhou, Donglin Di, Zhongjie Wang, Songze Li. 4546-4554 [doi]

Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NERFeng Chen, Jiajia Liu, Kaixiang Ji, Wang Ren, Jian Wang, Jingdong Chen. 4555-4563 [doi]

MORE: A Multimodal Object-Entity Relation Extraction Dataset with a Benchmark EvaluationLiang He, Hongke Wang, Yongchang Cao, Zhen Wu, Jianbing Zhang, Xinyu Dai. 4564-4573 [doi]

Weakly-supervised Video Scene Graph Generation via Unbiased Cross-modal LearningZiyue Wu, Junyu Gao 0002, Changsheng Xu. 4574-4583 [doi]

Reducing Intrinsic and Extrinsic Data Biases for Moment Localization with Natural LanguageJiong Yin, Liang Li, Jiehua Zhang, Chenggang Yan 0001, Lei Zhang, Zunjie Zhu. 4584-4594 [doi]

VioLET: Vision-Language Efficient Tuning with Collaborative Multi-modal GradientsYaoming Wang, Yuchen Liu, Xiaopeng Zhang, Jin Li, Bowen Shi, Chenglin Li, Wenrui Dai, Hongkai Xiong, Qi Tian 0001. 4595-4605 [doi]

Mirror-NeRF: Learning Neural Radiance Fields for Mirrors with Whitted-Style Ray TracingJunyi Zeng, Chong Bao, Rui Chen, Zilong Dong, Guofeng Zhang 0001, Hujun Bao, Zhaopeng Cui. 4606-4615 [doi]

Semi-supervised Deep Multi-view StereoHongbin Xu, Weitao Chen, Yang Liu, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang. 4616-4625 [doi]

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive LearningChen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi. 4626-4636 [doi]

Temporal Sentence Grounding in Streaming VideosTian Gan, Xiao Wang, Yan Sun, Jianlong Wu, Qingpei Guo, Liqiang Nie. 4637-4646 [doi]

Modality-agnostic Augmented Multi-Collaboration Representation for Semi-supervised Heterogenous Face RecognitionDecheng Liu, Weizhao Yang, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao 0001. 4647-4656 [doi]

Swin-UNIT: Transformer-based GAN for High-resolution Unpaired Image TranslationYifan Li, Yaochen Li, Wenneng Tang, Zhifeng Zhu, Jinhuo Yang, Yuehu Liu. 4657-4665 [doi]

PixelFace+: Towards Controllable Face Generation and Manipulation with Text Descriptions and Segmentation MasksXiaoxiong Du, Jun Peng, Yiyi Zhou, Jinlu Zhang, Siting Chen, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji. 4666-4677 [doi]

LiFT: Transfer Learning in Vision-Language Models for Downstream Adaptation and GeneralizationJingzheng Li, Hailong Sun 0001. 4678-4687 [doi]

VCMaster: Generating Diverse and Fluent Live Video Comments Based on Multimodal ContextsManman Zhang, Ge Luo 0003, Yuchen Ma, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001. 4688-4696 [doi]

Whether you can locate or not? Interactive Referring Expression GenerationFulong Ye, Yuxing Long, Fangxiang Feng, Xiaojie Wang. 4697-4706 [doi]

Iterative Learning with Extra and Inner Knowledge for Long-tail Dynamic Scene Graph GenerationYiming Li, Xiaoshan Yang, Changsheng Xu. 4707-4715 [doi]

Improving Image Captioning through Visual and Semantic Mutual PromotionJing Zhang, Yingshuai Xie, Xiaoqiang Liu. 4716-4724 [doi]

Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation LearningMinghao Zhu, Xiao Lin, Ronghao Dang, Chengju Liu, Qijun Chen. 4725-4736 [doi]

Better Integrating Vision and Semantics for Improving Few-shot ClassificationZhuoling Li, Yong Wang. 4737-4746 [doi]

Multi-Domain Lifelong Visual Question Answering via Self-Critical DistillationMingrui Lao, Nan Pu, Yu Liu 0012, Zhun Zhong, Erwin M. Bakker, Nicu Sebe, Michael S. Lew. 4747-4758 [doi]

Relation Triplet Construction for Cross-modal Text-to-Video RetrievalXue-song, Jingjing Chen, Yu-Gang Jiang. 4759-4767 [doi]

HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image ClassificationShuyi Ouyang, Hongyi Wang, Ziwei Niu, Zhenjia Bai, Shiao Xie, Yingying Xu, Ruofeng Tong 0001, Yen-Wei Chen 0001, Lanfen Lin. 4768-4777 [doi]

Depth-Aware Sparse Transformer for Video-Language LearningHaonan Zhang, Lianli Gao, Pengpeng Zeng, Alan Hanjalic, Heng Tao Shen. 4778-4787 [doi]

Invariant Meets Specific: A Scalable Harmful Memes Detection FrameworkChuanpeng Yang, Fuqing Zhu, Jizhong Han, Songlin Hu. 4788-4797 [doi]

A Method of Micro-Geometric Details Preserving in Surface Reconstruction from GradientWuyuan Xie, Miaohui Wang. 4798-4806 [doi]

Progressive Positive Association Framework for Image and Text RetrievalWenhui Li, Yan Wang, Yuting Su 0001, Lanjun Wang, Weizhi Nie, An-An Liu. 4807-4815 [doi]

Globally-Robust Instance Identification and Locally-Accurate Keypoint Alignment for Multi-Person Pose EstimationFangzheng Tian, Sungchan Kim. 4816-4827 [doi]

Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text MatchingKun Zhang, Lei Zhang, Bo Hu, Mengxiao Zhu 0001, Zhendong Mao. 4828-4837 [doi]

Dark Knowledge Balance Learning for Unbiased Scene Graph GenerationZhiqing Chen, Yawei Luo, Jian Shao, Yi Yang, Chunping Wang, Lei Chen, Jun Xiao. 4838-4847 [doi]

Orthogonal Uncertainty Representation of Data Manifold for Robust Long-Tailed LearningYanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Lingling Li 0002. 4848-4857 [doi]

Topological Structure Learning for Weakly-Supervised Out-of-Distribution DetectionRundong He, Rongxue Li, Zhongyi Han, Xihong Yang, Yilong Yin. 4858-4866 [doi]

Efficient Spatio-Temporal Video Grounding with Semantic-Guided Feature DecompositionWeikang Wang, Jing Liu, Yuting Su, Weizhi Nie. 4867-4876 [doi]

Prior Knowledge-driven Dynamic Scene Graph Generation with Causal InferenceJiale Lu, Lianggangxu Chen, Youqi Song, Shaohui Lin, Changbo Wang, Gaoqi He. 4877-4885 [doi]

ATM: Action Temporality Modeling for Video Question AnsweringJunwen Chen, Jie Zhu, Yu Kong. 4886-4895 [doi]

CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware PromptingShaoxiang Guo, Qing Cai, Lin Qi, Junyu Dong. 4896-4907 [doi]

A Multitask Framework for Graffiti-to-Image TranslationYing Yang, Mulin Chen, Xuelong Li 0001. 4908-4916 [doi]

Adaptive Contrastive Learning for Learning Robust Representations under Label NoiseZihao Wang, Weichen Zhang, Weihong Bao, Fei Long, Chun Yuan. 4917-4927 [doi]

Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt DiversificationYunyi Xuan, Weijie Chen, Shicai Yang, Di Xie, Luojun Lin, Yueting Zhuang. 4928-4938 [doi]

Real20M: A Large-scale E-commerce Dataset for Cross-domain RetrievalYanzhe Chen, Huasong Zhong, Xiangteng He, Yuxin Peng, Lele Cheng. 4939-4948 [doi]

Zero-TextCap: Zero-shot Framework for Text-based Image CaptioningDongsheng Xu, Wenye Zhao, Yi Cai 0001, Qingbao Huang. 4949-4957 [doi]

Adversarial Training of Deep Neural Networks Guided by Texture and Structural InformationZhaoxin Wang, Handing Wang, Cong Tian, Yaochu Jin. 4958-4967 [doi]

TeViS: Translating Text Synopses to Video StoryboardsXu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Xihua Wang, Ruihua Song, Boyuan Li, Xiang Cao. 4968-4979 [doi]

Chain-of-Look Prompting for Verb-centric Surgical Triplet Recognition in Endoscopic VideosNan Xi, Jingjing Meng, Junsong Yuan. 5007-5016 [doi]

Dense Object Grounding in 3D ScenesWencan Huang, Daizong Liu, Wei Hu. 5017-5026 [doi]

Uniformly Distributed Category Prototype-Guided Vision-Language Framework for Long-Tail RecognitionXiaoxuan He, Siming FU, Xinpeng Ding, Yuchen Cao, Hualiang Wang. 5027-5037 [doi]

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training ModelKanzhi Cheng, Wenpo Song, Zheng Ma, Wenhao Zhu, Zixuan Zhu, Jianbing Zhang. 5038-5047 [doi]

Toward High Quality Facial Representation LearningYue Wang 0020, Jinlong Peng, Jiangning Zhang, Ran Yi, Liang Liu, Yabiao Wang, Chengjie Wang. 5048-5058 [doi]

HAAN: Human Action Aware Network for Multi-label Temporal Action DetectionZikai Gao, Peng Qiao, Yong Dou. 5059-5069 [doi]

Exploring Coarse-to-Fine Action Token Localization and Interaction for Fine-grained Video Action RecognitionBaoli Sun, Xinchen Ye, Zhihui Wang, Haojie Li, Zhiyong Wang. 5070-5078 [doi]

Semantic-Aware Generator and Low-level Feature Augmentation for Few-shot Image GenerationZhe Wang, Jiaoyan Guan, Mengping Yang, Ting Xiao, Ziqiu Chi. 5079-5088 [doi]

Self-PT: Adaptive Self-Prompt Tuning for Low-Resource Visual Question AnsweringBowen Yuan, Sisi You, Bing-Kun Bao. 5089-5098 [doi]

SAUNet: Spatial-Attention Unfolding Network for Image Compressive SensingPing Wang, Xin Yuan. 5099-5108 [doi]

CONICA: A Contrastive Image Captioning Framework with Robust Similarity LearningLin Deng, Yuzhong Zhong, Maoning Wang, Jianwei Zhang. 5109-5119 [doi]

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense CaptionerZikang Liu, Sihan Chen, Longteng Guo, Handong Li, Xingjian He, Jing Liu. 5120-5131 [doi]

Deconfounded Visual Question Generation with Causal InferenceJiali Chen, Zhenjun Guo, Jiayuan Xie, Yi Cai 0001, Qing Li 0001. 5132-5142 [doi]

Null-text Guidance in Diffusion Models is Secretly a Cartoon-style CreatorJing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Huang, Wenjing Yang 0002. 5143-5152 [doi]

Triple Correlations-Guided Label Supplementation for Unbiased Video Scene Graph GenerationWenqing Wang, Kaifeng Gao, Yawei Luo, Tao Jiang, Fei Gao, Jian Shao, Jianwen Sun, Jun Xiao. 5153-5163 [doi]

Probability Distribution Based Frame-supervised Language-driven Action LocalizationShuo Yang, Zirui Shang, Xinxiao Wu. 5164-5173 [doi]

LUNA: Language as Continuing Anchors for Referring Expression ComprehensionYaoyuan Liang, Zhao Yang 0002, Yansong Tang, Jiashuo Fan, Ziran Li, Jingang Wang, Philip H. S. Torr, Shao-Lun Huang. 5174-5184 [doi]

Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity and Relation ExtractionXuming Hu, Junzhe Chen, Aiwei Liu, Shiao Meng, Lijie Wen, Philip S. Yu. 5185-5194 [doi]

Language-Guided Visual Aggregation Network for Video Question AnsweringXiao Liang, Di Wang, Quan Wang 0006, Bo Wan, Lingling An, Lihuo He. 5195-5203 [doi]

Resource Constrained Model Compression via Minimax Optimization for Spiking Neural NetworksJue Chen, Huan Yuan, Jianchao Tan, Bin Chen, Chengru Song, Di Zhang. 5204-5213 [doi]

Semi-Supervised Convolutional Vision Transformer with Bi-Level Uncertainty Estimation for Medical Image SegmentationHuimin Huang, Yawen Huang, Shiao Xie, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen, Yuexiang Li, Yefeng Zheng 0001. 5214-5222 [doi]

Enhancing Multi-modal Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-GenerationQian Yang, Qian Chen, Wen Wang, Baotian Hu, Min Zhang. 5223-5234 [doi]

Local Consensus Enhanced Siamese Network with Reciprocal Loss for Two-view Correspondence LearningLinbo Wang, Jing Wu, Xianyong Fang, Zhengyi Liu, Chenjie Cao, Yanwei Fu. 5235-5243 [doi]

Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme DetectionRui Cao, Ming Shan Hee, Adriel Kuek, Wen Haw Chong, Roy Ka-Wei Lee, Jing Jiang 0001. 5244-5252 [doi]

Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identificationTiantian Gong, Guodong Du 0005, Junsheng Wang, Yongkang Ding, Liyan Zhang 0001. 5253-5261 [doi]

Language-guided Human Motion Synthesis with Atomic ActionsYuanhao Zhai 0001, Mingzhen Huang, Tianyu Luan, Lu Dong, Ifeoma Nwogu, Siwei Lyu, David S. Doermann, Junsong Yuan. 5262-5271 [doi]

Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with UncertaintyYuan Zhang, Weihua Chen, Yichen Lu, Tao Huang 0020, Xiuyu Sun, Jian Cao. 5272-5280 [doi]

Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role LabelingYu Zhao, Hao Fei 0001, Yixin Cao 0002, Bobo Li, Meishan Zhang, Jianguo Wei, Min Zhang, Tat-Seng Chua. 5281-5291 [doi]

SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking FacesZiqiao Peng, Yihao Luo, Yue Shi, Hao Xu, Xiangyu Zhu, Hongyan Liu, Jun He, Zhaoxin Fan. 5292-5301 [doi]

Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and MaximizationYujie Zhou, Wenwen Qiang, Anyi Rao, Ning Lin, Bing Su 0001, Jiaqi Wang. 5302-5310 [doi]

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image GenerationGuojin Zhong, Jin Yuan, Pan Wang, Kailun Yang 0001, Weili Guan, Zhiyong Li 0001. 5311-5320 [doi]

Guided Image Synthesis via Initial Image Editing in Diffusion ModelJiafeng Mao, Xueting Wang, Kiyoharu Aizawa. 5321-5329 [doi]

External Knowledge Dynamic Modeling for Image-text RetrievalSong Yang, Qiang Li, Wenhui Li, Min Liu, Xuanya Li, Anan Liu. 5330-5338 [doi]

Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts LearningQiang Wang, Junlong Du, Ke Yan, Shouhong Ding. 5339-5347 [doi]

Enhancing Real-Time Super Resolution with Partial Convolution and Efficient Variance AttentionZhou Zhou, Jiahao Chao, Jiali Gong, Hongfan Gao, Zhenbing Zeng, Zhengfeng Yang. 5348-5357 [doi]

HSIC-based Moving Weight Averaging for Few-Shot Open-Set Object DetectionBinyi Su, Hua Zhang, Zhong Zhou. 5358-5369 [doi]

Exploiting Low-confidence Pseudo-labels for Source-free Object DetectionZhihong Chen, Zilei Wang, Yixin Zhang. 5370-5379 [doi]

Bridging Language and Geometric Primitives for Zero-shot Point Cloud SegmentationRunnan Chen, Xinge Zhu, Nenglun Chen, Wei Li 0111, Yuexin Ma, Ruigang Yang, Wenping Wang. 5380-5388 [doi]

Graph Spectral Perturbation for 3D Point Cloud Contrastive LearningYuehui Han, Jiaxin Chen, Jianjun Qian, Jin Xie 0001. 5389-5398 [doi]

Retrieval-based Knowledge Augmented Vision Language Pre-trainingJiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang. 5399-5409 [doi]

ACQ: Few-shot Backdoor Defense via Activation Clipping and QuantizingYulin Jin, Xiaoyu Zhang, Jian Lou 0001, Xiaofeng Chen 0001. 5410-5418 [doi]

Underwater Image Enhancement by Transformer-based Diffusion Model with Non-uniform Sampling for Skip StrategyYi Tang, Hiroshi Kawasaki, Takafumi Iwaguchi. 5419-5427 [doi]

LGFat-RGCN: Faster Attention with Heterogeneous RGCN for Medical ICD Coding GenerationZhenghan Chen, Changzeng Fu, Ruoxue Wu, Ye Wang, Xunzhu Tang, Xiaoxuan Liang. 5428-5435 [doi]

Semi-supervised Semantic Segmentation with Mutual Knowledge DistillationJianlong Yuan, Jinchao Ge, Zhibin Wang, Yifan Liu 0001. 5436-5444 [doi]

Shift Pruning: Equivalent Weight Pruning for CNN via Differentiable Shift OperatorTao Niu, Yihang Lou, Yinglei Teng, Jianzhong He, Yiding Liu. 5445-5454 [doi]

Improving Human-Object Interaction Detection via Virtual Image LearningShuman Fang, Shuai Liu, Jie Li, Guannan Jiang, Xianming Lin, Rongrong Ji. 5455-5463 [doi]

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue GenerationBo Zhang, Jian Wang 0021, Hui Ma, Bo Xu, Hongfei Lin. 5464-5473 [doi]

Diffused Fourier Network for Video Action SegmentationBorui Jiang, Yadong Mu. 5474-5483 [doi]

Rethinking the Localization in Weakly Supervised Object LocalizationRui Xu, Yong Luo 0002, Han Hu 0003, Bo Du 0001, Jialie Shen, Yonggang Wen 0001. 5484-5494 [doi]

Hyperspectral Image Denoising with Spectrum AlignmentJiahua Xiao, Yantao Ji, Xing Wei. 5495-5503 [doi]

Training Multimedia Event Extraction With Generated Images and CaptionsZilin Du, Yunxin Li, Xu Guo, Yidan Sun, Boyang Li. 5504-5513 [doi]

BMI-Net: A Brain-inspired Multimodal Interaction Network for Image Aesthetic AssessmentXixi Nie, Bo Hu 0008, Xinbo Gao 0001, Leida Li, Xiaodan Zhang, Bin Xiao 0002. 5514-5522 [doi]

Towards Accurate Lip-to-Speech Synthesis in-the-WildSindhu B. Hegde, Rudrabha Mukhopadhyay, C. V. Jawahar, Vinay P. Namboodiri. 5523-5531 [doi]

Towards End-to-End Unsupervised Saliency Detection with Self-Supervised Top-Down ContextYicheng Song, Shuyong Gao, Haozhe Xing, Yiting Cheng 0001, Yan Wang, Wenqiang Zhang. 5532-5541 [doi]

PoSynDA: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D Human Pose EstimationHanbing Liu, Jun-Yan He, Zhi-Qi Cheng, Wangmeng Xiang, Qize Yang, Wenhao Chai, Gaoang Wang, Xu Bao, Bin Luo, Yifeng Geng, Xuansong Xie. 5542-5551 [doi]

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal AlignmentChunhui Zhang, Xin Sun, Yiqian Yang, Li Liu, Qiong Liu, Xi Zhou, Yanfeng Wang. 5552-5561 [doi]

Scene-text Oriented Visual Entailment: Task, Dataset and SolutionNan Li, Pijian Li, Dongsheng Xu, Wenye Zhao, Yi Cai, Qingbao Huang. 5562-5571 [doi]

QA-CLIMS: Question-Answer Cross Language Image Matching for Weakly Supervised Semantic SegmentationSonghe Deng, Wei Zhuo, Jinheng Xie, LinLin Shen. 5572-5583 [doi]

Confidence-Aware Contrastive Learning for Semantic SegmentationLele Lv, Qing Liu, Shichao Kan, Yixiong Liang. 5584-5593 [doi]

Hierarchical Prompt Learning Using CLIP for Multi-label Classification with Single Positive LabelsAo Wang, Hui Chen, Zijia Lin, Zixuan Ding, Pengzhang Liu, Yongjun Bao, Weipeng Yan, Guiguang Ding. 5594-5604 [doi]

Reservoir Computing Transformer for Image-Text RetrievalWenrui Li, Zhengyu Ma, Liang-Jian Deng, Penghong Wang, Jinqiao Shi, Xiaopeng Fan. 5605-5613 [doi]

Model Inversion Attack via Dynamic Memory LearningGege Qi, Yuefeng Chen, Xiaofeng Mao, Binyuan Hui, Xiaodan Li, Rong Zhang, Hui Xue 0001. 5614-5622 [doi]

AdaCLIP: Towards Pragmatic Multimodal Video RetrievalZhiming Hu, Angela Ning Ye, Salar Hosseini Khorasgani, Iqbal Mohomed. 5623-5633 [doi]

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCRZhenyang Li, Yangyang Guo, Kejie Wang, Xiaolin Chen, Liqiang Nie, Mohan S. Kankanhalli. 5634-5644 [doi]

Semi-supervised Domain Adaptation via Joint Contrastive Learning with SensitivityKeyu Tu, Zilei Wang, Junjie Li, Yixin Zhang. 5645-5654 [doi]

LocLoc: Low-level Cues and Local-area Guides for Weakly Supervised Object LocalizationXinzi Cao, Xiawu Zheng, Yunhang Shen, Ke Li, Jie Chen, Yutong Lu, Yonghong Tian 0001. 5655-5664 [doi]

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial AlignmentCong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Anh Tuan Luu. 5665-5673 [doi]

Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language ModelsZheng Ma, Mianzhi Pan, Wenhan Wu, Kanzhi Cheng, Jianbing Zhang, Shujian Huang, Jiajun Chen. 5674-5685 [doi]

Enhancing Sentence Representation with Visually-supervised Multimodal Pre-trainingZhe Li, Laurence T. Yang, Xin Nie, Bocheng Ren, Xianjun Deng. 5686-5695 [doi]

Cross-modal Contrastive Learning for Multimodal Fake News DetectionLongzheng Wang, Chuang Zhang, Hongbo Xu, Yongxiu Xu, Xiaohan Xu, Siqi Wang. 5696-5704 [doi]

Visual Captioning at Will: Describing Images and Videos Guided by a Few Stylized SentencesDingyi Yang, Hongyu Chen, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Qin Jin. 5705-5715 [doi]

Category-Specific Prompts for Animal Action Recognition with Pretrained Vision-Language ModelsYinuo Jing, Chunyu Wang, Ruxu Zhang, Kongming Liang, Zhanyu Ma. 5716-5724 [doi]

Scene Graph Masked Variational Autoencoders for 3D Scene GenerationRui Xu, Le Hui, Yuehui Han, Jianjun Qian, Jin Xie. 5725-5733 [doi]

AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D DiffusionShuo Huang, Zongxin Yang, Liangting Li, Yi Yang, Jia Jia 0001. 5734-5745 [doi]

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range MultilaterationXu Bao, Zhi-Qi Cheng, Jun-Yan He, Wangmeng Xiang, Chenyang Li, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, Xuansong Xie. 5746-5755 [doi]

WormTrack: Dataset and Benchmark for Multi-Object Tracking in Worm CrowdsZhiyu Jin, Hanyang Yu, Chen Haul, Linxiang Wang, Zuobin Zhu, Qiu Shen, Xun Cao. 5756-5763 [doi]

Relational Contrastive Learning for Scene Text RecognitionJinglei Zhang, Tiancheng Lin 0001, Yi Xu, Kai Chen, Rui Zhang. 5764-5775 [doi]

MaTCR: Modality-Aligned Thought Chain Reasoning for Multimodal Task-Oriented Dialogue GenerationYiting Liu, Liang Li, Beichen Zhang, Shan Huang, Zheng-Jun Zha, Qingming Huang. 5776-5785 [doi]

Fine-grained Pseudo Labels for Scene Text RecognitionXiaoyu Li, Xiaoxue Chen, Zuming Huang, Lele Xie, Jingdong Chen, Ming Yang. 5786-5795 [doi]

VPA: Fully Test-Time Visual Prompt AdaptationJiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton-Ferrer, Caner Hazirbas. 5796-5806 [doi]

Unsupervised Domain Adaptation for Referring Semantic SegmentationHaonan Shi, Wenwen Pan, Zhou Zhao, Mingmin Zhang, Fei Wu 0001. 5807-5818 [doi]

OCSKB: An Object Component Sketch Knowledge Base for Fast 6D Pose EstimationGuangming Shi, Xuyang Li, Xuemei Xie, Mingxuan Yu, Chengwei Rao, Jiakai Luo. 5819-5827 [doi]

Fine-Grained Visual Prompt Learning of Vision-Language Models for Image RecognitionHongbo Sun 0002, Xiangteng He, Jiahuan Zhou, Yuxin Peng. 5828-5836 [doi]

General Debiasing for Multimodal Sentiment AnalysisTeng Sun, Juntong Ni, Wenjie Wang 0007, Liqiang Jing, Yinwei Wei, Liqiang Nie. 5861-5869 [doi]

Feeling Positive? Predicting Emotional Image Similarity from Brain SignalsTuukka Ruotsalo, Kalle Mäkelä, Michiel M. A. Spapé, Luis A. Leiva. 5870-5878 [doi]

Multimodal Physiological Signals Fusion for Online Emotion RecognitionTongjie Pan, Yalan Ye, Hecheng Cai, Shudong Huang, Yang Yang 0002, Guoqing Wang. 5879-5888 [doi]

Learning from More: Combating Uncertainty Cross-multidomain for Facial Expression RecognitionHanwei Liu, Huiling Cai, Qingcheng Lin, Xuefeng Li, Hui Xiao. 5889-5898 [doi]

MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural DiffusionYizhuo Lu, Changde Du, Qiongyi Zhou, Dianpeng Wang, Huiguang He. 5899-5908 [doi]

Pretrained Implicit-Ensemble Transformer for Open-Set Authentication on Multimodal Mobile BiometricsJaeho Yoon, Jaewoo Park, Kensuke Wagata, Hojin Park, Andrew Beng Jin Teoh. 5909-5922 [doi]

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion RecognitionBobo Li, Hao Fei 0001, Lizi Liao, Yu Zhao, Chong Teng, Tat-Seng Chua, Donghong Ji, Fei Li. 5923-5934 [doi]

Sensing Micro-Motion Human Patterns using Multimodal mmRadar and Video Signal for Affective and Psychological IntelligenceYiwei Ru, Peipei Li, Muyi Sun, Yunlong Wang, Kunbo Zhang, Qi Li, Zhaofeng He, Zhenan Sun. 5935-5946 [doi]

Unlocking the Power of Multimodal Learning for Emotion Recognition in ConversationYunxiao Wang, Meng Liu, Zhe Li, Yupeng Hu, Xin Luo, Liqiang Nie. 5947-5955 [doi]

Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion RecognitionJiaxin Ye, Yujie Wei, Xin-Cheng Wen, Chenglong Ma, Zhizhong Huang, KunHong Liu 0001, Hongming Shan. 5956-5965 [doi]

Emotionally Situated Text-to-Speech Synthesis in User-Agent ConversationYuchen Liu 0003, Haoyu Zhang, Shichao Liu, Xiang Yin, Zejun Ma, Qin Jin. 5966-5974 [doi]

Multimodal Adaptive Emotion Transformer with Flexible Modality Inputs on A Novel Dataset with Continuous LabelsWei-Bang Jiang, Xuan-Hao Liu, Wei-Long Zheng, Bao-Liang Lu. 5975-5984 [doi]

Graph to Grid: Learning Deep Representations for Multimodal Emotion RecognitionMing Jin 0006, Jinpeng Li 0002. 5985-5993 [doi]

Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in ConversationShihao Zou, Xianying Huang, Xudong Shen. 5994-6003 [doi]

SAAML: A Framework for Semi-supervised Affective Adaptation via Metric LearningMinh Tran, Yelin Kim, Che-Chun Su, Cheng-Hao Kuo, Mohammad Soleymani 0001. 6004-6015 [doi]

Learning Shared Semantic Information from Multimodal Bio-signals for Brain-Muscle Modulation AnalysisTian-Yu Xiang, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Hong-Jun Yang, Zhen-Qiu Feng, Mei-Jiang Gui, Hao Li, De-Xing Huang, Zeng-Guang Hou. 6016-6024 [doi]

Auditory Attention Decoding with Task-Related Multi-View Contrastive LearningXiaoyu Chen, Changde Du, Qiongyi Zhou, Huiguang He. 6025-6033 [doi]

Progressive Visual Content Understanding Network for Image Emotion ClassificationJicai Pan, Shangfei Wang. 6034-6044 [doi]

Few-shot Multimodal Sentiment Analysis Based on Multimodal Probabilistic Fusion PromptsXiaocui Yang, Shi Feng 0001, Daling Wang, Yifei Zhang 0003, Soujanya Poria. 6045-6053 [doi]

MEDIC: A Multimodal Empathy Dataset in CounselingZhouan Zhu, Chenguang Li, Jicai Pan, Xin Li, Yufei Xiao, Yanan Chang, Feiyi Zheng, Shangfei Wang. 6054-6062 [doi]

Towards Adaptable Graph Representation Learning: An Adaptive Multi-Graph Contrastive TransformerYan Li, Liang Zhang, Xiangyuan Lan, Dongmei Jiang. 6063-6071 [doi]

MetaFBP: Learning to Learn High-Order Predictor for Personalized Facial Beauty PredictionLuojun Lin, Zhifeng Shen, Jia-Li Yin, Qipeng Liu 0004, Yuanlong Yu, Weijie Chen. 6072-6080 [doi]

CMCU-CSS: Enhancing Naturalness via Commonsense-based Multi-modal Context Understanding in Conversational Speech SynthesisYayue Deng, Jinlong Xue, Fengping Wang, Yingming Gao, Ya Li. 6081-6089 [doi]

Multi-label Emotion Analysis in Conversation via Multimodal Knowledge DistillationSidharth Anand, Naresh Kumar Devulapally, Sreyasee Das Bhattacharjee, Junsong Yuan. 6090-6100 [doi]

Facial Auto Rigging from 4D Expressions via Skinning DecompositionZhihe Zhao, Dongdong Weng, Hanzhi Guo, Jing Hou, Jixiang Zhou. 6101-6109 [doi]

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression RecognitionLicai Sun, Zheng Lian, Bin Liu, Jianhua Tao. 6110-6121 [doi]

EmotionKD: A Cross-Modal Knowledge Distillation Framework for Emotion Recognition Based on Physiological SignalsYucheng Liu, Ziyu Jia, Haichao Wang. 6122-6131 [doi]

UniSA: Unified Generative Framework for Sentiment AnalysisZaijing Li, Ting-En Lin, Yuchuan Wu, Meng Liu, Fengxiao Tang, Ming Zhao 0007, Yongbin Li. 6132-6142 [doi]

Patch-Aware Representation Learning for Facial Expression RecognitionYi Wu, Shangfei Wang, Yanan Chang. 6143-6151 [doi]

COVES: A Cognitive-Affective Deep Model that Personalizes Math Problem Difficulty in Real Time and Improves Student Engagement with an Online TutorHao Yu, Danielle A. Allessio, Will Lee 0002, William Rebelsky, Frank Sylvia, Tom Murray 0001, John J. Magee, Ivon Arroyo, Beverly P. Woolf, Sarah Adel Bargal, Margrit Betke. 6152-6160 [doi]

Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive LearningRavikiran Parameshwara, Ibrahim Radwan, Akshay Asthana, Iman Abbasnejad, Ramanathan Subramanian, Roland Goecke. 6161-6170 [doi]

Learning Style-Invariant Robust Representation for Generalizable Visual Instance RetrievalTianyu Chang, Xun Yang, Xin Luo, Wei Ji, Meng Wang. 6171-6180 [doi]

Hierarchical Category-Enhanced Prototype Learning for Imbalanced Temporal RecommendationXiyue Gao, Zhuoqi Ma, JiangTao Cui, Xiaofang Xia, Cai Xu. 6181-6189 [doi]

In-processing User Constrained Dominant Sets for User-Oriented Fairness in Recommender SystemsZhongxuan Han, Chaochao Chen 0001, Xiaolin Zheng, Weiming Liu, Jun Wang, Wenjie Cheng, Yuyuan Li. 6190-6201 [doi]

Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-IdentificationShuanglin Yan, Neng Dong, Jun Liu, Liyan Zhang, Jinhui Tang 0001. 6202-6211 [doi]

Doubly Intention Learning for Cold-start Recommendation with Uncertainty-aware Stochastic Meta ProcessHuafeng Liu 0001, Mingjie Zhou, Liping Jing, Michael K. Ng 0001. 6212-6222 [doi]

DiVa: An Iterative Framework to Harvest More Diverse and Valid Labels from User Comments for MusicHongru Liang, Jingyao Liu, Yuanxin Xiang, Jiachen Du, Lanjun Zhou, Shushen Pan, Wenqiang Lei. 6223-6233 [doi]

Contrastive Intra- and Inter-Modality Generation for Enhancing Incomplete Multimedia RecommendationZhenghong Lin, Yanchao Tan, Yunfei Zhan, Weiming Liu, Fan Wang, Chaochao Chen 0001, Shiping Wang, Carl Yang. 6234-6242 [doi]

Differentially Private Sparse Mapping for Privacy-Preserving Cross Domain RecommendationWeiming Liu, Xiaolin Zheng, Chaochao Chen 0001, Mengling Hu, Xinting Liao, Fan Wang, Yanchao Tan, Dan Meng, Jun Wang 0020. 6243-6252 [doi]

Handling Label Uncertainty for Camera Incremental Person Re-IdentificationZexian Yang, Dayan Wu, Wanqian Zhang, Bo Li, Weiping Wang. 6253-6263 [doi]

Towards Deconfounded Image-Text Matching with Causal InferenceWenhui Li 0001, Xinqi Su, Dan Song, Lanjun Wang, Kun Zhang, An-An Liu. 6264-6273 [doi]

Enhancing Adversarial Robustness of Multi-modal Recommendation via Modality BalancingYu Shang, Chen Gao, Jiansheng Chen, Depeng Jin, Huimin Ma, Yong Li. 6274-6282 [doi]

Enhancing Domain-Invariant Parts for Generalized Zero-Shot LearningYang Zhang, Songhe Feng. 6283-6291 [doi]

DCEL: Deep Cross-modal Evidential Learning for Text-Based Person RetrievalShenshen Li, Xing Xu 0001, Yang Yang 0002, Fumin Shen, Yijun Mo, Yujie Li 0001, Heng Tao Shen. 6292-6300 [doi]

Tran-GCN: Multi-label Pattern Image Retrieval via Transformer Driven Graph Convolutional NetworkYing Li, Chunming Guan, Rui Cai, Ye Erwan, Ding Yuxiang, Jiaquan Gao. 6301-6310 [doi]

AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive LearningZiqi Zhou, Shengshan Hu, Minghui Li, Hangtao Zhang, Yechao Zhang, Hai Jin 0001. 6311-6320 [doi]

Personalized Behavior-Aware Transformer for Multi-Behavior Sequential RecommendationJiajie Su, Chaochao Chen 0001, Zibin Lin, Xi Li, Weiming Liu, Xiaolin Zheng. 6321-6331 [doi]

A Contrastive Learning Framework for Dual-Target Cross-Domain RecommendationJinhu Lu, Guohao Sun, Xiu Fang, Jian Yang, Wei He. 6332-6339 [doi]

Self-Distillation Dual-Memory Online Hashing with Hash Centers for Streaming Data RetrievalChong-Yu Zhang, Xin Luo 0006, Yu-Wei Zhan, Peng-fei Zhang, Zhen-Duo Chen, Yongxin Wang 0001, Xun Yang, Xin-Shun Xu. 6340-6349 [doi]

Unsupervised Hashing with Contrastive Learning by Exploiting Similarity Knowledge and Hidden Structure of DataZhenpeng Song, Qinliang Su, Jiayang Chen. 6350-6358 [doi]

Giving Text More Imagination Space for Image-text MatchingXinfeng Dong, Longfei Han, Dingwen Zhang, Li Liu 0031, Junwei Han, Huaxiang Zhang 0001. 6359-6368 [doi]

Modal-aware Bias Constrained Contrastive Learning for Multimodal RecommendationWei Yang, Zhengru Fang, Tianle Zhang, Shiguang Wu, Chi Lu. 6369-6378 [doi]

Precise Target-Oriented Attack against Deep Hashing-based RetrievalWenshuo Zhao, Jingkuan Song, Shengming Yuan, Lianli Gao, Yang Yang 0002, Hengtao Shen. 6379-6389 [doi]

Conversational Composed Retrieval with Iterative Sequence RefinementHao Wei, Shuhui Wang, Zhe Xue, Shengbo Chen, Qingming Huang. 6390-6399 [doi]

Hi-SIGIR: Hierachical Semantic-Guided Image-to-image Retrieval via Scene GraphYulu Wang, Pengwen Dai, Xiaojun Jia, Zhitao Zeng, Rui Li, Xiaochun Cao. 6400-6409 [doi]

Pareto Invariant Representation Learning for Multimedia RecommendationShanshan Huang, Haoxuan Li, Qingsong Li, Chunyuan Zheng, Li Liu. 6410-6419 [doi]

Hashing One With AllJiaguo Yu, Yuming Shen, Haofeng Zhang. 6420-6431 [doi]

ChinaOpen: A Dataset for Open-world Multimodal LearningAozhu Chen, Ziyuan Wang, Chengbo Dong, Kaibin Tian, Ruixiang Zhao, Xun Liang, Zhanhui Kang, Xirong Li 0001. 6432-6440 [doi]

A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language ModelPanwen Hu, Nan Xiao, Feifei Li, Yongquan Chen, Rui Huang 0001. 6441-6450 [doi]

Knowledge Prompt-tuning for Sequential RecommendationJianyang Zhai, Xiawu Zheng, Chang-Dong Wang, Hui Li, Yonghong Tian 0001. 6451-6461 [doi]

Learning Occlusion Disentanglement with Fine-grained Localization for Occluded Person Re-identificationWenfeng Liu, Xudong Wang, Lei Tan, Yan Zhang, Pingyang Dai, Yongjian Wu, Rongrong Ji. 6462-6471 [doi]

Interactive Interior Design Recommendation via Coarse-to-fine Multimodal Reinforcement LearningHe Zhang, Ying Sun, Weiyu Guo, Yafei Liu, Haonan Lu, Xiaodong Lin, Hui Xiong 0001. 6472-6480 [doi]

Towards Visual Taxonomy ExpansionTinghui Zhu, JingPing Liu, Jiaqing Liang, Haiyun Jiang, Yanghua Xiao, Zongyu Wang, Rui Xie, Yunsen Xian. 6481-6490 [doi]

Enhancing Product Representation with Multi-form Interactions for Multimodal Conversational RecommendationWenzhe Du, Su Haoyang, Cam-Tu Nguyen, Jian Sun. 6491-6500 [doi]

Stepwise Refinement Short Hashing for Image RetrievalYuan Sun 0016, Dezhong Peng, Jian Dai, Zhenwen Ren. 6501-6509 [doi]

Knowledge Decomposition and Replay: A Novel Cross-modal Image-Text Retrieval Continual Learning MethodRui Yang, Shuang Wang 0001, Huan Zhang, Siyuan Xu, Yanhe Guo, Xiutiao Ye, Biao Hou, Licheng Jiao. 6510-6519 [doi]

Striking a Balance: Unsupervised Cross-Domain Crowd Counting via Knowledge DiffusionHaiyang Xie, Zhengwei Yang, Huilin Zhu, Zheng Wang 0007. 6520-6529 [doi]

Task-Adversarial Adaptation for Multi-modal RecommendationHongzu Su, Jingjing Li, Fengling Li, Lei Zhu, Ke Lu, Yang Yang. 6530-6538 [doi]

Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment LocalizationZezhong Lv, Bing Su 0001, Ji-Rong Wen. 6539-6547 [doi]

MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for RecommendationJinpeng Wang, Ziyun Zeng, Yunxiao Wang, YuTing Wang, Xingyu Lu, Tianxiang Li, Jun Yuan, Rui Zhang, Hai-Tao Zheng, Shu-Tao Xia. 6548-6557 [doi]

Attributes Grouping and Mining Hashing for Fine-Grained Image RetrievalXin Lu, Shikun Chen, Yichao Cao, Xin Zhou, Xiaobo Lu. 6558-6566 [doi]

Semantic-Guided Feature Distillation for Multimodal RecommendationFan Liu, Huilin Chen, Zhiyong Cheng 0001, Liqiang Nie, Mohan S. Kankanhalli. 6567-6575 [doi]

Multi-View Graph Convolutional Network for Multimedia RecommendationPenghang Yu, Zhiyi Tan 0002, Guanming Lu, Bing-Kun Bao. 6576-6585 [doi]

Self-supervised Video Summarization Guided by Semantic Inverse Optimal TransportYutong Wang, Hongteng Xu, Dixin Luo. 6611-6622 [doi]

Uncovering the Unseen: Discover Hidden Intentions by Micro-Behavior Graph ReasoningZhuo Zhou, Wenxuan Liu, Danni Xu, Zheng Wang 0007, Jian Zhao. 6623-6633 [doi]

Improving Rumor Detection by Class-based Adversarial Domain AdaptationJingqiu Li, Lanjun Wang, Jianlin He, Yongdong Zhang 0001, Anan Liu. 6634-6642 [doi]

TopicCAT: Unsupervised Topic-Guided Co-Attention Transformer for Extreme Multimodal SummarisationPeggy Tang, Kun Hu, Lei Zhang, Junbin Gao, Jiebo Luo, Zhiyong Wang. 6643-6652 [doi]

Toward Human Perception-Centric Video Thumbnail GenerationTao Yang, Fan Wang, Junfan Lin, Zhongang Qi, Yang Wu, Jing Xu, Ying Shan, Changwen Chen. 6653-6664 [doi]

Feature Decoupling-Recycling Network for Fast Interactive SegmentationHuimin Zeng, Weinong Wang, Xin Tao 0001, Zhiwei Xiong, Yu-Wing Tai, Wenjie Pei. 6665-6675 [doi]

Predictive Sampling for Efficient Pairwise Subjective Image Quality AssessmentShima Mohammadi, João Ascenso. 6676-6684 [doi]

Interactive Image Style Transfer Guided by GraffitiQuan Wang, Yanli Ren, Xinpeng Zhang, Guorui Feng. 6685-6694 [doi]

Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video Quality AssessmentHongbo Liu, Mingda Wu, Kun Yuan, Ming Sun, Yansong Tang, Chuanchuan Zheng, Xing Wen, Xiu Li. 6695-6704 [doi]

My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot DetectionLanjun Wang, Xinran Qiao, Yanwei Xie, Weizhi Nie, Yongdong Zhang 0001, Anan Liu. 6705-6714 [doi]

On the Performance of Subjective Visual Quality Assessment Protocols for Nearly Visually Lossless Image CompressionMichela Testolina, Davi Lazzarotto, Rafael Rodrigues, Shima Mohammadi, João Ascenso, António M. G. Pinheiro, Touradj Ebrahimi. 6715-6723 [doi]

A Novel Temporal Channel Enhancement and Contextual Excavation Network for Temporal Action LocalizationZan Gao, Xinglei Cui, YiBo Zhao, Tao Zhuo, Weili Guan, Meng Wang. 6724-6733 [doi]

MFR-Net: Multi-faceted Responsive Listening Head Generation via Denoising Diffusion ModelJin Liu 0020, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han. 6734-6743 [doi]

Scene-Generalizable Interactive Segmentation of Radiance FieldsSonglin Tang, Wenjie Pei, Xin Tao 0001, Tanghui Jia, Guangming Lu, Yu-Wing Tai. 6744-6755 [doi]

MetaCast: A Self-Driven Metaverse Announcer Architecture Based on Quality of Experience Evaluation ModelZhonghao Lin, Haihan Duan, Jiaye Li, Xinyao Sun, Wei Cai 0002. 6756-6764 [doi]

Visual Redundancy Removal of Composite Images via Multimodal LearningWuyuan Xie, Shukang Wang, Rong Zhang, Miaohui Wang. 6765-6773 [doi]

A Model-Agnostic Semantic-Quality Compatible Framework based on Self-Supervised Semantic DecouplingXiaoyu Ma, Chenxi Feng, Jiaojiao Wang, Qiang Lin, Suiyu Zhang, Jinchi Zhu, Xiaodiao Chen, Chang Liu, Dingguo Yu. 6774-6784 [doi]

Implicit Obstacle Map-driven Indoor Navigation Model for Robust Obstacle AvoidanceWei Xie, Haobo Jiang, Shuo Gu, Jin Xie. 6785-6793 [doi]

Personalized Image Aesthetics Assessment with Attribute-guided Fine-grained Feature RepresentationHancheng Zhu, Zhiwen Shao, Yong Zhou, Guangcheng Wang, Pengfei Chen, Leida Li. 6794-6802 [doi]

Non-Local Geometry and Color Gradient Aggregation Graph Model for No-Reference Point Cloud Quality AssessmentSongtao Wang, Xiaoqi Wang, Hao Gao 0005, Jian Xiong 0005. 6803-6810 [doi]

360-Degree Panorama Generation from Few Unregistered NFoV ImagesJionghao Wang, Ziyu Chen, Jun Ling, Rong Xie, Li Song 0001. 6811-6821 [doi]

Speech-Driven 3D Face Animation with Composite and Regional Facial MovementsHaozhe Wu, Songtao Zhou, Jia Jia 0001, Junliang Xing, Qi Wen, Xiang Wen. 6822-6830 [doi]

Learning Profitable NFT Image Diffusions via Multiple Visual-Policy Guided Reinforcement LearningHuiguo He, Tianfu Wang 0001, Huan Yang 0005, Jianlong Fu, Nicholas Jing Yuan, Jian Yin 0001, Hongyang Chao, Qi Zhang. 6831-6840 [doi]

Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D GenerationChaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang. 6841-6850 [doi]

Real-time Facial Animation for 3D Stylized Character with Emotion DynamicsYe Pan, Ruisi Zhang, Jingying Wang, Yu Ding 0001, Kenny Mitchell. 6851-6859 [doi]

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion ModelsHaibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Tao Mei 0001. 6860-6868 [doi]

Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level AnnotationsXiaolei Diao, Daqian Shi, Jian Li, Lida Shi, Mingzhe Yue, Ruihua Qi, Chuntao Li, Hao Xu. 6869-6877 [doi]

TSSAT: Two-Stage Statistics-Aware Transformation for Artistic Style TransferHaibo Chen, Lei Zhao, Jun Li, Jian Yang. 6878-6887 [doi]

CPNet: Cartoon Parsing with Pixel and Part CorrelationJian-Jun Qiao, Jie Zhang, Xiao Wu 0001, Yu-Pei Song, Wei Li 0110. 6888-6897 [doi]

RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent Geometry and TextureLiangchen Song, Liangliang Cao, Hongyu Xu, Kai Kang, Feng Tang, Junsong Yuan, Zhao Yang. 6898-6906 [doi]

High Fidelity Face Swapping via Semantics Disentanglement and Structure EnhancementFengyuan Liu, Lingyun Yu 0002, Hongtao Xie, Chuanbin Liu, Zhiguo Ding, Quanwei Yang, Yongdong Zhang 0001. 6907-6917 [doi]

SimHMR: A Simple Query-based Framework for Parameterized Human Mesh ReconstructionZihao Huang, Min Shi 0004, Chengxin Liu, Ke Xian, Zhiguo Cao 0001. 6918-6927 [doi]

Rethinking Neural Style Transfer: Generating Personalized and Watermarked Stylized ImagesQuan Wang, Sheng Li, Xinpeng Zhang 0001, Guorui Feng. 6928-6937 [doi]

An Order-Complexity Aesthetic Assessment Model for Aesthetic-aware Music RecommendationXin Jin, Wu Zhou, Jinyu Wang, Duo Xu, Yongsen Zheng. 6938-6947 [doi]

S3DS: Self-supervised Learning of 3D Skeletons from Single View ImagesJianwei Hu 0003, Ningna Wang, Baorong Yang, Gang Chen, Xiaohu Guo, Bin Wang 0021. 6948-6958 [doi]

Controllable Face Sketch-Photo Synthesis with Flexible Generative PriorsKun Cheng, Mingrui Zhu, Nannan Wang, Guozhang Li, Xiaoyu Wang, Xinbo Gao 0001. 6959-6968 [doi]

CoP: Chain-of-Pose for Image Animation in Large Pose ChangesXiaomeng Fu, Xi Wang, Jin Liu 0020, Shuhui Wang, Jiao Dai, Jizhong Han. 6969-6977 [doi]

The Effects of Viewing Formats and Song Genres on Audience Experiences in Virtual Avatar ConcertsSebin Lee, Daye Kim, Jungjin Lee. 6978-6988 [doi]

IN/ACTive: A Distance-Technology-Mediated Stage for Performer-Audience Telepresence and Environmental ControlRay LC, Sijia Liu, Qiaosheng Lyu. 6989-6997 [doi]

Double Doodles: Sketching Animation in Immersive Environment With 3+6 DOFs Motion GesturesRuizhao Chen, Ye Pan, Zhigang Deng, Lili Wang, Lizhuang Ma. 6998-7006 [doi]

Relit-NeuLF: Efficient Relighting and Novel View Synthesis via Neural 4D Light FieldZhong Li, Liangchen Song, Zhang Chen, Xiangyu Du, Lele Chen, Junsong Yuan, Yi Xu. 7007-7016 [doi]

Adaptive Feature Swapping for Unsupervised Domain AdaptationJunbao Zhuo, Xingyu Zhao 0005, Shuhao Cui, Qingming Huang, Shuhui Wang. 7017-7028 [doi]

Graph Convolutional Incomplete Multi-modal HashingXiaobo Shen 0001, Yinfan Chen, Shirui Pan, Weiwei Liu, Yuhui Zheng. 7029-7037 [doi]

EasyNet: An Easy Network for 3D Industrial Anomaly DetectionRuitao Chen, Guoyang Xie, Jiaqi Liu, Jinbao Wang, Ziqi Luo, Jinfan Wang, Feng Zheng. 7038-7046 [doi]

Modeling Multi-Relational Connectivity for Personalized Fashion MatchingYujuan Ding, P. Y. Mok, Yi Bin, Xun Yang, Zhiyong Cheng 0001. 7047-7055 [doi]

Taking a Part for the Whole: An Archetype-agnostic Framework for Voice-Face AssociationGuancheng Chen, Xin Liu, Xing Xu 0001, Yiu-ming Cheung, Taihao Li. 7056-7064 [doi]

DAWN: Direction-aware Attention Wavelet Network for Image DerainingKui Jiang, Wenxuan Liu, Zheng Wang 0007, Xian Zhong, Junjun Jiang, Chia-Wen Lin. 7065-7074 [doi]

BiFPro: A Bidirectional Facial-data Protection Framework against DeepFakeHonggu Liu, Xiaodan Li, Wenbo Zhou, Han Fang, Paolo Bestagini, Weiming Zhang 0001, Yuefeng Chen, Stefano Tubaro, Nenghai Yu, Yuan He 0011, Hui Xue 0001. 7075-7084 [doi]

Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label RefinementDe Cheng, Xiaojian Huang, Nannan Wang, Lingfeng He, Zhihui Li, Xinbo Gao 0001. 7085-7093 [doi]

Digital Twins Fuzzy System Based on Time Series Forecasting Model LFTformerJinkang Guo, Zhibo Wan, Zhihan Lv. 7094-7100 [doi]

Sample Less, Learn More: Efficient Action Recognition via Frame Feature RestorationHarry Cheng 0002, Yangyang Guo, Liqiang Nie, Zhiyong Cheng 0001, Mohan S. Kankanhalli. 7101-7110 [doi]

A Generalized Physical-knowledge-guided Dynamic Model for Underwater Image EnhancementPan Mu, Hanning Xu, Zheyuan Liu 0009, Zheng Wang, Sixian Chan, Cong Bai. 7111-7120 [doi]

Exploring Shape Embedding for Cloth-Changing Person Re-Identification via 2D-3D CorrespondencesYubin Wang, Huimin Yu, Yuming Yan, Shuyi Song, Biyang Liu, Yichong Lu. 7121-7130 [doi]

Locate and Verify: A Two-Stream Network for Improved Deepfake DetectionChao Shuai, Jieming Zhong, Shuang Wu 0002, Feng Lin, Zhibo Wang, Zhongjie Ba, Zhenguang Liu, Lorenzo Cavallaro, Kui Ren 0001. 7131-7142 [doi]

StegaDDPM: Generative Image Steganography based on Denoising Diffusion Probabilistic ModelYinyin Peng, Donghui Hu, Yaofei Wang, Kejiang Chen, Gang Pei, Weiming Zhang. 7143-7151 [doi]

Toward Intelligent Interactive Design: A Generation Framework Based on Cross-domain Fashion ElementsJianyang Shi, Haijun Zhang, Dongliang Zhou, Zhao Zhang. 7152-7163 [doi]

Semi-Supervised Panoptic Narrative GroundingDanni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma, Rongrong Ji. 7164-7174 [doi]

Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D Action Representation LearningJiahang Zhang, Lilang Lin, Jiaying Liu 0001. 7175-7183 [doi]

Enhanced Image Deblurring: An Efficient Frequency Exploitation and Preservation NetworkShuting Dong, Zhe Wu, Feng Lu, Chun Yuan. 7184-7193 [doi]

InspirNET: An Unsupervised Generative Adversarial Network with Controllable Fine-grained Texture Disentanglement for Fashion GenerationHan Yan, Haijun Zhang, Jie Hou, Jicong Fan, Zhao Zhang. 7194-7204 [doi]

Draw2Edit: Mask-Free Sketch-Guided Image ManipulationYiwen Xu, Ruoyu Guo, Maurice Pagnucco, Yang Song 0001. 7205-7215 [doi]

Mask-Guided Progressive Network for Joint Raindrop and Rain Streak Removal in VideosHongtao Wu, Yijun Yang, Haoyu Chen, Jingjing Ren, Lei Zhu. 7216-7225 [doi]

Active CT Reconstruction with a Learned Sampling PolicyCe Wang, Kun Shang, Haimiao Zhang, Shang Zhao 0004, Dong Liang, S. Kevin Zhou. 7226-7235 [doi]

TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster DesignYiFan Gao, Jinpeng Lin, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang. 7236-7246 [doi]

Rethinking Neighborhood Consistency Learning on Unsupervised Domain AdaptationChang Liu 0022, Lichen Wang, Yun Fu 0001. 7247-7254 [doi]

MV-Diffusion: Motion-aware Video Diffusion ModelZijun Deng, Xiangteng He, Yuxin Peng, Xiongwei Zhu, Lele Cheng. 7255-7263 [doi]

ROAD: Robust Unsupervised Domain Adaptation with Noisy LabelsYanglin Feng, Hongyuan Zhu, Dezhong Peng, Xi Peng 0001, Peng Hu 0002. 7264-7273 [doi]

WRAP: Watermarking Approach Robust Against Film-coating upon Printed PhotographsGaozhi Liu, Yichao Si, Zhenxing Qian, Xinpeng Zhang 0001, Sheng Li 0006, Wanli Peng. 7274-7282 [doi]

Lite-MKD: A Multi-modal Knowledge Distillation Framework for Lightweight Few-shot Action RecognitionBaolong Liu, Tianyi Zheng, Peng Zheng, Daizong Liu, Xiaoye Qu, Junyu Gao, Jianfeng Dong, Xun Wang. 7283-7294 [doi]

Efficiency-optimized Video Diffusion ModelsZijun Deng, Xiangteng He, Yuxin Peng. 7295-7303 [doi]

Fearless Luminance Adaptation: A Macro-Micro-Hierarchical Transformer for Exposure CorrectionGehui Li, Jinyuan Liu, Long Ma 0002, Zhiying Jiang, Xin Fan 0001, Risheng Liu. 7304-7313 [doi]

WaterFlow: Heuristic Normalizing Flow for Underwater Image Enhancement and BeyondZengxi Zhang, Zhiying Jiang, Jinyuan Liu, Xin Fan 0001, Risheng Liu. 7314-7323 [doi]

Progressive Domain-style Translation for Nighttime TrackingJinpu Zhang, Ziwen Li, Ruonan Wei, Yuehuan Wang. 7324-7334 [doi]

DuDoINet: Dual-Domain Implicit Network for Multi-Modality MR Image Arbitrary-scale Super-ResolutionGuangyuan Li, Wei Xing, Lei Zhao, Zehua Lan, Zhanjie Zhang, Jiakai Sun, Haolin Yin, Huaizhong Lin, Zhijie Lin. 7335-7344 [doi]

DeNoL: A Few-Shot-Sample-Based Decoupling Noise Layer for Cross-channel Watermarking RobustnessHan Fang, Kejiang Chen, Yupeng Qiu, Jiayang Liu, Ke Xu, Chengfang Fang, Weiming Zhang, Ee-Chien Chang. 7345-7353 [doi]

Parameter Exchange for Robust Dynamic Domain GeneralizationLuojun Lin, Zhifeng Shen, Zhishu Sun, Yuanlong Yu, Lei Zhang, Weijie Chen. 7354-7362 [doi]

Recurrent Self-Supervised Video Denoising with Denser Receptive FieldZichun Wang, Yulun Zhang, Debing Zhang, Ying Fu 0001. 7363-7372 [doi]

Exploiting Fine-Grained DCT Representations for Hiding Image-Level Messages within JPEG ImagesJunxue Yang, Xin Liao. 7373-7382 [doi]

A Reference-free Self-supervised Domain Adaptation Framework for Low-quality Fundus Image EnhancementQingshan Hou, Peng Cao 0001, Jiaqi Wang, Xiaoli Liu 0001, Jinzhu Yang, Osmar R. Zaïane. 7383-7393 [doi]

A Four-Pronged Defense Against Byzantine Attacks in Federated LearningWei Wan, Shengshan Hu, Minghui Li, Jianrong Lu, Longling Zhang, Leo Yu Zhang, Hai Jin 0001. 7394-7402 [doi]

A Capture to Registration Framework for Realistic Image Super-Resolution in the Industry EnvironmentBoyang Wang, Yan Wang, Qing Zhao, Junxiong Lin, Zeng Tao, Pinxue Guo, Zhaoyu Chen, Kaixun Jiang, Shaoqi Yan, Shuyong Gao, Wenqiang Zhang. 7403-7412 [doi]

Recurrent Multi-scale Transformer for High-Resolution Salient Object DetectionXinhao Deng, Pingping Zhang, Wei Liu, Huchuan Lu. 7413-7423 [doi]

ProTegO: Protect Text Content against OCR Extraction AttackYanru He, Kejiang Chen, Guoqiang Chen, Zehua Ma, Kui Zhang, Jie Zhang 0073, Huanyu Bian, Han Fang, Weiming Zhang, Nenghai Yu. 7424-7434 [doi]

FourLLIE: Boosting Low-Light Image Enhancement by Fourier Frequency InformationChenxi Wang, Hongjun Wu, Zhi Jin. 7459-7469 [doi]

Stroke-based Neural Painting and Stylization with Dynamically Predicted Painting RegionTeng Hu, Ran Yi, Haokun Zhu, Liang Liu, Jinlong Peng, Yabiao Wang, Chengjie Wang, Lizhuang Ma. 7470-7480 [doi]

SimulFlow: Simultaneously Extracting Feature and Identifying Target for Unsupervised Video Object SegmentationLingyi Hong, Wei Zhang, Shuyong Gao, Hong Lu, Wenqiang Zhang. 7481-7490 [doi]

Orthogonal Temporal Interpolation for Zero-Shot Video RecognitionYan Zhu, Junbao Zhuo, Bin Ma 0028, Jiajia Geng, Xiaoming Wei, Xiaolin Wei, Shuhui Wang. 7491-7501 [doi]

Normality Learning-based Graph Anomaly Detection via Multi-Scale Contrastive LearningJingcan Duan, Pei Zhang 0008, Siwei Wang, Jingtao Hu, Hu Jin, Jiaxin Zhang, Haifang Zhou, Xinwang Liu. 7502-7511 [doi]

Efficient Hierarchical Multi-view Fusion Transformer for 3D Human Pose EstimationKangkang Zhou, Lijun Zhang, Feng Lu, Xiang-Dong Zhou, Yu Shi 0003. 7512-7520 [doi]

Deconfounded Multimodal Learning for Spatio-temporal Video GroundingJiawei Wang, Zhanchang Ma, Da Cao, Yuquan Le, Junbin Xiao, Tat-Seng Chua. 7521-7529 [doi]

STIRER: A Unified Model for Low-Resolution Scene Text Image Recovery and RecognitionMinyi Zhao, Shijie Xuyang, Jihong Guan, Shuigeng Zhou. 7530-7539 [doi]

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion PriorsJingwen Chen, Yingwei Pan, Ting Yao, Tao Mei 0001. 7540-7548 [doi]

Slowfast Diversity-aware Prototype Learning for Egocentric Action RecognitionGuangzhao Dai, Xiangbo Shu, Rui Yan, Peng Huang, Jinhui Tang 0001. 7549-7558 [doi]

Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character RecognitionJiacheng Deng, Li Dong 0006, Jiahao Chen, Diqun Yan, Rangding Wang, Dengpan Ye, Lingchen Zhao, Jinyu Tian. 7559-7568 [doi]

UniSinger: Unified End-to-End Singing Voice Synthesis With Cross-Modality Information MatchingZhiqing Hong, Chenye Cui, Rongjie Huang, Lichao Zhang, Jinglin Liu, Jinzheng He, Zhou Zhao. 7569-7579 [doi]

CLG-INet: Coupled Local-Global Interactive Network for Image RestorationYuqi Jiang, Chune Zhang, Shuo Jin, Jiao Liu, Jiapeng Wang. 7580-7589 [doi]

Audio-Visual Segmentation by Exploring Cross-Modal Mutual SemanticsChen Liu, Peike Patrick Li, Xingqun Qi, Hu Zhang, Lincheng Li, Dadong Wang, Xin Yu 0002. 7590-7598 [doi]

Taming the Power of Diffusion Models for High-Quality Virtual Try-On with Appearance FlowJunhong Gou, Siyu Sun, Jianfu Zhang 0003, Jianlou Si, Chen Qian 0006, Liqing Zhang 0001. 7599-7607 [doi]

Designing Loving-Kindness Meditation in Virtual Reality for Long-Distance Romantic RelationshipsXian Wang, Xiaoyu Mo, Lik Hang Lee, Xiaoying Wei, Xiaofu Jin, Mingming Fan 0001, Pan Hui 0001. 7608-7617 [doi]

MLIC: Multi-Reference Entropy Model for Learned Image CompressionWei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang. 7618-7627 [doi]

Automatic Human Scene Interaction through Contact Estimation and Motion AdaptationMingrui Zhang, Ming Chen, Yan Zhou, Li Chen, Weihua Jian, Pengfei Wan. 7628-7637 [doi]

When Masked Image Modeling Meets Source-free Unsupervised Domain Adaptation: Dual-Level Masked Network for Semantic SegmentationGang Li, Xianzheng Ma, Zhao Wang, Hao Li, Qifei Zhang, Chao Wu. 7638-7647 [doi]

Multi-Part Token Transformer with Dual Contrastive Learning for Fine-grained Image ClassificationChuanming Wang, Huiyuan Fu, Huadong Ma. 7648-7656 [doi]

Recognizing High-Speed Moving Objects with Spike CameraJunwei Zhao, Jianming Ye, Shiliang Zhang, Zhaofei Yu, Tiejun Huang 0001. 7657-7665 [doi]

MUP: Multi-granularity Unified Perception for Panoramic Activity RecognitionMeiqi Cao, Rui Yan, Xiangbo Shu, Jiachao Zhang, Jinpeng Wang, Guo-Sen Xie. 7666-7675 [doi]

Learning Spectral-wise Correlation for Spectral Super-Resolution: Where Similarity Meets ParticularityHongyuan Wang, Lizhi Wang, Chang Chen, Xue Hu, Fenglong Song, Hua Huang 0001. 7676-7685 [doi]

What2comm: Towards Communication-efficient Collaborative Perception via Feature DecouplingKun Yang, Dingkang Yang, Jingyu Zhang, Hanqi Wang, Peng Sun, Liang Song. 7686-7695 [doi]

Learning Discriminative Feature Representation for Open Set Action RecognitionHongjie Zhang, Yi Liu, Yali Wang 0001, Limin Wang 0002, Yu Qiao 0001. 7696-7705 [doi]

LHNet: A Low-cost Hybrid Network for Single Image DehazingShenghai Yuan, Jijia Chen, Jiaqi Li, Wenchao Jiang, Song Guo. 7706-7717 [doi]

Context-Aware Talking-Head Video EditingSonglin Yang, Wei Wang 0025, Jun Ling, Bo Peng 0002, Xu Tan, Jing Dong 0003. 7718-7727 [doi]

GrooveMeter: Enabling Music Engagement-aware Apps by Detecting Reactions to Daily Music Listening via Earable SensingEuihyeok Lee, Chulhong Min, Jaeseung Lee, Jin Yu, Seungwoo Kang. 7728-7736 [doi]

A Baseline Investigation: Transformer-based Cross-view Baseline for Text-based Person SearchXianghao Zang, Wei Gao 0003, Ge Li 0002, Han Fang, Chao Ban, Zhongjiang He, Hao Sun. 7737-7746 [doi]

GridFormer: Towards Accurate Table Structure Recognition via Grid PredictionPengyuan Lyu, Weihong Ma, Hongyi Wang, Yuechen Yu, Chengquan Zhang, Kun Yao, Yang Xue 0001, Jingdong Wang 0001. 7747-7757 [doi]

Bilevel Generative Learning for Low-Light VisionYingchi Liu, Zhu Liu, Long Ma 0002, Jinyuan Liu, Xin Fan 0001, Zhongxuan Luo, Risheng Liu. 7758-7766 [doi]

A Symbolic Characters Aware Model for Solving Geometry ProblemsMaizhen Ning, Qiu-Feng Wang, Kaizhu Huang, Xiaowei Huang 0001. 7767-7775 [doi]

Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD SpaceHaoyu Wang, Haozhe Wu, Junliang Xing, Jia Jia 0001. 7776-7784 [doi]

DiffBFR: Bootstrapping Diffusion Model for Blind Face RestorationXinmin Qiu, Congying Han, Zicheng Zhang, Bonan Li, Tiande Guo, Xuecheng Nie. 7785-7795 [doi]

FedVQA: Personalized Federated Visual Question Answering over Heterogeneous ScenesMingrui Lao, Nan Pu, Zhun Zhong, Nicu Sebe, Michael S. Lew. 7796-7807 [doi]

Progressive Spatio-temporal Perception for Audio-Visual Question AnsweringGuangyao Li, Wenxuan Hou, Di Hu 0001. 7808-7816 [doi]

Physical Invisible Backdoor Based on Camera ImagingYusheng Guo, Nan Zhong, Zhenxing Qian, Xinpeng Zhang 0001. 7817-7825 [doi]

PI-NeRF: A Partial-Invertible Neural Radiance Fields for Pose EstimationZhihao Li, Kexue Fu, Haoran Wang, Manning Wang. 7826-7836 [doi]

Improving Few-shot Image Generation by Structural Discrimination and Textural ModulationMengping Yang, Zhe Wang, Wenyi Feng, Qian Zhang, Ting Xiao. 7837-7848 [doi]

The Silent Manipulator: A Practical and Inaudible Backdoor Attack against Speech Recognition SystemsZhicong Zheng, Xinfeng Li, Chen Yan 0001, Xiaoyu Ji 0001, Wenyuan Xu 0001. 7849-7858 [doi]

FFNeRV: Flow-Guided Frame-Wise Neural Representations for VideosJoo Chan Lee, Daniel Rho, Jong Hwan Ko, Eunbyung Park. 7859-7870 [doi]

Restoration of Multiple Image Distortions using a Semi-dynamic Deep Neural NetworkHongming Luo, Fei Zhou 0001, Zehong Zhou, Kin-Man Lam 0001, Guoping Qiu. 7871-7880 [doi]

FCBoost-Net: A Generative Network for Synthesizing Multiple Collocated Outfits via Fashion Compatibility BoostingDongliang Zhou, Haijun Zhang, Jianghong Ma, Jicong Fan, Zhao Zhang. 7881-7889 [doi]

Hierarchical Masked 3D Diffusion Model for Video OutpaintingFanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan. 7890-7900 [doi]

OraclePoints: A Hybrid Neural Representation for Oracle CharacterRunhua Jiang, Yongge Liu, Boyuan Zhang, Xu Chen, Deng Li, Yahong Han. 7901-7911 [doi]

Style-Controllable Generalized Person Re-identificationYuke Li, Jingkuan Song, Hao Ni, Heng Tao Shen. 7912-7921 [doi]

Practical Deep Dispersed Watermarking with Synchronization and FusionHengchang Guo, Qilong Zhang, Junwei Luo, Feng Guo, Wenbin Zhang, XiaoDong Su, Minglei Li. 7922-7932 [doi]

G2-DUN: Gradient Guided Deep Unfolding Network for Image Compressive SensingWenxue Cui, Xingtao Wang, Xiaopeng Fan, Shaohui Liu, Chen Ma, Debin Zhao. 7933-7942 [doi]

Securing Fixed Neural Network SteganographyZicong Luo, Sheng Li, Guobiao Li, Zhenxing Qian, Xinpeng Zhang 0004. 7943-7951 [doi]

Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for Super-ResolutionYong Liu, Hang Dong, Boyang Liang, Songwei Liu, Qingji Dong, Kai Chen, Fangmin Chen, Lean Fu, Fei Wang. 7952-7960 [doi]

Towards Real-Time Neural Video Codec for Cross-Platform Application Using Calibration InformationKuan Tian, Yonghang Guan, Jinxi Xiang, Jun Zhang 0018, Xiao Han, Wei Yang 0032. 7961-7970 [doi]

SEAM: Searching Transferable Mixed-Precision Quantization Policy through Large Margin RegularizationChen Tang, Kai Ouyang, Zenghao Chai, Yunpeng Bai, Yuan Meng, Zhi Wang, Wenwu Zhu 0001. 7971-7980 [doi]

Self-Reference Image Super-Resolution via Pre-trained Diffusion Large Model and Window Adjustable TransformerGuangyuan Li, Wei Xing, Lei Zhao, Zehua Lan, Jiakai Sun, Zhanjie Zhang, Quanwei Zhang, Huaizhong Lin, Zhijie Lin. 7981-7992 [doi]

Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame Block MatchingShuting Xia, Tingyu Fan, Yiling Xu, Jenq-Neng Hwang, Zhu Li 0001. 7993-8003 [doi]

RecolorNeRF: Layer Decomposed Radiance Fields for Efficient Color Editing of 3D ScenesBingchen Gong, Yuehao Wang, Xiaoguang Han 0001, Qi Dou 0001. 8004-8015 [doi]

Adversarial Bootstrapped Question Representation Learning for Knowledge TracingJianwen Sun, Fenghua Yu, Sannyuya Liu, Yawei Luo, Ruxia Liang, Xiaoxuan Shen. 8016-8025 [doi]

TTPOINT: A Tensorized Point Cloud Network for Lightweight Action Recognition with Event CamerasHongwei Ren, Yue Zhou, Haotian Fu, Yulong Huang, Renjing Xu, Bojun Cheng. 8026-8034 [doi]

DFIL: Deepfake Incremental Learning by Exploiting Domain-invariant Forgery CluesKun Pan, Yifang Yin, Yao Wei, Feng Lin 0004, Zhongjie Ba, Zhenguang Liu, Zhibo Wang 0001, Lorenzo Cavallaro, Kui Ren 0001. 8035-8046 [doi]

ICMH-Net: Neural Image Compression Towards both Machine Vision and Human VisionLei Liu, Zhihao Hu, Zhenghao Chen, Dong Xu 0001. 8047-8056 [doi]

High Visual-Fidelity Learned Video CompressionMeng Li, Yibo Shi, Jing Wang, Yunqi Huang. 8057-8066 [doi]

An Intelligent Learning Approach to Achieve Near-Second Low-Latency Live Video Streaming under Highly Fluctuating NetworksGuanghui Zhang, Ke Liu 0004, Mengbai Xiao, Bingshu Wang, Vaneet Aggarwal. 8067-8075 [doi]

Cross-Architecture Distillation for Face RecognitionWeisong Zhao, Xiangyu Zhu, Zhixiang He, Xiao-Yu Zhang, Zhen Lei 0001. 8076-8085 [doi]

Separable Modulation Network for Efficient Image Super-ResolutionZhijian Wu, Jun Li 0033, Dingjiang Huang. 8086-8094 [doi]

A Novel Deep Video Watermarking Framework with Enhanced Robustness to H.264/AVC CompressionYulin Zhang, Jiangqun Ni, Wenkang Su, Xin Liao. 8095-8104 [doi]

LHAct: Rectifying Extremely Low and High Activations for Out-of-Distribution DetectionYue Yuan, Rundong He, Zhongyi Han, Yilong Yin. 8105-8113 [doi]

Handwritten Chemical Structure Image to Structure-Specific Markup Using Random Conditional Guided DecoderJinshui Hu, Hao Wu, Mingjun Chen, Chenyu Liu, Jiajia Wu, Shi Yin, Baocai Yin, Bing Yin, Cong Liu, Jun Du, Lirong Dai 0001. 8114-8124 [doi]

HCSD-Net: Single Image Desnowing with Color Space TransformationTing Zhang, Nanfeng Jiang, Hongxin Wu, Keke Zhang, Yuzhen Niu, Tiesong Zhao. 8125-8133 [doi]

FastLLVE: Real-Time Low-Light Video Enhancement with Intensity-Aware Look-Up TableWenhao Li, Guangyang Wu, Wenyi Wang 0005, Peiran Ren, Xiaohong Liu. 8134-8144 [doi]

CLE Diffusion: Controllable Light Enhancement Diffusion ModelYuyang Yin, Dejia Xu, Chuangchuang Tan, Ping Liu, Yao Zhao 0001, Yunchao Wei. 8145-8156 [doi]

SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food DetectionPengfei Zhou, Weiqing Min, Yang Zhang, Jiajun Song, Ying Jin, Shuqiang Jiang. 8157-8166 [doi]

Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single ImageLiao Shen, Xingyi Li, Huiqiang Sun, Juewen Peng, Ke Xian, Zhiguo Cao 0001, Guosheng Lin. 8167-8175 [doi]

LocalPose: Object Pose Estimation with Local Geometry GuidanceYang Xiao, Bo Duan, Mingwei Sun, Jingwei Huang. 8176-8184 [doi]

PEARL: Preprocessing Enhanced Adversarial Robust Learning of Image Deraining for Semantic SegmentationXianghao Jiao, Yaohua Liu, Jiaxin Gao, Xinyuan Chu, Xin Fan 0001, Risheng Liu. 8185-8194 [doi]

A Lightweight Collective-attention Network for Change DetectionYuchao Feng, Yanyan Shao, Honghui Xu, Jinshan Xu, Jianwei Zheng 0001. 8195-8203 [doi]

Personalized Single Image Reflection Removal Network through Adaptive Cascade RefinementMengyi Wang, Xinxin Zhang, Yongshun Gong, Yilong Yin. 8204-8213 [doi]

Resolve Domain Conflicts for Generalizable Remote Physiological MeasurementWeiyu Sun, Xinyu Zhang, Hao Lu, Ying Chen, Yun Ge, Xiaolin Huang, Jie Yuan, Yingcong Chen. 8214-8224 [doi]

Secondary Labeling: A Novel Labeling Strategy for Image Manipulation DetectionYang Wei, Bin Xiao, Xiuli Bi, Zhuoran Ma, Yang Liu, Zhuo Ma. 8225-8232 [doi]

Robust Image Steganography against General Scaling AttacksQingliang Liu 0001, Jiangqun Ni, Xianglei Hu. 8233-8241 [doi]

FlatGAN: A Holistic Approach for Robust Flat-Coloring in High-Definition with Understanding Line DiscontinuityHan Kim, Chunggi Lee, Junsoo Lee, Dohyun Kim, KwangJin Lee, Moohyun Oh, DaeSik Kim. 8242-8250 [doi]

Recurrent Spike-based Image Restoration under General IlluminationLin Zhu, Yunlong Zheng, Mengyue Geng, Lizhi Wang, Hua Huang 0001. 8251-8260 [doi]

IS2Net: Intra-domain Semantic and Inter-domain Style Enhancement for Semi-supervised Medical Domain GeneralizationShiao Xie, Ziwei Niu, Huimin Huang, Hao Sun 0013, Rui Qin, Yen-Wei Chen, Lanfen Lin. 8285-8293 [doi]

Synthesizing Videos from Images for Image-to-Video AdaptationJunbao Zhuo, Xingyu Zhao 0005, Shuhui Wang, Huimin Ma, Qingming Huang. 8294-8303 [doi]

Generalized Universal Domain Adaptation with Generative Flow NetworksDidi Zhu, Yinchuan Li, Yunfeng Shao 0001, Jianye Hao, Fei Wu 0001, Kun Kuang, Jun Xiao 0001, Chao Wu. 8304-8315 [doi]

Automatic Asymmetric Embedding Cost Learning via Generative Adversarial NetworksDongxia Huang, Weiqi Luo 0001, Peijia Zheng, Jiwu Huang. 8316-8326 [doi]

Event-based Motion Deblurring with Modality-Aware Decomposition and RecompositionWen Yang, Jinjian Wu, Leida Li, Weisheng Dong, Guangming Shi. 8327-8335 [doi]

Disentangle Propagation and Restoration for Efficient Video RecoveryCong Huang, Jiahao Li, Lei Chu, Dong Liu, Yan Lu. 8336-8345 [doi]

Entropy-based Optimization on Individual and Global Predictions for Semi-Supervised LearningZhen Zhao, Meng Zhao, Ye Liu, Di Yin, Luping Zhou. 8346-8355 [doi]

Brighten-and-Colorize: A Decoupled Network for Customized Low-Light Image EnhancementChenxi Wang, Zhi Jin. 8356-8366 [doi]

Cross-view Resolution and Frame Rate Joint Enhancement for Binocular VideoPanda Pan, Yang Zhao, Yuan Chen, Wei Jia 0001, Zhao Zhang, Ronggang Wang. 8367-8375 [doi]

Up to Thousands-fold Storage Saving: Towards Efficient Data-Free Distillation of Large-Scale Visual ClassifiersFanfan Ye, Bingyi Lu, Liang Ma, Qiaoyong Zhong, Di Xie. 8376-8386 [doi]

Learning Intra and Inter-Camera Invariance for Isolated Camera Supervised Person Re-identificationMenglin Wang 0001, Xiaojin Gong. 8387-8395 [doi]

Adversarial Attack for Robust Watermark Protection Against Inpainting-based and Blind Watermark RemoversMingzhi Lyu, Yi Huang, Adams Wai-Kin Kong. 8396-8405 [doi]

LDRM: Degradation Rectify Model for Low-light Imaging via Color-Monochrome CamerasJunhong Lin, Shufan Pei, Bing Chen, Nanfeng Jiang, Wei Gao 0003, Tiesong Zhao. 8406-8414 [doi]

Two-stage Content-Aware Layout Generation for Poster DesignsShang Chai, Liansheng Zhuang, Fengying Yan, Zihan Zhou 0001. 8415-8423 [doi]

Reinforcement Learning-based Adversarial Attacks on Object Detectors using Reward ShapingZhenbo Shi, Wei Yang 0011, Zhenbo Xu, Zhidong Yu, Liusheng Huang. 8424-8432 [doi]

SGDiff: A Style Guided Diffusion Model for Fashion SynthesisZhengwentai Sun, Yanghong Zhou, Honghong He, P. Y. Mok. 8433-8442 [doi]

Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice AlignmentZhengyan Sheng, Yang Ai, Yan-Nian Chen, Zhen-Hua Ling. 8443-8452 [doi]

Open-Scenario Domain Adaptive Object Detection in Autonomous DrivingZeyu Ma, Ziqiang Zheng, Jiwei Wei, Xiaoyong Wei, Yang Yang 0002, Heng Tao Shen. 8453-8462 [doi]

Free Fine-tuning: A Plug-and-Play Watermarking Scheme for Deep Neural NetworksRun Wang, Jixing Ren, Boheng Li, Tianyi She, Wenhui Zhang, Liming Fang, Jing Chen 0003, Lina Wang. 8463-8474 [doi]

Data-Scarce Animal Face Alignment via Bi-Directional Cross-Species Knowledge TransferDan Zeng 0002, Shanchuan Hong, Shuiwang Li, Qiaomu Shen, Bo Tang 0016. 8475-8485 [doi]

Simple Techniques are Sufficient for Boosting Adversarial TransferabilityChaoning Zhang, Philipp Benz, Adil Karjauv, In-So Kweon, Choong Seon Hong. 8486-8494 [doi]

Augmented Digital Twins for Predictive Automatic Regulation and Fault Alarm in Sewage PlanYuhang Zhao, Shanchen Pang, Zhihan Lv, Sheng Miao. 8495-8503 [doi]

Dance with You: The Diversity Controllable Dancer Generation via Diffusion ModelsSiyue Yao, Mingjie Sun, Bingliang Li, Fengyu Yang, Junle Wang, Ruimao Zhang. 8504-8514 [doi]

Improving Anomaly Segmentation with Multi-Granularity Cross-Domain AlignmentJi Zhang, Xiao Wu, Zhi-Qi Cheng, Qi He, Wei Li 0110. 8515-8524 [doi]

RD-FGFS: A Rule-Data Hybrid Framework for Fine-Grained Footstep Sound Synthesis from Visual GuidanceQiutang Qi, Haonan Cheng, Yang Wang, Long Ye, Shaobin Li. 8525-8533 [doi]

Aesthetics-Driven Virtual Time-Lapse Photography GenerationLihua Lu, Hui Wei, Xin Jin, Yihao Zhang, Boyan Dong, Longteng Jiang, Xiaohui Zhang, Ruyang Li, Yaqian Zhao. 8534-8542 [doi]

Neural Video Compression with Spatio-Temporal Cross-Covariance TransformersZhenghao Chen, Lucas Relic, Roberto Azevedo, Yang Zhang, Markus H. Gross, Dong Xu, Luping Zhou, Christopher Schroers. 8543-8551 [doi]

SiFDetectCracker: An Adversarial Attack Against Fake Voice Detection Based on Speaker-Irrelative FeaturesXuan Hai, Xin Liu, yuan Tan, Qingguo Zhou. 8552-8560 [doi]

Incremental Few Shot Semantic Segmentation via Class-agnostic Mask Proposal and Language-driven ClassifierLeo Shan, Wenzhang Zhou, Grace Zhao. 8561-8570 [doi]

AbCoRD: Exploiting multimodal generative approach for Aspect-based Complaint and Rationale DetectionRaghav Jain, Apoorva Singh, Vivek Kumar Gangwar, Sriparna Saha 0001. 8571-8579 [doi]

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-OnDavide Morelli, Alberto Baldrati, Giuseppe Cartella, Marcella Cornia, Marco Bertini 0001, Rita Cucchiara. 8580-8589 [doi]

Localization-assisted Uncertainty Score Disentanglement Network for Action Quality AssessmentYanli Ji, Lingfeng Ye, Huili Huang, Lijing Mao, Yang Zhou, Lingling Gao. 8590-8597 [doi]

Exploring the Adversarial Robustness of Video Object Segmentation via One-shot Adversarial AttacksKaixun Jiang, Lingyi Hong, Zhaoyu Chen, Pinxue Guo, Zeng Tao, Yan Wang, Wenqiang Zhang. 8598-8607 [doi]

Gaze Analysis System for Immersive 360° Video for Preservice Teacher EducationChris Lenart, Pegah Ahadian, Yuxin Yang, Simon Suo, Ashton Corsello, Karl W. Kosko, Qiang Guan. 8608-8616 [doi]

Kernel Dimension Matters: To Activate Available Kernels for Real-time Video Super-ResolutionShuo Jin, Meiqin Liu, Chao Yao, Chunyu Lin, Yao Zhao 0001. 8617-8625 [doi]

AniPixel: Towards Animatable Pixel-Aligned Human AvatarJinlong Fan, Jing Zhang 0037, Zhi Hou, Dacheng Tao. 8626-8634 [doi]

A Multiple Prediction Mechanisms Ensemble for Complex Remote Sensing ScenesLin Qi Feng, Lin Luo Jun, Yu Yuan Long, Gang Fu. 8635-8643 [doi]

SUG: Single-dataset Unified Generalization for 3D Point Cloud ClassificationSiyuan Huang, Bo Zhang, Botian Shi, Hongsheng Li, Yikang Li, Peng Gao. 8644-8652 [doi]

SMM: Self-supervised Multi-Illumination Color Constancy Model with Multiple Pretext TasksZiyu Feng, Zheming Xu, Haina Qin, Congyan Lang, Bing Li, Weihua Xiong. 8653-8661 [doi]

FlexIcon: Flexible Icon Colorization via Guided Images and PalettesShukai Wu, Yuhang Yang, Shuchang Xu, Weiming Liu, Xiao Yan, Sanyuan Zhang. 8662-8673 [doi]

Who is Speaking Actually? Robust and Versatile Speaker Traceability for Voice ConversionYanzhen Ren, Hongcheng Zhu, Liming Zhai, Zongkun Sun, Rubing Shen, Lina Wang. 8674-8685 [doi]

FedGH: Heterogeneous Federated Learning with Generalized Global HeaderLiping Yi, Gang Wang, Xiaoguang Liu, Zhuan Shi, Han Yu. 8686-8696 [doi]

Towards Fast and Stable Federated Learning: Confronting Heterogeneity via Knowledge AnchorJinqian Chen, Jihua Zhu, Qinghai Zheng. 8697-8706 [doi]

Spatio-Temporal Catcher: A Self-Supervised Transformer for Deepfake Video DetectionMaosen Li, Xurong Li, Kun Yu, Cheng Deng, Heng Huang, Feng Mao, Hui Xue 0001, Minghao Li. 8707-8718 [doi]

Bridging Trustworthiness and Open-World Learning: An Exploratory Neural Approach for Enhancing Interpretability, Generalization, and RobustnessShide Du, Zihan Fang, Shiyang Lan, Yanchao Tan, Manuel Günther, Shiping Wang, Wenzhong Guo. 8719-8729 [doi]

Semantic-aware Consistency Network for Cloth-changing Person Re-IdentificationPeini Guo, Hong Liu, Jianbing Wu, Guoquan Wang, Tao Wang. 8730-8739 [doi]

Adaptive Spatio-Temporal Directed Graph Neural Network for Parkinson's Detection using Vertical Ground Reaction ForceXiaotian Wang, Shuo Liang, Zhifu Zhao, Xinyu Cui, Kai Chen, Xuanhang Xu. 8740-8748 [doi]

UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery LocalizationRui Zhang, Hongxia Wang, Mingshan Du, Hanqing Liu, Yang Zhou, Qiang Zeng. 8749-8759 [doi]

Elucidate Gender Fairness in Singing Voice TranscriptionXiangming Gu, Wei Zeng, Ye Wang. 8760-8769 [doi]

Combating Online Misinformation Videos: Characterization, Detection, and Future DirectionsYuyan Bu, Qiang Sheng, Juan Cao, Peng Qi 0005, Danding Wang, Jintao Li 0001. 8770-8780 [doi]

Cuing Without Sharing: A Federated Cued Speech Recognition Framework via Mutual Knowledge DistillationYuxuan Zhang, Lei Liu, Li Liu. 8781-8789 [doi]

Multi-scale Target-Aware Framework for Constrained Splicing Detection and LocalizationYuxuan Tan, Yuanman Li, Limin Zeng, Jiaxiong Ye, Wei Wang 0077, Xia Li 0006. 8790-8798 [doi]

Physics-Based Adversarial Attack on Near-Infrared Human Detector for Nighttime Surveillance Camera SystemsMuyao Niu, Zhuoxiao Li, Yifan Zhan, Huy H. Nguyen, Isao Echizen, Yinqiang Zheng. 8799-8807 [doi]

Follow-me: Deceiving Trackers with Fabricated PathsShengtao Lou, Buyu Liu, Jun Bao, Jiajun Ding, Jun Yu 0002. 8808-8818 [doi]

Autistic Spectrum Disorders Diagnose with Graph Neural NetworksLu Wei, Bin Liu, Jiujun He, Manxue Zhang, Yi Huang. 8819-8827 [doi]

Moiré Backdoor Attack (MBA): A Novel Trigger for Pedestrian Detectors in the Physical WorldHui Wei, Hanxun Yu, Kewei Zhang, Zhixiang Wang, Jianke Zhu, Zheng Wang 0007. 8828-8838 [doi]

Fine-Grained Music Plagiarism Detection: Revealing Plagiarists through Bipartite Graph Matching and a Comprehensive Large-Scale DatasetWenxuan Liu, Tianyao He, Chen Gong, Ning Zhang, Hua Yang, Junchi Yan. 8839-8848 [doi]

Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive DiffusionKui Zhang, Hang Zhou, Jie Zhang, Qidong Huang, Weiming Zhang, Nenghai Yu. 8849-8859 [doi]

Benign Shortcut for Debiasing: Fair Visual Recognition via Intervention with Shortcut FeaturesYi Zhang, Jitao Sang, Junyang Wang, Dongmei Jiang, Yaowei Wang. 8860-8868 [doi]

Model-Contrastive Learning for Backdoor EliminationZhihao Yue, Jun Xia, Zhiwei Ling, Ming Hu 0003, Ting Wang, Xian Wei, Mingsong Chen. 8869-8880 [doi]

SIEGE: Self-Supervised Incremental Deep Graph Learning for Ethereum Phishing Scam DetectionShucheng Li, Runchuan Wang, Hao Wu, Sheng Zhong 0002, Fengyuan Xu. 8881-8890 [doi]

Collaborative Fraud Detection: How Collaboration Impacts Fraud DetectionJinzhang Hu, Ruimin Hu, Zheng Wang 0007, Dengshi Li, Junhang Wu, Lingfei Ren, Yilong Zang, Zijun Huang, Mei Wang. 8891-8899 [doi]

Degeneration-Tuning: Using Scrambled Grid shield Unwanted Concepts from Stable DiffusionZixuan Ni, Longhui Wei, Jiacheng Li, Siliang Tang, Yueting Zhuang, Qi Tian 0001. 8900-8909 [doi]

Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable ExamplesWan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong. 8910-8921 [doi]

Pedestrian-specific Bipartite-aware Similarity Learning for Text-based Person RetrievalFei Shen, Xiangbo Shu, Xiaoyu Du, Jinhui Tang 0001. 8922-8931 [doi]

Generalizable Label Distribution LearningXingyu Zhao 0002, Lei Qi 0001, Yuexuan An, Xin Geng 0001. 8932-8941 [doi]

Dual Dynamic Proxy Hashing Network for Long-tailed Image RetrievalYan Jiang, Hongtao Xie, Lei Zhang, Pandeng Li, Dongming Zhang, Yongdong Zhang 0001. 8942-8953 [doi]

Hybrid Interaction Temporal Knowledge Graph Embedding Based on Householder TransformationsSensen Zhang, Xun Liang, Hui Tang, Zhenyu Guan. 8954-8962 [doi]

C2MR: Continual Cross-Modal Retrieval for Streaming Multi-modal DataHuaiwen Zhang, Yang Yang, Fan Qi, Shengsheng Qian, Changsheng Xu. 8963-8974 [doi]

When Perceptual Authentication Hashing Meets Neural Architecture SearchYuanding Zhou, Xinran Li, Yaodong Fang, Chuan Qin 0001. 8975-8983 [doi]

GraphMedia: Communication-balanced Graph Searching for Billion-scale Social Media AccessXinbiao Gan, Jiaqi Guo, Peilin Guo, Guang Wu, Jiaqi Si, Songzhu Mei, Cong Liu, Tiejun Li. 8984-8993 [doi]

FedCD: A Classifier Debiased Federated Learning Framework for Non-IID DataYunfei Long, Zhe Xue, Lingyang Chu, Tianlong Zhang, Junjiang Wu, Yu Zang, Junping Du. 8994-9002 [doi]

Finding Efficient Pruned Network via Refined Gradients for Pruned WeightsJangho Kim, Jayeon Yoo, Yeji Song, KiYoon Yoo, Nojun Kwak. 9003-9011 [doi]

Moby: Empowering 2D Models for Efficient Point Cloud Analytics on the EdgeJingzong Li, Yik Hong Cai, Libin Liu 0001, Yu Mao, Chun Jason Xue, Hong Xu 0001. 9012-9021 [doi]

NIF: A Fast Implicit Image Compression with Bottleneck Layers and Modulated Sinusoidal ActivationsLorenzo Catania, Dario Allegra. 9022-9031 [doi]

ColSLAM: A Versatile Collaborative SLAM System for Mobile Phones Using Point-Line Features and Map CachingWanting Li, Yongcai Wang, Yongyu Guo, Shuo Wang, Yu Shao, Xuewei Bai, Xudong Cai, Qiang Ye, Deying Li 0001. 9032-9041 [doi]

A Hardware-efficient Unified Motion Estimation for Video CodingXizhong Zhu, Guoqing Xiang, Peng Zhang, Huizhu Jia, Xiaodong Xie. 9042-9050 [doi]

Edge-Assisted On-Device Model Update for Video Analytics in Adverse EnvironmentsYuxin Kong, Peng Yang, Yan Cheng. 9051-9060 [doi]

Hardware-friendly Scalable Image Super Resolution with Progressive Structured SparsityFangchen Ye, Jin Lin, Hongzhan Huang, Jianping Fan 0007, Zhongchao Shi, Yuan Xie, Yanyun Qu. 9061-9069 [doi]

YOGA: Yet Another Geometry-based Point Cloud CompressorJunteng Zhang, Tong Chen 0004, Dandan Ding, Zhan Ma. 9070-9081 [doi]

MCUNeRF: Packing NeRF into an MCU with 1MB MemoryZhixiang Ye, Qinghao Hu, Tianli Zhao, Wangping Zhou, Jian Cheng 0001. 9082-9092 [doi]

ParliRobo: Participant Lightweight AI Robots for Massively Multiplayer Online Games (MMOGs)Jianwei Zheng 0003, Changnan Xiao, Mingliang Li, Zhenhua Li 0001, Feng Qian 0001, Wei Liu, Xudong Wu. 9093-9102 [doi]

LGViT: Dynamic Early Exiting for Accelerating Vision TransformerGuanyu Xu, Jiawei Hao, Li Shen, Han Hu, Yong Luo, Hui Lin, Jialie Shen. 9103-9114 [doi]

ENTRO: Tackling the Encoding and Networking Trade-off in Offloaded Video AnalyticsSeyeon Kim, Kyungmin Bin, Donggyu Yang, Sangtae Ha, Song Chong, Kyunghan Lee. 9115-9123 [doi]

A Blind Streaming System for Multi-client Online 6-DoF View TouringSheng-Ming Tang, Yuan-Chun Sun, Cheng-Hsin Hsu. 9124-9133 [doi]

PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model ModificationYizhen Yuan, Rui Kong, Shenghao Xie, Yuanchun Li, Yunxin Liu. 9134-9142 [doi]

VQBA: Visual-Quality-Driven Bit Allocation for Low-Latency Point Cloud StreamingShuoqian Wang, Mufeng Zhu, Na Li, Mengbai Xiao, Yao Liu. 9143-9151 [doi]

JAVP: Joint-Aware Video Processing with Edge-Cloud Collaboration for DNN InferenceZheming Yang, Wen Ji, Qi Guo, Zhi Wang. 9152-9160 [doi]

Hermes: Leveraging Implicit Inter-Frame Correlation for Bandwidth-Efficient Mobile Volumetric Video StreamingYizong Wang, Dong Zhao 0001, Huanhuan Zhang, Chenghao Huang, Teng Gao, Zixuan Guo, Liming Pang, Huadong Ma. 9185-9193 [doi]

Reparo: QoE-Aware Live Video Streaming in Low-Rate Networks by Intelligent Frame RecoveryFulin Wang, Qing Li, Wanxin Shi, Gareth Tyson, Yong Jiang 0001, Lianbo Ma, Peng Zhang, Yulong Lan, Zhicheng Li. 9194-9204 [doi]

DeepSVC: Deep Scalable Video Coding for Both Machine and Human VisionHongbin Lin, Bolin Chen, Zhichen Zhang, Jielian Lin, Xu Wang, Tiesong Zhao. 9205-9214 [doi]

Concerto: Client-server Orchestration for Real-Time Video AnalyticsChaoyang Li, Rui-Xiao Zhang, Tianchi Huang, Lianchen Jia, Lifeng Sun. 9215-9223 [doi]

Think before You Leap: Content-Aware Low-Cost Edge-Assisted Video Semantic SegmentationMingxuan Yan, Yi Wang, Xuedou Xiao, Zhiqing Luo, Jianhua He, Wei Wang 0050. 9224-9233 [doi]

TwinStar: A Practical Multi-path Transmission Framework for Ultra-Low Latency Video DeliveryHaiping Wang, Zhenhua Yu, Ruixiao Zhang, Siping Tao, Hebin Yu, Shu Shi. 9234-9242 [doi]

Addressing Scalability for Real-time Multiuser Holo-portation: Introducing and Assessing a Multipoint Control Unit (MCU) for Volumetric VideoSergi Fernández, Mario Montagud, David Rincón 0001, Juame Moragues, Gianluca Cernigliaro. 9243-9251 [doi]

ELFIC: A Learning-based Flexible Image Codec with Rate-Distortion-Complexity OptimizationZhichen Zhang, Bolin Chen, Hongbin Lin, Jielian Lin, Xu Wang, Tiesong Zhao. 9252-9261 [doi]

Mamba: Bringing Multi-Dimensional ABR to WebRTCYueheng Li, Zicheng Zhang, Hao Chen, Zhan Ma. 9262-9270 [doi]

PDE-based Progressive Prediction Framework for Attribute Compression of 3D Point CloudsXiaodong Yang, Yiting Shao, Shan Liu 0001, Thomas H. Li, Ge Li. 9271-9281 [doi]

Semantics2Hands: Transferring Hand Motion Semantics between AvatarsZijie Ye, Jia Jia 0001, Junliang Xing. 9282-9290 [doi]

Combating Misinformation in the Era of Generative AI ModelsDanni Xu, Shaojing Fan, Mohan S. Kankanhalli. 9291-9298 [doi]

Against Opacity: Explainable AI and Large Language Models for Effective Digital AdvertisingQi Yang 0005, Marlo Ongpin, Sergey Nikolenko, Alfred Huang, Aleksandr Farseev. 9299-9305 [doi]

Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation EvaluationFederico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe. 9306-9312 [doi]

MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and ImagesJunchen Zhu, Huan Yang 0005, Huiguo He, Wenjing Wang 0001, Zixi Tuo, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu. 9313-9319 [doi]

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image TranslationAlexander Martin 0006, Haitian Zheng, Jie An 0002, Jiebo Luo. 9320-9328 [doi]

Diff4Rec: Sequential Recommendation with Curriculum-scheduled Diffusion AugmentationZihao Wu, Xin Wang 0019, Hong Chen, Kaidong Li, Yi Han, Lifeng Sun, Wenwu Zhu 0001. 9329-9335 [doi]

Text-to-Metaverse: Towards a Digital Twin-Enabled Multimodal Conditional Generative MetaverseAhmed Elhagry. 9336-9339 [doi]

Video Scene Graph Generation with Spatial-Temporal KnowledgeTao Pu 0002. 9340-9344 [doi]

Limited-Reference Image Quality Assessment: Paradigms and DiscussionsKeke Zhang. 9345-9349 [doi]

Haptic-aware Interaction: Design and EvaluationYing Fang. 9350-9354 [doi]

Encoding and Decoding Narratives: Datafication and Alternative Access Models for Audiovisual ArchivesYuchen Yang. 9355-9359 [doi]

Zero-Shot Learning for Computer Vision ApplicationsSandipan Sarma. 9360-9364 [doi]

mPLUG-Octopus: The Versatile Assistant Empowered by A Modularized End-to-End Multimodal LLMQinghao Ye, Haiyang Xu, Ming Yan, Chenlin Zhao, Junyang Wang, Xiaoshan Yang, Ji Zhang 0011, Fei Huang 0004, Jitao Sang, Changsheng Xu. 9365-9367 [doi]

Multimodal Emotion Interaction and Visualization PlatformZheng Zhang, Songling Chen, Mixiao Hou, Guangming Lu. 9368-9370 [doi]

MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from TextJunchen Zhu, Huan Yang 0005, Wenjing Wang 0001, Huiguo He, Zixi Tuo, Yongsheng Yu, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu, Jiebo Luo. 9371-9373 [doi]

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile AuditingDjamahl Etchegaray, Yadan Luo, Zachary FitzChance, Anthony Southon, Jinjiang Zhong. 9374-9375 [doi]

H2V4Sports: Real-Time Horizontal-to-Vertical Video Converter for Sports Lives via Fast Object Detection and TrackingYi Han, Kaidong Li, Zihan Song, Wei Feng, Xiang Cao, Shida Guo, Xin Wang 0019, Xuguang Duan, Wenwu Zhu 0001. 9376-9378 [doi]

360RVW: Fusing Real 360° Videos and Interactive Virtual WorldsMizuki Takenawa, Naoki Sugimoto, Leslie Wöhler, Satoshi Ikehata, Kiyoharu Aizawa. 9379-9381 [doi]

SetterVision: Motion-based Tactical Training System for Volleyball Setters in Virtual RealityYu-Hsuan Chen, Chen-Wei Fu, Wei-Lun Huang, Ming-Cong Su, Hsin-Yu Huang, Andrew Chen, Tse-Yu Pan. 9382-9384 [doi]

BranchClash: A Fully On-Chain Tower Defense Blockchain Game with New Collaboration MechanismHao Wu, Yueyao Li, Yan Zhuang, Xinyao Sun, Wei Cai 0002. 9385-9387 [doi]

Development of an Online Marathon System using Acoustic ARYuki Konishi, Panote Siriaraya, Da Li, Katsumi Tanaka, Yukiko Kawai, Shinsuke Nakajima. 9388-9389 [doi]

CFTF: Controllable Fine-grained Text2Face and Its Human-in-the-loop Suspect Portraits ApplicationZhanbin Hu, Jianwu Wu, Danyang Gao, Yixu Zhou, Qiang Zhu. 9390-9392 [doi]

HoloSinger: Semantics and Music Driven Motion Generation with Octahedral Holographic ProjectionZeyu Jin, Zixuan Wang, Qixin Wang, Jia Jia, Ye Bai, Yi Zhao, Hao Li, Xiaorui Wang. 9393-9395 [doi]

HumVis: Human-Centric Visual Analysis SystemDongkai Wang, Shiliang Zhang, Yaowei Wang, Yonghong Tian 0001, Tiejun Huang 0001, Wen Gao 0001. 9396-9398 [doi]

Personalized Content Recommender System via Non-verbal Interaction Using Face Mesh and Facial ExpressionYuya Moroto, Rintaro Yanagi, Naoki Ogawa, Kyohei Kamikawa, Keigo Sakurai, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 9399-9401 [doi]

IFS-SED: Incremental Few-Shot Sound Event Detection Using Explicit Learning and CalibrationMing Feng, Kele Xu, Hengxing Cai. 9402-9404 [doi]

ALDA: An Adaptive Layout Design Assistant for Diverse Posters throughout the Design ProcessQiuyun Zhang, Bin Guo, Lina Yao, Han Wang, Ying Zhang, Zhiwen Yu 0001. 9405-9407 [doi]

3D Creation at Your Fingertips: From Text or Image to 3D AssetsYang Chen, Jingwen Chen, Yingwei Pan, Xinmei Tian 0001, Tao Mei 0001. 9408-9410 [doi]

Reference-based Dense Pose Estimation via Partial 3D Point Cloud MatchingRintaro Yanagi, Atsushi Hashimoto 0001, Naoya Chiba, Yoshitaka Ushiku. 9411-9413 [doi]

EditAnything: Empowering Unparalleled Flexibility in Image Editing and GenerationShanghua Gao, Zhijie Lin, Xingyu Xie, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan. 9414-9416 [doi]

Zero-Shot Image Retrieval with Human FeedbackLorenzo Agnolucci, Alberto Baldrati, Marco Bertini 0001, Alberto Del Bimbo. 9417-9419 [doi]

Finetuning Language Models for Multimodal Question AnsweringXin Zhang, Wen Xie, Ziqi Dai, Jun Rao, Haokun Wen, Xuan Luo, Meishan Zhang, Min Zhang. 9420-9424 [doi]

A Hierarchical Deep Video Understanding Method with Shot-Based Instance Search and Large Language ModelRuizhe Li, Jiahao Guo, Mingxi Li, Zhengqian Wu, Chao Liang. 9425-9429 [doi]

Enhanced CatBoost with Stacking Features for Social Media PredictionShijian Mao, Wudong Xi, Lei Yu, Gaotian Lü, Xingxing Xing, Xingchen Zhou, Wei Wan. 9430-9435 [doi]

Semi-Supervised Multimodal Emotion Recognition with Expression MAEZebang Cheng, Yuxiang Lin, Zhaoru Chen, Xiang Li, Shuyi Mao, Fan Zhang, Daijun Ding, Bowen Zhang, Xiaojiang Peng. 9436-9440 [doi]

Towards Realistic Conversational Head Generation: A Comprehensive Framework for Lifelike Video SynthesisMeng Liu, Yongqiang Li, Shuyan Zhai, Weili Guan, Liqiang Nie. 9441-9445 [doi]

Invisible Video Watermark Method Based on Maximum Voting and Probabilistic SuperpositionKangshuai Guo, Zhijian Xu, Shichao Luo, Feigao Wei, Yan Wang, Yanru Zhang. 9446-9450 [doi]

Gradient Boost Tree Network based on Extensive Feature Analysis for Popularity Prediction of Social PostsChih-Chung Hsu, Chia-Ming Lee, Xiu-Yu Hou, Chi-Han Tsai. 9451-9455 [doi]

VTQAGen: BART-based Generative Model For Visual Text Question AnsweringHaoru Chen, Tianjiao Wan, Zhimin Lin, Kele Xu, Jin Wang, Huaimin Wang. 9456-9461 [doi]

Double-Fine-Tuning Multi-Objective Vision-and-Language Transformer for Social Media Popularity PredictionXiaolu Chen, Weilong Chen, Chenghao Huang, Zhongjian Zhang, Lixin Duan, Yanru Zhang. 9462-9466 [doi]

Cascaded Cross-Modal Transformer for Request and Complaint DetectionNicolae-Catalin Ristea, Radu-Tudor Ionescu. 9467-9471 [doi]

Multi-scale Conformer Fusion Network for Multi-participant Behavior AnalysisQiya Song, Renwei Dian, Bin Sun 0001, Jie Xie, Shutao Li. 9472-9476 [doi]

Advancing Audio Emotion and Intent Recognition with Large Pre-Trained Models and Bayesian InferenceDejan Porjazovski, Yaroslav Getman, Tamás Grósz, Mikko Kurimo. 9477-9481 [doi]

Automatic Audio Augmentation for Requests Sub-ChallengeYanjie Sun, Kele Xu, Chaorun Liu, Yong Dou, Kun Qian. 9482-9486 [doi]

Answer-Based Entity Extraction and Alignment for Visual Text Question AnsweringJun Yu, Mohan Jing, Weihao Liu, Tongxu Luo, Bingyuan Zhang, Keda Lu, Fangyu Lei, Jianqing Sun, Jiaen Liang. 9487-9491 [doi]

Multi-Layer Acoustic & Linguistic Feature Fusion for ComParE-23 Emotion and Requests ChallengeSiddhant R. Viksit, Vinayak Abrol. 9492-9495 [doi]

Sliding Window Seq2seq Modeling for Engagement EstimationJun Yu, Keda Lu, Mohan Jing, Ziqi Liang, Bingyuan Zhang, Jianqing Sun, Jiaen Liang. 9496-9500 [doi]

Micro-Expression Spotting with Face Alignment and Optical FlowWenfeng Qin, Bochao Zou, Xin Li, Weiping Wang, Huimin Ma. 9501-9505 [doi]

UniFaRN: Unified Transformer for Facial Reaction GenerationCong Liang 0002, Jiahe Wang, Haofan Zhang, Bing Tang, Junshan Huang, Shangfei Wang, Xiaoping Chen. 9506-9510 [doi]

Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech TasksPayal Mohapatra, Akash Pandey, Yueyuan Sui, Qi Zhu. 9511-9515 [doi]

Data Augmentation for Human Behavior Analysis in Multi-Person ConversationsKun Li, Dan Guo, Guoliang Chen, Feiyang Liu, Meng Wang. 9516-9520 [doi]

DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement Estimation in ConversationVu Ngoc Tu, Van Thong Huynh, Hyung Jeong Yang, Soo-Hyung Kim, Shah Nawaz, Karthik Nandakumar, Muhammad Zaigham Zaheer. 9521-9525 [doi]

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group SettingsSurbhi Madan, Rishabh Jain, Gulshan Sharma, Ramanathan Subramanian, Abhinav Dhall. 9526-9530 [doi]

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song, Qing Wang, Hengshun Zhou, Chenxi Wang, Jiefeng Ma, Pengfei Hu 0006, Ya Jiang, Shi Cheng, Jie Zhang, Yuzhe Weng. 9531-9535 [doi]

BEAMER: Behavioral Encoder to Generate Multiple Appropriate Facial ReactionsXimi Hoque, Adamay Mann, Gulshan Sharma, Abhinav Dhall. 9536-9540 [doi]

Efficient Micro-Expression Spotting Based on Main Directional Mean Optical Flow FeatureJun Yu, Zhongpeng Cai, Shenshen Du, Xiaxin Shen, Lei Wang, Fang Gao. 9541-9545 [doi]

Mining High-quality Samples from Raw Data and Majority Voting Method for Multimodal Emotion RecognitionQifei Li, Yingming Gao, Ya Li. 9546-9550 [doi]

Deep Video Understanding with Video-Language ModelRunze Liu, Yaqun Fang, Fan Yu, Ruiqi Tian, Tongwei Ren, Gangshan Wu. 9551-9555 [doi]

Semi-Supervised Multimodal Emotion Recognition with Class-Balanced Pseudo-labelingHaifeng Chen, Chujia Guo, Yan Li, Peng Zhang, Dongmei Jiang. 9556-9560 [doi]

Leveraging the Latent Diffusion Models for Offline Facial Multiple Appropriate Reactions GenerationJun Yu, Ji Zhao 0020, Guochen Xie, Fengxin Chen, Ye Yu, Liang Peng, Minglei Li, Zonghong Dai. 9561-9565 [doi]

Improvements on SadTalker-based Approach for ViCo Conversational Head Generation ChallengeWei Dai. 9566-9570 [doi]

Multimodal Emotion Recognition in Noisy Environment Based on Progressive Label RevisionSunan Li, Hailun Lian, Cheng Lu, Yan Zhao, Chuangao Tang, Yuan Zong, Wenming Zheng. 9571-9575 [doi]

Integrating VideoMAE based model and Optical Flow for Micro- and Macro-expression SpottingKe Xu, Kang Chen, Licai Sun, Zheng Lian, Bin Liu, Gong Chen, Haiyang Sun, Mingyu Xu, Jianhua Tao. 9576-9580 [doi]

Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance PipelineZhigang Chang, Weitai Hu, Qing Yang, Shibao Zheng. 9581-9585 [doi]

Unveiling Subtle Cues: Backchannel Detection Using Temporal Multimodal Attention NetworksKangzhong Wang, MK Michael Cheung, Youqian Zhang, Chunxi Yang, Peter Q. Chen, Eugene Yujun Fu, Grace Ngai. 9586-9590 [doi]

Query-aware Long Video Localization and Relation Discrimination for Deep Video UnderstandingYuanxing Xu, Yuting Wei, Bin Wu. 9591-9595 [doi]

Building Robust Multimodal Sentiment Recognition via a Simple yet Effective Multimodal TransformerDaoming Zong, Chaoyue Ding, Baoxiang Li, Dinghao Zhou, Jiakui Li, Ken Zheng, Qunyan Zhou. 9596-9600 [doi]

MultiMediate 2023: Engagement Level Detection using Audio and Video FeaturesChunxi Yang, Kangzhong Wang, Peter Q. Chen, MK Michael Cheung, Youqian Zhang, Eugene Yujun Fu, Grace Ngai. 9601-9605 [doi]

The ACM Multimedia 2023 Deep Video Understanding Grand ChallengeKeith Curtis, George Awad, Afzal Godil, Ian Soboroff. 9606-9609 [doi]

MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised LearningZheng Lian, Haiyang Sun, Licai Sun, Kang Chen, Mingyu Xu, Kexin Wang, Ke Xu, Yu He, Ying Li, Jinming Zhao, Ye Liu, Bin Liu, Jiangyan Yi, Meng Wang, Erik Cambria, Guoying Zhao 0001, Björn W. Schuller, Jianhua Tao. 9610-9614 [doi]

Learning and Evaluating Human Preferences for Conversational Head GenerationMohan Zhou, Yalong Bai, Wei Zhang 0031, Ting Yao, Tiejun Zhao, Tao Mei. 9615-9619 [doi]

REACT2023: The First Multiple Appropriate Facial Reaction Generation ChallengeSiyang Song, Micol Spitale, Cheng Luo, Germán Barquero, Cristina Palmero, Sergio Escalera, Michel F. Valstar, Tobias Baur 0001, Fabien Ringeval, Elisabeth André, Hatice Gunes. 9620-9624 [doi]

MEGC2023: ACM Multimedia 2023 ME Grand ChallengeAdrian K. Davison, Jingting Li, Moi Hoon Yap, John See, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang. 9625-9629 [doi]

ACM Multimedia 2023 Grand Challenge Report: Invisible Video WatermarkJin Chen, Yi Yu, Shien Song, Xinying Wang, Jie Yang, Yifei Xue, Yizhen Lao. 9630-9634 [doi]

The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion Share & RequestsBjörn W. Schuller, Anton Batliner, Shahin Amiriparian, Alexander Barnhill, Maurice Gerczuk, Andreas Triantafyllopoulos, Alice E. Baird, Panagiotis Tzirakis, Chris Gagne 0001, Alan S. Cowen, Nikola Lackovic, Marie-José Caraty, Claude Montacié. 9635-9639 [doi]

MultiMediate '23: Engagement Estimation and Bodily Behaviour Recognition in Social InteractionsPhilipp Müller 0001, Michal Balazia, Tobias Baur 0001, Michael Dietz, Alexander Heimerl, Dominik Schiller, Mohammed Guermal, Dominike Thomas, François Brémond, Jan Alexandersson, Elisabeth André, Andreas Bulling. 9640-9645 [doi]

VTQA2023: ACM Multimedia 2023 Visual Text Question Answering ChallengeKang Chen, Tianli Zhao, Xiangqian Wu 0002. 9646-9650 [doi]

SMP Challenge: An Overview and Analysis of Social Media Prediction ChallengeBo Wu 0018, Peiye Liu, Wen-Huang Cheng, Bei Liu 0001, Zhaoyang Zeng, Jia Wang, Qiushi Huang, Jiebo Luo. 9651-9655 [doi]

Hawkeye: A PyTorch-based Library for Fine-Grained Image Recognition with Deep LearningJiabei He, Yang Shen, Xiu-Shen Wei, Ye Wu. 9656-9659 [doi]

OpenFastVC: An Open Source Library for Video Coding Fast Algorithm ImplementationHang Yuan, Wei Gao 0003. 9660-9663 [doi]

FastReID: A Pytorch Toolbox for General Instance Re-identificationLingxiao He, Xingyu Liao, Wu Liu, Xinchen Liu, Peng Cheng, Tao Mei. 9664-9667 [doi]

Ducho: A Unified Framework for the Extraction of Multimodal Features in RecommendationDaniele Malitesta, Giuseppe Gassi, Claudio Pomo, Tommaso Di Noia. 9668-9671 [doi]

Screen-based 3D Subjective Experiment SoftwareSonglin Fan, Wei Gao 0003. 9672-9675 [doi]

HypLL: The Hyperbolic Learning LibraryMax van Spengler, Philipp Wirth, Pascal Mettes. 9676-9679 [doi]

pyUDLF: A Python Framework for Unsupervised Distance Learning TasksGustavo Leticio, Lucas Pascotti Valem, Leonardo Tadeu Lopes, Daniel Carlos Guimarães Pedronette. 9680-9684 [doi]

OpenDMC: An Open-Source Library and Performance Evaluation for Deep-learning-based Multi-frame CompressionWei Gao 0003, Shangkun Sun, Huiming Zheng, Yuyang Wu, Hua Ye, Yongchi Zhang. 9685-9688 [doi]

MATK: The Meme Analytical Tool KitMing Shan Hee, Aditi Kumaresan, Nguyen-Khoi Hoang, Nirmalendu Prakash, Rui Cao, Roy Ka-Wei Lee. 9689-9692 [doi]

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition ResearchAaron Keesing, Yun Sing Koh, Vithya Yogarajan, Michael Witbrock. 9693-9696 [doi]

Revisiting Learning Paradigms for Multimedia Data GenerationXu Tan. 9697-9699 [doi]

Efficient Multimedia Computing: Unleashing the Power of AutoMLDebanjan Datta, Gerald Friedland. 9700-9701 [doi]

Disentangled Representation Learning for MultimediaXin Wang 0019, Hong Chen, Wenwu Zhu 0001. 9702-9704 [doi]

Diffusion Models in Generative AICem Sazara. 9705-9706 [doi]

On the Impact of Interactive eXtended Reality: Challenges and Opportunities for Multimedia ResearchIrene Viola 0001, Maria Torres Vega. 9707-9708 [doi]

Panel: Multimodal Large Foundation ModelsMohan S. Kankanhalli, Marcel Worring. 9709 [doi]

MMSports '23: 6th International Workshop on Multimedia Content Analysis in SportsHideo Saito, Thomas B. Moeslund, Rainer Lienhart. 9710-9712 [doi]

MRAC'23: 1st International Workshop on Multimodal and Responsible Affective ComputingZheng Lian, Erik Cambria, Guoying Zhao 0001, Björn W. Schuller, Jianhua Tao. 9713-9714 [doi]

UAVM '23: 2023 Workshop on UAVs in Multimedia: Capturing the World from a New PerspectiveZhedong Zheng, Yujiao Shi, Tingyu Wang, Jun Liu, Jianwu Fang, Yunchao Wei, Tat-Seng Chua. 9715-9717 [doi]

SUMAC '23: 5th Workshop on the analySis, Understanding and proMotion of heritAge Contents: Advances in Machine Learning, Signal Processing, Multimodal Techniques and Human-machine InteractionValérie Gouet-Brunet, Ronak Kosti, Li Weng. 9718-9720 [doi]

McGE '23: 1st International Workshop on Multimedia Content Generation and Evaluation: New Methods and PracticeCheng Jin, Liang He, Mingli Song, Rui Wang. 9721-9722 [doi]

MuSe 2023 Challenge: Multimodal Prediction of Mimicked Emotions, Cross-Cultural Humour, and Personalised Recognition of AffectsShahin Amiriparian, Lukas Christ, Andreas König 0007, Alan Cowen, Eva-Maria Meßner, Erik Cambria, Björn W. Schuller. 9723-9725 [doi]

MADiMa '23: 8th International Workshop on Multimedia Assisted Dietary ManagementStavroula G. Mougiakakou, Keiji Yanai, Dario Allegra. 9726-9727 [doi]

IXR '23: 2nd International Workshop on Interactive eXtended RealityIrene Viola 0001, Hadi Amirpour, Stephanie Arévalo Arboleda, Maria Torres Vega. 9728-9730 [doi]

NarSUM '23: The 2nd Workshop on User-Centric Narrative Summarization of Long VideosMohan S. Kankanhalli, Ioannis (Yiannis) Patras, Jianquan Liu, Yongkang Wong, Takahiro Komamizu, Satoshi Yamazaki, Karen Stephen, Kajal Kansal. 9731-9733 [doi]

HCMA '23: 4th International Workshop on Human-Centric Multimedia AnalysisJingkuan Song, Wu Liu, Xinchen Liu, Dingwen Zhang, Chaowei Fang, Hongyuan Zhu, Wenbing Huang 0001, John Smith, Xin Wang. 9734-9735 [doi]

FME '23: 3rd Facial Micro-Expression WorkshopAdrian K. Davison, Jingting Li, Moi Hoon Yap, John See, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang. 9736-9738 [doi]

Deep Multimodal Learning for Information RetrievalWei Ji 0008, Yinwei Wei, Zhedong Zheng, Hao Fei 0001, Tat-Seng Chua. 9739-9741 [doi]

AMC-SME '23: 2023 Workshop on Advanced Multimedia Computing for Smart Manufacturing and EngineeringJunxin Chen, Wei Wang 0077, Gwanggil Jeon. 9742-9743 [doi]

LGM3A '23: 1st Workshop on Large Generative Models Meet Multimodal ApplicationsZheng Wang, Cheng Long, Shihao Xu, Bingzheng Gan, Wei Shi, Zhao Cao, Tat-Seng Chua. 9744-9745 [doi]

runs on WebDSL