MM '22: The 30th ACM International Conference on Multimedia, Lisboa, Portugal, October 10 - 14, 2022 - researchr publication

researchr

You are not signed in
Sign in
Sign up

João Magalhães, Alberto Del Bimbo, Shin'ichi Satoh 0001, Nicu Sebe, Xavier Alameda-Pineda, Qin Jin, Vincent Oria, Laura Toni, editors, MM '22: The 30th ACM International Conference on Multimedia, Lisboa, Portugal, October 10 - 14, 2022. ACM, 2022. [doi]

Conference: mm

Abstract is missing.

Alexa, let's work together! How Alexa Helps Customers Complete Tasks with Verbal and Visual Guidance in the Alexa Prize TaskBot ChallengeYoelle Maarek. 1-2 [doi]

Data Science against COVID-19: The Valencian ExperienceNuria Oliver. 3-4 [doi]

Grounding, Meaning and Foundation Models: Adventures in Multimodal Machine LearningDouwe Kiela. 5 [doi]

A Multi-view Spectral-Spatial-Temporal Masked Autoencoder for Decoding Emotions with Self-supervised LearningRui Li, Yiting Wang, Wei-Long Zheng, Bao-Liang Lu. 6-14 [doi]

Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment AnalysisTeng Sun, Wenjie Wang, Liqiang Jing, Yiran Cui, Xuemeng Song, Liqiang Nie. 15-23 [doi]

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the WildYuanyuan Liu 0004, Wei Dai, Chuanxu Feng, Wenbin Wang, Guanghao Yin, Jiabei Zeng, Shiguang Shan. 24-32 [doi]

SER30K: A Large-Scale Dataset for Sticker Emotion RecognitionShengzhe Liu, Xin Zhang, Jufeng Yang. 33-41 [doi]

Representation Learning through Multimodal Attention and Time-Sync Comments for Affective Video Content AnalysisJicai Pan, Shangfei Wang, Lin Fang. 42-50 [doi]

TFF-Former: Temporal-Frequency Fusion Transformer for Zero-training Decoding of Two BCI TasksXujin Li, Wei Wei, Shuang Qiu 0002, Huiguang He. 51-59 [doi]

Towards Unbiased Visual Emotion Recognition via Causal InterventionYuedong Chen, Xu Yang, Tat-Jen Cham, Jianfei Cai 0001. 60-69 [doi]

Bodily Behaviors in Social Interaction: Novel Annotations and State-of-the-Art EvaluationMichal Balazia, Philipp Müller, Ákos Levente Tánczos, August von Liechtenstein, François Brémond. 70-79 [doi]

Learning from Label Relationships in Human AffectNiki Maria Foteinopoulou, Ioannis Patras. 80-89 [doi]

Brain Topography Adaptive Network for Satisfaction Modeling in Interactive Information Access SystemZiyi Ye, Xiaohui Xie, Yiqun Liu 0001, Zhihong Wang, Xuesong Chen, Min Zhang, Shaoping Ma. 90-100 [doi]

DPCNet: Dual Path Multi-Excitation Collaborative Network for Facial Expression Representation Learning in VideosYan Wang 0068, Yixuan Sun, Wei Song, Shuyong Gao, Yiwen Huang, Zhaoyu Chen, Weifeng Ge, Wenqiang Zhang. 101-110 [doi]

Pursuing Knowledge Consistency: Supervised Hierarchical Contrastive Learning for Facial Action Unit RecognitionYingjie Chen, Chong Chen 0002, Xiao Luo 0001, Jianqiang Huang, Xian-Sheng Hua 0001, Tao Wang, Yun Liang 0001. 111-119 [doi]

Unsupervised Domain Adaptation Integrating Transformer and Mutual Information for Cross-Corpus Speech Emotion RecognitionShiqing Zhang, Ruixin Liu, Yijiao Yang, Xiaoming Zhao, Jun Yu. 120-129 [doi]

Co-Completion for Occluded Facial Expression RecognitionZhen Xing, Weimin Tan, Ruian He, Yangle Lin, Bo Yan 0001. 130-140 [doi]

Generalized Inter-class Loss for Gait RecognitionWeichen Yu, Hongyuan Yu, Yan Huang, Liang Wang. 141-150 [doi]

Feeling Without Sharing: A Federated Video Emotion Recognition Framework Via Privacy-Agnostic Hybrid AggregationFan Qi, Zixin Zhang, Xianshan Yang, Huaiwen Zhang, Changsheng Xu. 151-160 [doi]

Self-Paced Label Distribution Learning for In-The-Wild Facial Expression RecognitionJianjian Shao, Zhenqian Wu, Yuanyan Luo, Shudong Huang, Xiaorong Pu, Yazhou Ren 0001. 161-169 [doi]

Uncertainty-Aware Semi-Supervised Learning of 3D Face Rigging from Single ImageYong Zhao, Haifeng Chen, Hichem Sahli, Ke Lu, Dongmei Jiang. 170-179 [doi]

A Unified Framework against Topology and Class ImbalanceJunyu Chen, Qianqian Xu, Zhiyong Yang 0001, Xiaochun Cao, Qingming Huang. 180-188 [doi]

Unified Multi-modal Pre-training for Few-shot Sentiment Analysis with Prompt-based LearningYang Yu, Dong Zhang, Shoushan Li. 189-198 [doi]

Temporal Sentiment Localization: Listen and Look in Untrimmed VideosZhicheng Zhang, Jufeng Yang. 199-208 [doi]

VigilanceNet: Decouple Intra- and Inter-Modality Learning for Multimodal Vigilance Estimation in RSVP-Based BCIXinyu Cheng, Wei Wei, Changde Du, Shuang Qiu, Sanli Tian, Xiaojun Ma, Huiguang He. 209-217 [doi]

EASE: Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative NetworksLijuan Wang, Guoli Jia, Ning Jiang, Haiying Wu, Jufeng Yang. 218-227 [doi]

Mimicking the Annotation Process for Recognizing the Micro ExpressionsBo-Kai Ruan, Ling Lo, Hong-Han Shuai, Wen-Huang Cheng. 228-236 [doi]

Machine Unlearning for Image Retrieval: A Generative Scrubbing ApproachPeng-fei Zhang, Guangdong Bai, Zi Huang, Xin-Shun Xu. 237-245 [doi]

Partially Relevant Video RetrievalJianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen, Xirong Li 0001, Xun Wang. 246-257 [doi]

From Abstract to Details: A Generative Multimodal Fusion Framework for RecommendationFangxiong Xiao, Lixi Deng, Jingjing Chen, Houye Ji, Xiaorui Yang, Zhuoye Ding, Bo Long. 258-267 [doi]

Bi-directional Heterogeneous Graph Hashing towards Efficient Outfit RecommendationWeili Guan, Xuemeng Song, Haoyu Zhang, Meng Liu 0006, Chung-Hsing Yeh, Xiaojun Chang. 268-276 [doi]

Semantic Structure Enhanced Contrastive Adversarial Hash Network for Cross-media Representation LearningMeiYu Liang, Junping Du, Xiaowen Cao, Yang Yu, Kangkang Lu, Zhe Xue, Min Zhang. 277-285 [doi]

Cross-Domain 3D Model Retrieval Based On Contrastive Learning And Label PropagationDan Song 0006, Yue Yang, Weizhi Nie, Xuanya Li, An-An Liu. 286-295 [doi]

Interactive Video Corpus Moment Retrieval using Reinforcement LearningZhixin Ma, Chong-Wah Ngo. 296-306 [doi]

Hierarchical Graph Embedded Pose Regularity Learning via Spatio-Temporal Transformer for Abnormal Behavior DetectionChao Huang 0008, Yabo Liu, Zheng Zhang 0006, Chengliang Liu 0003, Jie Wen 0001, Yong Xu 0001, Yaowei Wang. 307-315 [doi]

HMTN: Hierarchical Multi-scale Transformer Network for 3D Shape RecognitionYue Zhao, Weizhi Nie, Zan Gao, Anan Liu. 316-324 [doi]

IDEAL: High-Order-Ensemble Adaptation Network for Learning with Noisy LabelsPeng-fei Zhang, Zi Huang, Guangdong Bai, Xin-Shun Xu. 325-333 [doi]

DVR: Micro-Video Recommendation Optimizing Watch-Time-Gain under Duration BiasYu Zheng, Chen Gao, Jingtao Ding, Lingling Yi, Depeng Jin, Yong Li 0008, Meng Wang. 334-345 [doi]

Video Moment Retrieval with Hierarchical Contrastive LearningBolin Zhang, Chao Yang, Bin Jiang 0006, Xiaokang Zhou. 346-355 [doi]

Learning to Retrieve Videos by Asking QuestionsAvinash Madasu, Junier Oliva, Gedas Bertasius. 356-365 [doi]

HEART: Towards Effective Hash Codes under Label NoiseJinan Sun, Haixin Wang, Xiao Luo, Shikun Zhang, Wei Xiang, Chong Chen, Xian-Sheng Hua 0001. 366-375 [doi]

Learning Hybrid Behavior Patterns for Multimedia RecommendationZongshen Mu, Yueting Zhuang, Jie Tan, Jun Xiao 0001, Siliang Tang. 376-384 [doi]

Breaking Isolation: Multimodal Graph Fusion for Multimedia Recommendation by Edge-wise ModulationFeiyu Chen, Junjie Wang, Yinwei Wei, Hai-Tao Zheng, Jie Shao. 385-394 [doi]

Image-Text Matching with Fine-Grained Relational Dependency and Bidirectional Attention-Based Generative NetworksJianwei Zhu, Zhixin Li, Yufei Zeng, Jiahui Wei, Huifang Ma. 395-403 [doi]

Visual Grounding in Remote Sensing ImagesYuxi Sun 0002, Shanshan Feng, Xutao Li, Yunming Ye, Jian Kang 0005, Xu Huang. 404-412 [doi]

Prompt-based Zero-shot Video Moment RetrievalGuolong Wang, Xun Wu, Zhaoyuan Liu, Junchi Yan. 413-421 [doi]

Cross-Lingual Cross-Modal Retrieval with Noise-Robust LearningYabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai, Xun Wang. 422-433 [doi]

Learn to Understand Negation in Video RetrievalZiyue Wang, Aozhu Chen, Fan Hu, Xirong Li 0001. 434-443 [doi]

AdsCVLR: Commercial Visual-Linguistic Representation Modeling in Sponsored SearchYongjie Zhu, Chunhui Han, Yuefeng Zhan, Bochen Pang, Zhaoju Li, Hao Sun, Si Li 0001, Boxin Shi, Nan Duan, Weiwei Deng, Ruofei Zhang, Liangjie Zhang, Qi Zhang. 444-452 [doi]

Differentiable Cross-modal Hashing via Multimodal TransformersJunfeng Tu, Xueliang Liu, Zongxiang Lin, Richang Hong, Meng Wang. 453-461 [doi]

Multi-Level Region Matching for Fine-Grained Sketch-Based Image RetrievalZhixin Ling, Zhen Xing, Jiangtong Li, Li Niu 0002. 462-470 [doi]

DDGHM: Dual Dynamic Graph with Hybrid Metric Training for Cross-Domain Sequential RecommendationXiaolin Zheng, Jiajie Su, Weiming Liu, Chaochao Chen 0001. 471-481 [doi]

Spatial-Temporal Aligned Multi-Agent Learning for Visual Dialog SystemsYong Zhuang, Tong Yu 0001, Junda Wu, Shiqu Wu, Shuai Li. 482-490 [doi]

Learning Intrinsic and Extrinsic Intentions for Cold-start Recommendation with Neural Stochastic ProcessesHuafeng Liu 0001, Liping Jing, Dahai Yu, Mingjie Zhou, Michael Ng 0001. 491-500 [doi]

Camera-specific Informative Data Augmentation Module for Unbalanced Person Re-identificationPingting Hong, Dayan Wu, Bo Li, Weiping Wang. 501-510 [doi]

TopicVAE: Topic-aware Disentanglement Representation Learning for Enhanced RecommendationZhiqiang Guo, Guohui Li 0001, Jianjun Li, Huaicong Chen. 511-520 [doi]

Pixel-Level Anomaly Detection via Uncertainty-aware Prototypical TransformerChao Huang 0008, Chengliang Liu 0003, Zheng Zhang, Zhihao Wu, Jie Wen 0001, Qiuping Jiang, Yong Xu 0001. 521-530 [doi]

Dynamic Prototype Mask for Occluded Person Re-IdentificationLei Tan, Pingyang Dai, Rongrong Ji, Yongjian Wu. 531-540 [doi]

Meta Reconciliation Normalization for Lifelong Person Re-IdentificationNan Pu, Yu Liu 0012, Wei Chen 0072, Erwin M. Bakker, Michael S. Lew. 541-549 [doi]

Attack is the Best Defense: Towards Preemptive-Protection Person Re-IdentificationLin Wang, Wanqian Zhang, Dayan Wu, Fei Zhu, Bo Li. 550-559 [doi]

TAGPerson: A Target-Aware Generation Pipeline for Person Re-identificationKai Chen, Weihua Chen, Tao He, Rong Du, Fan Wang, Xiuyu Sun, Yuchen Guo, Guiguang Ding. 560-571 [doi]

Efficient Hash Code Expansion by Recycling Old BitsDayan Wu, Qinghang Su, Bo Li, Weiping Wang. 572-580 [doi]

Adaptive Anti-Bottleneck Multi-Modal Graph Learning Network for Personalized Micro-video RecommendationDesheng Cai, Shengsheng Qian, Quan Fang, Jun Hu, Changsheng Xu. 581-590 [doi]

Show Me What I Like: Detecting User-Specific Video Highlights Using Content-Based Multi-Head AttentionUttaran Bhattacharya, Gang Wu, Stefano Petrangeli, Viswanathan Swaminathan, Dinesh Manocha. 591-600 [doi]

Prototype-based Selective Knowledge Distillation for Zero-Shot Sketch Based Image RetrievalKai Wang, Yifan Wang, Xing Xu 0001, Xin Liu, Weihua Ou, Huimin Lu. 601-609 [doi]

ARRA: Absolute-Relative Ranking Attack against Image RetrievalSiyuan Li, Xing Xu, Zailei Zhou, Yang Yang 0002, Guoqing Wang, Heng Tao Shen. 610-618 [doi]

Invariant Representation Learning for Multimedia RecommendationXiaoyu Du, Zike Wu, Fuli Feng, Xiangnan He 0001, Jinhui Tang 0001. 619-628 [doi]

Early-Learning regularized Contrastive Learning for Cross-Modal Retrieval with Noisy LabelsTianyuan Xu, Xueliang Liu, Zhen Huang 0006, Dan Guo, Richang Hong, Meng Wang. 629-637 [doi]

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text RetrievalYiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji. 638-647 [doi]

Mixed Supervision for Instance Learning in Object Detection with Few-shot AnnotationYi Zhong, Chengyao Wang, Shiyong Li, Zhu Zhou, Yaowei Wang, Wei-Shi Zheng. 648-658 [doi]

Improved Deep Unsupervised Hashing via Prototypical LearningZeyu Ma, Wei Ju, Xiao Luo 0001, Chong Chen 0002, Xian-Sheng Hua 0001, Guangming Lu. 659-667 [doi]

Adaptive Camera Margin for Mask-guided Domain Adaptive Person Re-identificationRui Wang, Feng Chen, Jun Tang, Pu Yan. 668-677 [doi]

BadHash: Invisible Backdoor Attacks against Deep Hashing with Clean LabelShengshan Hu, Ziqi Zhou, Yechao Zhang, Leo Yu Zhang, Yifeng Zheng, Yuanyuan He, Hai Jin 0001. 678-686 [doi]

EliMRec: Eliminating Single-modal Bias in Multimedia RecommendationXiaohao Liu, Zhulin Tao, Jiahong Shao, Lifang Yang, Xianglin Huang. 687-695 [doi]

Patch-based Knowledge Distillation for Lifelong Person Re-IdentificationZhicheng Sun, Yadong Mu. 696-707 [doi]

MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action RecognitionXiaodong Chen, Wu Liu, Xinchen Liu, Yongdong Zhang 0001, Jungong Han, Tao Mei 0001. 708-718 [doi]

DHHN: Dual Hierarchical Hybrid Network for Weakly-Supervised Audio-Visual Video ParsingXun Jiang, Xing Xu, Zhiguo Chen, Jingran Zhang, Jingkuan Song, Fumin Shen, Huimin Lu, Heng Tao Shen. 719-727 [doi]

Weakly-Supervised Temporal Action Alignment Driven by Unbalanced Spectral Fused Gromov-Wasserstein DistanceDixin Luo, Yutong Wang, Angxiao Yue, Hongteng Xu. 728-739 [doi]

A Knowledge Augmented and Multimodal-Based Framework for Video SummarizationJiehang Xie, Xuanbai Chen, Shao-Ping Lu, Yulu Yang. 740-749 [doi]

MMT: Image-guided Story Ending Generation with Multimodal Memory TransformerDizhan Xue, Shengsheng Qian, Quan Fang, Changsheng Xu. 750-758 [doi]

An End-to-End Conditional Generative Adversarial Network Based on Depth Map for 3D Craniofacial ReconstructionNiankai Zhang, Junli Zhao, Fuqing Duan, Zhenkuan Pan 0001, Zhongke Wu, Mingquan Zhou, Xianfeng Gu. 759-768 [doi]

Clustering Generative Adversarial Networks for Story VisualizationBowen Li 0001, Philip H. S. Torr, Thomas Lukasiewicz. 769-778 [doi]

DeViT: Deformed Vision Transformers in Video InpaintingJiayin Cai, Changlin Li, Xin Tao, Chun Yuan, Yu-Wing Tai. 779-789 [doi]

Multi-Level Spatiotemporal Network for Video SummarizationMing Yao, Yu Bai, Wei Du, Xuejun Zhang, Heng Quan, Fuli Cai, Hongwei Kang. 790-798 [doi]

TVFormer: Trajectory-guided Visual Quality Assessment on 360° Images with TransformersLi Yang, Mai Xu, Tie Liu, Liangyu Huo, Xinbo Gao 0001. 799-808 [doi]

KnifeCut: Refining Thin Part Segmentation with Cutting LinesZheng Lin 0005, Zheng-Peng Duan, Zhao Zhang, Chun-Le Guo, Ming-Ming Cheng. 809-817 [doi]

Multi-view Layout Design for VR Concert ExperienceMinju Kim, Yuhyun Lee, Jungjin Lee. 818-826 [doi]

Magic ELF: Image Deraining Meets Association Learning and TransformerKui Jiang, Zhongyuan Wang 0001, Chen Chen 0001, Zheng Wang 0007, Laizhong Cui, Chia-Wen Lin. 827-836 [doi]

Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality AssessmentLiang Liao, Kangmin Xu, Haoning Wu, Chaofeng Chen, Wenxiu Sun, Qiong Yan, Weisi Lin. 837-846 [doi]

You Only Align Once: Bidirectional Interaction for Spatial-Temporal Video Super-ResolutionMengshun Hu, Kui Jiang, Zhixiang Nie, Zheng Wang. 847-855 [doi]

A Deep Learning based No-reference Quality Assessment Model for UGC VideosWei Sun 0029, Xiongkuo Min, Wei Lu, Guangtao Zhai. 856-865 [doi]

Improving Meeting Inclusiveness using Speech Interruption AnalysisSzu-Wei Fu, Yaran Fan, Yasaman Hosseinkashi, Jayant Gupchup, Ross Cutler. 887-895 [doi]

Transductive Aesthetic Preference Propagation for Personalized Image Aesthetics AssessmentYaohui Li, Yuzhe Yang, Huaxiong Li, Haoxing Chen, Liwu Xu, Leida Li, Yaqian Li, Yandong Guo. 896-904 [doi]

Multi-Mode Interactive Image SegmentationZheng Lin 0005, Zhao Zhang 0018, Ling-Hao Han, Shao-Ping Lu. 905-914 [doi]

Deep-BVQM: A Deep-learning Bitstream-based Video Quality ModelNasim Jamshidi Avanaki, Steven Schmidt 0001, Thilo Michael, Saman Zadtootaghaj, Sebastian Möller 0001. 915-923 [doi]

MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D ScenesAnton Ratnarajah, Zhenyu Tang 0001, Rohith Aralikatti, Dinesh Manocha. 924-933 [doi]

Quality Assessment of Image Super-Resolution: Balancing Deterministic and Statistical FidelityWei Zhou 0021, Zhou Wang. 934-942 [doi]

No-reference Omnidirectional Image Quality Assessment Based on Joint NetworkChaofan Zhang, Shiguang Liu. 943-951 [doi]

PassWalk: Spatial Authentication Leveraging Lateral Shift and Gaze on Mobile HeadsetsAbhishek Kumar, Lik Hang Lee, Jagmohan Chauhan, Xiang Su, Mohammad Ashraful Hoque, Susanna Pirttikangas, Sasu Tarkoma, Pan Hui 0001. 952-960 [doi]

Adaptive Hypergraph Convolutional Network for No-Reference 360-degree Image Quality AssessmentJun Fu 0007, Chen Hou, Wei Zhou 0021, Jiahua Xu, Zhibo Chen 0001. 961-969 [doi]

DeepWSD: Projecting Degradations in Perceptual Space to Wasserstein Distance in Deep Feature SpaceXingran Liao, Baoliang Chen, Hanwei Zhu, Shiqi Wang 0001, Mingliang Zhou, Sam Kwong. 970-978 [doi]

Angular Gap: Reducing the Uncertainty of Image Difficulty through Model CalibrationBohua Peng, Mobarakol Islam, Mei Tu. 979-987 [doi]

GCL: Graph Calibration Loss for Trustworthy Graph Neural NetworkMin Wang, Hao Yang, Qing Cheng. 988-996 [doi]

Image Quality Assessment: From Mean Opinion Score to Opinion Score DistributionYixuan Gao, Xiongkuo Min, Yucheng Zhu, Jing Li, Xiao-Ping Zhang 0002, Guangtao Zhai. 997-1005 [doi]

No-Reference Image Quality Assessment Using Dynamic Complex-Valued Neural ModelZihan Zhou 0007, Yong Xu 0007, Ruotao Xu, Yuhui Quan. 1006-1015 [doi]

Hybrid Conditional Deep Inverse Tone MappingTong Shao, Deming Zhai, Junjun Jiang, Xianming Liu. 1016-1024 [doi]

Where Are You Looking?: A Large-Scale Dataset of Head and Gaze Behavior for 360-Degree Videos and a Pilot StudyYili Jin, Junhua Liu, Fangxin Wang 0001, Shuguang Cui. 1025-1034 [doi]

Im2Oil: Stroke-Based Oil Painting Rendering with Linearly Controllable Fineness Via Adaptive SamplingZhengyan Tong, Xiaohang Wang, Shengchao Yuan, Xuanhong Chen, Junjie Wang, Xiangzhong Fang. 1035-1046 [doi]

ReLyMe: Improving Lyric-to-Melody Generation by Incorporating Lyric-Melody RelationshipsChen Zhang, LuChin Chang, Songruoyao Wu, Xu Tan 0003, Tao Qin, Tie-Yan Liu, Kejun Zhang. 1047-1056 [doi]

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure BiasZihao Wang, Kejun Zhang, Yuxing Wang, Chen Zhang, Qihao Liang, Pengfei Yu, Yongsheng Feng, Wenbo Liu, Yikai Wang, Yuntai Bao, Yiheng Yang. 1057-1067 [doi]

CACOLIT: Cross-domain Adaptive Co-learning for Imbalanced Image-to-Image TranslationYijun Wang 0002, Tao Liang, Jianxin Lin. 1068-1076 [doi]

EuglPollock: Rethinking Interspecies Collaboration through Art MakingKyungwon Lee, Yu-Kyung Jang, Jaewoo Jung, Dong-Hwan Kim, Hyun-Jean Lee, Seung-Ah Lee. 1077-1084 [doi]

Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided DiffusionNisha Huang, Fan Tang, Weiming Dong, Changsheng Xu. 1085-1094 [doi]

AesUST: Towards Aesthetic-Enhanced Universal Style TransferZhizhong Wang, Zhanjie Zhang, Lei Zhao, Zhiwen Zuo, Ailin Li, Wei Xing, Dongming Lu. 1095-1106 [doi]

Semi-supervised Human Pose Estimation in Art-historical ImagesMatthias Springstein, Stefanie Schneider, Christian Althaus, Ralph Ewerth. 1107-1116 [doi]

Understanding and Identifying Artwork Plagiarism with the Wisdom of Designers: A Case Study on Poster ArtworksShenglan Cui, Fang Liu 0002, Tongqing Zhou, Mohan Zhang. 1117-1127 [doi]

REMOT: A Region-to-Whole Framework for Realistic Human Motion TransferQuanwei Yang, Xinchen Liu, Wu Liu, Hongtao Xie, Xiaoyan Gu, Lingyun Yu, Yongdong Zhang 0001. 1128-1137 [doi]

GroupDancer: Music to Multi-People Dance Synthesis with Style CollaborationZixuan Wang, Jia Jia 0001, Haozhe Wu, Junliang Xing, Jinghe Cai, Fanbo Meng, Guowen Chen, Yanfeng Wang. 1138-1146 [doi]

CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image DenoisingDaqian Shi, Xiaolei Diao, Lida Shi, Hao Tang, Yang Chi, Chuntao Li, Hao Xu. 1147-1155 [doi]

Delving into the Frequency: Temporally Consistent Human Motion Transfer in the Fourier SpaceGuang Yang, Wu Liu, Xinchen Liu, Xiaoyan Gu, Juan Cao, Jintao Li 0001. 1156-1166 [doi]

Adaptive Affine Transformation: A Simple and Effective Operation for Spatial Misaligned Image GenerationZhimeng Zhang, Yu Ding 0001. 1167-1176 [doi]

RCRN: Real-world Character Image Restoration Network via Skeleton ExtractionDaqian Shi, Xiaolei Diao, Hao Tang, Xiaomin Li, Hao Xing, Hao Xu. 1177-1185 [doi]

Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image TranslationYupei Lin, Sen Zhang, Tianshui Chen, Yongyi Lu, Guangping Li, Yukai Shi. 1186-1194 [doi]

Sundial-GAN: A Cascade Generative Adversarial Networks Framework for Deciphering Oracle Bone InscriptionsXiang Chang, Fei Chao 0001, Changjing Shang, Qiang Shen 0001. 1195-1203 [doi]

Structure-Enhanced Pop Music Generation via Harmony-Aware LearningXueyao Zhang, Jinchao Zhang, Yao Qiu, Li Wang, Jie Zhou 0016. 1204-1213 [doi]

Dynamic Weighted Semantic Correspondence for Few-Shot Image Generative AdaptationXingzhong Hou, Boxiao Liu, Shuai Zhang, Lulin Shi, Zite Jiang, Haihang You. 1214-1222 [doi]

The Beauty of Repetition in Machine Composition ScenariosZhejing Hu, Xiao Ma, Yan Liu, Gong Chen, Yongxu Liu. 1223-1231 [doi]

CariPainter: Sketch Guided Interactive Caricature GenerationXin Huang, Dong Liang, Hongrui Cai, Juyong Zhang, Jinyuan Jia. 1232-1240 [doi]

Cartoon-Flow: A Flow-Based Generative Adversarial Network for Arbitrary-Style Photo CartoonizationJieun Lee, Hyeonwoo Kim, Jonghwa Shim, Eenjun Hwang. 1241-1251 [doi]

Span-based Audio-Visual LocalizationYiling Wu, Xinfeng Zhang 0001, Yaowei Wang, Qingming Huang. 1252-1260 [doi]

PC-Dance: Posture-controllable Music-driven Dance SynthesisJibin Gao, Junfu Pu, Honglun Zhang, Ying Shan, Wei-Shi Zheng. 1261-1269 [doi]

Delving Globally into Texture and Structure for Image InpaintingHaipeng Liu, Yang Wang, Meng Wang, Yong Rui. 1270-1278 [doi]

Rethinking Open-World Object Detection in Autonomous Driving ScenariosZeyu Ma, Yang Yang 0002, Guoqing Wang, Xing Xu 0001, Heng Tao Shen, Mingxing Zhang. 1279-1288 [doi]

MVLayoutNet: 3D Layout Reconstruction with Multi-view PanoramasZhihua Hu, Bo Duan, Yanfeng Zhang, Mingwei Sun, Jingwei Huang. 1289-1298 [doi]

Wavelet-enhanced Weakly Supervised Local Feature Learning for Face Forgery DetectionJiaming Li, Hongtao Xie, Lingyun Yu, Yongdong Zhang 0001. 1299-1308 [doi]

ADGNet: Attention Discrepancy Guided Deep Neural Network for Blind Image Quality AssessmentXiaoyu Ma, Yaqi Wang, Chang Liu, Suiyu Zhang, Dingguo Yu. 1309-1318 [doi]

Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text SpotterJingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Kun Yao, Wenjie Pei. 1319-1328 [doi]

Real-World Blind Super-Resolution via Feature Matching with Implicit High-Resolution PriorsChaofeng Chen, Xinyu Shi, Yipeng Qin, Xiaoming Li 0001, Xiaoguang Han 0001, Tao Yang, Shihui Guo. 1329-1338 [doi]

Leveraging GAN Priors for Few-Shot Part SegmentationMengya Han, Heliang Zheng, Chaoyue Wang, Yong Luo 0002, Han Hu 0003, Bo Du 0001. 1339-1347 [doi]

MaMiCo: Macro-to-Micro Semantic Correspondence for Self-supervised Video Representation LearningBo Fang, Wenhao Wu, Chang Liu 0042, Yu Zhou 0015, Dongliang He, Weiping Wang 0005. 1348-1357 [doi]

ChebyLighter: Optimal Curve Estimation for Low-light Image EnhancementJinwang Pan, Deming Zhai, Yuanchao Bai, Junjun Jiang, Debin Zhao, Xianming Liu. 1358-1366 [doi]

Bayesian based Re-parameterization for DNN Model PruningXiaotong Lu, Teng Xi, Baopu Li, Gang Zhang, Weisheng Dong, Guangming Shi. 1367-1375 [doi]

ReCoRo: Region-Controllable Robust Light Enhancement with User-Specified Imprecise MasksDejia Xu, Hayk Poghosyan, Shant Navasardyan, Yifan Jiang 0001, Humphrey Shi, Zhangyang Wang. 1376-1386 [doi]

Domain-Specific Fusion Of Objective Video Quality MetricsAaron Chadha, Ioannis Katsavounidis, Ayan Kumar Bhunia, Cosmin Stejerean, Mohammad Umar Karim Khan, Yiannis Andreopoulos. 1387-1395 [doi]

Learning for Motion Deblurring with Hybrid Frames and EventsWen Yang, Jinjian Wu, Jupo Ma, Leida Li, Weisheng Dong, Guangming Shi. 1396-1404 [doi]

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic SegmentationYulei Lu, Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao. 1405-1415 [doi]

Semi-supervised Crowd Counting via Density AgencyHui Lin, Zhiheng Ma, Xiaopeng Hong, Yaowei Wang, Zhou Su. 1416-1426 [doi]

AEDNet: Asynchronous Event Denoising with Spatial-Temporal Correlation among Irregular DataHuachen Fang, Jinjian Wu, Leida Li, Junhui Hou, Weisheng Dong, Guangming Shi. 1427-1435 [doi]

Learnability Enhancement for Low-light Raw Denoising: Where Paired Real Data Meets Noise ModelingHansen Feng, Lizhi Wang, Yuzhi Wang, Hua Huang 0001. 1436-1444 [doi]

Multi-Modal Experience Inspired AI CreationQian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao. 1445-1454 [doi]

Factorized and Controllable Neural Re-Rendering of Outdoor Scene for Photo ExtrapolationBoming Zhao, Bangbang Yang, Zhenyang Li, Zuoyue Li, Guofeng Zhang 0001, Jiashu Zhao, Dawei Yin, Zhaopeng Cui, Hujun Bao. 1455-1464 [doi]

On Generating Identifiable Virtual FacesZhuowen Yuan, Zhengxin You, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001, Alex C. Kot. 1465-1473 [doi]

Keyword Spotting in the Homomorphic Encrypted Domain Using Deep Complex-Valued CNNPeijia Zheng, Zhiwei Cai, Huicong Zeng, Jiwu Huang. 1474-1483 [doi]

Cycle-Interactive Generative Adversarial Network for Robust Unsupervised Low-Light EnhancementZhangkai Ni, Wenhan Yang, Hanli Wang, Shiqi Wang 0001, Lin Ma 0002, Sam Kwong. 1484-1492 [doi]

Skeleton2Humanoid: Animating Simulated Characters for Physically-plausible Motion In-betweeningYunhao Li, Zhenbo Yu, Yucheng Zhu, Bingbing Ni, Guangtao Zhai, Wei Shen. 1493-1502 [doi]

Hybrid Spatial-Temporal Entropy Modelling for Neural Video CompressionJiahao Li, Bin Li 0012, Yan Lu 0001. 1503-1511 [doi]

Geometric Warping Error Aware CNN for DIBR Oriented View SynthesisShuai Li, Kaixin Wang, Yanbo Gao, Xun Cai, Mao Ye 0001. 1512-1521 [doi]

FedMed-ATL: Misaligned Unpaired Cross-Modality Neuroimage Synthesis via Affine Transform LossJinbao Wang, Guoyang Xie, Yawen Huang, Yefeng Zheng 0001, Yaochu Jin, Feng Zheng. 1522-1531 [doi]

Towards Blind Watermarking: Combining Invertible and Non-invertible MechanismsRui Ma, Mengxi Guo, Yi Hou, Fan Yang, Yuan Li, Huizhu Jia, Xiaodong Xie. 1532-1542 [doi]

Improving Transferability for Domain Adaptive Detection TransformersKaixiong Gong, Shuang Li 0008, Shugang Li, Rui Zhang, Chi Harold Liu, Qiang Chen. 1543-1551 [doi]

Support for Teaching Mathematics of the Blind by Sighted Tutors Through Multisensual Access to Formulas with Braille Converters and SpeechDariusz Mikulowski. 1552-1560 [doi]

Geometry Aligned Variational Transformer for Image-conditioned Layout GenerationYunning Cao, Ye Ma, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang. 1561-1571 [doi]

PVSeRF: Joint Pixel-, Voxel- and Surface-Aligned Radiance Field for Single-Image Novel View SynthesisXianggang Yu, Jiapeng Tang, Yipeng Qin, Chenghong Li, Xiaoguang Han 0001, Linchao Bao, Shuguang Cui. 1572-1583 [doi]

Cross-Modality High-Frequency Transformer for MR Image Super-ResolutionChaowei Fang, Dingwen Zhang, Liang Wang, Yulun Zhang, Lechao Cheng, Junwei Han. 1584-1592 [doi]

Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image GenerationXintian Wu, Hanbin Zhao, Liangli Zheng, Shouhong Ding, Xi Li 0001. 1593-1602 [doi]

Efficient Multiple Kernel Clustering via Spectral PerturbationChang Tang, Zhenglai Li, Weiqing Yan, Guanghui Yue, Wei Zhang. 1603-1611 [doi]

DOMFN: A Divergence-Orientated Multi-Modal Fusion Network for Resume AssessmentYang Yang 0074, Jingshuai Zhang, Fan Gao, Xiaoru Gao, Hengshu Zhu. 1612-1620 [doi]

Generative Steganography NetworkPing Wei, Sheng Li, Xinpeng Zhang, Ge Luo 0003, Zhenxing Qian, Qing Zhou. 1621-1629 [doi]

You Only Hypothesize Once: Point Cloud Registration with Rotation-equivariant DescriptorsHaiping Wang, Yuan Liu, Zhen Dong, Wenping Wang. 1630-1641 [doi]

Disentangled Representation Learning for Multimodal Emotion RecognitionDingkang Yang, Shuai Huang, Haopeng Kuang, Yangtao Du, Lihua Zhang. 1642-1651 [doi]

Relative Alignment Network for Source-Free Multimodal Video Domain AdaptationYi Huang, Xiaoshan Yang, Ji Zhang, Changsheng Xu. 1652-1660 [doi]

PRO-Face: A Generic Framework for Privacy-preserving Recognizable Obfuscation of Face ImagesLin Yuan, Linguo Liu, Xiao Pu, Zhao Li, Hongbo Li, Xinbo Gao 0001. 1661-1669 [doi]

Skeleton-based Action Recognition via Adaptive Cross-Form LearningXuanhan Wang, Yan Dai 0001, Lianli Gao, Jingkuan Song. 1670-1678 [doi]

Sample Weighted Multiple Kernel K-means via Min-Max optimizationYi Zhang, Weixuan Liang, Xinwang Liu, Sisi Dai, Siwei Wang, Liyang Xu, En Zhu. 1679-1687 [doi]

MIntRec: A New Dataset for Multimodal Intent RecognitionHanlei Zhang, Hua Xu, Xin Wang, Qianrui Zhou, Shaojie Zhao, Jiayan Teng. 1688-1697 [doi]

Adaptive Transformer-Based Conditioned Variational Autoencoder for Incomplete Social Event ClassificationZhangming Li, Shengsheng Qian, Jie Cao, Quan Fang, Changsheng Xu. 1698-1707 [doi]

Learning Modality-Specific and -Agnostic Representations for Asynchronous Multimodal Language SequencesDingkang Yang, Haopeng Kuang, Shuai Huang, Lihua Zhang. 1708-1717 [doi]

DoF-NeRF: Depth-of-Field Meets Neural Radiance FieldsZijin Wu, Xingyi Li, Juewen Peng, Hao Lu 0003, Zhiguo Cao 0001, Weicai Zhong. 1718-1729 [doi]

RKformer: Runge-Kutta Transformer with Random-Connection Attention for Infrared Small Target DetectionMingjin Zhang, Haichen Bai, Jing Zhang, Rui Zhang, Chaoyue Wang, Jie Guo 0009, Xinbo Gao 0001. 1730-1738 [doi]

Self-Supervised Human Pose based Multi-Camera Video SynchronizationLiqiang Yin, Ruize Han, Wei Feng 0005, Song Wang 0002. 1739-1748 [doi]

Energy-Based Domain Generalization for Face Anti-SpoofingZhekai Du, Jingjing Li 0001, Lin Zuo, Lei Zhu 0002, Ke Lu 0001. 1749-1757 [doi]

Revisiting Stochastic Learning for Generalizable Person Re-identificationJiajian Zhao, Yifan Zhao, Xiaowu Chen, Jia Li 0003. 1758-1768 [doi]

2Animator: Dual Distillation of StyleGAN For High-Resolution Face AnimationZhuo Chen, Chaoyue Wang, Haimei Zhao, Bo Yuan, Xiu Li. 1769-1778 [doi]

Adaptive Hierarchical Pooling for Weakly-supervised Sound Event DetectionLijian Gao, Ling Zhou, Qirong Mao, Ming Dong 0001. 1779-1787 [doi]

Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose EstimationJuze Zhang, Jingya Wang, Ye Shi 0001, Fei Gao 0010, Lan Xu, Jingyi Yu. 1788-1796 [doi]

Learning Generalizable Latent Representations for Novel Degradations in Super-ResolutionFengJun Li, Xin Feng, Fanglin Chen 0001, Guangming Lu, Wenjie Pei. 1797-1807 [doi]

Rethinking the Vulnerability of DNN Watermarking: Are Watermarks Robust against Naturalness-aware Perturbations?Run Wang, Haoxuan Li, Lingzhou Mu, Jixing Ren, Shangwei Guo, Li Liu, Liming Fang, Jing Chen, Lina Wang. 1808-1818 [doi]

In-N-Out Generative Learning for Dense Unsupervised Video SegmentationXiao Pan, Peike Li, Zongxin Yang, Huiling Zhou, Chang Zhou, Hongxia Yang, Jingren Zhou, Yi Yang. 1819-1827 [doi]

Everything is There in Latent Space: Attribute Editing and Attribute Style Manipulation by StyleGAN Latent Space ExplorationRishubh Parihar, Ankit Dhiman, Tejan Karmali, Venkatesh R. 1828-1836 [doi]

An Image-to-video Model for Real-Time Video EnhancementDongyu She, Kun Xu 0003. 1837-1846 [doi]

Learning an Inference-accelerated Network from a Pre-trained Model with Frequency-enhanced Feature DistillationXuesong Niu, Jili Gu, Guoxin Zhang, Pengfei Wan, Zhongyuan Wang. 1847-1856 [doi]

Exploring Feature Compensation and Cross-level Correlation for Infrared Small Target DetectionMingjin Zhang, Ke Yue, Jing Zhang, Yunsong Li, Xinbo Gao 0001. 1857-1865 [doi]

Pixel Exclusion: Uncertainty-aware Boundary Discovery for Active Cross-Domain Semantic SegmentationFuming You, Jingjing Li 0001, Zhi Chen, Lei Zhu 0002. 1866-1874 [doi]

Deep Flexible Structure Preserving Image SmoothingMingjia Li, Yuanbin Fu, Xinhui Li, Xiaojie Guo. 1875-1883 [doi]

Defending Physical Adversarial Attack on Object Detection via Adversarial Patch-Feature EnergyTaeheon Kim, Youngjoon Yu, Yong Man Ro. 1905-1913 [doi]

Multiview Contrastive Learning for Completely Blind Video Quality Assessment of User Generated ContentShankhanil Mitra, Rajiv Soundararajan. 1914-1924 [doi]

Compound Batch Normalization for Long-tailed Image ClassificationLechao Cheng, Chaowei Fang, Dingwen Zhang, Guanbin Li, Gang Huang. 1925-1934 [doi]

Alleviating Style Sensitivity then Adapting: Source-free Domain Adaptation for Medical Image SegmentationYalan Ye, Ziqi Liu, Yangwuyong Zhang, Jingjing Li 0001, Hengtao Shen. 1935-1944 [doi]

Multimedia Event Extraction From News With a Unified Contrastive Learning FrameworkJian Liu, Yufeng Chen 0005, Jinan Xu. 1945-1953 [doi]

DomainPlus: Cross Transform Domain Learning towards High Dynamic Range ImagingBolun Zheng, Xiaokai Pan, Hua Zhang, Xiaofei Zhou, Gregory G. Slabaugh, Chenggang Yan 0001, Shanxin Yuan. 1954-1963 [doi]

Tracking Game: Self-adaptative Agent based Multi-object TrackingShuai Wang, Da Yang, Yubin Wu, Yang Liu, Hao Sheng 0001. 1964-1972 [doi]

Self-Supervised Text Erasing with Controllable Image SynthesisGangwei Jiang, Shiyao Wang, Tiezheng Ge, Yuning Jiang, Ying Wei 0001, Defu Lian. 1973-1983 [doi]

Look Before You Leap: Improving Text-based Person Retrieval by Learning A Consistent Cross-modal Common ManifoldZijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang, Yifeng Li. 1984-1992 [doi]

The More, The Better? Active Silencing of Non-Positive Transfer for Efficient Multi-Domain Few-Shot ClassificationXingxing Zhang, Zhizhe Liu, Weikai Yang, Liyuan Wang, Jun Zhu. 1993-2001 [doi]

Hierarchical Few-Shot Object Detection: Problem, Benchmark and MethodLu Zhang, Yang Wang, Jiaogen Zhou, Chenbo Zhang, Yinglu Zhang, Jihong Guan, Yatao Bian, Shuigeng Zhou. 2002-2011 [doi]

Few-shot X-ray Prohibited Item Detection: A Benchmark and Weak-feature Enhancement NetworkRenshuai Tao, Tianbo Wang, Ziyang Wu, Cong Liu, Aishan Liu, Xianglong Liu. 2012-2020 [doi]

High-Fidelity Variable-Rate Image Compression via Invertible Activation TransformationShilv Cai, Zhijun Zhang 0009, Liqun Chen, Luxin Yan, Sheng Zhong 0001, Xu Zou. 2021-2031 [doi]

Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and EditabilityXudong Mao, Liujuan Cao, Aurele Tohokantche Gnanha, Zhenguo Yang, Qing Li 0001, Rongrong Ji. 2032-2041 [doi]

Speech Fusion to Face: Bridging the Gap Between Human's Vocal Characteristics and Facial ImagingYeqi Bai, Tao Ma, Lipo Wang, Zhenjie Zhang. 2042-2050 [doi]

Learning Action-guided Spatio-temporal Transformer for Group Activity RecognitionWei Li 0110, Tianzhao Yang, Xiao Wu 0001, Xian-Jun Du, Jian-Jun Qiao. 2051-2060 [doi]

A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQAYangyang Guo, Liqiang Nie, Yongkang Wong, Yibing Liu, Zhiyong Cheng, Mohan S. Kankanhalli. 2061-2069 [doi]

PIA: Parallel Architecture with Illumination Allocator for Joint Enhancement and Detection in Low-LightTengyu Ma 0004, Long Ma 0002, Xin Fan 0001, Zhongxuan Luo, Risheng Liu. 2070-2078 [doi]

Robust Actor Recognition in Entertainment Multimedia at ScaleAbhinav Aggarwal, Yash Pandya, Lokesh A. Ravindranathan, Laxmi S. Ahire, Manivel Sethu, Kaustav Nandy. 2079-2087 [doi]

MF-Net: A Novel Few-shot Stylized Multilingual Font Generation MethodYufan Zhang, Junkai Man, Peng Sun. 2088-2096 [doi]

Feature and Semantic Views Consensus Hashing for Image Set ClassificationYuan Sun, Dezhong Peng, Haixiao Huang, Zhenwen Ren. 2097-2105 [doi]

Evidential Reasoning for Video Anomaly DetectionChe Sun, Yunde Jia, Yuwei Wu. 2106-2114 [doi]

Gaze- and Spacing-flow Unveil Intentions: Hidden Follower DiscoveryDanni Xu, Ruimin Hu, Zheng Wang, Linbo Luo, Dengshi Li, Wenjun Zeng. 2115-2123 [doi]

Semi-supervised Learning for Multi-label Video Action DetectionHongcheng Zhang, Xu Zhao, Dongqi Wang. 2124-2134 [doi]

Learning Cross-Image Object Semantic Relation in Transformer for Few-Shot Fine-Grained Image ClassificationBo Zhang, Jiakang Yuan, Baopu Li, Tao Chen 0003, Jiayuan Fan, Botian Shi. 2135-2144 [doi]

Progressive Spatial-temporal Collaborative Network for Video Frame InterpolationMengshun Hu, Kui Jiang, Liang Liao, Zhixiang Nie, Jing Xiao 0004, Zheng Wang. 2145-2153 [doi]

Best of Both Worlds: See and Understand Clearly in the DarkXinwei Xue, Jia He, Long Ma 0002, Yi Wang 0037, Xin Fan 0001, Risheng Liu. 2154-2162 [doi]

Meta Clustering Learning for Large-scale Unsupervised Person Re-identificationXin Jin, Tianyu He, Xu Shen, Tongliang Liu, Xinchao Wang, Jianqiang Huang, Zhibo Chen 0001, Xian-Sheng Hua 0001. 2163-2172 [doi]

Adjustable Memory-efficient Image Super-resolution via Individual Kernel SparsityXiaotong Luo, Mingliang Dai, Yulun Zhang, Yuan Xie 0006, Ding Liu, Yanyun Qu, Yun Fu 0001, Junping Zhang. 2173-2181 [doi]

GT-MUST: Gated Try-on by Learning the Mannequin-Specific TransformationNing Wang, Jing Zhang, Lefei Zhang, Dacheng Tao. 2182-2190 [doi]

2-PU: Patch Correlation and Point Correlation for Effective Point Cloud UpsamplingChen Long, Wenxiao Zhang, Ruihui Li, Hao Wang, Zhen Dong, Bisheng Yang. 2191-2201 [doi]

Self-Supervised Multi-view Stereo via Adjacent Geometry Guided Volume CompletionLuoyuan Xu, Tao Guan, Yuesong Wang, Yawei Luo, Zhuo Chen, Wenkai Liu, Wei Yang 0011. 2202-2210 [doi]

AtHom: Two Divergent Attentions Stimulated By Homomorphic Training in Text-to-Image SynthesisZhenbo Shi, Zhi Chen, Zhenbo Xu, Wei Yang, Liusheng Huang. 2211-2219 [doi]

One-step Low-Rank Representation for ClusteringZhiqiang Fu, Yao Zhao 0001, Dongxia Chang, Yiming Wang, Jie Wen, Xingxing Zhang, Guodong Guo. 2220-2228 [doi]

Customizing GAN Using Few-shot SketchesSyed Muhammad Israr, Feng Zhao. 2229-2238 [doi]

Video Coding using Learned Latent GAN CompressionMustafa Shukor, Bharath Bhushan Damodaran, Xu Yao, Pierre Hellier. 2239-2248 [doi]

Action-conditioned On-demand Motion GenerationQiujing Lu, Yipeng Zhang, Mingjian Lu, Vwani Roychowdhury. 2249-2257 [doi]

Universal Domain Adaptive Object DetectorWenxu Shi, Lei Zhang, Weijie Chen, Shiliang Pu. 2258-2266 [doi]

PIMoG: An Effective Screen-shooting Noise-Layer Simulation for Deep-Learning-Based Watermarking NetworkHan Fang, Zhaoyang Jia, Zehua Ma, Ee-Chien Chang, Weiming Zhang. 2267-2275 [doi]

MONOPOLY: Financial Prediction from MONetary POLicY Conference Videos Using Multimodal CuesPuneet Mathur, Atula Tejaswi Neerkaje, Malika Chhibber, Ramit Sawhney, Fuming Guo, Franck Dernoncourt, Sanghamitra Dutta, Dinesh Manocha. 2276-2285 [doi]

Structure-Inferred Bi-level Model for Underwater Image EnhancementPan Mu, Haotian Qian, Cong Bai. 2286-2295 [doi]

Composite Photograph Harmonization with Complete Background CuesYazhou Xing, Yu Li 0003, Xintao Wang, Ye Zhu, Qifeng Chen. 2296-2304 [doi]

Self-supervised Multi-view Stereo via Inter and Intra Network Pseudo DepthKe Qiu, Yawen Lai, Shiyi Liu, Ronggang Wang. 2305-2313 [doi]

Delegate-based Utility Preserving Synthesis for Pedestrian Image AnonymizationZhenzhong Kuang, Longbin Teng, Zhou Yu, Jun Yu 0002, Jianping Fan 0001, Mingliang Xu. 2314-2323 [doi]

Video Instance Lane Detection via Deep Temporal and Geometry Consistency ConstraintsMingqian Wang, Yujun Zhang, Wei Feng 0005, Lei Zhu 0003, Song Wang 0002. 2324-2332 [doi]

Learning Visible Surface Area Estimation for Irregular ObjectsXu Liu, Jianing Li, Xianqi Zhang, Jingyuan Sun, Xiaopeng Fan, YongHong Tian. 2333-2343 [doi]

Blind Robust Video Watermarking Based on Adaptive Region Selection and Channel ReferenceQinwei Chang, Leichao Huang, Shaoteng Liu, Hualuo Liu, Tianshu Yang, Yexin Wang. 2344-2350 [doi]

Disparity-based Stereo Image Compression with Aligned Cross-View PriorsYongqi Zhai, Luyang Tang, Yi Ma, Rui Peng, Ronggang Wang. 2351-2360 [doi]

Label-Efficient Domain Generalization via Collaborative Exploration and GeneralizationJunkun Yuan, Xu Ma, Defang Chen 0001, Kun Kuang, Fei Wu 0001, Lanfen Lin. 2361-2370 [doi]

Progressive Unsupervised Learning of Local DescriptorsWufan Wang, Lei Zhang, Hua Huang. 2371-2379 [doi]

Graph Reasoning Transformer for Image ParsingDong Zhang, Jinhui Tang 0001, Kwang-Ting Cheng. 2380-2389 [doi]

Opportunistic Backdoor Attacks: Exploring Human-imperceptible Vulnerabilities on Speech Recognition SystemsQiang Liu 0004, Tongqing Zhou, Zhiping Cai, Yonghao Tang. 2390-2398 [doi]

Certifying Better Robust Generalization for Unsupervised Domain AdaptationZhiqiang Gao, Shufei Zhang, Kaizhu Huang, Qiufeng Wang, Rui Zhang 0012, Chaoliang Zhong. 2399-2410 [doi]

Multimodal In-bed Pose and Shape Estimation under the BlanketsYu Yin, Joseph P. Robinson, Yun Fu 0001. 2411-2419 [doi]

Progressive Limb-Aware Virtual Try-OnXiaoyu Han, Shengping Zhang, Qinglin Liu, Zonglin Li, Chenyang Wang. 2420-2429 [doi]

Text Style Transfer based on Multi-factor Disentanglement and MixtureAnna Zhu, Zhanhui Yin, Brian Kenji Iwana, Xinyu Zhou, Shengwu Xiong. 2430-2440 [doi]

Cloud2Sketch: Augmenting Clouds with Imaginary SketchesZhaoyi Wan, Dejia Xu, Zhangyang Wang, Jian Wang, Jiebo Luo. 2441-2451 [doi]

CycleHand: Increasing 3D Pose Estimation Ability on In-the-wild Monocular Image through Cyclic FlowDaiheng Gao, Xindi Zhang, Xingyu Chen, Andong Tan, Bang Zhang, Pan Pan, Ping Tan. 2452-2463 [doi]

Defeating DeepFakes via Adversarial Visual ReconstructionZiwen He, Wei Wang 0025, Weinan Guan, Jing Dong 0003, Tieniu Tan. 2464-2472 [doi]

Content based User Preference Modeling in Music GenerationXichu Ma, Yuchen Wang, Ye Wang. 2473-2482 [doi]

CrossHuman: Learning Cross-guidance from Multi-frame Images for Human ReconstructionLiliang Chen, Jiaqi Li, Han Huang, Yandong Guo. 2483-2494 [doi]

High-Quality 3D Face Reconstruction with Affine Convolutional NetworksZhiqian Lin, Jiangke Lin, Lincheng Li, Yi Yuan 0002, Zhengxia Zou. 2495-2503 [doi]

xCloth: Extracting Template-free Textured 3D Clothes from a Monocular ImageAstitva Srivastava, Chandradeep Pokhariya, Sai Sagar Jinka, Avinash Sharma 0001. 2504-2512 [doi]

SD-GAN: Semantic Decomposition for Face Image Synthesis with Discrete AttributeKangneng Zhou, Xiaobin Zhu 0001, Daiheng Gao, Kai Lee, Xinjie Li, Xu-Cheng Yin. 2513-2524 [doi]

SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice GenerationRongjie Huang, Chenye Cui, Feiyang Chen, Yi Ren 0006, Jinglin Liu, Zhou Zhao, Baoxing Huai, Zhefeng Wang. 2525-2535 [doi]

Design What You Desire: Icon Generation from Orthogonal Application and Theme LabelsYinpeng Chen, Zhiyu Pan, Min Shi, Hao Lu 0003, Zhiguo Cao 0001, Weicai Zhong. 2536-2546 [doi]

Semantically-Consistent Dynamic Blurry Image Generation for Image DeblurringZhaohui Jing, Youjian Zhang, Chaoyue Wang, Daqing Liu, Yong Xia. 2547-2555 [doi]

RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch NormalizationXintao Wang, Chao Dong, Ying Shan. 2556-2564 [doi]

Rotation Invariant Transformer for Recognizing Object in UAVsShuoyi Chen, Mang Ye, Bo Du 0001. 2565-2574 [doi]

Active Learning for Point Cloud Semantic Segmentation via Spatial-Structural Diversity ReasoningFeifei Shao, Yawei Luo, Ping Liu, Jie Chen, Yi Yang, Yulei Lu, Jun Xiao. 2575-2585 [doi]

Free-Lunch for Cross-Domain Few-Shot Learning: Style-Aware Episodic Training with Robust Contrastive LearningJi Zhang, Jingkuan Song, Lianli Gao, Hengtao Shen. 2586-2594 [doi]

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-SpeechRongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren 0006. 2595-2605 [doi]

Joint Learning Content and Degradation Aware Feature for Blind Super-ResolutionYifeng Zhou, Chuming Lin, Donghao Luo, Yong Liu, Ying Tai, Chengjie Wang, Mingang Chen. 2606-2616 [doi]

Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised AdaptationWenjing Wang 0001, Zhengbo Xu, Haofeng Huang, Jiaying Liu 0001. 2617-2626 [doi]

Photorealistic Style Transfer via Adaptive Filtering and Channel SeperationHong Ding, Fei Luo 0004, Caoqing Jiang, Gang Fu, Zipei Chen, Shenghong Hu, Chunxia Xiao. 2627-2635 [doi]

Recurrent Meta-Learning against Generalized Cold-start Problem in CTR PredictionJunyu Chen, Qianqian Xu, Zhiyong Yang 0001, Ke Ma 0001, Xiaochun Cao, Qingming Huang. 2636-2644 [doi]

Learning Projection Views for Sparse-View CT ReconstructionLiutao Yang, Rongjun Ge, Shichang Feng, Daoqiang Zhang. 2645-2653 [doi]

Unsupervised Textured Terrain Generation via Differentiable RenderingPeichi Zhou, Dingbo Lu, Chen Li 0035, Jian Zhang, Long Liu, Changbo Wang. 2654-2662 [doi]

MegaPortraits: One-shot Megapixel Neural Head AvatarsNikita Drobyshev, Jenya Chelishev, Taras Khakhulin, Aleksei Ivakhnenko, Victor Lempitsky, Egor Zakharov. 2663-2671 [doi]

Event-guided Video Clip Generation from Blurry ImagesXin Ding, Tsuyoshi Takatani, Zhongyuan Wang 0001, Ying Fu 0001, Yinqiang Zheng. 2672-2680 [doi]

Consistency-Contrast Learning for Conceptual CodingJianhui Chang, Jian Zhang, Youmin Xu, Jiguo Li 0002, Siwei Ma, Wen Gao 0001. 2681-2690 [doi]

Order-aware Human Interaction ManipulationMandi Luo, Jie Cao 0002, Ran He. 2691-2699 [doi]

Semi-supervised Video Shadow Detection via Image-assisted Pseudo-label GenerationZipei Chen, Xiao Lu, Ling Zhang, Chunxia Xiao. 2700-2708 [doi]

Towards Robust Video Object Segmentation with Adaptive Object CalibrationXiaohao Xu, Jinglu Wang, Xiang Ming, Yan Lu 0001. 2709-2718 [doi]

Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled LearningChengming Xu 0001, Chen Liu, Siqian Yang, Yabiao Wang, Shijie Zhang, Lijie Jia, Yanwei Fu. 2719-2729 [doi]

Multi-Camera Collaborative Depth Prediction via Consistent Structure EstimationJialei Xu, Xianming Liu, Yuanchao Bai, Junjun Jiang, Kaixuan Wang, Xiaozhi Chen, Xiangyang Ji. 2730-2738 [doi]

Fast Hierarchical Deep Unfolding Network for Image Compressed SensingWenxue Cui, Shaohui Liu, Debin Zhao. 2739-2748 [doi]

Restoration of User Videos Shared on Social MediaHongming Luo, Fei Zhou 0001, Kin-Man Lam 0001, Guoping Qiu. 2749-2757 [doi]

Real-time Streaming Video Denoising with Bidirectional BuffersChenyang Qi, Junming Chen, Xin Yang, Qifeng Chen. 2758-2766 [doi]

Learning Hierarchical Dynamics with Spatial Adjacency for Image EnhancementYudong Liang, Bin Wang, Wenqi Ren, Jiaying Liu 0001, Wenjian Wang, Wangmeng Zuo. 2767-2776 [doi]

Text's Armor: Optimized Local Adversarial Perturbation Against Scene Text Editing AttacksTao Xiang, Hangcheng Liu, Shangwei Guo, Hantao Liu, Tianwei Zhang 0004. 2777-2785 [doi]

ChartStamp: Robust Chart Embedding for Real-World ApplicationsJiayun Fu, Bin B. Zhu, Haidong Zhang, Yayi Zou, Song Ge, Weiwei Cui, Yun Wang 0012, Dongmei Zhang, Xiaojing Ma 0002, Hai Jin 0001. 2786-2795 [doi]

Few-shot Image Generation Using Discrete Content RepresentationYan Hong, Li Niu 0002, Jianfu Zhang 0003, Liqing Zhang 0001. 2796-2804 [doi]

Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the WildJiaxin Zhang 0003, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding. 2805-2815 [doi]

Image Inpainting Detection via Enriched Attentive Pattern with Near Original Image AugmentationWenhan Yang, Rizhao Cai, Alex C. Kot. 2816-2824 [doi]

Searching Lightweight Neural Network for Image Signal ProcessingHaojia Lin, Lijiang Li, Xiawu Zheng, Fei Chao 0001, Rongrong Ji. 2825-2833 [doi]

Image Generation Network for Covert Transmission in Online Social NetworkZhengxin You, Qichao Ying, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang 0001. 2834-2842 [doi]

Augmented Dual-Contrastive Aggregation Learning for Unsupervised Visible-Infrared Person Re-IdentificationBin Yang, Mang Ye, Jun Chen, Zesen Wu. 2843-2851 [doi]

DrawMon: A Distributed System for Detection of Atypical Sketch Content in Concurrent Pictionary GamesNikhil Bansal 0004, Kartik Gupta, Kiruthika Kannan, Sivani Pentapati, Ravi Kiran Sarvadevabhatla. 2852-2861 [doi]

Approximate Shifted Laplacian Reconstruction for Multiple Kernel ClusteringJiali You, Zhenwen Ren, Quansen Sun, Yuan Sun, Xingfeng Li. 2862-2870 [doi]

Towards Continual Adaptation in Industrial Anomaly DetectionWujin Li, Jiawei Zhan, Jinbao Wang, Bizhong Xia, Bin-Bin Gao, Jun Liu, Chengjie Wang, Feng Zheng. 2871-2880 [doi]

Neural Network Model Protection with Piracy Identification and Tampering Localization CapabilityCheng Xiong, Guorui Feng, Xinran Li, Xinpeng Zhang 0001, Chuan Qin 0001. 2881-2889 [doi]

SDRTV-to-HDRTV via Hierarchical Dynamic Context Feature MappingGang He 0002, Kepeng Xu, Li Xu 0008, Chang Wu, Ming Sun, Xing Wen, Yu-Wing Tai. 2890-2898 [doi]

Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and Adaptive Inference ApproachChen Tang, Haoyu Zhai, Kai Ouyang, Zhi Wang, Yifei Zhu, Wenwu Zhu 0001. 2899-2908 [doi]

Privacy-preserving Reflection Rendering for Augmented RealityYiqin Zhao, Sheng Wei 0004, Tian Guo 0001. 2909-2918 [doi]

Confederated Learning: Going Beyond CentralizationZitai Wang, Qianqian Xu, Ke Ma 0001, Xiaochun Cao, Qingming Huang. 2939-2947 [doi]

R-FEC: RL-based FEC Adjustment for Better QoE in WebRTCInsoo Lee, Seyeon Kim, Sandesh Dhawaskar Sathyanarayana, Kyungmin Bin, Song Chong, Kyunghan Lee, Dirk Grunwald, Sangtae Ha. 2948-2956 [doi]

Physical Backdoor Attacks to Lane Detection Systems in Autonomous DrivingXingshuo Han, Guowen Xu, Yuan Zhou, Xuehuan Yang, Jiwei Li, Tianwei Zhang 0004. 2957-2968 [doi]

Dynamic Transformer for Few-shot Instance SegmentationHaochen Wang, Jie Liu, Yongtuo Liu, Subhransu Maji, Jan-Jakob Sonke, Efstratios Gavves. 2969-2977 [doi]

OISSR: Optical Image Stabilization Based Super Resolution on Smartphone CamerasHao Pan, Feitong Tan, Wenhao Li, Yi-Chao Chen 0001, Guangtao Xue. 2978-2986 [doi]

Improving Scalability, Sustainability and Availability via Workload Distribution in Edge-Cloud GamingIryanto Jaya, Yusen Li, Wentong Cai 0001. 2987-2995 [doi]

Display of 3D Illuminations using Flying Light SpecksShahram Ghandeharizadeh. 2996-3005 [doi]

Improving Generalization for Neural Adaptive Video Streaming via Meta Reinforcement LearningNuowen Kan, Yuankun Jiang, Chenglin Li, Wenrui Dai, Junni Zou, Hongkai Xiong. 3006-3016 [doi]

DAO: Dynamic Adaptive Offloading for Video AnalyticsTaslim Murad, Anh Nguyen, Zhisheng Yan. 3017-3025 [doi]

AggCast: Practical Cost-effective Scheduling for Large-scale Cloud-edge Crowdsourced Live StreamingRui-Xiao Zhang, Changpeng Yang, Xiaochan Wang, Tianchi Huang, Chenglei Wu, Jiangchuan Liu, Lifeng Sun. 3026-3034 [doi]

AdaMask: Enabling Machine-Centric Video Streaming with Adaptive Frame Masking for DNN Inference OffloadingShengzhong Liu, Tianshi Wang, Jinyang Li, Dachun Sun, Mani B. Srivastava, Tarek F. Abdelzaher. 3035-3044 [doi]

Learning-Based Video Coding with Joint Deep Compression and EnhancementTiesong Zhao, Weize Feng, Hongji Zeng, Yiwen Xu, Yuzhen Niu, Jiaying Liu 0001. 3045-3054 [doi]

Structure-Preserving Motion Estimation for Learned Video CompressionHan Gao, Jinzhong Cui, Mao Ye 0001, Shuai Li 0005, Yu Zhao, Xiatian Zhu. 3055-3063 [doi]

Learned Internet Congestion Control for Short Video UploadingTianchi Huang, Chao Zhou, Lianchen Jia, Rui-Xiao Zhang, Lifeng Sun. 3064-3075 [doi]

PicT: A Slim Weakly Supervised Vision Transformer for Pavement Distress ClassificationWenhao Tang, Sheng Huang, Xiaoxian Zhang, Luwen Huangfu. 3076-3084 [doi]

Rate-Distortion-Guided Learning Approach with Cross-Projection Information for V-PCC Fast CU DecisionHang Yuan, Wei Gao 0003, Ge Li, Zhu Li. 3085-3093 [doi]

Evaluating the Impact of Tiled User-Adaptive Real-Time Point Cloud Streaming on VR Remote CommunicationShishir Subramanyam, Irene Viola, Jack Jansen, Evangelos Alexiou, Alan Hanjalic, Pablo César. 3094-3103 [doi]

Prism: Handling Packet Loss for Ultra-low Latency VideoDevdeep Ray, Vicente Bobadilla Riquelme, Srinivasan Seshan. 3104-3114 [doi]

Exploring Spherical Autoencoder for Spherical Video Content ProcessingJin Zhou, Na Li, Yao Liu 0001, Shuochao Yao, Songqing Chen. 3115-3123 [doi]

Sophon: Super-Resolution Enhanced 360° Video Streaming with Visual Saliency-aware PrefetchJianxin Shi, Lingjun Pu, Xinjing Yuan, Qianyun Gong, Jingdong Xu. 3124-3133 [doi]

Error Concealment of Dynamic 3D Point Cloud StreamingTzu-Kuan Hung, I-Chun Huang, Samuel Rhys Cox, Wei Tsang Ooi, Cheng-Hsin Hsu. 3134-3142 [doi]

Personalized 360-Degree Video Streaming: A Meta-Learning ApproachYiyun Lu, Yifei Zhu, Zhi Wang. 3143-3151 [doi]

InDiD: Instant Disorder Detection via a Principled Neural NetworkEvgenia Romanenkova, Alexander Stepikin, Matvey Morozov, Alexey Zaytsev 0002. 3152-3162 [doi]

Maze: A Cost-Efficient Video Deduplication System at Web-scaleAn Qin 0001, Mengbai Xiao, Ben Huang, Xiaodong Zhang 0001. 3163-3172 [doi]

2 Loss: Beyond Hypersphere Metric Space for Multi-label Image RetrievalChengyin Xu, Zenghao Chai, Zhengzhuo Xu, Chun Yuan, Yanbo Fan, Jue Wang. 3173-3184 [doi]

Online Deep Learning from Doubly-Streaming DataHeng Lian, John Scovil Atwood, Bojian Hou, Jian Wu, Yi He. 3185-3194 [doi]

Re-ordered Micro Image based High Efficient Residual Coding in Light Field CompressionHyunmin Jung, Hyuk-Jae Lee, Chae-Eun Rhee. 3195-3204 [doi]

Accelerating General-purpose Lossless Compression via Simple and Scalable ParameterizationYu Mao, Yufei Cui, Tei-Wei Kuo, Chun Jason Xue. 3205-3213 [doi]

Semantic Data Augmentation based Distance Metric Learning for Domain GeneralizationMengzhu Wang, Jianlong Yuan, Qi Qian 0001, Zhibin Wang, Hao Li 0030. 3214-3223 [doi]

Mix-DANN and Dynamic-Modal-Distillation for Video Domain AdaptationYuehao Yin, Bin Zhu, Jingjing Chen, Lechao Cheng, Yu-Gang Jiang. 3224-3233 [doi]

Search-oriented Micro-video CaptioningLiqiang Nie, Leigang Qu, Dai Meng, Min Zhang 0005, Qi Tian 0001, Alberto Del Bimbo. 3234-3243 [doi]

Dual Part Discovery Network for Zero-Shot LearningJiannan Ge, Hongtao Xie, Shaobo Min, Pandeng Li, Yongdong Zhang 0001. 3244-3252 [doi]

Non-Autoregressive Cross-Modal Coherence ModellingYi Bin, Wenhao Shi, Jipeng Zhang, Yujuan Ding, Yang Yang, Heng Tao Shen. 3253-3261 [doi]

CoHOZ: Contrastive Multimodal Prompt Tuning for Hierarchical Open-set Zero-shot RecognitionNing Liao, Yifeng Liu, Xiaobo Li, Chenyi Lei, Guoxin Wang 0002, Xian-Sheng Hua 0001, Junchi Yan. 3262-3271 [doi]

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention RefinementZhi-Qi Cheng, Qi Dai, Siyao Li, Teruko Mitamura, Alexander Hauptmann 0001. 3272-3281 [doi]

CALM: Commen-Sense Knowledge Augmentation for Document Image UnderstandingQinyi Du, Qingqing Wang, Keqian Li, Jidong Tian, Liqiang Xiao, Yaohui Jin. 3282-3290 [doi]

Cross-Modal Retrieval with Heterogeneous Graph EmbeddingDapeng Chen, Min Wang, Haobin Chen, Lin Wu 0001, Jing Qin 0001, Wei Peng. 3291-3300 [doi]

Simple Self-supervised Multiplex Graph Representation LearningYujie Mo, Yuhuan Chen, Liang Peng, Xiaoshuang Shi, Xiaofeng Zhu 0001. 3301-3309 [doi]

Ordered Attention for Coherent Visual StorytellingTom Braude, Idan Schwartz, Alexander G. Schwing, Ariel Shamir. 3310-3318 [doi]

LVI-ExC: A Target-free LiDAR-Visual-Inertial Extrinsic Calibration FrameworkZhong Wang, Lin Zhang, Ying Shen 0005, Yicong Zhou. 3319-3327 [doi]

MM-ALT: A Multimodal Automatic Lyric Transcription SystemXiangming Gu, Longshen Ou, Danielle Ong, Ye Wang. 3328-3337 [doi]

Self-supervised Exclusive Learning for 3D Segmentation with Cross-Modal Unsupervised Domain AdaptationYachao Zhang, Miaoyu Li, Yuan Xie, Cuihua Li, Cong Wang, Zhizhong Zhang, Yanyun Qu. 3338-3346 [doi]

Cross-Compatible Embedding and Semantic Consistent Feature Construction for Sketch Re-identificationYafei Zhang, Yongzeng Wang, Huafeng Li, Shuang Li. 3347-3355 [doi]

Difference Residual Graph Neural NetworksLiang Yang 0002, Weihang Peng, Wenmiao Zhou, Bingxin Niu, Junhua Gu, Chuan Wang 0002, Yuanfang Guo, Dongxiao He, Xiaochun Cao. 3356-3364 [doi]

Normalization-based Feature Selection and Restitution for Pan-sharpeningMan Zhou, Jie Huang, Keyu Yan, Gang Yang, Aiping Liu, Chongyi Li, Feng Zhao. 3365-3374 [doi]

Adaptively Learning Low-high Frequency Information Integration for Pan-sharpeningMan Zhou, Jie Huang, Chongyi Li, Hu Yu, Keyu Yan, Naishan Zheng, Feng Zhao. 3375-3384 [doi]

Complementary Graph Representation Learning for Functional Neuroimaging IdentificationRongyao Hu, Liang Peng, Jiangzhang Gan, Xiaoshuang Shi, Xiaofeng Zhu 0001. 3385-3393 [doi]

Dynamically Adjust Word Representations Using Unaligned Multimodal InformationJiwei Guo, Jiajia Tang, Weichen Dai, Yu Ding, Wanzeng Kong. 3394-3402 [doi]

Bipartite Graph-based Discriminative Feature Learning for Multi-View ClusteringWeiqing Yan, Jindong Xu, Jinglei Liu, Guanghui Yue, Chang Tang. 3403-3411 [doi]

Dynamic Incomplete Multi-view Imputing and ClusteringXingfeng Li, Quansen Sun, Zhenwen Ren, Yinghui Sun. 3412-3420 [doi]

Learning Smooth Representation for Multi-view Subspace ClusteringShudong Huang, Yixi Liu, Yazhou Ren 0001, Ivor W. Tsang, Zenglin Xu, Jiancheng Lv 0001. 3421-3429 [doi]

LFBCNet: Light Field Boundary-aware and Cascaded Interaction Network for Salient Object DetectionMianzhao Wang, Fan Shi, Xu Cheng, Meng Zhao, Yao Zhang, Chen Jia, Weiwei Tian, Shengyong Chen. 3430-3439 [doi]

Multiple Kernel Clustering with Dual Noise MinimizationJunpu Zhang, Liang Li, Siwei Wang, Jiyuan Liu 0003, Yue Liu, Xinwang Liu, En Zhu. 3440-3450 [doi]

Webly Supervised Image Hashing with Lightweight Semantic Transfer NetworkHui Cui 0004, Lei Zhu 0002, Jingjing Li 0001, Zheng Zhang 0006, Weili Guan. 3451-3460 [doi]

Rethinking Super-Resolution as Text-Guided Details GenerationChenxi Ma, Bo Yan 0001, Qing Lin, Weimin Tan, Siming Chen 0001. 3461-3469 [doi]

DEAL: An Unsupervised Domain Adaptive Framework for Graph-level ClassificationNan Yin, Li Shen, Baopu Li, Mengzhu Wang, Xiao Luo 0001, Chong Chen 0002, Zhigang Luo, Xian-Sheng Hua 0001. 3470-3479 [doi]

AVQA: A Dataset for Audio-Visual Question Answering on VideosPinci Yang, Xin Wang 0019, Xuguang Duan, Hong Chen, Runze Hou, Cong Jin, Wenwu Zhu 0001. 3480-3491 [doi]

Prompting for Multi-Modal TrackingJinyu Yang, Zhe Li, Feng Zheng, Ales Leonardis, Jingkuan Song. 3492-3500 [doi]

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave RadarAnjun Chen, Xiangyu Wang, Shaohao Zhu, Yanxu Li, Jiming Chen 0001, Qi Ye. 3501-3510 [doi]

Eliminating Spatial Ambiguity for Weakly Supervised 3D Object Detection without Spatial LabelsHaizhuang Liu, Huimin Ma, Yilin Wang, Bochao Zou, Tianyu Hu, Rongquan Wang, Jiansheng Chen. 3511-3520 [doi]

Dynamic Graph Reasoning for Multi-person 3D Pose EstimationZhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu. 3521-3529 [doi]

DiT: Self-supervised Pre-training for Document Image TransformerJunlong Li, Yiheng Xu, Tengchao Lv, Lei Cui 0001, Cha Zhang, Furu Wei. 3530-3539 [doi]

Learning to Estimate External Forces of Human Motion in VideoNathan Louis, Jason J. Corso, Tylan N. Templin, Travis D. Eliason, Daniel P. Nicolella. 3540-3548 [doi]

Query Prior Matters: A MRC Framework for Multimodal Named Entity RecognitionMeihuizi Jia, Xin Shen, Lei Shen, Jinhui Pang, Lejian Liao, Yang Song 0008, Meng Chen 0006, Xiaodong He 0002. 3549-3558 [doi]

Robust Multimodal Depth Estimation using Transformer based Generative Adversarial NetworksMd Fahim Faysal Khan, Anusha Devulapally, Siddharth Advani, Vijaykrishnan Narayanan. 3559-3568 [doi]

Caption-Aware Medical VQA via Semantic Focusing and Progressive Cross-Modality ComprehensionFu'ze Cong, Shibiao Xu, Li Guo, Yinbing Tian. 3569-3577 [doi]

Complementarity-Enhanced and Redundancy-Minimized Collaboration Network for Multi-agent PerceptionGuiyang Luo, Hui Zhang, Quan Yuan 0004, Jinglin Li. 3578-3586 [doi]

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language ExplanationsQian Yang, Yunxin Li, Baotian Hu, Lin Ma, Yuxin Ding, Min Zhang. 3587-3597 [doi]

Two-Stream Transformer for Multi-Label Image ClassificationXuelin Zhu, Jiuxin Cao, Jiawei Ge, Weijia Liu, Bo Liu 0004. 3598-3607 [doi]

SoftSkip: Empowering Multi-Modal Dynamic Pruning for Single-Stage Referring ComprehensionDulanga Weerakoon, Vigneshwaran Subbaraju, Tuan Tran, Archan Misra. 3608-3616 [doi]

Unbiased Directed Object Attention Graph for Object NavigationRonghao Dang, Zhuofan Shi, Liuyi Wang, Zongtao He, Chengju Liu, Qijun Chen. 3617-3627 [doi]

FastPR: One-stage Semantic Person Retrieval via Self-supervised LearningMeng Sun, Ju Ren, Xin Wang, Wenwu Zhu 0001, Yaoxue Zhang. 3628-3636 [doi]

Towards Counterfactual Image Manipulation via CLIPYingchen Yu, Fangneng Zhan, Rongliang Wu, Jiahui Zhang, Shijian Lu, Miaomiao Cui, Xuansong Xie, Xian-Sheng Hua 0001, Chunyan Miao. 3637-3645 [doi]

Bidirectionally Learning Dense Spatio-temporal Feature Propagation Network for Unsupervised Video Object SegmentationJiaqing Fan, Tiankang Su, Kaihua Zhang, Qingshan Liu 0001. 3646-3655 [doi]

Weakly Supervised Video Salient Object Detection via Point SupervisionShuyong Gao, Haozhe Xing, Wei Zhang, Yan Wang 0068, Qianyu Guo, Wenqiang Zhang. 3656-3665 [doi]

Look Less Think More: Rethinking Compositional Action RecognitionRui Yan, Peng Huang, Xiangbo Shu, Junhao Zhang, Yonghua Pan, Jinhui Tang 0001. 3666-3675 [doi]

Continual Multi-view ClusteringXinhang Wan, Jiyuan Liu 0003, Weixuan Liang, Xinwang Liu, Yi Wen, En Zhu. 3676-3684 [doi]

Efficient Anchor Learning-based Multi-view Clustering - A Late Fusion MethodTiejian Zhang, Xinwang Liu, En Zhu, Sihang Zhou, Zhibin Dong. 3685-3693 [doi]

Cross-modal Knowledge Graph Contrastive Learning for Machine Learning Method RecommendationXianshuai Cao, Yuliang Shi, Jihu Wang, Han Yu 0001, Xinjun Wang, Zhongmin Yan. 3694-3702 [doi]

Multigranular Visual-Semantic Embedding for Cloth-Changing Person Re-identificationZan Gao, Hongwei Wei, Weili Guan, Weizhi Nie, Meng Liu, Meng Wang. 3703-3711 [doi]

Adaptive Structural Similarity Preserving for Unsupervised Cross Modal HashingLiang Li, Baihua Zheng, Weiwei Sun 0008. 3712-3721 [doi]

CubeMLP: An MLP-based Model for Multimodal Sentiment Analysis and Depression EstimationHao Sun 0013, Hongyi Wang, Jiaqing Liu, Yen-Wei Chen 0001, Lanfen Lin. 3722-3729 [doi]

Generalized Global Ranking-Aware Neural Architecture Ranker for Efficient Image Classifier SearchBicheng Guo, Tao Chen 0003, Shibo He, Haoyu Liu, Lilin Xu, Peng Ye, Jiming Chen 0001. 3730-3741 [doi]

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound LocalisationJinxiang Liu, Chen Ju, Weidi Xie, Ya Zhang 0002. 3742-3753 [doi]

Unsupervised Video Hashing with Multi-granularity Contextualization and Multi-structure PreservationYanbin Hao, Jingru Duan, Hao Zhang, Bin Zhu, Pengyuan Zhou, Xiangnan He 0001. 3754-3763 [doi]

DisCo: Disentangled Implicit Content and Rhythm Learning for Diverse Co-Speech Gestures SynthesisHaiyang Liu, Naoya Iwamoto, Zihao Zhu, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng. 3764-3773 [doi]

Adaptively-weighted Integral Space for Fast Multiview ClusteringMansheng Chen, Tuo Liu, Chang-Dong Wang, Dong Huang 0001, Jian-Huang Lai. 3774-3782 [doi]

Towards All Weather and Unobstructed Multi-Spectral Image Stitching: Algorithm and BenchmarkZhiying Jiang, Zengxi Zhang, Xin Fan 0001, Risheng Liu. 3783-3791 [doi]

A Parameter-free Multi-view Information Bottleneck Clustering Method by Cross-view WeightingShizhe Hu, Ruilin Geng, Zhaoxu Cheng, Chaoyang Zhang, Guoliang Zou, Zhengzheng Lou, Yangdong Ye. 3792-3800 [doi]

HERO: HiErarchical spatio-tempoRal reasOning with Contrastive Action Correspondence for End-to-End Video Object GroundingMengze Li, Tianbao Wang, Haoyu Zhang, Shengyu Zhang, Zhou Zhao, Wenqiao Zhang, Jiaxu Miao, Shiliang Pu, Fei Wu. 3801-3810 [doi]

MAVT-FG: Multimodal Audio-Visual Transformer for Weakly-supervised Fine-Grained RecognitionXiaoyu Zhou, Xiaotong Song, Hao Wu, Jingran Zhang, Xing Xu. 3811-3819 [doi]

Dynamic Graph Modeling for Weakly-Supervised Temporal Action LocalizationHaichao Shi, Xiao-Yu Zhang, Changsheng Li, Lixing Gong, Yong Li 0034, Yongjun Bao. 3820-3828 [doi]

Cross-Domain and Cross-Modal Knowledge Distillation in Domain Adaptation for 3D Semantic SegmentationMiaoyu Li, Yachao Zhang, Yuan Xie, Zuodong Gao, Cuihua Li, Zhizhong Zhang, Yanyun Qu. 3829-3837 [doi]

AVA-AVD: Audio-visual Speaker Diarization in the WildEric Zhongcong Xu, Zeyang Song, Satoshi Tsutsui, Chao Feng, Mang Ye, Mike Zheng Shou. 3838-3847 [doi]

Image-Signal Correlation Network for Textile Fiber IdentificationBo Peng, Liren He, Yining Qiu, Dong Wu, Mingmin Chi. 3848-3856 [doi]

Relation-enhanced Negative Sampling for Multimodal Knowledge Graph CompletionDerong Xu, Tong Xu 0001, Shiwei Wu, Jingbo Zhou, Enhong Chen. 3857-3866 [doi]

Symmetric Uncertainty-Aware Feature Transmission for Depth Super-ResolutionWuxuan Shi, Mang Ye, Bo Du 0001. 3867-3876 [doi]

DTR: An Information Bottleneck Based Regularization Framework for Video Action RecognitionJiawei Fan, Yu Zhao, Xie Yu, Lihua Ma, Junqi Liu, Fangqiu Yi, Boxun Li. 3877-3885 [doi]

Self-Supervised Graph Neural Network for Multi-Source Domain AdaptationJin Yuan, Feng Hou, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan 0007, Yong Rui. 3907-3916 [doi]

ChoreoGraph: Music-conditioned Automatic Dance Choreography over a Style and Tempo Consistent Dynamic GraphHo Yin Au, Jie Chen, Junkun Jiang, Yike Guo. 3917-3925 [doi]

Pixelwise Adaptive Discretization with Uncertainty Sampling for Depth CompletionRui Peng, Tao Zhang, Bing Li, Yitong Wang. 3926-3935 [doi]

Robust Diversified Graph Contrastive Network for Incomplete Multi-view ClusteringZhe Xue, Junping Du, Hai Zhu, Zhongchao Guan, Yunfei Long, Yu Zang, MeiYu Liang. 3936-3944 [doi]

Calibrating Class Weights with Multi-Modal Information for Partial Video Domain AdaptationXiyu Wang, Yuecong Xu, Jianfei Yang, Kezhi Mao. 3945-3954 [doi]

Cyclical Fusion: Accurate 3D Reconstruction via Cyclical MonotonicityDuo Chen, Zixin Tang, Yiguang Liu. 3955-3964 [doi]

Keypoint-Guided Modality-Invariant Discriminative Learning for Visible-Infrared Person Re-identificationTengfei Liang, Yi Jin, Wu Liu, Songhe Feng, Tao Wang, Yidong Li. 3965-3973 [doi]

Model-Guided Multi-Contrast Deep Unfolding Network for MRI Super-resolution ReconstructionGang Yang, Li Zhang, Man Zhou, Aiping Liu, Xun Chen, Zhiwei Xiong, Feng Wu 0001. 3974-3982 [doi]

Learning from Different text-image Pairs: A Relation-enhanced Graph Convolutional Network for Multimodal NERFei Zhao, Chunhui Li, Zhen Wu, Shangyu Xing, Xinyu Dai. 3983-3992 [doi]

Multi-directional Knowledge Transfer for Few-Shot LearningShuo Wang 0008, Xinyu Zhang, Yanbin Hao, Chengbing Wang, Xiangnan He 0001. 3993-4002 [doi]

DetFusion: A Detection-driven Infrared and Visible Image Fusion NetworkYiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu. 4003-4011 [doi]

Sketch Transformer: Asymmetrical Disentanglement Learning from Dynamic SynthesisCuiqun Chen, Mang Ye, Meibin Qi, Bo Du 0001. 4012-4020 [doi]

Rethinking the Metric in Few-shot Learning: From an Adaptive Multi-Distance PerspectiveJinxiang Lai, Siqian Yang, Guannan Jiang, Xi Wang, Yuxi Li, Zihui Jia, Xiaochen Chen, Jun Liu, Bin-Bin Gao, Wei Zhang, Yuan Xie, Chengjie Wang. 4021-4030 [doi]

Cross-Modality Domain Adaptation for Freespace Detection: A Simple yet Effective BaselineYuanbin Wang, Leyan Zhu, Shaofei Huang, Tianrui Hui, Xiaojie Li, Fei Wang 0032, Si Liu 0001. 4031-4042 [doi]

Learning a Dynamic Cross-Modal Network for Multispectral Pedestrian DetectionJin Xie 0005, Rao Muhammad Anwer, Hisham Cholakkal, Jing Nie, Jiale Cao, Jorma Laaksonen, Fahad Shahbaz Khan. 4043-4052 [doi]

Two-Stage Multi-Scale Resolution-Adaptive Network for Low-Resolution Face RecognitionHaihan Wang, Shangfei Wang, Lin Fang. 4053-4062 [doi]

When True Becomes False: Few-Shot Link Prediction beyond Binary Relations through Mining False Positive EntitiesXuan Zhang, Xun Liang 0001, Xiangping Zheng, Bo Wu, Yuhui Guo. 4063-4071 [doi]

Understanding Political Polarization via Jointly Modeling Users, Connections and Multimodal Contents on Heterogeneous GraphsHanjia Lyu, Jiebo Luo. 4072-4082 [doi]

LayoutLMv3: Pre-training for Document AI with Unified Text and Image MaskingYupan Huang, Tengchao Lv, Lei Cui 0001, Yutong Lu, Furu Wei. 4083-4091 [doi]

Reducing the Vision and Language Bias for Temporal Sentence GroundingDaizong Liu, Xiaoye Qu, Wei Hu. 4092-4101 [doi]

Face Forgery Detection via Symmetric TransformerLuchuan Song, Xiaodan Li, Zheng Fang, Zhenchao Jin, Yuefeng Chen, Chenliang Xu. 4102-4111 [doi]

End-to-End Compound Table Understanding with Multi-Modal ModelingZaisheng Li, Yi Li, Liang Qiao 0001, Pengfei Li, Zhanzhan Cheng, Yi Niu, Shiliang Pu, Xi Li. 4112-4121 [doi]

Modality Eigen-Encodings Are Keys to Open Modality Informative ContainersYiyuan Zhang, Yuqi Ji. 4122-4131 [doi]

Visual Knowledge Graph for Human Action Reasoning in VideosYue Ma, Yali Wang, Yue Wu, Ziyu Lyu, Siran Chen, Xiu Li, Yu Qiao. 4132-4141 [doi]

Unsupervised and Pseudo-Supervised Vision-Language Alignment in Visual DialogFeilong Chen, Duzhen Zhang, Xiuyi Chen, Jing Shi 0003, Shuang Xu, Bo Xu 0002. 4142-4153 [doi]

You Can even Annotate Text with Voice: Transcription-only-Supervised Text SpottingJingqun Tang, Su Qiao, Benlei Cui, Yuhang Ma, Sheng Zhang, Dimitrios Kanoulas. 4154-4163 [doi]

Inferential Visual Question GenerationChao Bi, Shuhui Wang, Zhe Xue, Shengbo Chen, Qingming Huang. 4164-4174 [doi]

A Baseline for Detecting Out-of-Distribution Examples in Image CaptioningGal-Lev Shalev, Gabi Shalev, Joseph Keshet. 4175-4184 [doi]

Proxy Probing Decoder for Weakly Supervised Object Localization: A Baseline InvestigationJingyuan Xu, Hongtao Xie, Chuanbin Liu, Yongdong Zhang 0001. 4185-4193 [doi]

Target-Driven Structured Transformer Planner for Vision-Language NavigationYusheng Zhao, Jinyu Chen, Chen Gao, Wenguan Wang, Lirong Yang, Haibing Ren, Huaxia Xia, Si Liu 0001. 4194-4203 [doi]

Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph GenerationXingchen Li, Long Chen, Wenbo Ma, Yi Yang, Jun Xiao. 4204-4213 [doi]

Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text RecognitionMingkun Yang, Minghui Liao, Pu Lu, Jing Wang, Shenggao Zhu, Hualin Luo, Qi Tian, Xiang Bai. 4214-4223 [doi]

Hierarchical Walking Transformer for Object Re-IdentificationXudong Tian, Jun Liu, Zhizhong Zhang, Chengjie Wang, Yanyun Qu, Yuan Xie, Lizhuang Ma. 4224-4232 [doi]

Cross-modal Semantic Alignment Pre-training for Vision-and-Language NavigationSiying Wu, Xueyang Fu, Feng Wu 0001, Zheng-Jun Zha. 4233-4241 [doi]

RONF: Reliable Outlier Synthesis under Noisy Feature Space for Out-of-Distribution DetectionRundong He, Zhongyi Han, Xiankai Lu, Yilong Yin. 4242-4251 [doi]

ConceptBeam: Concept Driven Target Speech ExtractionYasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, Kunio Kashino. 4252-4260 [doi]

Query-driven Generative Network for Document Information Extraction in the WildHaoyu Cao, Xin Li, Jiefeng Ma, Deqiang Jiang, Antai Guo, Yiqing Hu, Hao Liu 0003, Yinsong Liu, Bo Ren 0002. 4261-4271 [doi]

SPTS: Single-Point Text SpottingDezhi Peng, Xinyu Wang 0010, Yuliang Liu, Jiaxin Zhang 0003, Mingxin Huang, Songxuan Lai, Jing Li, Shenggao Zhu, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin. 4272-4281 [doi]

AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal GenerationYiyang Ma, Huan Yang 0005, Bei Liu 0001, Jianlong Fu, Jiaying Liu 0001. 4282-4290 [doi]

Purifier: Plug-and-play Backdoor Mitigation for Pre-trained Models Via Anomaly Activation SuppressionXiaoyu Zhang, Yulin Jin, Tao Wang 0036, Jian Lou, Xiaofeng Chen 0001. 4291-4299 [doi]

3CMR: Cross-Modality Cross-Instance Contrastive Learning for Cross-Media RetrievalJunsheng Wang, Tiantian Gong, Zhixiong Zeng, Changchang Sun, Yan Yan. 4300-4308 [doi]

Progressive Attribute Embedding for Accurate Cross-modality Person Re-IDAihua Zheng, Peng Pan, Hongchao Li, Chenglong Li 0002, Bin Luo 0001, Chang Tan, Ruoran Jia. 4309-4317 [doi]

Class Discriminative Adversarial Learning for Unsupervised Domain AdaptationLihua Zhou, Mao Ye 0001, Xiatian Zhu, Shuaifeng Li, Yiguang Liu. 4318-4326 [doi]

Background Layout Generation and Object Knowledge Transfer for Text-to-Image GenerationZhuowei Chen, Zhendong Mao, Shancheng Fang, Bo Hu. 4327-4335 [doi]

Towards Further Comprehension on Referring Expression with RationaleRenGang Li, Baoyu Fan, Xiaochuan Li, Runze Zhang, Zhenhua Guo 0003, Kun Zhao, Yaqian Zhao, Weifeng Gong, Endong Wang. 4336-4344 [doi]

DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image GenerationMengqi Huang, Zhendong Mao, Penghui Wang, Quan Wang, Yongdong Zhang 0001. 4345-4354 [doi]

Synthesizing Counterfactual Samples for Effective Image-Text MatchingHao Wei, Shuhui Wang, Xinzhe Han, Zhe Xue, Bin Ma, Xiaoming Wei, Xiaolin Wei. 4355-4364 [doi]

Fine-tuning with Multi-modal Entity Prompts for News Image CaptioningJingjing Zhang, Shancheng Fang, Zhendong Mao, Zhiwei Zhang, Yongdong Zhang 0001. 4365-4373 [doi]

Rethinking the Reference-based Distinctive Image CaptioningYangjun Mao, Long Chen, Zhihong Jiang, Dong Zhang, Zhimeng Zhang, Jian Shao, Jun Xiao. 4374-4384 [doi]

A Feature-space Multimodal Data Augmentation Technique for Text-video RetrievalAlex Falcon, Giuseppe Serra 0001, Oswald Lanz. 4385-4394 [doi]

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage LearningZejun Li, Zhihao Fan, Huaixiao Tou, Jingjing Chen, Zhongyu Wei, Xuanjing Huang. 4395-4405 [doi]

Combining Vision and Language Representations for Patch-based Identification of Lexico-Semantic RelationsPrince Jha, Gaël Dias, Alexis Lechervy, José G. Moreno 0001, Anubhav Jangra, Sebastião Pais, Sriparna Saha 0001. 4406-4415 [doi]

Multi-Attention Network for Compressed Video Referring Object SegmentationWeidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang, Laiyun Qing, Qingming Huang, Guorong Li. 4416-4425 [doi]

Cross-modal Co-occurrence Attributes Alignments for Person Search by LanguageKai Niu 0005, Linjiang Huang, Yan Huang, Peng Wang, Liang Wang, Yanning Zhang. 4426-4434 [doi]

RefCrowd: Grounding the Target in Crowd with Referring ExpressionsHeqian Qiu, Hongliang Li 0001, Taijin Zhao, Lanxiao Wang, Qingbo Wu 0001, Fanman Meng. 4435-4444 [doi]

Unified Normalization for Accelerating and Stabilizing TransformersQiming Yang, Kai Zhang, Chaoxiang Lan, Zhi Yang, Zheyang Li, Wenming Tan, Jun Xiao, Shiliang Pu. 4445-4455 [doi]

Enhancing Semi-Supervised Learning with Cross-Modal KnowledgeHui Zhu, Yongchun Lü, Hongbin Wang, Xunyi Zhou, Qin Ma, Yanhong Liu, Ning Jiang, Xin Wei, Linchengxi Zeng, Xiaofang Zhao. 4456-4465 [doi]

Dynamic Spatio-Temporal Modular Network for Video Question AnsweringZi Qian, Xin Wang 0019, Xuguang Duan, Hong Chen, Wenwu Zhu 0001. 4466-4477 [doi]

Micro-video Tagging via Jointly Modeling Social Influence and Tag RelationXiao Wang, Tian Gan, Yinwei Wei, Jianlong Wu, Dai Meng, Liqiang Nie. 4478-4486 [doi]

MimCo: Masked Image Modeling Pre-training with Contrastive TeacherQiang Zhou, Chaohui Yu, Hao Luo, Zhibin Wang, Hao Li. 4487-4495 [doi]

LS-GAN: Iterative Language-based Image Manipulation via Long and Short Term Consistency ReasoningGaoxiang Cong, Liang Li, Zhenhuan Liu, Yunbin Tu, Weijun Qin, Shenyuan Zhang, Chengang Yan, Wenyu Wang, Bin Jiang. 4496-4504 [doi]

Multimodal Hate Speech Detection via Cross-Domain Knowledge TransferChuanpeng Yang, Fuqing Zhu, Guihua Liu, Jizhong Han, Songlin Hu. 4505-4514 [doi]

CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-TrainingZhiyuan Ma, Jianjun Li, Guohui Li 0001, Kaiyan Huang. 4515-4524 [doi]

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion DesignXujie Zhang, Yu Sha, Michael C. Kampffmeyer, Zhenyu Xie, Zequn Jie, Chengwen Huang, Jianqing Peng, Xiaodan Liang. 4525-4535 [doi]

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video LocalizationDaizong Liu, Wei Hu. 4536-4545 [doi]

Distance Matters in Human-Object Interaction DetectionGuangzhi Wang, Yangyang Guo, Yongkang Wong, Mohan S. Kankanhalli. 4546-4554 [doi]

Token Embeddings Alignment for Cross-Modal RetrievalChen-Wei Xie, Jianmin Wu, Yun Zheng, Pan Pan, Xian-Sheng Hua 0001. 4555-4563 [doi]

From Token to Word: OCR Token Evolution via Contrastive Learning and Semantic Matching for Text-VQAZan-Xia Jin, Mike Zheng Shou, Fang Zhou, Satoshi Tsutsui, Jingyan Qin, Xu-Cheng Yin. 4564-4572 [doi]

IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-trainingXinyu Huang, Youcai Zhang, Ying Cheng, Weiwei Tian, Rui-Wei Zhao, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Xiaobo Zhang. 4573-4583 [doi]

CLOP: Video-and-Language Pre-Training with Knowledge RegularizationsGuohao Li, Hu Yang, Feng He, Zhifan Feng, Yajuan Lyu, Hua Wu 0003, Haifeng Wang 0001. 4584-4593 [doi]

Talk2Face: A Unified Sequence-based Framework for Diverse Face Generation and Analysis TasksYudong Li, Xianxu Hou, Zhe Zhao 0006, LinLin Shen, Xuefeng Yang, Kimmo Yan. 4594-4604 [doi]

TxVAD: Improved Video Action Detection by TransformersZhenyu Wu, Zhou Ren, Yi Wu, Zhangyang Wang, Gang Hua 0001. 4605-4613 [doi]

Relational Representation Learning in Visually-Rich DocumentsXin Li, Yan Zheng, Yiqing Hu, Haoyu Cao, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Bo Ren. 4614-4624 [doi]

Unified Multimodal Model with Unlikelihood Training for Visual DialogZihao Wang, Junli Wang, Changjun Jiang. 4625-4634 [doi]

Tackling Instance-Dependent Label Noise with Dynamic Distribution CalibrationManyi Zhang, Yuxin Ren, Zihao Wang, Chun Yuan. 4635-4644 [doi]

On Leveraging Variational Graph Embeddings for Open World Compositional Zero-Shot LearningMuhammad Umer Anwaar, Zhihui Pan, Martin Kleinsteuber. 4645-4654 [doi]

Comprehensive Relationship Reasoning for Composed Query Based Image RetrievalFeifei Zhang, Ming Yan, Ji Zhang, Changsheng Xu. 4655-4664 [doi]

Image Understanding by Captioning with Differentiable Architecture SearchRamtin Hosseini, Pengtao Xie. 4665-4673 [doi]

Atrous Pyramid Transformer with Spectral Convolution for Image InpaintingMuqi Huang, Lefei Zhang. 4674-4683 [doi]

QuadTreeCapsule: QuadTree Capsules for Deep Regression TrackingDing Ma 0001, Xiangqian Wu 0002. 4684-4693 [doi]

End-to-End 3D Face Reconstruction with Expressions and Specular Albedos from Single In-the-wild ImagesQixin Deng, Binh Huy Le, Aobo Jin, Zhigang Deng. 4694-4703 [doi]

Heterogeneous Learning for Scene Graph GenerationYunqing He, Tongwei Ren, Jinhui Tang 0001, Gangshan Wu. 4704-4713 [doi]

Equivariant and Invariant Grounding for Video Question AnsweringYicong Li 0004, Xiang Wang 0010, Junbin Xiao, Tat-Seng Chua. 4714-4722 [doi]

Align and Adapt: A Two-stage Adaptation Framework for Unsupervised Domain AdaptationYan Yu, Yuchen Zhai, Yin Zhang. 4723-4732 [doi]

Detach and Attach: Stylized Image Captioning without Paired Stylized DatasetYutong Tan, Zheng Lin, Peng Fu 0008, Mingyu Zheng, Lanrui Wang, Yanan Cao, Weiping Wang. 4733-4741 [doi]

PixelSeg: Pixel-by-Pixel Stochastic Semantic Segmentation for Ambiguous Medical ImagesWei Zhang, Xiaohong Zhang 0002, Sheng Huang 0001, Yuting Lu, Kun Wang 0021. 4742-4750 [doi]

A Probabilistic Model for Controlling Diversity and Accuracy of Ambiguous Medical Image SegmentationWei Zhang, Xiaohong Zhang, Sheng Huang 0001, Yuting Lu, Kun Wang. 4751-4759 [doi]

Crossmodal Few-shot 3D Point Cloud Semantic SegmentationZiyu Zhao, Zhenyao Wu, Xinyi Wu, Canyu Zhang, Song Wang. 4760-4768 [doi]

VQ-DcTr: Vector-Quantized Autoencoder With Dual-channel Transformer Points Splitting for 3D Point Cloud CompletionBen Fei, Weidong Yang, Wen-Ming Chen 0001, Lipeng Ma. 4769-4778 [doi]

Fine-grained Action Recognition with Robust Motion Representation Decoupling and ConcentrationBaoli Sun, Xinchen Ye, Tiantian Yan, Zhihui Wang, Haojie Li, Zhiyong Wang. 4779-4788 [doi]

Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text RetrievalSheng Fang, Shuhui Wang, Junbao Zhuo, Qingming Huang, Bin Ma, Xiaoming Wei, Xiaolin Wei. 4789-4800 [doi]

Domain Generalization via Frequency-domain-based Feature Disentanglement and InteractionJingye Wang, Ruoyi Du, Dongliang Chang, Kongming Liang, Zhanyu Ma. 4821-4829 [doi]

Immunofluorescence Capillary Imaging Segmentation: Cases StudyRunpeng Hou, Ziyuan Ye, Chengyu Yang, Linhao Fu, Chao Liu, Quanying Liu. 4830-4838 [doi]

Imitated Detectors: Stealing Knowledge of Black-box Object DetectorsSiyuan Liang, Aishan Liu, Jiawei Liang, Longkang Li, Yang Bai, Xiaochun Cao. 4839-4847 [doi]

Boosting Single-Frame 3D Object Detection by Simulating Multi-Frame Point CloudsWu Zheng, Li Jiang, Fanbin Lu, Yangyang Ye, Chi-Wing Fu. 4848-4856 [doi]

Towards Complex Document Understanding By Discrete ReasoningFengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang, Tat-Seng Chua. 4857-4866 [doi]

RPPformer-Flow: Relative Position Guided Point Transformer for Scene Flow EstimationHanlin Li, Guanting Dong, Yueyi Zhang, Xiaoyan Sun 0001, Zhiwei Xiong. 4867-4876 [doi]

mmLayout: Multi-grained MultiModal Transformer for Document UnderstandingWenjin Wang, Zhengjie Huang, Bin Luo, Qianglong Chen, Qiming Peng, Yinxu Pan, Weichong Yin, Shikun Feng, Yu Sun, Dianhai Yu, Yin Zhang. 4877-4886 [doi]

Boosting Video-Text Retrieval with Explicit High-Level SemanticsHaoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji, Jungong Han, Errui Ding. 4887-4898 [doi]

Rethinking the Mechanism of the Pattern Pruning and the Circle Importance HypothesisHengyi Zhou, Longjun Liu, Haonan Zhang, Nanning Zheng 0001. 4899-4908 [doi]

A Region-based Document VQAXinya Wu, Duo Zheng, Ruonan Wang, Jiashen Sun, Minzhen Hu, Fangxiang Feng, Xiaojie Wang, Huixing Jiang, Fan Yang. 4909-4920 [doi]

CyclicShift: A Data Augmentation Method For Enriching Data PatternsHui Lu, Xuan Cheng, Wentao Xia, Pan Deng, Minghui Liu, Tianshu Xie, Xiaomin Wang, Ming Liu 0002. 4921-4929 [doi]

Counterexample Contrastive Learning for Spurious Correlation EliminationJinqiang Wang, Rui Hu, Chaoquan Jiang, Rui Hu, Jitao Sang. 4930-4938 [doi]

MC-SLT: Towards Low-Resource Signer-Adaptive Sign Language TranslationTao Jin 0004, Zhou Zhao, Meng Zhang, Xingshan Zeng. 4939-4947 [doi]

Deep Evidential Learning with Noisy Correspondence for Cross-modal RetrievalYang Qin, Dezhong Peng, Xi Peng 0001, Xu Wang 0028, Peng Hu 0002. 4948-4956 [doi]

CAliC: Accurate and Efficient Image-Text Retrieval via Contrastive Alignment and Visual Contexts ModelingHongyu Gao, Chao Zhu 0003, Mengyin Liu, Weibo Gu, Hongfa Wang, Wei Liu, Xu-Cheng Yin. 4957-4966 [doi]

Correspondence Matters for Video Referring Expression ComprehensionMeng Cao, Ji-jiang, Long Chen, Yuexian Zou. 4967-4976 [doi]

Point to Rectangle Matching for Image Text RetrievalZheng Wang, Zhenwei Gao, Xing Xu, Yadan Luo, Yang Yang, Heng Tao Shen. 4977-4986 [doi]

Shifting Perspective to See Difference: A Novel Multi-view Method for Skeleton based Action RecognitionRuijie Hou, Yanran Li, Ningyu Zhang, Yulin Zhou, Xiaosong Yang, Zhao Wang. 4987-4995 [doi]

Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training ModelsYi Zhang, Junyang Wang, Jitao Sang. 4996-5004 [doi]

Towards Adversarial Attack on Vision-Language Pre-training ModelsJiaming Zhang, Qi Yi, Jitao Sang. 5005-5013 [doi]

TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text RepresentationWei Wang, Yu Zhou 0015, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang 0005. 5014-5025 [doi]

Efficient Modeling of Future Context for Image CaptioningZhengcong Fei. 5026-5035 [doi]

Relative Pose Estimation for Multi-Camera Systems from Point Correspondences with Scale RatioBanglei Guan, Ji Zhao 0001. 5036-5044 [doi]

Towards Open-Ended Text-to-Face Generation, Combination and ManipulationJun Peng, Han Pan, Yiyi Zhou, Jing He, Xiaoshuai Sun, Yan Wang, Yongjian Wu, Rongrong Ji. 5045-5054 [doi]

Improving Fusion of Region Features and Grid Features via Two-Step Interaction for Image-Text RetrievalDongqing Wu, Huihui Li, Cang Gu, Lei Guo 0002, Hang Liu. 5055-5064 [doi]

A Numerical DEs Perspective on Unfolded Linearized ADMM Networks for Inverse ProblemsWeixin An, Yingjie Yue, Yuanyuan Liu 0001, Fanhua Shang, Hongying Liu. 5065-5073 [doi]

UDoc-GAN: Unpaired Document Illumination Correction with Background Light PriorYonghui Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li. 5074-5082 [doi]

Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in VideosJuncheng Li 0006, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang, Wenqiao Zhang, Haochen Shi, Shengyu Zhang, Longhui Wei, Qi Tian, Yueting Zhuang. 5083-5092 [doi]

Balanced Gradient Penalty Improves Deep Long-Tailed LearningDong Wang, Yicheng Liu, Liangji Fang, Fanhua Shang, Yuanyuan Liu 0001, Hongying Liu. 5093-5101 [doi]

Uncertainty-Aware 3D Human Pose Estimation from Monocular VideoJinlu Zhang, Yujin Chen, Zhigang Tu 0001. 5102-5113 [doi]

MVSPlenOctree: Fast and Generic Reconstruction of Radiance Fields in PlenOctree from Multi-view StereoWenpeng Xing, Jie Chen 0026. 5114-5122 [doi]

A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token CompletionJunkun Jiang, Jie Chen, Yike Guo. 5123-5131 [doi]

Learning Dynamic Prior Knowledge for Text-to-Face Pixel SynthesisJun Peng, Xiaoxiong Du, Yiyi Zhou, Jing He, Yunhang Shen, Xiaoshuai Sun, Rongrong Ji. 5132-5141 [doi]

Correct Twice at Once: Learning to Correct Noisy Labels for Robust Deep LearningJingzheng Li, Hailong Sun 0001. 5142-5151 [doi]

Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with KnowledgeZhihong Chen, Guanbin Li, Xiang Wan. 5152-5161 [doi]

Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an Auxiliary SpaceLingwei Dang, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li. 5162-5171 [doi]

Towards High-Fidelity Face Normal EstimationMeng Wang, Chaoyue Wang, Xiaojie Guo, Jiawan Zhang. 5172-5180 [doi]

Generating Transferable Adversarial Examples against Vision TransformersYuxuan Wang, Jiakai Wang, Zixin Yin, Ruihao Gong, Jingyi Wang, Aishan Liu, Xianglong Liu. 5181-5190 [doi]

Video-Guided Curriculum Learning for Spoken Video GroundingYan Xia, Zhou Zhao, Shangwei Ye, Yang Zhao, Haoyuan Li, Yi Ren 0006. 5191-5200 [doi]

Multi-Scale Coarse-to-Fine Transformer for Frame InterpolationChen Li 0021, Li Song 0001, Xueyi Zou, Jiaming Guo, Youliang Yan, Wenjun Zhang. 5201-5209 [doi]

Progressive Tree-Structured Prototype Network for End-to-End Image CaptioningPengpeng Zeng, Jinkuan Zhu, Jingkuan Song, Lianli Gao. 5210-5218 [doi]

S-CCR: Super-Complete Comparative Representation for Low-Light Image Quality Inference In-the-wildMiaohui Wang, Zhuowei Xu, Yuanhao Gong, Wuyuan Xie. 5219-5227 [doi]

Talking Head from Speech Audio using a Pre-trained Image GeneratorMohammed M. Alghamdi, He Wang 0002, Andrew J. Bulpitt, David C. Hogg. 5228-5236 [doi]

Exploring High-quality Target Domain Information for Unsupervised Domain Adaptive Semantic SegmentationJunjie Li, Zilei Wang, Yuan Gao, Xiaoming Hu. 5237-5245 [doi]

Semantics-Driven Generative Replay for Few-Shot Class Incremental LearningAishwarya Agarwal, Biplab Banerjee, Fabio Cuzzolin, Subhasis Chaudhuri. 5246-5254 [doi]

Global-Local Cross-View Fisher Discrimination for View-Invariant Action RecognitionLingling Gao, Yanli Ji, Yang Yang 0002, Heng Tao Shen. 5255-5264 [doi]

Reflecting on Experiences for Response GenerationChenchen Ye, Lizi Liao, Suyu Liu, Tat-Seng Chua. 5265-5273 [doi]

AI-VQA: Visual Question Answering based on Agent Interaction with InterpretabilityRenGang Li, Cong Xu, Zhenhua Guo 0003, Baoyu Fan, Runze Zhang, Wei Liu, Yaqian Zhao, Weifeng Gong, Endong Wang. 5274-5282 [doi]

Situational Perception Guided Image MattingBo Xu, Jiake Xie, Han Huang, Ziwen Li, Cheng Lu 0006, Yong Tang, Yandong Guo. 5283-5293 [doi]

ROMA: Cross-Domain Region Similarity Matching for Unpaired Nighttime Infrared to Daytime Visible Video TranslationZhenjie Yu, Kai Chen, Shuang Li, Bingfeng Han, Chi Harold Liu, Shuigen Wang. 5294-5302 [doi]

3GAN: Attribute-Aware Anonymization Networks for Face De-identificationLiming Zhai, Qing Guo 0005, Xiaofei Xie, Lei Ma 0003, Yi Estelle Wang, Yang Liu 0003. 5303-5313 [doi]

CAIBC: Capturing All-round Information Beyond Color for Text-based Person RetrievalZijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang, Yifeng Li. 5314-5322 [doi]

PreyNet: Preying on Camouflaged ObjectsMiao Zhang, Shuang Xu, Yongri Piao, Dongxiang Shi, Shusen Lin, Huchuan Lu. 5323-5332 [doi]

Not All Pixels Are Matched: Dense Contrastive Learning for Cross-Modality Person Re-IdentificationHanzhe Sun, Jun Liu, Zhizhong Zhang, Chengjie Wang, Yanyun Qu, Yuan Xie, Lizhuang Ma. 5333-5341 [doi]

Asymmetric Adversarial-based Feature Disentanglement Learning for Cross-Database Micro-Expression RecognitionShiting Xu, Zhiheng Zhou, Junyuan Shang. 5342-5350 [doi]

Backdoor Attacks on Crowd CountingYuhua Sun, Tailai Zhang, Xingjun Ma, Pan Zhou, Jian Lou, Zichuan Xu, Xing Di, Yu Cheng, Lichao Sun. 5351-5360 [doi]

Robust Industrial UAV/UGV-Based Unsupervised Domain Adaptive Crack Recognitions with Depth and Edge Awareness: From System and Database Constructions to Real-Site InspectionsKangcheng Liu. 5361-5370 [doi]

Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action LocalizationZiqiang Li, Yongxin Ge, Jiaruo Yu, Zhongming Chen. 5371-5379 [doi]

Towards Accurate Post-Training Quantization for Vision TransformerYifu Ding, Haotong Qin, Qinghua Yan, Zhenhua Chai, Junjie Liu, Xiaolin Wei, Xianglong Liu. 5380-5388 [doi]

Neighbor Correspondence Matching for Flow-based Video Frame SynthesisZhaoyang Jia, Yan Lu, Houqiang Li. 5389-5397 [doi]

ReFormer: The Relational Transformer for Image CaptioningXuewen Yang, Yingru Liu, Xin Wang. 5398-5406 [doi]

Transcript to Video: Efficient Clip Sequencing from TextsYu Xiong, Fabian Caba Heilbron, Dahua Lin. 5407-5416 [doi]

Domain Reconstruction and Resampling for Robust Salient Object DetectionSenbo Yan, Liang Peng, Chuer Yu, Zheng Yang, Haifeng Liu, Deng Cai 0001. 5417-5426 [doi]

Phase-based Memory Network for Video DehazingYe Liu, Liang Wan, Huazhu Fu, Jing Qin 0001, Lei Zhu 0003. 5427-5435 [doi]

UConNet: Unsupervised Controllable Network for Image and Video DerainingJun-Hao Zhuang, Yi-Si Luo, Xile Zhao, Tai-Xiang Jiang, Bichuan Guo. 5436-5445 [doi]

Weakly-supervised Disentanglement Network for Video Fingerspelling DetectionZiqi Jiang, Shengyu Zhang, Siyuan Yao, Wenqiao Zhang, Sihan Zhang, Juncheng Li 0006, Zhou Zhao, Fei Wu 0001. 5446-5455 [doi]

AGTGAN: Unpaired Image Translation for Photographic Ancient Character GenerationHongxiang Huang, Daihui Yang, Gang Dai, Zhen Han, Yuyi Wang 0001, Kin-Man Lam 0001, Fan Yang, Shuangping Huang, Yongge Liu, Mengchao He. 5456-5467 [doi]

CLIPTexture: Text-Driven Texture SynthesisYiren Song. 5468-5476 [doi]

OCR-Pose: Occlusion-aware Contrastive Representation for Unsupervised 3D Human Pose EstimationJunjie Wang, Zhenbo Yu, Zhengyan Tong, Hang Wang, Jinxian Liu, Wenjun Zhang, Xiaoyan Wu. 5477-5485 [doi]

DualSign: Semi-Supervised Sign Language Production with Balanced Multi-Modal Multi-Task Dual TransformationWencan Huang, Zhou Zhao, Jinzheng He, Mingmin Zhang. 5486-5495 [doi]

A Lightweight Graph Transformer Network for Human Mesh Reconstruction from 2D Human PoseCe Zheng, Matías Mendieta, Pu Wang, Aidong Lu, Chen Chen 0001. 5496-5507 [doi]

Repainting and Imitating Learning for Lane DetectionYue He, Minyue Jiang, Xiaoqing Ye, Liang Du, Zhikang Zou, Wei Zhang, Xiao Tan, Errui Ding. 5508-5516 [doi]

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text RetrievalHao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao. 5517-5526 [doi]

BlumNet: Graph Component Detection for Object Skeleton ExtractionYulu Zhang, Liang Sang, Marcin Grzegorzek, John See, Cong Yang. 5527-5536 [doi]

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative GroundingZihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Si Liu. 5537-5546 [doi]

Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update and Hyper-class RepresentationGuangchen Shi, Yirui Wu, Jun Liu, Shaohua Wan, Wenhai Wang, Tong Lu. 5547-5556 [doi]

Synthetic Data Supervised Salient Object DetectionZhenyu Wu, Lin Wang, Wei Wang, Tengfei Shi, Chenglizhao Chen, Aimin Hao, Shuo Li. 5557-5565 [doi]

Learning Granularity-Unified Representations for Text-to-Image Person Re-identificationZhiyin Shao, Xinyu Zhang, Meng Fang, Zhifeng Lin, Jian Wang, Changxing Ding. 5566-5574 [doi]

Class Gradient Projection For Continual LearningCheng Chen, Ji Zhang, Jingkuan Song, Lianli Gao. 5575-5583 [doi]

Flexible Hybrid Lenses Light Field Super-Resolution using Layered RefinementSong Chang, Youfang Lin, Shuo Zhang 0003. 5584-5592 [doi]

DS-MVSNet: Unsupervised Multi-view Stereo via Depth SynthesisJingliang Li, Zhengda Lu, Yiqun Wang, Ying Wang, Jun Xiao 0005. 5593-5601 [doi]

Enhancing Image Rescaling using Dual Latent Variables in Invertible Neural NetworkMin Zhang, Zhihong Pan 0001, Xin Zhou, C. C. Jay Kuo. 5602-5610 [doi]

ScatterNet: Point Cloud Learning via ScattersQi Liu, Nianjuan Jiang, Jiangbo Lu, Mingang Chen, Ran Yi, Lizhuang Ma. 5611-5619 [doi]

Making The Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain AdaptationWenxuan Ma, Jinming Zhang, Shuang Li 0008, Chi Harold Liu, Yulin Wang, Wei Li 0111. 5620-5629 [doi]

Gloss Semantic-Enhanced Network with Online Back-Translation for Sign Language ProductionShengeng Tang, Richang Hong, Dan Guo, Meng Wang. 5630-5638 [doi]

Paint and Distill: Boosting 3D Object Detection with Semantic Passing NetworkBo Ju, Zhikang Zou, Xiaoqing Ye, Minyue Jiang, Xiao Tan, Errui Ding, Jingdong Wang 0001. 5639-5648 [doi]

Dual Contrastive Learning for Spatio-temporal RepresentationShuangrui Ding, Rui Qian, Hongkai Xiong. 5649-5658 [doi]

Fine-Grained Fragment Diffusion for Cross Domain Crowd CountingHuilin Zhu, Jingling Yuan, Zhengwei Yang, Xian Zhong, Zheng Wang. 5659-5668 [doi]

Depth-inspired Label Mining for Unsupervised RGB-D Salient Object DetectionTeng Yang, Yue Wang 0038, Lu Zhang 0053, Jinqing Qi, Huchuan Lu. 5669-5677 [doi]

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech SynthesisYongqi Wang, Zhou Zhao. 5678-5687 [doi]

Interact with Open Scenes: A Life-long Evolution Framework for Interactive Segmentation ModelsRuitong Gan, Junsong Fan, Yuxi Wang, Zhaoxiang Zhang. 5688-5697 [doi]

Visual Dialog for Spotting the Differences between Pairs of Similar ImagesDuo Zheng, Fandong Meng, Qingyi Si, Hairun Fan, Zipeng Xu, Jie Zhou, Fangxiang Feng, Xiaojie Wang. 5698-5709 [doi]

Time and Memory Efficient Large-Scale Canonical Correlation Analysis in Fourier DomainXiang-jun Shen, Zhaorui Xu, Liangjun Wang, Zechao Li. 5710-5718 [doi]

Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective AnalysisJie Zhang, Yin Zhao, Kai Qian. 5739-5750 [doi]

A Tree-Based Structure-Aware Transformer Decoder for Image-To-Markup GenerationShuhan Zhong, Sizhe Song, Guanyao Li, S.-H. Gary Chan. 5751-5760 [doi]

Zero-shot Video Classification with Appropriate Web and Task Knowledge TransferJunbao Zhuo, Yan Zhu, Shuhao Cui, Shuhui Wang, Bin M. A, Qingming Huang, Xiaoming Wei, Xiaolin Wei. 5761-5772 [doi]

Long-term Leap Attention, Short-term Periodic Shift for Video ClassificationHao Zhang, Lechao Cheng, Yanbin Hao, Chong-Wah Ngo. 5773-5782 [doi]

Boat in the Sky: Background Decoupling and Object-aware Pooling for Weakly Supervised Semantic SegmentationJianjun Xu, Hongtao Xie, Hai Xu, Yuxin Wang, Sun'ao Liu, Yongdong Zhang 0001. 5783-5792 [doi]

Dynamic Scene Graph Generation via Temporal Prior InferenceShuang Wang, Lianli Gao, Xinyu Lyu, Yuyu Guo 0001, Pengpeng Zeng, Jingkuan Song. 5793-5801 [doi]

Source-Free Active Domain Adaptation via Energy-Based Locality Preserving TransferXinyao Li, Zhekai Du, Jingjing Li, Lei Zhu, Ke Lu. 5802-5810 [doi]

Inferring Speaking Styles from Multi-modal Conversational Context by Multi-scale Relational Graph Convolutional NetworksJingbei Li, Yi Meng, Xixin Wu, Zhiyong Wu 0001, Jia Jia, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang. 5811-5820 [doi]

Understanding News Text and Images Connection with Context-enriched Multimodal TransformersCláudio Bartolomeu, Rui Nóbrega, David Semedo. 5821-5832 [doi]

Deepfake Video Detection with Spatiotemporal Dropout TransformerDaichi Zhang, Fanzhao Lin, Yingying Hua, Pengju Wang, Dan Zeng 0001, Shiming Ge. 5833-5841 [doi]

ELMformer: Efficient Raw Image Restoration with a Locally Multiplicative TransformerJiaqi Ma 0002, Shengyuan Yan, Lefei Zhang, Guoli Wang, Qian Zhang 0009. 5842-5852 [doi]

SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual CategorizationHongbo Sun 0002, Xiangteng He, Yuxin Peng. 5853-5861 [doi]

Pay Attention to Your Positive Pairs: Positive Pair Aware Contrastive Knowledge DistillationZhiPeng Yu, Qianqian Xu, Yangbangyan Jiang, Haoyu Qin, Qingming Huang. 5862-5870 [doi]

JPEG Compression-aware Image Forgery LocalizationMenglu Wang 0003, Xueyang Fu, Jiawei Liu, Zheng-Jun Zha. 5871-5879 [doi]

Hierarchical Hourglass Convolutional Network for Efficient Video ClassificationYi Tan, Yanbin Hao, Hao Zhang, Shuo Wang 0008, Xiangnan He 0001. 5880-5891 [doi]

TextBlock: Towards Scene Text Spotting without Fine-grained DetectionJin Wei, Yuan Zhang 0013, Yu Zhou 0015, Gangyan Zeng, Zhi Qiao, Youhui Guo, Haiying Wu, Hongbin Wang, Weiping Wang 0005. 5892-5902 [doi]

Progressive Cross-modal Knowledge Distillation for Human Action RecognitionJianyuan Ni, Anne H. H. Ngu, Yan Yan. 5903-5912 [doi]

Finding the Host from the Lesion by Iteratively Mining the Registration GraphZijie Yang, Lingxi Xie, Xinyue Huo, Sheng Tang, Qi Tian 0001, Yongdong Zhang 0001. 5913-5922 [doi]

3D Body Reconstruction Revisited: Exploring the Test-time 3D Body Mesh Refinement Strategy via Surrogate AdaptationJonathan Samuel Lumentut, In Kyu Park. 5923-5933 [doi]

Domain Adaptation for Time-Series Classification to Mitigate Covariate ShiftFelix Ott, David Rügamer, Lucas Heublein, Bernd Bischl, Christopher Mutschler. 5934-5943 [doi]

Face Anthropometry Aware Audio-visual Age VerificationPavel Korshunov, Sébastien Marcel. 5944-5951 [doi]

PDD-GAN: Prior-based GAN Network with Decoupling Ability for Single Image DehazingXiaoxuan Chai, Junchi Zhou, Hang Zhou, Jui-Hsin Lai. 5952-5960 [doi]

Active Patterns Perceived for Stochastic Video PredictionYechao Xu, Zhengxing Sun, Qian Li, Yunhan Sun, Shoutong Luo. 5961-5969 [doi]

Few-shot Open-set Recognition Using Background as UnknownsNan Song, Chi Zhang, Guosheng Lin. 5970-5979 [doi]

Self-supervised Scene Text Segmentation with Object-centric Layered Representations Augmented by Text RegionsYibo Wang, Yunhu Ye, Yuanpeng Mao, Yanwei Yu, Yuanping Song. 5980-5989 [doi]

Self-Supervised Representation Learning for Skeleton-Based Group Activity RecognitionCunling Bian, Wei Feng 0005, Song Wang. 5990-5998 [doi]

Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object DetectionZehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao. 5999-6008 [doi]

Adaptive Mixture of Experts Learning for Generalizable Face Anti-SpoofingQianyu Zhou 0001, Ke-Yue Zhang, Taiping Yao, Ran Yi, Shouhong Ding, Lizhuang Ma. 6009-6018 [doi]

Multi-Granular Semantic Mining for Weakly Supervised Semantic SegmentationMeijie Zhang, Jianwu Li, Tianfei Zhou. 6019-6028 [doi]

Consistency Learning based on Class-Aware Style Variation for Domain Generalizable Semantic SegmentationSiwei Su, Haijian Wang, Meng Yang. 6029-6038 [doi]

Delving into the Continuous Domain AdaptationYinsong Xu 0001, Zhuqing Jiang, Aidong Men, Yang Liu, Qingchao Chen. 6039-6049 [doi]

Digging Into Normal Incorporated Stereo MatchingZihua Liu, Songyan Zhang, Zhicheng Wang, Masatoshi Okutomi. 6050-6060 [doi]

Box-FaceS: A Bidirectional Method for Box-Guided Face Component EditingWenjing Huang, Shikui Tu, Lei Xu 0001. 6061-6071 [doi]

Learning Parallax Transformer Network for Stereo Image JPEG Artifacts RemovalXuhao Jiang, Weimin Tan, Ri Cheng, Shili Zhou, Bo Yan 0001. 6072-6082 [doi]

Geometry-Aware Reference Synthesis for Multi-View Image Super-ResolutionRi Cheng, Yuqi Sun, Bo Yan 0001, Weimin Tan, Chenxi Ma. 6083-6093 [doi]

Chinese Character Recognition with Augmented Character Profile MatchingXinyan Zu, Haiyang Yu, Bin Li, Xiangyang Xue. 6094-6102 [doi]

Hierarchical Scene Normality-Binding Modeling for Anomaly Detection in Surveillance VideosQianyue Bao, Fang Liu, Yang Liu, Licheng Jiao, Xu Liu, Lingling Li 0002. 6103-6112 [doi]

ParseMVS: Learning Primitive-aware Surface Representations for Sparse Multi-view StereopsisHaiyang Ying, Jinzhi Zhang, Yuzhe Chen, Zheng Cao, Jing Xiao, Ruqi Huang, Lu Fang. 6113-6124 [doi]

Set-Based Face Recognition Beyond Disentanglement: Burstiness Suppression With Variance VocabularyJiong Wang, Zhou Zhao, Fei Wu 0001. 6125-6135 [doi]

Gait Recognition in the Wild with Multi-hop Temporal SwitchJinkai Zheng, Xinchen Liu, Xiaoyan Gu, Yaoqi Sun, Chuang Gan, Jiyong Zhang, Wu Liu, Chenggang Yan 0001. 6136-6145 [doi]

Generic Image Manipulation Localization through the Lens of Multi-scale Spatial InconsistenceZan Gao, Shenghao Chen, Yangyang Guo, Weili Guan, Jie Nie, Anan Liu. 6146-6154 [doi]

Beyond Geo-localization: Fine-grained Orientation of Street-view Images by Cross-view Matching with Satellite ImageryWenmiao Hu, Yichen Zhang, Yuxuan Liang, Yifang Yin, Andrei Georgescu, An Tran, Hannes Kruppa, See-Kiong Ng, Roger Zimmermann. 6155-6164 [doi]

Region-based Pixels Integration Mechanism for Weakly Supervised Semantic SegmentationChen Qian, Hui Zhang. 6165-6173 [doi]

IVT: An End-to-End Instance-guided Video Transformer for 3D Pose EstimationZhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu. 6174-6182 [doi]

Point Cloud Completion via Multi-Scale Edge Convolution and AttentionRui Cao, Kaiyi Zhang, Yang Chen, Ximing Yang, Cheng Jin. 6183-6192 [doi]

CRNet: Unsupervised Color Retention Network for Blind Motion DeblurringSuiyi Zhao, Zhao Zhang, Richang Hong, Mingliang Xu, Haijun Zhang, Meng Wang, Shuicheng Yan. 6193-6201 [doi]

SGINet: Toward Sufficient Interaction Between Single Image Deraining and Semantic SegmentationYanyan Wei, Zhao Zhang, Huan Zheng, Richang Hong, Yi Yang, Meng Wang. 6202-6210 [doi]

Robust Low-Rank Convolution Network for Image DenoisingJiahuan Ren, Zhao Zhang, Richang Hong, Mingliang Xu, Haijun Zhang, Mingbo Zhao, Meng Wang. 6211-6219 [doi]

FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind Image DeblurringSuiyi Zhao, Zhao Zhang, Richang Hong, Mingliang Xu, Yi Yang, Meng Wang. 6220-6229 [doi]

Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action RecognitionHuabin Liu 0001, Weixian Lv, John See, Weiyao Lin. 6230-6240 [doi]

MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video ParsingJiashuo Yu, Ying Cheng, Rui-Wei Zhao, Rui Feng, Yuejie Zhang. 6241-6249 [doi]

Lip-to-Speech Synthesis for Arbitrary Speakers in the WildSindhu B. Hegde, K. R. Prajwal, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C. V. Jawahar. 6250-6258 [doi]

Attribute-guided Dynamic Routing Graph Network for Transductive Few-shot LearningChaofan Chen, Xiaoshan Yang, Ming Yan, Changsheng Xu. 6259-6268 [doi]

OS-MSL: One Stage Multimodal Sequential Link Framework for Scene Segmentation and ClassificationYe Liu, Lingfeng Qiao, Di Yin, Zhuoxuan Jiang, Xinghua Jiang, Deqiang Jiang, Bo Ren 0002. 6269-6277 [doi]

Modality-aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence DetectionJiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang. 6278-6287 [doi]

Parameterization of Cross-token Relations with Relative Positional Encoding for Vision MLPZhicai Wang, Yanbin Hao, Xingyu Gao, Hao Zhang, Shuo Wang 0008, Tingting Mu, Xiangnan He 0001. 6288-6299 [doi]

Real-time Semantic Segmentation with Parallel Multiple Views Feature AugmentationJian-Jun Qiao, Zhi-Qi Cheng, Xiao Wu 0001, Wei Li 0110, Ji Zhang. 6300-6308 [doi]

Exposure-Consistency Representation Learning for Exposure CorrectionJie Huang, Man Zhou, Yajing Liu, Mingde Yao, Feng Zhao, Zhiwei Xiong. 6309-6317 [doi]

Global Meets Local: Effective Multi-Label Image Classification via Category-Aware Weak SupervisionJiawei Zhan, Jun Liu, Wei Tang, Guannan Jiang, Xi Wang, Bin-Bin Gao, Tianliang Zhang, Wenlong Wu, Wei Zhang, Chengjie Wang, Yuan Xie. 6318-6326 [doi]

Domain-Specific Conditional Jigsaw Adaptation for Enhancing transferability and DiscriminabilityQi He, Zhaoquan Yuan, Xiao Wu 0001, Jun-Yan He. 6327-6336 [doi]

Effective Video Abnormal Event Detection by Learning A Consistency-Aware High-Level Feature ExtractorGuang Yu, Siqi Wang, Zhiping Cai, Xinwang Liu, Chengkun Wu. 6337-6346 [doi]

Less is More: Consistent Video Depth Estimation with Masked Frames ModelingYiran Wang, Zhiyu Pan, Xingyi Li, Zhiguo Cao 0001, Ke Xian, Jianming Zhang 0001. 6347-6358 [doi]

Deep Multi-Resolution Mutual Learning for Image InpaintingHuan Zheng, Zhao Zhang, Haijun Zhang, Yi Yang, Shuicheng Yan, Meng Wang. 6359-6367 [doi]

TGDM: Target Guided Dynamic Mixup for Cross-Domain Few-Shot LearningLinhai Zhuo, Yuqian Fu, Jingjing Chen, Yixin Cao 0005, Yu-Gang Jiang. 6368-6376 [doi]

SIR-Former: Stereo Image Restoration Using TransformerZizheng Yang, Mingde Yao, Jie Huang, Man Zhou, Feng Zhao. 6377-6385 [doi]

Learning Occlusion-aware Coarse-to-Fine Depth Map for Self-supervised Monocular Depth EstimationZhengming Zhou, Qiulei Dong. 6386-6395 [doi]

Guess-It-Generator: Generating in a Lewis Signaling Framework through Logical ReasoningArghya Pal, Sailaja Rajanala, Raphael C.-W. Phan, KokSheik Wong. 6396-6405 [doi]

Long-Term Person Re-identification with Dramatic Appearance Change: Algorithm and BenchmarkMengmeng Liu, Zhi Ma, Tao Li, Yanfeng Jiang, Kai Wang. 6406-6415 [doi]

PaCL: Part-level Contrastive Learning for Fine-grained Few-shot Image ClassificationChuanming Wang, Huiyuan Fu, Huadong Ma. 6416-6424 [doi]

FMNet: Frequency-Aware Modulation Network for SDR-to-HDR TranslationGang Xu, Qibin Hou, Le Zhang, Ming-Ming Cheng. 6425-6435 [doi]

CrossNet: Boosting Crowd Counting with LocalizationJi Zhang, Zhi-Qi Cheng, Xiao Wu 0001, Wei Li 0110, Jian-Jun Qiao. 6436-6444 [doi]

NeRF-SR: High Quality Neural Radiance Fields using SupersamplingChen Wang, Xian Wu, Yuanchen Guo, Song-Hai Zhang, Yu-Wing Tai, Shi-Min Hu 0001. 6445-6454 [doi]

Rail Detection: An Efficient Row-based Network and a New BenchmarkXinpeng Li, Xiaojiang Peng. 6455-6463 [doi]

Robust Attention Deraining Network for Synchronous Rain Streaks and Raindrops RemovalYanyan Wei, Zhao Zhang, Mingliang Xu, Richang Hong, Jicong Fan, Shuicheng Yan. 6464-6472 [doi]

TSRFormer: Table Structure Recognition with TransformersWeihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun 0003, Qiang Huo. 6473-6482 [doi]

Structure- and Texture-Aware Learning for Low-Light Image EnhancementJinghao Zhang, Jie Huang, Mingde Yao, Man Zhou, Feng Zhao. 6483-6492 [doi]

CLUT-Net: Learning Adaptively Compressed Representations of 3DLUTs for Lightweight Image EnhancementFengyi Zhang, Hui Zeng, Tianjun Zhang, Lin Zhang. 6493-6501 [doi]

Automatic Piano Fingering from Partially Annotated Scores using Autoregressive Neural NetworksPedro Ramoneda, Dasaem Jeong, Eita Nakamura, Xavier Serra, Marius Miron. 6502-6510 [doi]

Extreme-scale Talking-Face Video Upsampling with Audio-Visual PriorsSindhu B. Hegde, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C. V. Jawahar. 6511-6520 [doi]

Enhancement by Your Aesthetic: An Intelligible Unsupervised Personalized Enhancer for Low-Light ImagesNaishan Zheng, Jie Huang, Qi Zhu, Man Zhou, Feng Zhao, Zheng-Jun Zha. 6521-6529 [doi]

Scale-flow: Estimating 3D Motion from VideoHan Ling, Quansen Sun, Zhenwen Ren, Yazhou Liu, Hongyuan Wang, Zichen Wang. 6530-6538 [doi]

SlimSeg: Slimmable Semantic Segmentation with Boundary SupervisionDanna Xue, Fei Yang 0004, Pei Wang, Luis Herranz, Jinqiu Sun, Yu Zhu, Yanning Zhang. 6539-6548 [doi]

Saliency in Augmented RealityHuiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Jing Li, Guangtao Zhai. 6549-6558 [doi]

T-former: An Efficient Transformer for Image InpaintingYe Deng 0005, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang. 6559-6568 [doi]

Cycle Self-Training for Semi-Supervised Object Detection with Distribution Consistency ReweightingHao Liu, Bin Chen, Bo Wang, Chunpeng Wu, Feng Dai, Peng Wu. 6569-6578 [doi]

VMRF: View Matching Neural Radiance FieldsJiahui Zhang, Fangneng Zhan, Rongliang Wu, Yingchen Yu, Wenqing Zhang, Bai Song, Xiaoqin Zhang, Shijian Lu. 6579-6587 [doi]

ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain Few-Shot LearningYuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, Yu-Gang Jiang. 6609-6617 [doi]

Towards Causality Inference for Very Important Person LocalizationXiao Wang, Zheng Wang, Wu Liu, Xin Xu, Qijun Zhao, Shin'ichi Satoh 0001. 6618-6626 [doi]

MMDV: Interpreting DNNs via Building Evaluation Metrics, Manual Manipulation and Decision VisualizationKeyang Cheng, Yu Si, Hao Zhou, Rabia Tahir. 6627-6635 [doi]

Learning Dual Convolutional Dictionaries for Image De-rainingChengjie Ge, Xueyang Fu, Zheng-Jun Zha. 6636-6644 [doi]

Source-Free Domain Adaptation for Real-World Image DehazingHu Yu, Jie Huang, Yajing Liu, Qi Zhu, Man Zhou, Feng Zhao. 6645-6654 [doi]

Knowledge Guided Representation Disentanglement for Face Recognition from Low Illumination ImagesXiangyu Miao, Shangfei Wang. 6655-6663 [doi]

APPTracker: Improving Tracking Multiple Objects in Low-Frame-Rate VideosTao Zhou, Wenhan Luo, Zhiguo Shi 0001, Jiming Chen 0001, Qi Ye. 6664-6674 [doi]

ICNet: Joint Alignment and Reconstruction via Iterative Collaboration for Video Super-ResolutionJiaxu Leng, Jia Wang, Xinbo Gao 0001, Bo Hu 0008, Ji Gan, Chenqiang Gao. 6675-6684 [doi]

Estimation of Reliable Proposal Quality for Temporal Action DetectionJunshan Hu, Chaoxu Guo, Liansheng Zhuang, Biao Wang, Tiezheng Ge, Yuning Jiang, Houqiang Li. 6685-6695 [doi]

Semi-supervised Semantic Segmentation via Prototypical Contrastive LearningZenggui Chen, Zhouhui Lian. 6696-6705 [doi]

Towards Understanding Cross Resolution Feature Matching for Surveillance Face RecognitionChiawei Kuo, Yi-Ting Tsai, Hong-Han Shuai, Yi-Ren Yeh, Ching-Chun Huang. 6706-6716 [doi]

Single Image Shadow Detection via Complementary MechanismYurui Zhu, Xueyang Fu, Chengzhi Cao, Xi Wang, Qibin Sun, Zheng-Jun Zha. 6717-6726 [doi]

Distilling Resolution-robust Identity Knowledge for Texture-Enhanced Face HallucinationQiqi Bao, Rui Zhu 0006, Bowen Gang, Pengyang Zhao, Wenming Yang, Qingmin Liao. 6727-6736 [doi]

Phoneme-Aware Adaptation with Discrepancy Minimization and Dynamically-Classified Vector for Text-independent Speaker VerificationJia Wang, Tianhao Lan, Jie Chen, Chengwen Luo, Chao Wu, JianQiang Li. 6737-6745 [doi]

Anomaly Warning: Learning and Memorizing Future Semantic Patterns for Unsupervised Ex-ante Potential Anomaly PredictionJiaxu Leng, Mingpi Tan, Xinbo Gao 0001, Wen Lu, Zongyi Xu. 6746-6754 [doi]

DuetFace: Collaborative Privacy-Preserving Face Recognition via Channel Splitting in the Frequency DomainYuxi Mi, Yuge Huang, Jiazhen Ji, Hongquan Liu, Xingkun Xu, Shouhong Ding, Shuigeng Zhou. 6755-6764 [doi]

3D Human Mesh Reconstruction by Learning to Sample Joint Adaptive Tokens for TransformersYouze Xue, Jiansheng Chen, Yudong Zhang, Cheng Yu, Huimin Ma, Hongbing Ma. 6765-6773 [doi]

Grouped Adaptive Loss Weighting for Person SearchYanling Tian, Di Chen, Yunan Liu, Shanshan Zhang, Jian Yang. 6774-6782 [doi]

Multi-view Gait Video SynthesisWeilai Xiang, Hongyu Yang, Di Huang 0001, Yunhong Wang. 6783-6791 [doi]

Curriculum-NAS: Curriculum Weight-Sharing Neural Architecture SearchYuwei Zhou, Xin Wang 0019, Hong Chen, Xuguang Duan, Chaoyu Guan, Wenwu Zhu 0001. 6792-6801 [doi]

Content and Gradient Model-driven Deep Network for Single Image Reflection RemovalYa-Nan Zhang, LinLin Shen, Qiufu Li. 6802-6812 [doi]

TransCNN-HAE: Transformer-CNN Hybrid AutoEncoder for Blind Image InpaintingHaoru Zhao, Zhaorui Gu, Bing Zheng, Haiyong Zheng. 6813-6821 [doi]

Trajectory Prediction from Hierarchical PerspectiveTangwen Qian, Yongjun Xu, Zhao Zhang, Fei Wang 0014. 6822-6830 [doi]

Exploring Effective Knowledge Transfer for Few-shot Object DetectionZhiyuan Zhao, Qingjie Liu, Yunhong Wang. 6831-6839 [doi]

More is better: Multi-source Dynamic Parsing Attention for Occluded Person Re-identificationXinhua Cheng, Mengxi Jia, Qian Wang, Jian Zhang. 6840-6849 [doi]

ReFu: Refine and Fuse the Unobserved View for Detail-Preserving Single-Image 3D Human ReconstructionGyumin Shim, Minsoo Lee, Jaegul Choo. 6850-6859 [doi]

Transformers in Spectral Domain for Estimating Image Geometric TransformationMingii Choi, Sangyeong Lee, Heesun Jung, Jong-Uk Hou. 6860-6867 [doi]

Can Language Understand Depth?Renrui Zhang, Ziyao Zeng, Ziyu Guo, Yafeng Li. 6868-6874 [doi]

Compute to Tell the Tale: Goal-Driven Narrative GenerationYongkang Wong, Shaojing Fan, Yangyang Guo, Ziwei Xu 0001, Karen Stephen, Rishabh Sheoran, Anusha Bhamidipati, Vivek Barsopia, Jianquan Liu, Mohan S. Kankanhalli. 6875-6882 [doi]

Benign Adversarial Attack: Tricking Models for GoodnessJitao Sang, Xian Zhao, Jiaming Zhang, Zhiyu Lin. 6883-6889 [doi]

Demographic Feature Isolation for Bias Research using DeepfakesKurtis Haut, Caleb Wohn, Victor Antony, Aidan Goldfarb, Melissa Welsh, Dillanie Sumanthiran, Md. Rafayet Ali, Ehsan Hoque. 6890-6897 [doi]

Recipe-oriented Food Logging for Nutritional ManagementYoko Yamakata, Akihisa Ishino, Akiko Sunto, Sosuke Amano, Kiyoharu Aizawa. 6898-6904 [doi]

Video Coding Enhancements for HTTP Adaptive StreamingVignesh V. Menon. 6905-6909 [doi]

Unsupervised Multi-object Tracking via Dynamical VAE and Variational InferenceXiaoyu Lin. 6910-6914 [doi]

Enabling Effective Low-Light Perception using Ubiquitous Low-Cost Visible-Light CamerasIgor Morawski. 6915-6919 [doi]

Interaction with Immersive Cultural Heritage Environments: Using XR Technologies to Represent Multiple Perspectives on Serralves MuseumManuel Silva. 6920-6924 [doi]

Multi-modal Learning Algorithms and Network Architectures for Information Extraction and RetrievalMaurits J. R. Bleeker. 6925-6929 [doi]

Enriching Existing Educational Video Datasets to Improve Slide Classification and AnalysisTravis Seng. 6930-6934 [doi]

Zero-shot Generalization of Multimodal Dialogue AgentsDiogo Tavares. 6935-6939 [doi]

The First Impression: Understanding the Impact of Multimodal System Responses on User Behavior in Task-oriented AgentsDiogo Silva. 6940-6943 [doi]

SingMaster: A Sight-singing Evaluation System of "Shoot and Sing" Based on SmartphoneWei Xu, Bowen Tian, Lijie Luo, Weiming Yang, Xianke Wang, Lei Wu. 6944-6946 [doi]

Seeing Speech: Magnetic Resonance Imaging-Based Vocal Tract Deformation Visualization Using Cross-Modal TransformerKele Xu, Ming Feng, Weiquan Huang. 6947-6949 [doi]

Developing Embodied Conversational Agents in the Unreal Engine: The FANTASIA PluginAntonio Origlia, Martina Di Bratto, Maria Di Maro, Sabrina Mennella. 6950-6951 [doi]

A Platform for Deploying the TFE Ecosystem of Automatic Speech RecognitionYuanfeng Song, Rongzhong Lian, Yixin Chen, Di Jiang, Xuefang Zhao, Conghui Tan, Qian Xu 0005, Raymond Chi-Wing Wong. 6952-6954 [doi]

Mediascape XR: A Cultural Heritage Experience in Social VRIgnacio Reimat, Yanni Mei, Evangelos Alexiou, Jack Jansen, Jie Li, Shishir Subramanyam, Irene Viola, Johan Oomen, Pablo César. 6955-6957 [doi]

AI Carpet: Automatic Generation of Aesthetic Carpet PatternZiyi Wang, Xingqi Wang, Zeyu Jin, Xiaohan Li, Shikun Sun, Jia Jia. 6958-6960 [doi]

Sync Sofa: Sofa-type Side-by-side Communication Experience Based on Multimodal ExpressionYuki Tajima, Shota Okubo, Tomoaki Konno, Toshiharu Horiuchi, Tatsuya Kobayashi. 6961-6963 [doi]

Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement LearningXin Jin, Shu Zhao, Le Zhang, Xin Zhao, Qiang Deng, Chaoen Xiao. 6964-6966 [doi]

An AI Powered Re-Identification System for Real-time Contextual Multimedia ApplicationsGiuseppe Becchi, Andrea Ferracani, Filippo Principi, Alberto Del Bimbo. 6967-6969 [doi]

A High-resolution Image-based Virtual Try-on System in Taobao E-commerce ScenarioZhilong Zhou, Shiyao Wang, Tiezheng Ge, Yuning Jiang. 6970-6972 [doi]

Interpretable Melody Generation from Lyrics with Discrete-Valued Adversarial TrainingWei Duan, Zhe Zhang, Yi Yu, Keizo Oyama. 6973-6975 [doi]

WOC: A Handy Webcam-based 3D Online ChatroomChuanhang Yan, Yu Sun, Qian Bao, Jinhui Pang, Wu Liu, Tao Mei 0001. 6976-6978 [doi]

BetterSight: Immersive Vision Training for Basketball PlayersPin-Xuan Liu, Tse-Yu Pan, Hsin-Shih Lin, Hung-Kuo Chu, Min-Chun Hu 0001. 6979-6981 [doi]

ALEGORIA: Joint Multimodal Search and Spatial Navigation into the Geographic Iconographic HeritageFlorent Geniet, Valérie Gouet-Brunet, Mathieu Brédif. 6982-6984 [doi]

Restoration of Analog Videos Using Swin-UNetLorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo. 6985-6987 [doi]

GetWild: A VR Editing System with AI-Generated 3D Object and TerrainShing Ming Wong, Chien-Wen Chen, Tse-Yu Pan, Hung-Kuo Chu, Min-Chun Hu 0001. 6988-6990 [doi]

ScoreActuary: Hoop-Centric Trajectory-Aware Network for Fine-Grained Basketball Shot AnalysisTing-Yang Kao, Tse-Yu Pan, Chen-Ni Chen, Tsung-Hsun Tsai, Hung-Kuo Chu, Min-Chun Hu 0001. 6991-6993 [doi]

A Conversational Shopping Assistant for Online Virtual StoresTiago Fornelos, Pedro Valente, Rafael Ferreira 0003, Diogo Tavares, Diogo Silva, David Semedo, João Magalhães, Nuno Correia 0001. 6994-6996 [doi]

TWIZ: The Multimodal Conversational Task WizardRafael Ferreira 0003, Diogo Silva, Diogo Tavares, Frederico Vicente, Mariana Bonito, Gustavo Gonçalves, Rui Margarido, Paula Figueiredo, Helder Rodrigues, David Semedo, João Magalhães. 6997-6999 [doi]

Engaging Museum Visitors with Gamification of Body and Facial ExpressionsMaria Giovanna Donadio, Filippo Principi, Andrea Ferracani, Marco Bertini, Alberto Del Bimbo. 7000-7002 [doi]

A Multi-Stream Approach for Video UnderstandingLutharsanen Kunam, Luca Rossetto, Abraham Bernstein. 7003-7007 [doi]

Title-and-Tag Contrastive Vision-and-Language Transformer for Social Media Popularity PredictionWeilong Chen, Chenghao Huang, WeiMin Yuan, Xiaolu Chen, Wenhao Hu, Xinran Zhang, Yanru Zhang. 7008-7012 [doi]

A Baseline for ViCo Conversational Head Generation ChallengeMeng Liu, Shuyan Zhai, Yongqiang Li, Weili Guan, Liqiang Nie. 7013-7015 [doi]

3D-CNN for Facial Micro- and Macro-expression Spotting on Long Video Sequences using Temporal Oriented Reference FrameChuin Hong Yap, Moi Hoon Yap, Adrian K. Davison, Connah Kendrick, Jingting Li, Su-Jing Wang, Ryan Cunningham. 7016-7020 [doi]

PDAS: Probability-Driven Adaptive Streaming for Short VideoChao Zhou, Yixuan Ban, Yangchao Zhao, Liang Guo, Bing Yu. 7021-7025 [doi]

Wav2vec2-based Paralinguistic Systems to Recognise Vocalised Emotions and StutteringTamás Grósz, Dejan Porjazovski, Yaroslav Getman, Sudarsana Reddy Kadiri, Mikko Kurimo. 7026-7029 [doi]

DAM: Deep Reinforcement Learning based Preload Algorithm with Action Masking for Short Video StreamingSi-Ze Qian, Yuhong Xie, Zipeng Pan, Yuan Zhang, Tao Lin. 7030-7034 [doi]

Audio-driven Talking Head Generation with Transformer and 3D Morphable ModelRicong Huang, Weizhi Zhong, Guanbin Li. 7035-7039 [doi]

Two stage Multi-Modal Modeling for Video Interaction Analysis in Deep Video Understanding ChallengeSiyang Sun, Xiong Xiong, Yun Zheng. 7040-7044 [doi]

Deeply Exploit Visual and Language Information for Social Media Popularity PredictionJianmin Wu, Liming Zhao, Dangwei Li, Chen-Wei Xie, Siyang Sun, Yun Zheng. 7045-7049 [doi]

Perceptual Conversational Head Generation with Regularized Driver and Enhanced RendererAilin Huang, Zhewei Huang, Shuchang Zhou. 7050-7054 [doi]

Deep Video Understanding with a Unified Multi-Modal Retrieval FrameworkChen-Wei Xie, Siyang Sun, Liming Zhao, Jianmin Wu, Dangwei Li, Yun Zheng. 7055-7059 [doi]

Masked Modeling-based Audio Representation for ACM Multimedia 2022 Computational Paralinguistics ChallengEKang You, Kele Xu, Boqing Zhu, Ming Feng, Dawei Feng, Bo Liu, Tian Gao, Bo Ding. 7060-7064 [doi]

Semantic-aware Responsive Listener Head SynthesisWei Zhao, Peng Xiao, Rongju Zhang, Yijun Wang 0002, Jianxin Lin. 7065-7069 [doi]

Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-trainingYingwei Pan, Yehao Li, Jianjie Luo, Jun Xu, Ting Yao, Tao Mei 0001. 7070-7074 [doi]

The ACM Multimedia 2022 Deep Video Understanding Grand ChallengeKeith Curtis, George Awad, Shahzad Rajput, Ian Soboroff. 7075-7078 [doi]

Generating Smooth and Facial-Details-Enhanced Talking Head Video: A Perspective of Pre and Post ProcessesTian Lv, Yu-Hui Wen, Zhiyao Sun, Zipeng Ye, Yong-Jin Liu. 7079-7083 [doi]

Bandwidth-Efficient Multi-video Prefetching for Short Video StreamingXutong Zuo, Yishu Li, Mohan Xu, Wei Tsang Ooi, Jiangchuan Liu, Junchen Jiang, Xinggong Zhang, Kai Zheng 0003, Yong Cui 0001. 7084-7088 [doi]

Multiple Temporal Fusion based Weakly-supervised Pre-training Techniques for Video CategorizationXiaochen Cai, Hengxing Cai, Boqing Zhu, Kele Xu, Weiwei Tu, Dawei Feng. 7089-7093 [doi]

Deep Learning-Based Acoustic Mosquito Detection in Noisy Conditions Using Trainable Kernels and AugmentationsSean Campos, Devesh Khandelwal, Shwetha C. Nagaraj, Fred Nugen, Alberto Todeschini. 7094-7098 [doi]

TA-CNN: A Unified Network for Human Behavior Analysis in Multi-Person ConversationsFuyan Ma, Ziyu Ma, Bin Sun 0001, Shutao Li. 7099-7103 [doi]

End-to-End and Self-Supervised Learning for ComParE 2022 Stuttering Sub-ChallengeShakeel A. Sheikh, Md. Sahidullah, Slim Ouni, Fabrice Hirsch. 7104-7108 [doi]

MultiMediate'22: Backchannel Detection and Agreement Estimation in Group InteractionsPhilipp Müller 0001, Michael Dietz, Dominik Schiller, Dominike Thomas, Hali Lindsay, Patrick Gebhard, Elisabeth André, Andreas Bulling. 7109-7114 [doi]

QoE-aware Download Control and Bitrate Adaptation for Short Video StreamingXiming Wu, Lei Zhang, Laizhong Cui. 7115-7119 [doi]

The ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, & MosquitoesBjörn W. Schuller, Anton Batliner, Shahin Amiriparian, Christian Bergler, Maurice Gerczuk, Natalie Holz, Pauline Larrouy-Maestri, Sebastien P. Bayerl, Korbinian Riedhammer, Adria Mallol-Ragolta, Maria Pateraki, Harry Coppock, Ivan Kiskin, Marianne Sinka, Stephen J. Roberts. 7120-7124 [doi]

Adaptive Dual Motion Model for Facial Micro-Expression GenerationXinqi Fan, Ali Raza Shahid, Hong Yan 0001. 7125-7129 [doi]

A Comprehensive Study of Spatiotemporal Feature Learning for Social Medial Popularity PredictionChih-Chung Hsu, Pi-Ju Tsai, Ting-Chun Yeh, Xiu-Yu Hou. 7130-7134 [doi]

How Much Attention Should we Pay to Mosquitoes?Moreno La Quatra, Lorenzo Vaiani, Alkis Koudounas, Luca Cagliero, Paolo Garza, Elena Baralis. 7135-7139 [doi]

A Combination of Visual-Semantic Reasoning and Text Entailment-based Boosting Algorithm for Cheapfake DetectionTuan-Vinh La, Minh-Son Dao, Quang-Tien Tran, Thanh-Phuc Tran, Anh Duy Tran, Duc-Tien Dang-Nguyen. 7140-7144 [doi]

A Textual-Visual-Entailment-based Unsupervised Algorithm for Cheapfake DetectionQuang-Tien Tran, Thanh-Phuc Tran, Minh-Son Dao, Tuan-Vinh La, Anh Duy Tran, Duc-Tien Dang-Nguyen. 7145-7149 [doi]

Fine-grained Micro-Expression Generation based on Thin-Plate Spline and Relative AU ConstraintSirui Zhao, Shukang Yin, Huaying Tang, Rijin Jin, Yifan Xu, Tong Xu, Enhong Chen. 7150-7154 [doi]

A Transformer Based Approach for Activity DetectionGulshan Sharma, Abhinav Dhall, Ramanathan Subramanian. 7155-7159 [doi]

ABPN: Apex and Boundary Perception Network for Micro- and Macro-Expression SpottingWenhao Leng, Sirui Zhao, Yiming Zhang, Shifeng Liu, Xinglong Mao, Hao Wang, Tong Xu 0001, Enhong Chen. 7160-7164 [doi]

Multimodal Analysis for Deep Video Understanding with Video Language TransformerBeibei Zhang, Yaqun Fang, Tongwei Ren, Gangshan Wu. 7165-7169 [doi]

MEGC2022: ACM Multimedia 2022 Micro-Expression Grand ChallengeJingting Li, Moi Hoon Yap, Wen-Huang Cheng, John See, Xiaopeng Hong, Xiaobai Li, Su-Jing Wang, Adrian K. Davison, Yante Li, Zizhao Dong. 7170-7174 [doi]

Rethinking Optical Flow Methods for Micro-Expression SpottingYuan Zhao, Xin Tong, Zichong Zhu, Jianda Sheng, Lei Dai, Lingling Xu, Xuehai Xia, Yu Jiang, Jiao Li. 7175-7179 [doi]

Sentiment-aware Classifier for Out-of-Context Caption DetectionMuhannad Alkaddour, Abhinav Dhall, Usman Tariq, Hasan Al-Nashash, Fares Al-shargie. 7180-7184 [doi]

Unified QA-aware Knowledge Graph Generation Based on Multi-modal ModelingPenggang Qin, Jiarui Yu, Yan Gao, Derong Xu, Yunkai Chen, Shiwei Wu, Tong Xu, Enhong Chen, Yanbin Hao. 7185-7189 [doi]

Graph-based Group Modelling for Backchannel DetectionGarima Sharma, Kalin Stefanov, Abhinav Dhall, Jianfei Cai 0001. 7190-7194 [doi]

Audio Features from the Wav2Vec 2.0 Embeddings for the ACM Multimedia 2022 Stuttering ChallengeClaude Montacié, Marie-José Caraty, Nikola Lackovic. 7195-7199 [doi]

An Efficient Multi-View Multimodal Data Processing Framework for Social Media Popularity PredictionYunpeng Tan, Fangyu Liu, Bowei Li, Zheng Zhang, Bo Zhang 0032. 7200-7204 [doi]

Facial Expression Spotting Based on Optical Flow FeaturesJun Yu, Zhongpeng Cai, Zepeng Liu, Guochen Xie, Peng He. 7205-7209 [doi]

Micro Expression Generation with Thin-plate Spline Motion Model and Face ParsingJun Yu, Guochen Xie, Zhongpeng Cai, Peng He, Fang Gao, Qiang Ling. 7210-7214 [doi]

Leveraging Text Representation and Face-head Tracking for Long-form Multimodal Semantic Relation UnderstandingRaksha Ramesh, Vishal Anand, Zifan Chen, Yifei Dong, Yun Chen, Ching-Yung Lin. 7215-7219 [doi]

Overview of the Multimedia Grand Challenges 2022Miriam Redi, Georges Quénot. 7220-7222 [doi]

All is Noise: In Search of Enlightenment, a VR ExperienceManuel Silva, Luana Santos, Luís Teixeira, José Vasco Carvalho. 7223-7224 [doi]

Beauty: Machine Microbial Interface as Artistic ExperimentationJohnny DiBlasi, Carlos Castellanos, Bello Bello. 7225-7226 [doi]

Being's Spread: Mirror of Life InterconnectionXinrui Wang, Yulu Song, Xiaohui Wang. 7227-7228 [doi]

CAPTCHA the Flag: Interactive Plotter LivestreamTiago Rorke. 7229-7230 [doi]

Cellular Trending: Fragmented Information Dissemination on Social Media Through Generative LensBo Shui, Xiaohui Wang. 7231-7232 [doi]

Collaboration Superpowers: The Process of Crafting an Interactive Storytelling AnimationSofia Hinckel Dias, Sara Rodrigues Silva, Beatriz Rodrigues Silva, Rui Nóbrega. 7233-7234 [doi]

Dream Painter: An Interactive Art Installation Bridging Audience Interaction, Robotics, and Creative AIVarvara Guljajeva, Mar Canet Sola. 7235-7236 [doi]

Emotional Machines: Toward Affective Virtual EnvironmentsJorge Forero, Gilberto Bernardes, Mónica Mendes. 7237-7238 [doi]

Fragrance In Sight: Personalized Perfume Production Based on Style RecognitionJiaxiang You, Yinyu Chen, Xiaohui Wang. 7239-7240 [doi]

Meditation in Motion: Interactive Media Art Visualization Based on Ancient Tai Chi ChuanZe Gao, Anqi Wang, Pan Hui 0001, Tristan Braud. 7241-7242 [doi]

Read Your Voice: A Playful Interactive Sound Encoder/DecoderHugo Pauget Ballesteros, Gilles Azzaro, Jean Mélou, Yvain Quéau, Jean-Denis Durou. 7243-7244 [doi]

StimulusLoop: Game-Actuated Mutuality Artwork for Evoking Affective StateTai-Chen Tsai, Tse-Yu Pan, Min-Chun Hu 0001, Ya-Lun Tao. 7245-7247 [doi]

Viva Contemporary! Mobile Music LaboratoryEmily Graber, Charles Picasso, Elaine Chew. 7248-7249 [doi]

Wander: An AI-driven Chatbot to Visit the Future EarthYuqian Sun, Chenhang Cheng, Ying Xu, Yihua Li, Chang Hee Lee, Ali Asadipour 0001. 7250-7251 [doi]

Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and DemonstrationZhenyu Zhang 0006, Bowen Yu 0002, Haiyang Yu, Tingwen Liu, Cheng Fu, Jingyang Li, Chengguang Tang, Jian Sun, Yongbin Li. 7252-7260 [doi]

CreaGAN: An Automatic Creative Generation Framework for Display AdvertisingShiyao Wang, Qi Liu, Yicheng Zhong, Zhilong Zhou, Tiezheng Ge, Defu Lian, Yuning Jiang. 7261-7269 [doi]

Learning Interest-oriented Universal User Representation via Self-supervisionQinghui Sun, Jie Gu, Xiaoxiao Xu, Renjun Xu, Ke Liu, Bei Yang, Hong Liu, Huan Xu. 7270-7278 [doi]

MMH-index: Enhancing Apache Lucene with High-Performance Multi-Modal Indexing and SearchingRuicheng Liu, Jialing Liang, Peiquan Jin, Yi Wang. 7279-7289 [doi]

Personality-Driven Social Multimedia Content RecommendationQi Yang, Sergey Nikolenko, Alfred Huang, Aleksandr Farseev. 7290-7299 [doi]

Learnable Privacy-Preserving Anonymization for Pedestrian ImagesJunwu Zhang, Mang Ye, Yao Yang. 7300-7308 [doi]

Few-Shot Model Agnostic Federated LearningWenke Huang, Mang Ye, Bo Du 0001, Xiang Gao. 7309-7316 [doi]

Pyramidal Transformer with Conv-Patchify for Person Re-identificationHe Li, Mang Ye, Cong Wang, Bo Du 0001. 7317-7326 [doi]

CVNets: High Performance Library for Computer VisionSachin Mehta, Farzad Abdolhosseini, Mohammad Rastegari. 7327-7330 [doi]

MMRotate: A Rotated Object Detection Benchmark using PyTorchYue Zhou, Xue Yang 0005, Gefan Zhang, Jiabao Wang, Yanyi Liu, Liping Hou, Xue Jiang 0001, Xingzhao Liu, Junchi Yan, Chengqi Lyu, Wenwei Zhang, Kai Chen. 7331-7334 [doi]

MoZuMa: A Model Zoo for Multimedia ApplicationsStéphane Massonnet, Marco Romanelli 0003, Rémi Lebret, Niels Poulsen, Karl Aberer. 7335-7338 [doi]

OpenHardwareVC: An Open Source Library for 8K UHD Video Coding Hardware ImplementationWei Gao 0003, Hang Yuan, Yang Guo, Lvfang Tao, Zhanyuan Cai, Ge Li 0002. 7339-7342 [doi]

Low Latency Live Streaming Implementation in DASH and HLSAbdelhak Bentaleb, Zhengdao Zhan, Farzad Tashtarian, May Lim, Saad Harous, Christian Timmerer, Hermann Hellwagner, Roger Zimmermann. 7343-7346 [doi]

OpenPointCloud: An Open-Source Algorithm Library of Deep Learning Based Point Cloud CompressionWei Gao 0003, Hua Ye, Ge Li, Huiming Zheng, Yuyang Wu, Liang Xie 0004. 7347-7350 [doi]

PYSKL: Towards Good Practices for Skeleton Action RecognitionHaodong Duan, Jiaqi Wang, Kai Chen, Dahua Lin. 7351-7354 [doi]

DavarOCR: A Toolbox for OCR and Multi-Modal Document UnderstandingLiang Qiao 0001, Hui Jiang, Ying Chen, Can Li, Pengfei Li, Zaisheng Li, Baorui Zou, Dashan Guo, Yingda Xu, Yunlu Xu, Zhanzhan Cheng, Yi Niu. 7355-7358 [doi]

CurML: A Curriculum Machine Learning LibraryYuwei Zhou, Hong Chen, Zirui Pan, Chuanhao Yan, Fanqi Lin, Xin Wang 0019, Wenwu Zhu 0001. 7359-7363 [doi]

Reproducibility Companion Paper: Focusing on Persons: Colorizing Old Images Learning from Modern Historical MoviesXin Jin, Ke Liu, Dongqing Zou, Zhonglan Li, Heng Huang, Vajira Thambawita. 7364-7367 [doi]

Deep Learning-based Point Cloud Coding for Immersive ExperiencesFernando Pereira. 7368-7370 [doi]

Advances in Quality Assessment Of Video Streaming Systems: Algorithms, Methods, ToolsYiannis Andreopoulos, Cosmin Stejerean. 7371 [doi]

Multimedia Content Understanding in Harsh EnvironmentsZheng Wang, Dan Xu, Zhedong Zheng, Kui Jiang. 7372-7373 [doi]

Autonomous UAV CinematographyIoannis Pitas, Ioannis Mademlis. 7374-7376 [doi]

Video Grounding and Its GeneralizationXin Wang 0019, Xiaohan Lan, Wenwu Zhu 0001. 7377-7379 [doi]

Memory NetworksFederico Becattini, Tiberio Uricchio. 7380-7382 [doi]

Open Challenges of Interactive Video Search and EvaluationJakub Lokoc, Klaus Schoeffmann, Werner Bailer, Luca Rossetto, Björn Þór Jónsson 0001. 7383-7385 [doi]

MMSports'22: 5th International ACM Workshop on Multimedia Content Analysis in SportsHideo Saito, Thomas B. Moeslund, Rainer Lienhart. 7386-7388 [doi]

MuSe 2022 Challenge: Multimodal Humour, Emotional Reactions, and StressShahin Amiriparian, Lukas Christ, Andreas König 0007, Eva-Maria Meßner, Alan Cowen, Erik Cambria, Björn W. Schuller. 7389-7391 [doi]

APCCPA '22: 1st International Workshop on Advances in Point Cloud Compression, Processing and AnalysisWei Gao 0003, Ge Li, Hui Yuan, Raouf Hamzaoui, Zhu Li, Shan Liu. 7392-7393 [doi]

M4MM '22: 1st International Workshop on Methodologies for MultimediaXavier Alameda-Pineda, Qin Jin, Vincent Oria, Laura Toni. 7394-7396 [doi]

FME '22: 2nd Workshop on Facial Micro-Expression: Advanced Techniques for Multi-Modal Facial Expression AnalysisJingting Li, Moi Hoon Yap, Wen-Huang Cheng, John See, Xiaopeng Hong, Xiaobai Li, Su-Jing Wang. 7397-7399 [doi]

NarSUM '22: 1st Workshop on User-centric Narrative Summarization of Long VideosMohan S. Kankanhalli, Jianquan Liu, Yongkang Wong, Karen Stephen, Rishabh Sheoran, Anusha Bhamidipati. 7400-7401 [doi]

CEA++'22: 1st International Workshop on Multimedia for Cooking, Eating, and related APPlicationsYoko Yamakata, Atsushi Hashimoto, Jingjing Chen. 7402-7404 [doi]

DDAM '22: 1st International Workshop on Deepfake Detection for Audio MultimediaJianhua Tao, Jiangyan Yi, Cunhang Fan, Ruibo Fu, Shan Liang, Pengyuan Zhang, Haizhou Li 0001, Helen Meng, Dong Yu 0001, Masato Akagi. 7405-7406 [doi]

HCMA'22: 3rd International Workshop on Human-Centric Multimedia AnalysisDingwen Zhang, Chaowei Fang, Wu Liu, Xinchen Liu, Jingkuan Song, Hongyuan Zhu, Wenbing Huang 0001, John Smith. 7407-7409 [doi]

IMuR 2022: Introduction to the 2nd Workshop on Interactive Multimedia RetrievalLuca Rossetto, Werner Bailer, Jakub Lokoc, Klaus Schoeffmann. 7410-7411 [doi]

IXR '22: 1st Workshop on Interactive eXtended RealityIrene Viola, Hadi Amirpour, Maria Torres Vega. 7412-7413 [doi]

MADiMa'22: 7th International Workshop on Multimedia Assisted Dietary ManagementStavroula G. Mougiakakou, Giovanni Maria Farinella, Keiji Yanai, Dario Allegra. 7414-7415 [doi]

MCFR'22: 1st Workshop on Multimedia Computing towards Fashion RecommendationXuemeng Song, Jingjing Chen, Federico Becattini, Weili Guan, Yibing Zhan, Tat-Seng Chua. 7416-7417 [doi]

PIC'22: 4th Person in Context WorkshopSi Liu 0001, Qin Jin, Luoqi Liu, Zongheng Tang, Linli Lin. 7418-7419 [doi]

PIES-ME '22: 1st Workshop on Photorealistic Image and Environment Synthesis for Multimedia ExperimentsRavi Prakash, Mylène C. Q. Farias, Marcelo M. Carvalho, Ryan P. McMahan. 7420-7422 [doi]

QoEVMA'22: 2nd Workshop on Quality of Experience (QoE) in Visual Multimedia ApplicationsJing Li, Patrick Le Callet, Xinbo Gao 0001, Zhi Li, Wen Lu, Jiachen Yang, Junle Wang. 7423-7425 [doi]

SUMAC '22: 4th ACM International workshop on Structuring and Understanding of Multimedia heritAge ContentsValérie Gouet-Brunet, Ronak Kosti, Li Weng. 7426-7427 [doi]

UoLMM'22: 2nd International Workshop on Robust Understanding of Low-quality Multimedia Data: Unitive Enhancement, Analysis and EvaluationLiang Liao, Dan Xu, Yang Wu, Xiao Wang, Jing Xiao. 7428-7430 [doi]

runs on WebDSL