MM '21: ACM Multimedia Conference, Virtual Event, China, October 20 - 24, 2021 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Heng Tao Shen, Yueting Zhuang, John R. Smith, Yang Yang, Pablo Cesar, Florian Metze, Balakrishnan Prabhakaran, editors, MM '21: ACM Multimedia Conference, Virtual Event, China, October 20 - 24, 2021. ACM, 2021. [doi]

Conference: mm

Abstract is missing.

Video Coding for MachineWen Gao 0001. 1 [doi]

Semantic Media Conversion: Possibilities and LimitsH. V. Jagadish. 2 [doi]

Image Re-composition via Regional Content-Style DecouplingRong Zhang, Wei Li, Yiqun Zhang, Hong Zhang, Jinhui Yu, Ruigang Yang, Weiwei Xu. 3-11 [doi]

Deep Clustering based on Bi-Space Association LearningHao Huang, Shinjae Yoo, Chenxiao Xu. 12-21 [doi]

Feature Stylization and Domain-aware Contrastive Learning for Domain GeneralizationSeogkyu Jeon, Kibeom Hong, Pilhyeon Lee, Jewook Lee, Hyeran Byun. 22-31 [doi]

HDA-Net: Horizontal Deformable Attention Network for Stereo MatchingQi Zhang, Xuesong Zhang, Baoping Li, Yuzhong Chen, Anlong Ming. 32-40 [doi]

MBRS: Enhancing Robustness of DNN-based Watermarking by Mini-Batch of Real and Simulated JPEG CompressionZhaoyang Jia, Han Fang, Weiming Zhang. 41-49 [doi]

From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real DataYe Liu, Lei Zhu, Shunda Pei, Huazhu Fu, Jing Qin 0001, Qing Zhang, Liang Wan, Wei Feng. 50-58 [doi]

Video Semantic Segmentation via Sparse Temporal TransformerJiangtong Li, Wentao Wang, Junjie Chen, Li Niu, Jianlou Si, Chen Qian, Liqing Zhang. 59-68 [doi]

Diverse Image Inpainting with Bidirectional and Autoregressive TransformersYingchen Yu, Fangneng Zhan, Rongliang Wu, Jianxiong Pan, Kaiwen Cui, Shijian Lu, Feiying Ma, Xuansong Xie, Chunyan Miao. 69-78 [doi]

SSFlow: Style-guided Neural Spline Flows for Face Image ManipulationHanbang Liang, Xianxu Hou, LinLin Shen. 79-87 [doi]

Constrained Graphic Layout Generation via Latent OptimizationKotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi. 88-96 [doi]

Transfer Vision Patterns for Multi-Task Pixel LearningXiaoya Zhang, Ling Zhou, Yong Li, Zhen Cui 0001, Jin Xie, Jian Yang. 97-106 [doi]

Object-aware Long-short-range Spatial Alignment for Few-Shot Fine-Grained Image ClassificationYike Wu, Bo Zhang, Gang Yu, Weixi Zhang, Bin Wang, Tao Chen, Jiayuan Fan. 107-115 [doi]

Recycling Discriminator: Towards Opinion-Unaware Image Quality Assessment Using Wasserstein GANYunan Zhu, Haichuan Ma, Jialun Peng, Dong Liu, Zhiwei Xiong. 116-125 [doi]

Learning Kinematic Formulas from Multiple View VideosLiangchen Song, Sheng Liu, Celong Liu, Zhong Li, Yuqi Ding, Yi Xu, Junsong Yuan. 126-134 [doi]

DEPA: Self-Supervised Audio Embedding for Depression DetectionPingyue Zhang, Mengyue Wu, Heinrich Dinkel, Kai Yu 0004. 135-143 [doi]

Retinomorphic Sensing: A Novel Paradigm for Future Multimedia ComputingZhaodong Kang, Jianing Li, Lin Zhu 0012, Yonghong Tian 0001. 144-152 [doi]

Metaverse for Social Good: A University Campus PrototypeHaihan Duan, Jiaye Li, Sizheng Fan, Zhonghao Lin, Xiao Wu, Wei Cai 0002. 153-161 [doi]

Enhanced Invertible Encoding for Learned Image CompressionYueqi Xie, Ka Leong Cheng, Qifeng Chen. 162-170 [doi]

DC-GNet: Deep Mesh Relation Capturing Graph Convolution Network for 3D Human Shape ReconstructionShihao Zhou, Mengxi Jiang, Shanshan Cai, Yunqi Lei. 171-180 [doi]

Deep Marginal Fisher Analysis based CNN for Image Representation and ClassificationXun Cai, Jiajing Chai, Yanbo Gao, Shuai Li, Bo Zhu. 181-189 [doi]

Learning Structure Affinity for Video Depth EstimationYuanzhouhan Cao, Yidong Li, Haokui Zhang, Chao Ren, Yifan Liu. 190-198 [doi]

X-GGM: Graph Generative Modeling for Out-of-distribution Generalization in Visual Question AnsweringJingjing Jiang, Ziyi Liu, Yifan Liu, Zhixiong Nan, Nanning Zheng 0001. 199-208 [doi]

DSSL: Deep Surroundings-person Separation Learning for Text-based Person RetrievalAichun Zhu, Zijie Wang, Yifeng Li, Xili Wan, Jing Jin, Tian Wang 0002, Fangqiang Hu, Gang Hua 0002. 209-217 [doi]

Diverse Multimedia Layout Generation with Multi Choice LearningDavid D. Nguyen, Surya Nepal, Salil S. Kanhere. 218-226 [doi]

Viewing from Frequency Domain: A DCT-based Information Enhancement Network for Video Person Re-IdentificationLiangchen Liu, Xi Yang 0011, Nannan Wang 0001, Xinbo Gao 0001. 227-235 [doi]

Unsupervised Portrait Shadow Removal via Generative PriorsYingqing He, Yazhou Xing, Tianjia Zhang, Qifeng Chen. 236-244 [doi]

Multimodal Global Relation Knowledge Distillation for Egocentric Action AnticipationYi Huang, Xiaoshan Yang, Changsheng Xu. 245-254 [doi]

Exploring Pathologist Knowledge for Automatic Assessment of Breast Cancer Metastases in Whole-slide ImageLiuan Wang, Li Sun 0007, Mingjie Zhang, Huigang Zhang, Wang Ping, Rong Zhou, Jun Sun. 255-263 [doi]

Towards Multiple Black-boxes Attack via Adversarial Example Generation NetworkMingxing Duan, Kenli Li 0001, Lingxi Xie, Qi Tian 0001, Bin Xiao. 264-272 [doi]

DocTr: Document Image Transformer for Geometric Unwarping and Illumination CorrectionHao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li. 273-281 [doi]

Self-supervised Multi-view Multi-Human Association and TrackingYiyang Gan, Ruize Han, Liqiang Yin, Wei Feng 0005, Song Wang 0002. 282-290 [doi]

Learning Fine-Grained Motion Embedding for Landscape AnimationHongwei Xue, Bei Liu, Huan Yang 0005, Jianlong Fu, Houqiang Li, Jiebo Luo. 291-299 [doi]

Multi-label Pattern Image Retrieval via Attention Mechanism Driven Graph Convolutional NetworkYing Li, Hongwei Zhou, Yeyu Yin, Jiaquan Gao. 300-308 [doi]

Collocation and Try-on Network: Whether an Outfit is CompatibleNa Zheng, Xuemeng Song, Qingying Niu, Xue-dong, Yibing Zhan, Liqiang Nie. 309-317 [doi]

MeronymNet: A Hierarchical Model for Unified and Controllable Multi-Category Object GenerationRishabh Baghel, Abhishek Trivedi, Tejas Ravichandran, Ravi Kiran Sarvadevabhatla. 318-326 [doi]

Ada-VSR: Adaptive Video Super-Resolution with Meta-LearningAkash Gupta, Padmaja Jonnalagedda, Bir Bhanu, Amit K. Roy Chowdhury. 327-336 [doi]

CoReD: Generalizing Fake Media Detection with Continual Representation using DistillationMinha Kim, Shahroz Tariq, Simon S. Woo. 337-346 [doi]

SRNet: Spatial Relation Network for Efficient Single-stage Instance Segmentation in VideosXiaowen Ying, Xin Li 0080, Mooi Choo Chuah. 347-356 [doi]

Personality Recognition by Modelling Person-specific Cognitive Processes using Graph RepresentationZilong Shao, Siyang Song, Shashank Jaiswal, LinLin Shen, Michel F. Valstar, Hatice Gunes. 357-366 [doi]

Enhancing Knowledge Tracing via Adversarial TrainingXiaopeng Guo, Zhijie Huang, Jie Gao, Mingyu Shang, Maojing Shu, Jun Sun 0012. 367-375 [doi]

Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQAGangyan Zeng, Yuan Zhang, Yu Zhou 0015, Xiaomeng Yang. 376-385 [doi]

JPGNet: Joint Predictive Filtering and Generative Network for Image InpaintingQing Guo 0005, Xiaoguang Li, Felix Juefei-Xu, Hongkai Yu, Yang Liu, Song Wang 0002. 386-394 [doi]

AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-domain LearningYihao Huang 0001, Qing Guo 0005, Felix Juefei-Xu, Lei Ma, Weikai Miao, Yang Liu, Geguang Pu. 395-403 [doi]

Pixel-level Intra-domain Adaptation for Semantic SegmentationZizheng Yan, Xianggang Yu, Yipeng Qin, Yushuang Wu, Xiaoguang Han, Shuguang Cui. 404-413 [doi]

Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text DetectionXugong Qin, Yu Zhou 0015, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang, Hongbin Wang, Weiping Wang 0005. 414-423 [doi]

Windowing Decomposition Convolutional Neural Network for Image EnhancementChuanjun Zheng, Daming Shi, Yukun Liu. 424-432 [doi]

Joint Optimization in Edge-Cloud Continuum for Federated Unsupervised Person Re-identificationWeiming Zhuang, Yonggang Wen 0001, Shuai Zhang. 433-441 [doi]

Multi-view 3D Smooth Human Pose Estimation based on Heatmap Filtering and Spatio-temporal InformationZehai Niu, Ke Lu, Jian Xue, Haifeng Ma, Runchen Wei. 442-450 [doi]

Imitative Learning for Multi-Person Action ForecastingYu-Ke Li, Pin Wang, Mang Ye, Ching-Yao Chan. 451-459 [doi]

Stereo Video Super-Resolution via Exploiting View-Temporal CorrelationsRuikang Xu, Zeyu Xiao, Mingde Yao, Yueyi Zhang, Zhiwei Xiong. 460-468 [doi]

M3TR: Multi-modal Multi-label Recognition with TransformerJiawei Zhao, Yifan Zhao, Jia Li. 469-477 [doi]

TACR-Net: Editing on Deep Video and Voice PortraitsLuchuan Song, Bin Liu, Guojun Yin, Xiaoyi Dong, Yufei Zhang, Jia-Xuan Bai. 478-486 [doi]

Annotation-Efficient Untrimmed Video Action RecognitionYixiong Zou, Shanghang Zhang, Guangyao Chen, Yonghong Tian 0001, Kurt Keutzer, José M. F. Moura. 487-495 [doi]

Face-based Voice Conversion: Learning the Voice behind a FaceHsiao-Han Lu, Shao-En Weng, Ya-Fan Yen, Hong-Han Shuai, Wen-Huang Cheng. 496-505 [doi]

A Large-Scale Benchmark for Food Image SegmentationXiongwei Wu, Xin Fu, Ying Liu, Ee-Peng Lim, Steven C. H. Hoi, Qianru Sun. 506-515 [doi]

HAT: Hierarchical Aggregation Transformers for Person Re-identificationGuowen Zhang, Pingping Zhang, Jinqing Qi, Huchuan Lu. 516-525 [doi]

Long-Range Feature Propagating for Natural Image MattingQinglin Liu, Haozhe Xie, Shengping Zhang, Bineng Zhong, Rongrong Ji. 526-534 [doi]

Towards Controllable and Photorealistic Region-wise Image ManipulationAnsheng You, Chenglin Zhou, Qixuan Zhang, Lan Xu. 535-543 [doi]

Information-Growth Attention Network for Image Super-ResolutionZhuangzi Li, Ge Li 0002, Thomas H. Li, Shan Liu 0001, Wei Gao 0003. 544-552 [doi]

Anchor-free 3D Single Stage Detector with Mask-Guided Attention for Point CloudJiale Li, Hang Dai, Ling Shao 0001, Yong Ding 0003. 553-562 [doi]

Shape Controllable Virtual Try-on for Underwear ModelsXin Gao, Zhenjiang Liu, Zunlei Feng, Chengji Shen, Kairi Ou, Haihong Tang, Mingli Song. 563-572 [doi]

E2Net: Excitative-Expansile Learning for Weakly Supervised Object LocalizationZhiwei Chen, Liujuan Cao, Yunhang Shen, Feihong Lian, Yongjian Wu, Rongrong Ji. 573-581 [doi]

Few-shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-LearningJiahao Wang, Yunhong Wang, Sheng Liu, Annan Li. 582-591 [doi]

Selective Dependency Aggregation for Action ClassificationYi Tan, Yanbin Hao, Xiangnan He 0001, Yinwei Wei, Xun Yang. 592-601 [doi]

Conditional Directed Graph Convolution for 3D Human Pose EstimationWenbo Hu, Changgong Zhang, Fangneng Zhan, Lei Zhang, Tien-Tsin Wong. 602-611 [doi]

Cross Chest Graph for Disease Diagnosis with Structural Relational ReasoningGangming Zhao. 612-620 [doi]

ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot Style Transfer ApproachQi Wen, Shuang Li, Bingfeng Han, Yi Yuan 0002. 621-629 [doi]

Cycle-Consistent Inverse GAN for Text-to-Image SynthesisHao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao. 630-638 [doi]

Fully Quantized Image Super-Resolution NetworksHu Wang, Peng Chen, Bohan Zhuang, Chunhua Shen. 639-647 [doi]

AKECP: Adaptive Knowledge Extraction from Feature Maps for Fast and Efficient Channel PruningHaonan Zhang, Longjun Liu, Hengyi Zhou, Wenxuan Hou, Hongbin Sun 0001, Nanning Zheng 0001. 648-657 [doi]

Dynamic Momentum Adaptation for Zero-Shot Cross-Domain Crowd CountingQiangqiang Wu, Jia Wan, Antoni B. Chan. 658-666 [doi]

Auto-MSFNet: Search Multi-scale Fusion Network for Salient Object DetectionMiao Zhang, Tingwei Liu, Yongri Piao, Shunyu Yao, Huchuan Lu. 667-676 [doi]

Few-shot Unsupervised Domain Adaptation with Image-to-Class Sparse Similarity EncodingShengqi Huang, Wanqi Yang, Lei Wang, Luping Zhou, Ming Yang. 677-685 [doi]

Semantic-aware Transfer with Instance-adaptive Parsing for Crowded Scenes Pose EstimationXuanhan Wang, Lianli Gao, Yan Dai, Yixuan Zhou, Jingkuan Song. 686-694 [doi]

Multimodal Dialog System: Relational Graph-based Context-aware Question UnderstandingHaoyu Zhang, Meng Liu, Zan Gao, Xiaoqiang Lei, Yinglong Wang, Liqiang Nie. 695-703 [doi]

Shadow Detection via Predicting the Confidence Maps of Shadow Detection MethodsJingwei Liao, Yanli Liu 0002, Guanyu Xing, Housheng Wei, Jueyu Chen, Songhua Xu. 704-712 [doi]

Motion Prediction via Joint Dependency Modeling in Phase SpacePengxiang Su, Zhenguang Liu, Shuang Wu, Lei Zhu, Yifang Yin, Xuanjing Shen. 713-721 [doi]

Q-Art Code: Generating Scanning-robust Art-style QR Codes by Deformable ConvolutionHao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Ji Wan, Mingliang Xu. 722-730 [doi]

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object DetectionWenbo Zhang, Ge-Peng Ji, Zhuo Wang 0004, Keren Fu, Qijun Zhao. 731-740 [doi]

Revisiting Mid-Level Patterns for Cross-Domain Few-Shot RecognitionYixiong Zou, Shanghang Zhang, Jianpeng Yu, Yonghong Tian 0001, José M. F. Moura. 741-749 [doi]

Space-Angle Super-Resolution for Multi-View ImagesYuqi Sun, Ri Cheng, Bo Yan 0001, Shili Zhou. 750-759 [doi]

Weakly-Supervised Video Object Grounding via Stable Context LearningWei Wang 0169, Junyu Gao, Changsheng Xu. 760-768 [doi]

Modeling the Uncertainty for Self-supervised 3D Skeleton Action Representation LearningYukun Su, Guosheng Lin, Ruizhou Sun, Yun Hao, Qingyao Wu. 769-778 [doi]

D³Net: Dual-Branch Disturbance Disentangling Network for Facial Expression RecognitionRongyun Mo, Yan Yan 0001, Jing-Hao Xue, Si Chen 0002, Hanzi Wang. 779-787 [doi]

Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-IdentificationYukang Zhang, Yan Yan 0001, Yang Lu 0009, Hanzi Wang. 788-796 [doi]

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge IntegrationYuhao Cui, Zhou Yu, Chunqi Wang, Zhongzhou Zhao, Ji Zhang, Meng Wang, Jun Yu. 797-806 [doi]

Object Point Cloud Classification via Poly-Convolutional Architecture SearchXuanxiang Lin, Ke Chen 0004, Kui Jia. 807-815 [doi]

Semantic-Guided Relation Propagation Network for Few-shot Action RecognitionXiao Wang, Weirong Ye, Zhongang Qi, Xun Zhao, Guangge Wang, Ying Shan, Hanzi Wang. 816-825 [doi]

Anti-Distillation Backdoor Attacks: Backdoors Can Really Survive in Knowledge DistillationYunjie Ge, Qian Wang, Baolin Zheng, Xinlu Zhuang, Qi Li 0002, Chao Shen, Cong Wang 0001. 826-834 [doi]

One-stage Context and Identity Hallucination NetworkYinglu Liu, Mingcan Xiang, Hailin Shi, Tao Mei 0001. 835-843 [doi]

Mitigating Generation Shifts for Generalized Zero-Shot LearningZhi Chen, Yadan Luo, Sen Wang 0001, Ruihong Qiu, Jingjing Li, Zi Huang. 844-852 [doi]

Weakly-Supervised Temporal Action Localization via Cross-Stream Collaborative LearningYuan Ji, Xu Jia, Huchuan Lu, Xiang Ruan. 853-861 [doi]

Deep Interactive Video Inpainting: An Invisibility Cloak for Harry PotterCheng Chen, Jiayin Cai, Yao Hu, Xu Tang, Xinggang Wang, Chun Yuan, Xiang Bai, Song Bai. 862-870 [doi]

Searching Motion Graphs for Human Motion SynthesisChenchen Liu, Yadong Mu. 871-879 [doi]

When Video Classification Meets Incremental ClassesHanbin Zhao, Xin Qin, Shihao Su, Yongjian Fu 0002, Zibo Lin, Xi Li 0001. 880-889 [doi]

Fast and Accurate Lane Detection via Frequency Domain LearningYulin He, Wei Chen 0009, Zhengfa Liang, Dan Chen 0001, Yusong Tan, Xin Luo 0009, Chen Li 0034, Yulan Guo. 890-898 [doi]

Learning Multi-context Aware Location Representations from Large-scale Geotagged ImagesYifang Yin, Ying Zhang, Zhenguang Liu, Yuxuan Liang, Sheng Wang, Rajiv Ratn Shah, Roger Zimmermann. 899-907 [doi]

MV-TON: Memory-based Video Virtual Try-on networkXiaojing Zhong, Zhonghua Wu, Taizhe Tan, Guosheng Lin, Qingyao Wu. 908-916 [doi]

Token Shift Transformer for Video ClassificationHao Zhang, Yanbin Hao, Chong-Wah Ngo. 917-925 [doi]

Attribute-specific Control Units in StyleGAN for Fine-grained Image ManipulationRui Wang, Jian Chen, Gang Yu, Li Sun, Changqian Yu, Changxin Gao, Nong Sang. 926-934 [doi]

Attention-driven Graph Clustering NetworkZhihao Peng 0002, Hui Liu, Yuheng Jia, Junhui Hou. 935-943 [doi]

Lifting the Veil of Frequency in Joint Segmentation and Depth EstimationTianhao Fu, Yingying Li, Xiaoqing Ye, Xiao Tan 0001, Hao Sun, Fumin Shen, Errui Ding. 944-952 [doi]

The Next Generation Multimodal Conversational Search and RecommendationJoão Magalhães, Tat-Seng Chua, Tao Mei 0001, Alan F. Smeaton. 953-954 [doi]

VoteHMR: Occlusion-Aware Voting Network for Robust 3D Human Mesh Recovery from Partial Point CloudsGuanze Liu, Yu Rong, Lu Sheng. 955-964 [doi]

MageAdd: Real-Time Interaction Simulation for Scene SynthesisShaokui Zhang, Yi-Xiao Li, Yu He, Yong-Liang Yang, Song-Hai Zhang. 965-973 [doi]

Cross-View Exocentric to Egocentric Video SynthesisGaowen Liu, Hao Tang 0005, Hugo Latapie, Jason J. Corso, Yan Yan 0002. 974-982 [doi]

EVRNet: Efficient Video Restoration on Edge DevicesSachin Mehta, Amit Kumar, Fitsum A. Reda, Varun Nasery, Vikram Mulukutla, Rakesh Ranjan, Vikas Chandra. 983-992 [doi]

Multimodal Entity Linking: A New Dataset and A BaselineJingru Gan, Jinchang Luo, Haiwei Wang, Shuhui Wang, Wei He, Qingming Huang. 993-1001 [doi]

AI-Lyricist: Generating Music and Vocabulary Constrained LyricsXichu Ma, Ye Wang, Min-Yen Kan, Wee Sun Lee. 1002-1011 [doi]

CaFGraph: Context-aware Facial Multi-graph Representation for Facial Action Unit RecognitionYingjie Chen, Diqi Chen, Yizhou Wang, Tao Wang, Yun Liang 0001. 1029-1037 [doi]

Self-Supervised Regional and Temporal Auxiliary Tasks for Facial Action Unit RecognitionJingwei Yan, Jingjing Wang, Qiang Li, Chunmao Wang, Shiliang Pu. 1038-1046 [doi]

HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion RecognitionZiyu Jia, Youfang Lin, Jing Wang, Zhiyang Feng, Xiangheng Xie, Caijie Chen. 1047-1056 [doi]

Simplifying Multimodal Emotion Recognition with Single Eye Movement ModalityXu Yan, Li-Ming Zhao, Bao-Liang Lu. 1057-1063 [doi]

Learning What and When to Drop: Adaptive Multimodal and Contextual Dynamics for Emotion Recognition in ConversationFeiyu Chen, Zhengxiao Sun, Deqiang Ouyang, Xueliang Liu, Jie Shao. 1064-1073 [doi]

Zero-shot Video Emotion Recognition via Multimodal Protagonist-aware Transformer NetworkFan Qi, Xiaoshan Yang, Changsheng Xu. 1074-1083 [doi]

Show, Read and Reason: Table Structure Recognition with Flexible Context AggregatorHao Liu 0003, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. 1084-1092 [doi]

TransFusion: Multi-Modal Fusion for Video Tag Inference via Translation-based Knowledge EmbeddingDi Jin, Zhongang Qi, Yingmin Luo, Ying Shan. 1093-1101 [doi]

RecycleNet: An Overlapped Text Instance Recovery ApproachYiqing Hu, Yan Zheng, Xinghua Jiang, Hao Liu 0003, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. 1102-1110 [doi]

ARShoe: Real-Time Augmented Reality Shoe Try-on System on SmartphonesShan An, Guangfu Che, Jinghao Guo, Haogang Zhu, Junjie Ye, Fangru Zhou, Zhaoqi Zhu, Dong Wei, Aishan Liu, Wei Zhang. 1111-1119 [doi]

Inferring the Importance of Product Appearance with Semi-supervised Multi-modal Enhancement: A Step Towards the Screenless RetailingYongshun Gong, Jinfeng Yi, Dongdong Chen, Jian Zhang, Jiayu Zhou, Zhihua Zhou. 1120-1128 [doi]

AsyNCE: Disentangling False-Positives for Weakly-Supervised Video GroundingCheng Da, Yanhao Zhang, Yun Zheng, Pan Pan, Yinghui Xu, Chunhong Pan. 1129-1137 [doi]

Unifying Multimodal Transformer for Bi-directional Image and Text GenerationYupan Huang, Hongwei Xue, Bei Liu 0001, Yutong Lu. 1138-1147 [doi]

Once and for All: Self-supervised Multi-modal Co-training on One-billion Videos at AlibabaLianghua Huang, Yu Liu, Xiangzeng Zhou, Ansheng You, Ming Li, Bin Wang, Yingya Zhang, Pan Pan, Yinghui Xu. 1148-1156 [doi]

L2RS: A Learning-to-Rescore Mechanism for Hybrid Speech RecognitionYuanfeng Song, Di Jiang, Xuefang Zhao, Qian Xu 0005, Raymond Chi-Wing Wong, Lixin Fan, Qiang Yang. 1157-1166 [doi]

Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos UnderstandingAvijit Shah, Topojoy Biswas, Sathish Ramadoss, Deven Santosh Shah. 1167-1175 [doi]

Focusing on Persons: Colorizing Old Images Learning from Modern Historical MoviesXin Jin, Zhonglan Li, Ke Liu, Dongqing Zou, Xiaodong Li, Xingfan Zhu, Ziyin Zhou, Qilong Sun, Qingyu Liu. 1176-1184 [doi]

Personalized Multi-modal Video Retrieval on Mobile DevicesHaotian Zhang, Allan D. Jepson, Iqbal Mohomed, Konstantinos G. Derpanis, Ran Zhang, Afsaneh Fazly. 1185-1191 [doi]

Boosting End-to-end Multi-Object Tracking and Person Search via Knowledge DistillationWei Zhang, Lingxiao He, Peng Chen, Xingyu Liao, Wu Liu, Qi Li, Zhenan Sun. 1192-1201 [doi]

A Virtual Character Generation and Animation System for E-Commerce Live StreamingLi Hu, Bang Zhang, Peng Zhang, Jinwei Qi, Jian Cao, Daiheng Gao, Haiming Zhao, Xiaoduan Feng, Qi Wang, Lian Zhuo, Pan Pan, Yinghui Xu. 1202-1211 [doi]

Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal CluesPeng Qi 0005, Juan Cao, Xirong Li 0001, Huan Liu, Qiang Sheng, Xiaoyue Mi, Qin He, Yongbiao Lv, Chenyang Guo, Yingchao Yu. 1212-1220 [doi]

Fast Video Visual Quality and Resolution Improvement using SR-UNetFederico Vaccaro, Marco Bertini, Tiberio Uricchio, Alberto Del Bimbo. 1221-1229 [doi]

MS-GraphSIM: Inferring Point Cloud Quality via Multiscale Graph SimilarityYujie Zhang, Qi Yang, Yiling Xu. 1230-1238 [doi]

I Know Your Keyboard Input: A Robust Keystroke Eavesdropper Based-on Acoustic SignalsJia-Xuan Bai, Bin Liu, Luchuan Song. 1239-1247 [doi]

Perceptual Quality Assessment of Internet VideosJiahua Xu, Jing Li, Xingguang Zhou, Wei Zhou, Baichao Wang, Zhibo Chen 0001. 1248-1257 [doi]

Using Interaction Data to Predict Engagement with Interactive MediaJonathan Carlton, Andy Brown, Caroline Jay, John Keane. 1258-1266 [doi]

Air-Text: Air-Writing and Recognition SystemSun-Kyung Lee, Jong-Hwan Kim 0001. 1267-1274 [doi]

How to Learn a Domain-Adaptive Event Simulator?Daxin Gu, Jia Li, Yu Zhang, YongHong Tian. 1275-1283 [doi]

A Stepwise Matching Method for Multi-modal Image based on Cascaded NetworkJinming Mu, Shuiping Gou, Shasha Mao, Shankui Zheng. 1284-1292 [doi]

SINGA-Easy: An Easy-to-Use Framework for MultiModal AnalysisNaili Xing, Sai-Ho Yeung, Chenghao Cai, Teck Khim Ng, Wei Wang 0059, Kaiyuan Yang, Nan Yang, Meihui Zhang, Gang Chen, Beng Chin Ooi. 1293-1302 [doi]

Informative Class-Conditioned Feature Alignment for Unsupervised Domain AdaptationWanxia Deng, Yawen Cui, Zhen Liu, Gangyao Kuang, Dewen Hu, Matti Pietikäinen, Li Liu. 1303-1312 [doi]

Hierarchical Multi-Task Learning for Diagram Question Answering with Multi-Modal TransformerZhaoquan Yuan, Xiao Peng, Xiao Wu, Changsheng Xu. 1313-1321 [doi]

Differentiated Learning for Multi-Modal Domain AdaptationJianming Lv, Kaijie Liu, Shengfeng He. 1322-1330 [doi]

Two-stage Visual Cues Enhancement Network for Referring Image SegmentationYang Jiao, Zequn Jie, Weixin Luo, Jingjing Chen, Yu-Gang Jiang, Xiaolin Wei, Lin Ma 0002. 1331-1340 [doi]

Partial Tubal Nuclear Norm Regularized Multi-view LearningYongyong Chen, Shuqin Wang, Chong Peng, Guangming Lu, Yicong Zhou. 1341-1349 [doi]

Deep Unsupervised 3D SfM Face Reconstruction Based on Massive Landmark Bundle AdjustmentYuxing Wang, Yawen Lu, Zhihua Xie, Guoyu Lu. 1350-1358 [doi]

SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive MemoryZhijie Lin, Zhou Zhao, Haoyuan Li, Jinglin Liu, Meng Zhang, Xingshan Zeng, Xiaofei He 0001. 1359-1367 [doi]

Dense Semantic Contrast for Self-Supervised Visual Representation LearningXiaoni Li, Yu Zhou 0015, Yifei Zhang, Aoting Zhang, Wei Wang, Ning Jiang, Haiying Wu, Weiping Wang 0005. 1368-1376 [doi]

Multiple Object Tracking by Trajectory Map Regression with Temporal Priors EmbeddingXingyu Wan, Sanping Zhou, Jinjun Wang, Rongye Meng. 1377-1386 [doi]

DeepGame: Efficient Video Encoding for Cloud GamingOmar Mossad, Khaled M. Diab, Ihab Amer, Mohamed Hefeeda. 1387-1395 [doi]

ChartPointFlow for Topology-Aware 3D Point Cloud GenerationTakumi Kimura, Takashi Matsubara 0001, Kuniaki Uehara. 1396-1404 [doi]

Co-learning: Learning from Noisy Labels with Self-supervisionCheng Tan, Jun Xia, Lirong Wu, Stan Z. Li. 1405-1413 [doi]

Graph Convolutional Multi-modal Hashing for Flexible Multimedia RetrievalXu Lu, Lei Zhu 0002, Li Liu 0031, Liqiang Nie, Huaxiang Zhang 0001. 1414-1422 [doi]

Hybrid Network Compression via Meta-LearningJianming Ye, Shiliang Zhang, Jingdong Wang 0001. 1423-1431 [doi]

Two-pronged Strategy: Lightweight Augmented Graph Network Hashing for Scalable Image RetrievalHui Cui, Lei Zhu, Jingjing Li, Zhiyong Cheng, Zheng Zhang. 1432-1440 [doi]

Reconstruction: A Motion Driven Interactive Artwork Inspired by Chinese Shadow PuppetWenli Jiang, Chong Cao. 1441-1442 [doi]

Syntropic Counterpoints: Metaphysics of The MachinesPredrag K. Nikolic, Ruiyang Liu, Shengcheng Luo. 1443-1445 [doi]

Kandinsky Mobile: Abstract Art-Inspired Interactive Visualization of Social Discussions on Mobile DevicesCastillo Clarence Fitzgerald Gumtang, Sourav S. Bhowmick. 1446-1448 [doi]

Sand Scope: An Interactive Installation for Revealing the Connection Between Mental Space and Life Space in a Microcosm of the WorldLyn Chao-ling Chen. 1449-1451 [doi]

Heraclitus's Forest: An Interactive Artwork for Oral HistoryLin Wang, Zhonghao Lin, Wei Cai 0002. 1452-1453 [doi]

Affective Color Fields: Reimagining Rothkoesque Artwork as an Interactive Companion for Artistic Self-ExpressionAiden Kang, Liang Wang, Ziyu Zhou, Zhe Huang, Robert J. K. Jacob. 1454-1455 [doi]

Apercevoir: Bio Internet of Things Interactive SystemYou-Yang Hu, Chiao-Chi Chou, Chia-Wei Li. 1456-1458 [doi]

Visual Co-Occurrence Alignment Learning for Weakly-Supervised Video Moment RetrievalZheng Wang, Jingjing Chen, Yu-Gang Jiang. 1459-1468 [doi]

Adaptive Normalized Representation Learning for Generalizable Face Anti-SpoofingShubao Liu, Ke-Yue Zhang, Taiping Yao, Mingwei Bi, Shouhong Ding, Jilin Li, Feiyue Huang, Lizhuang Ma. 1469-1477 [doi]

Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face SynthesisHaozhe Wu, Jia Jia 0001, Haoyu Wang, Yishun Dou, Chao Duan, Qingshan Deng. 1478-1486 [doi]

Pose-guided Inter- and Intra-part Relational Transformer for Occluded Person Re-IdentificationZhongxing Ma, Yifan Zhao, Jia Li. 1487-1496 [doi]

VLAD-VSA: Cross-Domain Face Presentation Attack Detection with Vocabulary Separation and AdaptationJiong Wang, Zhou Zhao, Weike Jin, Xinyu Duan, Zhen Lei, Baoxing Huai, Yiling Wu, Xiaofei He 0001. 1497-1506 [doi]

End-to-End Video Object Detection with Spatial-Temporal TransformersLu He, Qianyu Zhou 0001, Xiangtai Li, Li Niu, Guangliang Cheng, Xiao Li, Wenxuan Liu, Yunhai Tong, Lizhuang Ma, Liqing Zhang. 1507-1516 [doi]

Joint-teaching: Learning to Refine Knowledge for Resource-constrained Unsupervised Cross-modal RetrievalPeng-fei Zhang, Jiasheng Duan, Zi Huang, Hongzhi Yin. 1517-1525 [doi]

AggNet for Self-supervised Monocular Depth Estimation: Go An Aggressive Step FurtheZhi Chen, Xiaoqing Ye, Liang Du, Wei Yang, Liusheng Huang, Xiao Tan 0001, Zhenbo Shi, Fumin Shen, Errui Ding. 1526-1534 [doi]

Boosting Lightweight Single Image Super-resolution via Joint-distillationXiaotong Luo, Qiuyuan Liang, Ding Liu, Yanyun Qu. 1535-1543 [doi]

Discriminator-free Generative Adversarial AttackShaohao Lu, Yuqiao Xian, Ke Yan, Yi Hu, Xing Sun, Xiaowei Guo, Feiyue Huang, Wei-Shi Zheng. 1544-1552 [doi]

Former-DFER: Dynamic Facial Expression Recognition TransformerZengqun Zhao, Qingshan Liu 0001. 1553-1561 [doi]

Discovering Density-Preserving Latent Space Walks in GANs for Semantic Image TransformationsGuanyue Li, Yi Liu, Xiwen Wei, Yang Zhang, Si Wu 0002, Yong Xu, Hau-San Wong. 1562-1570 [doi]

MGH: Metadata Guided Hypergraph Modeling for Unsupervised Person Re-identificationYiming Wu, Xintian Wu, Xi Li, Jian Tian. 1571-1580 [doi]

Recovering the Unbiased Scene Graphs from the Biased OnesMeng-Jiun Chiou, Henghui Ding, Hanshu Yan, Changhu Wang, Roger Zimmermann, Jiashi Feng. 1581-1590 [doi]

Cross-modal Consensus Network for Weakly Supervised Temporal Action LocalizationFa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng. 1591-1599 [doi]

Searching a Hierarchically Aggregated Fusion Architecture for Fast Multi-Modality Image FusionRisheng Liu, Zhu Liu, Jinyuan Liu, Xin Fan 0001. 1600-1608 [doi]

SuperFront: From Low-resolution to High-resolution Frontal Face SynthesisYu Yin, Joseph P. Robinson, Songyao Jiang, Yue Bai, Can Qin, Yun Fu 0001. 1609-1617 [doi]

Learning Segment Similarity and Alignment in Large-Scale Content Based Video RetrievalChen Jiang, Kaiming Huang, Sifeng He, Xudong Yang, Wei Zhang, Xiaobo Zhang, Yuan Cheng, Lei Yang, Qing Wang, Furong Xu, Tan Pan, Wei Chu. 1618-1626 [doi]

Cut-Thumbnail: A Novel Data Augmentation for Convolutional Neural NetworkTianshu Xie, Xuan Cheng, Xiaomin Wang, Minghui Liu, Jiali Deng, Tao Zhou, Ming Liu 0002. 1627-1635 [doi]

Diffusing the Liveness Cues for Face Anti-spoofingSheng Li 0006, Xun Zhu, Guorui Feng, Xinpeng Zhang 0001, Zhenxing Qian. 1636-1644 [doi]

Co-Transport for Class-Incremental LearningDa-Wei Zhou, Han-Jia Ye, De-Chuan Zhan. 1645-1654 [doi]

Skeleton-Contrastive 3D Action Representation LearningFida Mohammad Thoker, Hazel Doughty, Cees G. M. Snoek. 1655-1663 [doi]

Fast-forwarding, Rewinding, and Path Exploration in Interactive Branched Video StreamingAlbin Vogel, Erik Kronberg, Niklas Carlsson. 1664-1672 [doi]

Multiview Detection with Shadow Transformer (and View-Coherent Data Augmentation)Yunzhong Hou, Liang Zheng 0001. 1673-1682 [doi]

Domain Generalization via Feature Variation DecorrelationChang Liu, Lichen Wang, Kai Li, Yun Fu 0001. 1683-1691 [doi]

Occlusion-aware Bi-directional Guided Network for Light Field Salient Object DetectionDong Jing, Shuo Zhang 0003, Runmin Cong, Youfang Lin. 1692-1701 [doi]

One-Stage Visual Grounding via Semantic-Aware Feature FilterJiabo Ye, Xin Lin, Liang He 0001, Dingbang Li, Qin Chen. 1702-1711 [doi]

Few-Shot Multi-Agent PerceptionChenyou Fan, Junjie Hu, Jianwei Huang. 1712-1720 [doi]

SI3DP: Source Identification Challenges and Benchmark for Consumer-Level 3D Printer ForensicsBo Seok Shim, Yoo Seung Shin, Seong-Wook Park, Jong-Uk Hou. 1721-1729 [doi]

Exploring Sequence Feature Alignment for Domain Adaptive Detection TransformersWen Wang, Yang Cao 0010, Jing Zhang 0037, Fengxiang He, Zheng-Jun Zha, Yonggang Wen 0001, Dacheng Tao. 1730-1738 [doi]

Towards Realistic Visual Dubbing with Heterogeneous SourcesTianyi Xie, Liucheng Liao, Cheng Bi, Benlai Tang, Xiang Yin, Jianfei Yang, Mingjie Wang, Jiali Yao, Yang Zhang, Zejun Ma. 1739-1747 [doi]

Deep Self-Supervised t-SNE for Multi-modal Subspace ClusteringQianqian Wang, Wei Xia, Zhiqiang Tao, Quanxue Gao, Xiaochun Cao. 1748-1755 [doi]

Multimodal Video Summarization via Time-Aware TransformersXindi Shang, Zehuan Yuan, Anran Wang, Changhu Wang. 1756-1765 [doi]

State-aware Video Procedural CaptioningTaichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, Shinsuke Mori. 1766-1774 [doi]

AMSS-Net: Audio Manipulation on User-Specified Sources with Textual QueriesWoo-Sung Choi 0001, Minseok Kim 0003, Marco A. Martínez Ramírez, JaeHwa Chung, Soonyoung Jung. 1775-1783 [doi]

Fully Functional Image Manipulation Using Scene Graphs in A Bounding-Box Free WaySitong Su, Lianli Gao, Junchen Zhu, Jie Shao, Jingkuan Song. 1784-1792 [doi]

Multi-Level Counterfactual Contrast for Visual Commonsense ReasoningXi Zhang, Feifei Zhang, Changsheng Xu. 1793-1802 [doi]

Data-Free Ensemble Knowledge Distillation for Privacy-conscious Multimedia Model CompressionZhiwei Hao, Yong Luo 0002, Han Hu 0003, Jianping An, Yonggang Wen 0001. 1803-1811 [doi]

SM-SGE: A Self-Supervised Multi-Scale Skeleton Graph Encoding Framework for Person Re-IdentificationHaocong Rao, Xiping Hu 0001, Jun Cheng, Bin Hu 0001. 1812-1820 [doi]

Video Transformer for Deepfake Detection with Incremental LearningSohail Ahmed Khan, Hang Dai. 1821-1828 [doi]

Chinese Character Inpainting with Contextual Semantic ConstraintsJiahao Wang, Gang Pan 0002, Di Sun, Jiawan Zhang. 1829-1837 [doi]

Curriculum-Based Meta-learningJi Zhang, Jingkuan Song, Yazhou Yao, Lianli Gao. 1838-1846 [doi]

Ego-Deliver: A Large-Scale Dataset For Egocentric Video AnalysisHaonan Qiu, Pan He, Shuchun Liu, Weiyuan Shao, Feiyun Zhang, Jiajun Wang, Liang He, Feng Wang. 1847-1855 [doi]

Adversarial Pixel Masking: A Defense against Physical Attacks for Pre-trained Object DetectorsPing-Han Chiang, Chi-Shen Chan, Shan-Hung Wu. 1856-1865 [doi]

Knowledge-Supervised Learning: Knowledge Consensus Constraints for Person Re-IdentificationLi Wang, Baoyu Fan, Zhenhua Guo 0003, Yaqian Zhao, Runze Zhang, RenGang Li, Weifeng Gong, Endong Wang. 1866-1874 [doi]

View-normalized Skeleton Generation for Action RecognitionQingzhe Pan, Zhifu Zhao, Xuemei Xie, Jianan Li, Yuhan Cao, Guangming Shi. 1875-1883 [doi]

Learning Hierarchical Embedding for Video Instance SegmentationZheyun Qin, Xiankai Lu, Xiushan Nie, Xiantong Zhen, Yilong Yin. 1884-1892 [doi]

Text as Neural Operator: Image Manipulation by Text InstructionTianhao Zhang, Hung-Yu Tseng, Lu Jiang, Weilong Yang, Honglak Lee, Irfan Essa. 1893-1902 [doi]

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation LearningWenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi. 1903-1911 [doi]

StrucTexT: Structured Text Understanding with Multi-Modal TransformersYulin Li, Yuxi Qian, Yuechen Yu, Xiameng Qin, Chengquan Zhang, Yan Liu, Kun Yao, Junyu Han, Jingtuo Liu, Errui Ding. 1912-1920 [doi]

Local Graph Convolutional Networks for Cross-Modal HashingYudong Chen 0002, Sen Wang, Jianglin Lu, Zhi Chen, Zheng Zhang, Zi Huang. 1921-1928 [doi]

Metric Learning for Anti-Compression Facial Forgery DetectionShenhao Cao, Qin Zou 0001, Xiuqing Mao, Dengpan Ye, Zhongyuan Wang. 1929-1937 [doi]

ASFM-Net: Asymmetrical Siamese Feature Matching Network for Point CompletionYaqi Xia, Yan Xia, Wei Li 0032, Rui Song, Kailang Cao, Uwe Stilla. 1938-1947 [doi]

Capsule-based Object Tracking with Natural Language SpecificationDing Ma, Xiangqian Wu 0002. 1948-1956 [doi]

Faster-PPN: Towards Real-Time Semantic Segmentation with Dual Mutual Learning for Ultra-High Resolution ImagesBicheng Dai, Kaisheng Wu, Tong Wu, Kai Li, Yanyun Qu, Yuan Xie 0006, Yun Fu. 1957-1965 [doi]

Distributed Attention for Grounded Image CaptioningNenglun Chen, Xingjia Pan, Runnan Chen, Lei Yang, Zhiwen Lin, Yuqiang Ren, Haolei Yuan, Xiaowei Guo, Feiyue Huang, Wenping Wang. 1966-1975 [doi]

Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape EstimationZhiwei Liu, Xiangyu Zhu, Lu Yang, Xiang Yan, Ming Tang, Zhen Lei, Guibo Zhu, Xuetao Feng, Yan Wang, Jinqiao Wang. 1976-1984 [doi]

Feedback Network for Mutually Boosted Stereo Image Super-Resolution and Disparity EstimationQinyan Dai, Juncheng Li 0003, Qiaosi Yi, Faming Fang, Guixu Zhang. 1985-1993 [doi]

Merging Multiple Template Matching Predictions in Intra Coding with Attentive Convolutional Neural NetworkQijun Wang, Guodong Zheng. 1994-2001 [doi]

Camera-Agnostic Person Re-Identification via Adversarial Disentangling LearningHao Ni, Jingkuan Song, Xiaosu Zhu, Feng Zheng, Lianli Gao. 2002-2010 [doi]

Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression LearningUttaran Bhattacharya, Elizabeth Childs, Nicholas Rewkowski, Dinesh Manocha. 2027-2036 [doi]

Video Background Music Generation with Controllable Music TransformerShangzhe Di, Zeren Jiang, Si Liu 0001, Zhaokai Wang, Leyan Zhu, Zexin He, Hongming Liu, Shuicheng Yan. 2037-2045 [doi]

PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text RecognitionZhi Qiao, Yu Zhou 0015, Jin Wei, Wei Wang, Yuan Zhang, Ning Jiang, Hongbin Wang, Weiping Wang 0005. 2046-2055 [doi]

Theophany: Multimodal Speech Augmentation in Instantaneous Privacy ChannelsAbhishek Kumar, Tristan Braud, Lik Hang Lee, Pan Hui 0001. 2056-2064 [doi]

aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual RealityYou-Yang Hu, Yao Fu Jan, Kuan-Wei Tseng, You-Shin Tsai, Hung-Ming Sung, Jin-Yao Lin, Yi-Ping Hung. 2065-2073 [doi]

Learning to Understand Traffic SignsYunfei Guo, Wei Feng, Fei Yin, Tao Xue, Shuqi Mei, Cheng-Lin Liu. 2076-2084 [doi]

R-GAN: Exploring Human-like Way for Reasonable Text-to-Image Synthesis via Generative Adversarial NetworksYanyuan Qiao, Qi Chen, Chaorui Deng, Ning Ding, Yuankai Qi, Mingkui Tan, Xincheng Ren, Qi Wu. 2085-2093 [doi]

Cross-modality Discrepant Interaction Network for RGB-D Salient Object DetectionChen Zhang, Runmin Cong, Qinwei Lin, Lin Ma, Feng Li, Yao Zhao, Sam Kwong. 2094-2102 [doi]

Deconfounded and Explainable Interactive Vision-Language Retrieval of Complex ScenesJunda Wu, Tong Yu, Shuai Li. 2103-2111 [doi]

Long Short-term Convolutional Transformer for No-Reference Video Quality AssessmentJunyong You. 2112-2120 [doi]

Automatic Channel Pruning with Hyper-parameter Search and Dynamic MaskingBaopu Li, Yanwen Fan, Zhihong Pan 0001, Yuchen Bian, Gang Zhang. 2121-2129 [doi]

SVHAN: Sequential View Based Hierarchical Attention Network for 3D Shape RecognitionYue Zhao, Weizhi Nie, An-An Liu, Zan Gao, Yuting Su 0001. 2130-2138 [doi]

ASFD: Automatic and Scalable Face DetectorJian Li, Bin Zhang, Yabiao Wang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Jilin Li, Xiaoming Huang, Yili Xia. 2139-2147 [doi]

BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and Monocular Depth EstimationQi Tang, Runmin Cong, Ronghui Sheng, Lingzhi He, Dan Zhang, Yao Zhao, Sam Kwong. 2148-2157 [doi]

LSTC: Boosting Atomic Action Detection with Long-Short-Term ContextYuxi Li, Boshen Zhang, Jian Li, Yabiao Wang, Weiyao Lin, Chengjie Wang, Jilin Li, Feiyue Huang. 2158-2166 [doi]

UACANet: Uncertainty Augmented Context Attention for Polyp SegmentationTaehun Kim, Hyemin Lee, Daijin Kim 0001. 2167-2175 [doi]

Weight Evolution: Improving Deep Neural Networks Training through Evolving Inferior Weight ValuesZhenquan Lin, Kailing Guo, Xiaofen Xing, Xiangmin Xu. 2176-2184 [doi]

Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring NetworkZhikang Zou, Xiaoye Qu, Pan Zhou, Shuangjie Xu, Xiaoqing Ye, Wenhao Wu, Jin Ye. 2185-2194 [doi]

Towards Adversarial Patch Analysis and Certified Defense against Crowd CountingQiming Wu, Zhikang Zou, Pan Zhou, Xiaoqing Ye, Binghui Wang, Ang Li. 2195-2204 [doi]

Conceptual and Syntactical Cross-modal Alignment with Cross-level Consistency for Image-Text MatchingPengpeng Zeng, Lianli Gao, Xinyu Lyu, Shuaiqi Jing, Jingkuan Song. 2205-2213 [doi]

SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable RenderingYifan Zhao, Le Hui, Jin Xie. 2214-2223 [doi]

VmAP: A Fair Metric for Video Object DetectionAnupam Sobti, Vaibhav Mavi, M. Balakrishnan, Chetan Arora 0001. 2224-2232 [doi]

Source Data-free Unsupervised Domain Adaptation for Semantic SegmentationMucong Ye, Jing Zhang 0017, Jinpeng Ouyang, Ding Yuan. 2233-2242 [doi]

Yes, "Attention Is All You Need", for Exemplar based ColorizationWang-Yin, Peng Lu, Zhaoran Zhao, Xujun Peng. 2243-2251 [doi]

Heuristic Depth Estimation with Progressive Depth Reconstruction and Confidence-Aware LossJiehua Zhang, Liang Li, Chenggang Yan, Yaoqi Sun, Tao Shen, Jiyong Zhang, Zhan Wang. 2252-2261 [doi]

Unsupervised Cross-Modal Distillation for Thermal Infrared TrackingJingxian Sun 0003, Lichao Zhang, Yufei Zha, Abel Gonzalez-Garcia, Peng Zhang, Wei Huang 0013, Yanning Zhang. 2262-2270 [doi]

ABPNet: Adaptive Background Modeling for Generalized Few Shot SegmentationKaiqi Dong, Wei Yang, Zhenbo Xu, Liusheng Huang, Zhidong Yu. 2271-2280 [doi]

Towards Reasoning Ability in Scene Text Visual Question AnsweringQingqing Wang, Liqiang Xiao, Yue Lu, Yaohui Jin, Hao He 0007. 2281-2289 [doi]

Multi-caption Text-to-Face Synthesis: Dataset and AlgorithmJianxin Sun, Qi Li, Weining Wang, Jian Zhao, Zhenan Sun. 2290-2298 [doi]

Multimodal Compatibility Modeling via Exploring the Consistent and Complementary CorrelationsWeili Guan, Haokun Wen, Xuemeng Song, Chung-Hsing Yeh, Xiaojun Chang, Liqiang Nie. 2299-2307 [doi]

CDD: Multi-view Subspace Clustering via Cross-view Diversity DetectionShudong Huang, Ivor W. Tsang, Zenglin Xu, Jiancheng Lv 0001, Quanhui Liu. 2308-2316 [doi]

Learning Spatio-temporal Representation by Channel Aliasing Video PerceptionYiqi Lin, Jinpeng Wang, Manlin Zhang, Andy J. Ma. 2317-2325 [doi]

Efficient Sparse Attacks on Videos using Reinforcement LearningHuanqian Yan, Xingxing Wei. 2326-2334 [doi]

AdvHash: Set-to-set Targeted Attack on Deep Hashing with One Single Adversarial PatchShengshan Hu, Yechao Zhang, Xiaogeng Liu, Leo Yu Zhang, Minghui Li, Hai Jin. 2335-2343 [doi]

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual GroundingDailan He, Yusheng Zhao, Junyu Luo, Tianrui Hui, Shaofei Huang, Aixi Zhang, Si Liu 0001. 2344-2352 [doi]

Single Image 3D Object Estimation with Primitive Graph NetworksQian He 0001, Desen Zhou, Bo Wan, Xuming He 0001. 2353-2361 [doi]

Boosting Mobile CNN Inference through Semantic MemoryYun Li, Chen Zhang 0001, Shihao Han, Li Lyna Zhang, Baoqun Yin, Yunxin Liu, Mengwei Xu. 2362-2371 [doi]

Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face AlignmentGil Shapira, Noga Levy, Ishay Goldin, Roy Josef Jevnisek. 2372-2380 [doi]

End-to-end Boundary Exploration for Weakly-supervised Semantic SegmentationJianjun Chen, Shancheng Fang, Hongtao Xie, Zheng-Jun Zha, Yue Hu 0002, Jianlong Tan. 2381-2390 [doi]

SFE-Net: EEG-based Emotion Recognition with Symmetrical Spatial Feature ExtractionXiangwen Deng, Junlin Zhu, Shangming Yang. 2391-2400 [doi]

Bridging the Gap between Low-Light Scenes: Bilevel Learning for Fast AdaptationDian Jin, Long Ma 0002, Risheng Liu, Xin Fan 0001. 2401-2409 [doi]

Handling Difficult Labels for Multi-label Image Classification via Uncertainty DistillationLiangchen Song, Jialian Wu, Ming Yang, Qian Zhang, Yuan Li, Junsong Yuan. 2410-2419 [doi]

Perception-Oriented Stereo Image Super-ResolutionChenxi Ma, Bo Yan 0001, Weimin Tan, Xuhao Jiang. 2420-2428 [doi]

ReLLIE: Deep Reinforcement Learning for Customized Low-Light Image EnhancementRongkai Zhang 0001, Lanqing Guo, Siyu Huang, Bihan Wen. 2429-2437 [doi]

Intrinsic Temporal Regularization for High-resolution Human Video SynthesisLingbo Yang, Zhanning Gao, Siwei Ma, Wen Gao 0001. 2438-2446 [doi]

A2W: Context-Aware Recommendation System for Mobile Augmented Reality Web BrowserKit-Yung Lam, Lik Hang Lee, Pan Hui 0001. 2447-2455 [doi]

Cross-modal Self-Supervised Learning for Lip Reading: When Contrastive Learning meets Adversarial TrainingChangchong Sheng, Matti Pietikäinen, Qi Tian, Li Liu. 2456-2464 [doi]

OsGG-Net: One-step Graph Generation Network for Unbiased Head Pose EstimationShentong Mo, Xin Miao. 2465-2473 [doi]

Multi-Modal Multi-Instance Learning for Retinal Disease RecognitionXirong Li 0001, Yang Zhou, Jie Wang, Hailan Lin, Jianchun Zhao, Dayong Ding, Weihong Yu, Youxin Chen. 2474-2482 [doi]

Locally Adaptive Structure and Texture Similarity for Image Quality AssessmentKeyan Ding, Yi Liu, Xueyi Zou, Shiqi Wang 0001, Kede Ma. 2483-2491 [doi]

CALLip: Lipreading using Contrastive and Attribute LearningYiyang Huang, Xuefeng Liang, Chaowei Fang. 2492-2500 [doi]

Cross-Modal Recipe Embeddings by Disentangling Recipe Contents and Dish StylesYu Sugiyama, Keiji Yanai. 2501-2509 [doi]

TDI TextSpotter: Taking Data Imbalance into Account in Scene Text SpottingYu Zhou, Hongtao Xie, Shancheng Fang, Jing Wang, Zhengjun Zha, Yongdong Zhang 0001. 2510-2518 [doi]

Position-Augmented Transformers with Entity-Aligned Mesh for TextVQAXuanyu Zhang, Qing Yang. 2519-2528 [doi]

Learning Contextual Transformer Network for Image InpaintingYe Deng, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang. 2529-2538 [doi]

Milliseconds Color StipplingLei Ma 0008, Jian Shi, Yanyun Chen. 2539-2548 [doi]

AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object DetectionLongyao Liu, Bo Ma, Yulin Zhang, Xin Yi, Haozhi Li. 2549-2557 [doi]

Missing Data Imputation for Solar Yield Prediction using Temporal Multi-Modal Variational Auto-EncoderMeng Shen, Huaizheng Zhang, Yixin Cao 0002, Fan Yang, Yonggang Wen 0001. 2558-2566 [doi]

Understanding Chinese Video and Language via Contrastive Multimodal Pre-TrainingChenyi Lei, Shixian Luo, Yong Liu, Wanggui He, Jiamang Wang, Guoxin Wang 0002, Haihong Tang, Chunyan Miao, Houqiang Li. 2567-2576 [doi]

DehazeFlow: Multi-scale Conditional Flow Network for Single Image DehazingHongYu Li, Jia Li, Dong Zhao, Long Xu. 2577-2585 [doi]

GCM-Net: Towards Effective Global Context Modeling for Image InpaintingHuan Zheng, Zhao Zhang, Yang Wang, Zheng Zhang, Mingliang Xu, Yi Yang, Meng Wang. 2586-2594 [doi]

Embracing the Dark Knowledge: Domain Generalization Using Regularized Knowledge DistillationYufei Wang, Haoliang Li, Lap-Pui Chau, Alex C. Kot. 2595-2604 [doi]

Cluster and Scatter: A Multi-grained Active Semi-supervised Learning Framework for Scalable Person Re-identificationBingyu Hu, Zheng-Jun Zha, Jiawei Liu, Xierong Zhu, Hongtao Xie. 2605-2614 [doi]

Dual Graph Convolutional Networks with Transformer and Curriculum Learning for Image CaptioningXinzhi Dong, Chengjiang Long, Wenju Xu, Chunxia Xiao. 2615-2624 [doi]

Build Your Own Bundle - A Neural Combinatorial Optimization MethodQilin Deng, Kai Wang, Minghao Zhao 0002, Runze Wu, Yu Ding 0001, Zhene Zou, Yue Shang, Jianrong Tao, Changjie Fan. 2625-2633 [doi]

Unsupervised Image Deraining: Optimization Model Driven Deep CNNChangfeng Yu, Yi Chang 0002, Yi Li 0033, Xile Zhao, Luxin Yan. 2634-2642 [doi]

Do you see what I see?: Large-scale Learning from Multimodal VideosCordelia Schmid. 2643 [doi]

Large-scale Multi-Modality Pretrained Models: Applications and ExperiencesJingren Zhou. 2644 [doi]

Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot Video Object SegmentationXiaoqi Zhao, Youwei Pang, Jiaxing Yang, Lihe Zhang, Huchuan Lu. 2645-2653 [doi]

Self-supervised Consensus Representation Learning for Attributed GraphChangshu Liu, Liangjian Wen, Zhao Kang, Guangchun Luo, Ling Tian. 2654-2662 [doi]

Efficient Multi-Modal Fusion with Diversity AnalysisShuhui Qu, Yan Kang, Janghwan Lee. 2663-2670 [doi]

GCCN: Geometric Constraint Co-attention Network for 6D Object Pose EstimationYongming Wen, Yiquan Fang, Junhao Cai, Kimwa Tung, Hui Cheng. 2671-2679 [doi]

Cross-Modal Generalization: Learning in Low Resource Modalities via Meta-AlignmentPaul Pu Liang, Peter Wu, Ziyin Liu, Louis-Philippe Morency, Ruslan Salakhutdinov. 2680-2689 [doi]

Elastic Tactile Simulation Towards Tactile-Visual PerceptionYikai Wang, Wenbing Huang 0001, Bin Fang 0003, Fuchun Sun 0001, Chang Li. 2690-2698 [doi]

A Novel Patch Convolutional Neural Network for View-based 3D Model RetrievalZan Gao, Yuxiang Shao, Weili Guan, Meng Liu 0006, Zhiyong Cheng, Shengyong Chen. 2699-2707 [doi]

Semi-Autoregressive Image CaptioningXu Yan, Zhengcong Fei, Zekang Li, Shuhui Wang, Qingming Huang, Qi Tian 0001. 2708-2716 [doi]

One-Stage Incomplete Multi-view Clustering via Late FusionYi Zhang, Xinwang Liu, Siwei Wang, Jiyuan Liu 0003, Sisi Dai, En Zhu. 2717-2725 [doi]

Self-Representation Subspace Clustering for Incomplete Multi-view DataJiyuan Liu 0003, Xinwang Liu, Yi Zhang, Pei Zhang 0008, Wenxuan Tu, Siwei Wang, Sihang Zhou, Weixuan Liang, Siqi Wang 0001, Yuexiang Yang. 2726-2734 [doi]

Is Visual Context Really Helpful for Knowledge Graph? A Representation Learning PerspectiveMeng Wang, Sen Wang, Han Yang, Zheng Zhang, Xi Chen, Guilin Qi. 2735-2743 [doi]

Knowledge Perceived Multi-modal Pretraining in E-commerceYushan Zhu, Huaixiao Zhao, Wen Zhang, Ganqiang Ye, Hui Chen, Ningyu Zhang, Huajun Chen. 2744-2752 [doi]

Text2Video: Automatic Video Generation Based on Text ScriptsYipeng Yu, Zirui Tu, Longyu Lu, Xiao Chen, Hui Zhan, Zixun Sun. 2753-2755 [doi]

A System for Interactive and Intelligent AD Auxiliary ScreeningSen Yang, Qike Zhao, Lanxin Miao, Min Chen, Lianli Gao, Jingkuan Song, Weidong Le. 2756-2758 [doi]

Move As You Like: Image Animation in E-Commerce ScenarioBorun Xu, Biao Wang, Jiale Tao, Tiezheng Ge, Yuning Jiang, Wen Li 0001, Lixin Duan. 2759-2761 [doi]

MDMS: Music Data Matching System for Query Variant RetrievalRinita Roy, Ruben Mayer, Hans-Arno Jacobsen. 2762-2764 [doi]

Community Generated VR Painting using Eye GazeMu Mu 0001, Murtada Dohan. 2765-2767 [doi]

Sync Glass: Virtual Pouring and Toasting Experience with Multimodal PresentationYuki Tajima, Toshiharu Horiuchi, Gen Hattori. 2768-2770 [doi]

VideoDiscovery: An Automatic Short-Video Generation System for E-commerce Live-streamingYanhao Zhang, Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu. 2771-2773 [doi]

SmartSales: An AI-Powered Telemarketing Coaching System in FinTechYuanfeng Song, Xuefang Zhao, Di Jiang, Xiaoling Huang, Weiwei Zhao, Qian Xu, Raymond Chi-Wing Wong, Qiang Yang. 2774-2776 [doi]

SmartMeeting: Automatic Meeting Transcription and Summarization for In-Person ConversationsYuanfeng Song, Di Jiang, Xuefang Zhao, Xiaoling Huang, Qian Xu, Raymond Chi-Wing Wong, Qiang Yang. 2777-2779 [doi]

Aesthetic Evaluation and Guidance for Mobile PhotographyHao Lou, Heng Huang, Chaoen Xiao, Xin Jin. 2780-2782 [doi]

A Question Answering System for Unstructured Table ImagesWenyuan Xue, Siqi Cai, Wen Wang, Qingyong Li, Baosheng Yu, Yibing Zhan, Dacheng Tao. 2783-2785 [doi]

Post2Story: Automatically Generating Storylines from Microblogging PlatformsXujian Zhao, Chongwei Wang, Peiquan Jin, Hui Zhang, Chunming Yang, Bo Li 0065. 2786-2788 [doi]

ViDA-MAN: Visual Dialog with Digital HumansTong Shen, Jiawei Zuo, Fan Shi, Jin Zhang, Liqin Jiang, Meng Chen 0006, Zhengchen Zhang, Wei Zhang, Xiaodong He 0002, Tao Mei. 2789-2791 [doi]

A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images GenerationYupan Huang, Bei Liu, Jianlong Fu, Yutong Lu. 2792-2794 [doi]

Softly: Simulated Empathic Touch between an Agent and a HumanMaxime Grandidier, Fabien Boucaud, Indira Thouvenin, Catherine Pelachaud. 2795-2797 [doi]

RecipeLog: Recipe Authoring App for Accurate Food RecordingAkihisa Ishino, Yoko Yamakata, Hiroaki Karasawa, Kiyoharu Aizawa. 2798-2800 [doi]

iART: A Search Engine for Art-Historical Images to Support Research in the HumanitiesMatthias Springstein, Stefanie Schneider, Javad Rahnama, Eyke Hüllermeier, Hubertus Kohle, Ralph Ewerth. 2801-2803 [doi]

ArtiVisual: A Platform to Generate and Compare ArtJardenna Mohazzab, Abe Vos, Jonathan van Westendorp, Lucas Lageweg, Dylan Prins, Aritra Bhowmik. 2804-2806 [doi]

GCNIllustrator: Illustrating the Effect of Hyperparameters on Graph Convolutional NetworksIvona Najdenkoska, Jeroen den Boef, Thomas Schneider, Justo van der Werf, Reinier de Ridder, Fajar Fathurrahman, Marcel Worring. 2807-2809 [doi]

On-demand Action Detection System using Pose InformationNoboru Yoshida, Jianquan Liu. 2810-2812 [doi]

APF: An Adversarial Privacy-preserving Filter to Protect Portrait InformationXian Zhao, Jiaming Zhang, Xiaowen Huang. 2813-2815 [doi]

Text-driven 3D Avatar Animation with Emotional and Expressive BehaviorsLi Hu, Jinwei Qi, Bang Zhang, Pan Pan, Yinghui Xu. 2816-2818 [doi]

Text to Scene: A System of Configurable 3D Indoor Scene SynthesisXinyan Yang, Fei Hu, Long Ye. 2819-2821 [doi]

MovieREP: A New Movie Reproduction Framework for Film SoundtrackRuiqi Wang, Long Ye, Qin Zhang 0009. 2822-2824 [doi]

DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic SegmentationLi Gao, Jing Zhang, Lefei Zhang, Dacheng Tao. 2825-2833 [doi]

Generating Point Cloud from Single Image in The Few Shot ScenarioYu Lin 0002, Jinghui Guo, Yang Gao 0027, Yi-Fan Li, Zhuoyi Wang, Latifur Khan. 2834-2842 [doi]

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-trainingYuqing Song 0003, Shizhe Chen, Qin Jin, Wei Luo, Jun Xie, Fei Huang. 2843-2852 [doi]

Pre-training Graph Transformer with Multimodal Side Information for RecommendationYong Liu, Susen Yang, Chenyi Lei, Guoxin Wang 0002, Haihong Tang, Juyong Zhang, Aixin Sun, Chunyan Miao. 2853-2861 [doi]

Learning Disentangled Factors from Paired Data in Cross-Modal Retrieval: An Implicit Identifiable VAE ApproachMinyoung Kim, Ricardo Guerrero, Vladimir Pavlovic. 2862-2870 [doi]

Progressive Graph Attention Network for Video Question AnsweringLiang Peng, Shuangji Yang, Yi Bin, Guoqing Wang. 2871-2879 [doi]

Mix-order Attention Networks for Image RestorationTao Dai, Yalei Lv, Bin Chen, Zhi Wang, Zexuan Zhu, Shu-Tao Xia. 2880-2888 [doi]

Vehicle Counting Network with Attention-based Mask Refinement and Spatial-awareness Block LossJi Zhang, Jian-Jun Qiao, Xiao Wu 0001, Wei Li 0163. 2889-2898 [doi]

DPT: Deformable Patch-based Transformer for Visual RecognitionZhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng, Jinqiao Wang, Ming Tang 0001. 2899-2907 [doi]

Scene Text Image Super-Resolution via Parallelly Contextual Attention NetworkCairong Zhao, Shuyang Feng, Brian Nlong Zhao, Zhijun Ding, Jun Wu 0006, Fumin Shen, Heng Tao Shen. 2908-2917 [doi]

Improving Pedestrian Detection from a Long-tailed Domain PerspectiveMengyuan Ding, Shanshan Zhang, Jian Yang. 2918-2926 [doi]

Robust Shadow Detection by Exploring Effective Shadow ContextsXianyong Fang, Xiaohao He, Linbo Wang, Jianbing Shen. 2927-2935 [doi]

End-to-end Quality of Experience Evaluation for HTTP Adaptive StreamingBabak Taraghi. 2936-2939 [doi]

Generative Adversarial Network for Text-to-Face Synthesis and ManipulationYutong Zhou. 2940-2944 [doi]

GAN-aided Serial Dependence Study in Medical Image PerceptionZhihang Ren. 2945-2949 [doi]

Image Style Transfer with Generative Adversarial NetworksRu Li. 2950-2954 [doi]

Annotation-Efficient Semantic Segmentation with Shape Prior KnowledgeYuhang Lu. 2955-2959 [doi]

Neural-based Rendering and ApplicationPeng Dai. 2960-2963 [doi]

Towards Bridging Video and Language by Caption Generation and Sentence LocalizationShaoxiang Chen. 2964-2968 [doi]

Situational Anomaly Detection in Multimedia Data under Concept DriftPratibha Kumari. 2969-2973 [doi]

Dynamic Knowledge Distillation with Cross-Modality Knowledge TransferGuangzhi Wang. 2974-2978 [doi]

WeClick: Weakly-Supervised Video Semantic Segmentation with Click AnnotationsPeidong Liu, Zibin He, Xiyu Yan, Yong Jiang, Shu-Tao Xia, Feng Zheng, Maowei Hu. 2995-3004 [doi]

Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine Pseudo-Labeling with Visual-Semantic Meta-EmbeddingJinhai Yang 0001, Hua Yang 0001, Lin Chen 0019. 3005-3014 [doi]

Disentangled Representation Learning and Enhancement Network for Single Image De-RainingGuoqing Wang, Changming Sun, Xing Xu 0001, Jingjing Li, Zheng Wang, Zeyu Ma. 3015-3023 [doi]

Towards Robust Cross-domain Image Understanding with Unsupervised Noise RemovalLei Zhu, Zhaojing Luo, Wei Wang, Meihui Zhang, Gang Chen, Kaiping Zheng. 3024-3033 [doi]

Exploiting BERT for Multimodal Target Sentiment Classification through Input Space TranslationZaid Khan 0001, Yun Fu. 3034-3042 [doi]

Video Representation Learning with Graph Contrastive AugmentationJingran Zhang, Xing Xu 0001, Fumin Shen, Yazhou Yao, Jie Shao, Xiaofeng Zhu 0001. 3043-3051 [doi]

An EM Framework for Online Incremental Learning of Semantic SegmentationShipeng Yan, Jiale Zhou, Jiangwei Xie, Songyang Zhang, Xuming He 0001. 3052-3060 [doi]

I2V-GAN: Unpaired Infrared-to-Visible Video TranslationShuang Li, Bingfeng Han, Zhenjie Yu, Chi Harold Liu, Kai Chen, Shuigen Wang. 3061-3069 [doi]

Implicit Feedbacks are Not Always Favorable: Iterative Relabeled One-Class Collaborative Filtering against Noisy InteractionsZitai Wang, Qianqian Xu, Zhiyong Yang 0001, Xiaochun Cao, Qingming Huang. 3070-3078 [doi]

InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose EstimationDahu Shi, Xing Wei, Xiaodong Yu, Wenming Tan, Ye Ren, Shiliang Pu. 3079-3087 [doi]

Implicit Feature Refinement for Instance SegmentationLufan Ma, Tiancai Wang, Bin Dong, Jiangpeng Yan, Xiu Li, Xiangyu Zhang. 3088-3096 [doi]

Question-controlled Text-aware Image CaptioningAnwen Hu, Shizhe Chen, Qin Jin. 3097-3105 [doi]

Style-Aware Image Recommendation for Social Media MarketingYiWei Zhang, Toshihiko Yamasaki. 3106-3114 [doi]

WePerson: Learning a Generalized Re-identification Model from All-weather Virtual DataHe Li, Mang Ye, Bo Du. 3115-3123 [doi]

Polar Ray: A Single-stage Angle-free Detector for Oriented Object Detection in Aerial ImagesShuai Liu, Lu Zhang, Shuai Hao, Huchuan Lu, You He. 3124-3132 [doi]

Self-Contrastive Learning with Hard Negative Sampling for Self-supervised Point Cloud LearningBi'an Du, Xiang Gao, Wei Hu, Xin Li. 3133-3142 [doi]

Generally Boosting Few-Shot Learning with HandCrafted FeaturesYi Zhang, Sheng Huang, Fengtao Zhou. 3143-3152 [doi]

ROECS: A Robust Semi-direct Pipeline Towards Online Extrinsics Correction of the Surround-view SystemTianjun Zhang, Nlong Zhao, Ying Shen, Xuan Shao, Lin Zhang 0014, Yicong Zhou. 3153-3161 [doi]

Pseudo Graph Convolutional Network for Vehicle ReIDWen Qian, Zhiqun He, Silong Peng, Chen Chen 0036, Wei Wu. 3162-3171 [doi]

Towards Fast and High-Quality Sign Language ProductionWencan Huang, Wenwen Pan, Zhou Zhao, Qi Tian 0001. 3172-3181 [doi]

Effective De-identification Generative Adversarial Network for Face AnonymizationZhenzhong Kuang, Huigui Liu, Jun Yu, Aikui Tian, Lei Wang, Jianping Fan 0001, Noboru Babaguchi. 3182-3191 [doi]

Cross-modal Retrieval and Synthesis (X-MRS): Closing the Modality Gap in Shared Subspace LearningRicardo Guerrero, Hai Xuan Pham, Vladimir Pavlovic. 3192-3201 [doi]

When Face Completion Meets Irregular Holes: An Attributes Guided Deep Inpainting NetworkJie Xiao, Dandan Zhan, Haoran Qi, Zhi Jin. 3202-3210 [doi]

Non-Linear Fusion for Self-Paced Multi-View ClusteringZongmo Huang, Yazhou Ren 0001, Xiaorong Pu, Lifang He 0001. 3211-3219 [doi]

Counterfactual Debiasing Inference for Compositional Action RecognitionPengzhan Sun, Bo Wu, Xunsong Li, Wen Li 0001, Lixin Duan, Chuang Gan. 3220-3228 [doi]

STST: Spatial-Temporal Specialized Transformer for Skeleton-based Action RecognitionYuhan Zhang, Bo Wu, Wen Li 0001, Lixin Duan, Chuang Gan. 3229-3237 [doi]

Exploring Gradient Flow Based Saliency for DNN Model CompressionXinyu Liu, Baopu Li, Zhen Chen 0013, Yixuan Yuan. 3238-3246 [doi]

An Adaptive Iterative Inpainting Method with More Information ExplorationShengjie Chen, Zhenhua Guo 0001, Bo Yuan. 3247-3256 [doi]

Assisting News Media Editors with Cohesive Visual StorylinesGonçalo Marcelino, David Semedo, André Mourão, Saverio G. Blasi, João Magalhães, Marta Mrak. 3257-3265 [doi]

MM-Flow: Multi-modal Flow Network for Point Cloud CompletionYiqiang Zhao, Yiyao Zhou, Rui Chen, Bin Hu, Xiding Ai. 3266-3274 [doi]

Long-tailed Distribution AdaptationZhiliang Peng, Wei Huang, Zonghao Guo, Xiaosong Zhang, Jianbin Jiao, Qixiang Ye. 3275-3282 [doi]

Lesion-Inspired Denoising Network: Connecting Medical Image Denoising and Lesion DetectionKecheng Chen, Kun Long, Yazhou Ren 0001, Jiayu Sun, Xiaorong Pu. 3283-3292 [doi]

Domain Adaptive Semantic Segmentation without Source DataFuming You, Jingjing Li, Lei Zhu, Zhi Chen, Zi Huang. 3293-3302 [doi]

Cross-modal Joint Prediction and Alignment for Composed Query Image RetrievalYuchen Yang, Min Wang 0019, Wengang Zhou, Houqiang Li. 3303-3311 [doi]

JDMAN: Joint Discriminative and Mutual Adaptation Networks for Cross-Domain Facial Expression RecognitionYingjian Li, Yingnan Gao, Bingzhi Chen, Zheng Zhang, Lei Zhu, Guangming Lu. 3312-3320 [doi]

Improving Weakly Supervised Object Localization via Causal InterventionFeifei Shao, Yawei Luo, Li Zhang, Lu Ye, Siliang Tang, Yi Yang, Jun Xiao 0001. 3321-3329 [doi]

Imbalanced Source-free Domain AdaptationXinhao Li, Jingjing Li, Lei Zhu, Guoqing Wang, Zi Huang. 3330-3339 [doi]

Learning Transferrable and Interpretable Representations for Domain GeneralizationZhekai Du, Jingjing Li, Ke Lu 0001, Lei Zhu 0002, Zi Huang. 3340-3349 [doi]

WAS-VTON: Warping Architecture Search for Virtual Try-on NetworkZhenyu Xie, Xujie Zhang, Fuwei Zhao, Haoye Dong, Michael C. Kampffmeyer, Haonan Yan, Xiaodan Liang. 3350-3359 [doi]

DFR-Net: A Novel Multi-Task Learning Network for Real-Time Multi-Instrument SegmentationYan-Jie Zhou, Shi-Qi Liu, Xiao-Liang Xie, Zeng-Guang Hou. 3360-3369 [doi]

From Superficial to Deep: Language Bias driven Curriculum Learning for Visual Question AnsweringMingrui Lao, Yanming Guo, Yu Liu 0012, Wei Chen 0072, Nan Pu, Michael S. Lew. 3370-3379 [doi]

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and BenchmarkXun Gao, Yin Zhao, Jie Zhang, Longjun Cai. 3380-3389 [doi]

Block Popularity Prediction for Multimedia Storage Systems Using Spatial-Temporal-Sequential Neural NetworksYingying Cheng, Fan Zhang, Gang Hu, Yiwen Wang, Hanhui Yang, Gong Zhang, Zhuo Cheng. 3390-3398 [doi]

Transferrable Contrastive Learning for Visual Domain AdaptationYang Chen, Yingwei Pan, Yu Wang 0102, Ting Yao, Xinmei Tian 0001, Tao Mei 0001. 3399-3408 [doi]

Weighted Gaussian Loss based Hamming HashingRong-Cheng Tu, Xian-Ling Mao, Cihang Kong, Zihang Shao, Ze-Lin Li, Wei Wei 0002, Heyan Huang. 3409-3417 [doi]

Domain-Aware SE Network for Sketch-based Image Retrieval with Multiplicative Euclidean Margin SoftmaxPeng Lu, Gao Huang, Hangyu Lin, Wenming Yang, Guodong Guo, Yanwei Fu. 3418-3426 [doi]

FTAFace: Context-enhanced Face Detector with Fine-grained Task AttentionDeyu Wang, Dongchao Wen, Wei Tao, Lingxiao Yin, Tse-Wei Chen 0001, Tadayuki Ito, Kinya Osa, Masami Kato. 3427-3436 [doi]

Identity-aware Graph Memory Network for Action DetectionJingcheng Ni, Jie Qin, Di Huang 0001. 3437-3445 [doi]

Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose EstimationWenkang Shan, Haopeng Lu, Shanshe Wang, Xinfeng Zhang, Wen Gao 0001. 3446-3454 [doi]

Deep Neural Network RetrievalNan Zhong, Zhenxing Qian, Xinpeng Zhang 0001. 3455-3463 [doi]

Adversarial Learning with Mask Reconstruction for Text-Guided Image InpaintingXingcai Wu, Yucheng Xie, Jiaqi Zeng, Zhenguo Yang, Yi Yu, Qing Li, Wenyin Liu. 3464-3472 [doi]

Spatiotemporal Inconsistency Learning for DeepFake Video DetectionZhihao Gu, Yang Chen, Taiping Yao, Shouhong Ding, Jilin Li, Feiyue Huang, Lizhuang Ma. 3473-3481 [doi]

VeloCity: Using Voice Assistants for Cyclists to Provide Traffic ReportsGian-Luca Savino, Jessé Moraes Braga, Johannes Schöning. 3482-3491 [doi]

Edit Like A Designer: Modeling Design Workflows for Unaligned Fashion EditingQiyu Dai, Shuai Yang, Wenjing Wang, Wei Xiang, Jiaying Liu 0001. 3492-3500 [doi]

Privacy-Preserving Portrait MattingJizhizi Li, Sihan Ma, Jing Zhang, Dacheng Tao. 3501-3509 [doi]

A Transformer based Approach for Image Manipulation Chain DetectionJiaxiang You, Yuanman Li, Jiantao Zhou 0001, Zhongyun Hua, Weiwei Sun, Xia Li 0006. 3510-3517 [doi]

HANet: Hierarchical Alignment Networks for Video-Text RetrievalPeng Wu, Xiangteng He, Mingqian Tang, Yiliang Lv, Jing Liu. 3518-3527 [doi]

Scalable Multi-view Subspace Clustering with Unified AnchorsMengjing Sun, Pei Zhang, Siwei Wang, Sihang Zhou, Wenxuan Tu, Xinwang Liu, En Zhu, Changjian Wang. 3528-3536 [doi]

PRNet: A Progressive Recovery Network for Revealing Perceptually Encrypted ImagesTao Xiang, Ying Yang, Shangwei Guo, Hangcheng Liu, Hantao Liu. 3537-3545 [doi]

FakeTagger: Robust Safeguards against DeepFake Dissemination via Provenance TrackingRun Wang, Felix Juefei-Xu, Meng Luo, Yang Liu, Lina Wang. 3546-3555 [doi]

Discriminative Latent Semantic Graph for Video CaptioningYang Bai, Junyan Wang, Yang Long 0001, BingZhang Hu, Yang Song 0001, Maurice Pagnucco, Yu Guan. 3556-3564 [doi]

From Image to Imuge: Immunized Image GenerationQichao Ying, Zhenxing Qian, Hang Zhou 0007, Haisheng Xu, Xinpeng Zhang 0001, Siyi Li. 3565-3573 [doi]

Wisdom of (Binned) Crowds: A Bayesian Stratification Paradigm for Crowd CountingSravya Vardhani Shivapuja, Mansi Pradeep Khamkar, Divij Bajaj, Ganesh Ramakrishnan, Ravi Kiran Sarvadevabhatla. 3574-3582 [doi]

Demystifying Commercial Video Conferencing ApplicationsInsoo Lee, Jinsung Lee, Kyunghan Lee, Dirk Grunwald, Sangtae Ha. 3583-3591 [doi]

LightFEC: Network Adaptive FEC with a Lightweight Deep-Learning ApproachHan Hu, Sheng Cheng, Xinggong Zhang, Zongming Guo. 3592-3600 [doi]

SOGAN: 3D-Aware Shadow and Occlusion Robust GAN for Makeup TransferYueming Lyu, Jing Dong 0003, Bo Peng 0002, Wei Wang 0025, Tieniu Tan. 3601-3609 [doi]

Reproducibility Companion Paper: Campus3D: A Photogrammetry Point Cloud Benchmark for Outdoor Scene Hierarchical UnderstandingYuqing Liao, Xinke Li, Zekun Tong, Yabang Zhao, Andrew Lim 0001, Zhenzhong Kuang, Cise Midoglu. 3610-3614 [doi]

Reproducibility Companion Paper: Norm-in-Norm Loss with Faster Convergence and Better Performance for Image Quality AssessmentDingquan Li, Tingting Jiang, Ming Jiang, Vajira Lasantha Thambawita, Haoliang Wang. 3615-3618 [doi]

Reproducibility Companion Paper: Kalman Filter-Based Head Motion Prediction for Cloud-Based Mixed RealitySerhan Gül, Sebastian Bosse, Dimitri Podborski, Thomas Schierl, Cornelius Hellge, Marc A. Kastner, Jan Zahálka. 3619-3621 [doi]

Reproducibility Companion Paper: Blind Natural Video Quality Prediction via Statistical Temporal Features and Deep Spatial FeaturesJari Korhonen, Yicheng Su, Junyong You, Steven Hicks, Cise Midoglu. 3622-3626 [doi]

Reproducibility Companion Paper: Describing Subjective Experiment Consistency by p-Value P-P PlotJakub Nawala, Lucjan Janowski, Bogdan Cmiel, Krzysztof Rusek, Marc A. Kastner, Jan Zahálka. 3627-3629 [doi]

Reproducibility Companion Paper: Self-supervised Video Representation Learning Using Inter-intra Contrastive FrameworkLi Tao, Xueting Wang, Toshihiko Yamasaki, Jingjing Chen, Steven Hicks. 3630-3632 [doi]

Reproducibility Companion Paper: Visual Relation of Interest DetectionFan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, Zhenzhong Kuang. 3633-3637 [doi]

Reproducibility Companion Paper: On Learning Disentangled Representation for Acoustic Event DetectionLijian Gao, Qirong Mao, Jingjing Chen, Ming Dong, Ratna Babu Chinnam, Lucile Sassatelli, Miguel Fabian Romero-Rondón, Ujjwal Sharma. 3638-3641 [doi]

AI and the Future of EducationJames C. Lester. 3642 [doi]

Digital Human in an Integrated Physical-Digital World (IPhD)Zhengyou Zhang. 3643 [doi]

Cross-Camera Feature Prediction for Intra-Camera Supervised Person Re-identification across Distant ScenesWenhang Ge, Chunyan Pan, Ancong Wu, Hongwei Zheng 0002, Wei-Shi Zheng. 3644-3653 [doi]

Video Visual Relation Detection via Iterative InferenceXindi Shang, Yicong Li, Junbin Xiao, Wei Ji, Tat-Seng Chua. 3654-3663 [doi]

Instance-wise or Class-wise? A Tale of Neighbor Shapley for Concept-based ExplanationJiahui Li, Kun Kuang, Lin Li, Long Chen, Songyang Zhang, Jian Shao, Jun Xiao. 3664-3672 [doi]

Multifocal Attention-Based Cross-Scale Network for Image De-rainingZheyu Zhang, Yurui Zhu, Xueyang Fu, Zhiwei Xiong, Zheng-Jun Zha, Feng Wu 0001. 3673-3681 [doi]

PFFN: Progressive Feature Fusion Network for Lightweight Image Super-ResolutionDongyang Zhang, Changyu Li, Ning Xie, Guoqing Wang, Jie Shao. 3682-3690 [doi]

InterBN: Channel Fusion for Adversarial Unsupervised Domain AdaptationMengzhu Wang, Wei Wang, Baopu Li, Xiang Zhang, Long Lan, Huibin Tan, Tianyi Liang, Wei Yu, Zhigang Luo. 3691-3700 [doi]

Learning to Compose Stylistic Calligraphy Artwork with EmotionsShaozu Yuan, Ruixue Liu, Meng Chen 0006, Baoyang Chen, Zhijie Qiu, Xiaodong He 0002. 3701-3709 [doi]

Graph Neural Networks for Knowledge Enhanced Visual Representation of PaintingsAthanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Marcel Worring, Nachoem Wijnberg. 3710-3719 [doi]

ArtScience and the ICECUBE LED Display [ILDm^3]Mark David Hosale, Robert Allison, Jim Madsen, Marcus Gordon. 3720-3727 [doi]

PUGCQ: A Large Scale Dataset for Quality Assessment of Professional User-Generated ContentGuo Li, Baoliang Chen, Lingyu Zhu 0006, Qingwen He, Hongfei Fan, Shiqi Wang 0001. 3728-3736 [doi]

Combining Attention with Flow for Person Image SynthesisYurui Ren, Yubo Wu, Thomas H. Li, Shan Liu 0001, Ge Li 0002. 3737-3745 [doi]

Dual Learning Music Composition and Dance ChoreographyShuang Wu, Zhenguang Liu, Shijian Lu, Li Cheng 0001. 3746-3754 [doi]

MMFashion: An Open-Source Toolbox for Visual Fashion AnalysisXin Liu, Jiancheng Li, Jiaqi Wang, Ziwei Liu. 3755-3758 [doi]

Efficient Reinforcement Learning Development with RLzooZihan Ding, Tianyang Yu, Hongming Zhang, Yanhua Huang, Guo Li, Quancheng Guo, Luo Mai, Hao Dong. 3759-3762 [doi]

Fast and Flexible Human Pose Estimation with HyperPoseYixiao Guo, Jiawei Liu, Guo Li, Luo Mai, Hao Dong. 3763-3766 [doi]

SmartEye: An Open Source Framework for Real-Time Video Analytics with Edge-Cloud CollaborationXuezhi Wang, Guanyu Gao. 3767-3770 [doi]

ZoomSense: A Scalable Infrastructure for Augmenting ZoomTom Bartindale, Peter Chen, Harrison Marshall, Stanislav Pozdniakov, Dan Richardson. 3771-3774 [doi]

Efficient Graph Deep Learning in TensorFlow with tf_geometricJun Hu, Shengsheng Qian, Quan Fang, Youze Wang, Quan Zhao, Huaiwen Zhang, Changsheng Xu. 3775-3778 [doi]

FaceX-Zoo: A PyTorch Toolbox for Face RecognitionJun Wang, Yinglu Liu, Yibo Hu, Hailin Shi, Tao Mei. 3779-3782 [doi]

PyTorchVideo: A Deep Learning Library for Video UnderstandingHaoqi Fan 0001, Tullie Murrell, Heng Wang, Kalyan Vasudev Alwala, Yanghao Li, Yilei Li, Bo Xiong, Nikhila Ravi, Meng Li 0004, Haichuan Yang, Jitendra Malik, Ross B. Girshick, Matt Feiszli, Aaron Adcock, Wan-Yen Lo, Christoph Feichtenhofer. 3783-3786 [doi]

AICoacher: A System Framework for Online Realtime Workout CoachHaocong Ying, Tie Liu, Mingxin Ai, Jiali Ding, Yuanyuan Shang. 3787-3790 [doi]

MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and UnderstandingZhanghui Kuang, Hongbin Sun, Zhizhong Li 0002, Xiaoyu Yue, Tsui Hin Lin, Jianyong Chen, Huaqiang Wei, Yiqin Zhu, Tong Gao, Wenwei Zhang, Kai Chen, Wayne Zhang, Dahua Lin. 3791-3794 [doi]

A Complete End to End Open Source Toolchain for the Versatile Video Coding (VVC) StandardAdam Wieckowski, Christian Lehmann, Benjamin Bross, Detlev Marpe, Thibaud Biatek, Mickaël Raulet, Jean Le Feuvre. 3795-3798 [doi]

X-modaler: A Versatile and High-performance Codebase for Cross-modal AnalyticsYehao Li, Yingwei Pan, Jingwen Chen, Ting Yao, Tao Mei. 3799-3802 [doi]

Interpreting Super-Resolution CNNs for Sub-Pixel Motion Compensation in Video CodingLuka Murn, Alan F. Smeaton, Marta Mrak. 3803-3806 [doi]

Towards Accurate Localization by Instance SearchYi-Geng Hong, Hui-Chu Xiao, Wan-Lei Zhao. 3807-3815 [doi]

Database-adaptive Re-ranking for Enhancing Cross-modal Image RetrievalRintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama. 3816-3825 [doi]

Fine-grained Cross-modal Alignment Network for Text-Video RetrievalNing Han, Jingjing Chen, Guangyi Xiao, Hao Zhang, Yawen Zeng, Hao Chen. 3826-3834 [doi]

Meta Self-Paced Learning for Cross-Modal MatchingJiwei Wei, Xing Xu, Zheng Wang, Guoqing Wang. 3835-3843 [doi]

CausalRec: Causal Inference for Visual Debiasing in Visually-Aware RecommendationRuihong Qiu, Sen Wang, Zhi Chen, Hongzhi Yin, Zi Huang. 3844-3852 [doi]

Semi-supervised Domain Adaptive Retrieval via Discriminative Hashing LearningHaifeng Xia, Taotao Jing, Chen Chen 0001, Zhengming Ding. 3853-3861 [doi]

Hierarchical View Predictor: Unsupervised 3D Global Feature Learning through Hierarchical Prediction among Unordered ViewsZhizhong Han, Xiyang Wang, Yu-Shen Liu, Matthias Zwicker. 3862-3871 [doi]

Mining Latent Structures for Multimedia RecommendationJinghao Zhang, Yanqiao Zhu 0001, Qiang Liu 0006, Shu Wu, Shuhui Wang, Liang Wang. 3872-3880 [doi]

Why Do We Click: Visual Impression-aware News RecommendationJiahao Xun, Shengyu Zhang, Zhou Zhao, Jieming Zhu, Qi Zhang, Jingjie Li, Xiuqiang He, Xiaofei He 0001, Tat-Seng Chua, Fei Wu 0001. 3881-3890 [doi]

Identity-Preserving Face Anonymization via Adaptively Facial Attributes ObfuscationJingzhi Li, Lutong Han, Ruoyu Chen, Hua Zhang, Bing Han, Lili Wang, Xiaochun Cao. 3891-3899 [doi]

CONQUER: Contextual Query-aware Ranking for Video Corpus Moment RetrievalZhijian Hou, Chong-Wah Ngo, Wing Kwong Chan. 3900-3908 [doi]

Learning Unified Embeddings for Recommendation via Meta-path SemanticsQianxiu Hao, Qianqian Xu, Zhiyong Yang 0001, Qingming Huang. 3909-3917 [doi]

ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for Low-Resource Real-World DataKin Wai Cheuk, Dorien Herremans, Li Su. 3918-3926 [doi]

Is Someone Speaking?: Exploring Long-term Temporal Features for Audio-visual Active Speaker DetectionRuijie Tao, Zexu Pan, Rohan Kumar Das, Xinyuan Qian, Mike Zheng Shou, Haizhou Li 0001. 3927-3935 [doi]

Actions Speak Louder than Listening: Evaluating Music Style Transfer based on Editing ExperienceWei Tsung Lu, Meng-Hsuan Wu, Yuh-Ming Chiu, Li Su 0004. 3936-3944 [doi]

Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale CorpusRongjie Huang, Feiyang Chen, Yi Ren 0006, Jinglin Liu, Chenye Cui, Zhou Zhao. 3945-3954 [doi]

MusicBERT: A Self-supervised Learning of Music RepresentationHongyuan Zhu, Ye Niu, Di Fu, Hao Wang. 3955-3963 [doi]

UniCon: Unified Context Network for Robust Active Speaker DetectionYuanhang Zhang, Susan Liang, Shuang Yang, Xiao Liu, Zhongqin Wu, Shiguang Shan, Xilin Chen. 3964-3972 [doi]

AITransfer: Progressive AI-powered Transmission for Real-Time Point Cloud Video StreamingYakun Huang, Yuanwei Zhu, Xiuquan Qiao, Zhijie Tan, Boyuan Bai. 3989-3997 [doi]

Game Theory-driven Rate Control for 360-Degree Video CodingTiesong Zhao, Jielian Lin, Yanjie Song, Xu Wang 0006, Yuzhen Niu. 3998-4006 [doi]

TBRA: Tiling and Bitrate Adaptation for Mobile 360-Degree Video StreamingLei Zhang 0066, Yanyan Suo, Ximing Wu, Feng Wang, Yuchi Chen, Laizhong Cui, Jiangchuan Liu, Zhong Ming 0001. 4007-4015 [doi]

QoE Ready to Respond: A QoE-aware MEC Selection Scheme for DASH-based Adaptive Video Streaming to Mobile UsersWanxin Shi, Qing Li 0006, Ruishan Zhang, Gengbiao Shen, Yong Jiang, Zhenhui Yuan, Gabriel-Miro Muntean. 4016-4024 [doi]

Hierarchical Fusion for Practical Ghost-free High Dynamic Range ImagingPengfei Xiong, Yu Chen. 4025-4033 [doi]

Edge-oriented Convolution Block for Real-time Super Resolution on Mobile DevicesXindong Zhang, Hui Zeng, Lei Zhang. 4034-4043 [doi]

Semantic Scalable Image Compression with Cross-Layer PriorsHanyue Tu, Li Li, Wengang Zhou, Houqiang Li. 4044-4052 [doi]

Cascade Cross-modal Attention Network for Video Actor and Action Segmentation from a SentenceWeidong Chen, Guorong Li, Xinfeng Zhang, Hongyang Yu, Shuhui Wang, Qingming Huang. 4053-4062 [doi]

Extracting Useful Knowledge from Noisy Web Images via Data Purification for Fine-Grained RecognitionChuanyi Zhang, Yazhou Yao, Xing Xu, Jie Shao, Jingkuan Song, Zechao Li, Zhenmin Tang. 4063-4072 [doi]

Complementary Factorization towards Outfit Compatibility ModelingTianyu Su, Xuemeng Song, Na Zheng, Weili Guan, Yan Li, Liqiang Nie. 4073-4081 [doi]

Open Set Face Anti-Spoofing in Unseen AttacksXin Dong, Hao Liu 0019, Weiwei Cai, Pengyuan Lv, Zekuan Yu. 4082-4090 [doi]

Interventional Video Relation DetectionYicong Li, Xun Yang, Xindi Shang, Tat-Seng Chua. 4091-4099 [doi]

CanvasEmb: Learning Layout Representation with Large-scale Pre-training for Graphic DesignYuxi Xie, Danqing Huang, Jinpeng Wang, Chin-Yew Lin. 4100-4108 [doi]

Augmenting TV Shows via Uncalibrated Camera Small Motion Tracking in Dynamic SceneYizhen Lao, Jie Yang, Xinying Wang, Jianxin Lin, Yu Cao, Shien Song. 4109-4117 [doi]

SimulSLT: End-to-End Simultaneous Sign Language TranslationAoxiong Yin, Zhou Zhao, Jinglin Liu, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He 0001. 4118-4127 [doi]

Mask and Predict: Multi-step Reasoning for Scene Graph GenerationHongshuo Tian, Ning Xu 0003, An-An Liu, Chenggang Yan, Zhendong Mao, Quan Zhang, Yongdong Zhang 0001. 4128-4136 [doi]

Heterogeneous Face Recognition with Attention-guided Feature DisentanglingShanmin Yang, Xiao Yang, Yi Lin, Peng Cheng 0006, Yi Zhang, Jianwei Zhang. 4137-4145 [doi]

Exploring the Quality of GAN Generated Images for Person Re-IdentificationYiqi Jiang, Weihua Chen, Xiuyu Sun, Xiaoyu Shi, Fan Wang, Hao Li. 4146-4155 [doi]

Multi-view Clustering via Deep Matrix Factorization and Partition AlignmentChen Zhang, Siwei Wang, Jiyuan Liu, Sihang Zhou, Pei Zhang, Xinwang Liu, En Zhu, Changwang Zhang. 4156-4164 [doi]

Video Similarity and Alignment Learning on Partial Video Copy DetectionZhen Han, Xiangteng He, Mingqian Tang, Yiliang Lv. 4165-4173 [doi]

No-Reference Video Quality Assessment with Heterogeneous Knowledge EnsembleJinjian Wu, Yongxu Liu, Leida Li, Weisheng Dong, Guangming Shi. 4174-4182 [doi]

Seeing is Believing?: Effects of Visualization on Smart Device Privacy PerceptionsCarlos Bermejo Fernandez, Petteri Nurmi, Pan Hui 0001. 4183-4192 [doi]

MHFC: Multi-Head Feature Collaboration for Few-Shot LearningShuai Shao 0006, Lei Xing, Yan Wang, Rui Xu, Chunyan Zhao, Yanjiang Wang, Baodi Liu. 4193-4201 [doi]

Vision-guided Music Source Separation via a Fine-grained Cycle-Separation NetworkMa Shuo, Yanli Ji, Xing Xu 0001, Xiaofeng Zhu 0001. 4202-4210 [doi]

GLM-Net: Global and Local Motion Estimation via Task-Oriented Encoder-Decoder StructureYuchen Yang, Ye Xiang, Shuaicheng Liu, Lifang Wu, Boxuan Zhao, Bing Zeng. 4211-4219 [doi]

Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal AttentionKatsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada. 4220-4229 [doi]

Cross Modal Compression: Towards Human-comprehensible Semantic CompressionJiguo Li 0002, Chuanmin Jia, Xinfeng Zhang, Siwei Ma, Wen Gao 0001. 4230-4238 [doi]

RAMS-Trans: Recurrent Attention Multi-scale Transformer for Fine-grained Image RecognitionYunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He, Hui Xue 0001. 4239-4248 [doi]

Memory-Augmented Deep Unfolding Network for Compressive SensingJiechong Song, Bin Chen, Jian Zhang. 4249-4258 [doi]

Underwater Species Detection using Channel Sharpening AttentionLihao Jiang, Yi Wang 0037, Qi Jia 0001, Shengwei Xu, Yu Liu 0012, Xin Fan 0001, Haojie Li, Risheng Liu, Xinwei Xue, Ruili Wang. 4259-4267 [doi]

Self-Supervised Pre-training on the Target Domain for Cross-Domain Person Re-identificationJunyin Zhang, Yongxin Ge, Xinqian Gu, Boyu Hua, Tao Xiang. 4268-4276 [doi]

Exploring Graph-Structured Semantics for Cross-Modal RetrievalLei Zhang, Leiting Chen, Chuan Zhou 0004, Fan Yang, Xin Li. 4277-4286 [doi]

Text is NOT Enough: Integrating Visual Impressions into Open-domain Dialogue GenerationLei Shen, Haolan Zhan, Xin Shen, Yonghao Song, Xiaofang Zhao. 4287-4296 [doi]

Quality Assessment of End-to-End Learned Image Compression: The Benchmark and Objective MeasureYang Li, Shiqi Wang 0001, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Yue Wang 0032. 4297-4305 [doi]

A Statistical Approach to Mining Semantic Similarity for Deep Unsupervised HashingXiao Luo, Daqing Wu, Zeyu Ma, Chong Chen 0002, Minghua Deng, Jianqiang Huang, Xian-Sheng Hua 0001. 4306-4314 [doi]

BAM: Bilateral Activation Mechanism for Image FusionZi-Rong Jin, Liang-Jian Deng, Tian-Jing Zhang, Xiao-Xu Jin. 4315-4323 [doi]

Self-supervising Action Recognition by Statistical Moment and Subspace DescriptorsLei Wang, Piotr Koniusz. 4324-4333 [doi]

Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action RecognitionTailin Chen, Desen Zhou, Jian Wang, Shidong Wang, Yu Guan, Xuming He 0001, Errui Ding. 4334-4342 [doi]

ION: Instance-level Object NavigationWeijie Li, Xinhang Song, Yubing Bai, Sixian Zhang, Shuqiang Jiang. 4343-4352 [doi]

Skeleton-Aware Neural Sign Language TranslationShiwei Gan, Yafeng Yin, Zhiwei Jiang, Lei Xie, Sanglu Lu. 4353-4361 [doi]

Fingerspelling Recognition in the Wild with Fixed-Query based Visual AttentionSrinivas Kruthiventi S. S, George Jose, Nitya Tandon, Rajesh Roshan Biswal, Aashish Kumar. 4362-4370 [doi]

Deep Human Dynamics PriorQiongjie Cui, HuaiJiang Sun, Yue Kong, Xiaoning Sun. 4371-4379 [doi]

Exploiting Invariance of Mining Facial LandmarksJiangming Shi, Zixian Gao, Hao Liu, Zekuan Yu, FengJun Li. 4380-4389 [doi]

Joint Implicit Image Function for Guided Depth Super-ResolutionJiaxiang Tang, Xiaokang Chen, Gang Zeng. 4390-4399 [doi]

Transformer-based Feature Reconstruction Network for Robust Multimodal Sentiment AnalysisZiqi Yuan, Wei Li, Hua Xu, Wenmeng Yu. 4400-4407 [doi]

Self-feature Learning: An Efficient Deep Lightweight Network for Image Super-resolutionJun Xiao, Qian Ye, Rui Zhao, Kin-Man Lam 0001, Kao Wan. 4408-4416 [doi]

DAWN: Dynamic Adversarial Watermarking of Neural NetworksSebastian Szyller, Buse Gul Atli, Samuel Marchal, N. Asokan. 4417-4425 [doi]

Visible Watermark Removal via Self-calibrated Localization and Background RefinementJing Liang, Li Niu, Fengjun Guo, Teng Long, Liqing Zhang. 4426-4434 [doi]

Learning to Decode Contextual Information for Efficient Contour DetectionRuoxi Deng, Shengjun Liu, Jinxin Wang, Huibing Wang, Hanli Zhao, Xiaoqin Zhang. 4435-4443 [doi]

Fast, High-Quality Hierarchical Depth-Map Super-ResolutionYiguo Qiao, Licheng Jiao, Wenbin Li 0002, Christian Richardt, Darren Cosker. 4444-4453 [doi]

TsFPS: An Accurate and Flexible 6DoF Tracking System with Fiducial Platonic SolidsNan Xiang, Xiaosong Yang, Jian J. Zhang 0001. 4454-4462 [doi]

Consistency-Constancy Bi-Knowledge Learning for Pedestrian Detection in Night SurveillanceXiao Wang, Zheng Wang 0007, Wu Liu, Xin Xu, Jing Chen, Chia-Wen Lin. 4463-4471 [doi]

SSconv: Explicit Spectral-to-Spatial Convolution for PansharpeningYudong Wang, Liang-Jian Deng, Tian-Jing Zhang, Xiao Wu. 4472-4480 [doi]

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding NetworkZhengyi Liu, Yuan Wang, Zhengzheng Tu, Yun Xiao, Bin Tang. 4481-4490 [doi]

Learning Sample-Specific Policies for Sequential Image AugmentationPu Li, Xiaobai Liu, Xiaohui Xie. 4491-4500 [doi]

Image Quality Caption with Attentive and Recurrent Semantic Attractor NetworkWen Yang, Jinjian Wu, Leida Li, Weisheng Dong, Guangming Shi. 4501-4509 [doi]

Triangle-Reward Reinforcement Learning: A Visual-Linguistic Semantic Alignment for Image CaptioningWeizhi Nie, Jiesi Li, Ning Xu 0003, An-An Liu, Xuanya Li, Yongdong Zhang 0001. 4510-4518 [doi]

Stacked Semantically-Guided Learning for Image De-distortionHuiyuan Fu, Changhao Tian, Xin Wang, Huadong Ma. 4519-4527 [doi]

Focal and Composed Vision-semantic Modeling for Visual Question AnsweringYudong Han, Yangyang Guo, Jianhua Yin, Meng Liu 0006, Yupeng Hu, Liqiang Nie. 4528-4536 [doi]

Pose-Guided Feature Learning with Knowledge Distillation for Occluded Person Re-IdentificationKecheng Zheng, Cuiling Lan, Wenjun Zeng, Jiawei Liu, Zhizheng Zhang, Zheng-Jun Zha. 4537-4545 [doi]

Multiple Objects-Aware Visual Question GenerationJiayuan Xie, Yi Cai 0001, Qingbao Huang, Tao Wang. 4546-4554 [doi]

VASTile: Viewport Adaptive Scalable 360-Degree Video Frame TilingChamara Madarasingha, Kanchana Thilakarathna. 4555-4563 [doi]

Delving into Deep Image Prior for Adversarial Defense: A Novel Reconstruction-based Defense FrameworkLi Ding, Yongwei Wang, Xin Ding, Kaiwen Yuan, Ping Wang, Hua Huang, Z. Jane Wang 0001. 4564-4572 [doi]

Fine-Grained Language Identification in Scene Text ImagesYongrui Li, Shilian Wu, Jun Yu, Zengfu Wang. 4573-4581 [doi]

CARE: Cloudified Android OSes on the Cloud RenderingDongjie Tang, Cathy Bao, Yong Yao, Chao Xie, Qiming Shi, Marc Mao, Randy Xu, Linsheng Li, Mohammad R. Haghighat, Zhengwei Qi, Haibing Guan. 4582-4590 [doi]

Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition ModelShuangping Huang, Yu Luo, Zhenzhou Zhuang, Jin-Gang Yu, Mengchao He, Yongpan Wang. 4591-4599 [doi]

Image Search with Text Feedback by Deep Hierarchical Attention Mutual Information MaximizationChunbin Gu, Jiajun Bu, Zhen Zhang, Zhi Yu, Dongfang Ma, Wei Wang. 4600-4609 [doi]

Social Signals and Multimedia: Past, Present, FutureHayley Hung, Cathal Gurrin, Martha A. Larson, Hatice Gunes, Fabien Ringeval, Elisabeth André, Louis-Philippe Morency. 4610-4612 [doi]

Learning Spatial-angular Fusion for Compressive Light Field Imaging in a Cycle-consistent FrameworkXianqiang Lyu, Zhiyu Zhu, Mantang Guo, Jing Jin 0006, Junhui Hou, Huanqiang Zeng. 4613-4621 [doi]

From Voxel to Point: IoU-guided 3D Object Detection for Point Cloud with Voxel-to-Point DecoderJiale Li, Hang Dai, Ling Shao 0001, Yong Ding 0003. 4622-4631 [doi]

Extending 6-DoF VR Experience Via Multi-Sphere Images InterpolationJiSheng Li, Yuze He, Jinghui Jiao, Yubin Hu, Yuxing Han, Jiangtao Wen. 4632-4640 [doi]

iButter: Neural Interactive Bullet Time Generator for Human Free-viewpoint RenderingLiao Wang, Ziyu Wang, Pei Lin, Yuheng Jiang, Xin Suo, Minye Wu, Lan Xu, Jingyi Yu. 4641-4650 [doi]

Neural Free-Viewpoint Performance Rendering under Complex Human-object InteractionsGuoxing Sun, Xin Chen, Yizhang Chen, Anqi Pang, Pei Lin, Yuheng Jiang, Lan Xu, Jingyi Yu, Jingya Wang. 4651-4660 [doi]

Semi-supervised Learning via Improved Teacher-Student Network for Robust 3D Reconstruction of Stereo Endoscopic ImageHongkuan Shi, Zhiwei Wang, Jinxin Lv, Yilang Wang, Peng Zhang, Fei Zhu, Qiang Li. 4661-4669 [doi]

FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling NetworkQiang Hou, Weiqing Min, Jing Wang, Sujuan Hou, Yuanjie Zheng, Shuqiang Jiang. 4670-4679 [doi]

Cross-View Representation Learning for Multi-View Logo Classification with Information BottleneckJing Wang, Yuanjie Zheng, Jingqi Song, Sujuan Hou. 4680-4688 [doi]

Parametric Reshaping of Portraits in VideosXiangjun Tang, Wenxin Sun, Yong-Liang Yang, Xiaogang Jin 0001. 4689-4697 [doi]

Human Attributes Prediction under Privacy-preserving ConditionsAnshu Singh, Shaojing Fan, Mohan S. Kankanhalli. 4698-4706 [doi]

Multi-Modal Sarcasm Detection with Interactive In-Modal and Cross-Modal GraphsBin Liang, Chenwei Lou, Xiang Li, Lin Gui 0003, Min Yang 0007, Ruifeng Xu. 4707-4715 [doi]

Linking the Characters: Video-oriented Social Graph Generation via Hierarchical-cumulative GCNShiwei Wu, Joya Chen, Tong Xu 0001, Liyi Chen, Lingfei Wu, Yao Hu, Enhong Chen. 4716-4724 [doi]

Overview of Tencent Multi-modal Ads Video UnderstandingZhenzhi Wang 0001, Zhimin Li, Liyu Wu, Jiangfeng Xiong, Qinglin Lu. 4725-4729 [doi]

Better Learning Shot Boundary Detection via Multi-taskHaoxin Zhang, Zhimin Li, Qinglin Lu. 4730-4734 [doi]

Facial Micro-Expression Generation based on Deep Motion Retargeting and Transfer LearningXinqi Fan, Ali Raza Shahid, Hong Yan 0001. 4735-4739 [doi]

Deadline and Priority-aware Congestion Control for Delay-sensitive Multimedia StreamingChao Zhou, Wenjun Wu, Dan Yang, Tianchi Huang, Liang Guo, Bing Yu. 4740-4744 [doi]

LSSNet: A Two-stream Convolutional Neural Network for Spotting Macro- and Micro-expression in Long VideosWang-Wang Yu, Jingwen Jiang, Yong-Jie Li. 4745-4749 [doi]

Multi-Level Visual Representation with Semantic-Reinforced Learning for Video CaptioningChengbo Dong, Xinru Chen, Aozhu Chen, Fan Hu, Zihan Wang, Xirong Li 0001. 4750-4754 [doi]

Facial Prior Based First Order Motion Model for Micro-expression GenerationYi Zhang, Youjun Zhao, Yuhang Wen, Zixuan Tang, Xinhua Xu, Mengyuan Liu. 4755-4759 [doi]

Rethinking the Impacts of Overfitting and Feature Quality on Small-scale Video ClassificationXuansheng Wu, Feichi Yang, Tong Zhou, Xinyue Lin. 4760-4764 [doi]

A Gradient Balancing Approach for Robust Logo DetectionFuxing Leng. 4765-4769 [doi]

Multi-modal Representation Learning for Video Advertisement Content StructuringDaya Guo, Zhaoyang Zeng. 4770-4774 [doi]

Phoenix: Combining Highest-Profit First Scheduling and Responsive Congestion Control for Delay-sensitive Multimedia TransmissionHaozhe Li. 4775-4778 [doi]

VidVRD 2021: The Third Grand Challenge on Video Relation DetectionWei Ji, Yicong Li, Meng Wei, Xindi Shang, Junbin Xiao, Tongwei Ren, Tat-Seng Chua. 4779-4783 [doi]

A Simple and Effective Baseline for Robust Logo DetectionWeiPeng Xu, Ye Liu, Daquan Lin. 4784-4788 [doi]

Robust Logo Detection in E-Commerce Images by Data AugmentationHang Chen, Xiao Li, Zefan Wang, Xiaolin Hu. 4789-4793 [doi]

Facial Action Unit-based Deep Learning Framework for Spotting Macro- and Micro-expressions in Long Video SequencesBo Yang, Jianming Wu, Zhiguang Zhou, Megumi Komiya, Koki Kishimoto, Jianfeng Xu, Keisuke Nonaka, Toshiharu Horiuchi, Satoshi Komorita, Gen Hattori, Sei Naito, Yasuhiro Takishima. 4794-4798 [doi]

NJU MCG - Sensetime Team Submission to Pre-training for Video Understanding Challenge Track IILiwei Jin, Haoyue Cheng, Su Xu, Wayne Wu, Limin Wang 0002. 4799-4802 [doi]

Research on Micro-Expression Spotting Method Based on Optical Flow FeaturesYuhong He. 4803-4807 [doi]

A Solution to Multi-modal Ads Video Tagging ChallengeHao Wu, Jiajie Wang, Yuanzhe Gu, Peisen Zhao, Zhonglin Zu. 4808-4812 [doi]

FAMGAN: Fine-grained AUs Modulation based Generative Adversarial Network for Micro-Expression GenerationYifan Xu, Sirui Zhao, Huaying Tang, Xinglong Mao, Tong Xu 0001, Enhong Chen. 4813-4817 [doi]

Semantic Tag Augmented XlanV Model for Video CaptioningYiqing Huang, Hongwei Xue, Jiansheng Chen, Huimin Ma, Hongbing Ma. 4818-4822 [doi]

Automated Multi-Modal Video Editing for Ads VideoQin Lin, Nuo Pang, Zhiying Hong. 4823-4827 [doi]

Rate Adaptation and Block Scheduling for Delay-sensitive Multimedia ApplicationsDongyuan Su, Laizhong Cui, Lei Zhang, Yanyan Suo, Yan Qiu. 4828-4832 [doi]

Video Relation Detection via Tracklet based Visual TransformerKaifeng Gao, Long Chen, Yifeng Huang, Jun Xiao. 4833-4837 [doi]

Group-Level Focus of Visual Attention for Improved Next Speaker PredictionChris Birmingham, Kalin Stefanov, Maja J. Mataric. 4838-4842 [doi]

A Multimodal Framework for Video Ads UnderstandingZejia Weng, Lingchen Meng, Rui Wang, Zuxuan Wu, Yu-Gang Jiang. 4843-4847 [doi]

Joint Learning for Relationship and Interaction Analysis in Video with Multimodal Feature FusionBeibei Zhang, Fan Yu, Yanxin Gao, Tongwei Ren, Gangshan Wu. 4848-4852 [doi]

MM21 Pre-training for Video Understanding Challenge: Video Captioning with Pretraining TechniquesSihan Chen, Xinxin Zhu, Dongze Hao, Wei Liu, Jiawei Liu, Zijia Zhao, Longteng Guo, Jing Liu. 4853-4857 [doi]

CLIP4Caption: CLIP for Video CaptionMingkang Tang, Zhanyu Wang, Zhenhua Liu, Fengyun Rao, Dian Li, Xiu Li. 4858-4862 [doi]

The ACM Multimedia 2021 Meet Deadline Requirements Grand ChallengeJie Zhang, Junjie Deng, Mowei Wang, Yong Cui 0001, Wei Tsang Ooi, Jiangchuan Liu, Xinyu Zhang, Kai Zheng 0003, Yi Li. 4863-4867 [doi]

MultiModal Language Modelling on Knowledge Graphs for Deep Video UnderstandingVishal Anand, Raksha Ramesh, Boshen Jin, Ziyin Wang, Xiaoxiao Lei, Ching-Yung Lin. 4868-4872 [doi]

Using Motion Histories for Eye Contact Detection in Multiperson Group ConversationsEugene Yujun Fu, Michael W. Ngai. 4873-4877 [doi]

MultiMediate: Multi-modal Group Behaviour Analysis for Artificial MediationPhilipp Müller 0001, Michael Dietz, Dominik Schiller, Dominike Thomas, Guanhua Zhang, Patrick Gebhard, Elisabeth André, Andreas Bulling. 4878-4882 [doi]

MeshNet++: A Network with a FaceVinit Veerendraveer Singh, Shivanand Venkanna Sheshappanavar, Chandra Kambhamettu. 4883-4891 [doi]

Latent Memory-augmented Graph Transformer for Visual StorytellingMengshi Qi, Jie Qin, Di Huang 0001, Zhiqiang Shen, Yi Yang 0001, Jiebo Luo. 4892-4901 [doi]

TSA-Net: Tube Self-Attention Network for Action Quality AssessmentShunli Wang, Dingkang Yang, Peng Zhai, Chixiao Chen, Lihua Zhang. 4902-4910 [doi]

Exploring Contextual-Aware Representation and Linguistic-Diverse Expression for Visual DialogXiangPeng Li, Lianli Gao, Lei Zhao, Jingkuan Song. 4911-4919 [doi]

Automated Playtesting with a Cognitive Model of Sensorimotor CoordinationInjung Lee, Hyunchul Kim, Byungjoo Lee. 4920-4929 [doi]

CAA: Candidate-Aware Aggregation for Temporal Action DetectionYifan Ren, Xing Xu, Fumin Shen, Yazhou Yao, Huimin Lu. 4930-4938 [doi]

Disentangle Your Dense Object DetectorZehui Chen, Chenhongyi Yang, Qiaofei Li, Feng Zhao, Zheng-Jun Zha, Feng Wu. 4939-4948 [doi]

Do We Really Need Frame-by-Frame Annotation Datasets for Object Tracking?Lei Hu, Shaoli Huang, Shilei Wang, Wei Liu, Jifeng Ning. 4949-4957 [doi]

Video-to-Image Casting: A Flatting Method for Video AnalysisXu Chen, Chenqiang Gao, Feng Yang, Xiaohan Wang, Yi Yang, Yahong Han. 4958-4966 [doi]

Complementary Trilateral Decoder for Fast and Accurate Salient Object DetectionZhirui Zhao, Changqun Xia, Chenxi Xie, Jia Li. 4967-4975 [doi]

Learning Human Motion Prediction via Stochastic Differential EquationsKedi Lyu, Zhenguang Liu, Shuang Wu, Haipeng Chen, Xuhong Zhang, Yuyu Yin. 4976-4984 [doi]

Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction RecognitionNing Wang, Guangming Zhu 0001, Liang Zhang, Peiyi Shen, Hongsheng Li, Cong Hua. 4985-4993 [doi]

Learning Hierarchal Channel Attention for Fine-grained Visual ClassificationXiang Guan, Guoqing Wang, Xing Xu 0001, Yi Bin. 5011-5019 [doi]

Group-based Distinctive Image Captioning with Memory AttentionJiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan. 5020-5028 [doi]

VQMG: Hierarchical Vector Quantised and Multi-hops Graph Reasoning for Explicit Representation LearningLei Li, Chun Yuan. 5029-5037 [doi]

Structure-aware Mathematical Expression Recognition with Sequence-Level ModelingMinli Li, Peilin Zhao, Yifan Zhang 0004, Shuaicheng Niu, Qingyao Wu, Mingkui Tan. 5038-5046 [doi]

Exploring Logical Reasoning for Referring Expression ComprehensionYing Cheng, Ruize Wang, Jiashuo Yu, Rui-Wei Zhao, Yuejie Zhang, Rui Feng. 5047-5055 [doi]

Direction Relation Transformer for Image CaptioningZeliang Song, Xiaofei Zhou, Linhua Dong, Jianlong Tan, Li Guo 0001. 5056-5064 [doi]

Contrastive Disentangled Meta-Learning for Signer-Independent Sign Language TranslationTao Jin, Zhou Zhao. 5065-5073 [doi]

Scene Graph with 3D Information for Change CaptioningZeming Liao, Qingbao Huang, Yu Liang, Mingyi Fu, Yi Cai, Qing Li. 5074-5082 [doi]

Progressive Semantic Matching for Video-Text RetrievalHongying Liu, Ruyi Luo, Fanhua Shang, Mantang Niu, Yuanyuan Liu 0001. 5083-5091 [doi]

Multimodal Asymmetric Dual Learning for Unsupervised Eyeglasses RemovalQing Lin, Bo Yan, Weimin Tan. 5092-5100 [doi]

Neighbor-view Enhanced Model for Vision and Language NavigationDong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan. 5101-5109 [doi]

Multi-Perspective Video CaptioningYi Bin, Xindi Shang, Bo Peng, Yujuan Ding, Tat-Seng Chua. 5110-5118 [doi]

Pairwise VLAD Interaction Network for Video Question AnsweringHui Wang, Dan Guo, Xian-Sheng Hua 0001, Meng Wang. 5119-5127 [doi]

Attention-guided Temporally Coherent Video Object MattingYunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie, Xian-Sheng Hua 0001, Hujun Bao, Qixing Huang, Weiwei Xu. 5128-5137 [doi]

Disentangling Hate in Online MemesRoy Ka-Wei Lee, Rui Cao, Ziqing Fan, Jing Jiang, Wen Haw Chong. 5138-5147 [doi]

Robust Real-World Image Super-Resolution against Adversarial AttacksJiutao Yue, Haofeng Li, Pengxu Wei, Guanbin Li, Liang Lin. 5148-5157 [doi]

Towards Robust Deep Hiding Under Non-Differentiable Distortions for Practical Blind WatermarkingChaoning Zhang, Adil Karjauv, Philipp Benz, In-So Kweon. 5158-5166 [doi]

Bottom-Up and Bidirectional Alignment for Referring Expression ComprehensionLiuwu Li, Yuqi Bu, Yi Cai. 5167-5175 [doi]

SalS-GAN: Spatially-Adaptive Latent Space in StyleGAN for Real Image EmbeddingLingyun Zhang, Xiuxiu Bai, Yao Gao. 5176-5184 [doi]

Structured Multi-modal Feature Embedding and Alignment for Image-Sentence RetrievalXuri Ge, Fuhai Chen, Joemon M. Jose, Zhilong Ji, Zhongqin Wu, Xiao Liu. 5185-5193 [doi]

Keyframe Extraction from Motion Capture Sequences with Graph based Deep Reinforcement LearningClinton Mo, Kun Hu, Shaohui Mei, Zebin Chen, Zhiyong Wang 0001. 5194-5202 [doi]

Dense Contrastive Visual-Linguistic PretrainingLei Shi, Kai Shuang, Shijie Geng, Peng Gao, Zuohui Fu, Gerard de Melo, Yunpeng Chen, Sen Su. 5203-5212 [doi]

Hybrid Reasoning Network for Video-based Commonsense CaptioningWeijiang Yu, Jian Liang, Lei Ji, Lu Li, Yuejian Fang, Nong Xiao, Nan Duan. 5213-5221 [doi]

Learning Regularizer for Monocular Depth Estimation with Adversarial GuidanceGuibao Shen, Yingkui Zhang, Jialu Li, Mingqiang Wei, Qiong Wang 0001, Guangyong Chen, Pheng-Ann Heng. 5222-5230 [doi]

Pixel-wise Graph Attention Networks for Person Re-identificationWenyu Zhang, Qing Ding, Jian Hu, Yi Ma, Mingzhe Lu. 5231-5238 [doi]

Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance VotingXiaomeng Chu, Jiajun Deng, Yao Li, Zhenxun Yuan, Yanyong Zhang, Jianmin Ji, Yu Zhang. 5239-5247 [doi]

Remember and Reuse: Cross-Task Blind Image Quality Assessment via Relevance-aware Incremental LearningRui Ma, Hanxiao Luo, Qingbo Wu 0001, King Ngi Ngan, Hongliang Li 0001, Fanman Meng, Linfeng Xu. 5248-5256 [doi]

MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-IdentificationYajun Gao, Tengfei Liang, Yi Jin 0001, Xiaoyan Gu, Wu Liu, Yidong Li, Congyan Lang. 5257-5265 [doi]

Point Cloud Projection and Multi-Scale Feature Fusion Network Based Blind Quality Assessment for Colored Point CloudsWen-xu Tao, Gang-yi Jiang, Zhi-di Jiang, Mei Yu. 5266-5272 [doi]

Multi-branch Channel-wise Enhancement Network for Fine-grained Visual RecognitionGuangjun Li, Yongxiong Wang, Fengting Zhu. 5273-5280 [doi]

General Approximate Cross Validation for Model Selection: Supervised, Semi-supervised and Pairwise LearningBowei Zhu, Yong Liu. 5281-5289 [doi]

Progressive and Selective Fusion Network for High Dynamic Range ImagingQian Ye, Jun Xiao, Kin-Man Lam 0001, Takayuki Okatani. 5290-5297 [doi]

Multimodal Relation Extraction with Efficient Graph AlignmentChangmeng Zheng, Junhao Feng, Ze Fu, Yi Cai, Qing Li, Tao Wang 0036. 5298-5306 [doi]

Legitimate Adversarial Patches: Evading Human Eyes and Detection Models in the Physical WorldJia Tan, Nan Ji, Haidong Xie, Xueshuang Xiang. 5307-5315 [doi]

Unsupervised Vehicle Search in the Wild: A New BenchmarkXian Zhong, Shilei Zhao, Xiao Wang, Kui Jiang, Wenxuan Liu, Wenxin Huang, Zheng Wang. 5316-5325 [doi]

Meta-FDMixup: Cross-Domain Few-Shot Learning Guided by Labeled Target DataYuqian Fu, Yanwei Fu, Yu-Gang Jiang. 5326-5334 [doi]

Target-guided Adaptive Base Class Reweighting for Few-Shot LearningJiliang Yan, Deming Zhai, Junjun Jiang, Xianming Liu. 5335-5343 [doi]

Deep Reasoning Network for Few-shot Semantic SegmentationYunzhi Zhuge, Chunhua Shen. 5344-5352 [doi]

Heterogeneous Feature Fusion and Cross-modal Alignment for Composed Image RetrievalGangjian Zhang, Shikui Wei, Huaxin Pang, Yao Zhao 0001. 5353-5362 [doi]

Similar Scenes Arouse Similar Emotions: Parallel Data Augmentation for Stylized Image CaptioningGuodun Li, Yuchen Zhai, Zehao Lin, Yin Zhang. 5363-5372 [doi]

Trajectory is not Enough: Hidden Following DetectionDanni Xu, Ruimin Hu, Zixiang Xiong, Zheng Wang, Linbo Luo, Dengshi Li. 5373-5381 [doi]

Contrastive Learning for Cold-Start RecommendationYinwei Wei, Xiang Wang, Qi Li, Liqiang Nie, Yan Li, Xuanping Li, Tat-Seng Chua. 5382-5390 [doi]

CG-GAN: Class-Attribute Guided Generative Adversarial Network for Old Photo RestorationJixin Liu, Rui Chen, Shipeng An, Heng Zhang. 5391-5399 [doi]

Get The Best of the Three Worlds: Real-Time Neural Image Compression in a Non-GPU EnvironmentZekun Zheng, Xiaodong Wang, Xinye Lin, Shaohe Lv. 5400-5409 [doi]

Visual Language Based Succinct Zero-Shot Object DetectionYe Zheng, Xi Huang 0002, Li Cui. 5410-5418 [doi]

GAMnet: Robust Feature Matching via Graph Adversarial-Matching NetworkBo Jiang 0002, Pengfei Sun, Ziyan Zhang, Jin Tang, Bin Luo 0001. 5419-5426 [doi]

MCCN: Multimodal Coordinated Clustering Network for Large-Scale Cross-modal RetrievalZhixiong Zeng, Ying Sun, Wenji Mao. 5427-5435 [doi]

AFEC: Adaptive Feature Extraction Modules for Learned Image CompressionYi Ma, Yongqi Zhai, Jiayu Yang, Chunhui Yang, Ronggang Wang. 5436-5444 [doi]

How Video Super-Resolution and Frame Interpolation Mutually BenefitChengcheng Zhou, Zongqing Lu, Linge Li, Qiangyu Yan, Jing-Hao Xue. 5445-5453 [doi]

FOCAS: Practical Video Super Resolution using Foveated RenderingLingdong Wang, Mohammad H. Hajiesmaili, Ramesh K. Sitaraman. 5454-5462 [doi]

Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly Supervised Semantic SegmentationXiangrong Zhang, Zelin Peng, Peng Zhu, Tianyang Zhang, Chen Li 0032, Huiyu Zhou 0001, Licheng Jiao. 5463-5472 [doi]

Relationship-Preserving Knowledge Distillation for Zero-Shot Sketch Based Image RetrievalJialin Tian, Xing Xu, Zheng Wang, Fumin Shen, Xin Liu. 5473-5481 [doi]

Partially Fake it Till you Make It: Mixing Real and Fake Thermal Images for Improved Object DetectionFrancesco Bongini, Lorenzo Berlincioni, Marco Bertini, Alberto Del Bimbo. 5482-5490 [doi]

CDP: Towards Optimal Filter Pruning via Class-wise Discriminative PowerTianshuo Xu, Yuhang Wu, Xiawu Zheng, Teng Xi, Gang Zhang, Errui Ding, Fei Chao, Rongrong Ji. 5491-5500 [doi]

Face Hallucination via Split-Attention in Split-Attention NetworkTao Lu 0001, Yuanzhi Wang, Yanduo Zhang, Yu Wang, Liu Wei, Zhongyuan Wang, Junjun Jiang. 5501-5509 [doi]

Fake Gradient: A Security and Privacy Protection Framework for DNN-based Image ClassificationXianglong Feng, Yi Xie 0001, Mengmei Ye, Zhongze Tang, Bo Yuan 0001, Sheng Wei 0001. 5510-5518 [doi]

Integrating Semantic and Temporal Relationships in Facial Action Unit DetectionZhihua Li, Xiang Deng, Xiaotian Li, Lijun Yin. 5519-5527 [doi]

Sparse to Dense Depth Completion using a Generative Adversarial Network with Intelligent Sampling StrategiesMd Fahim Faysal Khan, Nelson Daniel Troncoso Aldas, Abhishek Kumar, Siddharth Advani, Vijaykrishnan Narayanan. 5528-5536 [doi]

How does Color Constancy Affect Target Recognition and Instance Segmentation?Siyan Xue, Shaobing Gao, Minjie Tan, Zhen He, Liangtian He. 5537-5545 [doi]

Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly DetectionXinyang Feng, Dongjin Song, Yuncong Chen, Zhengzhang Chen, Jingchao Ni, Haifeng Chen. 5546-5554 [doi]

Salient Error Detection based Refinement for Wide-baseline Image InterpolationYuan Chang, Yisong Chen, Guoping Wang. 5555-5564 [doi]

A Multi-Domain Adaptive Graph Convolutional Network for EEG-based Emotion RecognitionRui Li, Yiting Wang, Bao-Liang Lu. 5565-5573 [doi]

Interpolation Variable Rate Image CompressionZhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Yichen Qian, Dongyang Li, Hao Li. 5574-5582 [doi]

Armor: A Benchmark for Meta-evaluation of Artificial MusicSonghe Wang, Zheng Bao, Jingtong E. 5583-5590 [doi]

DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic FrameworkHaiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He, Hui Xue. 5591-5599 [doi]

CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and DenoisingJianjie Luo, Yehao Li, Yingwei Pan, Ting Yao, Hongyang Chao, Tao Mei 0001. 5600-5608 [doi]

DLA-Net for FG-SBIR: Dynamic Local Aligned Network for Fine-Grained Sketch-Based Image RetrievalJiaqing Xu, Haifeng Sun, Qi Qi 0001, Jingyu Wang 0001, Ce Ge, Lejian Zhang, Jianxin Liao. 5609-5618 [doi]

Pareto Optimality for Fairness-constrained Collaborative FilteringQianxiu Hao, Qianqian Xu, Zhiyong Yang 0001, Qingming Huang. 5619-5627 [doi]

Decoupled IoU Regression for Object DetectionYan Gao, Qimeng Wang, Xu Tang, Haochen Wang, Fei Ding, Jing Li, Yao Hu. 5628-5636 [doi]

RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object DetectionZhuofan Zong, Qianggang Cao, Biao Leng. 5637-5645 [doi]

Recursive Fusion and Deformable Spatiotemporal Attention for Video Compression Artifact ReductionMinyi Zhao, Yi Xu 0003, Shuigeng Zhou. 5646-5654 [doi]

JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line AwarenessJan Zdenek, Hideki Nakayama. 5655-5663 [doi]

Image Quality Assessment in the Modern AgeKede Ma, Yuming Fang. 5664-5666 [doi]

Trustworthy Multimedia AnalysisXiaowen Huang, Jiaming Zhang, Yi Zhang, Xian Zhao, Jitao Sang. 5667-5669 [doi]

Multimedia Classifiers: Behind the ScenesManjunath Iyer. 5670-5672 [doi]

Few-shot Learning for Multi-Modality TasksJie Chen 0001, Qixiang Ye, Xiaoshan Yang, S. Kevin Zhou, Xiaopeng Hong, Li Zhang. 5673-5674 [doi]

Plenoptic Quality Assessment: The JPEG Pleno ExperienceAntónio M. G. Pinheiro. 5675-5677 [doi]

A Tutorial on AI Music CompositionXu Tan, Xiaobing Li. 5678-5680 [doi]

Out-of-distribution Generalization and Its Applications for MultimediaXin Wang, Peng Cui, Wenwu Zhu 0001. 5681-5682 [doi]

Deep Learning for Visual Data CompressionGuo Lu, Ren Yang, Shenlong Wang, Shan Liu, Radu Timofte. 5683-5685 [doi]

ADVM'21: 1st International Workshop on Adversarial Learning for MultimediaAishan Liu, Xinyun Chen, Yingwei Li, Chaowei Xiao, Xun Yang, Xianglong Liu, Dawn Song, Dacheng Tao, Alan L. Yuille, Anima Anandkumar. 5686-5687 [doi]

AIxFood'21: 3rd Workshop on AIxFoodRicardo Guerrero, Michael Spranger, Shuqiang Jiang, Chong-Wah Ngo. 5688-5689 [doi]

HUMA'21: 2nd International Workshop on Human-centric Multimedia AnalysisWu Liu, Xinchen Liu, Jingkuan Song, Dingwen Zhang, Wenbing Huang 0001, Junbo Guo, John Smith. 5690-5691 [doi]

MMSports'21: 4th International Workshop on Multimedia Content Analysis in SportsRainer Lienhart, Thomas B. Moeslund, Hideo Saito. 5692-5693 [doi]

SUMAC'21: 3rd Workshop on Structuring and Understanding of Multimedia heritAge ContentsValérie Gouet-Brunet, Margarita Khokhlova, Ronak Kosti, Li Weng. 5694-5695 [doi]

UrbanMM'21: 1st International Workshop on Multimedia Computing for Urban DataStevan Rudinac, Alessandro Bozzon, Tat-Seng Chua, Suzanne Little, Daniel Gatica-Perez, Kiyoharu Aizawa. 5696-5697 [doi]

ADGD'21: 1st Workshop on Synthetic Multimedia - Audiovisual Deepfake Generation and DetectionStefan Winkler, Weiling Chen, Abhinav Dhall, Pavel Korshunov. 5698-5699 [doi]

FME'21: 1st Workshop on Facial Micro-Expression: Advanced Techniques for Facial Expressions Generation and SpottingJingting Li, Moi Hoon Yap, Wen-Huang Cheng, John See, Xiaopeng Hong, Xiaobai Li, Su-Jing Wang. 5700-5701 [doi]

MuCAI'21: 2nd ACM Multimedia Workshop on Multimodal Conversational AIJoão Magalhães, Alexander G. Hauptmann, Ricardo G. Sousa, Carlos Santiago. 5702-5703 [doi]

MULL'21: First International Workshop on Multimedia Understanding with Less LabelingXiu-Shen Wei, Jufeng Yang, Han-Jia Ye, Jian Yang. 5704-5705 [doi]

MuSe 2021 Challenge: Multimodal Emotion, Sentiment, Physiological-Emotion, and Stress DetectionLukas Stappen, Eva-Maria Meßner, Erik Cambria, Guoying Zhao, Björn W. Schuller. 5706-5707 [doi]

Trustworthy AI'21: 1st International Workshop on Trustworthy AI for Multimedia ComputingTeddy Furon, Jingen Liu, Yogesh Rawat, Wei Zhang, Qi Zhao. 5708-5709 [doi]

WAB'21: 1st Workshop on Multimodal Product Identification in Livestreaming and WAB ChallengeYueting Zhuang, Xing Tang, Guilin Wu, Yahong Han, Haihong Tang, Xiaobo Li, Xiaohan Wang, Baoming Yan, Bo Gao, Yi Yang. 5710-5711 [doi]

runs on WebDSL