MM '20: The 28th ACM International Conference on Multimedia, Virtual Event / Seattle, WA, USA, October 12-16, 2020 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Chang Wen Chen, Rita Cucchiara, Xian-Sheng Hua 0001, Guo-Jun Qi, Elisa Ricci 0001, Zhengyou Zhang, Roger Zimmermann, editors, MM '20: The 28th ACM International Conference on Multimedia, Virtual Event / Seattle, WA, USA, October 12-16, 2020. ACM, 2020. [doi]

Conference: mm

Abstract is missing.

Image Inpainting Based on Multi-frequency Probabilistic Inference ModelJin Wang, Chen Wang, Qingming Huang, Yunhui Shi, Jian-Feng Cai, Qing Zhu, Baocai Yin. 1-9 [doi]

Dual Adversarial Network for Unsupervised Ground/Satellite-to-Aerial Scene AdaptationJianzhe Lin, Lichao Mou, Tianze Yu, Xiaoxiang Zhu, Z. Jane Wang 0001. 10-18 [doi]

Adversarial Bipartite Graph Learning for Video Domain AdaptationYadan Luo, Zi Huang, Zijian Wang, Zheng Zhang 0006, Mahsa Baktashmotlagh. 19-27 [doi]

Give Me Something to Eat: Referring Expression Comprehension with Commonsense KnowledgePeng Wang, Dongyang Liu, Hui Li 0031, Qi Wu 0001. 28-36 [doi]

Single Image De-noising via Staged Memory NetworkWeijiang Yu, Jian Liang, Lu Li, Nong Xiao. 37-45 [doi]

Self-supervised Dance Video Synthesis Conditioned on MusicXuanchi Ren, Haoran Li, Zijian Huang, Qifeng Chen. 46-54 [doi]

Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action RecognitionFanfan Ye, Shiliang Pu, Qiaoyong Zhong, Chao Li, Di Xie, Huiming Tang. 55-63 [doi]

Meta Parsing Networks: Towards Generalized Few-shot Scene Parsing with Adaptive Metric LearningPeike Li, Yunchao Wei, Yi Yang 0001. 64-72 [doi]

CODAN: Counting-driven Attention Network for Vehicle Detection in Congested ScenesWei Li, Zhenting Wang, Xiao Wu 0001, Ji Zhang, Qiang Peng, Hongliang Li. 73-82 [doi]

Webly Supervised Image Classification with Metadata: Automatic Noisy Label Correction via Visual-Semantic GraphJingkang Yang, Weirong Chen, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang. 83-91 [doi]

CRSSC: Salvage Reusable Samples from Noisy Data for Robust LearningZeren Sun, Xian-Sheng Hua 0001, Yazhou Yao, Xiu-Shen Wei, Guosheng Hu, Jian Zhang 0002. 92-101 [doi]

Learning From Music to Visual Storytelling of Shots: A Deep Interactive Learning MechanismJen-Chun Lin, Wen-Li Wei, Yen-Yu Lin, Tyng-Luh Liu, Hong-Yuan Mark Liao. 102-110 [doi]

TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene Text DetectionFangfang Wang, Yifeng Chen, Fei Wu, Xi Li 0001. 111-119 [doi]

Weakly Supervised Real-time Image Cropping based on Aesthetic DistributionsPeng Lu, Jiahui Liu, Xujun Peng, Xiaojie Wang. 120-128 [doi]

Towards Unsupervised Crowd Counting via Regression-Detection Bi-knowledge TransferYuting Liu, Zheng Wang 0007, Miaojing Shi, Shin'ichi Satoh, Qijun Zhao, Hongyu Yang. 129-137 [doi]

Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention ModuleYanlu Wei, Renshuai Tao, Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. 138-146 [doi]

Temporally Guided Music-to-Body-Movement GenerationHsuan-Kai Kao, Li Su. 147-155 [doi]

Compositional Few-Shot Recognition with Primitive Discovery and EnhancingYixiong Zou, Shanghang Zhang, Ke Chen, Yonghong Tian 0001, Yaowei Wang, José M. F. Moura. 156-164 [doi]

InteractGAN: Learning to Generate Human-Object InteractionChen Gao, Si Liu, Defa Zhu, Quan Liu, Jie Cao 0002, Haoqian He, Ran He, Shuicheng Yan. 165-173 [doi]

Category-specific Semantic Coherency Learning for Fine-grained Image RecognitionShijie Wang, Zhihui Wang, Haojie Li, Wanli Ouyang. 174-183 [doi]

Scene-Aware Context Reasoning for Unsupervised Abnormal Event Detection in VideosChe Sun, Yunde Jia, Yao Hu, Yuwei Wu. 184-192 [doi]

Light Field Super-resolution via Attention-Guided Fusion of Hybrid LensesJing Jin, Junhui Hou, Jie Chen, Sam Kwong, Jingyi Yu. 193-201 [doi]

Trajectory Prediction in Heterogeneous Environment via Attended Ecology EmbeddingWei-Cheng Lai, Zi-Xiang Xia, Hao-Siang Lin, Lien-Feng Hsu, Hong-Han Shuai, I-Hong Jhuo, Wen-Huang Cheng. 202-210 [doi]

Text-Embedded Bilinear Model for Fine-Grained Visual RecognitionLiang Sun, Xiang Guan, Yang Yang 0002, Lei Zhang 0038. 211-219 [doi]

Learning Scales from Points: A Scale-aware Probabilistic Model for Crowd CountingZhiheng Ma, Xing Wei, Xiaopeng Hong, Yihong Gong. 220-228 [doi]

Learning Global Structure Consistency for Robust Object TrackingBi Li 0005, Chengquan Zhang, Zhibin Hong, Xu Tang, Jingtuo Liu, Junyu Han, Errui Ding, Wenyu Liu 0001. 229-237 [doi]

Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical Understanding of Outdoor SceneXinke Li, Chongshou Li, Zekun Tong, Andrew Lim 0001, Junsong Yuan, Yuwei Wu, Jing Tang 0004, Raymond Huang. 238-246 [doi]

Instability of Successive Deep Image CompressionJun Hyuk Kim, Soobeom Jang, Jun Ho Choi, Jong-Seok Lee. 247-255 [doi]

ALANET: Adaptive Latent Attention Network for Joint Video Deblurring and InterpolationAkash Gupta, Abhishek Aich, Amit K. Roy Chowdhury. 256-264 [doi]

PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph GenerationShaotian Yan, Chen Shen, Zhongming Jin, Jianqiang Huang, Rongxin Jiang, Yaowu Chen, Xian-Sheng Hua 0001. 265-273 [doi]

Discriminative Spatial Feature Learning for Person Re-IdentificationPeixi Peng, Yonghong Tian 0001, Yangru Huang, Xiangqian Wang, Huilong An. 274-283 [doi]

AdaHGNN: Adaptive Hypergraph Neural Networks for Multi-Label Image ClassificationXiangping Wu, Qingcai Chen, Wei Li, Yulun Xiao, Baotian Hu. 284-293 [doi]

Reinforced Similarity Learning: Siamese Relation Networks for Robust Object TrackingDawei Zhang 0002, Zhonglong Zheng, Minglu Li, Xiaowei He, Tianxiang Wang, Liyuan Chen, Riheng Jia, Feilong Lin. 294-303 [doi]

Deep Structural Contour DetectionRuoxi Deng, Shengjun Liu. 304-312 [doi]

Cross-modal Non-linear Guided Attention and Temporal Coherence in Multi-modal Deep Video ModelsSaurabh Sahu, Palash Goyal, Shalini Ghosh, Chul Lee. 313-321 [doi]

IR-GAN: Image Manipulation with Linguistic Instruction by Increment ReasoningZhenhuan Liu, Jincan Deng, Liang Li, Shaofei Cai, Qianqian Xu, Shuhui Wang, Qingming Huang. 322-330 [doi]

Fine-Grained Similarity Measurement between Educational Videos and ExercisesXin Wang, Wei Huang, Qi Liu 0003, Yu Yin, Zhenya Huang, Le Wu, Jianhui Ma, Xue Wang. 331-339 [doi]

One-shot Text Field labeling using Attention and Belief Propagation for Structure Information ExtractionMengli Cheng, Minghui Qiu, Xing Shi, Jun Huang, Wei Lin 0016. 340-348 [doi]

Grad: Learning for Overhead-aware Adaptive Video Streaming with Scalable Video CodingYunzhuo Liu, Bo Jiang 0003, Tian Guo, Ramesh K. Sitaraman, Don Towsley, Xinbing Wang. 349-357 [doi]

Efficient Adaptation of Neural Network Filter for Video CompressionYat Hong Lam, Alireza Zare, Francesco Cricri, Jani Lainema, Miska M. Hannuksela. 358-366 [doi]

SonoSpace: Visual Feedback of Timbre with Unsupervised LearningNaoki Kimura, Keisuke Shiro, Yota Takakura, Hiromi Nakamura, Jun Rekimoto. 367-374 [doi]

Single Image Deraining via Scale-space Invariant Attention Neural NetworkBo Pang, Deming Zhai, Junjun Jiang, Xianming Liu. 375-383 [doi]

Every Moment Matters: Detail-Aware Networks to Bring a Blurry Image AliveKaihao Zhang, Wenhan Luo, Björn Stenger, Wenqi Ren, Lin Ma 0002, Hongdong Li. 384-392 [doi]

ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention NetworkWeiqing Min, Linhu Liu, Zhiling Wang, Zhengdong Luo, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang. 393-401 [doi]

An Egocentric Action Anticipation Framework via Fusing Intuition and AnalysisTianyu Zhang, Weiqing Min, Ying Zhu, Yong Rui, Shuqiang Jiang. 402-410 [doi]

Multi-Person Action Recognition in Microwave SensorsDiangang Li, Jianquan Liu, Shoji Nishimura, Yuka Hayashi, Jun Suzuki, Yihong Gong. 411-420 [doi]

Coupling Deep Textural and Shape Features for Sketch RecognitionQi Jia, Xin Fan, Meiyu Yu, Yuqing Liu, Dingrong Wang, Longin Jan Latecki. 421-429 [doi]

Look, Read and Feel: Benchmarking Ads Understanding with Multimodal Multitask LearningHuaizheng Zhang, Yong Luo 0002, Qiming Ai, Yonggang Wen 0001, Han Hu 0003. 430-438 [doi]

Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and LocalizationKomal Chugh, Parul Gupta, Abhinav Dhall, Ramanathan Subramanian. 439-447 [doi]

Hearing like Seeing: Improving Voice-Face Interactions and Associations via Adversarial Deep Semantic Matching NetworkKai Cheng, Xin Liu, Yiu-ming Cheung, Rui Wang, Xing Xu, Bineng Zhong. 448-455 [doi]

Multimodal Multi-Task Financial Risk ForecastingRamit Sawhney, Puneet Mathur, Ayush Mangal, Piyush Khanna, Rajiv Ratn Shah, Roger Zimmermann. 456-465 [doi]

Down to the Last Detail: Virtual Try-on with Fine-grained DetailsJiahang Wang, Tong Sha, Wei Zhang, Zhoujun Li, Tao Mei 0001. 466-474 [doi]

Temporal Denoising Mask Synthesis Network for Learning Blind Video Temporal ConsistencyYifeng Zhou, Xing Xu 0001, Fumin Shen, Lianli Gao, Huimin Lu, Heng Tao Shen. 475-483 [doi]

A Lip Sync Expert Is All You Need for Speech to Lip Generation In the WildK. R. Prajwal, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C. V. Jawahar. 484-492 [doi]

MEmoR: A Dataset for Multimodal Emotion Reasoning in VideosGuangyao Shen, Xin Wang, Xuguang Duan, Hongzhi Li, Wenwu Zhu 0001. 493-502 [doi]

Modeling both Intra- and Inter-modal Influence for Real-Time Emotion Detection in ConversationsDong Zhang, Weisheng Zhang, Shoushan Li, Qiaoming Zhu, Guodong Zhou. 503-511 [doi]

Transformer-based Label Set Generation for Multi-modal Multi-label Emotion DetectionXincheng Ju, Dong Zhang, Junhui Li, Guodong Zhou. 512-520 [doi]

CM-BERT: Cross-Modal BERT for Text-Audio Sentiment AnalysisKaicheng Yang, Hua Xu, Kai Gao. 521-528 [doi]

AffectI: A Game for Diverse, Reliable, and Efficient Affective Image AnnotationXingkun Zuo, Jiyi Li, Qili Zhou, Jianjun Li, Xiaoyang Mao. 529-537 [doi]

Attentive One-Dimensional Heatmap Regression for Facial Landmark Detection and TrackingShi Yin, Shangfei Wang, Xiaoping Chen, Enhong Chen, Cong Liang. 538-546 [doi]

Domain Adaptive Person Re-Identification via Coupling OptimizationXiaobin Liu, Shiliang Zhang. 547-555 [doi]

Dual-Structure Disentangling Variational Generation for Data-Limited Face ParsingPeipei Li, Yinglu Liu, Hailin Shi, Xiang Wu 0001, Yibo Hu, Ran He, Zhenan Sun. 556-564 [doi]

Accurate UAV Tracking with Distance-Injected Overlap MaximizationChunhui Zhang, Shiming Ge, Kangkai Zhang, Dan Zeng 0001. 565-573 [doi]

PiRhDy: Learning Pitch-, Rhythm-, and Dynamics-aware Embeddings for Symbolic MusicHongru Liang, Wenqiang Lei, Paul Yaozhu Chan, Zhenglu Yang, Maosong Sun, Tat-Seng Chua. 574-582 [doi]

Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video EventsGuang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin, Marius Kloft. 583-591 [doi]

Pose-native Network Architecture Search for Multi-person Human Pose EstimationQian Bao, Wu Liu, Jun Hong, Lingyu Duan, Tao Mei 0001. 592-600 [doi]

Beyond the Attention: Distinguish the Discriminative and Confusable Features For Fine-grained Image ClassificationXiruo Shi, Liutong Xu, Pengfei Wang, Yuanyuan Gao, Haifang Jian, Wu Liu. 601-609 [doi]

BlockMix: Meta Regularization and Self-Calibrated Inference for Metric-Based Meta-LearningHao Tang, Zechao Li, Zhimao Peng, Jinhui Tang. 610-618 [doi]

Fine-grained Feature Alignment with Part Perspective Transformation for Vehicle ReIDDechao Meng, Liang Li, Shuhui Wang, Xingyu Gao, Zheng-Jun Zha, Qingming Huang. 619-627 [doi]

Compact Bilinear Augmented Query Structured Attention for Sport Highlights ClassificationYanbin Hao, Hao Zhang 0047, Chong-Wah Ngo, Qiang Liu, Xiaojun Hu. 628-636 [doi]

Semantic Image Analogy with a Conditional Single-Image GANJiacheng Li, Zhiwei Xiong, Dong Liu, Xuejin Chen, Zheng-Jun Zha. 637-645 [doi]

A Structured Graph Attention Network for Vehicle Re-IdentificationYangchun Zhu, Zheng-Jun Zha, Tianzhu Zhang, Jiawei Liu, Jiebo Luo. 646-654 [doi]

Contextual Multi-Scale Feature Learning for Person Re-IdentificationBaoyu Fan, Li Wang, Runze Zhang, Zhenhua Guo 0003, Yaqian Zhao, RenGang Li, Weifeng Gong. 655-663 [doi]

Space-Time Video Super-Resolution Using Temporal ProfilesZeyu Xiao, Zhiwei Xiong, Xueyang Fu, Dong Liu, Zheng-Jun Zha. 664-672 [doi]

Black Re-ID: A Head-shoulder Descriptor for the Challenging Problem of Person Re-IdentificationBoqiang Xu, Lingxiao He, Xingyu Liao, Wu Liu, Zhenan Sun, Tao Mei 0001. 673-681 [doi]

SalGCN: Saliency Prediction for 360-Degree Images Based on Spherical Graph Convolutional NetworksHaoran Lv, Qin Yang, Chenglin Li, Wenrui Dai, Junni Zou, Hongkai Xiong. 682-690 [doi]

LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal Networks for HOI in videosSai Praneeth Reddy Sunkesula, Rishabh Dabral, Ganesh Ramakrishnan. 691-699 [doi]

Concept-based Explanation for Fine-grained Images and Its Application in Infectious Keratitis ClassificationZhengqing Fang, Kun Kuang, Yuxiao Lin, Fei Wu, Yu-Feng Yao. 700-708 [doi]

Guided Attention Network for Object Detection and Counting on DronesYuanqiang Cai, Dawei Du, Libo Zhang, Longyin Wen, Weiqiang Wang, Yanjun Wu, Siwei Lyu. 709-717 [doi]

PIDNet: An Efficient Network for Dynamic Pedestrian Intrusion DetectionJingchen Sun, Jiming Chen 0001, Tao Chen 0003, Jiayuan Fan, Shibo He. 718-726 [doi]

VONAS: Network Design in Visual Odometry using Neural Architecture SearchXing Cai, Lanqing Zhang, Chengyuan Li, Ge Li, Thomas H. Li. 727-735 [doi]

Learning from the Past: Meta-Continual Learning with Knowledge Embedding for Jointly Sketch, Cartoon, and Caricature Face RecognitionWenbo Zheng, Lan Yan, Fei-Yue Wang 0001, Chao Gou. 736-743 [doi]

ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action UnitZijie Ye, Haozhe Wu, Jia Jia 0002, Yaohua Bu, Wei Chen, Fanbo Meng, Yanfeng Wang. 744-752 [doi]

InvisibleFL: Federated Learning over Non-Informative Intermediate Updates against Multimedia Privacy LeakagesQiushi Li, Wenwu Zhu 0001, Chao Wu 0002, Xinglin Pan, Fan Yang, Yuezhi Zhou, Yaoxue Zhang. 753-762 [doi]

Asymmetric Deep Hashing for Efficient Hash Code CompressionShu Zhao, Dayan Wu, Wanqian Zhang, Yu Zhou 0015, Bo Li 0063, Weiping Wang 0005. 763-771 [doi]

A Human-Computer Duet System for Music PerformanceYuen-Jen Lin, Hsuan-Kai Kao, Yih-Chih Tseng, Ming Tsai, Li Su. 772-780 [doi]

Photo Stand-Out: Photography with Virtual CharacterYujia Wang, Sifan Hou, Bing Ning, Wei Liang. 781-788 [doi]

Norm-in-Norm Loss with Faster Convergence and Better Performance for Image Quality AssessmentDingquan Li, Tingting Jiang, Ming Jiang. 789-797 [doi]

Context-aware Attention Network for Predicting Image Aesthetic SubjectivityMunan Xu, Jia-Xing Zhong, Yurui Ren, Shan Liu, Ge Li. 798-806 [doi]

Scoring High: Analysis and Prediction of Viewer Behavior and Engagement in the Context of 2018 FIFA WC Live StreamingNikolas Wehner, Michael Seufert, Sebastian Egger-Lampl, Bruno Gardlo, Pedro Casas, Raimund Schatz. 807-815 [doi]

Object-level Attention for Aesthetic Rating Distribution PredictionJingwen Hou, Sheng Yang, Weisi Lin. 816-824 [doi]

ARSketch: Sketch-Based User Interface for Augmented Reality GlassesZhaohui Zhang, Haichao Zhu, Qian Zhang. 825-833 [doi]

RIRNet: Recurrent-In-Recurrent Network for Video Quality AssessmentPengfei Chen, Leida Li, Lei Ma, Jinjian Wu, Guangming Shi. 834-842 [doi]

Cognitive Representation Learning of Self-Media Online Article QualityYiru Wang, Shen Huang, Gongfu Li, Qiang Deng, Dongliang Liao, Pengda Si, Yujiu Yang, Jin Xu. 843-851 [doi]

Describing Subjective Experiment Consistency by p-Value P-P PlotJakub Nawala, Lucjan Janowski, Bogdan Cmiel, Krzysztof Rusek. 852-861 [doi]

Increasing Video Perceptual Quality with GANs and Semantic CodingLeonardo Galteri, Marco Bertini, Lorenzo Seidenari, Tiberio Uricchio, Alberto Del Bimbo. 862-870 [doi]

Label Embedding Online Hashing for Cross-Modal RetrievalYongxin Wang, Xin Luo 0006, Xin-Shun Xu. 871-879 [doi]

Quaternion-Based Knowledge Graph Network for RecommendationZhaopeng Li, Qianqian Xu, Yangbangyan Jiang, Xiaochun Cao, Qingming Huang. 880-888 [doi]

Class-Aware Modality Mix and Center-Guided Metric Learning for Visible-Thermal Person Re-IdentificationYongguo Ling, Zhun Zhong, Zhiming Luo, Paolo Rota, Shaozi Li, Nicu Sebe. 889-897 [doi]

Adversarial Video Moment Retrieval by Jointly Modeling Ranking and LocalizationDa Cao, Yawen Zeng, Xiaochi Wei, Liqiang Nie, Richang Hong, Zheng Qin. 898-906 [doi]

Beyond the Parts: Learning Multi-view Cross-part Correlation for Vehicle Re-identificationXinchen Liu, Wu Liu, Jinkai Zheng, Chenggang Yan, Tao Mei 0001. 907-915 [doi]

Weakly-Supervised Image Hashing through Masked Visual-Semantic Graph-based ReasoningLu Jin, Zechao Li, Yonghua Pan, Jinhui Tang. 916-924 [doi]

Semantic Consistency Guided Instance Feature Alignment for 2D Image-Based 3D Shape RetrievalHeyu Zhou, Weizhi Nie, Dan Song 0006, Nian Hu, Xuanya Li, An-An Liu. 925-933 [doi]

RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual LocalizationNiluthpol Chowdhury Mithun, Karan Sikka, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar 0001. 934-954 [doi]

Performance Optimization of Federated Person Re-identification via Benchmark AnalysisWeiming Zhuang, Yonggang Wen 0001, Xuesen Zhang, Xin Gan, Daiying Yin, Dongzhan Zhou, Shuai Zhang, Shuai Yi. 955-963 [doi]

Traffic-Aware Multi-Camera Tracking of Vehicles Based on ReID and Camera Link ModelHung-Min Hsu, Yizhou Wang 0005, Jenq-Neng Hwang. 964-972 [doi]

Active Object SearchJie Wu 0030, Tianshui Chen, Lishan Huang, Hefeng Wu, Guanbin Li, Ling Tian, Liang Lin. 973-981 [doi]

An Analysis of Delay in Live 360° Video Streaming SystemsJun Yi, Md Reazul Islam, Shivang Aggarwal, Dimitrios Koutsonikolas, Y. Charlie Hu, Zhisheng Yan. 982-990 [doi]

DeepFacePencil: Creating Face Images from Freehand SketchesYuhang Li, Xuejin Chen, Binxin Yang, Zihan Chen, Zhihua Cheng, Zheng-Jun Zha. 991-999 [doi]

When Bitstream Prior Meets Deep Prior: Compressed Video Super-resolution with Learning from DecodingPeilin Chen, Wenhan Yang, Long Sun, Shiqi Wang 0001. 1000-1008 [doi]

RL-Bélády: A Unified Learning Framework for Content CachingGang Yan, Jian Li. 1009-1017 [doi]

ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to SentencesZhizhong Han, Chao Chen, Yu-Shen Liu, Matthias Zwicker. 1018-1027 [doi]

Co-Attentive Lifting for Infrared-Visible Person Re-IdentificationXing Wei, Diangang Li, Xiaopeng Hong, Wei Ke, Yihong Gong. 1028-1037 [doi]

Multimodal Representation with Embedded Visual Guiding Objects for Named Entity Recognition in Social Media PostsZhiwei Wu, Changmeng Zheng, Yi Cai, Junying Chen, Ho-Fung Leung, Qing Li 0001. 1038-1046 [doi]

Context-Aware Multi-View Summarization Network for Image-Text MatchingLeigang Qu, Meng Liu 0006, Da Cao, Liqiang Nie, Qi Tian 0001. 1047-1055 [doi]

Performance over Random: A Robust Evaluation Protocol for Video Summarization MethodsEvlampios E. Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, Ioannis Patras. 1056-1064 [doi]

Concept Drift Detection for Multivariate Data Streams and Temporal Segmentation of Daylong Egocentric VideosPravin Nagar, Mansi Khemka, Chetan Arora 0001. 1065-1074 [doi]

Distributed Multi-agent Video Fast-forwardingShuyue Lan, Zhilu Wang, Amit K. Roy Chowdhury, Ermin Wei, Qi Zhu 0002. 1075-1084 [doi]

Controllable Video Captioning with an Exemplar SentenceYitian Yuan, Lin Ma 0002, Jingwen Wang, Wenwu Zhu 0001. 1085-1093 [doi]

MMFL: Multimodal Fusion Learning for Text-Guided Image InpaintingQing Lin, Bo Yan, Jichun Li, Weimin Tan. 1094-1102 [doi]

Vision Meets Wireless Positioning: Effective Person Re-identification with Recurrent Context PropagationYiheng Liu, Wengang Zhou, Mao Xi, Sanjing Shen, Houqiang Li. 1103-1111 [doi]

Structural Semantic Adversarial Active Learning for Image CaptioningBeichen Zhang, Liang Li, Li Su 0003, Shuhui Wang, Jincan Deng, Zheng-Jun Zha, Qingming Huang. 1112-1121 [doi]

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment AnalysisDevamanyu Hazarika, Roger Zimmermann, Soujanya Poria. 1122-1131 [doi]

Multi-modal Cooking Workflow Construction for Food RecipesLiangming Pan, Jingjing Chen, Jianlong Wu, Shaoteng Liu, Chong-Wah Ngo, Min-Yen Kan, Yu-Gang Jiang, Tat-Seng Chua. 1132-1141 [doi]

Depth Guided Adaptive Meta-Fusion Network for Few-shot Video RecognitionYuqian Fu, Li Zhang, Junke Wang, Yanwei Fu, Yu-Gang Jiang. 1142-1151 [doi]

Adaptive Temporal Triplet-loss for Cross-modal Embedding LearningDavid Semedo, João Magalhães. 1152-1161 [doi]

Scene-Aware Background Music SynthesisYujia Wang, Wei Liang, Wanwan Li, Dingzeyu Li, Lap-Fai Yu. 1162-1170 [doi]

Deep-Modal: Real-Time Impact Sound Synthesis for Arbitrary ShapesXutong Jin, Sheng Li 0008, Tianshu Qu, Dinesh Manocha, Guoping Wang. 1171-1179 [doi]

Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano CompositionsYu-Siang Huang, Yi-Hsuan Yang. 1180-1188 [doi]

Make Your Favorite Music Curative: Music Style Transfer for Anxiety ReductionZhejing Hu, Yan Liu, Gong Chen, Sheng-hua Zhong, Aiwei Zhang. 1189-1197 [doi]

PopMAG: Pop Music Accompaniment GenerationYi Ren, Jinzheng He, Xu Tan 0003, Tao Qin, Zhou Zhao, Tie-Yan Liu. 1198-1206 [doi]

DeepSonar: Towards Effective and Robust Detection of AI-Synthesized Fake VoicesRun Wang, Felix Juefei-Xu, Yihao Huang, Qing Guo, Xiaofei Xie, Lei Ma, Yang Liu. 1207-1216 [doi]

FakePolisher: Making DeepFakes More Detection-Evasive by Shallow ReconstructionYihao Huang, Felix Juefei-Xu, Run Wang, Qing Guo, Lei Ma, Xiaofei Xie, Jianwen Li, Weikai Miao, Yang Liu, Geguang Pu. 1217-1226 [doi]

Boosting Visual Question Answering with Context-aware Knowledge AggregationGuohao Li, Xin Wang 0019, Wenwu Zhu 0001. 1227-1235 [doi]

Memory-Augmented Relation Network for Few-Shot LearningJun He, Richang Hong, Xueliang Liu, Mingliang Xu, Zheng-Jun Zha, Meng Wang 0001. 1236-1244 [doi]

K-armed Bandit based Multi-Modal Network Architecture Search for Visual Question AnsweringYiyi Zhou, Rongrong Ji, Xiaoshuai Sun, Gen Luo, Xiaopeng Hong, Jinsong Su, Xinghao Ding, Ling Shao 0001. 1245-1254 [doi]

Adversarial Graph Representation Adaptation for Cross-Domain Facial Expression RecognitionYuan Xie 0004, Tianshui Chen, Tao Pu, Hefeng Wu, Liang Lin. 1255-1264 [doi]

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual DialogueXiaoze Jiang, Siyi Du, Zengchang Qin, Yajing Sun, Jing Yu. 1265-1273 [doi]

Cascade Grouped Attention Network for Referring Expression SegmentationGen Luo, Yiyi Zhou, Rongrong Ji, Xiaoshuai Sun, Jinsong Su, Chia-Wen Lin, Qi Tian 0001. 1274-1282 [doi]

Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed VideosJie Wu 0030, Guanbin Li, Xiaoguang Han, Liang Lin. 1283-1291 [doi]

Poet: Product-oriented Video Captioner for E-commerceShengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Jie Liu, Jingren Zhou, Hongxia Yang, Fei Wu. 1292-1301 [doi]

Text-Guided Neural Image InpaintingLisai Zhang, Qingcai Chen, Baotian Hu, Shuoran Jiang. 1302-1310 [doi]

Single-Shot Two-Pronged Detector with Rectified IoU LossKeyang Wang, Lei Zhang. 1311-1319 [doi]

Dynamic Context-guided Capsule Network for Multimodal Machine TranslationHuan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo. 1320-1329 [doi]

Differentiable Manifold Reconstruction for Point Cloud DenoisingShitong Luo, Wei Hu. 1330-1338 [doi]

BS-MCVR: Binary-sensing based Mobile-cloud Visual RecognitionHongyi Zheng, Wangmeng Zuo, Lei Zhang 0006. 1339-1347 [doi]

Learning Modality-Invariant Latent Representations for Generalized Zero-shot LearningJingjing Li, Mengmeng Jing, Lei Zhu 0002, Zhengming Ding, Ke Lu, Yang Yang 0002. 1348-1356 [doi]

Describe What to Change: A Text-guided Unsupervised Image-to-image Translation ApproachYahui Liu, Marco De Nadai, Deng Cai, Huayang Li, Xavier Alameda-Pineda, Nicu Sebe, Bruno Lepri. 1357-1365 [doi]

INCLUDE: A Large Scale Dataset for Indian Sign Language RecognitionAdvaith Sridhar, Rohith Gandhi Ganesan, Pratyush Kumar, Mitesh M. Khapra. 1366-1375 [doi]

Amora: Black-box Adversarial Morphing AttackRun Wang, Felix Juefei-Xu, Qing Guo, Yihao Huang, Xiaofei Xie, Lei Ma, Yang Liu. 1376-1385 [doi]

Visual Relation of Interest DetectionFan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu. 1386-1394 [doi]

University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localizationZhedong Zheng, Yunchao Wei, Yi Yang. 1395-1403 [doi]

DIPDefend: Deep Image Prior Driven Defense against Adversarial ExamplesTao Dai, Yan Feng, Dongxian Wu, Bin Chen 0011, Jian Lu, Yong Jiang, Shu-Tao Xia. 1404-1412 [doi]

TRIE: End-to-End Text Reading and Information Extraction for Document UnderstandingPeng Zhang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Jing Lu 0004, Liang Qiao, Yi Niu, Fei Wu. 1413-1422 [doi]

Adversarial Privacy-preserving FilterJiaming Zhang, Jitao Sang, Xian Zhao, Xiaowen Huang, Yanfeng Sun, Yongli Hu. 1423-1431 [doi]

Mix Dimension in Poincaré Geometry for 3D Skeleton-based Action RecognitionWei Peng, Jingang Shi, Zhaoqiang Xia, Guoying Zhao. 1432-1440 [doi]

Dynamic Extension Nets for Few-shot Semantic SegmentationLizhao Liu, Junyi Cao, Minqian Liu, Yong Guo, Qi Chen, Mingkui Tan. 1441-1449 [doi]

Fast Enhancement for Non-Uniform Illumination Images using Light-weight CNNsFeifan Lv, Bo Liu, Feng Lu. 1450-1458 [doi]

Animating Through Warping: An Efficient Method for High-Quality Facial Expression AnimationZili Yi, Qiang Tang, Vishnu Sanjay Ramiya Srinivasan, Zhan Xu. 1459-1468 [doi]

Exploiting Better Feature Aggregation for Video Object DetectionLiang Han, Pichao Wang, Zhaozheng Yin, Fan Wang, Hao Li. 1469-1477 [doi]

NuI-Go: Recursive Non-Local Encoder-Decoder Network for Retinal Image Non-Uniform Illumination RemovalChongyi Li, Huazhu Fu, Runmin Cong, Zechao Li, Qianqian Xu. 1478-1487 [doi]

Online Filtering Training Samples for Robust Visual TrackingJie Zhao, Kenan Dai, Dong Wang 0004, Huchuan Lu, Xiaoyun Yang. 1488-1496 [doi]

Boosting Continuous Sign Language Recognition via Cross Modality AugmentationJunfu Pu, Wengang Zhou, Hezhen Hu, Houqiang Li. 1497-1505 [doi]

ThumbNet: One Thumbnail Image Contains All You Need for RecognitionChen Zhao, Bernard Ghanem. 1506-1514 [doi]

Dual Temporal Memory Network for Efficient Video Object SegmentationKaihua Zhang, Long Wang, Dong Liu, Bo Liu, Qingshan Liu 0001, Zhu Li. 1515-1523 [doi]

Cooperative Bi-path Metric for Few-shot LearningZeyuan Wang, Yifan Zhao, Jia Li 0003, Yonghong Tian 0001. 1524-1532 [doi]

From Design Draft to Real Attire: Unaligned Fashion Image TranslationYu Han, Shuai Yang 0001, Wenjing Wang, Jiaying Liu 0001. 1533-1541 [doi]

Siamese Attentive Graph TrackingFei Zhao, Ting Zhang, Chao Ma 0004, Ming Tang, Jinqiao Wang, Xiaobo Wang. 1542-1550 [doi]

HiFaceGAN: Face Renovation via Collaborative Suppression and ReplenishmentLingbo Yang, Shanshe Wang, Siwei Ma, Wen Gao 0001, Chang Liu 0047, Pan Wang, Peiran Ren. 1551-1560 [doi]

Discernible Image CompressionZhaohui Yang, Yunhe Wang, Chang Xu, Peng Du, Chao Xu, Chunjing Xu, Qi Tian 0001. 1561-1569 [doi]

Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance SegmentationJialian Wu, Liangchen Song, Tiancai Wang, Qian Zhang, Junsong Yuan. 1570-1578 [doi]

Adv-watermark: A Novel Watermark Perturbation for Adversarial ExamplesXiaojun Jia, Xingxing Wei, Xiaochun Cao, Xiaoguang Han. 1579-1587 [doi]

Dual In-painting Model for Unsupervised Gaze Correction and Animation in the WildJichao Zhang, Jingjing Chen, Hao Tang, Wei Wang, Yan Yan 0002, Enver Sangineto, Nicu Sebe. 1588-1596 [doi]

Learning Hierarchical Graph for Occluded Pedestrian DetectionGang Li, Jian Li, Shanshan Zhang, Jian Yang. 1597-1605 [doi]

Adaptively-Accumulated Knowledge Transfer for Partial Domain AdaptationTaotao Jing, Haifeng Xia, Zhengming Ding. 1606-1614 [doi]

Box Guided Convolution for Pedestrian DetectionJinpeng Li, ShengCai Liao, Hangzhi Jiang, Ling Shao 0001. 1615-1624 [doi]

Stronger, Faster and More Explainable: A Graph Convolutional Baseline for Skeleton-based Action RecognitionYi-Fan Song, Zhang Zhang 0001, Caifeng Shan, Liang Wang. 1625-1633 [doi]

Adversarial Image Attacks Using Multi-Sample and Most-Likely Ensemble MethodsXia Du, Chi-Man Pun. 1634-1642 [doi]

DCSFN: Deep Cross-scale Fusion Network for Single Image Rain RemovalCong Wang, Xiaoying Xing, Yutong Wu, Zhixun Su, Junyang Chen. 1643-1651 [doi]

Self-Paced Video Data Augmentation by Generative Adversarial Networks with Insufficient SamplesYumeng Zhang, Gaoguo Jia, Li Chen, Mingrui Zhang, Junhai Yong. 1652-1660 [doi]

CF-SIS: Semantic-Instance Segmentation of 3D Point Clouds by Context Fusion with Self-AttentionXin Wen, Zhizhong Han, Geunhyuk Youk, Yu-Shen Liu. 1661-1669 [doi]

Hybrid Resolution Network Using Edge Guided Region Mutual Information Loss for Human ParsingYunan Liu, Liang Zhao, Shanshan Zhang, Jian Yang. 1670-1678 [doi]

Meta-RCNN: Meta Learning for Few-Shot Object DetectionXiongwei Wu, Doyen Sahoo, Steven C. H. Hoi. 1679-1687 [doi]

Objectness Consistent Representation for Weakly Supervised Object DetectionKe Yang, Peng Zhang 0035, Peng Qiao, Zhiyuan Wang, Dongsheng Li, Yong Dou. 1688-1696 [doi]

Unpaired Image Enhancement with Quality-Attention Generative Adversarial NetworkZhangkai Ni, Wenhan Yang, Shiqi Wang 0001, Lin Ma 0002, Sam Kwong. 1697-1705 [doi]

ASTA-Net: Adaptive Spatio-Temporal Attention Network for Person Re-Identification in VideosXierong Zhu, Jiawei Liu, Haoze Wu 0003, Meng Wang 0001, Zheng-Jun Zha. 1706-1715 [doi]

Talking Face Generation with Expression-Tailored Generative Adversarial NetworkDan Zeng, Han Liu, Hui Lin, Shiming Ge. 1716-1724 [doi]

Cross-Modal Omni Interaction Modeling for Phrase GroundingTianyu Yu, Tianrui Hui, Zhihao Yu, Yue Liao, Sansi Yu, Faxi Zhang, Si Liu. 1725-1734 [doi]

Bridging the Web Data and Fine-Grained Visual Recognition via Alleviating Label Noise and Domain MismatchYazhou Yao, Xiansheng Hua 0001, Guanyu Gao, Zeren Sun, Zhibin Li 0002, Jian Zhang 0002. 1735-1744 [doi]

Is Depth Really Necessary for Salient Object Detection?Jiawei Zhao, Yifan Zhao, Jia Li 0003, Xiaowu Chen. 1745-1754 [doi]

Self-Play Reinforcement Learning for Fast Image RetargetingNobukatsu Kajiura, Satoshi Kosugi, Xueting Wang, Toshihiko Yamasaki. 1755-1763 [doi]

Brain-media: A Dual Conditioned and Lateralization Supported GAN (DCLS-GAN) towards Visualization of Image-evoked Brain ActivitiesAhmed Fares, Sheng-hua Zhong, Jianmin Jiang. 1764-1772 [doi]

Mesh Guided One-shot Face Reenactment Using Graph Convolutional NetworksGuangming Yao, Yi Yuan, Tianjia Shao, Kun Zhou. 1773-1781 [doi]

Controllable Continuous Gaze RedirectionWeihao Xia, Yujiu Yang, Jing-Hao Xue, WenSen Feng. 1782-1790 [doi]

Preserving Global and Local Temporal Consistency for Arbitrary Video Style TransferXinxiao Wu, Jialu Chen. 1791-1799 [doi]

Deep Shapely PortraitsQinjie Xiao, Xiangjun Tang, You Wu, Leyang Jin, Yong-Liang Yang, Xiaogang Jin 0001. 1800-1808 [doi]

Depth Super-Resolution via Deep Controllable Slicing NetworkXinchen Ye, Baoli Sun, Zhihui Wang, Jingyu Yang, Rui Xu 0002, Haojie Li, Baopu Li. 1809-1818 [doi]

Efficient Joint Gradient Based Attack Against SOR Defense for 3D Point Cloud ClassificationChengcheng Ma, Weiliang Meng, Baoyuan Wu, Shibiao Xu, Xiaopeng Zhang 0001. 1819-1827 [doi]

Discrete Haze Level Dehazing NetworkXiaofeng Cong, Jie Gui, Kai-Chao Miao, Jun Zhang 0011, Bing Wang 0004, Peng Chen 0001. 1828-1836 [doi]

Deep Heterogeneous Multi-Task Metric Learning for Visual Recognition and RetrievalShikang Gan, Yong Luo 0002, Yonggang Wen 0001, Tongliang Liu, Han Hu. 1837-1845 [doi]

HOSE-Net: Higher Order Structure Embedded Network for Scene Graph GenerationMeng Wei, Chun Yuan, Xiaoyu Yue, Kuo Zhong. 1846-1854 [doi]

Dual Semantic Fusion Network for Video Object DetectionLijian Lin, Haosheng Chen, Honglun Zhang, Jun Liang, Yu Li, Ying Shan, Hanzi Wang. 1855-1863 [doi]

Sharp Multiple Instance Learning for DeepFake Video DetectionXiaodan Li, Yining Lang, Yuefeng Chen, Xiaofeng Mao, Yuan He, Shuhui Wang, Hui Xue, Quan Lu. 1864-1872 [doi]

Learning to Detect Specular Highlights from Real-world ImagesGang Fu, Qing Zhang, Qifeng Lin, Lei Zhu, Chunxia Xiao. 1873-1881 [doi]

Video Super-Resolution using Multi-scale Pyramid 3D Convolutional NetworksJianping Luo, Shaofei Huang, Yuan Yuan. 1882-1890 [doi]

PCA-SRGAN: Incremental Orthogonal Projection Discrimination for Face Super-resolutionHao Dou, Chen Chen 0036, Xiyuan Hu, Zuxing Xuan, Zhisen Hu, Silong Peng. 1891-1899 [doi]

Exploring Font-independent Features for Scene Text RecognitionYizhi Wang, Zhouhui Lian. 1900-1920 [doi]

Context-aware Feature Generation For Zero-shot Semantic SegmentationZhangxuan Gu, Siyuan Zhou, Li Niu 0003, Zihan Zhao, Liqing Zhang 0001. 1921-1929 [doi]

Defending Adversarial Examples via DNN Bottleneck ReinforcementWenqing Liu, Miaojing Shi, Teddy Furon, Li Li 0008. 1930-1938 [doi]

Weakly-Supervised Video Object Grounding by Exploring Spatio-Temporal ContextsXun Yang, Xueliang Liu, Meng Jian, Xinjian Gao, Meng Wang. 1939-1947 [doi]

S2SiamFC: Self-supervised Fully Convolutional Siamese Network for Visual TrackingChon-Hou Sio, Yu-Jen Ma, Hong-Han Shuai, Jun-Cheng Chen, Wen-Huang Cheng. 1948-1957 [doi]

Learnable Optimal Sequential Grouping for Video Scene DetectionDaniel Rotman, Yevgeny Yaroker, Elad Amrani, Udi Barzelay, Rami Ben-Ari. 1958-1966 [doi]

NOH-NMS: Improving Pedestrian Detection by Nearby Objects HallucinationPenghao Zhou, Chong Zhou, Pai Peng, Junlong Du, Xing Sun, Xiaowei Guo, Feiyue Huang. 1967-1975 [doi]

Dual-Gradients Localization Framework for Weakly Supervised Object LocalizationChuangchuang Tan, Guanghua Gu, Tao Ruan, Shikui Wei, Yao Zhao 0001. 1976-1984 [doi]

DualLip: A System for Joint Lip Reading and GenerationWeicong Chen, Xu Tan 0003, Yingce Xia, Tao Qin, Yu Wang, Tie-Yan Liu. 1985-1993 [doi]

Dual Attention GANs for Semantic Image SynthesisHao Tang 0005, Song Bai, Nicu Sebe. 1994-2002 [doi]

SimSwap: An Efficient Framework For High Fidelity Face SwappingRenwang Chen, Xuanhong Chen, Bingbing Ni, Yanhao Ge. 2003-2011 [doi]

Self-Mimic Learning for Small-scale Pedestrian DetectionJialian Wu, Chunluan Zhou, Qian Zhang, Ming Yang, Junsong Yuan. 2012-2020 [doi]

Action2Motion: Conditioned Generation of 3D Human MotionsChuan Guo, Xinxin Zuo, Sen Wang, Shihao Zou, Qingyao Sun, Annan Deng, Minglun Gong, Li Cheng 0001. 2021-2029 [doi]

Skin Textural Generation via Blue-noise Gabor Filtering based Generative Adversarial NetworkHui Zhang 0027, Chuan Wang, Nenglun Chen, Jue Wang, Wenping Wang. 2030-2038 [doi]

A Slow-I-Fast-P Architecture for Compressed Video Action RecognitionJiapeng Li, Ping Wei, Yongchi Zhang, Nanning Zheng 0001. 2039-2047 [doi]

DMVOS: Discriminative Matching for Real-time Video Object SegmentationPeisong Wen, Ruolin Yang, Qianqian Xu, Chen Qian, Qingming Huang, Runmin Cong, Jianlou Si. 2048-2056 [doi]

Multi-Group Multi-Attention: Towards Discriminative Spatiotemporal RepresentationZhensheng Shi, Liangjie Cao, Cheng Guan, Ju Liang, Qianqian Li, Zhaorui Gu, Haiyong Zheng, Bing Zheng. 2057-2066 [doi]

Vaccine-style-net: Point Cloud Completion in Implicit Continuous Function SpaceWei Yan, Ruonan Zhang, Jing Wang, Shan Liu, Thomas H. Li, Ge Li. 2067-2075 [doi]

Adaptive Wasserstein Hourglass for Weakly Supervised RGB 3D Hand Pose EstimationYumeng Zhang, Li Chen, Yufeng Liu, Wen Zheng, Junhai Yong. 2076-2084 [doi]

Weakly Supervised Segmentation with Maximum Bipartite Graph MatchingWeide Liu, Chi Zhang, Guosheng Lin, Tzu-Yi Hung, Chunyan Miao. 2085-2094 [doi]

Recognizing Camera Wearer from Hand Gestures in Egocentric Videos: https: //egocentricbiometric.github.io/Daksh Thapar, Aditya Nigam, Chetan Arora 0001. 2095-2103 [doi]

Prototype-Matching Graph Network for Heterogeneous Domain AdaptationZijian Wang, Yadan Luo, Zi Huang, Mahsa Baktashmotlagh. 2104-2112 [doi]

Towards Lighter and Faster: Learning Wavelets Progressively for Image Super-ResolutionHuanrong Zhang, Zhi Jin, Xiaojun Tan, Xiying Li. 2113-2121 [doi]

Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action RecognitionZhen Huang, Xu Shen, Xinmei Tian, Houqiang Li, Jianqiang Huang, Xian-Sheng Hua 0001. 2122-2130 [doi]

Dynamic Future Net: Diversified Human Motion GenerationWenheng Chen, He Wang 0002, Yi Yuan, Tianjia Shao, Kun Zhou. 2131-2139 [doi]

ATF: Towards Robust Face Alignment via Leveraging Similarity and Diversity across Different DatasetsXing Lan, Qinghao Hu, Fangzhou Xiong, Cong Leng, Jian Cheng. 2140-2148 [doi]

Dual Gaussian-based Variational Subspace Disentanglement for Visible-Infrared Person Re-IdentificationNan Pu, Wei Chen, Yu Liu 0012, Erwin M. Bakker, Michael S. Lew. 2149-2158 [doi]

Attention Based Dual Branches Fingertip Detection Network and Virtual Key SystemChong Mou, Xin Zhang. 2159-2165 [doi]

Action Completeness Modeling with Background Aware Networks for Weakly-Supervised Temporal Action LocalizationMd. Moniruzzaman, Zhaozheng Yin, Zhihai He, Ruwen Qin, Ming C. Leu. 2166-2174 [doi]

Adversarial Knowledge Transfer from Unlabeled DataAkash Gupta, Rameswar Panda, Sujoy Paul, Jianming Zhang, Amit K. Roy Chowdhury. 2175-2183 [doi]

Task Decoupled Knowledge Distillation For Lightweight Face DetectorsXiaoqing Liang, Xu Zhao, Chaoyang Zhao, Nanfei Jiang, Ming Tang, Jinqiao Wang. 2184-2192 [doi]

Self-supervised Video Representation Learning Using Inter-intra Contrastive FrameworkLi Tao, Xueting Wang, Toshihiko Yamasaki. 2193-2201 [doi]

Memory Recursive Network for Single Image Super-ResolutionJie Liu, Minqiang Zou, Jie Tang 0006, Gangshan Wu. 2202-2210 [doi]

Scale-aware Progressive Optimization NetworkYing Chen, Lifeng Huang, Chengying Gao, Ning Liu. 2211-2219 [doi]

Resource Efficient Domain AdaptationJunguang Jiang, Ximei Wang, Mingsheng Long, Jianmin Wang. 2220-2228 [doi]

MGAAttack: Toward More Query-efficient Black-box Attack by Microbial Genetic AlgorithmLina Wang, Kang Yang, Wenqi Wang, Run Wang, Aoshuang Ye. 2229-2236 [doi]

A Novel Graph-TCN with a Graph Structured Representation for Micro-expression RecognitionLing Lei, Jianfeng Li, Tong Chen 0008, Shigang Li 0001. 2237-2245 [doi]

Masked Face Recognition with Generative Data Augmentation and Domain Constrained RankingMengyue Geng, Peixi Peng, Yangru Huang, Yonghong Tian 0001. 2246-2254 [doi]

Occlusion Detection for Automatic Video EditingJunhua Liao, Haihan Duan, Xin Li, Haoran Xu, Yanbing Yang, Wei Cai 0002, Yanru Chen, Liangyin Chen. 2255-2263 [doi]

Cartoon Face Recognition: A Benchmark DatasetYi Zheng, Yifan Zhao, Mengyuan Ren, He Yan, Xiangju Lu, Junhui Liu, Jia Li. 2264-2272 [doi]

Reversible Watermarking in Deep Convolutional Neural Networks for Integrity AuthenticationXiquan Guan, Huamin Feng, Weiming Zhang, Hang Zhou, Jie Zhang, Nenghai Yu. 2273-2280 [doi]

Masked Face Recognition with Latent Part DetectionFeifei Ding, Peixi Peng, Yangru Huang, Mengyue Geng, Yonghong Tian 0001. 2281-2289 [doi]

PanelNet: A Novel Deep Neural Network for Predicting Collective Diagnostic Ratings by a Panel of Radiologists for Pulmonary NodulesChunyan Zhang, Songhua Xu, Zongfang Li. 2290-2298 [doi]

Privacy-Preserving Visual Content Tagging using Graph Transformer NetworksXuan-Son Vu, Duc-Trong Le, Christoffer Edlund, Lili Jiang, Hoang D. Nguyen. 2299-2307 [doi]

Rotationally-Consistent Novel View Synthesis for HumansYoungjoong Kwon, Stefano Petrangeli, Dahun Kim, Haoliang Wang, Henry Fuchs, Viswanathan Swaminathan. 2308-2316 [doi]

Integrating Semantic Segmentation and Retinex Model for Low-Light Image EnhancementMinhao Fan, Wenjing Wang, Wenhan Yang, Jiaying Liu 0001. 2317-2325 [doi]

Alleviating Human-level Shift: A Robust Domain Adaptation Method for Multi-person Pose EstimationXixia Xu, Qi Zou, Xue Lin. 2326-2335 [doi]

SpatialGAN: Progressive Image Generation Based on Spatial Recursive Adversarial ExpansionLei Zhao, Sihuan Lin, Ailin Li, Huaizhong Lin, Wei Xing, Dongming Lu. 2336-2344 [doi]

Medical Visual Question Answering via Conditional ReasoningLi-Ming Zhan, Bo Liu, Lu Fan, Jiaxin Chen, Xiao-Ming Wu. 2345-2354 [doi]

Nighttime Dehazing with a Synthetic BenchmarkJing Zhang, Yang Cao, Zheng-Jun Zha, Dacheng Tao. 2355-2363 [doi]

Pay Attention Selectively and Comprehensively: Pyramid Gating Network for Human Pose Estimation without Pre-trainingChenru Jiang, Kaizhu Huang, Shufei Zhang, Xinheng Wang, Jimin Xiao. 2364-2371 [doi]

Data-driven Meta-set Based Fine-Grained Visual RecognitionChuanyi Zhang, Yazhou Yao, Xiangbo Shu, Zechao Li, Zhenmin Tang, Qi Wu 0001. 2372-2381 [doi]

WildDeepfake: A Challenging Real-World Dataset for Deepfake DetectionBojia Zi, Minghao Chang, Jingjing Chen, Xingjun Ma, Yu-Gang Jiang. 2382-2390 [doi]

LodoNet: A Deep Neural Network with 2D Keypoint Matching for 3D LiDAR Odometry EstimationCe Zheng, Yecheng Lyu, Ming Li, Ziming Zhang. 2391-2399 [doi]

Memory-Based Network for Scene Graph with Unbalanced RelationsWeitao Wang, Ruyang Liu, Meng Wang, Sen Wang 0001, Xiaojun Chang, Yang Chen. 2400-2408 [doi]

Pairwise Similarity Regularization for Adversarial Domain AdaptationHaotian Wang, Wenjing Yang, Ji Wang, Ruxin Wang, Long Lan, Mingyang Geng. 2409-2418 [doi]

Generalized Zero-Shot Video Classification via Generative Adversarial NetworksMingyao Hong, Guorong Li, Xinfeng Zhang, Qingming Huang. 2419-2426 [doi]

Drum Synthesis and Rhythmic Transformation with Adversarial AutoencodersMaciej Tomczak, Masataka Goto, Jason Hockman. 2427-2435 [doi]

MMNet: Multi-Stage and Multi-Scale Fusion Network for RGB-D Salient Object DetectionGuibiao Liao, Wei Gao 0003, Qiuping Jiang, Ronggang Wang, Ge Li. 2436-2444 [doi]

Stable Video Style Transfer Based on Partial Convolution with Depth-Aware SupervisionSonghua Liu, Hao Wu, Shoutong Luo, Zhengxing Sun. 2445-2453 [doi]

Video Synthesis via Transform-Based Tensor Neural NetworkYimeng Zhang, Xiao-Yang Liu, Bo Wu 0018, Anwar Walid. 2454-2462 [doi]

Cluster Attention Contrast for Video Anomaly DetectionZiming Wang, Yuexian Zou, Zeming Zhang. 2463-2471 [doi]

Automatic Interest Recognition from Posture and BehaviourWolmer Bigi, Claudio Baecchi, Alberto Del Bimbo. 2472-2480 [doi]

Referenceless Rate-Distortion Modeling with Learning from Bitstream and Pixel FeaturesYangfan Sun, Li Li 0040, Zhu Li, Shan Liu. 2481-2489 [doi]

MS2L: Multi-Task Self-Supervised Learning for Skeleton Based Action RecognitionLilang Lin, Sijie Song, Wenhan Yang, Jiaying Liu 0001. 2490-2498 [doi]

Domain-Adaptive Object Detection via Uncertainty-Aware Distribution AlignmentDang Khoa Nguyen, Wei-Lun Tseng, Hong-Han Shuai. 2499-2507 [doi]

MM-Hand: 3D-Aware Multi-Modal Guided Hand Generation for 3D Hand Pose SynthesisZhenyu Wu, Duc Hoang, Shih-Yao Lin 0001, Yusheng Xie, Liangjian Chen, Yen-Yu Lin, Zhangyang Wang, Wei Fan 0001. 2508-2516 [doi]

Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining NetworkCong Wang, Yutong Wu, Zhixun Su, Junyang Chen. 2517-2525 [doi]

Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long VideosLing-An Zeng, Fa-Ting Hong, Wei-Shi Zheng, Qi-zhi Yu, Wei Zeng, Yao-wei Wang, Jian-Huang Lai. 2526-2534 [doi]

F2GAN: Fusing-and-Filling GAN for Few-shot Image GenerationYan Hong, Li Niu 0003, Jianfu Zhang 0003, Weijie Zhao, Chen Fu, Liqing Zhang 0001. 2535-2543 [doi]

JAFPro: Joint Appearance Fusion and Propagation for Human Video Motion Transfer from Multiple Reference ImagesXianggang Yu, Haolin Liu, Xiaoguang Han, Zhen Li, Zixiang Xiong, Shuguang Cui. 2544-2552 [doi]

A W2VV++ Case Study with Automated and Interactive Text-to-Video RetrievalJakub Lokoc, Tomás Soucek, Patrik Veselý, Frantisek Mejzlík, Jiaqi Ji, Chaoxi Xu, Xirong Li. 2553-2561 [doi]

Attention Cube Network for Image RestorationYucheng Hang, Qingmin Liao, Wenming Yang, Yupeng Chen, Jie Zhou 0016. 2562-2570 [doi]

CRNet: A Center-aware Representation for Detecting Text of Arbitrary ShapesYu Zhou, Hongtao Xie, Shancheng Fang, Yan Li, Yongdong Zhang. 2571-2580 [doi]

Expressional Region RetrievalXiaoqian Guo, Xiangyang Li 0002, Shuqiang Jiang. 2581-2589 [doi]

ATRW: A Benchmark for Amur Tiger Re-identification in the WildShuyuan Li, Jianguo Li, Hanlin Tang, Rui Qian, Weiyao Lin. 2590-2598 [doi]

VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments GenerationWeiying Wang, Jieting Chen, Qin Jin. 2599-2607 [doi]

Human Identification and Interaction Detection in Cross-View Multi-Person Videos with Wearable CamerasJiewen Zhao, Ruize Han, Yiyang Gan, Liang Wan, Wei Feng 0005, Song Wang 0002. 2608-2616 [doi]

Surface Reconstruction with Unconnected Normal Maps: An Efficient Mesh-based ApproachMiaohui Wang, Wuyuan Xie, Maolin Cui. 2617-2625 [doi]

MOR-UAV: A Benchmark Dataset and Baselines for Moving Object Recognition in UAV VideosMurari Mandal, Lav Kush Kumar, Santosh Kumar Vipparthi. 2626-2635 [doi]

Learning Tuple Compatibility for Conditional Outfit RecommendationXuewen Yang, Dongliang Xie, Xin Wang, Jiangbo Yuan, Wanying Ding, Pengyun Yan. 2636-2644 [doi]

Efficient Crowd Counting via Structured Knowledge TransferLingbo Liu, Jiaqi Chen, Hefeng Wu, Tianshui Chen, Guanbin Li, Liang Lin. 2645-2654 [doi]

DeSmoothGAN: Recovering Details of Smoothed Images via Spatial Feature-wise Transformation and Full AttentionYifei Huang, Chenhui Li, Xiaohu Guo, Jing Liao, Chenxu Zhang, Changbo Wang. 2655-2663 [doi]

PatchMatch based Multiview Stereo with Local Quadric WindowHyewon Song, Jaeseong Park, Suwoong Heo, Jiwoo Kang, Sanghoon Lee 0001. 2664-2672 [doi]

Expert Performance in the Examination of Interior Surfaces in an Automobile: Virtual Reality vs. RealityAlexander Tesch, Ralf Dörner. 2673-2681 [doi]

Uncertainty-based Traffic Accident Anticipation with Spatio-Temporal Relational LearningWentao Bao, Qi Yu, Yu Kong. 2682-2690 [doi]

A Tightly-coupled Semantic SLAM System with Visual, Inertial and Surround-view Sensors for Autonomous Indoor ParkingXuan Shao, Lin Zhang, Tianjun Zhang, Ying Shen, HongYu Li, Yicong Zhou. 2691-2699 [doi]

Searching Privately by Imperceptible Lying: A Novel Private Hashing Method with Differential PrivacyYimu Wang, Shiyin Lu, Lijun Zhang. 2700-2709 [doi]

Leverage Social Media for Personalized Stress DetectionXin Wang, Huijun Zhang, Lei Cao, Ling Feng. 2710-2718 [doi]

Arbitrary Style Transfer via Multi-Adaptation NetworkYingying Deng, Fan Tang, Weiming Dong, Wen Sun, Feiyue Huang, Changsheng Xu. 2719-2727 [doi]

Dual-view Attention Networks for Single Image Super-ResolutionJingcai Guo, Shiheng Ma, Jie Zhang, Qihua Zhou, Song Guo 0001. 2728-2736 [doi]

MRI Measurement Matrix Learning via Correlation ReweightingZhongnian Li, Tao Zhang, Ruoyu Chen, Daoqiang Zhang. 2737-2745 [doi]

Complementary-View Co-Interest Person DetectionRuize Han, Jiewen Zhao, Wei Feng 0005, Yiyang Gan, Liang Wan, Song Wang 0002. 2746-2754 [doi]

Multimodal Dialogue Systems via Capturing Context-aware Dependencies of Semantic ElementsWeidong He, Zhi Li, Dongcai Lu, Enhong Chen, Tong Xu, Baoxing Huai, Jing Yuan. 2755-2764 [doi]

EyeShopper: Estimating Shoppers' Gaze using CCTV CamerasCarlos Bermejo, Dimitris Chatzopoulos, Pan Hui 0001. 2765-2774 [doi]

Exploiting Active Learning in Novel Refractive Error Detection with SmartphonesEugene Yujun Fu, Zhongqi Yang, Hong Va Leong, Grace Ngai, Chi-Wai Do, Lily Chan. 2775-2783 [doi]

Price Suggestion for Online Second-hand Items with Texts and ImagesLiang Han, Zhaozheng Yin, Zhurong Xia, Minqian Tang, Rong Jin. 2784-2792 [doi]

An Advanced LiDAR Point Cloud Sequence Coding Scheme for Autonomous DrivingXuebin Sun, Sukai Wang, Miaohui Wang, Shing Shin Cheng, Ming Liu. 2793-2801 [doi]

Learning Optimization-based Adversarial Perturbations for Attacking Sequential Recognition ModelsXing Xu, Jiefu Chen, Jinhui Xiao, Zheng Wang, Yang Yang, Heng Tao Shen. 2802-2822 [doi]

Emotions Don't Lie: An Audio-Visual Deepfake Detection Method using Affective CuesTrisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, Dinesh Manocha. 2823-2832 [doi]

Deep Disturbance-Disentangled Learning for Facial Expression RecognitionDelian Ruan, Yan Yan 0001, Si Chen 0002, Jing-Hao Xue, Hanzi Wang. 2833-2841 [doi]

Unsupervised Learning Facial Parameter Regressor for Action Unit Intensity Estimation via Differentiable RendererXinhui Song, Tianyang Shi, Zunlei Feng, Mingli Song, Jackie Lin, Chuanjie Lin, Changjie Fan, Yi Yuan. 2842-2851 [doi]

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution MatchingJingjun Liang, Ruichen Li, Qin Jin. 2852-2861 [doi]

PersonalitySensing: A Multi-View Multi-Task Learning Approach for Personality Detection based on Smartphone UsageSongcheng Gao, Wenzhong Li, Lynda J. Song, Xiao Zhang, Mingkai Lin, Sanglu Lu. 2862-2870 [doi]

AU-assisted Graph Attention Convolutional Network for Micro-Expression RecognitionHong-Xia Xie, Ling Lo, Hong-Han Shuai, Wen-Huang Cheng. 2871-2880 [doi]

DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the WildXingxun Jiang, Yuan Zong, Wenming Zheng, Chuangao Tang, Wanchuang Xia, Cheng Lu, Jiateng Liu. 2881-2889 [doi]

Region of Interest Based Graph Convolution: A Heatmap Regression Approach for Action Unit DetectionZheng Zhang 0023, Taoyue Wang, Lijun Yin. 2890-2898 [doi]

IExpressNet: Facial Expression Recognition with Incremental ClassesJunJie Zhu, Bingjun Luo, Sicheng Zhao, Shihui Ying, Xibin Zhao, Yue Gao 0002. 2899-2908 [doi]

SST-EmotionNet: Spatial-Spectral-Temporal based Attention 3D Dense Network for EEG Emotion RecognitionZiyu Jia, Youfang Lin, Xiyang Cai, Haobin Chen, Haijun Gou, Jing Wang 0060. 2909-2917 [doi]

Language Models as Emotional Classifiers for Textual ConversationConnor T. Heaton, David M. Schwartz. 2918-2926 [doi]

Occluded Facial Expression Recognition with Step-Wise Assistance from Unpaired Non-Occluded ImagesBin Xia 0012, Shangfei Wang. 2927-2935 [doi]

Learning from Macro-expression: a Micro-expression Recognition FrameworkBin Xia 0012, Weikang Wang, Shangfei Wang, Enhong Chen. 2936-2944 [doi]

Emotion-Based End-to-End Matching Between Image and Music in Valence-Arousal SpaceSicheng Zhao, Yaxian Li, Xingxu Yao, Weizhi Nie, Pengfei Xu 0013, Jufeng Yang, Kurt Keutzer. 2945-2954 [doi]

Exploiting Multi-Emotion Relations at Feature and Label Levels for Emotion TaggingZhiwei Xu, Shangfei Wang, Can Wang. 2955-2963 [doi]

Uncertainty-aware Cross-dataset Facial Expression Recognition via Regularized Conditional AlignmentLinyi Zhou, Xijian Fan, Yingjie Ma, Tardi Tjahjadi, Qiaolin Ye. 2964-2972 [doi]

Fonts Like This but Happier: A New Way to Discover FontsTugba Kulahcioglu, Gerard de Melo. 2973-2981 [doi]

Adaptive Multimodal Fusion for Facial Action Units RecognitionHuiyuan Yang, Taoyue Wang, Lijun Yin. 2982-2990 [doi]

Exploiting Self-Supervised and Semi-Supervised Learning for Facial Landmark Tracking with Unlabeled DataShi Yin, Shangfei Wang, Xiaoping Chen, Enhong Chen. 2991-2998 [doi]

Cross Corpus Physiological-based Emotion Recognition Using a Learnable Visual Semantic Graph Convolutional NetworkWoan-Shiuan Chien, Hao Chun Yang, Chi-Chun Lee. 2999-3006 [doi]

Few-Shot Ensemble Learning for Video Classification with SlowFast Memory NetworksMengshi Qi, Jie Qin, Xiantong Zhen, Di Huang 0001, Yi Yang, Jiebo Luo. 3007-3015 [doi]

Look Through Masks: Towards Masked Face Recognition with De-Occlusion DistillationChenyu Li, Shiming Ge, Daichi Zhang, Jia Li. 3016-3024 [doi]

Privacy-sensitive Objects Pixelation for Live Video StreamingJizhe Zhou, Chi-Man Pun, Yu Tong. 3025-3033 [doi]

Deep Local Binary Coding for Person Re-Identification by Delving into the DetailsJiaxin Chen, Jie Qin, Yichao Yan, Lei Huang, Li Liu, Fan Zhu 0001, Ling Shao 0001. 3034-3043 [doi]

March on Data Imperfections: Domain Division and Domain Generalization for Semantic SegmentationHai Xu, Hongtao Xie, Zheng-Jun Zha, Sun'ao Liu, Yongdong Zhang. 3044-3053 [doi]

Gait Recognition with Multiple-Temporal-Scale 3D Convolutional Neural NetworkBeibei Lin, Shunli Zhang, Feng Bao. 3054-3062 [doi]

SRHEN: Stepwise-Refining Homography Estimation Network via Parsing Geometric Correspondences in Deep Latent SpaceYi Li, Wenjie Pei, Zhenyu He. 3063-3071 [doi]

Tactile Sketch SaliencyJianbo Jiao, Ying Cao, Manfred Lau, Rynson W. H. Lau. 3072-3080 [doi]

Towards Clustering-friendly Representations: Subspace Clustering via Graph FilteringZhengrui Ma, Zhao Kang, Guangchun Luo, Ling Tian, Wenyu Chen. 3081-3089 [doi]

One-shot Scene Graph GenerationYuyu Guo, Jingkuan Song, Lianli Gao, Heng Tao Shen. 3090-3098 [doi]

Cross-Granularity Learning for Multi-Domain Image-to-Image TranslationHuiyuan Fu, Ting Yu, Xin Wang, Huadong Ma. 3099-3107 [doi]

Enhancing Self-supervised Monocular Depth Estimation via Incorporating Robust ConstraintsRui Li 0013, Xiantuo He, Yu Zhu, Xianjun Li, Jinqiu Sun, Yanning Zhang. 3108-3117 [doi]

A Novel Object Re-Track Framework for 3D Point CloudsTuo Feng, Licheng Jiao, Hao Zhu, Long Sun. 3118-3126 [doi]

Video Relation Detection via Multiple Hypothesis AssociationZixuan Su, Xindi Shang, Jingjing Chen, Yu-Gang Jiang, Zhiyong Qiu, Tat-Seng Chua. 3127-3135 [doi]

HOT-Net: Non-Autoregressive Transformer for 3D Hand-Object Pose EstimationLin Huang, Jianchao Tan, Jingjing Meng, Ji Liu 0002, Junsong Yuan. 3136-3145 [doi]

Multi-Features Fusion and Decomposition for Age-Invariant Face RecognitionLixuan Meng, Chenggang Yan, Jun Li, Jian Yin 0003, Wu Liu, Hongtao Xie, Liang Li 0003. 3146-3154 [doi]

Part-Aware Interactive Learning for Scene Graph GenerationHongshuo Tian, Ning Xu 0003, An-An Liu, Yongdong Zhang. 3155-3163 [doi]

Retrieval Guided Unsupervised Multi-domain Image to Image TranslationRaul Gomez, Yahui Liu, Marco De Nadai, Dimosthenis Karatzas, Bruno Lepri, Nicu Sebe. 3164-3172 [doi]

GangSweep: Sweep out Neural Backdoors by GANLiuwan Zhu, Rui Ning, Cong Wang, Chunsheng Xin, Hongyi Wu. 3173-3181 [doi]

Iterative Back Modification for Faster Image CaptioningZhengcong Fei. 3182-3190 [doi]

VIMES: A Wearable Memory Assistance System for Automatic Information RetrievalCarlos Bermejo, Tristan Braud, Ji Yang, Shayan Mirjafari, Bowen Shi, Yu Xiao 0001, Pan Hui 0001. 3191-3200 [doi]

Neutral Face Game Character Auto-Creation via PokerFace-GANTianyang Shi, Zhengxia Zou, Xinhui Song, Zheng Song, Changjian Gu, Changjie Fan, Yi Yuan. 3201-3209 [doi]

Gray2ColorNet: Transfer More Colors from Reference ImagePeng Lu, Jinbei Yu, Xujun Peng, Zhaoran Zhao, Xiaojie Wang. 3210-3218 [doi]

Crossing You in Style: Cross-modal Style Transfer from Music to Visual ArtsCheng-Che Lee, Wan-Yi Lin, Yen-Ting Shih, Pei-Yi (Patricia) Kuo, Li Su. 3219-3227 [doi]

Modeling Caricature Expressions by 3D Blendshape and Dynamic TextureKeyu Chen, Jianmin Zheng, Jianfei Cai 0001, Juyong Zhang. 3228-3236 [doi]

SketchMan: Learning to Create Professional SketchesJia Li, Nan Gao, Tong Shen, Wei Zhang, Tao Mei, Hui Ren. 3237-3245 [doi]

Anisotropic Stroke Control for Multiple Artists Style TransferXuanhong Chen, Xirui Yan, Naiyuan Liu, Ting Qiu, Bingbing Ni. 3246-3255 [doi]

A Multi-update Deep Reinforcement Learning Algorithm for Edge Computing Service OffloadingHao Hao, Changqiao Xu, Lujie Zhong, Gabriel-Miro Muntean. 3256-3264 [doi]

Identity-Aware Attribute Recognition via Real-Time Distributed Inference in Mobile Edge CloudsZichuan Xu, Jiangkai Wu, Qiufen Xia, Pan Zhou, Jiankang Ren, Huizhi Liang. 3265-3273 [doi]

Deep Unsupervised Hybrid-similarity Hadamard HashingWanqian Zhang, Dayan Wu, Yu Zhou 0015, Bo Li, Weiping Wang 0005, Dan Meng. 3274-3282 [doi]

Incomplete Cross-modal Retrieval with Dual-Aligned Variational AutoencodersMengmeng Jing, Jingjing Li, Lei Zhu, Ke Lu, Yang Yang, Zi Huang. 3283-3291 [doi]

MRS-Net: Multi-Scale Recurrent Scalable Network for Face Quality Enhancement of Compressed VideosTie Liu, Mai Xu, Shengxi Li, Rui Ding, Huaida Liu. 3292-3301 [doi]

Panoptic Image Annotation with a Collaborative AssistantJasper R. R. Uijlings, Mykhaylo Andriluka, Vittorio Ferrari. 3302-3310 [doi]

Blind Natural Video Quality Prediction via Statistical Temporal Features and Deep Spatial FeaturesJari Korhonen, Yicheng Su, Junyong You. 3311-3319 [doi]

Aesthetic-Aware Image Style TransferZhiyuan Hu, Jia Jia 0001, Bei Liu, Yaohua Bu, Jianlong Fu. 3320-3329 [doi]

Building Movie Map - A Tool for Exploring Areas in a City - and its EvaluationsNaoki Sugimoto, Yoshihito Ebine, Kiyoharu Aizawa. 3330-3338 [doi]

A Probabilistic Graphical Model for Analyzing the Subjective Visual Quality Assessment Data from CrowdsourcingJing Li 0026, Suiyi Ling, Junle Wang, Patrick Le Callet. 3339-3347 [doi]

DroidCloud: Scalable High Density AndroidTM Cloud RenderingLinsheng Li, Bin Yang, Cathy Bao, Shuo Liu, Randy Xu, Yong Yao, Mohammad R. Haghighat, Jerry W. Hu, Shoumeng Yan, Zhengwei Qi. 3348-3356 [doi]

Interpretable Embedding for Ad-Hoc Video SearchJiaxin Wu, Chong-Wah Ngo. 3357-3366 [doi]

Joint Attribute Manipulation and Modality Alignment Learning for Composing Text and Image to Image RetrievalFeifei Zhang, Mingliang Xu, Qirong Mao, Changsheng Xu. 3367-3376 [doi]

Semi-supervised Online Multi-Task Metric Learning for Visual Recognition and RetrievalYangxi Li, Han Hu, Jin Li, Yong Luo 0002, Yonggang Wen 0001. 3377-3385 [doi]

Supervised Hierarchical Deep Hashing for Cross-Modal RetrievalYu-Wei Zhan, Xin Luo 0006, Yongxin Wang, Xin-Shun Xu. 3386-3394 [doi]

Multi-graph Convolutional Network for Unsupervised 3D Shape RetrievalWeizhi Nie, Yue Zhao, An-An Liu, Zan Gao, Yuting Su. 3395-3403 [doi]

Bottom-Up Foreground-Aware Feature Fusion for Person SearchWenjie Yang, Dangwei Li, Xiaotang Chen, Kaiqi Huang. 3404-3412 [doi]

Rethinking Generative Zero-Shot Learning: An Ensemble Learning Perspective for Recognising Visual PatchesZhi Chen, Sen Wang 0001, Jingjing Li 0001, Zi Huang. 3413-3421 [doi]

Surpassing Real-World Source Training Data: Random 3D Characters for Generalizable Person Re-IdentificationYanan Wang, ShengCai Liao, Ling Shao 0001. 3422-3430 [doi]

Zero-Shot Multi-View Indoor Localization via Graph Location NetworksMeng-Jiun Chiou, Zhenguang Liu, Yifang Yin, An-An Liu, Roger Zimmermann. 3431-3440 [doi]

Hierarchical Gumbel Attention Network for Text-based Person SearchKecheng Zheng, Wu Liu, Jiawei Liu, Zheng-Jun Zha, Tao Mei 0001. 3441-3449 [doi]

Dual Context-Aware Refinement Network for Person SearchJiawei Liu, Zheng-Jun Zha, Richang Hong, Meng Wang 0001, Yongdong Zhang. 3450-3459 [doi]

Heterogeneous Fusion of Semantic and Collaborative Information for Visually-Aware Food RecommendationLei Meng, Fuli Feng, Xiangnan He 0001, Xiaoyan Gao, Tat-Seng Chua. 3460-3468 [doi]

How to Learn Item Representation for Cold-Start Multimedia Recommendation?Xiaoyu Du, Xiang Wang 0010, Xiangnan He 0001, Zechao Li, Jinhui Tang, Tat-Seng Chua. 3469-3477 [doi]

Personalized Item Recommendation for Second-hand Trading PlatformXuzheng Yu, Tian Gan, Yinwei Wei, Zhiyong Cheng, Liqiang Nie. 3478-3486 [doi]

What Aspect Do You Like: Multi-scale Time-aware User Interest Modeling for Micro-video RecommendationHao Jiang, Wenjie Wang, Yinwei Wei, Zan Gao, Yinglong Wang, Liqiang Nie. 3487-3495 [doi]

Domain-Specific Alignment Network for Multi-Domain Image-Based 3D Object RetrievalYuting Su, Yuqian Li, Dan Song 0006, Zhendong Mao, Xuanya Li, An-An Liu. 3496-3504 [doi]

Multi-modal Attentive Graph Pooling Model for Community Question Answer MatchingJun Hu, Quan Fang, Shengsheng Qian, Changsheng Xu. 3505-3513 [doi]

Task-distribution-aware Meta-learning for Cold-start CTR PredictionTianwei Cao, Qianqian Xu, Zhiyong Yang 0001, Qingming Huang. 3514-3522 [doi]

CFVMNet: A Multi-branch Network for Vehicle Re-identification Based on Common Field of ViewZiruo Sun, Xiushan Nie, Xiaoming Xi, Yilong Yin. 3523-3531 [doi]

Exploiting Heterogeneous Artist and Listener Preference Graph for Music Genre ClassificationChunyuan Yuan, Qianwen Ma, Junyang Chen, Wei Zhou 0019, Xiaodan Zhang, Xuehai Tang, Jizhong Han, Songlin Hu. 3532-3540 [doi]

Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit FeedbackYinwei Wei, Xiang Wang, Liqiang Nie, Xiangnan He 0001, Tat-Seng Chua. 3541-3549 [doi]

Visually Precise QueryRiddhiman Dasgupta, Francis Tom, Sudhir Kumar, Mithun Das Gupta, Yokesh Kumar, Badri N. Patro, Vinay P. Namboodiri. 3550-3558 [doi]

All-in-depth via Cross-baseline Light Field CameraDingjian Jin, Anke Zhang, Jiamin Wu, Gaochang Wu, Haoqian Wang, Lu Fang. 3559-3567 [doi]

Revealing True Identity: Detecting Makeup Attacks in Face-based Biometric SystemsMohammad Amin Arab, Puria Azadi Moghadam, Mohamed E. Hussein, Wael Abd-Almageed, Mohamed Hefeeda. 3568-3576 [doi]

Relevance-Based Compression of Cataract Surgery Videos Using Convolutional Neural NetworksNegin Ghamsarian, Hadi Amirpourazarian, Christian Timmerer, Mario Taschwer, Klaus Schöffmann. 3577-3585 [doi]

A Modular Approach for Synchronized Wireless Multimodal Multisensor Data Acquisition in Highly Dynamic Social SettingsChirag Raman, Stephanie Tan, Hayley Hung. 3586-3594 [doi]

SphericRTC: A System for Content-Adaptive Real-Time 360-Degree Video CommunicationShuoqian Wang, Xiaoyang Zhang, Mengbai Xiao, Kenneth Chiu, Yao Liu 0001. 3595-3603 [doi]

Single Image Shape-from-SilhouettesYawen Lu, Yuxing Wang, Guoyu Lu. 3604-3613 [doi]

VVSec: Securing Volumetric Video Streaming via Benign Use of Adversarial PerturbationZhongze Tang, Xianglong Feng, Yi Xie, Huy Phan, Tian Guo, Bo Yuan 0001, Sheng Wei 0001. 3614-3623 [doi]

Bitrate Requirements of Non-Panoramic VR Remote RenderingViktor Kelkkanen, Markus Fiedler, David Lindero. 3624-3631 [doi]

Kalman Filter-based Head Motion Prediction for Cloud-based Mixed RealitySerhan Gül, Sebastian Bosse, Dimitri Podborski, Thomas Schierl, Cornelius Hellge. 3632-3641 [doi]

Perception-Lossless Codec of Haptic Data with Low DelayChaoyang Zeng, Tiesong Zhao, Qian Liu, Yiwen Xu, Kai Wang. 3642-3650 [doi]

Neural3D: Light-weight Neural Portrait Scanning via Context-aware Correspondence LearningXin Suo, Minye Wu, Yanshun Zhang, Yingliang Zhang, Lan Xu, Qiang Hu, Jingyi Yu. 3651-3660 [doi]

Presence, Embodied Interaction and Motivation: Distinct Learning Phenomena in an Immersive Virtual EnvironmentJack Ratcliffe, Laurissa Tokarchuk. 3661-3668 [doi]

User Centered Adaptive Streaming of Dynamic Point Clouds with Low Complexity TilingShishir Subramanyam, Irene Viola, Alan Hanjalic, Pablo César. 3669-3677 [doi]

Leveraging QoE Heterogenity for Large-Scale Livecaset SchedulingRui-Xiao Zhang, Ming Ma, Tianchi Huang, Hanyu Li, Jiangchuan Liu, Lifeng Sun. 3678-3686 [doi]

Towards Viewport-dependent 6DoF 360 Video Tiled Streaming for Virtual Reality SystemsJongBeom Jeong, Soonbin Lee, Il-Woong Ryu, Tuan-Thanh Le, Eun-Seok Ryu. 3687-3695 [doi]

Low-latency FoV-adaptive Coding and Streaming for Interactive 360° Video StreamingYixiang Mao, Liyang Sun, Yong Liu, Yao Wang. 3696-3704 [doi]

Towards Modality Transferable Visual Information Representation with Optimal Model CompressionRongqun Lin, Linwei Zhu, Shiqi Wang 0001, Sam Kwong. 3705-3714 [doi]

AdaP-360: User-Adaptive Area-of-Focus Projections for Bandwidth-Efficient 360-Degree Video StreamingChao Zhou, Shuoqian Wang, Mengbai Xiao, Sheng Wei 0001, Yao Liu 0001. 3715-3723 [doi]

Tile Rate Allocation for 360-Degree Tiled Adaptive Video StreamingPraveen Kumar Yadav, Wei Tsang Ooi. 3724-3733 [doi]

Lab2Pix: Label-Adaptive Generative Adversarial Network for Unsupervised Image SynthesisLianli Gao, Junchen Zhu, Jingkuan Song, Feng Zheng, Heng Tao Shen. 3734-3742 [doi]

Deep Multimodal Neural Architecture SearchZhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian. 3743-3752 [doi]

DIMC-net: Deep Incomplete Multi-view Clustering NetworkJie Wen 0001, Zheng Zhang, Zhao Zhang, Zhihao Wu, Lunke Fei, Yong Xu, Bob Zhang. 3753-3761 [doi]

Cross-domain Cross-modal Food TransferBin Zhu, Chong-Wah Ngo, Jingjing Chen. 3762-3770 [doi]

Texture Semantically Aligned with Visibility-aware for Partial Person Re-identificationLi-Shuai Gao, Hua Zhang, Zan Gao, Weili Guan, Zhiyong Cheng, Meng Wang. 3771-3779 [doi]

KTN: Knowledge Transfer Network for Multi-person DensePose EstimationXuanhan Wang, Lianli Gao, Jingkuan Song, Heng Tao Shen. 3780-3788 [doi]

Activity-driven Weakly-Supervised Spatio-Temporal Grounding from Untrimmed VideosJunwen Chen, Wentao Bao, Yu Kong. 3789-3797 [doi]

Modeling Temporal Concept Receptive Field Dynamically for Untrimmed Video AnalysisZhaobo Qi, Shuhui Wang, Chi Su, Li Su, Weigang Zhang, Qingming Huang. 3798-3806 [doi]

Relational Graph Learning for Grounded Video Description GenerationWenqiao Zhang, Xin Eric Wang, Siliang Tang, Haizhou Shi, Haochen Shi, Jun Xiao, Yueting Zhuang, William Yang Wang. 3807-3828 [doi]

Finding Achilles' Heel: Adversarial Attack on Multi-modal Action RecognitionDeepak Kumar, Chetan Kumar, Chun-Wei Seah, Siyu Xia, Ming Shao. 3829-3837 [doi]

Online Multi-view Subspace Learning with Mixed NoiseJinxing Li, Hongwei Yong, Feng Wu, Mu Li 0005. 3838-3846 [doi]

LSOTB-TIR: A Large-Scale High-Diversity Thermal Infrared Object Tracking BenchmarkQiao Liu 0001, Xin Li, Zhenyu He 0001, Chenglong Li, Jun Li, Zikun Zhou, Di Yuan 0002, Jing Li, Kai Yang, Nana Fan, Feng Zheng. 3847-3856 [doi]

Towards More Explainability: Concept Knowledge Mining Network for Event RecognitionZhaobo Qi, Shuhui Wang, Chi Su, Li Su, Qingming Huang, Qi Tian 0001. 3857-3865 [doi]

Simultaneous Semantic Alignment Network for Heterogeneous Domain AdaptationShuang Li 0008, Binhui Xie, Jiashu Wu, Ying Zhao, Chi Harold Liu, Zhengming Ding. 3866-3874 [doi]

Diverter-Guider Recurrent Network for Diverse Poems Generation from ImageLiang Li, Shijie Yang, Li Su 0003, Shuhui Wang, Chenggang Yan, Zhengjun Zha, Qingming Huang. 3875-3883 [doi]

Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation LearningYing Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang. 3884-3892 [doi]

Cross-Modal Relation-Aware Networks for Audio-Visual Event LocalizationHaoming Xu, Runhao Zeng, Qingyao Wu, Mingkui Tan, Chuang Gan. 3893-3901 [doi]

Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer FusionYikai Wang, Fuchun Sun, Ming Lu, Anbang Yao. 3902-3910 [doi]

Look, Listen and InferRuijian Jia, Xinsheng Wang, Shanmin Pang, Jihua Zhu, Jianru Xue. 3911-3919 [doi]

DCNet: Dense Correspondence Neural Network for 6DoF Object Pose Estimation in Occluded ScenesZhi Chen, Wei Yang, Zhenbo Xu, Xike Xie, Liusheng Huang, null null. 3929-3937 [doi]

Transferrable Referring Expression Grounding with Concept Transfer and Context InheritanceXuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Dechao Meng, Qingming Huang. 3938-3946 [doi]

Deep Multi-modality Soft-decoding of Very Low Bit-rate Face VideosYanhui Guo, Xi Zhang 0019, Xiaolin Wu 0001. 3947-3955 [doi]

Multi-modal Multi-relational Feature Aggregation Network for Medical Knowledge Representation LearningYingying Zhang, Quan Fang, Shengsheng Qian, Changsheng Xu. 3956-3965 [doi]

Photo Stream Question AnswerWenqiao Zhang, Siliang Tang, Yanpeng Cao, Jun Xiao, Shiliang Pu, Fei Wu, Yueting Zhuang. 3966-3975 [doi]

Generalized Zero-shot Learning with Multi-source Semantic Embeddings for Scene RecognitionXinhang Song, Haitao Zeng, Sixian Zhang, Luis Herranz, Shuqiang Jiang. 3976-3985 [doi]

A Unified Framework for Detecting Audio Adversarial ExamplesXia Du, Chi-Man Pun, Zheng Zhang. 3986-3994 [doi]

Emerging Topic Detection on the Meta-data of Images from Fashion Social MediaKunihiro Miyazaki, Takayuki Uchiba, Scarlett Young, Yuichi Sasaki, Kenji Tanaka. 3995-4003 [doi]

Deep Concept-wise Temporal Convolutional Networks for Action LocalizationXin Li, Tianwei Lin, Xiao Liu 0022, Wangmeng Zuo, Chao Li, Xiang Long, Dongliang He, Fu Li, Shilei Wen, Chuang Gan. 4004-4012 [doi]

Who You Are Decides How You TellShuang Wu, Shaojing Fan, Zhiqi Shen, Mohan S. Kankanhalli, Anthony K. H. Tung. 4013-4022 [doi]

Query Twice: Dual Mixture Attention Meta Learning for Video SummarizationJunyan Wang, Yang Bai, Yang Long 0001, BingZhang Hu, Zhenhua Chai, Yu Guan, Xiaolin Wei. 4023-4031 [doi]

Textual Dependency Embedding for Person Search by LanguageKai Niu 0002, Yan Huang, Liang Wang 0001. 4032-4040 [doi]

Visual-Semantic Graph Matching for Visual GroundingChenchen Jing, Yuwei Wu, Mingtao Pei, Yao Hu, Yunde Jia, Qi Wu. 4041-4050 [doi]

LAL: Linguistically Aware Learning for Scene Text RecognitionYi Zheng, Wenda Qin, Derry Wijaya, Margrit Betke. 4051-4059 [doi]

Cascade Reasoning Network for Text-based Visual Question AnsweringFen Liu, Guanghui Xu, Qi Wu, Qing Du, Wei Jia, Mingkui Tan. 4060-4069 [doi]

Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment LocalizationDaizong Liu, Xiaoye Qu, Xiao-Yang Liu, Jianfeng Dong, Pan Zhou, Zichuan Xu. 4070-4078 [doi]

Text-Guided Image InpaintingZijian Zhang 0002, Zhou Zhao, Zhu Zhang, Baoxing Huai, Jing Yuan. 4079-4087 [doi]

RT-VENet: A Convolutional Network for Real-time Video EnhancementMohan Zhang, Qiqi Gao, Jinglu Wang, Henrik Turbell, David Zhao, Jinhui Yu, Yan Lu. 4088-4097 [doi]

Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment Retrieval in VideosZhu Zhang, Zhijie Lin, Zhou Zhao, Jieming Zhu, Xiuqiang He. 4098-4106 [doi]

Feature Reintegration over Differential Treatment: A Top-down and Adaptive Fusion Network for RGB-D Salient Object DetectionMiao Zhang, Yu Zhang, Yongri Piao, Beiqi Hu, Huchuan Lu. 4107-4115 [doi]

Dual Path Interaction Network for Video Moment LocalizationHao Wang 0050, Zheng-Jun Zha, Xuejin Chen, Zhiwei Xiong, Jiebo Luo. 4116-4124 [doi]

Cap2Seg: Inferring Semantic and Spatial Context from Captions for Zero-Shot Image SegmentationGuiyu Tian, Shuai Wang, Jie Feng, Li Zhou, Yadong Mu. 4125-4134 [doi]

Spatial-Temporal Knowledge Integration: Robust Self-Supervised Facial Landmark TrackingCongcong Zhu, Xiaoqiang Li, Jide Li, Guangtai Ding, Weiqin Tong. 4135-4143 [doi]

Weakly Supervised 3D Object Detection from Point CloudsZengyi Qin, Jinglu Wang, Yan Lu. 4144-4152 [doi]

Bridging the Gap between Vision and Language Domains for Improved Image CaptioningFenglin Liu, Xian Wu, Shen Ge, Xiaoyu Zhang, Wei Fan, Yuexian Zou. 4153-4161 [doi]

STRONG: Spatio-Temporal Reinforcement Learning for Cross-Modal Video Moment LocalizationDa Cao, Yawen Zeng, Meng Liu, Xiangnan He 0001, Meng Wang, Zheng Qin. 4162-4170 [doi]

Language-Aware Fine-Grained Object Representation for Referring Expression ComprehensionHeqian Qiu, Hongliang Li, Qingbo Wu 0001, Fanman Meng, Hengcan Shi, Taijin Zhao, King Ngi Ngan. 4171-4180 [doi]

Hierarchical Scene Graph Encoder-Decoder for Image Paragraph CaptioningXu Yang, Chongyang Gao, Hanwang Zhang, Jianfei Cai 0001. 4181-4189 [doi]

Improving Intra- and Inter-Modality Visual Relation for Image CaptioningYong Wang, Wenkai Zhang, Qing Liu, Zhengyuan Zhang, Xin Gao, Xian Sun. 4190-4198 [doi]

Exploring Language Prior for Mode-Sensitive Visual Attention ModelingXiaoshuai Sun, Xuying Zhang, Liujuan Cao, Yongjian Wu, Feiyue Huang, Rongrong Ji. 4199-4207 [doi]

Topic Adaptation and Prototype Encoding for Few-Shot Visual StorytellingJiacheng Li, Siliang Tang, Juncheng Li 0006, Jun Xiao, Fei Wu, Shiliang Pu, Yueting Zhuang. 4208-4216 [doi]

ICECAP: Information Concentrated Entity-aware Image CaptioningAnwen Hu, Shizhe Chen, Qin Jin. 4217-4225 [doi]

Attacking Image Captioning Towards Accuracy-Preserving Target Words RemovalJiayi Ji, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji, Fuhai Chen, Jianzhuang Liu, Qi Tian. 4226-4234 [doi]

ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction DetectionYe Liu, Junsong Yuan, Chang Wen Chen. 4235-4243 [doi]

ChefGAN: Food Image Generation from RecipesSiyuan Pan, Ling Dai, Xuhong Hou, Huating Li, Bin Sheng. 4244-4252 [doi]

Dual Hierarchical Temporal Convolutional Network with QA-Aware Dynamic Normalization for Video Story Question AnsweringFei Liu, Jing Liu, Xinxin Zhu, Richang Hong, Hanqing Lu. 4253-4261 [doi]

Generalized Zero-Shot Learning using Generated Proxy Unseen Samples and Entropy SeparationOmkar Gune, Biplab Banerjee, Subhasis Chaudhuri, Fabio Cuzzolin. 4262-4270 [doi]

Answer-Driven Visual State Estimator for Goal-Oriented Visual DialogueZipeng Xu, Fangxiang Feng, Xiaojie Wang, Yushu Yang, Huixing Jiang, Zhongyuan Wang. 4271-4279 [doi]

Fine-grained Iterative Attention Network for Temporal Language Localization in VideosXiaoye Qu, Pengwei Tang, Zhikang Zou, Yu Cheng 0001, Jianfeng Dong, Pan Zhou, Zichuan Xu. 4280-4288 [doi]

Hierarchical Bi-Directional Feature Perception Network for Person Re-IdentificationZhipu Liu, Lei Zhang 0038, Yang Yang. 4289-4298 [doi]

Hard Negative Samples Emphasis Tracker without AnchorsZhongzhou Zhang, Lei Zhang 0038. 4299-4308 [doi]

JointFontGAN: Joint Geometry-Content GAN for Font Generation via Few-Shot LearningYankun Xi, Guoli Yan, Jing Hua, Zichun Zhong. 4309-4317 [doi]

DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat RhythmsHua Qi, Qing Guo, Felix Juefei-Xu, Xiaofei Xie, Lei Ma, Wei Feng, Yang Liu, Jianjun Zhao. 4318-4327 [doi]

FastLR: Non-Autoregressive Lipreading Model with Integrate-and-FireJinglin Liu, Yi Ren, Zhou Zhao, Chen Zhang, Baoxing Huai, Jing Yuan. 4328-4336 [doi]

Multimodal Attention with Image Text Spatial Relationship for OCR-Based Image CaptioningJing Wang, Jinhui Tang, Jiebo Luo. 4337-4345 [doi]

Towards Accuracy-Fairness Paradox: Adversarial Example-based Data Augmentation for Visual DebiasingYi Zhang, Jitao Sang. 4346-4354 [doi]

Learning Semantic Concepts and Temporal Alignment for Narrated Video Procedural CaptioningBotian Shi, Lei Ji, Zhendong Niu, Nan Duan, Ming Zhou, Xilin Chen. 4355-4363 [doi]

LGNN: A Context-aware Line Segment DetectorQuan Meng, Jiakai Zhang, Qiang Hu, Xuming He, Jingyi Yu. 4364-4372 [doi]

DeVLBert: Learning Deconfounded Visio-Linguistic RepresentationsShengyu Zhang, Tan Jiang, Tan Wang, Kun Kuang, Zhou Zhao, Jianke Zhu, Jin Yu, Hongxia Yang, Fei Wu. 4373-4382 [doi]

Sequential Attention GAN for Interactive Image EditingYu Cheng, Zhe Gan, Yitong Li, Jingjing Liu 0001, Jianfeng Gao. 4383-4391 [doi]

Portraits of No One: An Internet ArtworkTiago Martins, João Correia, Sérgio Rebelo, João Bicker, Penousal Machado. 4392-4393 [doi]

MaLiang: An Emotion-driven Chinese Calligraphy Artwork Composition SystemRuixue Liu, Shaozu Yuan, Meng Chen 0006, Baoyang Chen, Zhijie Qiu, Xiaodong He 0002. 4394-4396 [doi]

First Impression: AI Understands PersonalityXiaohui Wang, Xia Liang, Miao Lu, Jingyan Qin. 4397-4398 [doi]

Draw Portraits by Music: A Music based Image Style TransformationSiyu Jin, Jingyan Qin, Wenfa Li. 4399-4400 [doi]

Little World: Virtual Humans Accompany Children on Dramatic PerformanceXiaohui Wang, Xiaoxue Ding, Jinke Li, Jingyan Qin. 4401-4402 [doi]

Keep Running - AI Paintings of Horse Figure and PortraitJames She, Carmen Ng, Wadia Sheng. 4403-4404 [doi]

AI Mirror: Visualize AI's Self-knowledgeSiyu Hu, Bo Shui, Siyu Jin, Xiaohui Wang. 4405-4406 [doi]

Image Sentiment TransferTianlang Chen, Wei Xiong 0008, Haitian Zheng, Jiebo Luo. 4407-4415 [doi]

Personal Food ModelAli Rostami, Vaibhav Pandey, Nitish Nag, Vesper Wang, Ramesh C. Jain. 4416-4424 [doi]

Helping Users Tackle Algorithmic Threats on Social Media: A Multimedia Research AgendaChristian von der Weth, Ashraf M. Abdul, Shaojing Fan, Mohan S. Kankanhalli. 4425-4434 [doi]

Reproducibility Companion Paper: Instance of Interest DetectionFan Yu, Dandan Wang, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, Michael Riegler. 4435-4438 [doi]

Reproducibility Companion Paper: Outfit Compatibility Prediction and Diagnosis with Multi-Layered Comparison NetworkXin Wang, Bo Wu, Yueqi Zhong, Wei Hu, Jan Zahálka. 4439-4443 [doi]

Reproducibility Companion Paper: Visual Sentiment Analysis for Review Images with Item-Oriented and User-Oriented CNNQuoc-Tuan Truong, Hady W. Lauw, Martin Aumüller 0001, Naoko Nitta. 4444-4447 [doi]

Reproducibility Companion Paper: Selective Deep Convolutional Features for Image RetrievalTuan Hoang, Thanh-Toan Do, Ngai-Man Cheung, Michael Riegler, Jan Zahálka. 4448-4452 [doi]

MLModelCI: An Automatic Cloud Platform for Efficient MLaaSHuaizheng Zhang, Yuanming Li, Yizheng Huang, Yonggang Wen 0001, Jianxiong Yin, Kyle Guan. 4453-4456 [doi]

Hysia: Serving DNN-Based Video-to-Retail Applications in CloudHuaizheng Zhang, Yuanming Li, Qiming Ai, Yong Luo, Yonggang Wen 0001, Yichao Jin, Ta Nguyen Binh Duong. 4457-4460 [doi]

PyRetri: A PyTorch-based Library for Unsupervised Image Retrieval by Deep Convolutional Neural NetworksBenyi Hu, Ren-Jie Song, Xiu-Shen Wei, Yazhou Yao, Xian-Sheng Hua 0001, Yuehu Liu. 4461-4464 [doi]

Cottontail DB: An Open Source Database System for Multimedia Retrieval and AnalysisRalph Gasser, Luca Rossetto, Silvan Heller, Heiko Schuldt. 4465-4468 [doi]

BMXNet 2: An Open Source Framework for Low-bit Networks - Reproducing, Understanding, Designing and ShowcasingJoseph Bethge, Christian Bartz, Haojin Yang, Christoph Meinel. 4469-4472 [doi]

PyAnomaly: A Pytorch-based Toolkit for Video Anomaly DetectionYuhao Cheng, Wu Liu, Pengrui Duan, Jingen Liu, Tao Mei 0001. 4473-4476 [doi]

TAPAS-360°: A Tool for the Design and Experimental Evaluation of 360° Video Streaming SystemsGiuseppe Ribezzo, Luca De Cicco, Vittorio Palmisano, Saverio Mascolo. 4477-4480 [doi]

SOMHunter: Lightweight Video Search System with SOM-Guided Relevance FeedbackMiroslav Kratochvíl, Frantisek Mejzlík, Patrik Veselý, Tomás Soucek, Jakub Lokoc. 4481-4484 [doi]

Text-to-Image Synthesis via Aesthetic LayoutSamah Saeed Baraheem, Trung-Nghia Le, Tam V. Nguyen. 4485-4487 [doi]

Progressive Domain Adaptation for Robot Vision Person Re-identificationZijun Sha, Zelong Zeng, Zheng Wang, Yoichi Natori, Yasuhiro Taniguchi, Shin'ichi Satoh. 4488-4490 [doi]

Semantic Storytelling Automation: A Context-Aware and Metadata-Driven ApproachPaula Viana, Pedro Carvalho, Maria Teresa Andrade, Pieter P. Jonker, Vasileios Papanikolaou, Inês N. Teixeira, Luís Vilaça, José P. Pinto, Tiago Costa. 4491-4493 [doi]

ADHD Intelligent Auxiliary Diagnosis System Based on Multimodal Information FusionYanyi Zhang, Ming Kong, Tianqi Zhao, Wenchen Hong, Qiang Zhu, Fei Wu. 4494-4496 [doi]

Video 360 Content Navigation for Mobile HMD DevicesJounsup Park, Mingyuan Wu, Eric Lee, Klara Nahrstedt, Yash Shah, Arielle Rosenthal, John Murray, Kevin Spiteri, Michael Zink, Ramesh K. Sitaraman. 4497-4499 [doi]

GoldenRetriever: A Speech Recognition System Powered by Modern Information RetrievalYuanfeng Song, Di Jiang, Xiaoling Huang, Yawen Li, Qian Xu, Raymond Chi-Wing Wong, Qiang Yang. 4500-4502 [doi]

Integrating Event Camera Sensor EmulatorAndrew C. Freeman, Ketan Mayer-Patel. 4503-4505 [doi]

Scene-segmented Video Information Annotation System V2.0Alex Lee, Chang-Uk Kwak, Jeong Woo Son, Gyeong June Hahm, Minho Han, Sun-Joong Kim. 4506-4508 [doi]

SmartShots: Enabling Automatic Generation of Videos with Data Visualizations EmbeddedTan Tang, Junxiu Tang, Jiewen Lai, Lu-ying, Peiran Ren, Lingyun Yu, Yingcai Wu. 4509-4511 [doi]

A Smart-Site-Survey System using Image-based 3D Metric Reconstruction and Interactive Panorama VisualizationSha Yu, Kevin McGuinness, Patricia Moore, David Azcona, Noel E. O'Connor. 4512-4514 [doi]

AI-SAS: Automated In-match Soccer Analysis SystemNing Zhang, Tong Shen, Yue Chen, Wei Zhang, Dan Zeng 0001, Jingen Liu, Tao Mei. 4515-4517 [doi]

Detecting Urban Issues With the Object Detection KitMaarten Sukel, Stevan Rudinac, Marcel Worring. 4518-4520 [doi]

Visual-speech Synthesis of Exaggerated Corrective FeedbackYaohua Bu, Weijun Li, Tianyi Ma, Shengqi Chen, Jia Jia 0002, Kun Li, Xiaobo Lu. 4521-4523 [doi]

TindART: A Personal Visual Arts RecommenderGjorgji Strezoski, Lucas Fijen, Jonathan Mitnik, Dániel László, Pieter de Marez Oyens, Yoni Schirris, Marcel Worring. 4524-4526 [doi]

Fashionist: Personalising Outfit Recommendation for Cold-Start ScenariosDhruv Verma, Kshitij Gulati, Vasu Goel, Rajiv Ratn Shah. 4527-4529 [doi]

EmotionTracker: A Mobile Real-time Facial Expression Tracking System with the Assistant of Public AI-as-a-ServiceXuncheng Liu, Jingyi Wang, Weizhan Zhang, Qinghua Zheng, Xuanya Li. 4530-4532 [doi]

AvatarMeeting: An Augmented Reality Remote Interaction System With Personalized AvatarsXuanyu Wang, Yang Wang, Yan Shi, Weizhan Zhang, Qinghua Zheng. 4533-4535 [doi]

An Interactive Design for Visualizable Person Re-IdentificationHaolin Ren, Zheng Wang, Zhixiang Wang, Lixiong Chen, Shin'ichi Satoh, Daning Hu. 4536-4538 [doi]

Image and Video Restoration and Compression Artefact Removal Using a NoGAN ApproachFilippo Mameli, Marco Bertini, Leonardo Galteri, Alberto Del Bimbo. 4539-4541 [doi]

Beautify As You LikeWentao Jiang, Si Liu, Chen Gao, Ran He, Bo Li, Shuicheng Yan. 4542-4544 [doi]

iDirector: An Intelligent Directing System for Live BroadcastJiawei Zuo, Yue Chen, Linfang Wang, Yingwei Pan, Ting Yao, Ke Wang, Tao Mei. 4545-4547 [doi]

Multimedia Food LoggerAli Rostami, Bihao Xu, Ramesh C. Jain. 4548-4549 [doi]

A Cross-modality and Progressive Person Search SystemXiaodong Chen, Wu Liu, Xinchen Liu, Yongdong Zhang, Tao Mei 0001. 4550-4552 [doi]

Binocular Multi-CNN System for Real-Time 3D Pose EstimationTeo T. Niemirepo, Marko Viitanen, Jarno Vanne. 4553-4555 [doi]

An Interaction-based Video Viewing Support System using Geographical RelationshipsItsuki Hashimoto, Yuanyuan Wang 0003, Yukiko Kawai, Kazutoshi Sumiya. 4556-4558 [doi]

Infinity Battle: A Glance at How Blockchain Techniques Serve in a Serverless Gaming SystemFeijie Wu, Ho Yin Yuen, Henry C. B. Chan, Victor C. M. Leung, Wei Cai 0002. 4559-4561 [doi]

ConfFlow: A Tool to Encourage New Diverse CollaborationsEkin Gedik, Hayley Hung. 4562-4564 [doi]

HyFea: Winning Solution to Social Media Popularity Prediction for Multimedia Grand Challenge 2020Xin Lai, Yihong Zhang, Wei Zhang. 4565-4569 [doi]

A Feature Generalization Framework for Social Media Popularity PredictionKai Wang, Penghui Wang, Xin Chen, Qiushi Huang, Zhendong Mao, Yongdong Zhang. 4570-4574 [doi]

Curriculum Learning for Wide Multimedia-Based Transformer with Graph Target DetectionWeilong Chen, Feng Hong, Chenghao Huang, Shaoliang Zhang, Rui Wang, Ruobing Xie, Feng Xia 0006, Leyu Lin, Yanru Zhang, Yan Wang. 4575-4579 [doi]

Multimodal Deep Learning for Social Media Popularity Prediction With Attention MechanismKele Xu, Zhimin Lin, Jianqiao Zhao, Peichang Shi, Wei Deng, Huaimin Wang. 4580-4584 [doi]

Rethinking Relation between Model Stacking and Recurrent Neural Networks for Social Media PredictionChih-Chung Hsu, Wen-Hai Tseng, Hao-Ting Yang, Chia-Hsiang Lin, Chi-Hung Kao. 4585-4589 [doi]

Video Relation Detection with Trajectory-aware Multi-modal FeaturesWentao Xie, Guanghui Ren, Si Liu 0001. 4590-4594 [doi]

A Strong Baseline for Multiple Object Tracking on VidOR DatasetZhipeng Luo, Zhiguang Zhang, Yuehan Yao. 4595-4599 [doi]

XlanV Model with Adaptively Multi-Modality Feature Fusing for Video CaptioningYiqing Huang, Qiuyu Cai, Siyu Xu, Jiansheng Chen. 4600-4604 [doi]

VideoTRM: Pre-training for Video Captioning Challenge 2020Jingwen Chen, Hongyang Chao. 4605-4609 [doi]

Multi-stage Tag Guidance Network in Video CaptionLanxiao Wang, Chao Shang, Heqian Qiu, Taijin Zhao, Benliu Qiu, Hongliang Li. 4610-4614 [doi]

Dense Scene Multiple Object Tracking with Box-Plane MatchingJinlong Peng, Yueyang Gu, Yabiao Wang, Chengjie Wang, Jilin Li, Feiyue Huang. 4615-4619 [doi]

Transductive Multi-Object Tracking in Complex Events by Interactive Self-TrainingAncong Wu, Chengzhi Lin, Bogao Chen, Weihao Huang, Zeyu Huang, Wei-Shi Zheng. 4620-4624 [doi]

Application of Multi-Object Tracking with Siamese Track-RCNN to the Human in Events DatasetBing Shuai, Andrew G. Berneshawi, Manchen Wang, Chunhui Liu, Davide Modolo, Xinyu Li, Joseph Tighe. 4625-4629 [doi]

Towards Accurate Human Pose Estimation in Videos of Crowded ScenesShuning Chang, Li Yuan 0007, Xuecheng Nie, Ziyuan Huang, Yichen Zhou, Yupeng Chen, Jiashi Feng, Shuicheng Yan. 4630-4634 [doi]

Combined Distillation PoseLei Yuan, Shu Zhang, Fubiao Feng, Naike Wei, Huadong Pan. 4635-4639 [doi]

Deep Relationship Analysis in Video with Multimodal Feature FusionFan Yu, Dandan Wang, Beibei Zhang, Tongwei Ren. 4640-4644 [doi]

Towards Using Semantic-Web Technologies for Multi-Modal Knowledge Graph ConstructionMatthias Baumgartner, Luca Rossetto, Abraham Bernstein. 4645-4649 [doi]

Story Semantic Relationships from Multimodal CognitionsVishal Anand, Raksha Ramesh, Ziyin Wang, Yijing Feng, Jiana Feng, Wenfeng Lyu, Tianle Zhu, Serena Yuan, Ching-Yung Lin. 4650-4654 [doi]

ACM Multimedia BioMedia 2020 Grand Challenge OverviewSteven Alexander Hicks, Vajira Thambawita, Hugo Lewi Hammer, Trine B. Haugen, Jorunn M. Andersen, Oliwia Witczak, Pål Halvorsen, Michael A. Riegler. 4655-4658 [doi]

A Quantitative Comparison of Different Machine Learning Approaches for Human Spermatozoa Quality Prediction Using Multimodal DatasetsMing Feng, Kele Xu, Yin Wang. 4659-4663 [doi]

Enhancing Anomaly Detection in Surveillance Videos with Transfer Learning from Action RecognitionKun Liu, Minzhi Zhu, Huiyuan Fu, Huadong Ma, Tat-Seng Chua. 4664-4668 [doi]

Modularized Framework with Category-Sensitive Abnormal Filter for City Anomaly DetectionJie Wu 0030, Yingying Li, Wei Zhang, Yi Wu, Xiao Tan, Hongwu Zhang, Shilei Wen, Errui Ding, Guanbin Li. 4669-4673 [doi]

Large Scale Hierarchical Anomaly Detection and Temporal LocalizationSoumil Kanwal, Vineet Mehta, Abhinav Dhall. 4674-4678 [doi]

Global Information Guided Video Anomaly DetectionHui Lv, Chunyan Xu, Zhen Cui 0001. 4679-4683 [doi]

A Simple Baseline for Pose Tracking in Videos of Crowed ScenesLi Yuan 0007, Shuning Chang, Ziyuan Huang, Yichen Zhou, Yupeng Chen, Xuecheng Nie, Francis E. H. Tay, Jiashi Feng, Shuicheng Yan. 4684-4688 [doi]

HiEve ACM MM Grand Challenge 2020: Pose Tracking in Crowded ScenesLumin Xu, Ruihan Xu, Sheng Jin 0007. 4689-4693 [doi]

Toward Accurate Person-level Action Recognition in Videos of Crowed ScenesLi Yuan, Yichen Zhou, Shuning Chang, Ziyuan Huang, Yupeng Chen, Xuecheng Nie, Tao Wang, Jiashi Feng, Shuicheng Yan. 4694-4698 [doi]

Person-level Action Recognition in Complex Events via TSD-TSM NetworksYanbin Hao, Zi-Niu Liu, Hao Zhang 0047, Bin Zhu, Jingjing Chen, Yu-Gang Jiang, Chong-Wah Ngo. 4699-4702 [doi]

Group-Skeleton-Based Human Action Recognition in Complex EventsTingtian Li, Zixun Sun, Xiao Chen. 4703-4707 [doi]

Attention Based Beauty Product Retrieval Using Global and Local DescriptorsJun Yu, Guochen Xie, Mengyan Li, Haonian Xie, Xinlong Hao, Fang Gao, Feng Shuang. 4708-4712 [doi]

Multi-Feature Fusion Method Based on Salient Object Detection for Beauty Product RetrievalRunming Yan, Yongchun Lin, Zhichao Deng, Liang Lei, Chudong Xu. 4713-4717 [doi]

Attention-driven Unsupervised Image Retrieval for Beauty Products with Visual and Textual CluesJingwen Hou, Sijie Ji, Annan Wang. 4718-4722 [doi]

Learning Visual Features from Product Title for Image RetrievalFangxiang Feng, Tianrui Niu, Ruifan Li, Xiaojie Wang, Huixing Jiang. 4723-4727 [doi]

Learning to Remember Beauty ProductsToan H. Vu, An Dang, Jia-Ching Wang. 4728-4732 [doi]

Multi-Scale Generalized Attention-Based Regional Maximum Activation of Convolutions for Beauty Product RetrievalKele Xu, Yuzhong Liu, Ming Feng, Jianqiao Zhao, Huaimin Wang, Hengxing Cai. 4733-4737 [doi]

Low-level Optimizations for Faster Mobile Deep Learning Inference FrameworksMathieu Febvay. 4738-4742 [doi]

Deep Neural Networks for Predicting Affective Responses from MoviesHa Thi Phuong Thao. 4743-4747 [doi]

Learning Self-Supervised Multimodal Representations of Human BehaviourAbhinav Shukla. 4748-4751 [doi]

Multi-person Pose Estimation in Complex Physical InteractionsWen Guo. 4752-4755 [doi]

AI4TV 2020: 2nd International Workshop on AI for Smart TV Content Production, Access and DeliveryRaphaël Troncy, Jorma Laaksonen, Hamed R. Tavakoli, Lyndon J. B. Nixon, Vasileios Mezaris, Mohammad Hosseini. 4756-4757 [doi]

ATQAM/MAST'20: Joint Workshop on Aesthetic and Technical Quality Assessment of Multimedia and Media Analytics for Societal TrendsTanaya Guha, Vlad Hosu, Dietmar Saupe, Bastian Goldlücke, Naveen Kumar 0004, Weisi Lin, Victor R. Martinez, Krishna Somandepalli, Shrikanth Narayanan, Wen-Huang Cheng, Kree McLaughlin, Hartwig Adam, John See, Lai-Kuan Wong. 4758-4760 [doi]

FATE/MM 20: 2nd International Workshop on Fairness, Accountability, Transparency and Ethics in MultiMediaXavier Alameda-Pineda, Miriam Redi, Jahna Otterbacher, Nicu Sebe, Shih-Fu Chang. 4761-4762 [doi]

HUMA'20: 1st International Workshop on Human-Centric Multimedia AnalysisWu Liu, Chuang Gan, Jingkuan Song, Dingwen Zhang, Wenbing Huang, John Smith. 4763-4764 [doi]

MMSports'20: 3rd International Workshop on Multimedia Content Analysis in SportsRainer Lienhart, Thomas B. Moeslund, Hideo Saito. 4765-4766 [doi]

MuCAI'20: 1st International Workshop on Multimodal Conversational AIAlex Hauptmann, João Magalhães, Ricardo G. Sousa, João Paulo Costeira. 4767-4768 [doi]

Summary of MuSe 2020: Multimodal Sentiment Analysis, Emotion-target Engagement and Trustworthiness Detection in Real-life MediaLukas Stappen, Björn E. Schuller, Iulia Lefter, Erik Cambria, Ioannis Kompatsiaris. 4769-4770 [doi]

QoEVMA'20: 1st Workshop on Quality of Experience (QoE) in Visual Multimedia ApplicationsXinbo Gao, Patrick Le Callet, Jing Li, Zhi Li, Wen Lu, Jiachen Yang. 4771-4772 [doi]

SUMAC 2020: The 2nd Workshop on Structuring and Understanding of Multimedia heritAge ContentsValérie Gouet-Brunet, Margarita Khokhlova, Ronak Kosti, Liming Chen 0002, Xu-Cheng Yin. 4773-4774 [doi]

Multimedia Intelligence: When Multimedia Meets Artificial IntelligenceXin Wang 0019, Wenwu Zhu 0001, Yonghong Tian 0001, Wen Gao 0001. 4775-4776 [doi]

Deep Learning for Privacy in MultimediaAndrea Cavallaro, Mohammad Malekzadeh, Ali Shahin Shamsabadi. 4777-4778 [doi]

Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia DataGerald Friedland. 4779-4781 [doi]

Food Computing for MultimediaShuqiang Jiang, Weiqing Min. 4782-4784 [doi]

Active Learning for Multimedia Computing: Survey, Recent Trends and ApplicationsShayok Chakraborty. 4785-4786 [doi]

Immersive Imaging Technologies: From Capture to DisplayMartin Alain, Emin Zerman, Cagri Ozcinar. 4787-4788 [doi]

Effective and Efficient: Toward Open-world Instance Re-identificationZheng Wang 0007, Wu Liu, Yusuke Matsui, Shin'ichi Satoh. 4789-4790 [doi]

Deep Bayesian Multimedia LearningJen-Tzung Chien. 4791-4793 [doi]

Coping with Pandemics: Opportunities and Challenges for AI Multimedia in the "New Normal"Jiaying Liu 0001, Wen-Huang Cheng, Klara Nahrstedt, Ramesh C. Jain, Elisa Ricci 0001, Hyeran Byun. 4794-4795 [doi]

The World has Changed - The World Needs to Change. What Multimedia has to Offer for Our Common Digital FutureSusanne Boll, Hari Sundram, Svetha Venkatesh, Martha Larson, Mohan S. Kankanhalli. 4796-4798 [doi]

360-Video Navigation for 360-Multimedia Delivery Systems: Research Challenges and OpportunitiesKlara Nahrstedt. 4799 [doi]

Cloud Drive Apps - Closing the Gap Between AI Research to PracticeItamar Friedman. 4800 [doi]

Building Digital HumanDong Yu. 4801 [doi]

Neural Network Design for Multimedia: Bio-inspired and Hardware-friendlyShuicheng Yan. 4802 [doi]

runs on WebDSL