IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022. IEEE, 2022. [doi]

Conference: cvpr2022

Abstract is missing.

Pixel screening based intermediate correction for blind deblurringMeina Zhang, Yingying Fang, Guoxi Ni, Tieyong Zeng. 1-9 [doi]

Clipped Hyperbolic Classifiers Are Super-Hyperbolic ClassifiersYunhui Guo, Xudong Wang, Yubei Chen, Stella X. Yu. 1-10 [doi]

When Does Contrastive Visual Representation Learning Work?Elijah Cole, Xuan Yang, Kimberly Wilber, Oisin Mac Aodha, Serge J. Belongie. 1-10 [doi]

Large-Scale Pre-training for Person Re-identification with Noisy LabelsDengpan Fu, Dongdong Chen 0001, Hao Yang, Jianmin Bao, Lu Yuan, Lei Zhang 0001, Houqiang Li, Fang Wen, Dong Chen 0003. 1-11 [doi]

CO-SNE: Dimensionality Reduction and Visualization for Hyperbolic DataYunhui Guo, Haoran Guo, Stella X. Yu. 11-20 [doi]

Efficient Deep Embedded Subspace ClusteringJinyu Cai, Jicong Fan, Wenzhong Guo, Shiping Wang, Yunhe Zhang, Zhao Zhang 0001. 21-30 [doi]

Noise Is Also Useful: Negative Correlation-Steered Latent Contrastive LearningJiexi Yan, Lei Luo 0001, Chenghao Xu, Cheng Deng, Heng Huang. 31-40 [doi]

Active Learning for Open-set AnnotationKun-Peng Ning, Xun Zhao, Yu Li 0003, Sheng-Jun Huang. 41-49 [doi]

Understanding and Increasing Efficiency of Frank-Wolfe Adversarial TrainingTheodoros Tsiligkaridis, Jay Roberts. 50-59 [doi]

Robust Optimization as Data Augmentation for Large-scale GraphsKezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, Tom Goldstein. 60-69 [doi]

A Re-Balancing Strategy for Class-Imbalanced Classification Based on Instance DifficultySihao Yu, Jiafeng Guo, Ruqing Zhang, Yixing Fan, Zizhen Wang, Xueqi Cheng. 70-79 [doi]

The Devil is in the Margin: Margin-based Label Smoothing for Network CalibrationBingyuan Liu, Ismail Ben Ayed, Adrian Galdran, Jose Dolz. 80-88 [doi]

Towards Better Plasticity-Stability Trade-off in Incremental Learning: A Simple Linear ConnectorGuoliang Lin, Hanlu Chu, Hanjiang Lai. 89-98 [doi]

GCR: Gradient Coreset based Replay Buffer Selection for Continual LearningRishabh Tiwari, KrishnaTeja Killamsetty, Rishabh K. Iyer, Pradeep Shenoy. 99-108 [doi]

Learning Bayesian Sparse Networks with Full Experience Replay for Continual LearningQingsen Yan, Dong Gong, Yuhang Liu, Anton van den Hengel, Javen Qinfeng Shi. 109-118 [doi]

A variational Bayesian method for similarity learning in non-rigid image registrationDaniel Grzech, Mohammad Farid Azampour, Ben Glocker, Julia A. Schnabel, Nassir Navab, Bernhard Kainz, Loïc Le Folgoc. 119-128 [doi]

Learning to Learn by Jointly Optimizing Neural Architecture and WeightsYadong Ding, Yu Wu 0011, Chengyue Huang, Siliang Tang, Yi Yang 0001, Longhui Wei, Yueting Zhuang, Qi Tian 0001. 129-138 [doi]

Learning to Prompt for Continual LearningZifeng Wang 0002, Zizhao Zhang, Chen-Yu Lee, Han Zhang 0010, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer G. Dy, Tomas Pfister. 139-149 [doi]

Meta-attention for ViT-backed Continual LearningMengqi Xue, Haofei Zhang, Jie Song, Mingli Song. 150-159 [doi]

Multi-Frame Self-Supervised Depth with TransformersVitor Guizilini, Rares Ambrus, Dian Chen 0005, Sergey Zakharov, Adrien Gaidon. 160-170 [doi]

Continual Learning with Lifelong Vision TransformerZhen Wang 0030, Liu Liu 0014, Yiqun Duan, Yajing Kong, Dacheng Tao. 171-181 [doi]

Rethinking Bayesian Deep Learning Methods for Semi-Supervised Volumetric Medical Image SegmentationJianfeng Wang, Thomas Lukasiewicz. 182-190 [doi]

Revisiting Random Channel Pruning for Neural Network CompressionYawei Li, Kamil Adamczewski, Wen Li 0001, Shuhang Gu, Radu Timofte, Luc Van Gool. 191-201 [doi]

Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View IncreaseHuayi Tang, Yong Liu 0018. 202-211 [doi]

Hypergraph-Induced Semantic Tuplet Loss for Deep Metric LearningJongin Lim, Sangdoo Yun, Seulki Park, Jin Young Choi 0002. 212-222 [doi]

Towards Robust and Reproducible Active Learning using Neural NetworksPrateek Munjal, Nasir Hayat, Munawar Hayat, Jamshid Sourati, Shadab Khan. 223-232 [doi]

Non-Iterative Recovery from Nonlinear Observations using Generative ModelsJiulong Liu, Zhaoqiang Liu. 233-243 [doi]

Gaussian Process Modeling of Approximate Inference Errors for Variational AutoencodersMinyoung Kim. 244-253 [doi]

Robust Combination of Distributed Gradients Under Adversarial PerturbationsKwang In Kim. 254-263 [doi]

Do learned representations respect causal relationships?Lan Wang, Vishnu Naresh Boddeti. 264-274 [doi]

How Much More Data Do I Need? Estimating Requirements for Downstream TasksRafid Mahmood, James Lucas, David Acuna, Daiqing Li, Jonah Philion, Jose M. Alvarez, Zhiding Yu, Sanja Fidler, Marc T. Law. 275-284 [doi]

Pushing the Envelope of Gradient Boosting Forests via Globally-Optimized Oblique TreesMagzhan Gabidolla, Miguel Á. Carreira-Perpiñán. 285-294 [doi]

Contrastive Test-Time AdaptationDian Chen 0001, Dequan Wang, Trevor Darrell, Sayna Ebrahimi. 295-305 [doi]

AutoSDF: Shape Priors for 3D Completion, Reconstruction and GenerationParitosh Mittal, Yen-Chi Cheng, Maneesh Singh 0001, Shubham Tulsiani. 306-315 [doi]

Selective-Supervised Contrastive Learning with Noisy LabelsShikun Li, Xiaobo Xia, Shiming Ge, Tongliang Liu. 316-325 [doi]

RecDis-SNN: Rectifying Membrane Potential Distribution for Directly Training Spiking Neural NetworksYufei Guo, Xinyi Tong, Yuanpei Chen, Liwen Zhang, Xiaode Liu, Zhe Ma, Xuhui Huang. 326-335 [doi]

Hierarchical Nearest Neighbor Graph Embedding for Efficient Dimensionality ReductionM. Saquib Sarfraz, Marios Koulakis, Constantin Seibold, Rainer Stiefelhagen. 336-345 [doi]

Scalable Penalized Regression for Noise Detection in Learning with Noisy LabelsYikai Wang, Xinwei Sun 0001, Yanwei Fu. 346-355 [doi]

Nested Hyperbolic Spaces for Dimensionality Reduction and Hyperbolic NN DesignXiran Fan, Chun-Hao Yang, Baba C. Vemuri. 356-365 [doi]

Learning Structured Gaussians to Approximate Deep EnsemblesIvor J. A. Simpson, Sara Vicente, Neill D. F. Campbell. 366-374 [doi]

Out-of-distribution Generalization with Causal Invariant TransformationsRuoyu Wang 0016, Mingyang Yi, Zhitang Chen, Shengyu Zhu 0001. 375-385 [doi]

Split Hierarchical Variational CompressionTom Ryder, Chen Zhang, Ning Kang 0001, Shifeng Zhang. 386-395 [doi]

Implicit Feature Decoupling with Depthwise QuantizationIordanis Fostiropoulos, Barry W. Boehm. 396-405 [doi]

Understanding Uncertainty Maps in Vision with Statistical TestingJurijs Nazarovs, Zhichun Huang, Songwong Tasneeyapant, Rudrasis Chakraborty, Vikas Singh. 406-416 [doi]

A Hybrid Quantum-Classical Algorithm for Robust FittingAnh-Dzung Doan, Michele Sasdelli, David Suter, Tat-Jun Chin. 417-427 [doi]

A Scalable Combinatorial Solver for Elastic Geometrically Consistent 3D Shape MatchingPaul Roetzer, Paul Swoboda, Daniel Cremers, Florian Bernard. 428-438 [doi]

FastDOG: Fast Discrete Optimization on GPUAhmed Abbas, Paul Swoboda. 439-449 [doi]

Data-Free Network Compression via Parametric Non-uniform Mixed Precision QuantizationVladimir Chikin, Mikhail Antiukh. 450-459 [doi]

AdaSTE: An Adaptive Straight-Through Estimator to Train Binary Neural NetworksHuu Le, Rasmus Kjær Høier, Che-Tsung Lin, Christopher Zach. 460-469 [doi]

Training Quantised Neural Networks with STE Variants: the Additive Noise Annealing AlgorithmMatteo Spallanzani, Gian Paolo Leonardi, Luca Benini. 470-479 [doi]

GLASS: Geometric Latent Augmentation for Shape SpacesSanjeev Muralikrishnan, Siddhartha Chaudhuri, Noam Aigerman, Vladimir G. Kim, Matthew Fisher, Niloy J. Mitra. 470-479 [doi]

AME: Attention and Memory Enhancement in Hyper-Parameter OptimizationNuo Xu, Jianlong Chang, Xing Nie, Chunlei Huo, Shiming Xiang, Chunhong Pan. 480-489 [doi]

Efficient Maximal Coding Rate Reduction by Variational FormsChristina Baek, Ziyang Wu, Kwan Ho Ryan Chan, Tianjiao Ding, Yi Ma 0001, Benjamin D. Haeffele. 490-498 [doi]

A Unified Framework for Implicit Sinkhorn DifferentiationMarvin Eisenberger, Aysim Toker, Laura Leal-Taixé, Florian Bernard, Daniel Cremers. 499-508 [doi]

Computing Wasserstein-$p$ Distance Between Images with Linear CostYidong Chen, Chen Li, Zhonghua Lu. 509-518 [doi]

An Iterative Quantum Approach for Transformation Estimation from Point SetsNatacha Luete Meli, Florian Mannel, Jan Lellmann. 519-527 [doi]

BoosterNet: Improving Domain Generalization of Deep Neural Nets using Culpability-Ranked FeaturesNourhan Bayasi, Ghassan Hamarneh, Rafeef Garbi. 528-538 [doi]

Pooling Revisited: Your Receptive Field is SuboptimalDong-Hwan Jang, Sanghyeok Chu, Joonhyuk Kim, Bohyung Han. 539-548 [doi]

Why Discard if You can Recycle?: A Recycling Max Pooling Module for 3D Point Cloud AnalysisJiajing Chen, Burak Kakillioglu, Huantao Ren, Senem Velipasalar. 549-557 [doi]

Online Convolutional ReparameterizationMu Hu, Junyi Feng, Jiashen Hua, Baisheng Lai, Jianqiang Huang, Xiaojin Gong, Xiansheng Hua 0001. 558-567 [doi]

RepMLPNet: Hierarchical Vision MLP with Re-parameterized LocalityXiaohan Ding, Honghao Chen, Xiangyu Zhang 0005, Jungong Han, Guiguang Ding. 568-577 [doi]

DyRep: Bootstrapping Training with Dynamic Re-parameterizationTao Huang 0020, Shan You, Bohan Zhang, Yuxuan Du, Fei Wang 0032, Chen Qian 0006, Chang Xu 0002. 578-587 [doi]

Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for FreeTianlong Chen, Zhenyu Zhang, Yihua Zhang, Shiyu Chang, Sijia Liu 0001, Zhangyang Wang. 588-599 [doi]

Condensing CNNs with Partial Differential EquationsAnil Kag, Venkatesh Saligrama. 600-609 [doi]

Deep Equilibrium Optical Flow EstimationShaojie Bai, Zhengyang Geng, Yash Savani, J. Zico Kolter. 610-620 [doi]

Frame Averaging for Equivariant Shape Space LearningMatan Atzmon, Koki Nagano, Sanja Fidler, Sameh Khamis, Yaron Lipman. 621-631 [doi]

Dual-Generator Face ReenactmentGee-Sern Hsu, Chun-Hung Tsai, Hung-Yi Wu. 632-640 [doi]

Convolution of Convolution: Let Kernels Spatially CollaborateRongzhen Zhao, Jian Li, Zhenzhi Wu. 641-650 [doi]

SASIC: Stereo Image Compression with Latent Shifts and Stereo AttentionMatthias Wödlinger, Jan Kotera, Jan Xu, Robert Sablatnig. 651-660 [doi]

RADU: Ray-Aligned Depth Update Convolutions for ToF Data DenoisingMichael Schelling, Pedro Hermosilla, Timo Ropinski. 661-670 [doi]

Co-domain Symmetry for Complex-Valued Deep LearningUtkarsh Singhal, Yifei Xing, Stella X. Yu. 671-680 [doi]

Paramixer: Parameterizing Mixing Links in Sparse Factors Works Better than Dot-Product Self-AttentionTong Yu, Ruslan Khalitov, Lei Cheng, Zhirong Yang. 681-690 [doi]

Compressing Models with Few Samples: Mimicking then ReplacingHuanyu Wang, Junjie Liu, Xin Ma, Yang Yong, Zhenhua Chai, Jianxin Wu 0001. 691-700 [doi]

Total Variation Optimization Layers for Computer VisionRaymond A. Yeh, Yuan-Ting Hu, Zhongzheng Ren, Alexander G. Schwing. 701-711 [doi]

AIM: an Auto-Augmenter for Images and MeshesVinit Veerendraveer Singh, Chandra Kambhamettu. 712-721 [doi]

Recurrent Variational Network: A Deep Learning Inverse Problem Solver applied to the task of Accelerated MRI ReconstructionGeorge Yiasemis, Jan-Jakob Sonke, Clarisa Sánchez, Jonas Teuwen. 722-731 [doi]

Deep orientation-aware functional maps: Tackling symmetry issues in Shape MatchingNicolas Donati, Etienne Corman, Maks Ovsjanikov. 732-741 [doi]

Weakly-supervised Metric Learning with Cross-Module Communications for the Classification of Anterior Chamber Angle ImagesJingqi Huang, Yue Ning 0001, Dong Nie, Linan Guan, Xiping Jia. 742-752 [doi]

Delving into the Estimation Shift of Batch Normalization in a NetworkLei Huang, Yi Zhou, Tian Wang, Jie Luo, Xianglong Liu. 753-762 [doi]

Generalizing Interactive Backpropagating Refinement for Dense Prediction NetworksFanqing Lin, Brian Price, Tony R. Martinez. 763-772 [doi]

Brain-inspired Multilayer Perceptron with Spiking NeuronsWenshuo Li, Hanting Chen, Jianyuan Guo, Ziyang Zhang, Yunhe Wang 0001. 773-783 [doi]

Smooth Maximum Unit: Smooth Activation Function for Deep Networks using Smoothing Maximum TechniqueKoushik Biswas, Sandeep Kumar 0002, Shilpak Banerjee, Ashish Kumar Pandey. 784-793 [doi]

Revisiting Weakly Supervised Pre-Training of Visual Perception ModelsMannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan 0001, Ross B. Girshick, Piotr Dollár, Laurens van der Maaten. 794-804 [doi]

On the Integration of Self-Attention and ConvolutionXuran Pan, Chunjiang Ge, Rui Lu, Shiji Song, Guanfu Chen, Zeyi Huang, Gao Huang. 805-815 [doi]

Hire-MLP: Vision MLP via Hierarchical RearrangementJianyuan Guo, Yehui Tang, Kai Han 0002, Xinghao Chen 0001, Han Wu, Chao Xu 0006, Chang Xu 0002, Yunhe Wang 0001. 816-826 [doi]

Stable Long-Term Recurrent Video Super-ResolutionBenjamin Naoto Chiche, Arnaud Woiselle, Joana Frontera-Pons, Jean-Luc Starck. 827-836 [doi]

Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-DistillationAming Wu, Cheng Deng. 837-846 [doi]

Progressive End-to-End Object Detection in Crowded ScenesAnlin Zheng, Yuang Zhang, Xiangyu Zhang, Xiaojuan Qi, Jian Sun. 847-856 [doi]

Zero-Shot Text-Guided Object Generation with Dream FieldsAjay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole. 857-866 [doi]

ISNet: Shape Matters for Infrared Small Target DetectionMingjin Zhang, Rui Zhang, Yuxiang Yang, Haichen Bai, Jing Zhang, Jie Guo. 867-876 [doi]

Pseudo-Stereo for Monocular 3D Object Detection in Autonomous DrivingYi-nan Chen, Hang Dai, Yong Ding 0003. 877-887 [doi]

CLRNet: Cross Layer Refinement Network for Lane DetectionTu Zheng, Yifei Huang, Yang Liu, Wenjian Tang, Zheng Yang, Deng Cai 0001, Xiaofei He 0001. 888-897 [doi]

CAT-Det: Contrastively Augmented Transformer for Multimodal 3D Object DetectionYanan Zhang, Jiaxin Chen, Di Huang 0001. 898-907 [doi]

Modality-Agnostic Learning for Radar-Lidar Fusion in Vehicle DetectionYu-Jhe Li, Jinhyung Park, Matthew O'Toole, Kris Kitani. 908-917 [doi]

Group Contextualization for Video RecognitionYanbin Hao, Hao Zhang, Chong-Wah Ngo, Xiangnan He 0001. 918-928 [doi]

Learning Transferable Human-Object Interaction Detector with Natural Language SupervisionSuchen Wang, Yueqi Duan, Henghui Ding, Yap-Peng Tan, Kim-Hui Yap, Junsong Yuan. 929-938 [doi]

Accelerating DETR Convergence via Semantic-Aligned MatchingGongjie Zhang, Zhipeng Luo, Yingchen Yu, Kaiwen Cui, Shijian Lu. 939-948 [doi]

Efficient Video Instance Segmentation via Tracklet Query and ProposalJialian Wu, Sudhir Yarram, Hui Liang 0003, Tian Lan, Junsong Yuan, Jayan Eledath, Gérard G. Medioni. 949-958 [doi]

Class Re-Activation Maps for Weakly-Supervised Semantic SegmentationZhaozheng Chen, Tan Wang, Xiongwei Wu, Xian-Sheng Hua 0001, Hanwang Zhang, Qianru Sun. 959-968 [doi]

Democracy Does Matter: Comprehensive Feature Mining for Co-Salient Object DetectionSiyue Yu, Jimin Xiao, Bingfeng Zhang, Eng Gee Lim. 969-978 [doi]

2 AM: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic SegmentationJinheng Xie, Jianfeng Xiang, Junliang Chen, Xianxu Hou, Xiaodong Zhao, LinLin Shen. 979-988 [doi]

Sketching without Worrying: Noise-Tolerant Sketch-Based Image RetrievalAyan Kumar Bhunia, Subhadeep Koley, Abdullah Faiz Ur Rahman Khilji, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song. 989-998 [doi]

AutoLoss-Zero: Searching Loss Functions from Scratch for Generic TasksHao Li, Tianwen Fu, Jifeng Dai, Hongsheng Li, Gao Huang, Xizhou Zhu. 999-1008 [doi]

Consistency Learning via Decoding Path Augmentation for Transformers in Human Object Interaction DetectionJihwan Park, Seungjun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J. Kim. 1009-1018 [doi]

A Proposal-based Paradigm for Self-supervised Sound Source Localization in VideosHanyu Xuan, Zhiliang Wu, Jian Yang, Yan Yan 0002, Xavier Alameda-Pineda. 1019-1028 [doi]

SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware NormalizationCanjie Luo, Lianwen Jin, Jingdong Chen. 1029-1038 [doi]

Towards End-to-End Unified Scene Text Detection and Layout AnalysisShangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhisa Fujii, Michalis Raptis. 1039-1049 [doi]

Clothes-Changing Person Re-identification with RGB Modality OnlyXinqian Gu, Hong Chang, Bingpeng Ma, Shutao Bai, Shiguang Shan, Xilin Chen 0001. 1050-1059 [doi]

MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D Object DetectionQing Lian, Peiliang Li 0001, Xiaozhi Chen. 1060-1069 [doi]

Homography Loss for Monocular 3D Object DetectionJiaqi Gu, Bojian Wu, Lubin Fan, Jianqiang Huang, Shen Cao, Zhiyu Xiang, Xian-Sheng Hua 0001. 1070-1079 [doi]

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with TransformersXuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai. 1080-1089 [doi]

TWIST: Two-Way Inter-label Self-Training for Semi-supervised 3D Instance SegmentationRuihang Chu, Xiaoqing Ye, Zhengzhe Liu, Xiao Tan 0001, Xiaojuan Qi, Chi-Wing Fu, Jiaya Jia. 1090-1099 [doi]

RBGNet: Ray-based Grouping for 3D Object DetectionHaiyang Wang, Shaoshuai Shi, Ze Yang 0003, Rongyao Fang, Qi Qian, Hongsheng Li 0001, Bernt Schiele, Liwei Wang 0001. 1100-1109 [doi]

Voxel Field Fusion for 3D Object DetectionYanwei Li, Xiaojuan Qi, Yukang Chen, Liwei Wang 0009, Zeming Li, Jian Sun, Jiaya Jia. 1110-1119 [doi]

Learning to Detect Mobile Objects from LiDAR Scans Without LabelsYurong You, Katie Luo, Cheng Perng Phoo, Wei-Lun Chao, Wen Sun, Bharath Hariharan, Mark E. Campbell, Kilian Q. Weinberger. 1120-1130 [doi]

OccAM's Laser: Occlusion-based Attribution Maps for 3D Object Detectors on LiDAR DataDavid Schinagl, Georg Krispel, Horst Possegger, Peter M. Roth, Horst Bischof. 1131-1140 [doi]

Confidence Propagation Cluster: Unleash Full Potential of Object DetectorsYichun Shen, Wanli Jiang, Zhen Xu, Rundong Li, Junghyun Kwon. 1141-1151 [doi]

TransGeo: Transformer Is All You Need for Cross-view Image Geo-localizationSijie Zhu, Mubarak Shah, Chen Chen 0001. 1152-1161 [doi]

A Voxel Graph CNN for Object Classification with Event CamerasYongjian Deng, Hao Chen, Hai Liu 0004, Youfu Li. 1162-1171 [doi]

OSKDet: Orientation-sensitive Keypoint Localization for Rotated Object DetectionDongchen Lu, Dongmei Li, Yali Li 0001, Shengjin Wang. 1172-1182 [doi]

Canonical Voting: Towards Robust Oriented Bounding Box Detection in 3D ScenesYang You, Zelin Ye, Yujing Lou, Chengkun Li, Yong-Lu Li, Lizhuang Ma, Weiming Wang, Cewu Lu. 1183-1192 [doi]

Category Contrast for Unsupervised Domain Adaptation in Visual TasksJiaxing Huang 0001, Dayan Guan, Aoran Xiao, Shijian Lu, Ling Shao 0001. 1193-1204 [doi]

Scaling Vision TransformersXiaohua Zhai, Alexander Kolesnikov 0003, Neil Houlsby, Lucas Beyer. 1204-1213 [doi]

Amodal Segmentation through Out-of-Task and Out-of-Distribution Generalization with a Bayesian ModelYihong Sun, Adam Kortylewski, Alan L. Yuille. 1205-1214 [doi]

GANSeg: Learning to Segment by Unsupervised Hierarchical Image GenerationXingzhe He, Bastian Wandt, Helge Rhodin. 1215-1225 [doi]

Segment-Fusion: Hierarchical Context Fusion for Robust 3D Semantic SegmentationAnirud Thyagharajan, Benjamin Ummenhofer, Prashant Laddha, Om Ji Omer, Sreenivas Subramoney. 1226-1235 [doi]

Deep Hierarchical Semantic SegmentationLiulei Li, Tianfei Zhou, Wenguan Wang, Jianwu Li, Yi Yang 0001. 1236-1247 [doi]

Semantic Segmentation by Early Region ProxyYifan Zhang, Bo Pang, Cewu Lu. 1248-1258 [doi]

Panoptic, Instance and Semantic Relations: A Relational Context Encoder to Enhance Panoptic SegmentationShubhankar Borse, Hyojin Park, Hong Cai, Debasmit Das, Risheek Garrepalli, Fatih Porikli. 1259-1269 [doi]

Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with TransformersZhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. 1270-1279 [doi]

Masked-attention Mask Transformer for Universal Image SegmentationBowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar. 1280-1289 [doi]

FocalClick: Towards Practical Interactive Image SegmentationXi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao. 1290-1299 [doi]

High Quality Segmentation for Ultra High-resolution ImagesTiancheng Shen, Yuechen Zhang, Lu Qi, Jason Kuen, Xingyu Xie, Jianlong Wu, Zhe Lin, Jiaya Jia. 1300-1309 [doi]

Wnet: Audio-Guided Video Object Segmentation via Wavelet-Based Cross- Modal Denoising NetworksWenwen Pan, Haonan Shi, Zhou Zhao, Jieming Zhu, Xiuqiang He 0001, Zhigeng Pan, Lianli Gao, Jun Yu, Fei Wu, Qi Tian 0001. 1310-1321 [doi]

Recurrent Dynamic Embedding for Video Object SegmentationMingxing Li, Li Hu, Zhiwei Xiong, Bang Zhang, Pan Pan, Dong Liu 0002. 1322-1331 [doi]

Accelerating Video Object Segmentation with Compressed VideoKai Xu, Angela Yao. 1332-1341 [doi]

Per-Clip Video Object SegmentationKwanYong Park, Sanghyun Woo, Seoung Wug Oh, In-So Kweon, Joon-Young Lee. 1342-1351 [doi]

SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-MaximizationZhihui Lin, Tianyu Yang, Maomao Li, Ziyu Wang, Chun Yuan, Wenhao Jiang, Wei Liu. 1352-1362 [doi]

Neural Recognition of Dashed Curves with Gestalt Law of ContinuityHanyuan Liu, Chengze Li, Xueting Liu, Tien-Tsin Wong. 1363-1372 [doi]

CVNet: Contour Vibration Network for Building ExtractionZiqiang Xu, Chunyan Xu, Zhen Cui, Xiangwei Zheng, Jian Yang. 1373-1381 [doi]

A Keypoint-based Global Association Network for Lane DetectionJinsheng Wang, Yinchao Ma, Shaofei Huang, Tianrui Hui, Fei Wang, Chen Qian, Tianzhu Zhang. 1382-1391 [doi]

EDTER: Edge Detection with TransformerMengyang Pu, Yaping Huang, Yuming Liu, Qingji Guan, Haibin Ling. 1392-1402 [doi]

Fixing Malfunctional Objects With Learned Physical Simulation and Functional PredictionYining Hong, Kaichun Mo, Li Yi, Leonidas J. Guibas, Antonio Torralba 0001, Joshua B. Tenenbaum, Chuang Gan. 1403-1413 [doi]

Coherent Point Drift Revisited for Non-rigid Shape Matching and RegistrationAoxiang Fan, Jiayi Ma 0001, Xin Tian 0006, Xiaoguang Mei, Wei Lin. 1414-1424 [doi]

CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric GuidanceTianchen Zhao, Niansong Zhang, Xuefei Ning, He Wang, Li Yi, Yu Wang. 1425-1434 [doi]

FLOAT: Factorized Learning of Object Attributes for Improved Multi-object Multi-part Scene ParsingRishubh Singh, Pranav Gupta, Pradeep Shenoy, Ravikiran Sarvadevabhatla. 1435-1445 [doi]

Rotationally Equivariant 3D Object DetectionHong-Xing Yu, Jiajun Wu 0001, Li Yi. 1446-1454 [doi]

AUV-Net: Learning Aligned UV Maps for Texture Transfer and SynthesisZhiqin Chen, Kangxue Yin, Sanja Fidler. 1455-1464 [doi]

Learning to Estimate Robust 3D Human Mesh from In-the-Wild Crowded ScenesHongsuk Choi, Gyeongsik Moon, Joonkyu Park, Kyoung Mu Lee. 1465-1474 [doi]

Human Mesh Recovery from Multiple ShotsGeorgios Pavlakos, Jitendra Malik, Angjoo Kanazawa. 1475-1485 [doi]

HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation NetworkJoonkyu Park, Yeonguk Oh, Gyeongsik Moon, Hongsuk Choi, Kyoung Mu Lee. 1486-1495 [doi]

Photorealistic Monocular 3D Reconstruction of Humans Wearing ClothingThiemo Alldieck, Mihai Zanfir, Cristian Sminchisescu. 1496-1505 [doi]

Disentangled3D: Learning a 3D Generative Model with Disentangled Geometry and Appearance from Monocular ImagesAyush Tewari, Mallikarjun B. R. 0001, Xingang Pan, Ohad Fried, Maneesh Agrawala, Christian Theobalt. 1506-1515 [doi]

NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural RepresentationsKeyu Wu, Yifan Ye, Lingchen Yang, Hongbo Fu, Kun Zhou 0001, Youyi Zheng. 1516-1525 [doi]

Topologically-Aware Deformation Fields for Single-View 3D ReconstructionShivam Duggal, Deepak Pathak. 1526-1536 [doi]

Generating Diverse 3D Reconstructions from a Single Occluded Face ImageRahul Dey, Vishnu Naresh Boddeti. 1537-1547 [doi]

LOLNeRF: Learn from One LookDaniel Rebain, Mark J. Matthews, Kwang Moo Yi, Dmitry Lagun, Andrea Tagliasacchi. 1548-1557 [doi]

Learning Local Displacements for Point Cloud CompletionYida Wang, David Joseph Tan, Nassir Navab, Federico Tombari. 1558-1567 [doi]

Exploiting Pseudo Labels in a Self-Supervised Learning Framework for Improved Monocular Depth EstimationAndra Petrovai, Sergiu Nedevschi. 1568-1578 [doi]

Dimension Embeddings for Monocular 3D Object DetectionYunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Dalong Du, Jie Zhou 0001, Jiwen Lu. 1579-1588 [doi]

Understanding 3D Object Articulation in Internet VideosShengyi Qian 0001, Linyi Jin, Chris Rockwell, Siyi Chen, David F. Fouhey. 1589-1599 [doi]

P3Depth: Monocular Depth Estimation with a Piecewise Planarity PriorVaishakh Patil, Christos Sakaridis, Alexander Liniger, Luc Van Gool. 1600-1611 [doi]

Neural Face Identification in a 2D Wireframe Projection of a Manifold ObjectKehan Wang, Jia Zheng, Zihan Zhou 0001. 1612-1621 [doi]

PanopticDepth: A Unified Framework for Depth-aware Panoptic SegmentationNaiyu Gao, Fei He, Jian Jia, Yanhu Shan, Haoyang Zhang, Xin Zhao 0012, Kaiqi Huang. 1622-1632 [doi]

Stability-driven Contact Reconstruction From Monocular Color ImagesZimeng Zhao, Binghui Zuo, Wei Xie, Yangang Wang. 1633-1643 [doi]

LGT-Net: Indoor Panoramic Room Layout Estimation with Geometry-Aware Transformer NetworkZhigang Jiang, Zhongzheng Xiang, Jinhua Xu, Ming Zhao. 1644-1653 [doi]

Collaborative Learning for Hand and Object Reconstruction with Attention-guided Graph ConvolutionTze Ho Elden Tse, Kwang In Kim, Ales Leonardis, Hyung Jin Chang. 1654-1664 [doi]

RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic ScenesTak-Wai Hui. 1665-1674 [doi]

Exploring Geometric Consistency for Monocular 3D Object DetectionQing Lian, Botao Ye, Ruijia Xu, Weilong Yao, Tong Zhang. 1675-1684 [doi]

Learning 3D Object Shape and Layout without 3D SupervisionGeorgia Gkioxari, Nikhila Ravi, Justin Johnson 0001. 1685-1694 [doi]

Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on Dataset Mixtures with Uncalibrated Stereo DataNikolay Patakin, Anna Vorontsova, Mikhail Artemyev, Anton Konushin 0002. 1695-1704 [doi]

Occluded Human Mesh RecoveryRawal Khirodkar, Shashank Tripathi, Kris Kitani. 1705-1715 [doi]

LAKe-Net: Topology-Aware Point Cloud Completion by Localizing Aligned KeypointsJunshu Tang, Zhijun Gong, Ran Yi, Yuan Xie 0006, Lizhuang Ma. 1716-1725 [doi]

OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D ReconstructionWenbin Lin, Chengwei Zheng, Jun-Hai Yong, Feng Xu. 1726-1735 [doi]

Depth Estimation by Combining Binocular Stereo and Monocular Structured-LightYuhua Xu 0006, Xiaoli Yang, Yushan Yu, Wei Jia, ZhaoBi Chu, Yulan Guo. 1736-1745 [doi]

Learning from Pixel-Level Noisy Label : A New Perspective for Light Field Saliency DetectionMingtao Feng, Kendong Liu, Liang Zhang, Hongshan Yu, Yaonan Wang, Ajmal Mian. 1746-1756 [doi]

HyperTransformer: A Textural and Spectral Feature Fusion Transformer for PansharpeningWele Gedara Chaminda Bandara, Vishal M. Patel. 1757-1767 [doi]

Revisiting Near/Remote Sensing with Geospatial AttentionScott Workman, Muhammad Usman Rafique, Hunter Blanton, Nathan Jacobs. 1768-1777 [doi]

Memory-augmented Deep Conditional Unfolding Network for PansharpeningGang Yang, Man Zhou, Keyu Yan, Aiping Liu, Xueyang Fu, Fan Wang. 1778-1787 [doi]

Mutual Information-driven Pan-sharpeningMan Zhou, Keyu Yan, Jie Huang, Zihe Yang, Xueyang Fu, Feng Zhao 0004. 1788-1798 [doi]

Sparse and Complete Latent Organization for Geospatial Semantic SegmentationFengyu Yang, Chenyang Ma. 1799-1808 [doi]

The Probabilistic Normal Epipolar Constraint for Frame- To-Frame Rotation Optimization under Uncertain Feature PositionsDominik Muhle, Lukas Koestler, Nikolaus Demmel, Florian Bernard, Daniel Cremers. 1809-1818 [doi]

Oriented RepPoints for Aerial Object DetectionWentong Li, Yijie Chen, Kaixuan Hu, Jianke Zhu. 1819-1828 [doi]

Using 3D Topological Connectivity for Ghost Particle Reduction in Flow ReconstructionChristina Tsalicoglou, Thomas Rösgen. 1829-1837 [doi]

Self-Supervised Super-Resolution for Multi-Exposure Push-Frame SatellitesNgoc-Long Nguyen, Jérémy Anger, Axel Davy, Pablo Arias, Gabriele Facciolo. 1848-1858 [doi]

MISF: Multi-level Interactive Siamese Filtering for High-Fidelity Image InpaintingXiaoguang Li, Qing Guo 0005, Di Lin, Ping Li 0016, Wei Feng 0005, Song Wang. 1859-1868 [doi]

Iterative Deep Homography EstimationSi-Yuan Cao, Jianxin Hu, Ze-Hua Sheng, Hui-Liang Shen. 1869-1878 [doi]

GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN PriorsJingwen He, Wu Shi, Kai Chen, Lean Fu, Chao Dong. 1879-1888 [doi]

Deep Color Consistent Network for Low-Light Image EnhancementZhao Zhang 0001, Huan Zheng, Richang Hong, Mingliang Xu, Shuicheng Yan, Meng Wang. 1889-1898 [doi]

LAR-SR: A Local Autoregressive Model for Image Super-ResolutionBaisong Guo, Xiaoyun Zhang, Haoning Wu, Yu Wang, Ya Zhang, Yan-Feng Wang. 1899-1908 [doi]

Multi-Scale Memory-Based Video DeblurringBo Ji, Angela Yao. 1909-1918 [doi]

Local Texture Estimator for Implicit Representation FunctionJaewon Lee, Kyong Hwan Jin. 1919-1928 [doi]

ChiTransformer: Towards Reliable Stereo from CuesQing Su, Shihao Ji. 1929-1939 [doi]

PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite ImagesStefano Zorzi, Shabab Bazrafkan, Stefan Habenschuss, Friedrich Fraundorfer. 1938-1947 [doi]

BNUDC: A Two-Branched Deep Neural Network for Restoring Images from Under-Display CamerasJaihyun Koh, Jangho Lee, Sungroh Yoon. 1940-1949 [doi]

ISNAS-DIP: Image-Specific Neural Architecture Search for Deep Image PriorMetin Ersin Arican, Ozgur Kara, Gustav Bredell, Ender Konukoglu. 1950-1958 [doi]

IFRNet: Intermediate Feature Refine Network for Efficient Frame InterpolationLingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Xiaoming Huang, Ying Tai, Chengjie Wang, Jie Yang. 1959-1968 [doi]

Learning Graph Regularisation for Guided Super-ResolutionRiccardo de Lutio, Alexander Becker, Stefano D'Aronco, Stefania Russo, Jan D. Wegner, Konrad Schindler. 1969-1978 [doi]

Self-supervised Deep Image Restoration via Adaptive Stochastic Gradient Langevin DynamicsWeixi Wang, Ji Li, Hui Ji. 1979-1988 [doi]

Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit Neural RepresentationWenbo Zhao, Xianming Liu, Zhiwei Zhong, Junjun Jiang, Wei Gao 0003, Ge Li 0002, Xiangyang Ji. 1989-1997 [doi]

Noise Distribution Adaptive Self-Supervised Image Denoising using Tweedie Distribution and Score MatchingKwanyoung Kim, Taesung Kwon, Jong Chul Ye. 1998-2006 [doi]

Unpaired Deep Image Deraining Using Dual Contrastive LearningXiang Chen 0015, Jinshan Pan, Kui Jiang, Yufeng Li, Yufeng Huang, Caihua Kong, Longgang Dai, Zhentao Fan. 2007-2016 [doi]

Blind2Unblind: Self-Supervised Image Denoising with Visible Blind SpotsZejin Wang, Jiazheng Liu, Guoqing Li, Hua Han 0001. 2017-2026 [doi]

Self-augmented Unpaired Image Dehazing via Density and Depth DecompositionYang Yang, Chaoyue Wang, Risheng Liu, Lin Zhang, Xiaojie Guo, Dacheng Tao. 2027-2036 [doi]

VideoINR: Learning Video Implicit Neural Representation for Continuous Space-Time Super-ResolutionZeyuan Chen, Yinbo Chen, Jingwen Liu, Xingqian Xu, Vidit Goel, Zhangyang Wang, Humphrey Shi, Xiaolong Wang. 2037-2047 [doi]

Fast Algorithm for Low-rank Tensor Completion in Delay-embedded SpaceRyuki Yamamoto, Hidekata Hontani, Akira Imakura, Tatsuya Yokota. 2048-2056 [doi]

Exploring and Evaluating Image Restoration Potential in Dynamic ScenesCheng Zhang, Shaolin Su, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang. 2057-2066 [doi]

th Order Iterative DegradationPranjay Shyam, Kyung Soo Kim, Kuk-Jin Yoon. 2067-2077 [doi]

Does text attract attention on e-commerce images: A novel saliency prediction dataset and methodLai Jiang, Yifei Li, Shengxi Li, Mai Xu, Se Lei, Yichen Guo, Bo Huang. 2078-2087 [doi]

IDR: Self-Supervised Image Denoising via Iterative Data RefinementYi Zhang, Dasong Li, Ka Lung Law, Xiaogang Wang, Hongwei Qin, Hongsheng Li. 2088-2097 [doi]

ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution PhotoBiwen Lei, Xiefan Guo, Hongyu Yang, Miaomiao Cui, Xuansong Xie, Di Huang 0001. 2098-2107 [doi]

Texture-based Error Analysis for Image Super-ResolutionSalma Abdel Magid, Zudi Lin, Donglai Wei 0001, Yulun Zhang, Jinjin Gu, Hanspeter Pfister. 2108-2117 [doi]

Blind Image Super-resolution with Elaborate Degradation Modeling on Noise and KernelZongsheng Yue, Qian Zhao, Jianwen Xie, Lei Zhang, Deyu Meng, Kwan-Yee K. Wong. 2118-2128 [doi]

KNN Local Attention for Image RestorationHunsang Lee, Hyesong Choi, Kwanghoon Sohn, Dongbo Min. 2129-2139 [doi]

Can You Spot the Chameleon? Adversarially Camouflaging Images from Co-Salient Object DetectionRuijun Gao, Qing Guo 0005, Felix Juefei-Xu, Hongkai Yu, Huazhu Fu, Wei Feng, Yang Liu 0003, Song Wang. 2140-2149 [doi]

Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object DetectionYouwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu. 2150-2160 [doi]

Self-Supervised Keypoint Discovery in Behavioral VideosJennifer J. Sun, Serim Ryou, Roni H. Goldshmid, Brandon Weissbourd, John O. Dabiri, David J. Anderson, Ann Kennedy, Yisong Yue, Pietro Perona. 2161-2170 [doi]

Learning to Align Sequential Actions in the WildWeizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys. 2171-2181 [doi]

Dynamic 3D Gaze from Afar: Deep Gaze Estimation from Temporal Eye-Head-Body CoordinationSoma Nonaka, Shohei Nobuhara, Ko Nishino. 2182-2191 [doi]

End-to-End Human-Gaze-Target Detection with TransformersDanyang Tu, Xiongkuo Min, Huiyu Duan, Guodong Guo, Guangtao Zhai, Wei Shen. 2192-2200 [doi]

Automatic Synthesis of Diverse Weak Supervision Sources for Behavior AnalysisAlbert Tseng, Jennifer J. Sun, Yisong Yue. 2201-2210 [doi]

MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory PredictionMihee Lee, Samuel S. Sohn, Seonghyeon Moon, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic. 2211-2220 [doi]

Graph-based Spatial Transformer with Memory Replay for Multi-future Pedestrian Trajectory PredictionLihuan Li, Maurice Pagnucco, Yang Song 0001. 2221-2231 [doi]

End-to-End Trajectory Distribution Prediction Based on Occupancy Grid MapsKe Guo, Wenxi Liu, Jia Pan. 2232-2241 [doi]

Learning Affordance Grounding from Exocentric ImagesHongchen Luo, Wei Zhai, Jing Zhang 0037, Yang Cao 0010, Dacheng Tao. 2242-2251 [doi]

3D Scene Painting via Semantic Image SynthesisJaebong Jeong, Janghun Jo, Sunghyun Cho, Jaesik Park. 2252-2262 [doi]

Learning Invisible Markers for Hidden Codes in Offline-to-online PhotographyJun Jia, Zhongpai Gao, Dandan Zhu, Xiongkuo Min, Guangtao Zhai, Xiaokang Yang. 2263-2272 [doi]

ETHSeg: An Amodel Instance Segmentation Network and a Real-world Dataset for X-Ray Waste InspectionLingteng Qiu, Zhangyang Xiong, Xuhao Wang, Kenkun Liu, Yihan Li, Guanying Chen, Xiaoguang Han 0001, Shuguang Cui. 2273-2282 [doi]

Doodle It Yourself: Class Incremental Learning by Drawing a Few SketchesAyan Kumar Bhunia, Viswanatha Reddy Gajjala, Subhadeep Koley, Rohit Kundu, Aneeshan Sain, Tao Xiang, Yi-Zhe Song. 2283-2292 [doi]

Image Disentanglement Autoencoder for Steganography without EmbeddingXiyao Liu 0001, Ziping Ma 0002, Junxing Ma, Jian Zhang, Gerald Schaefer, Hui Fang 0003. 2293-2302 [doi]

Adaptive Hierarchical Representation Learning for Long-Tailed Object DetectionBanghuai Li. 2303-2312 [doi]

Semiconductor Defect Detection by Hybrid Classical-Quantum Deep LearningYuanFu Yang, Min Sun. 2313-2322 [doi]

Density-preserving Deep Point Cloud CompressionYun He, Xinlin Ren, Danhang Tang, Yinda Zhang 0001, Xiangyang Xue, Yanwei Fu. 2323-2332 [doi]

Graph-context Attention Networks for Size-varied Deep Graph MatchingZheheng Jiang, Hossein Rahmani, Plamen P. Angelov, Sue Black 0002, Bryan M. Williams 0001. 2333-2342 [doi]

TransWeather: Transformer-based Restoration of Images Degraded by Adverse Weather ConditionsJeya Maria Jose Valanarasu, Rajeev Yasarla, Vishal M. Patel. 2343-2353 [doi]

ObjectFormer for Image Manipulation Detection and LocalizationJunke Wang, Zuxuan Wu, Jingjing Chen, Xintong Han, Abhinav Shrivastava, Ser-Nam Lim, Yu-Gang Jiang. 2354-2363 [doi]

Sequential Voting with Relational Box Fields for Active Object DetectionQichen Fu, Xingyu Liu, Kris M. Kitani. 2364-2373 [doi]

Efficient Classification of Very Large Images with Tiny ObjectsFanjie Kong, Ricardo Henao. 2374-2384 [doi]

Partially Does It: Towards Scene-Level FG-SBIR with Partial InputPinaki Nath Chowdhury, Ayan Kumar Bhunia, Viswanatha Reddy Gajjala, Aneeshan Sain, Tao Xiang, Yi-Zhe Song. 2385-2395 [doi]

Long-term Visual Map Sparsification with Heterogeneous GNNMing-Fang Chang, Yipu Zhao, Rajvi Shah, Jakob J. Engel, Michael Kaess, Simon Lucey. 2396-2405 [doi]

Connecting the Complementary-view Videos: Joint Camera Identification and Subject AssociationRuize Han, Yiyang Gan, Jiacheng Li, Feifan Wang, Wei Feng, Song Wang. 2406-2415 [doi]

DiffusionCLIP: Text-Guided Diffusion Models for Robust Image ManipulationGwanghyun Kim, Taesung Kwon, Jong Chul Ye. 2416-2425 [doi]

Aesthetic Text Logo Synthesis via Content-aware Layout InferringYizhi Wang, Guo Pu, Wenhan Luo, Yexin Wang, Pengfei Xiong, Hongwen Kang, Zhouhui Lian. 2426-2435 [doi]

Rethinking Image Cropping: Exploring Diverse Compositions from Global ViewsGengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He. 2436-2445 [doi]

Defensive Patches for Robust Recognition in the Physical WorldJiakai Wang, Zixin Yin, Pengfei Hu, Aishan Liu, Renshuai Tao, Haotong Qin, Xianglong Liu, Dacheng Tao. 2446-2455 [doi]

Semi-supervised Video Paragraph Grounding with Contrastive EncoderXun Jiang, Xing Xu, Jingran Zhang, Fumin Shen, Zuo Cao, Heng Tao Shen. 2456-2465 [doi]

Meta Distribution Alignment for Generalizable Person Re-IdentificationHao Ni, Jingkuan Song, Xiaopeng Luo, Feng Zheng, Wen Li, Heng Tao Shen. 2477-2486 [doi]

FvOR: Robust Joint Shape and Pose Optimization for Few-view Object ReconstructionZhenpei Yang, Zhile Ren, Miguel Ángel Bautista 0001, Zaiwei Zhang, Qi Shan, Qixing Huang. 2487-2497 [doi]

It's About Time: Analog Clock Reading in the WildCharig Yang, Weidi Xie, Andrew Zisserman. 2498-2507 [doi]

Consistency driven Sequential Transformers Attention Model for Partially Observable ScenesSamrudhdhi B. Rangrej, Chetan L. Srinidhi, James J. Clark. 2508-2517 [doi]

Smartadapt: Multi-branch Object Detection Framework for Videos on MobilesRan Xu, Fangzhou Mu, Jayoung Lee, Preeti Mukherjee, Somali Chaterji, Saurabh Bagchi, Yin Li 0003. 2518-2528 [doi]

Generating 3D Bio-Printable Patches Using Wound Segmentation and Reconstruction to Treat Diabetic Foot UlcersHan Joo Chae, Seunghwan Lee, Hyewon Son, Seungyeob Han, Taebin Lim. 2529-2539 [doi]

Investigating the Impact of Multi-LiDAR Placement on Object Detection for Autonomous DrivingHanjiang Hu, Zuxin Liu, Sharad Chitlangia, Akhil Agnihotri, Ding Zhao. 2540-2549 [doi]

CMT-DeepLab: Clustering Mask Transformers for Panoptic SegmentationQihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell D. Collins, Yukun Zhu, Hartwig Adam, Alan L. Yuille, Liang-Chieh Chen. 2550-2560 [doi]

Unsupervised Hierarchical Semantic Segmentation with Multiview Cosegmentation and Clustering TransformersTsung-Wei Ke, Jyh-Jing Hwang, Yunhui Guo, Xudong Wang, Stella X. Yu. 2561-2571 [doi]

Rethinking Semantic Segmentation: A Prototype ViewTianfei Zhou, Wenguan Wang, Ender Konukoglu, Luc Van Gool. 2572-2583 [doi]

Semantic-Aware Domain Generalized SegmentationDuo Peng, Yinjie Lei, Munawar Hayat, Yulan Guo, Wen Li 0001. 2584-2595 [doi]

Adaptive Early-Learning Correction for Segmentation from Noisy AnnotationsSheng Liu, Kangning Liu, Weicheng Zhu, Yiqiu Shen, Carlos Fernandez-Granda. 2596-2606 [doi]

Pointly-Supervised Instance SegmentationBowen Cheng, Omkar Parkhi, Alexander Kirillov. 2607-2616 [doi]

Joint Forecasting of Panoptic Segmentations with Difference AttentionColin Graber, Cyril Jazra, Wenjie Luo, Liangyan Gui, Alexander G. Schwing. 2617-2626 [doi]

FocusCut: Diving into a Focus View in Interactive SegmentationZheng Lin 0005, Zheng-Peng Duan, Zhao Zhang, Chun-Le Guo, Ming-Ming Cheng. 2627-2636 [doi]

Human Instance Matting via Mutual Guidance and Multi-Instance RefinementYanan Sun 0005, Chi-Keung Tang, Yu-Wing Tai. 2637-2646 [doi]

Deformable Sprites for Unsupervised Video DecompositionVickie Ye, Zhengqi Li, Richard Tucker 0001, Angjoo Kanazawa, Noah Snavely. 2647-2656 [doi]

Eigencontours: Novel Contour Descriptors Based on Low-Rank ApproximationWonhui Park, Dongkwon Jin, Chang-Su Kim 0001. 2657-2665 [doi]

Robust and Accurate Superquadric Recovery: a Probabilistic ApproachWeixiao Liu, Yuwei Wu, Sipu Ruan, Gregory S. Chirikjian. 2666-2675 [doi]

Medial Spectral Coordinates for 3D Shape AnalysisMorteza Rezanejad, Mohammad Khodadad, Hamidreza Mahyar, Herve Lombaert, Michael Gruninger, Dirk B. Walther, Kaleem Siddiqi. 2676-2686 [doi]

Scribble-Supervised LiDAR Semantic SegmentationOzan Unal, Dengxin Dai, Luc Van Gool. 2687-2697 [doi]

SoftGroup for 3D Instance Segmentation on Point CloudsThang Vu, Kookhoi Kim, Tung Minh Luu, Thanh Nguyen, Chang D. Yoo. 2698-2707 [doi]

Accurate 3D Body Shape Regression using Metric and Semantic AttributesVasileios Choutas, Lea Müller, Chun-Hao P. Huang, Siyu Tang 0001, Dimitrios Tzionas, Michael J. Black. 2708-2718 [doi]

JIFF: Jointly-aligned Implicit Face Function for High Quality Single View Clothed Human ReconstructionYukang Cao, Guanying Chen, Kai Han 0001, Wenqi Yang, Kwan-Yee K. Wong. 2719-2729 [doi]

Tracking People by Predicting 3D Appearance, Location and PoseJathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Jitendra Malik. 2730-2739 [doi]

ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via Online Exploration and SynthesisLixin Yang, Kailin Li, Xinyu Zhan 0001, Jun Lv, Wenqiang Xu, Jiefeng Li, Cewu Lu. 2740-2750 [doi]

Interacting Attention Graph for Single Image Two-Hand ReconstructionMengcheng Li, Liang An, Hongwen Zhang, Lianpeng Wu, Feng Chen, Tao Yu 0007, Yebin Liu. 2751-2760 [doi]

3D human tongue reconstruction from single "in-the-wild" imagesStylianos Ploumpis, Stylianos Moschoglou, Vasileios Triantafyllou, Stefanos Zafeiriou. 2761-2770 [doi]

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose EstimationHansheng Chen, Pichao Wang, Fan Wang, Wei Tian, Lu Xiong, Hao Li 0030. 2771-2780 [doi]

Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular 3D Object DetectionZhuoling Li, Zhan Qu, Yang Zhou, Jianzhuang Liu, Haoqian Wang, Lihui Jiang. 2781-2790 [doi]

OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware FusionYuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang 0001, Ye Duan, Liu Ren. 2791-2800 [doi]

Gated2Gated: Self-Supervised Depth Estimation from Gated ImagesAmanpreet Walia, Stefanie Walz, Mario Bijelic, Fahim Mannan, Frank D. Julca-Aguilar, Michael S. Langer, Werner Ritter, Felix Heide. 2801-2811 [doi]

IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering in Indoor ScenesRui Zhu, Zhengqin Li, Janarbek Matai, Fatih Porikli, Manmohan Chandraker. 2812-2821 [doi]

Egocentric Scene Understanding via Multimodal Spatial RectifierTien Do, Khiem Vuong, Hyun Soo Park. 2822-2831 [doi]

Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View GeometryGwangbin Bae, Ignas Budvytis, Roberto Cipolla. 2832-2841 [doi]

The Implicit Values of A Good Hand Shake: Handheld Multi-Frame Neural Depth RefinementIlya Chugunov, Yuxuan Zhang, Zhihao Xia, Xuaner Zhang, Jiawen Chen, Felix Heide. 2842-2852 [doi]

BANMo: Building Animatable 3D Neural Models from Many Casual VideosGengshan Yang, Minh Vo, Natalia Neverova, Deva Ramanan, Andrea Vedaldi, Hanbyul Joo. 2853-2863 [doi]

Self-supervised Video TransformerKanchana Ranasinghe, Muzammal Naseer, Salman Khan 0001, Fahad Shahbaz Khan, Michael S. Ryoo. 2864-2874 [doi]

Temporally Efficient Vision Transformer for Video Instance SegmentationShusheng Yang, Xinggang Wang, Yu Li 0003, Yuxin Fang, Jiemin Fang, Wenyu Liu 0001, Xun Zhao, Ying Shan. 2875-2885 [doi]

VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video Instance SegmentationSu Ho Han, Sukjun Hwang, Seoung Wug Oh, Yeonchool Park, Hyunwoo Kim, Min-Jung Kim, Seon Joo Kim. 2886-2895 [doi]

Temporal Alignment Networks for Long-term VideoTengda Han, Weidi Xie, Andrew Zisserman. 2896-2906 [doi]

Revisiting the "Video" in Video-Language UnderstandingShyamal Buch, Cristóbal Eyzaguirre, Adrien Gaidon, Jiajun Wu 0001, Li Fei-Fei 0001, Juan Carlos Niebles. 2907-2917 [doi]

Invariant Grounding for Video Question AnsweringYicong Li 0004, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua. 2918-2927 [doi]

3IV: Probabilistic Procedure Planning from Instructional Videos with Weak SupervisionHe Zhao 0004, Isma Hadji, Nikita Dvornik, Konstantinos G. Derpanis, Richard P. Wildes, Allan D. Jepson. 2928-2938 [doi]

FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality AssessmentJinglin Xu, Yongming Rao, Xumin Yu, Guangyi Chen 0002, Jie Zhou 0001, Jiwen Lu. 2939-2948 [doi]

Cross-Model Pseudo-Labeling for Semi-Supervised Action RecognitionYinghao Xu, Fangyun Wei, Xiao Sun, Ceyuan Yang, Yujun Shen, Bo Dai, Bolei Zhou, Stephen Lin 0001. 2949-2958 [doi]

Revisiting Skeleton-based Action RecognitionHaodong Duan, Yue Zhao 0006, Kai Chen 0026, Dahua Lin, Bo Dai. 2959-2968 [doi]

OpenTAL: Towards Open Set Temporal Action LocalizationWentao Bao, Qi Yu 0001, Yu Kong. 2969-2979 [doi]

Dual-AI: Dual-path Actor Interaction Learning for Group Activity RecognitionMingfei Han 0002, David Junhao Zhang, Yali Wang 0001, Rui Yan, Lina Yao 0001, Xiaojun Chang, Yu Qiao. 2980-2989 [doi]

TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation RecognitionHaodong Duan, Nanxuan Zhao, Kai Chen, Dahua Lin. 2990-3000 [doi]

Revealing Occlusions with 4D Neural FieldsBasile Van Hoorick, Purva Tendulkar, Dídac Surís, Dennis Park, Simon Stent, Carl Vondrick. 3001-3011 [doi]

HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static ImagesAli Athar, Jonathon Luiten, Alexander Hermans, Deva Ramanan, Bastian Leibe. 3012-3021 [doi]

Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence LearningJuncheng Li 0006, Junlin Xie, Long Qian, Linchao Zhu, Siliang Tang, Fei Wu 0001, Yi Yang, Yueting Zhuang, Xin Eric Wang. 3022-3031 [doi]

UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight DetectionYe Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie. 3032-3041 [doi]

Future Transformer for Long-term Action AnticipationDayoung Gong, Joonseok Lee, Manjin Kim, Seong Jong Ha, Minsu Cho. 3042-3051 [doi]

MLP-3D: A MLP-like 3D Architecture with Grouped Time MixingZhaofan Qiu, Ting Yao, Chong-Wah Ngo, Tao Mei 0001. 3052-3062 [doi]

Learning Pixel-Level Distinctions for Video Highlight DetectionFanyue Wei, Biao Wang, Tiezheng Ge, Yuning Jiang, Wen Li 0001, Lixin Duan. 3063-3072 [doi]

DR.VIC: Decomposition and Reasoning for Video Individual CountingTao Han, Lei Bai 0001, Junyu Gao 0001, Qi Wang 0009, Wanli Ouyang. 3073-3082 [doi]

Slot-VPS: Object-centric Representation Learning for Video Panoptic SegmentationYi Zhou, Hui Zhang, Hana Lee, Shuyang Sun, Pingjun Li, Yangguang Zhu, ByungIn Yoo, Xiaojuan Qi, Jae-Joon Han. 3083-3093 [doi]

Explore Spatio-temporal Aggregation for Insubstantial Object Detection: Benchmark Dataset and BaselineKailai Zhou, Yibo Wang, Tao Lv, Yunqian Li, Linsen Chen, Qiu Shen, Xun Cao. 3094-3105 [doi]

Video Shadow Detection via Spatio-Temporal Interpolation Consistency TrainingXiao Lu, Yihong Cao, Sheng Liu, Chengjiang Long, Zipei Chen, Xuanyu Zhou, Yimin Yang, Chunxia Xiao. 3106-3115 [doi]

Coarse-to-Fine Feature Mining for Video Semantic SegmentationGuolei Sun, Yun Liu, Henghui Ding, Thomas Probst, Luc Van Gool. 3116-3127 [doi]

Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity EvaluationZhaoyang Zeng, Yongsheng Luo, Zhenhua Liu, Fengyun Rao, Dian Li, Weidong Guo, Zhen Wen. 3128-3137 [doi]

Object-Region Video TransformersRoei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson. 3138-3149 [doi]

Colar: Effective and Efficient Online Action Detection by Consulting ExemplarsLe Yang, Junwei Han, Dingwen Zhang. 3150-3159 [doi]

SimVP: Simpler yet Better Video PredictionZhangyang Gao, Cheng Tan 0012, Lirong Wu, Stan Z. Li. 3160-3170 [doi]

Imposing Consistency for Optical Flow EstimationJisoo Jeong, Jamie Menjay Lin, Fatih Porikli, Nojun Kwak. 3171-3181 [doi]

Stand-Alone Inter-Frame Attention in Video ModelsFuchen Long, Zhaofan Qiu, Yingwei Pan, Ting Yao, Jiebo Luo, Tao Mei 0001. 3182-3191 [doi]

Video Swin TransformerZe Liu, Jia Ning, Yue Cao 0001, Yixuan Wei, Zheng Zhang 0022, Stephen Lin 0001, Han Hu 0004. 3192-3201 [doi]

Bayesian Nonparametric Submodular Video Partition for Robust Anomaly DetectionHitesh Sapkota, Qi Yu 0001. 3202-3211 [doi]

Likert Scoring with Grade Decoupling for Long-term Action AssessmentAngchi Xu, Ling-An Zeng, Wei-Shi Zheng. 3222-3231 [doi]

Complex Video Action Reasoning via Learnable Markov Logic NetworkYang Jin, Linchao Zhu, Yadong Mu. 3232-3241 [doi]

Learning from Temporal Gradient for Semi-supervised Action RecognitionJunfei Xiao, Longlong Jing, Lin Zhang, Ju He, Qi She, Zongwei Zhou, Alan L. Yuille, Yingwei Li. 3242-3252 [doi]

Semi-Supervised Video Semantic Segmentation with Inter-Frame Feature ReconstructionJiafan Zhuang, Zilei Wang, Yuan Gao. 3253-3261 [doi]

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge PropagationLinjiang Huang, Liang Wang 0001, Hongsheng Li 0001. 3262-3271 [doi]

Joint Hand Motion and Interaction Hotspots Prediction from Egocentric VideosShaowei Liu, Subarna Tripathi, Somdeb Majumdar, Xiaolong Wang 0004. 3272-3282 [doi]

Human Hands as Probes for Interactive Object UnderstandingMohit Goyal, Sahil Modi, Rishabh Goyal, Saurabh Gupta. 3283-3293 [doi]

LD-ConGR: A Large RGB-D Video Dataset for Long-Distance Continuous Gesture RecognitionDan Liu, Libo Zhang, Yanjun Wu. 3294-3302 [doi]

Object-aware Video-language Pre-training for RetrievalAlex Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin 0003, Ying Shan, Xiaohu Qie, Mike Zheng Shou. 3303-3312 [doi]

Fast and Unsupervised Action Boundary Detection for Action SegmentationZexing Du, Xue Wang 0006, Guoqing Zhou 0003, Qing Wang 0006. 3313-3322 [doi]

Multiview Transformers for Video RecognitionShen Yan, Xuehan Xiong, Anurag Arnab, Zhichao Lu, Mi Zhang, Chen Sun 0002, Cordelia Schmid. 3323-3333 [doi]

Semi-Weakly-Supervised Learning of Complex Actions from Instructional Task VideosYuhan Shen, Ehsan Elhamifar. 3334-3344 [doi]

Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary DetectionJiaqi Tang, Zhaoyang Liu, Chen Qian 0006, Wayne Wu, Limin Wang 0002. 3345-3354 [doi]

Comparing Correspondences: Video Prediction with Correspondence-wise LossesDaniel Geng, Max Hamilton, Andrew Owens. 3355-3366 [doi]

Sound-Guided Semantic Image ManipulationSeung-Hyun Lee, Wonseok Roh, Wonmin Byeon, Sang Ho Yoon, Chan Young Kim, Jinkyu Kim, Sangpil Kim. 3367-3376 [doi]

Expressive Talking Head Generation with Granular Audio-Visual ControlBorong Liang, Yan Pan, Zhizhi Guo, Hang Zhou, Zhibin Hong, Xiaoguang Han, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang 0001. 3377-3386 [doi]

Depth-Aware Generative Adversarial Network for Talking Head Video GenerationFa-Ting Hong, Longhao Zhang, Li Shen, Dan Xu 0002. 3387-3396 [doi]

Learning Motion-Dependent Appearance for High-Fidelity Rendering of Dynamic Humans from a Single CameraJae Shin Yoon, Duygu Ceylan, Tuanfeng Y. Wang, Jingwan Lu, Jimei Yang, Zhixin Shu, Hyun Soo Park. 3397-3407 [doi]

Audio-driven Neural Gesture Reenactment with Video Motion GraphsYang Zhou, Jimei Yang, Dingzeyu Li, Jun Saito, Deepali Aneja, Evangelos Kalogerakis. 3408-3418 [doi]

Portrait Eyeglasses and Shadow Removal by Leveraging 3D Synthetic DataJunfeng Lyu, Zhibo Wang, Feng Xu. 3419-3429 [doi]

Weakly Supervised High-Fidelity Clothing Model GenerationRuili Feng, Cheng Ma, Chengji Shen, Xin Gao, Zhenjiang Liu, Xiaobo Li, Kairi Ou, Deli Zhao, Zheng-Jun Zha. 3430-3439 [doi]

TemporalUV: Capturing Loose Clothing with Temporally Coherent UV CoordinatesYou Xie, Huiqi Mao, Angela Yao, Nils Thuerey. 3440-3449 [doi]

Full-Range Virtual Try-On with Recurrent Tri-Level TransformHan Yang, Xinrui Yu, Ziwei Liu 0002. 3450-3459 [doi]

Style-Based Global Appearance Flow for Virtual Try-OnSen He, Yi-Zhe Song, Tao Xiang. 3460-3469 [doi]

Dressing in the Wild by Watching Dance VideosXin Dong, Fuwei Zhao, Zhenyu Xie, Xijin Zhang, Daniel K. Du, Min Zheng, Xiang Long, Xiaodan Liang, Jianchao Yang. 3470-3479 [doi]

A Brand New Dance Partner: Music-Conditioned Pluralistic Dancing Controlled by Multiple Dance GenresJinwoo Kim 0001, Heeseok Oh, Seongjean Kim, Hoseok Tong, Sanghoon Lee 0001. 3480-3490 [doi]

Unpaired Cartoon Image Synthesis via Gated Cycle MappingYifang Men, Yuan Yao 0013, Miaomiao Cui, Zhouhui Lian, Xuansong Xie, Xian-Sheng Hua 0001. 3491-3500 [doi]

DLFormer: Discrete Latent Transformer for Video InpaintingJingjing Ren, Qingqing Zheng, Yuanyuan Zhao, Xuemiao Xu, Chen Li. 3501-3510 [doi]

ST-MFNet: A Spatio-Temporal Multi-Flow Network for Frame InterpolationDuolikun Danier, Fan Zhang, David R. Bull. 3511-3521 [doi]

Video Frame Interpolation with TransformerLiying Lu, Ruizheng Wu, Huaijia Lin, Jiangbo Lu, Jiaya Jia. 3522-3532 [doi]

Long-term Video Frame Interpolation via Feature PropagationDawit Mureja Argaw, In-So Kweon. 3533-3542 [doi]

Many-to-many Splatting for Efficient Video Frame InterpolationPing Hu, Simon Niklaus, Stan Sclaroff, Kate Saenko. 3543-3552 [doi]

Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene Video from A Single ImageXuanchi Ren, Xiaolong Wang. 3553-3563 [doi]

Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual LearningMengshun Hu, Kui Jiang, Liang Liao, Jing Xiao 0004, Junjun Jiang, Zheng Wang 0007. 3564-3573 [doi]

Playable Environments: Video Manipulation in Space and TimeWilli Menapace, Stéphane Lathuilière, Aliaksandr Siarohin, Christian Theobalt, Sergey Tulyakov, Vladislav Golyanik, Elisa Ricci 0001. 3574-3583 [doi]

Event-based Video Reconstruction via Potential-assisted Spiking Neural NetworkLin Zhu 0012, Xiao Wang, Yi Chang, Jianing Li, Tiejun Huang 0001, Yonghong Tian 0001. 3584-3594 [doi]

Modular Action Concept Grounding in Semantic Video PredictionWei Yu, Wenxin Chen, Songheng Yin, Steve Easterbrook, Animesh Garg. 3595-3604 [doi]

Show Me What and Tell Me How: Video Synthesis via Multimodal ConditioningLigong Han, Jian Ren, Hsin-Ying Lee, Francesco Barbieri, Kyle Olszewski, Shervin Minaee, Dimitris N. Metaxas, Sergey Tulyakov. 3605-3615 [doi]

StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2Ivan Skorokhodov, Sergey Tulyakov, Mohamed Elhoseiny. 3616-3626 [doi]

Structure-Aware Motion Transfer with Deformable Anchor ModelJiale Tao, Biao Wang, Borun Xu, Tiezheng Ge, Yuning Jiang, Wen Li 0001, Lixin Duan. 3627-3636 [doi]

Image Animation with Perturbed MasksYoav Shalev, Lior Wolf. 3637-3646 [doi]

Thin-Plate Spline Motion Model for Image AnimationJian Zhao, Hui Zhang. 3647-3656 [doi]

Controllable Animation of Fluid Elements in Still ImagesAniruddha Mahapatra, Kuldeep Kulkarni. 3657-3666 [doi]

Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of Articulated ObjectsAtsuhiro Noguchi, Umar Iqbal, Jonathan Tremblay, Tatsuya Harada, Orazio Gallo. 3667-3677 [doi]

Geometric Structure Preserving Warp for Natural Image StitchingPeng Du, Jifeng Ning, Jiguang Cui, Shaoli Huang, Xinchao Wang, Jiaxin Wang. 3678-3686 [doi]

Few-Shot Incremental Learning for Label-to-Image TranslationPei Chen, Yangkang Zhang, Zejian Li, Lingyun Sun. 3687-3697 [doi]

Exemplar-based Pattern Synthesis with Implicit Periodic Field NetworkHaiwei Chen, Jiayi Liu, Weikai Chen 0001, Shichen Liu, Yajie Zhao. 3698-3707 [doi]

SIMBAR: Single Image-Based Scene Relighting For Effective Data Augmentation For Automated Driving Vision TasksXianling Zhang, Nathan Tseng, Ameerah Syed, Rohan Bhasin, Nikita Jaipuria. 3708-3718 [doi]

SoftCollage: A Differentiable Probabilistic Tree Generator for Image CollageJiahao Yu, Li Chen, Mingrui Zhang, Mading Li. 3719-3728 [doi]

PILC: Practical Image Lossless Compression with an End-to-end GPU Oriented Neural FrameworkNing Kang 0001, Shanzhao Qiu, Shifeng Zhang, Zhenguo Li, Shutao Xia. 3729-3738 [doi]

Kubric: A scalable dataset generatorKlaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du, Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam H. Laradji, Hsueh-Ti Derek Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, A. Cengiz Öztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M. Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora, Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi. 3739-3751 [doi]

360MonoDepth: High-Resolution 360° Monocular Depth EstimationManuel Rey-Area, Mingze Yuan, Christian Richardt. 3752-3762 [doi]

Pretrain, Self-train, Distill: A simple recipe for Supersizing 3D ReconstructionKalyan Vasudev Alwala, Abhinav Gupta 0001, Shubham Tulsiani. 3763-3772 [doi]

DGECN: A Depth-Guided Edge Convolutional Network for End-to-End 6D Pose EstimationTuo Cao, Fei Luo 0004, Yanping Fu, Wenxiao Zhang, Shengjie Zheng, Chunxia Xiao. 3773-3782 [doi]

MonoGround: Detecting Monocular 3D Objects from the GroundZequn Qin, Xi Li 0001. 3783-3792 [doi]

3D Shape Reconstruction from 2D Images with Disentangled Attribute FlowXin Wen, Junsheng Zhou, Yu-Shen Liu, Hua Su, Zhen Dong, Zhizhong Han. 3793-3803 [doi]

Toward Practical Monocular Indoor Depth EstimationCho-Ying Wu, Jialiang Wang, Michael Hall, Ulrich Neumann, Shuochen Su. 3804-3814 [doi]

Focal Length and Object Pose Estimation via Render and CompareGeorgy Ponimatkin, Yann Labbé, Bryan C. Russell, Mathieu Aubry, Josef Sivic. 3815-3824 [doi]

CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance FieldsCan Wang, Menglei Chai, Mingming He, Dongdong Chen 0001, Jing Liao 0001. 3825-3834 [doi]

Registering Explicit to Implicit: Towards High-Fidelity Garment mesh Reconstruction from Single ImagesHeming Zhu, Lingteng Qiu, Yuda Qiu, Xiaoguang Han 0001. 3835-3844 [doi]

Layered Depth Refinement with Mask GuidanceSoo Ye Kim, Jianming Zhang 0001, Simon Niklaus, Yifei Fan, Simon Chen, Zhe Lin 0001, Munchurl Kim. 3845-3855 [doi]

HEAT: Holistic Edge Attention Transformer for Structured ReconstructionJiacheng Chen, Yiming Qian, Yasutaka Furukawa. 3856-3865 [doi]

BARC: Learning to Regress 3D Dog Shape from Images by Exploiting Breed InformationNadine Rüegg, Silvia Zuffi, Konrad Schindler, Michael J. Black. 3866-3874 [doi]

Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous DrivingPeixuan Li, Jieyu Jin. 3875-3884 [doi]

What's in your hands? 3D Reconstruction of Generic Objects in HandsYufei Ye, Abhinav Gupta 0001, Shubham Tulsiani. 3885-3895 [doi]

3D Moments from Near-Duplicate PhotosQianqian Wang, Zhengqi Li, David Salesin, Noah Snavely, Brian Curless, Janne Kontkanen. 3896-3905 [doi]

Neural Window Fully-connected CRFs for Monocular Depth EstimationWeihao Yuan, Xiaodong Gu 0004, Zuozhuo Dai, Siyu Zhu, Ping Tan. 3906-3915 [doi]

PUMP: Pyramidal and Uniqueness Matching Priors for Unsupervised Learning of Local DescriptorsJérôme Revaud, Vincent Leroy 0003, Philippe Weinzaepfel, Boris Chidlovskii. 3916-3926 [doi]

CroMo: Cross-Modal Learning for Monocular Depth EstimationYannick Verdié, Jifei Song, Barnabé Mas, Benjamin Busam, Ales Leonardis, Steven McDonagh. 3927-3937 [doi]

$\phi$-SfT: Shape-from-Template with a Physics-Based Deformation ModelNavami Kairanda, Edith Tretschk, Mohamed Elgharib, Christian Theobalt, Vladislav Golyanik. 3938-3948 [doi]

Human-Aware Object Placement for Visual Environment ReconstructionHongwei Yi, Chun-Hao P. Huang, Dimitrios Tzionas, Muhammed Kocabas, Mohamed Hassan, Siyu Tang 0001, Justus Thies, Michael J. Black. 3949-3960 [doi]

AutoRF: Learning 3D Object Radiance Fields from Single View ObservationsNorman Müller, Andrea Simonelli, Lorenzo Porzi, Samuel Rota Bulò, Matthias Nießner, Peter Kontschieder. 3961-3970 [doi]

Pix2NeRF: Unsupervised Conditional $\pi$-GAN for Single Image to Neural Radiance Fields TranslationShengqu Cai, Anton Obukhov, Dengxin Dai, Luc Van Gool. 3971-3980 [doi]

MonoScene: Monocular 3D Semantic Scene CompletionAnh-Quan Cao, Raoul de Charette. 3981-3991 [doi]

GenDR: A Generalized Differentiable RendererFelix Petersen, Bastian Goldluecke, Christian Borgelt, Oliver Deussen. 3992-4001 [doi]

MonoDTR: Monocular 3D Object Detection with Depth-Aware TransformerKuan-Chih Huang, Tsung-Han Wu, Hung-Ting Su, Winston H. Hsu. 4002-4011 [doi]

ROCA: Robust CAD Model Retrieval and Alignment from a Single ImageCan Gümeli, Angela Dai, Matthias Nießner. 4012-4021 [doi]

HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule NetworkChang Yu, Xiangyu Zhu, Xiaomei Zhang, Zidu Wang, Zhaoxiang Zhang, Zhen Lei 0001. 4022-4031 [doi]

Killing Two Birds with One Stone: Efficient and Robust Training of Face Recognition CNNs by Partial FCXiang An, Jiankang deng, Jia Guo, Ziyong Feng, Xuhan Zhu, Jing Yang 0038, Tongliang Liu. 4032-4041 [doi]

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation LearningJiahao Xia, Weiwei Qu, Wenjian Huang, Jianguo Zhang, Xi Wang, Min Xu. 4042-4051 [doi]

Enhancing Face Recognition with Self-Supervised 3D ReconstructionMingjie He, Jie Zhang 0071, Shiguang Shan, Xilin Chen 0001. 4052-4061 [doi]

Learning to Learn across Diverse Data Biases in Deep Face RecognitionChang Liu 0022, Xiang Yu 0002, Yi-Hsuan Tsai, Masoud Faraki, Ramin Moslemi, Manmohan Chandraker, Yun Fu 0001. 4062-4072 [doi]

An Efficient Training Approach for Very Large Scale Face RecognitionKai Wang, Shuo Wang, Panpan Zhang, Zhipeng Zhou, Zheng Zhu, Xiaobo Wang, Xiaojiang Peng, Baigui Sun, Hao Li, Yang You. 4073-4082 [doi]

MogFace: Towards a Deeper Appreciation on Face DetectionYang Liu, Fei Wang, Jiankang deng, Zhipeng Zhou, Baigui Sun, Hao Li. 4083-4092 [doi]

Exploring Frequency Adversarial Attacks for Face Forgery DetectionShuai Jia, Chao Ma 0004, Taiping Yao, Bangjie Yin, Shouhong Ding, Xiaokang Yang. 4093-4102 [doi]

End-to-End Reconstruction-Classification Learning for Face Forgery DetectionJunyi Cao, Chao Ma 0004, Taiping Yao, Shen Chen, Shouhong Ding, Xiaokang Yang. 4103-4112 [doi]

Domain Generalization via Shuffled Style Assembly for Face Anti-SpoofingZhuo Wang, Zezheng Wang, Zitong Yu, Weihong Deng, Jiahong Li, Tingting Gao, Zhongyuan Wang. 4113-4123 [doi]

Privacy-preserving Online AutoML for Domain-Specific Face DetectionChenqian Yan, Yuge Zhang, Quanlu Zhang, Yaming Yang 0001, Xinyang Jiang, YuQing Yang, Baoyuan Wang. 4124-4134 [doi]

Simulated Adversarial Testing of Face Recognition ModelsNataniel Ruiz, Adam Kortylewski, Weichao Qiu, Cihang Xie, Sarah Adel Bargal, Alan L. Yuille, Stan Sclaroff. 4135-4145 [doi]

Decoupled Multi-task Learning with Cyclical Self-Regulation for Face ParsingQingping Zheng, Jiankang deng, Zheng Zhu, Ying Li, Stefanos Zafeiriou. 4146-4155 [doi]

Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence MarginHangyu Li, Nannan Wang 0001, Xi Yang 0011, Xiaoyu Wang, Xinbo Gao 0001. 4156-4165 [doi]

Towards Accurate Facial Landmark Detection via Cascaded TransformersHui Li, Zidong Guo, Seon-Min Rhee, Seungju Han, Jae-Joon Han. 4166-4175 [doi]

PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference TransformerZitong Yu, Yuming Shen, Jingang Shi, Hengshuang Zhao, Philip H. S. Torr, Guoying Zhao. 4176-4186 [doi]

GazeOnce: Real-Time Multi-Person Gaze EstimationMingfang Zhang, Yunfei Liu, Feng Lu 0005. 4187-4196 [doi]

Generalizing Gaze Estimation with Rotation ConsistencyYiwei Bao, Yunfei Liu, Haofei Wang, Feng Lu. 4197-4206 [doi]

Face Relighting with Geometrically Consistent ShadowsAndrew Hou, Michel Sarkis, Ning Bi, Yiying Tong, Xiaoming Liu 0002. 4207-4216 [doi]

HairMapper: Removing Hair from Portraits Using GANsYiqian Wu, Yong-Liang Yang, Xiaogang Jin 0001. 4217-4226 [doi]

Learning to Restore 3D Face from In-the-Wild Degraded ImagesZhenyu Zhang 0005, Yanhao Ge, Ying Tai, Xiaoming Huang, Chengjie Wang, Hao Tang, Dongjin Huang, Zhifeng Xie. 4227-4237 [doi]

Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-LabelsYuchao Wang, Haochen Wang, Yujun Shen, Jingjing Fei, Wei Li, Guoqiang Jin, Liwei Wu, Rui Zhao 0018, Xinyi Le. 4238-4247 [doi]

Perturbed and Strict Mean Teachers for Semi-supervised Semantic SegmentationYuyuan Liu, Yu Tian, Yuanhong Chen, Fengbei Liu, Vasileios Belagiannis, Gustavo Carneiro. 4248-4257 [doi]

ST++: Make Self-trainingWork Better for Semi-supervised Semantic SegmentationLihe Yang, Wei Zhuo, Lei Qi 0001, Yinghuan Shi, Yang Gao 0001. 4258-4267 [doi]

Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-RefinementBeomyoung Kim, Youngjoon Yoo, Chaeeun Rhee, Junmo Kim. 4268-4277 [doi]

Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic SegmentationQi Chen, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie. 4278-4288 [doi]

Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic SegmentationTianfei Zhou, Meijie Zhang, Fang Zhao, Jianwu Li. 4289-4299 [doi]

Multi-class Token Transformer for Weakly Supervised Semantic SegmentationLian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaïd, Dan Xu 0002. 4300-4309 [doi]

Weakly Supervised Semantic Segmentation by Pixel-to-Prototype ContrastYe Du, Zehua Fu, Qingjie Liu, Yunhong Wang. 4310-4319 [doi]

Threshold Matters in WSSS: Manipulating the Activation for the Robust and Accurate Segmentation Model Against ThresholdsMinhyun Lee, Dongseob Kim, Hyunjung Shim. 4320-4329 [doi]

Novel Class Discovery in Semantic SegmentationYuyang Zhao, Zhun Zhong, Nicu Sebe, Gim Hee Lee. 4330-4339 [doi]

Pin the Memory: Learning to Generalize Semantic SegmentationJin Kim, Jiyoung Lee, Jungin Park, Dongbo Min, Kwanghoon Sohn. 4340-4350 [doi]

ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution SegmentationShaohua Guo, Liang Liu, Zhenye Gan, Yabiao Wang, Wuhao Zhang, Chengjie Wang, Guannan Jiang, Wei Zhang, Ran Yi, Lizhuang Ma, Ke Xu. 4351-4360 [doi]

Incremental Learning in Semantic Segmentation from Image LabelsFabio Cermelli, Dario Fontanel, Antonio Tavera, Marco Ciccone, Barbara Caputo. 4361-4371 [doi]

Instance Segmentation with Mask-supervised Polygonal Boundary TransformersJustin Lazarow, Weijian Xu, Zhuowen Tu. 4372-4381 [doi]

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance SegmentationChenming Zhu, Xuanye Zhang, Yanran Li, Liangdong Qiu, Kai Han 0001, Xiaoguang Han 0001. 4382-4391 [doi]

Sparse Object-level Supervision for Instance Segmentation with Pixel EmbeddingsAdrian Wolny, Qin Yu 0005, Constantin Pape, Anna Kreshuk. 4392-4401 [doi]

Mask Transfiner for High-Quality Instance SegmentationLei Ke, Martin Danelljan, Xia Li, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu. 4402-4411 [doi]

Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise AffinityWeiyao Wang 0001, Matt Feiszli, Heng Wang, Jitendra Malik, Du Tran. 4412-4422 [doi]

Sparse Instance Activation for Real-Time Instance SegmentationTianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu 0001. 4423-4432 [doi]

E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance SegmentationTao Zhang, Shiqing Wei, Shunping Ji. 4433-4442 [doi]

Hyperbolic Image SegmentationMina Ghadimi Atigh, Julian Schoep, Erman Acar, Nanne van Noord, Pascal Mettes. 4443-4452 [doi]

SeeThroughNet: Resurrection of Auxiliary Loss by Preserving Class Probability InformationDasol Han, Jaewook Yoo, Dokwan Oh. 4453-4462 [doi]

CDGNet: Class Distribution Guided Network for Human ParsingKunliang Liu, Ouk Choi, Jianming Wang, Wonjun Hwang. 4463-4472 [doi]

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic SegmentationJinheng Xie, Xianxu Hou, Kai Ye 0004, LinLin Shen. 4473-4482 [doi]

Sparse Non-local CRFOlga Veksler, Yuri Boykov. 4483-4493 [doi]

Detecting Camouflaged Object in Frequency DomainYijie Zhong, Bo Li, Lv Tang, Senyun Kuang, Shuang Wu 0001, Shouhong Ding. 4494-4503 [doi]

Progressive Minimal Path Method with Embedded CNNWei Liao. 4504-4512 [doi]

Open-Set Text Recognition via Character-Context DecouplingChang Liu, Chun Yang, Xu-Cheng Yin. 4513-4522 [doi]

Neural Collaborative Graph Machines for Table Structure RecognitionHao Liu 0003, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren 0002. 4523-4532 [doi]

Revisiting Document Image Dewarping by Grid RegularizationXiangwei Jiang, Rujiao Long, Nan Xue 0001, Zhibo Yang, Cong Yao, Gui-Song Xia. 4533-4542 [doi]

Syntax-Aware Network for Handwritten Mathematical Expression RecognitionYe Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai. 4543-4552 [doi]

Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text DetectionJingqun Tang, Wenqing Zhang, Hongye Liu, Mingkun Yang, Bo Jiang, Guanglong Hu, Xiang Bai. 4553-4562 [doi]

Fourier Document Restoration for Robust Document Dewarping and RecognitionChuhui Xue, Zichen Tian, Fangneng Zhan, Shijian Lu, Song Bai. 4563-4572 [doi]

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document UnderstandingZhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu, Liqing Zhang 0001. 4573-4582 [doi]

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text RecognitionMingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin. 4583-4593 [doi]

Towards Weakly-Supervised Text Spotting using a Multi-Task TransformerYair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona. 4594-4603 [doi]

TableFormer: Table Structure Understanding with TransformersAhmed S. Nassar, Nikolaos Livathinos, Maksym Lysak, Peter W. J. Staar. 4604-4613 [doi]

Knowledge Mining with Scene Text for Fine-Grained RecognitionHao Wang, Junchao Liao, Tianheng Cheng, Zewen Gao, Hao Liu, Bo Ren, Xiang Bai, Wenyu Liu 0001. 4614-4623 [doi]

PubTables-1M: Towards comprehensive table extraction from unstructured documentsBrandon Smock, Rohith Pesala, Robin Abraham. 4624-4632 [doi]

Focal and Global Knowledge Distillation for DetectorsZhendong Yang, Zhe Li, Xiaohu Jiang, Yuan Gong, Zehuan Yuan, Danpei Zhao, Chun Yuan. 4633-4642 [doi]

Speed up Object Detection on Gigapixel-level Images with Patch ArrangementJiahao Fan, Huabin Liu 0001, Wenjie Yang, John See, Aixin Zhang, Weiyao Lin. 4643-4653 [doi]

Training Object Detectors from Scratch: An Empirical Study in the Era of Vision TransformerWeixiang Hong, Jiangwei Lao, Wang Ren, Jian Wang, Jingdong Chen, Wei Chu. 4652-4661 [doi]

Learning with Neighbor Consistency for Noisy LabelsAhmet Iscen, Jack Valmadre, Anurag Arnab, Cordelia Schmid. 4662-4671 [doi]

Meta Convolutional Neural Networks for Single Domain GeneralizationChaoqun Wan, Xu Shen, Yonggang Zhang, Zhiheng Yin, Xinmei Tian 0001, Feng Gao, Jianqiang Huang, Xian-Sheng Hua 0001. 4672-4681 [doi]

Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-IdentificationHaowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan. 4682-4692 [doi]

Geometry-Aware Guided Loss for Deep Crack RecognitionZhuangzhuang Chen, Jin Zhang, Zhuonan Lai, Jie Chen 0027, Zun Liu, Jianqiang Li 0001. 4693-4702 [doi]

Segment, Magnify and Reiterate: Detecting Camouflaged Objects the Hard WayQi Jia 0001, Shuilian Yao, Yu Liu 0012, Xin Fan 0001, Risheng Liu, Zhongxuan Luo. 4703-4712 [doi]

Dynamic Sparse R-CNNQinghang Hong, Fengming Liu, Dong Li, Ji Liu, Lu Tian, Yi Shan. 4713-4722 [doi]

Deep Hybrid Models for Out-of-Distribution DetectionSenqi Cao, Zhongfei Zhang. 4723-4733 [doi]

AutoLoss-GMS: Searching Generalized Margin-based Softmax Loss Function for Person Re-identificationHongyang Gu, Jianmin Li 0001, Guangyuan Fu, Chifong Wong, Xinghao Chen, Jun Zhu 0001. 4734-4743 [doi]

Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationZhikang Wang, Feng Zhu, Shixiang Tang, Rui Zhao 0001, Lihuo He, Jiangning Song. 4744-4753 [doi]

Multi-label Classification with Partial Annotations using Class-aware Selective LossEmanuel Ben Baruch, Tal Ridnik, Itamar Friedman, Avi Ben-Cohen, Nadav Zamir, Asaf Noy, Lihi Zelnik-Manor. 4754-4762 [doi]

BoxeR: Box-Attention for 2D and 3D TransformersDuy-Kien Nguyen, Jihong Ju, Olaf Booij, Martin R. Oswald, Cees G. M. Snoek. 4763-4772 [doi]

Multi-label Iterated Learning for Image Classification with Label AmbiguitySai Rajeswar, Pau Rodríguez, Soumye Singhal, David Vázquez 0001, Aaron C. Courville. 4773-4783 [doi]

Vision Transformer with Deformable AttentionZhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang. 4784-4793 [doi]

MViTv2: Improved Multiscale Vision Transformers for Classification and DetectionYanghao Li, Chao-Yuan Wu, Haoqi Fan 0001, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer. 4794-4804 [doi]

Dense Learning based Semi-Supervised Object DetectionBinghui Chen, Pengyu Li, Xiang Chen, Biao Wang, Lei Zhang, Xian-Sheng Hua 0001. 4805-4814 [doi]

2: Randomized Decision Routing for Object DetectionYali Li 0001, Shengjin Wang. 4815-4824 [doi]

GlideNet: Global, Local and Intrinsic based Dense Embedding NETwork for Multi-category Attributes PredictionKareem Metwaly, Aerin Kim, Elliot Branson, Vishal Monga. 4825-4836 [doi]

Self-Supervised Equivariant Learning for Oriented Keypoint DetectionJongmin Lee, Byungjin Kim, Minsu Cho. 4837-4847 [doi]

Label Relation Graphs Enhanced Hierarchical Residual Network for Hierarchical Multi-Granularity ClassificationJingzhou Chen, Peng Wang, Jian Liu, Yuntao Qian. 4848-4857 [doi]

Object Localization under Single Coarse Point SupervisionXuehui Yu, Pengfei Chen, Di Wu, Najmul Hassan, Guorong Li, Junchi Yan, Humphrey Shi, Qixiang Ye, Zhenjun Han. 4858-4867 [doi]

Rethinking Visual Geo-localization for Large-Scale ApplicationsGabriele Moreno Berton, Carlo Masone, Barbara Caputo. 4868-4878 [doi]

Whose Hands are These? Hand Detection and Hand-Body Association in the WildSupreeth Narasimhaswamy, Thanh Nguyen, Mingzhen Huang, Minh Hoai. 4879-4889 [doi]

Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-IdentificationYanan Wang, Xuezhi Liang, ShengCai Liao. 4890-4899 [doi]

Towards Unsupervised Domain GeneralizationXingxuan Zhang, Linjun Zhou, Renzhe Xu, Peng Cui 0001, Zheyan Shen, Haoxin Liu. 4900-4910 [doi]

ViM: Out-Of-Distribution with Virtual-logit MatchingHaoqi Wang, Zhizhong Li 0002, Litong Feng, Wayne Zhang. 4911-4920 [doi]

Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization SpaceArnav Chavan, Zhiqiang Shen, Zhuang Liu 0003, Zechun Liu, Kwang-Ting Cheng, Eric P. Xing. 4921-4931 [doi]

Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via Generalized Straight-Through EstimationZechun Liu, Kwang-Ting Cheng, Dong Huang, Eric P. Xing, Zhiqiang Shen. 4932-4942 [doi]

Align and Prompt: Video-and-Language Pre-training with Entity PromptsDongxu Li, Junnan Li 0001, Hongdong Li, Juan Carlos Niebles, Steven C. H. Hoi. 4943-4953 [doi]

Language-Bridged Spatial-Temporal Interaction for Referring Video Object SegmentationZihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu 0001. 4954-4963 [doi]

Language as Queries for Referring Video Object SegmentationJiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo 0002. 4964-4974 [doi]

End-to-End Referring Video Object Segmentation with Multimodal TransformersAdam Botach, Evgenii Zheltonozhskii, Chaim Baskin. 4975-4985 [doi]

Multi-Level Representation Learning with Semantic Alignment for Referring Video Object SegmentationDongming Wu, Xingping Dong, Ling Shao 0001, Jianbing Shen. 4986-4995 [doi]

X-Pool: Cross-Modal Language-Video Attention for Text-Video RetrievalSatya Krishna Gorti, Noël Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu. 4996-5005 [doi]

Video-Text Representation Learning via Differentiable Weak Temporal AlignmentDohwan Ko, Joonmyung Choi, Juyeon Ko, Shinyeong Noh, Kyoung-woon On, Eun-Sol Kim, Hyunwoo J. Kim. 5006-5015 [doi]

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio DescriptionsMattia Soldan, Alejandro Pardo, Juan León Alcázar, Fabian Caba Heilbron, Chen Zhao 0002, Silvio Giancola, Bernard Ghanem. 5016-5025 [doi]

Advancing High-Resolution Video-Language Representation with Large-Scale Video TranscriptionsHongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu 0001, Huan Yang 0005, Jianlong Fu, Baining Guo. 5026-5035 [doi]

Measuring Compositional Consistency for Video Question AnsweringMona Gandhi, Mustafa Omer Gul, Eva Prakash, Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala. 5036-5045 [doi]

Sim VQA: Exploring Simulated Environments for Visual Question AnsweringPaola Cascante-Bonilla, Hui Wu, Letao Wang, Rogério Feris, Vicente Ordonez. 5046-5056 [doi]

Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question AnsweringFeng Gao 0013, Qing-ping, Govind Thattai, Aishwarya N. Reganti, Ying Nian Wu, Prem Natarajan. 5057-5067 [doi]

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question AnsweringVipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li, Alan L. Yuille. 5068-5078 [doi]

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question AnsweringYang Ding, Jing Yu, Bang Liu, Yue Hu, Mingxin Cui, Qi Wu 0001. 5079-5088 [doi]

Maintaining Reasoning Consistency in Compositional Visual Question AnsweringChenchen Jing, Yunde Jia, Yuwei Wu, Xinyu Liu, Qi Wu. 5089-5098 [doi]

MLSLT: Towards Multilingual Sign Language TranslationAoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He 0001. 5099-5109 [doi]

A Simple Multi-Modality Transfer Learning Baseline for Sign Language TranslationYutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin 0001. 5110-5120 [doi]

2SLR: Consistency-enhanced Continuous Sign Language RecognitionRonglai Zuo, Brian Mak. 5121-5130 [doi]

Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language ProductionBen Saunders, Necati Cihan Camgöz, Richard Bowden. 5131-5141 [doi]

Generating Diverse and Natural 3D Human Motions from TextChuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang 0003, Wei Ji, Xingyu Li, Li Cheng 0001. 5142-5151 [doi]

Sub-word Level Lip Reading With Visual AttentionK. R. Prajwal, Triantafyllos Afouras, Andrew Zisserman. 5152-5162 [doi]

Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at ScaleRam Ramrakhya, Eric Undersander, Dhruv Batra, Abhishek Das. 5163-5173 [doi]

ViSTA: Vision and Scene Text Aggregation for Cross-Modal RetrievalMengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang 0001. 5174-5183 [doi]

Cross Modal Retrieval with Querybank NormalisationSimion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, Samuel Albanie. 5184-5195 [doi]

Prompt Distribution LearningYuning Lu, Jianzhuang Liu, Yonggang Zhang, Yajing Liu, Xinmei Tian 0001. 5196-5205 [doi]

VALHALLA: Visual Hallucination for Machine TranslationYi Li, Rameswar Panda, Yoon Kim, Chun-Fu Richard Chen, Rogério Feris, David D. Cox, Nuno Vasconcelos. 5206-5216 [doi]

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language TasksYi-Lin Sung, Jaemin Cho 0001, Mohit Bansal. 5217-5227 [doi]

Winoground: Probing Vision and Language Models for Visio-Linguistic CompositionalityTristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross. 5228-5238 [doi]

MixFormer: Mixing Features across Windows and DimensionsQiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng 0001, Jingdong Wang 0001. 5239-5249 [doi]

Recurrent Glimpse-based Decoder for Detection with TransformerZhe Chen, Jing Zhang, Dacheng Tao. 5250-5259 [doi]

Mobile-Former: Bridging MobileNet and TransformerYinpeng Chen, Xiyang Dai, Dongdong Chen, Mengchen Liu, Xiaoyi Dong, Lu Yuan, Zicheng Liu 0001. 5260-5269 [doi]

Unsupervised Domain Generalization by Learning a Bridge Across DomainsSivan Harary, Eli Schwartz, Assaf Arbelle, Peter W. J. Staar, Shady Abu Hussein, Elad Amrani, Roei Herzig, Amit Alfassy, Raja Giryes, Hilde Kuehne, Dina Katabi, Kate Saenko, Rogério Feris, Leonid Karlinsky. 5270-5280 [doi]

SIGMA: Semantic-complete Graph Matching for Domain Adaptive Object DetectionWuyang Li, Xinyu Liu, Yixuan Yuan. 5281-5290 [doi]

Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object DetectionJiaxi Wu, Jiaxin Chen, Mengzhe He, Yiru Wang, Bo Li, Bingqi Ma, Weihao Gan, Wei Wu, Yali Wang, Di Huang 0001. 5291-5300 [doi]

PNP: Robust Learning from Noisy Labels by Probabilistic Noise PredictionZeren Sun, Fumin Shen, Dan Huang, Qiong Wang, Xiangbo Shu, Yazhou Yao, Jinhui Tang 0001. 5301-5310 [doi]

Few-Shot Object Detection with Fully Cross-TransformerGuangxing Han, Jiawei Ma, Shiyuan Huang, Long Chen 0016, Shih-Fu Chang. 5311-5320 [doi]

Task Discrepancy Maximization for Fine-grained Few-Shot ClassificationSu Been Lee, WonJun Moon, Jae-Pil Heo. 5321-5330 [doi]

Leveraging Self-Supervision for Cross-Domain Crowd CountingWeizhe Liu, Nikita Durasov, Pascal Fua. 5331-5342 [doi]

What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactionsA. S. M. Iftekhar, Hao Chen, Kaustav Kundu, Xinyu Li, Joseph Tighe, Davide Modolo. 5343-5353 [doi]

AdaMixer: A Fast-Converging Query-Based Object DetectorZiteng Gao, Limin Wang 0002, Bing Han, Sheng Guo 0005. 5354-5363 [doi]

Correlation Verification for Image RetrievalSeongwon Lee, Hongje Seong, Suhyeon Lee 0002, Euntai Kim. 5364-5374 [doi]

Real-time Object Detection for Streaming PerceptionJinrong Yang, Songtao Liu, Zeming Li, Xiaoping Li, Jian Sun. 5375-5385 [doi]

Deep Visual Geo-localization BenchmarkGabriele Moreno Berton, Riccardo Mereu, Gabriele Trivigno, Carlo Masone, Gabriela Csurka, Torsten Sattler, Barbara Caputo. 5386-5397 [doi]

RendNet: Unified 2D/3D Recognizer with Latent Space RenderingRuoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li. 5398-5407 [doi]

Sparse Fuse Dense: Towards High Quality 3D Detection with Depth CompletionXiaopei Wu, Liang Peng, Honghui Yang, Liang Xie 0003, Chenxi Huang, Chengqi Deng, Haifeng Liu, Deng Cai 0001. 5408-5417 [doi]

Focal Sparse Convolutional Networks for 3D Object DetectionYukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, Jiaya Jia. 5418-5427 [doi]

Point-NeRF: Point-based Neural Radiance FieldsQiangeng Xu, Zexiang Xu, Julien Philip, Sai Bi, Zhixin Shu, Kalyan Sunkavalli, Ulrich Neumann. 5428-5438 [doi]

NeRFusion: Fusing Radiance Fields for Large-Scale Scene ReconstructionXiaoshuai Zhang, Sai Bi, Kalyan Sunkavalli, Hao Su 0001, Zexiang Xu. 5439-5448 [doi]

Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields ReconstructionCheng Sun 0004, Min Sun, Hwann-Tzong Chen. 5449-5459 [doi]

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance FieldsJonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman. 5460-5469 [doi]

RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse InputsMichael Niemeyer, Jonathan T. Barron, Ben Mildenhall, Mehdi S. M. Sajjadi, Andreas Geiger 0001, Noha Radwan. 5470-5480 [doi]

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance FieldsDor Verbin, Peter Hedman, Ben Mildenhall, Todd E. Zickler, Jonathan T. Barron, Pratul P. Srinivasan. 5481-5490 [doi]

Plenoxels: Radiance Fields without Neural NetworksSara Fridovich-Keil, Alex Yu, Matthew Tancik, Qinhong Chen, Benjamin Recht, Angjoo Kanazawa. 5491-5500 [doi]

Neural 3D Scene Reconstruction with the Manhattan-world AssumptionHaoyu Guo, Sida Peng, Haotong Lin, Qianqian Wang, Guofeng Zhang 0001, Hujun Bao, Xiaowei Zhou. 5501-5510 [doi]

Neural 3D Video Synthesis from Multi-view VideoTianye Li, Mira Slavcheva, Michael Zollhöfer, Simon Green, Christoph Lassner, Changil Kim 0001, Tanner Schmidt, Steven Lovegrove, Michael Goesele, Richard A. Newcombe, Zhaoyang Lv. 5511-5521 [doi]

Learning to Solve Hard Minimal ProblemsPetr Hruby, Timothy Duff, Anton Leykin, Tomás Pajdla. 5522-5532 [doi]

Learning a Structured Latent Space for Unsupervised Point Cloud CompletionYingjie Cai, Kwan-Yee Lin, Chao Zhang, Qiang Wang 0023, Xiaogang Wang 0001, Hongsheng Li 0001. 5533-5543 [doi]

Lepard: Learning partial point cloud matching in rigid and deformable scenesYang Li, Tatsuya Harada. 5544-5554 [doi]

IRON: Inverse Rendering by Optimizing Neural SDFs and Materials from Photometric ImagesKai Zhang, Fujun Luan, Zhengqi Li, Noah Snavely. 5555-5564 [doi]

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic SegmentationDamien Robert, Bruno Vallet, Loïc Landrieu. 5565-5574 [doi]

HyperDet3D: Learning a Scene-conditioned 3D Object DetectorYu Zheng, Yueqi Duan, Jiwen Lu, Jie Zhou 0001, Qi Tian 0001. 5575-5584 [doi]

KeyTr: Keypoint Transporter for 3D Reconstruction of Deformable Objects in VideosDavid Novotný, Ignacio Rocco, Samarth Sinha, Alexandre Carlier, Gael Kerchenbaum, Roman Shapovalov, Nikita Smetanin, Natalia Neverova, Benjamin Graham, Andrea Vedaldi. 5585-5594 [doi]

SelfRecon: Self Reconstruction Your Digital Avatar from Monocular VideoBoyi Jiang, Yang Hong 0003, Hujun Bao, Juyong Zhang. 5595-5605 [doi]

Ditto: Building Digital Twins of Articulated Objects from InteractionZhenyu Jiang 0002, Cheng-chun Hsu, Yuke Zhu. 5606-5616 [doi]

Bijective Mapping Network for Shadow RemovalYurui Zhu, Jie Huang, Xueyang Fu, Feng Zhao, Qibin Sun, Zheng-Jun Zha. 5617-5626 [doi]

Toward Fast, Flexible, and Robust Low-Light Image EnhancementLong Ma 0002, Tengyu Ma 0004, Risheng Liu, Xin Fan 0001, Zhongxuan Luo. 5627-5636 [doi]

Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurementsDongdong Chen 0004, Julián Tachella, Mike E. Davies. 5637-5646 [doi]

Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-ResolutionJie Liang, Hui Zeng, Lei Zhang. 5647-5656 [doi]

Dual Adversarial Adaptation for Cross-Device Real-World Image Super-ResolutionXiaoqian Xu, Pengxu Wei, Weikai Chen 0001, Yang Liu, Mingzhi Mao, Liang Lin, Guanbin Li. 5657-5666 [doi]

SphereSR: 360° Image Super-Resolution with Arbitrary Projection via Continuous Spherical Image RepresentationYoungHo Yoon, Inchul Chung, Lin Wang, Kuk-Jin Yoon. 5667-5676 [doi]

Learning Trajectory-Aware Transformer for Video Super-ResolutionChengxu Liu, Huan Yang 0005, Jianlong Fu, Xueming Qian. 5677-5686 [doi]

Discrete Cosine Transform Network for Guided Depth Map Super-ResolutionZixiang Zhao, Jiangshe Zhang 0001, Shuang Xu, Zudi Lin, Hanspeter Pfister. 5687-5697 [doi]

Faithful Extreme Rescaling via Generative Prior Reciprocated Invertible RepresentationsZhixuan Zhong, Liangyu Chai, Yang Zhou, BaiLin Deng, Jia Pan, Shengfeng He. 5698-5707 [doi]

ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive CodingDailan He, Ziming Yang, Weikun Peng, Rui Ma, Hongwei Qin, Yan Wang. 5708-5717 [doi]

Restormer: Efficient Transformer for High-Resolution Image RestorationSyed Waqas Zamir, Aditya Arora, Salman Khan 0001, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang 0001. 5718-5729 [doi]

Deep Rectangling for Image Stitching: A Learning BaselineLang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao 0001. 5730-5738 [doi]

Parametric Scattering NetworksShanel Gauthier, Benjamin Thérien, Laurent Alsène-Racicot, Muawiz Chaudhary, Irina Rish, Eugene Belilovsky, Michael Eickenberg, Guy Wolf. 5739-5748 [doi]

Burst Image Restoration and EnhancementAkshay Dudhane, Syed Waqas Zamir, Salman Khan 0001, Fahad Shahbaz Khan, Ming-Hsuan Yang 0001. 5749-5758 [doi]

MAXIM: Multi-Axis MLP for Image ProcessingZhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li. 5759-5770 [doi]

Event-aided Direct Sparse OdometryJavier Hidalgo-Carrió, Guillermo Gallego 0002, Davide Scaramuzza 0001. 5771-5780 [doi]

CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow EstimationHaisong Liu, Tao Lu, Yihui Xu, Jia Liu, Wenjie Li, Lijun Chen 0006. 5781-5791 [doi]

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object DetectionJinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong, Zhongxuan Luo. 5792-5801 [doi]

Image Dehazing Transformer with Transmission-Aware 3D Position EmbeddingChunle Guo, Qixin Yan, Saeed Anwar, Runmin Cong, Wenqi Ren, Chongyi Li. 5802-5810 [doi]

Unsupervised Deraining: Where Contrastive Learning Meets Self-similarityYuntong Ye, Changfeng Yu, Yi Chang 0002, Lin Zhu, Xi-Le Zhao, Luxin Yan, YongHong Tian. 5811-5820 [doi]

Towards Multi-domain Single Image Dehazing via Test-time TrainingHuan Liu, Zijun Wu, Liangyan Li, Sadaf Salehkalaibar, Jun Chen 0005, Keyan Wang. 5821-5830 [doi]

Physically Disentangled Intra- and Inter-domain Adaptation for Varicolored Haze RemovalYi Li 0033, Yi Chang 0002, Yan Gao, Changfeng Yu, Luxin Yan. 5831-5840 [doi]

Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality AssessmentYue Cao, Zhaolin Wan, Dongwei Ren, Zifei Yan, Wangmeng Zuo. 5841-5851 [doi]

Practical Learned Lossless JPEG Recompression with Multi-Level Cross-Channel Entropy Model in the DCT DomainLina Guo, Xinjie Shi, Dailan He, Yuanyuan Wang, Rui Ma, Hongwei Qin, Yan Wang. 5852-5861 [doi]

Neural Compression-Based Feature Learning for Video RestorationCong Huang, Jiahao Li, Bin Li, Dong Liu 0002, Yan Lu. 5862-5871 [doi]

Bi-directional Object-Context Prioritization Learning for Saliency RankingXin Tian, Ke Xu 0010, Xin Yang, Lin Du, Baocai Yin, Rynson W. H. Lau. 5872-5881 [doi]

URetinex-Net: Retinex-based Deep Unfolding Network for Low-light Image EnhancementWenhui Wu, Jian Weng, Pingping Zhang, Xu Wang, Wenhan Yang, Jianmin Jiang. 5891-5900 [doi]

A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolutionJianqi Ma, Zhetong Liang, Lei Zhang. 5901-5910 [doi]

Coarse-To-Fine Deep Video Coding with Hyperprior-Guided Mode PredictionZhihao Hu, Guo Lu, Jinyang Guo, Shan Liu, Wei Jiang, Dong Xu 0001. 5911-5920 [doi]

Task Decoupled Framework for Reference-based Super-ResolutionYixuan Huang, Xiaoyun Zhang, Yu Fu, Siheng Chen, Ya Zhang 0002, Yanfeng Wang, Dazhi He. 5921-5930 [doi]

Learning Semantic Associations for Mirror DetectionHuankang Guan, Jiaying Lin, Rynson W. H. Lau. 5931-5940 [doi]

SketchEdit: Mask-Free Local Image Manipulation with Partial SketchesYu Zeng, Zhe Lin, Vishal M. Patel. 5941-5951 [doi]

Investigating Tradeoffs in Real-World Video Super-ResolutionKelvin C. K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy. 5952-5961 [doi]

BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and AlignmentKelvin C. K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy. 5962-5971 [doi]

Inertia-Guided Flow Completion and Style Fusion for Video InpaintingKaidong Zhang, Jingjing Fu, Dong Liu. 5972-5981 [doi]

Joint Global and Local Hierarchical Priors for Learned Image CompressionJun Hyuk Kim, Byeongho Heo, Jong-Seok Lee. 5982-5991 [doi]

Reflash Dropout in Image Super-ResolutionXiangtao Kong, Xina Liu, Jinjin Gu, Yu Qiao, Chao Dong. 5992-6002 [doi]

Towards Robust Rain Removal Against Adversarial Attacks: A Comprehensive Benchmark Analysis and BeyondYi Yu, Wenhan Yang, Yap-Peng Tan, Alex C. Kot. 6003-6012 [doi]

Dreaming to Prune Image Deraining NetworksWeiqi Zou, Yang Wang, Xueyang Fu, Yang Cao. 6013-6022 [doi]

LC-FDNet: Learned Lossless Image Compression with Frequency Decomposition NetworkHochang Rhee, Yeong Il Jang, Seyun Kim, Nam Ik Cho. 6023-6032 [doi]

Exposure Normalization and Compensation for Multiple-Exposure CorrectionJie Huang, Yajing Liu, Xueyang Fu, Man Zhou, Yang Wang, Feng Zhao, Zhiwei Xiong. 6033-6042 [doi]

Revisiting Temporal Alignment for Video RestorationKun Zhou, Wenbo Li, Liying Lu, Xiaoguang Han 0001, Jiangbo Lu. 6043-6052 [doi]

LSVC: A Learning-based Stereo Video Compression FrameworkZhenghao Chen, Guo Lu, Zhihao Hu, Shan Liu, Wei Jiang, Dong Xu. 6063-6072 [doi]

Learning based Multi-modality Image and Video CompressionGuo Lu, Tianxiong Zhong, Jing Geng, Qiang Hu, Dong Xu. 6073-6082 [doi]

Transformer Based Line Segment Classifier with Image Context for Real-Time Vanishing Point Detection in Manhattan WorldXin Tong, Xianghua Ying, Yongjie Shi, Ruibin Wang, Jinfa Yang. 6083-6092 [doi]

Deep vanishing point detection: Geometric priors make dataset variations vanishYancong Lin, Ruben Wiersma, Silvia L. Pintea, Klaus Hildebrandt, Elmar Eisemann, Jan C. van Gemert. 6093-6103 [doi]

Stereo Depth from Events Cameras: Concentrate and Focus on the FutureYeongwoo Nam, S. Mohammad Mostafavi I., Kuk-Jin Yoon, Jonghyun Choi. 6104-6113 [doi]

Volumetric Bundle Adjustment for Online Photorealistic Scene CaptureRonald Clark. 6114-6122 [doi]

Neural Volumetric Object SelectionZhongzheng Ren, Aseem Agarwala, Bryan C. Russell, Alexander G. Schwing, Oliver Wang. 6123-6132 [doi]

HVH: Learning a Hybrid Neural Volumetric Representation for Dynamic Hair Performance CaptureZiyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Michael Zollhöfer, Jessica K. Hodgins, Christoph Lassner. 6133-6144 [doi]

NeuralHOFusion: Neural Volumetric Rendering under Human-object InteractionsYuheng Jiang, Suyi Jiang, Guoxing Sun, Zhuo Su 0006, Kaiwen Guo, Minye Wu, Jingyi Yu, Lan Xu. 6145-6155 [doi]

BNV-Fusion: Dense 3D Reconstruction using Bi-level Neural Volume FusionKejie Li, Yansong Tang, Victor Adrian Prisacariu, Philip H. S. Torr. 6156-6165 [doi]

Input-level Inductive Biases for 3D ReconstructionWang YiFan, Carl Doersch, Relja Arandjelovic, João Carreira, Andrew Zisserman. 6166-6176 [doi]

Multi-View Mesh Reconstruction with Neural Deferred ShadingMarkus Worchel, Rodrigo Diaz, Weiwen Hu, Oliver Schreer, Ingo Feldmann, Peter Eisert. 6177-6187 [doi]

StyleMesh: Style Transfer for Indoor 3D Scene ReconstructionsLukas Höllein, Justin Johnson 0001, Matthias Nießner. 6188-6198 [doi]

RGB-Depth Fusion GAN for Indoor Depth CompletionHaowen Wang, Mingyuan Wang, Zhengping Che, Zhiyuan Xu, Xiuquan Qiao, Mengshi Qi, Feifei Feng, Jian Tang. 6199-6208 [doi]

PlanarRecon: Realtime 3D Plane Detection and Reconstruction from Posed Monocular VideosYiming Xie, Matheus Gadelha, Fengting Yang, Xiaowei Zhou, Huaizu Jiang. 6209-6218 [doi]

Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene RepresentationsMehdi S. M. Sajjadi, Henning Meyer, Etienne Pot, Urs Bergmann, Klaus Greff, Noha Radwan, Suhani Vora, Mario Lucic, Daniel Duckworth, Alexey Dosovitskiy, Jakob Uszkoreit, Thomas A. Funkhouser, Andrea Tagliasacchi. 6219-6228 [doi]

ShapeFormer: Transformer-based Shape Completion via Sparse RepresentationXingguang Yan, Liqiang Lin, Niloy J. Mitra, Dani Lischinski, Daniel Cohen-Or, Hui Huang 0004. 6229-6239 [doi]

GuideFormer: Transformers for Image Guided Depth CompletionKyeongha Rho, Jinsung Ha, Youngjung Kim. 6240-6249 [doi]

Improving neural implicit surfaces geometry with patch warpingFrançois Darmon, Bénédicte Bascle, Jean-Clément Devaux, Pascal Monasse, Mathieu Aubry. 6250-6259 [doi]

Critical Regularizations for Neural Surface Reconstruction in the WildJingyang Zhang, Yao Yao 0008, Shiwei Li, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan. 6260-6269 [doi]

Gradient-SDF: A Semi-Implicit Surface Representation for 3D ReconstructionChristiane Sommer, Lu Sang, David Schubert, Daniel Cremers. 6270-6279 [doi]

Neural RGB-D Surface ReconstructionDejan Azinovic, Ricardo Martin-Brualla, Dan B. Goldman, Matthias Nießner, Justus Thies. 6280-6291 [doi]

POCO: Point Convolution for Surface ReconstructionAlexandre Boulch, Renaud Marlet. 6292-6304 [doi]

Reconstructing Surfaces for Sparse Point Clouds with On-Surface PriorsBaorui Ma, Yu-Shen Liu, Zhizhong Han. 6305-6315 [doi]

Surface Reconstruction from Point Clouds by Learning Predictive Context PriorsBaorui Ma, Yu-Shen Liu, Matthias Zwicker, Zhizhong Han. 6316-6327 [doi]

IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding AlignmentYiming Zeng, Yue Qian, Qijian Zhang, Junhui Hou, Yixuan Yuan, Ying He. 6328-6337 [doi]

Deterministic Point Cloud Registration via Novel Transformation DecompositionWen Chen, Haoang Li, Qiang Nie, Yun-Hui Liu. 6338-6346 [doi]

Global-Aware Registration of Less-Overlap RGB-D ScansChe Sun, Yunde Jia, Yi Guo, Yuwei Wu. 6347-6356 [doi]

Finding Good Configurations of Planar Primitives in Unorganized Point CloudsMulin Yu, Florent Lafarge. 6357-6366 [doi]

Self-Supervised Global-Local Structure Modeling for Point Cloud Domain Adaptation with Reliable Voted Pseudo LabelsHehe Fan, Xiaojun Chang, Wanyue Zhang, Yi Cheng, Ying Sun, Mohan S. Kankanhalli. 6367-6376 [doi]

AziNorm: Exploiting the Radial Symmetry of Point Cloud for Azimuth-Normalized 3D PerceptionShaoyu Chen, Xinggang Wang, Tianheng Cheng, Wenqiang Zhang, Qian Zhang, Chang Huang, Wenyu Liu 0001. 6377-6386 [doi]

WarpingGAN: Warping Multiple Uniform Priors for Adversarial 3D Point Cloud GenerationYingzhi Tang, Yue Qian, Qijian Zhang, Yiming Zeng, Junhui Hou, Xuefei Zhe. 6387-6395 [doi]

Forward Propagation, Backward Regression, and Pose Association for Hand Tracking in the WildMingzhen Huang, Supreeth Narasimhaswamy, Saif Vazir, Haibin Ling, Minh Hoai. 6396-6406 [doi]

Neural MoCon: Neural Motion Control for Physically Plausible Human Motion CaptureBuzhen Huang, Liang Pan, Yuan Yang, Jingyi Ju, Yangang Wang. 6407-6416 [doi]

MotionAug: Augmentation with Physical Correction for Human Motion PredictionTakahiro Maeda, Norimichi Ukita. 6417-6426 [doi]

Progressively Generating Better Initial Guesses Towards Next Stages for High-Quality Human Motion PredictionTiezheng Ma, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li. 6427-6436 [doi]

Spatio-Temporal Gating-Adjacency GCN for Human Motion PredictionChongyang Zhong, Lei Hu, Zihao Zhang, Yongjing Ye, Shihong Xia. 6437-6446 [doi]

Motron: Multimodal Probabilistic Human Motion ForecastingTim Salzmann, Marco Pavone, Markus Ryll. 6447-6456 [doi]

Human Trajectory Prediction with Momentary ObservationJianhua Sun 0003, Yuxuan Li, Liang Chai, Haoshu Fang, Yong-Lu Li, Cewu Lu. 6457-6466 [doi]

Non-Probability Sampling Network for Stochastic Human Trajectory PredictionInhwan Bae, Jin-Hwi Park, Hae-Gon Jeon. 6467-6477 [doi]

Remember Intentions: Retrospective-Memory-based Trajectory PredictionChenxin Xu, Weibo Mao, Wenjun Zhang, Siheng Chen. 6478-6487 [doi]

GroupNet: Multiscale Hypergraph Neural Networks for Trajectory Prediction with Relational ReasoningChenxin Xu, Maosen Li, Zhenyang Ni, Ya Zhang, Siheng Chen. 6488-6497 [doi]

Learning Pixel Trajectories with Multiscale Contrastive Random WalksZhangxing Bian, Allan Jabri, Alexei A. Efros, Andrew Owens. 6498-6509 [doi]

Adaptive Trajectory Prediction via Transferable GNNYi Xu 0005, Lichen Wang, Yizhou Wang 0006, Yun Fu 0001. 6510-6521 [doi]

Neural Prior for Trajectory EstimationChaoyang Wang, Xueqian Li, Jhony Kaesemodel Pontes, Simon Lucey. 6522-6532 [doi]

M2I: From Factored Marginal Trajectory Prediction to Interactive PredictionQiao Sun, Xin Huang, Junru Gu, Brian C. Williams, Hang Zhao. 6533-6542 [doi]

How many Observations are Enough? Knowledge Distillation for Trajectory ForecastingAlessio Monti, Angelo Porrello, Simone Calderara, Pasquale Coscia, Lamberto Ballan, Rita Cucchiara. 6543-6552 [doi]

ATPFL: Automatic Trajectory Prediction Model Design under Federated Learning FrameworkChunnan Wang, Xiang Chen, Junzhe Wang, Hongzhi Wang 0001. 6553-6562 [doi]

Whose Track Is It Anyway? Improving Robustness to Tracking Errors with Affinity-based Trajectory PredictionXinshuo Weng, Boris Ivanovic, Kris Kitani, Marco Pavone. 6563-6572 [doi]

Convolutions for Spatial Interaction ModelingZhaoen Su, Chao Wang, David Bradley, Carlos Vallespi-Gonzalez, Carl Wellington, Nemanja Djuric. 6573-6582 [doi]

Style-ERD: Responsive and Coherent Online Motion Style TransferTianxin Tao, Xiaohang Zhan, Zhongquan Chen, Michiel van de Panne. 6583-6593 [doi]

Neural Inertial LocalizationSachini Herath, David Caruso, Chen Liu, Yufan Chen, Yasutaka Furukawa. 6594-6603 [doi]

RIO: Rotation-equivariance supervised learning of robust inertial odometryXiya Cao, Caifa Zhou, Dandan Zeng, Yongliang Wang. 6604-6613 [doi]

CaDeX: Learning Canonical Deformation Coordinate Space for Dynamic Surface Representation via Neural HomeomorphismJiahui Lei, Kostas Daniilidis. 6614-6624 [doi]

ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera Elevation and Learning Normalizing Flows on 2D PosesBastian Wandt, James J. Little, Helge Rhodin. 6625-6635 [doi]

Projective Manifold Gradient Layer for Deep Rotation RegressionJiayi Chen, Yingda Yin, Tolga Birdal, Baoquan Chen, Leonidas J. Guibas, He Wang 0010. 6636-6645 [doi]

Multimodal Colored Point Cloud to Image AlignmentNoam Rotstein, Amit Bracha, Ron Kimmel. 6646-6656 [doi]

Multi-instance Point Cloud Registration by Efficient Correspondence ClusteringWeixuan Tang, Danping Zou. 6657-6666 [doi]

REGTR: End-to-end Point Cloud Correspondences with TransformersZi Jian Yew, Gim Hee Lee. 6667-6676 [doi]

Text2Pos: Text-to-Point-Cloud Cross-Modal LocalizationManuel Kolmet, Qunjie Zhou, Aljosa Osep, Laura Leal-Taixé. 6677-6686 [doi]

BCOT: A Markerless High-Precision 3D Object Tracking BenchmarkJiachen Li, Bin Wang, Shiqiang Zhu, Xin Cao, Fan Zhong, Wenxuan Chen, Te Li, Jason Gu, Xueying Qin. 6687-6696 [doi]

SAR-Net: Shape Alignment and Recovery Network for Category-level 6D Object Pose and Size EstimationHaitao Lin, Zichang Liu, Chilam Cheang, Yanwei Fu, Guodong Guo, Xiangyang Xue. 6697-6707 [doi]

ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression FrameworkNingkai Mo, Wanshui Gan, Naoto Yokoya, Shifeng Chen. 6708-6717 [doi]

Coupled Iterative Refinement for 6D Multi-Object Pose EstimationLahav Lipson, Zachary Teed, Ankit Goyal, Jia Deng 0001. 6718-6727 [doi]

ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose EstimationYongzhi Su, Mahdi Saleh, Torben Fetzer, Jason R. Rambach, Nassir Navab, Benjamin Busam, Didier Stricker, Federico Tombari. 6728-6738 [doi]

SurfEmb: Dense and Continuous Correspondence Distributions for Object Pose Estimation with Learnt Surface EmbeddingsRasmus Laurvig Haugaard, Anders Glent Buch. 6739-6748 [doi]

MetaPose: Fast 3D Pose from Multiple Views without 3D SupervisionBen Usman, Andrea Tagliasacchi, Kate Saenko, Avneesh Sud. 6749-6760 [doi]

Templates for 3D Object Pose Estimation Revisited: Generalization to New Objects and Robustness to OcclusionsVan Nguyen Nguyen, Yinlin Hu, Yang Xiao 0009, Mathieu Salzmann, Vincent Lepetit. 6761-6770 [doi]

GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise VotingYan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab, Federico Tombari. 6771-6781 [doi]

HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor Space Using Wearable IMUs and LiDARYudi Dai, Yitai Lin, Chenglu Wen, Siqi Shen, Lan Xu, Jingyi Yu, Yuexin Ma, Cheng Wang 0003. 6782-6792 [doi]

OVE6D: Object Viewpoint Encoding for Depth-based 6D Object Pose EstimationDingding Cai, Janne Heikkilä, Esa Rahtu. 6793-6803 [doi]

FS6D: Few-Shot 6D Pose Estimation of Novel ObjectsYisheng He, Yao Wang, Haoqiang Fan, Jian Sun, Qifeng Chen. 6804-6814 [doi]

OnePose: One-Shot Object Pose Estimation without CAD ModelsJiaming Sun, Zihao Wang, Siyu Zhang, Xingyi He, Hongcheng Zhao, Guofeng Zhang 0001, Xiaowei Zhou. 6815-6824 [doi]

OSOP: A Multi-Stage One Shot Object Pose Estimation FrameworkIvan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic. 6825-6834 [doi]

DiffPoseNet: Direct Differentiable Camera Pose EstimationChethan M. Parameshwara, Gokul Hari, Cornelia Fermüller, Nitin J. Sanket, Yiannis Aloimonos. 6835-6844 [doi]

Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless ObjectsManuel Stoiber, Martin Sundermeyer, Rudolph Triebel. 6845-6855 [doi]

CPPF: Towards Robust Category-Level 9D Pose Estimation in the WildYang You, Ruoxi Shi, Weiming Wang, Cewu Lu. 6856-6865 [doi]

Leveraging Equivariant Features for Absolute Pose RegressionMohamed Adel Musallam, Vincent Gaudillière, Miguel Ortiz Del Castillo, Kassem Al Ismaeil, Djamila Aouada. 6866-6876 [doi]

The Majority Can Help the Minority: Context-rich Minority Oversampling for Long-tailed ClassificationSeulki Park, Youngkyu Hong, Byeongho Heo, Sangdoo Yun, Jin Young Choi 0002. 6877-6886 [doi]

Long- Tailed Recognition via Weight BalancingShaden Alshammari, Yu-Xiong Wang, Deva Ramanan, Shu Kong. 6887-6897 [doi]

Balanced Contrastive Learning for Long-Tailed Visual RecognitionJianggang Zhu, Zheng Wang, Jingjing Chen, Yi-Ping Phoebe Chen, Yu-Gang Jiang. 6898-6907 [doi]

Targeted Supervised Contrastive Learning for Long-Tailed RecognitionTianhong Li, Peng Cao, Yuan Yuan 0002, Lijie Fan, Yuzhe Yang, Rogério Feris, Piotr Indyk, Dina Katabi. 6908-6918 [doi]

Long-tailed Visual Recognition via Gaussian Clouded Logit AdjustmentMengke Li, Yiu-ming Cheung, Yang Lu. 6919-6928 [doi]

Long-tail Recognition via Compositional Knowledge TransferSarah Parisot, Pedro M. Esperança, Steven McDonagh, Tamas J. Madarasz, Yongxin Yang, Zhenguo Li. 6929-6938 [doi]

Nested Collaborative Learning for Long-Tailed Visual RecognitionJun Li, Zichang Tan, Jun Wan 0001, Zhen Lei 0001, Guodong Guo. 6939-6948 [doi]

Retrieval Augmented Classification for Long-Tail Visual RecognitionAlexander Long, Wei Yin 0006, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel. 6949-6959 [doi]

Trustworthy Long-Tailed ClassificationBolian Li, Zongbo Han, HaiNing Li, Huazhu Fu, Changqing Zhang. 6960-6969 [doi]

C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object DetectionTong Wang, Yousong Zhu, Yingying Chen 0003, Chaoyang Zhao, Bin Yu, Jinqiao Wang, Ming Tang 0001. 6970-6979 [doi]

Equalized Focal Loss for Dense Long-Tailed Object DetectionBo Li, Yongqiang Yao, Jingru Tan, Gang Zhang, Fengwei Yu, Jianwei Lu, Ye Luo. 6980-6989 [doi]

Relieving Long-tailed Instance Segmentation via Pairwise Class BalanceYin-Yin He, Peizhen Zhang, Xiu-Shen Wei, Xiangyu Zhang 0005, Jian Sun. 6990-6999 [doi]

iFS-RCNN: An Incremental Few-shot Instance SegmenterKhoi Nguyen, Sinisa Todorovic. 7000-7009 [doi]

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-LabelingDat Huynh, Jason Kuen, Zhe Lin, Jiuxiang Gu, Ehsan Elhamifar. 7010-7021 [doi]

SimT: Handling Open-set Noise for Domain Adaptive Semantic SegmentationXiaoqing Guo, Jie Liu, Tongliang Liu, Yixuan Yuan. 7022-7031 [doi]

Undoing the Damage of Label Shift for Cross-domain Semantic SegmentationYahao Liu, Jinhong Deng, Jiale Tao, Tong Chu, Lixin Duan, Wen Li 0001. 7032-7042 [doi]

Representation Compensation Networks for Continual Semantic SegmentationChang-Bin Zhang, Jia-Wen Xiao, Xialei Liu, Ying-Cong Chen, Ming-Ming Cheng. 7043-7054 [doi]

Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory TransferWenjian Wang, Lijuan Duan, Yuxi Wang, Qing En, Junsong Fan, Zhaoxiang Zhang. 7055-7064 [doi]

Domain-Agnostic Prior for Transfer Semantic SegmentationXinyue Huo, Lingxi Xie, Hengtong Hu, Wengang Zhou, Houqiang Li, Qi Tian 0001. 7065-7075 [doi]

Image Segmentation Using Text and Image PromptsTimo Lüddecke, Alexander S. Ecker. 7076-7086 [doi]

PCL: Proxy-based Contrastive Learning for Domain GeneralizationXufeng Yao, Yang Bai, Xinyun Zhang, Yuechen Zhang, Qi Sun, Ran Chen, Ruiyu Li, Bei Yu 0001. 7087-7097 [doi]

Localized Adversarial Domain GeneralizationWei Zhu 0015, Le Lu 0001, Jing Xiao 0006, Mei Han, Jiebo Luo, Adam P. Harrison. 7098-7108 [doi]

Compound Domain Generalization via Meta-Knowledge EncodingChaoqi Chen, JiongCheng Li, Xiaoguang Han 0001, Xiaoqing Liu, Yizhou Yu. 7109-7119 [doi]

Style Neophile: Constantly Seeking Novel Styles for Domain GeneralizationJuwon Kang, Sohyun Lee, Namyup Kim, Suha Kwak. 7120-7130 [doi]

Slimmable Domain AdaptationRang Meng, Weijie Chen, Shicai Yang, Jie Song, Luojun Lin, Di Xie, Shiliang Pu, Xinchao Wang, Mingli Song, Yueting Zhuang. 7131-7140 [doi]

Exploring Domain-Invariant Parameters for Source Free Domain AdaptationFan Wang, Zhongyi Han, Yongshun Gong, Yilong Yin. 7141-7150 [doi]

Cross-domain Few-shot Learning with Task-specific AdaptersWei-Hong Li, Xialei Liu, Hakan Bilen. 7151-7160 [doi]

Task-Adaptive Negative Envision for Few-Shot Open-Set RecognitionShiyuan Huang, Jiawei Ma, Guangxing Han, Shih-Fu Chang. 7161-7170 [doi]

Reusing the Task-specific Classifier as a Discriminator: Discriminator-free Adversarial Domain AdaptationLin Chen, Huaian Chen, Zhixiang Wei, Xin Jin, Xiao Tan, Yi Jin, Enhong Chen. 7171-7180 [doi]

Safe Self-Refinement for Transformer-based Domain AdaptationTao Sun, Cheng Lu 0006, Tianshuo Zhang, Haibin Ling. 7181-7190 [doi]

Continual Test-Time Domain AdaptationQin Wang 0013, Olga Fink, Luc Van Gool, Dengxin Dai. 7191-7201 [doi]

Source-Free Domain Adaptation via Distribution EstimationNing Ding, Yixing Xu, Yehui Tang, Chao Xu 0006, Yunhe Wang 0001, Dacheng Tao. 7202-7212 [doi]

Domain Adaptation on Point Clouds via Geometry-Aware ImplicitsYuefan Shen, Yanchao Yang, Mi Yan, He Wang 0010, Youyi Zheng, Leonidas J. Guibas. 7213-7222 [doi]

Deformation and Correspondence Aware Unsupervised Synthetic-to-Real Scene Flow Estimation for Point CloudsZhao Jin, Yinjie Lei, Naveed Akhtar, Haifeng Li 0007, Munawar Hayat. 7223-7233 [doi]

Hyperspherical Consistency RegularizationCheng Tan 0012, Zhangyang Gao, Lirong Wu, Siyuan Li, Stan Z. Li. 7234-7245 [doi]

BatchFormer: Learning to Explore Sample Relationships for Robust Representation LearningZhi Hou, Baosheng Yu, Dacheng Tao. 7246-7256 [doi]

Cascade Transformers for End-to-End Person SearchRui Yu, Dawei Du, Rodney LaLonde, Daniel Davila, Christopher Funk, Anthony Hoogs, Brian Clipp. 7257-7266 [doi]

Delving Deep into the Generalization of Vision Transformers under Distribution ShiftsChongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou, Zhongang Cai, Haiyu Zhao, Xianglong Liu, Ziwei Liu 0002. 7267-7276 [doi]

MPViT: Multi-Path Vision Transformer for Dense PredictionYoungwan Lee, Jonghee Kim, Jeffrey Willette, Sung Ju Hwang. 7277-7286 [doi]

NFormer: Robust Person Re-identification with Neighbor TransformerHaochen Wang, Jiayi Shen, Yongtuo Liu, Yan Gao, Efstratios Gavves. 7287-7297 [doi]

Part-based Pseudo Label Refinement for Unsupervised Person Re-identificationYoonki Cho, Woo-Jae Kim, Seunghoon Hong, Sung-Eui Yoon. 7298-7308 [doi]

Temporal Complementarity-Guided Reinforcement Learning for Image-to-Video Person Re-IdentificationWei Wu, Jiawei Liu, Kecheng Zheng, Qibin Sun, Zhengjun Zha. 7309-7318 [doi]

Augmented Geometric Distillation for Data-Free Incremental Person ReIDYichen Lu, Mei Wang, Weihong Deng. 7319-7328 [doi]

Salient-to-Broad Transition for Video Person Re-identificationShutao Bai, Bingpeng Ma, Hong Chang, Rui Huang 0001, Xilin Chen 0001. 7329-7338 [doi]

FMCNet: Feature-Level Modality Compensation for Visible-Infrared Person Re-IdentificationQiang Zhang, Changzhou Lai, Jianan Liu, Nianchang Huang, Jungong Han. 7339-7348 [doi]

Graph Sampling Based Deep Metric Learning for Generalizable Person Re-IdentificationShengCai Liao, Ling Shao 0001. 7349-7358 [doi]

Implicit Sample Extension for Unsupervised Person Re-IdentificationXinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang 0001. 7359-7368 [doi]

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution DetectionYibo Zhou. 7369-7377 [doi]

Catching Both Gray and Black Swans: Open-set Supervised Anomaly DetectionChoubo Ding, Guansong Pang, Chunhua Shen. 7378-7388 [doi]

Fine-Grained Object Classification via Self-Supervised Pose AlignmentXuhui Yang, Yaowei Wang, Ke Chen, Yong Xu, Yonghong Tian 0001. 7389-7398 [doi]

Hyperbolic Vision Transformers: Combining Improvements in Metric LearningAleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe, Ivan V. Oseledets. 7399-7409 [doi]

Non-isotropy Regularization for Proxy-based Deep Metric LearningKarsten Roth, Oriol Vinyals, Zeynep Akata. 7410-7420 [doi]

Self-Taught Metric Learning without LabelsSungyeon Kim, Dongwon Kim, Minsu Cho, Suha Kwak. 7421-7431 [doi]

Not Just Selection, but Exploration: Online Class-Incremental Continual Learning via Dual View ConsistencyYanan Gu, Xu Yang 0019, Kun Wei, Cheng Deng. 7432-7441 [doi]

Energy-based Latent Aligner for Incremental LearningK. J. Joseph, Salman Khan 0001, Fahad Shahbaz Khan, Rao Muhammad Anwer, Vineeth N. Balasubramanian. 7442-7451 [doi]

Sketch3T: Test-Time Training for Zero-Shot SBIRAneeshan Sain, Ayan Kumar Bhunia, Vaishnav Potlapalli, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song. 7452-7461 [doi]

The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning via Pose-aware ConvolutionRonghan Chen, Yang Cong. 7462-7471 [doi]

Finding Badly Drawn BunniesLan Yang, Kaiyue Pang, Honggang Zhang 0002, Yi-Zhe Song. 7472-7481 [doi]

Generalized Category DiscoverySagar Vaze, Kai Hant, Andrea Vedaldi, Andrew Zisserman. 7482-7491 [doi]

Recall@k Surrogate Loss with Large Batches and Similarity MixupYash Patel, Giorgos Tolias, Jirí Matas. 7492-7501 [doi]

Modeling 3D Layout For Group Re-IdentificationQuan Zhang, Kaiheng Dang, Jian-Huang Lai, Zhan-Xiang Feng, Xiaohua Xie. 7502-7510 [doi]

Causal Transportability for Visual RecognitionChengzhi Mao, Kevin Xia, James Wang, Hao Wang 0014, Junfeng Yang, Elias Bareinboim, Carl Vondrick. 7511-7521 [doi]

Attributable Visual Similarity LearningBorui Zhang, Wenzhao Zheng, Jie Zhou 0001, Jiwen Lu. 7522-7531 [doi]

Bi-level Alignment for Cross-Domain Crowd CountingShenjian Gong, Shanshan Zhang, Jian Yang 0003, Dengxin Dai, Bernt Schiele. 7532-7540 [doi]

Mutual Quantization for Cross-Modal Search with Noisy LabelsErkun Yang, Dongren Yao, Tongliang Liu, Cheng Deng. 7541-7550 [doi]

Task Adaptive Parameter Sharing for Multi-Task LearningMatthew Wallingford, Hao Li, Alessandro Achille, Avinash Ravichandran, Charless C. Fowlkes, Rahul Bhotika, Stefano Soatto. 7551-7560 [doi]

Simple Multi-dataset DetectionXingyi Zhou, Vladlen Koltun, Philipp Krähenbühl. 7561-7570 [doi]

Cross-Domain Adaptive Teacher for Object DetectionYu-Jhe Li, Xiaoliang Dai, Chih-Yao Ma, Yen-Cheng Liu, Kan Chen, Bichen Wu, Zijian He, Kris Kitani, Peter Vajda. 7571-7580 [doi]

Balanced and Hierarchical Relation Learning for One-shot Object DetectionHanqing Yang, Sijia Cai, Hualian Sheng, Bing Deng, Jianqiang Huang, Xian-Sheng Hua 0001, Yong Tang, Yu Zhang. 7581-7590 [doi]

Semantic-aligned Fusion Transformer for One-shot Object DetectionYizhou Zhao, Xun Guo, Yan Lu 0001. 7591-7601 [doi]

MSDN: Mutually Semantic Distillation Network for Zero-Shot LearningShiming Chen 0002, Ziming Hong, Guo-Sen Xie, Wenhan Yang, Qinmu Peng, Kai Wang, Jian Zhao, Xinge You. 7602-7611 [doi]

Robust Region Feature Synthesizer for Zero-Shot Object DetectionPeiliang Huang, Junwei Han, De Cheng, Dingwen Zhang. 7612-7621 [doi]

Region-Aware Face SwappingChao Xu, Jiangning Zhang, Miao Hua, Qian He, Zili Yi, Yong Liu 0007. 7622-7631 [doi]

High-resolution Face Swapping via Latent Semantics DisentanglementYangyang Xu, BaiLin Deng, Junle Wang, Yanqing Jing, Jia Pan, Shengfeng He. 7632-7641 [doi]

Rethinking Deep Face RestorationYang Zhao, Yu-Chuan Su, Chun-Te Chu, Yandong Li, Marius Renn, Yukun Zhu, Changyou Chen, Xuhui Jia. 7642-7651 [doi]

Blind Face Restoration via Integrating Face Shape and Generative PriorsFeida Zhu 0002, Junwei Zhu, Wenqing Chu, Xinyi Zhang, Xiaozhong Ji, Chengjie Wang, Ying Tai. 7652-7661 [doi]

FENeRF: Face Editing in Neural Radiance FieldsJingxiang Sun, Xuan Wang, Yong Zhang, Xiaoyu Li, Qi Zhang, Yebin Liu, Jue Wang. 7662-7672 [doi]

TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial EditingYanbo Xu, Yueqin Yin, Liming Jiang, Qianyi Wu, Chengyao Zheng, Chen Change Loy, Bo Dai, Wayne Wu. 7673-7682 [doi]

Pastiche Master: Exemplar-Based High-Resolution Portrait Style TransferShuai Yang, Liming Jiang, Ziwei Liu 0002, Chen Change Loy. 7683-7692 [doi]

Self-supervised Correlation Mining Network for Person Image GenerationZijian Wang, Xingqun Qi, Kun Yuan, Muyi Sun. 7693-7702 [doi]

Exploring Dual-task Correlation for Pose Guided Person Image GenerationPengze Zhang, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie. 7703-7712 [doi]

InsetGAN for Full-Body Image GenerationAnna Frühstück, Krishna Kumar Singh, Eli Shechtman, Niloy J. Mitra, Peter Wonka, Jingwan Lu. 7713-7722 [doi]

BodyGAN: General-purpose Controllable Neural Human Body GenerationChaojie Yang, Hanhui Li, Shengjie Wu, Shengkai Zhang, Haonan Yan, Nianhong Jiao, Jie Tang, Runnan Zhou, Xiaodan Liang, Tianxiang Zheng. 7723-7732 [doi]

HumanNeRF: Efficiently Generated Human Radiance Field from Sparse InputsFuqiang Zhao, Wei Yang, Jiakai Zhang, Pei Lin, Yingliang Zhang, Jingyi Yu, Lan Xu. 7733-7743 [doi]

Structure-Aware Flow Generation for Human Body ReshapingJianqiang Ren, Yuan Yao 0013, Biwen Lei, Miaomiao Cui, Xuansong Xie. 7744-7753 [doi]

Modeling Image Composition for Complex Scene GenerationZuopeng Yang, Daqing Liu, Chaoyue Wang, Jie Yang 0002, Dacheng Tao. 7754-7763 [doi]

Local Attention Pyramid for Scene Image GenerationSang-Heon Shim, Sangeek Hyun, Dae Hyun Bae, Jae-Pil Heo. 7764-7772 [doi]

Interactive Image Synthesis with Panoptic Layout GenerationBo Wang, Tao Wu, Minfeng Zhu, Peng Du. 7773-7782 [doi]

iPLAN: Interactive and Procedural Layout PlanningFeixiang He, Yanlong Huang, He Wang 0002. 7783-7792 [doi]

E-CIR: Event-Enhanced Continuous Intensity RecoveryChen Song, Qixing Huang, Chandrajit Bajaj. 7793-7802 [doi]

Learning Robust Image-Based Rendering on Sparse Scene Geometry via Depth CompletionYuqi Sun, Shili Zhou, Ri Cheng, Weimin Tan, Bo Yan 0001, Lang Fu. 7803-7813 [doi]

Neural Rays for Occlusion-aware Image-based RenderingYuan Liu, Sida Peng, Lingjie Liu, Qianqian Wang, Peng Wang 0099, Christian Theobalt, Xiaowei Zhou, Wenping Wang. 7814-7823 [doi]

Industrial Style Transfer with Large-scale Geometric Warping and Content PreservationJinchao Yang, Fei Guo, Shuo Chen, Jun Li 0027, Jian Yang. 7824-7833 [doi]

PCA-Based Knowledge Distillation Towards Lightweight and Content-Style Balanced Photorealistic Style Transfer ModelsTai-Yin Chiu, Danna Gurari. 7834-7843 [doi]

Commonality in Natural Images Rescues GANs: Pretraining GANs with Generic and Privacy-free Synthetic DataKyungjune Baek, Hyunjung Shim. 7844-7854 [doi]

Think Twice Before Detecting GAN-generated Fake Images from their Spectral Domain ImprintsChengdong Dong, Ajay Kumar, Eryun Liu. 7855-7864 [doi]

Robust Invertible Image SteganographyYoumin Xu, Chong Mou, Yujie Hu, Jingfen Xie, Jian Zhang 0018. 7865-7874 [doi]

Distinguishing Unseen from Seen for Generalized Zero-shot LearningHongzu Su, Jingjing Li, Zhi Chen, Lei Zhu, Ke Lu 0001. 7875-7884 [doi]

Few-Shot Font Generation by Learning Fine-Grained Local StylesLicheng Tang, Yiyang Cai, Jiaming Liu, Zhibin Hong, Mingming Gong, Minhu Fan, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang 0001. 7885-7894 [doi]

XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font GenerationWei Liu, Fangyue Liu, Fei Ding, Qian He, Zili Yi. 7895-7904 [doi]

Learning to generate line drawings that convey geometry and semanticsCaroline Chan, Frédo Durand, Phillip Isola. 7905-7915 [doi]

Balanced MSE for Imbalanced Visual RegressionJiawei Ren, Mingyuan Zhang, Cunjun Yu, Ziwei Liu 0002. 7916-7925 [doi]

Transferability Metrics for Selecting Source Model EnsemblesAndrea Agostinelli, Jasper R. R. Uijlings, Thomas Mensink, Vittorio Ferrari. 7926-7936 [doi]

OoD-Bench: Quantifying and Understanding Two Dimensions of Out-of-Distribution GeneralizationNanyang Ye 0001, Kaican Li, Haoyue Bai, Runpeng Yu, Lanqing Hong, Fengwei Zhou, Zhenguo Li, Jun Zhu. 7937-7948 [doi]

Robust fine-tuning of zero-shot modelsMitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt. 7949-7961 [doi]

Joint Distribution Matters: Deep Brownian Distance Covariance for Few-Shot ClassificationJiangtao Xie, Fei Long, Jiaming Lv, Qilong Wang, Peihua Li. 7962-7971 [doi]

Learning to Learn and Remember Super Long Multi-Domain Task SequenceZhenyi Wang, Li Shen, Tiehang Duan, Donglin Zhan, Le Fang, Mingchen Gao. 7972-7982 [doi]

Learning Distinctive Margin toward Active Domain AdaptationMing Xie, Yuxi Li, Yabiao Wang, Zekun Luo, Zhenye Gan, Zhongyi Sun, Mingmin Chi, Chengjie Wang, Pei Wang. 7983-7992 [doi]

DINE: Domain Adaptation from Single and Multiple Black-box PredictorsJian Liang, Dapeng Hu, Jiashi Feng, Ran He. 7993-8003 [doi]

Source-Free Object Detection by Learning to Overlook Domain StyleShuaifeng Li, Mao Ye 0001, Xiatian Zhu, Lihua Zhou, Lin Xiong. 8004-8013 [doi]

Towards Principled Disentanglement for Domain GeneralizationHanlin Zhang, Yi-Fan Zhang, Weiyang Liu, Adrian Weller, Bernhard Schölkopf, Eric P. Xing. 8014-8024 [doi]

Exact Feature Distribution Matching for Arbitrary Style Transfer and Domain GeneralizationYabin Zhang, Minghan Li, Ruihuang Li, Kui Jia, Lei Zhang. 8025-8035 [doi]

Causality Inspired Representation Learning for Domain GeneralizationFangrui Lv, Jian Liang, Shuang Li, Bin Zang, Chi Harold Liu, Ziteng Wang, Di Liu. 8036-8046 [doi]

Learning What Not to Segment: A New Perspective on Few-Shot SegmentationChunbo Lang, Gong Cheng 0003, Binfei Tu, Junwei Han. 8047-8057 [doi]

Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic SegmentationBinhui Xie, Longhui Yuan, Shuang Li 0008, Chi Harold Liu, Xinjing Cheng. 8058-8068 [doi]

ADeLA: Automatic Dense Labeling with Attention for Viewpoint Shift in Semantic SegmentationHanxiang Ren, Yanchao Yang, He Wang 0010, Bokui Shen, Qingnan Fan, Youyi Zheng, C. Karen Liu, Leonidas J. Guibas. 8069-8079 [doi]

MeMOT: Multi-Object Tracking with MemoryJiarui Cai, Mingze Xu, Wei Li 0044, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto. 8080-8090 [doi]

Unsupervised Learning of Accurate Siamese TrackingQiuhong Shen, Lei Qiao, Jinyang Guo, Peixia Li, Xin Li, Bo Li 0114, Weitao Feng, Weihao Gan, Wei Wu 0021, Wanli Ouyang. 8091-8100 [doi]

Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point CloudsChaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, Zhen Li. 8101-8110 [doi]

GMFlow: Learning Optical Flow via Global MatchingHaofei Xu, Jing Zhang, Jianfei Cai 0001, Hamid Rezatofighi, Dacheng Tao. 8111-8120 [doi]

GridShift: A Faster Mode-seeking Algorithm for Image Segmentation and Object TrackingAbhishek Kumar, Oladayo S. Ajani, Swagatam Das, Rammohan Mallipeddi. 8121-8129 [doi]

SNUG: Self-Supervised Neural Dynamic GarmentsIgor Santesteban, Miguel A. Otaduy, Dan Casas. 8130-8140 [doi]

Weakly-supervised Action Transition Learning for Stochastic Human Motion PredictionWei Mao 0001, Miaomiao Liu 0001, Mathieu Salzmann. 8141-8150 [doi]

Multi-Objective Diverse Human Motion Prediction with Knowledge DistillationHengbo Ma, Jiachen Li 0001, Ramtin Hosseini, Masayoshi Tomizuka, Chiho Choi. 8151-8161 [doi]

Context-Aware Sequence Alignment using 4D Skeletal AugmentationTaein Kwon, Bugra Tekin, Siyu Tang 0001, Marc Pollefeys. 8162-8172 [doi]

Enabling Equivariance for Arbitrary Lie GroupsLachlan E. MacDonald, Sameera Ramasinghe, Simon Lucey. 8173-8182 [doi]

RAMA: A Rapid Multicut Algorithm on GPUAhmed Abbas, Paul Swoboda. 8183-8192 [doi]

Self-Supervised Material and Texture Representation Learning for Remote Sensing TasksPeri Akiva, Matthew Purri, Matthew J. Leotta. 8193-8205 [doi]

RCP: Recurrent Closest Point for Point CloudXiaodong Gu 0004, Chengzhou Tang, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Ping Tan. 8206-8216 [doi]

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-SynthesisKarren Yang, Dejan Markovic, Steven Krenn, Vasu Agrawal, Alexander Richard. 8217-8227 [doi]

Balanced Multimodal Learning via On-the-fly Gradient ModulationXiaokang Peng, Yake Wei, Andong Deng, Dong Wang 0028, Di Hu 0001. 8228-8237 [doi]

Block-NeRF: Scalable Large Scene Neural View SynthesisMatthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben P. Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar. 8238-8248 [doi]

SceneSqueezer: Learning to Compress Scene for Camera RelocalizationLuwei Yang, Rakesh Shrestha, Wenbo Li, Shuaicheng Liu, Guofeng Zhang 0001, Zhaopeng Cui, Ping Tan. 8249-8258 [doi]

Light Field Neural RenderingMohammed Suhail, Carlos Esteves, Leonid Sigal, Ameesh Makadia. 8259-8269 [doi]

Extracting Triangular 3D Models, Materials, and Lighting From ImagesJacob Munkberg, Wenzheng Chen, Jon Hasselgren, Alex Evans, Tianchang Shen, Thomas Müller 0013, Jun Gao, Sanja Fidler. 8270-8280 [doi]

Super-Fibonacci Spirals: Fast, Low-Discrepancy Sampling of SO(3)Marc Alexa. 8281-8290 [doi]

Stochastic Backpropagation: A Memory Efficient Strategy for Training Video ModelsFeng Cheng, Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Li, Wei Xia. 8291-8300 [doi]

It's All In the Teacher: Zero-Shot Quantization Brought Closer to the TeacherKanghyun Choi, Hyeyoon Lee, Deokki Hong, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee. 8301-8311 [doi]

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language TasksFawaz Sammani, Tanmoy Mukherjee, Nikos Deligiannis. 8312-8322 [doi]

Explaining Deep Convolutional Neural Networks via Latent Visual-Semantic Filter AttentionYu Yang, Seungbae Kim, Jungseock Joo. 8323-8333 [doi]

Parameter-free Online Test-time AdaptationMalik Boudiaf, Romain Müller, Ismail Ben Ayed, Luca Bertinetto. 8334-8343 [doi]

Patch-level Representation Learning for Self-supervised Vision TransformersSukmin Yun, Hankook Lee, Jaehyung Kim, Jinwoo Shin. 8344-8353 [doi]

Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and LocalizationLuke Melas-Kyriazi, Christian Rupprecht 0001, Iro Laina, Andrea Vedaldi. 8354-8365 [doi]

Mixed Differential Privacy in Computer VisionAditya Golatkar, Alessandro Achille, Yu-Xiang Wang, Aaron Roth 0001, Michael Kearns, Stefano Soatto. 8366-8376 [doi]

DPGEN: Differentially Private Generative Energy-Guided Network for Natural Image SynthesisJia-Wei Chen, Chia-Mu Yu, Ching-Chia Kao, Tzai-Wei Pang, Chun-Shien Lu. 8377-8386 [doi]

Local Learning Matters: Rethinking Data Heterogeneity in Federated LearningMatías Mendieta, Taojiannan Yang, Pu Wang, Minwoo Lee 0001, Zhengming Ding, Chen Chen 0001. 8387-8396 [doi]

AirObject: A Temporally Evolving Graph Embedding for Object IdentificationNikhil Varma Keetha, Chen Wang, Yuheng Qiu, Kuan Xu, Sebastian A. Scherer. 8397-8406 [doi]

Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point CloudsChenhang He, Ruihuang Li, Shuai Li, Lei Zhang. 8407-8417 [doi]

SS3D: Sparsely-Supervised 3D Object Detection from Point CloudChuandong Liu, Chenqiang Gao, Fangcen Liu, Jiang Liu, Deyu Meng, Xinbo Gao 0001. 8418-8427 [doi]

Back to Reality: Weakly-supervised 3D Object Detection with Shape-guided Label EnhancementXiuwei Xu, Yifan Wang, Yu Zheng, Yongming Rao, Jie Zhou 0001, Jiwen Lu. 8428-8437 [doi]

VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial AttentionShengheng Deng, Zhihao Liang, Lin Sun, Kui Jia. 8438-8447 [doi]

Embracing Single Stride 3D Object Detector with Sparse TransformerLue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang. 8448-8458 [doi]

Point Density-Aware Voxels for LiDAR 3D Object DetectionJordan S. K. Hu, Tianshu Kuai, Steven L. Waslander. 8459-8468 [doi]

Point-to-Voxel Knowledge Distillation for LiDAR Semantic SegmentationYuenan Hou, Xinge Zhu, Yuexin Ma, Chen Change Loy, Yikang Li. 8469-8478 [doi]

Contrastive Boundary Learning for Point Cloud SegmentationLiyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao. 8479-8489 [doi]

Stratified Transformer for 3D Point Cloud SegmentationXin Lai, Jianhui Liu, Li Jiang, Liwei Wang 0009, Hengshuang Zhao, Shu Liu 0005, Xiaojuan Qi, Jiaya Jia. 8490-8499 [doi]

No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static Models by Fitting Feature-level Space-time SurfacesJia-Xing Zhong, Kaichen Zhou, Qingyong Hu, Bing Wang 0013, Niki Trigoni, Andrew Markham. 8500-8510 [doi]

Point2Seq: Detecting 3D Objects as SequencesYujing Xue, Jiageng Mao, Minzhe Niu, Hang Xu, Michael Bi Mi, Wei Zhang, Xiaogang Wang, Xinchao Wang. 8511-8520 [doi]

PTTR: Relational 3D Point Cloud Object Tracking with TransformerChangqing Zhou, Zhipeng Luo, Yueru Luo, Tianrui Liu, Liang Pan, Zhongang Cai, Haiyu Zhao, Shijian Lu. 8521-8530 [doi]

A Unified Query-based Paradigm for Point Cloud UnderstandingZetong Yang, Li Jiang, Yanan Sun 0005, Bernt Schiele, Jiaya Jia. 8531-8541 [doi]

PointCLIP: Point Cloud Understanding by CLIPRenrui Zhang, Ziyu Guo, Wei Zhang, Kunchang Li, Xupeng Miao, Bin Cui 0001, Yu Qiao, Peng Gao, Hongsheng Li 0001. 8542-8552 [doi]

X -Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense CaptioningZhihao Yuan, Xu Yan, Yinghong Liao, Yao Guo, Guanbin Li, Shuguang Cui, Zhen Li. 8553-8563 [doi]

MVS2D: Efficient Multiview Stereo via Attention-Driven 2D ConvolutionsZhenpei Yang, Zhile Ren, Qi Shan, Qixing Huang. 8564-8574 [doi]

TransMVSNet: Global Context-aware Multi-view Stereo Network with TransformersYikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu. 8575-8584 [doi]

RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View StereoJunhua Xi, Yifei Shi, Yijie Wang, Yulan Guo, Kai Xu. 8585-8595 [doi]

IterMVS: Iterative Probability Estimation for Efficient Multi-View StereoFangjinhua Wang, Silvano Galliani, Christoph Vogel, Marc Pollefeys. 8596-8605 [doi]

PSMNet: Position-aware Stereo Merging Network for Room Layout EstimationHaiyan Wang 0019, Will Hutchcroft, Yuguang Li, Zhiqiang Wan, Ivaylo Boyadzhiev, Yingli Tian, Sing Bing Kang. 8606-8615 [doi]

Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view StereoJiayu Yang, Jose M. Alvarez, Miaomiao Liu 0001. 8616-8624 [doi]

Differentiable Stereopsis: Meshes from multiple views using differentiable renderingShubham Goel 0001, Georgia Gkioxari, Jitendra Malik. 8625-8634 [doi]

Rethinking Depth Estimation for Multi-View Stereo: A Unified RepresentationRui Peng, Rongjie Wang, Zhenyu Wang 0002, Yawen Lai, Ronggang Wang. 8635-8644 [doi]

Efficient Multi-view Stereo by Iterative Dynamic Cost VolumeShaoqian Wang, Bo Li 0090, Yuchao Dai. 8645-8654 [doi]

PlaneMVS: 3D Plane Reconstruction from Multi-View StereoJiachen Liu, Pan Ji, Nitin Bansal, Changjiang Cai, Qingan Yan, Xiaolei Huang, Yi Xu. 8655-8665 [doi]

Discrete time convolution for fast event-based stereoKaixuan Zhang, Kaiwei Che, Jianguo Zhang, Jie Cheng, Ziyang Zhang, Qinghai Guo, Luziwei Leng. 8666-8676 [doi]

Stereo Magnification with Multi-Layer ImagesTaras Khakhulin, Denis Korzhenkov, Pavel Solovev, Gleb Sterkin, A.-T. Ardelean, Victor Lempitsky. 8677-8686 [doi]

TransforMatcher: Match-to-Match Attention for Semantic CorrespondenceSeungwook Kim, Juhong Min, Minsu Cho. 8687-8697 [doi]

Probabilistic Warp Consistency for Weakly-Supervised Semantic CorrespondencesPrune Truong, Martin Danelljan, Fisher Yu, Luc Van Gool. 8698-8708 [doi]

Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence LearningLiulei Li, Tianfei Zhou, Wenguan Wang, Lu Yang, Jianwu Li, Yi Yang 0001. 8709-8720 [doi]

Transforming Model Prediction for TrackingChristoph Mayer 0007, Martin Danelljan, Goutam Bhat, Matthieu Paul, Danda Pani Paudel, Fisher Yu, Luc Van Gool. 8721-8730 [doi]

Ranking-Based Siamese Visual TrackingFeng Tang, Qiang Ling. 8731-8740 [doi]

Correlation-Aware Deep TrackingFei Xie, Chunyu Wang, Guangting Wang, Yue Cao, Wankou Yang, Wenjun Zeng. 8741-8750 [doi]

Global Tracking via Ensemble of Local TrackersZikun Zhou, Jianqiu Chen, Wenjie Pei, Kaige Mao, Hongpeng Wang, Zhenyu He 0001. 8751-8760 [doi]

Global Tracking TransformersXingyi Zhou, Tianwei Yin, Vladlen Koltun, Philipp Krähenbühl. 8761-8770 [doi]

Unified Transformer Tracker for Object TrackingFan Ma, Mike Zheng Shou, Linchao Zhu, Haoqi Fan 0001, Yilei Xu, Yi Yang, Zhicheng Yan. 8771-8780 [doi]

Transformer Tracking with Cyclic Shifting Window AttentionZikai Song, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang. 8781-8790 [doi]

Spiking Transformers for Event-based Single Object TrackingJiqing Zhang, Bo Dong, Haiwei Zhang, Jianchuan Ding, Felix Heide, Baocai Yin, Xin Yang. 8791-8800 [doi]

Adiabatic Quantum Computing for Multi Object TrackingJan-Nico Zaech, Alexander Liniger, Martin Danelljan, Dengxin Dai, Luc Van Gool. 8801-8812 [doi]

HiVT: Hierarchical Vector Transformer for Multi-Agent Motion PredictionZikang Zhou, Luyao Ye, Jianping Wang, Kui Wu 0001, Kejie Lu. 8813-8823 [doi]

Towards Discriminative Representation: Multi-view Trajectory Contrastive Learning for Online Multi-object TrackingEn Yu, Zhuoling Li, Shoudong Han. 8824-8833 [doi]

TrackFormer: Multi-Object Tracking with TransformersTim Meinhardt, Alexander Kirillov, Laura Leal-Taixé, Christoph Feichtenhofer. 8834-8844 [doi]

Learning of Global Objective for Network Flow in Multi-Object TrackingShuai Li, Yu Kong, Hamid Rezatofighi. 8845-8855 [doi]

LMGP: Lifted Multicut Meets Geometry Projections for Multi-Camera Multi-Object TrackingDuy M. H. Nguyen, Roberto Henschel, Bodo Rosenhahn, Daniel Sonntag, Paul Swoboda. 8856-8865 [doi]

Multi-Object Tracking Meets Moving UAVShuai Liu, Xin Li 0034, Huchuan Lu, You He. 8866-8875 [doi]

Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New BaselinePengyu Zhang, Jie Zhao, Dong Wang 0004, Huchuan Lu, Xiang Ruan. 8876-8885 [doi]

Unsupervised Domain Adaptation for Nighttime Aerial TrackingJunjie Ye, Changhong Fu 0001, Guangze Zheng, Danda Pani Paudel, Guang Chen. 8886-8895 [doi]

Learning Optical Flow with Kernel Patch AttentionAo Luo, Fan Yang, Xin Li, Shuaicheng Liu. 8896-8905 [doi]

Towards Understanding Adversarial Robustness of Optical Flow NetworksSimon Schrodi, Tonmoy Saikia, Thomas Brox. 8906-8914 [doi]

DIP: Deep Inverse Patchmatch for High-Resolution Optical FlowZihua Zheng, Ni Nie, Zhi Ling, Pengfei Xiong, Jiangyu Liu, Hao Wang, Jiankun Li. 8915-8924 [doi]

On the Instability of Relative Pose Estimation and RANSAC's RoleHongyi Fan, Joe Kileel, Benjamin B. Kimia. 8925-8933 [doi]

Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-trainingHaofei Zhang, Jiarui Duan, Mengqi Xue, Jie Song, Li Sun, Mingli Song. 8934-8943 [doi]

Global Sensing and Measurements Reuse for Image Compressed SensingZi-En Fan, Feng Lian, Jia-Ni Quan. 8944-8953 [doi]

Maximum Consensus by Weighted Influences of Monotone Boolean FunctionsErchuan Zhang, David Suter, Ruwan B. Tennakoon, Tat-Jun Chin, Alireza Bab-Hadiashar, Giang Truong, Syed Zulqarnain Gilani. 8954-8962 [doi]

MS2DG-Net: Progressive Correspondence Learning via Multiple Sparse Semantics Dynamic GraphLuanyuan Dai, Yizhang Liu, Jiayi Ma 0001, Lifang Wei, Taotao Lai, Changcai Yang, Riqing Chen. 8963-8972 [doi]

Styleformer: Transformer based Generative Adversarial Networks with Style VectorJeeseung Park, Younggeun Kim. 8973-8982 [doi]

Scanline Homographies for Rolling-Shutter Plane Absolute PoseFang Bai, Agniva Sengupta, Adrien Bartoli. 8983-8992 [doi]

Generating Representative Samples for Few-Shot ClassificationJingyi Xu, Hieu Le. 8993-9003 [doi]

Matching Feature Sets for Few-Shot Image ClassificationArman Afrasiyabi, Hugo Larochelle, Jean-François Lalonde, Christian Gagné 0001. 9004-9014 [doi]

Improving Adversarially Robust Few-shot Image Classification with Generalizable RepresentationsJunhao Dong, Yuan Wang, Jianhuang Lai, Xiaohua Xie. 9015-9024 [doi]

Sylph: A Hypernetwork Framework for Incremental Few-shot Object DetectionLi Yin, Juan M. Perez-Rua, Kevin J. Liang. 9025-9035 [doi]

Forward Compatible Few-Shot Class-Incremental LearningDa-Wei Zhou 0001, Fu-Yun Wang, Han-Jia Ye, Liang Ma, Shiliang Pu, De-Chuan Zhan. 9036-9046 [doi]

Constrained Few-shot Class-incremental LearningMichael Hersche, Geethan Karunaratne, Giovanni Cherubini, Luca Benini, Abu Sebastian, Abbas Rahimi. 9047-9057 [doi]

Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a DifferenceShell Xu Hu, Da Li 0001, Jan Stühmer, Minyoung Kim, Timothy M. Hospedales. 9058-9067 [doi]

EASE: Unsupervised Discriminant Subspace Learning for Transductive Few-Shot LearningHao Zhu, Piotr Koniusz. 9068-9078 [doi]

Few-shot Learning with Noisy LabelsKevin J. Liang, Samrudhdhi B. Rangrej, Vladan Petrovic, Tal Hassner. 9079-9088 [doi]

Ranking Distance Calibration for Cross-Domain Few-Shot LearningPan Li, Shaogang Gong, Chengjie Wang, Yanwei Fu. 9089-9098 [doi]

Revisiting Learnable Affines for Batch Norm in Few-Shot Transfer LearningMoslem Yazdanpanah, Aamer Abdul Rahman, Muawiz Chaudhary, Christian Desrosiers, Mohammad Havaei, Eugene Belilovsky, Samira Ebrahimi Kahou. 9099-9108 [doi]

Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot LearningYangji He, Weihan Liang, Dongyang Zhao, Hong-Yu Zhou, Weifeng Ge, Yizhou Yu, Wenqiang Zhang. 9109-9119 [doi]

Learning to Memorize Feature Hallucination for One-Shot Image GenerationYu Xie, Yanwei Fu, Ying Tai, Yun Cao, Junwei Zhu, Chengjie Wang. 9120-9129 [doi]

A Closer Look at Few-shot Image GenerationYunqing Zhao, Henghui Ding, Houjing Huang, Ngai-Man Cheung. 9130-9140 [doi]

Motion-modulated Temporal Fragment Alignment Network For Few-Shot Action RecognitionJiamin Wu, Tianzhu Zhang, Zhe Zhang, Feng Wu 0001, Yongdong Zhang 0001. 9141-9150 [doi]

Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better TransferabilityRuifei He, Shuyang Sun, Jihan Yang, Song Bai, Xiaojuan Qi. 9151-9161 [doi]

Transferability Estimation using Bhattacharyya Class SeparabilityMichal Pándy, Andrea Agostinelli, Jasper R. R. Uijlings, Vittorio Ferrari, Thomas Mensink. 9162-9172 [doi]

Revisiting the Transferability of Supervised Pretraining: an MLP PerspectiveYizhou Wang, Shixiang Tang, Feng Zhu 0006, Lei Bai 0001, Rui Zhao 0018, Donglian Qi, Wanli Ouyang. 9173-9183 [doi]

Task2Sim: Towards Effective Pre-training and Transfer from Synthetic DataSamarth Mishra, Rameswar Panda, Cheng Perng Phoo, Chun-Fu Richard Chen, Leonid Karlinsky, Kate Saenko, Venkatesh Saligrama, Rogério Schmidt Feris. 9184-9194 [doi]

Which Model to Transfer? Finding the Needle in the Growing HaystackCédric Renggli, André Susano Pinto, Luka Rimanic, Joan Puigcerver, Carlos Riquelme, Ce Zhang 0001, Mario Lucic. 9195-9204 [doi]

Does Robustness on ImageNet Transfer to Downstream Tasks?Yutaro Yamada, Mayu Otani. 9205-9214 [doi]

What Makes Transfer Learning Work for Medical Images: Feature Reuse & Other FactorsChristos Matsoukas, Johan Fredin Haslum, Moein Sorkhei, Magnus Söderberg, Kevin Smith 0001. 9215-9224 [doi]

OW-DETR: Open-world Detection TransformerAkshita Gupta, Sanath Narayan, K. J. Joseph, Salman Khan 0001, Fahad Shahbaz Khan, Mubarak Shah. 9225-9234 [doi]

Unseen Classes at a Later Time? No ProblemHari Chandana Kuchibhotla, Sumitra S. Malagi, Shivam Chandhok, Vineeth N. Balasubramanian. 9235-9244 [doi]

Continual Object Detection via Prototypical Task Correlation Guided Gating MechanismBinbin Yang, Xinchi Deng, Han Shi, Changlin Li, Gengwei Zhang, Hang Xu, Shen Zhao, Liang Lin, Xiaodan Liang. 9245-9254 [doi]

On Generalizing Beyond Domains in Cross-Domain Continual LearningChristian Simon, Masoud Faraki, Yi-Hsuan Tsai, Xiang Yu 0002, Samuel Schulter, Yumin Suh, Mehrtash Harandi, Manmohan Chandraker. 9255-9264 [doi]

Online Continual Learning on a Contaminated Data Stream with Blurry Task BoundariesJihwan Bang, Hyunseo Koh, Seulki Park, Hwanjun Song, Jung-Woo Ha 0001, Jonghyun Choi. 9265-9274 [doi]

DyTox: Transformers for Continual Learning with DYnamic TOken eXpansionArthur Douillard, Alexandre Ramé, Guillaume Couairon, Matthieu Cord. 9275-9285 [doi]

Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental LearningKai Zhu 0004, Wei Zhai, Yang Cao 0010, Jiebo Luo, Zhengjun Zha. 9286-9295 [doi]

En-Compactness: Self-Distillation Embedding & Contrastive Generation for Generalized Zero-Shot LearningXia Kong, Zuodong Gao, Xiaofan Li, Ming Hong, Jun Liu, Chengjie Wang, Yuan Xie, Yanyun Qu. 9296-9305 [doi]

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot LearningWenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata. 9306-9315 [doi]

Siamese Contrastive Embedding Network for Compositional Zero-Shot LearningXiangyu Li, Xu Yang 0019, Kun Wei, Cheng Deng, Muli Yang. 9316-9325 [doi]

KG-SP: Knowledge Guided Simple Primitives for Open World Compositional Zero-Shot LearningShyamgopal Karthik, Massimiliano Mancini, Zeynep Akata. 9326-9335 [doi]

Non-generative Generalized Zero-shot Learning via Task-correlated Disentanglement and Controllable Samples SynthesisYaogong Feng, Xiaowen Huang, Pengbo Yang, Jian Yu, Jitao Sang. 9336-9345 [doi]

WALT: Watch And Learn 2D amodal representation from Time-lapse imageryN. Dinesh Reddy, Robert Tamburo, Srinivasa G. Narasimhan. 9346-9356 [doi]

Omni-DETR: Omni-Supervised Object Detection with TransformersPei Wang, Zhaowei Cai, Hao Yang, Gurumurthy Swaminathan, Nuno Vasconcelos, Bernt Schiele, Stefano Soatto. 9357-9366 [doi]

DESTR: Object Detection with Split TransformerLiqiang He, Sinisa Todorovic. 9367-9376 [doi]

A Dual Weighting Label Assignment Scheme for Object DetectionShuai Li, Chenhang He, Ruihuang Li, Lei Zhang. 9377-9386 [doi]

Entropy-based Active Learning for Object Detection with Progressive Diversity ConstraintJiaxi Wu, Jiaxin Chen, Di Huang 0001. 9387-9396 [doi]

Localization Distillation for Dense Object DetectionZhaohui Zheng, Rongguang Ye, Ping Wang, Dongwei Ren, Wangmeng Zuo, Qibin Hou, Ming-Ming Cheng. 9397-9406 [doi]

Group R-CNN for Weakly Semi-supervised Object Detection with PointsShilong Zhang, Zhuoran Yu, Liyang Liu, Xinjiang Wang, Aojun Zhou, Kai Chen. 9407-9416 [doi]

Overcoming Catastrophic Forgetting in Incremental Object Detection via Elastic Response DistillationTao Feng, Mang Wang, Hangjie Yuan. 9417-9426 [doi]

CREAM: Weakly Supervised Object Localization via Class RE-Activation MappingJilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Rui-Wei Zhao, Tao Zhang, Xuequan Lu, Shang Gao. 9427-9436 [doi]

One Loss for Quantization: Deep Hashing with Discrete Wasserstein Distributional MatchingKhoa D. Doan, Peng Yang, Ping Li 0001. 9437-9447 [doi]

PSTR: End-to-End One-Step Person Search With TransformersJiale Cao, Yanwei Pang, Rao Muhammad Anwer, Hisham Cholakkal, Jin Xie 0005, Mubarak Shah, Fahad Shahbaz Khan. 9448-9457 [doi]

Protecting Celebrities from DeepFake with Identity Consistency TransformerXiaoyi Dong, Jianmin Bao, Dongdong Chen, Ting Zhang, Weiming Zhang 0001, Nenghai Yu, Dong Chen, Fang Wen, Baining Guo. 9458-9468 [doi]

MDAN: Multi-level Dependent Attention Network for Visual Emotion AnalysisLiwen Xu, Zhengtao Wang, Bin Wu, Simon Lui. 9469-9478 [doi]

Contextual Similarity Distillation for Asymmetric Image RetrievalHui Wu, Min Wang 0019, Wengang Zhou, Houqiang Li, Qi Tian. 9479-9488 [doi]

Improving Visual Grounding with Visual-Linguistic Verification and Iterative ReasoningLi Yang, Yan Xu, Chunfeng Yuan, Wei Liu, Bing Li, Weiming Hu. 9489-9498 [doi]

MPC: Multi-view Probabilistic ClusteringJunjie Liu, Junlong Liu, Shaotian Yan, Rongxin Jiang, Xiang Tian 0002, Boxuan Gu, Yaowu Chen, Chen Shen, Jianqiang Huang. 9499-9508 [doi]

Text Spotting TransformersXiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu. 9509-9518 [doi]

Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic CountingMin Shi, Hao Lu 0004, Chen Feng, Chengxin Liu, Zhiguo Cao 0001. 9519-9528 [doi]

Reflection and Rotation Symmetry Detection via Equivariant LearningAhyun Seo, Byungjin Kim, Suha Kwak, Minsu Cho. 9529-9538 [doi]

Learning to Imagine: Diversify Memory for Incremental Learning using Unlabeled DataYu-Ming Tang, Yi-Xing Peng, Wei-Shi Zheng. 9539-9548 [doi]

A Simple Episodic Linear Probe Improves Visual Recognition in the WildYuanzhi Liang, Linchao Zhu, Xiaohan Wang, Yi Yang. 9549-9559 [doi]

Cross Domain Object Detection by Target-Perceived Dual Branch DistillationMengzhe He, Yali Wang 0001, Jiaxi Wu, Yiru Wang, Hanqing Li, Bo Li, Weihao Gan, Wei Wu, Yu Qiao. 9560-9570 [doi]

Multi-Granularity Alignment Domain Adaptation for Object DetectionWenzhang Zhou, Dawei Du, Libo Zhang 0001, Tiejian Luo, Yanjun Wu. 9571-9580 [doi]

Expanding Low-Density Latent Regions for Open-Set Object DetectionJiaming Han, Yuqiang Ren, Jian Ding, Xingjia Pan, Ke Yan, Gui-Song Xia. 9581-9590 [doi]

Class-Incremental Learning with Strong Pre-trained ModelsTz-Ying Wu, Gurumurthy Swaminathan, Zhizhong Li, Avinash Ravichandran, Nuno Vasconcelos, Rahul Bhotika, Stefano Soatto. 9591-9600 [doi]

ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via Exploiting CLIP CuesHengcan Shi, Munawar Hayat, Yicheng Wu 0001, Jianfei Cai 0001. 9601-9610 [doi]

Self-Supervised Models are Continual LearnersEnrico Fini, Victor G. Turrisi da Costa, Xavier Alameda-Pineda, Elisa Ricci 0001, Karteek Alahari, Julien Mairal. 9611-9620 [doi]

The Two Dimensions of Worst-case Training and Their Integrated Effect for Out-of-domain GeneralizationZeyi Huang, Haohan Wang, Dong Huang, Yong Jae Lee, Eric P. Xing. 9621-9631 [doi]

Beyond Supervised vs. Unsupervised: Representative Benchmarking and Analysis of Image Representation LearningMatthew Gwilliam, Abhinav Shrivastava. 9632-9642 [doi]

SimMIM: a Simple Framework for Masked Image ModelingZhenda Xie, Zheng Zhang 0022, Yue Cao 0001, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu 0004. 9643-9653 [doi]

Semantic-Aware Auto-Encoders for Self-supervised Representation LearningGuangrun Wang, Yansong Tang, Liang Lin, Philip H. S. Torr. 9654-9665 [doi]

UNICON: Combating Label Noise Through Uniform Selection and Contrastive LearningNazmul Karim, Mamshad Nayeem Rizve, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah. 9666-9676 [doi]

Contrastive Conditional Neural ProcessesZesheng Ye, Lina Yao 0001. 9677-9686 [doi]

One-bit Active Query with Contrastive PairsYuhang Zhang, Xiaopeng Zhang 0008, Lingxi Xie, Jie Li, Robert C. Qiu, Hengtong Hu, Qi Tian 0001. 9687-9695 [doi]

HCSC: Hierarchical Contrastive Selective CodingYuanfan Guo, Minghao Xu, Jiawen Li, Bingbing Ni, Xuanyu Zhu, Zhenbang Sun, Yi Xu. 9696-9705 [doi]

Motion-aware Contrastive Video Representation Learning via Foreground-background MergingShuangrui Ding, Maomao Li, Tianyu Yang, Rui Qian, Haohang Xu, Qingyi Chen, Jue Wang, Hongkai Xiong. 9706-9716 [doi]

Hierarchical Self-supervised Representation Learning for Movie UnderstandingFanyi Xiao, Kaustav Kundu, Joseph Tighe, Davide Modolo. 9717-9726 [doi]

Anomaly Detection via Reverse Distillation from One-Class EmbeddingHanqiu Deng, Xingyu Li. 9727-9736 [doi]

Unsupervised Representation Learning for Binary Networks by Joint Classifier LearningDahYun Kim, Jonghyun Choi. 9737-9746 [doi]

DC-SSL: Addressing Mismatched Class Distribution in Semi-supervised LearningZhen Zhao, Luping Zhou, Yue Duan, Lei Wang, Lei Qi 0001, Yinghuan Shi. 9747-9755 [doi]

Learning to Collaborate in Decentralized Learning of Personalized ModelsShuangtong Li, Tianyi Zhou, Xinmei Tian 0001, Dacheng Tao. 9756-9765 [doi]

Highly-efficient Incomplete Largescale Multiview Clustering with Consensus Bipartite GraphSiwei Wang, Xinwang Liu, Li Liu 0002, Wenxuan Tu, Xinzhong Zhu, Jiyuan Liu 0003, Sihang Zhou, En Zhu. 9766-9775 [doi]

DASO: Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced Semi-Supervised LearningYoungtaek Oh, Dong-Jin Kim 0003, In-So Kweon. 9776-9786 [doi]

Global Convergence of MAML and Theory-Inspired Neural Architecture Search for Few-Shot LearningHaoxiang Wang, Yite Wang, Ruoyu Sun 0001, Bo Li 0026. 9787-9798 [doi]

Semi-Supervised Object Detection via Multi-instance Alignment with Global Class PrototypesAoxue Li, Peng Yuan, Zhenguo Li. 9799-9808 [doi]

Unbiased Teacher v2: Semi-supervised Object Detection for Anchor-free and Anchor-based DetectorsYen-Cheng Liu, Chih-Yao Ma, Zsolt Kira. 9809-9818 [doi]

Spectral Unsupervised Domain Adaptation for Visual RecognitionJingyi Zhang, Jiaxing Huang 0001, Zichen Tian, Shijian Lu. 9819-9830 [doi]

DATA: Domain-Aware and Task-Aware Self-supervised LearningQing Chang, Junran Peng, Lingxi Xie, Jiajun Sun, Haoran Yin, Qi Tian 0001, Zhaoxiang Zhang. 9831-9840 [doi]

Dynamic Kernel Selection for Improved Generalization and Memory Efficiency in Meta-learningArnav Chavan, Rishabh Tiwari, Udbhav Bamba, Deepak K. Gupta. 9841-9850 [doi]

DeepDPM: Deep Clustering With an Unknown Number of ClustersMeitar Ronen, Shahaf E. Finder, Oren Freifeld. 9851-9860 [doi]

PLAD: Learning to Infer Shape Programs with Pseudo-Labels and Approximate DistributionsR. Kenny Jones, Homer Walke, Daniel Ritchie. 9861-9870 [doi]

Robust outlier detection by de-biasing VAE likelihoodsKushal Chauhan, Barath Mohan Umapathi, Pradeep Shenoy, Manish Gupta, Devarajan Sridharan. 9871-9880 [doi]

Image-to-Lidar Self-Supervised Distillation for Autonomous Driving DataCorentin Sautier, Gilles Puy, Spyros Gidaris, Alexandre Boulch, Andrei Bursuc, Renaud Marlet. 9881-9891 [doi]

CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud UnderstandingMohamed Afham, Isuru Dissanayake, Dinithi Dissanayake, Amaya Dharmasiri, Kanchana Thilakarathna, Ranga Rodrigo. 9892-9902 [doi]

Cross-Domain Correlation Distillation for Unsupervised Domain Adaptation in Nighttime Semantic SegmentationHuan Gao, Jichang Guo, Guoli Wang, Qian Zhang 0009. 9903-9913 [doi]

DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic SegmentationLukas Hoyer, Dengxin Dai, Luc Van Gool. 9914-9925 [doi]

WildNet: Learning Domain Generalized Semantic Segmentation from the WildSuhyeon Lee 0002, Hongje Seong, Seongwon Lee, Euntai Kim. 9926-9936 [doi]

UCC: Uncertainty guided Cross-head Cotraining for Semi-Supervised Semantic SegmentationJiashuo Fan, Bin Gao, Huan Jin, Lihui Jiang. 9937-9946 [doi]

Semi-supervised Semantic Segmentation with Error Localization NetworkDonghyeon Kwon, Suha Kwak. 9947-9957 [doi]

Unbiased Subclass Regularization for Semi-Supervised Semantic SegmentationDayan Guan, Jiaxing Huang 0001, Aoran Xiao, Shijian Lu. 9958-9968 [doi]

Integrative Few-Shot Learning for Classification and SegmentationDahyun Kang, Minsu Cho. 9969-9980 [doi]

GANORCON: Are Generative Models Useful for Few-shot Segmentation?Oindrila Saha, Zezhou Cheng, Subhransu Maji. 9981-9990 [doi]

SphericGAN: Semi-supervised Hyper-spherical Generative Adversarial Networks for Fine-grained Image SynthesisTianyi Chen, Yunfei Zhang, Xiaoyang Huo, Si Wu 0002, Yong Xu 0007, Hau-San Wong. 9991-10000 [doi]

CoordGAN: Self-Supervised Dense Correspondences Emerge from GANsJiteng Mu, Shalini De Mello, Zhiding Yu, Nuno Vasconcelos, Xiaolong Wang, Jan Kautz, Sifei Liu. 10001-10010 [doi]

GradViT: Gradient Inversion of Vision TransformersAli Hatamizadeh, Hongxu Yin, Holger Roth, Wenqi Li 0001, Jan Kautz, Daguang Xu, Pavlo Molchanov. 10011-10020 [doi]

Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D RenderingsInnfarn Yoo, Huiwen Chang, Xiyang Luo, Ondrej Stava, Ce Liu, Peyman Milanfar, Feng Yang. 10021-10030 [doi]

2-pFed: Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated LearningYiqing Shen 0003, Yuyin Zhou, Lequan Yu. 10031-10040 [doi]

APRIL: Finding the Achilles' Heel on Privacy for Vision TransformersJiahao Lu, Xi Sheryl Zhang, Tianli Zhao, Xiangyu He, Jian Cheng 0001. 10041-10050 [doi]

Rethinking Architecture Design for Tackling Data Heterogeneity in Federated LearningLiangqiong Qu, Yuyin Zhou, Paul Pu Liang, Yingda Xia, Feifei Wang, Ehsan Adeli 0001, Li Fei-Fei 0001, Daniel L. Rubin. 10051-10061 [doi]

Robust Federated Learning with Noisy and Heterogeneous ClientsXiuwen Fang, Mang Ye. 10062-10071 [doi]

Federated Learning with Position-Aware NeuronsXin-Chun Li, Yi-Chu Xu, Shaoming Song, Bingshuai Li, Yinchuan Li, Yunfeng Shao, De-Chuan Zhan. 10072-10081 [doi]

Layer-wised Model Aggregation for Personalized Federated LearningXiaosong Ma, Jie Zhang 0076, Song Guo 0001, Wenchao Xu 0001. 10082-10091 [doi]

FedCor: Correlation-Based Active Client Selection Strategy for Heterogeneous Federated LearningMinxue Tang, Xuefei Ning, Yitu Wang, Jingwei Sun 0002, Yu Wang 0002, Hai Helen Li, Yiran Chen 0001. 10092-10101 [doi]

FedDC: Federated Learning with Non-IID Data via Local Drift Decoupling and CorrectionLiang Gao, Huazhu Fu, Li Li, Yingwen Chen, Ming Xu 0002, Cheng-Zhong Xu 0001. 10102-10111 [doi]

Differentially Private Federated Learning with Local Regularization and SparsificationAnda Cheng, Peisong Wang, Xi Sheryl Zhang, Jian Cheng 0001. 10112-10121 [doi]

Auditing Privacy Defenses in Federated Learning via Generative Gradient LeakageZhuohang Li, Jiaxin Zhang 0005, Luyang Liu, Jian Liu 0001. 10122-10132 [doi]

Learn from Others and Be Yourself in Heterogeneous Federated LearningWenke Huang, Mang Ye, Bo Du 0001. 10133-10143 [doi]

RSCFed: Random Sampling Consensus Federated Semi-supervised LearningXiaoxiao Liang, Yiqun Lin, Huazhu Fu, Lei Zhu, Xiaomeng Li 0001. 10144-10153 [doi]

Federated Class-Incremental LearningJiahua Dong, Lixu Wang, Zhen Fang, Gan Sun, Shichao Xu, Xiao Wang, Qi Zhu 0002. 10154-10163 [doi]

Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated LearningLin Zhang, Li Shen, Liang Ding 0006, Dacheng Tao, Ling-Yu Duan. 10164-10173 [doi]

FedCorr: Multi-Stage Federated Learning for Label Noise CorrectionJingyi Xu, Zihan Chen, Tony Q. S. Quek, Kai Fong Ernest Chong. 10174-10183 [doi]

ResSFL: A Resistance Transfer Framework for Defending Model Inversion Attack in Split Federated LearningJingtao Li, Adnan Siraj Rakin, Xing Chen, Zhezhi He, Deliang Fan, Chaitali Chakrabarti. 10184-10192 [doi]

Cycle-Consistent Counterfactuals by Latent TransformationsSaeed Khorram, Fuxin Li. 10193-10202 [doi]

Consistent Explanations by Contrastive LearningVipin Pillai, Soroush Abbasi Koohpayegani, Ashley Ouligian, Dennis Fong, Hamed Pirsiavash. 10203-10212 [doi]

Towards Better Understanding Attribution MethodsSukrut Rao, Moritz Böhle, Bernt Schiele. 10213-10222 [doi]

Proto2Proto: Can you recognize the car, the way I do?Monish Keswani, Sriranjani Ramakrishnan, Nishant Reddy, Vineeth N. Balasubramanian. 10223-10233 [doi]

Do Explanations Explain? Model Knows BestAshkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab. 10234-10243 [doi]

HINT: Hierarchical Neuron Concept ExplainerAndong Wang, Wei-Ning Lee, Xiaojuan Qi. 10244-10254 [doi]

Deformable ProtoPNet: An Interpretable Image Classifier Using Deformable PrototypesJon Donnelly, Alina Jade Barnett, Chaofan Chen. 10255-10265 [doi]

What do navigation agents learn about their environment?Kshitij Dwivedi, Gemma Roig, Aniruddha Kembhavi, Roozbeh Mottaghi. 10266-10275 [doi]

A Framework for Learning Ante-hoc Explainable Models via ConceptsAnirban Sarkar 0001, Deepak Vijaykeerthy, Anindya Sarkar, Vineeth N. Balasubramanian. 10276-10285 [doi]

Exploiting Explainable Metrics for Augmented SGDMahdi S. Hosseini, Mathieu Tuli, Konstantinos N. Plataniotis. 10286-10296 [doi]

FAM: Visual Explanations for the Feature Representations from Deep Convolutional NetworksYuxi Wu, Changhuai Chen, Jun Che, Shiliang Pu. 10297-10306 [doi]

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype RepresentationsWolfgang Stammer, Marius Memmel, Patrick Schramowski, Kristian Kersting. 10307-10318 [doi]

B-cos Networks: Alignment is All We Need for InterpretabilityMoritz Böhle, Mario Fritz, Bernt Schiele. 10319-10328 [doi]

The Flag Median and FlagIRLSNathan Mankovich, Emily J. King, Chris Peterson, Michael Kirby. 10329-10337 [doi]

Learning Fair Classifiers with Partially Annotated Group LabelsSangwon Jung, Sanghyuk Chun, Taesup Moon. 10338-10347 [doi]

Estimating Structural Disparities for Face ModelsShervin Ardeshir, Cristina Segalin, Nathan Kallus. 10348-10357 [doi]

Estimating Example Difficulty using Variance of GradientsChirag Agarwal, Daniel D'Souza, Sara Hooker. 10358-10368 [doi]

Fairness-aware Adversarial Perturbation Towards Bias Mitigation for Deployed Deep ModelsZhibo Wang, XiaoWei Dong, Henry Xue, Zhifei Zhang, Weifeng Chiu, Tao Wei, Kui Ren 0001. 10369-10378 [doi]

Fair Contrastive Learning for Facial Attribute ClassificationSungho Park, Jewook Lee, Pilhyeon Lee, Sunhee Hwang, Dohyung Kim, Hyeran Byun. 10379-10388 [doi]

Leveraging Adversarial Examples to Quantify Membership Information LeakageGanesh Del Grosso, Hamid Jalalzai, Georg Pichler, Catuscia Palamidessi, Pablo Piantanida. 10389-10399 [doi]

Leveling Down in Computer Vision: Pareto Inefficiencies in Fair Deep ClassifiersDominik Zietlow, Michael Lohaus, Guha Balakrishnan, Matthäus Kleindessner, Francesco Locatello, Bernhard Schölkopf, Chris Russell 0001. 10400-10411 [doi]

Deep Unlearning via Randomized Conditionally Independent HessiansRonak Mehta, Sourav Pal, Vikas Singh, Sathya N. Ravi. 10412-10421 [doi]

Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging DatasetsVishnu Suresh Lokhande, Rudrasis Chakraborty, Sathya N. Ravi, Vikas Singh. 10422-10431 [doi]

A study on the distribution of social biases in self-supervised learning visual modelsKirill Sirotkin, Pablo Carballeira, Marcos Escudero-Viñolo. 10432-10441 [doi]

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann. 10442-10451 [doi]

Learning Hierarchical Cross-Modal Association for Co-Speech Gesture GenerationXian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou. 10452-10462 [doi]

SEEG: Semantic Energized Co-speech Gesture GenerationYuanzhi Liang, Qianyu Feng, Linchao Zhu, Li Hu, Pan Pan, Yi Yang 0001. 10463-10472 [doi]

Mix and Localize: Localizing Sound Sources in MixturesXixi Hu, Ziyang Chen, Andrew Owens. 10473-10482 [doi]

Reading to Listen at the Cocktail Party: Multi-Modal Speech SeparationAkam Rahimi, Triantafyllos Afouras, Andrew Zisserman. 10483-10492 [doi]

IntentVizor: Towards Generic Query Guided Interactive Video SummarizationGuande Wu, Jianzhe Lin, Cláudio T. Silva. 10493-10502 [doi]

3L: Language-based Video Editing via Multi-Modal Multi-Level TransformersTsu-Jui Fu, Xin Eric Wang, Scott T. Grafton, Miguel P. Eckstein, William Yang Wang. 10503-10512 [doi]

Finding Fallen Objects Via Asynchronous Audio-Visual IntegrationChuang Gan, Yi Gu, Siyuan Zhou, Jeremy Schwartz, Seth Alter, James Traer, Dan Gutfreund, Joshua B. Tenenbaum, Josh H. McDermott, Antonio Torralba 0001. 10513-10523 [doi]

Weakly Paired Associative Learning for Sound and Image Representations via Bimodal Associative MemorySangmin Lee 0001, Hyung-il Kim, Yong Man Ro. 10524-10533 [doi]

Egocentric Deep Multi-Channel Audio-Visual Active Speaker LocalizationHao Jiang 0007, Calvin Murdock, Vamsi Krishna Ithapu. 10534-10542 [doi]

Audiovisual Generalised Zero-shot Learning with Cross-modal Attention and LanguageOtniel-Bogdan Mercea, Lukas Riesch, A. Sophia Koepke, Zeynep Akata. 10543-10553 [doi]

It's Time for Artistic Correspondence in Music and VideoDídac Surís, Carl Vondrick, Bryan Russell, Justin Salamon. 10554-10564 [doi]

Self-supervised object detection from audio-visual correspondenceTriantafyllos Afouras, Yuki M. Asano, Francois Fagan, Andrea Vedaldi, Florian Metze. 10565-10576 [doi]

More than Words: In-the-Wild Visually-Driven Prosody for Text-to-SpeechMichael Hassid, Michelle Tadmor Ramanovich, Brendan Shillingford, Miaosen Wang, Ye Jia, Tal Remez. 10577-10587 [doi]

ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real TransferRuohan Gao, Zilin Si, Yen-Yu Chang, Samuel Clarke, Jeannette Bohg, Li Fei-Fei 0001, Wenzhen Yuan, Jiajun Wu 0001. 10588-10598 [doi]

A Probabilistic Graphical Model Based on Neural-symbolic Reasoning for Visual Relationship DetectionDongran Yu, Bo Yang 0002, Qianhao Wei, Anchen Li, Shirui Pan. 10599-10608 [doi]

Diffusion Autoencoders: Toward a Meaningful and Decodable RepresentationKonpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn. 10609-10619 [doi]

Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph MapsSeung Wook Kim, Karsten Kreis, Daiqing Li, Antonio Torralba 0001, Sanja Fidler. 10620-10630 [doi]

Polarity Sampling: Quality and Diversity Control of Pre-Trained Generative Networks via Singular ValuesAhmed Imtiaz Humayun, Randall Balestriero, Richard G. Baraniuk. 10631-10640 [doi]

Ensembling Off-the-shelf Models for GAN TrainingNupur Kumari, Richard Zhang 0001, Eli Shechtman, Jun-Yan Zhu. 10641-10652 [doi]

Marginal Contrastive Correspondence for Guided Image GenerationFangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Changgong Zhang. 10653-10662 [doi]

GRAM: Generative Radiance Manifolds for 3D-Aware Image GenerationYu Deng, Jiaolong Yang, Jianfeng Xiang, Xin Tong 0001. 10663-10673 [doi]

High-Resolution Image Synthesis with Latent Diffusion ModelsRobin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. 10674-10685 [doi]

Vector Quantized Diffusion Model for Text-to-Image SynthesisShuyang Gu, Dong Chen 0003, Jianmin Bao, Fang Wen, Bo Zhang 0025, Dongdong Chen 0001, Lu Yuan, Baining Guo. 10686-10696 [doi]

ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and GenerationJianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Chunjing Xu, Yanwei Fu. 10697-10707 [doi]

Dataset Distillation by Matching Training TrajectoriesGeorge Cazenavette, Tongzhou Wang 0001, Antonio Torralba 0001, Alexei A. Efros, Jun-Yan Zhu. 10708-10717 [doi]

Continual Predictive Learning from VideosGeng Chen, Wendong Zhang, Han Lu, Siyu Gao, Yunbo Wang, Mingsheng Long, Xiaokang Yang. 10718-10727 [doi]

Motion-Adjustable Neural Implicit Video RepresentationLong Mai, Feng Liu 0015. 10728-10737 [doi]

Splicing ViT Features for Semantic Appearance TransferNarek Tumanyan, Omer Bar-Tal, Shai Bagon, Tali Dekel. 10738-10747 [doi]

MAT: Mask-Aware Transformer for Large Hole Image InpaintingWenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia. 10748-10758 [doi]

Day-to-Night Image Synthesis for Training Nighttime Neural ISPsAbhijith Punnappurath, Abdullah Abuolaim, Abdelrahman Abdelhamed, Alex Levinshtein, Michael S. Brown. 10759-10768 [doi]

Smooth-Swap: A Simple Enhancement for Face-Swapping with SmoothnessJiseob Kim, Jihoon Lee, Byoung-Tak Zhang. 10769-10778 [doi]

Few-Shot Head Swapping in the WildChangyong Shu, Hemao Wu, Hang Zhou, Jiaming Liu, Zhibin Hong, Changxing Ding, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang 0001. 10779-10788 [doi]

ClothFormer: Taming Video Virtual Try-on in All ModuleJianbin Jiang, Tan Wang, He Yan, Junhui Liu. 10789-10798 [doi]

A-ViT: Adaptive Tokens for Efficient Vision TransformerHongxu Yin, Arash Vahdat, Jose M. Alvarez, Arun Mallya, Jan Kautz, Pavlo Molchanov. 10799-10808 [doi]

MetaFormer is Actually What You Need for VisionWeihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan. 10809-10819 [doi]

Reversible Vision TransformersKarttikeya Mangalam, Haoqi Fan 0001, Yanghao Li, Chao-Yuan Wu, Bo Xiong, Christoph Feichtenhofer, Jitendra Malik. 10820-10830 [doi]

Learned Queries for Efficient Local AttentionMoab Arar, Ariel Shamir, Amit H. Bermano. 10831-10842 [doi]

Shunted Self-Attention via Multi-Scale Token AggregationSucheng Ren, Daquan Zhou, Shengfeng He, Jiashi Feng, Xinchao Wang. 10843-10852 [doi]

Automatic Relation-aware Graph Network ProliferationShaofei Cai, Liang Li, Xinzhe Han, Jiebo Luo, Zheng-Jun Zha, Qingming Huang. 10853-10863 [doi]

β-DARTS: Beta-Decay Regularization for Differentiable Architecture SearchPeng Ye, Baopu Li, Yikang Li 0002, Tao Chen 0003, Jiayuan Fan, Wanli Ouyang. 10864-10873 [doi]

Distribution Consistent Neural Architecture SearchJunyi Pan, Chong Sun, Yizhou Zhou, Ying Zhang, Chen Li. 10874-10883 [doi]

Training-free Transformer Architecture SearchQinqin Zhou, Kekai Sheng, Xiawu Zheng, Ke Li, Xing Sun, YongHong Tian, Jie Chen 0001, Rongrong Ji. 10884-10893 [doi]

TeachAugment: Data Augmentation Optimization Using Teacher KnowledgeTeppei Suzuki. 10894-10904 [doi]

Knowledge Distillation via the Target-aware TransformerSihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang, Gang Wang. 10905-10914 [doi]

Knowledge distillation: A good teacher is patient and consistentLucas Beyer, Xiaohua Zhai, Amélie Royer, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov 0003. 10915-10924 [doi]

An Image Patch is a Wave: Phase-Aware Vision MLPYehui Tang, Kai Han 0002, Jianyuan Guo, Chang Xu, Yanxi Li 0001, Chao Xu, Yunhe Wang 0001. 10925-10934 [doi]

Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal InformationLingfeng Yang, Xiang Li, Renjie Song, Borui Zhao, Juntian Tao, Shihao Zhou, Jiajun Liang, Jian Yang. 10935-10944 [doi]

Controllable Dynamic Multi-Task ArchitecturesDripta S. Raychaudhuri, Yumin Suh, Samuel Schulter, Xiang Yu 0002, Masoud Faraki, Amit K. Roy Chowdhury, Manmohan Chandraker. 10945-10954 [doi]

Grounded Language-Image Pre-trainingLiunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao. 10955-10965 [doi]

ZZ-Net: A Universal Rotation Equivariant Architecture for 2D Point CloudsGeorg Bökman, Fredrik Kahl, Axel Flinth. 10966-10975 [doi]

CADTransformer: Panoptic Symbol Spotting Transformer for CAD DrawingsZhiwen Fan, Tianlong Chen, Peihao Wang, Zhangyang Wang. 10976-10986 [doi]

Adversarial Parametric Pose PriorAndrey Davydov, Anastasia Remizova, Victor Constantin, Sina Honari, Mathieu Salzmann, Pascal Fua. 10987-10995 [doi]

Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose EstimationZhenguang Liu, Runyang Feng, Haoming Chen, Shuang Wu 0002, Yixing Gao, Yunjun Gao, Xiang Wang. 10996-11006 [doi]

PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and Hallucination under Self-supervisionKehong Gong, Bingbing Li, Jianfeng Zhang, Tao Wang 0053, Jing Huang, Michael Bi Mi, Jiashi Feng, Xinchao Wang. 11007-11017 [doi]

Generalizable Human Pose TriangulationKristijan Bartol, David Bojanic, Tomislav Petkovic. 11018-11027 [doi]

GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic CamerasYe Yuan 0007, Umar Iqbal, Pavlo Molchanov, Kris Kitani, Jan Kautz. 11028-11039 [doi]

Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic MemoryLi Siyao, Weijiang Yu, Tianpei Gu, Chunze Lin, Quan Wang, Chen Qian 0006, Chen Change Loy, Ziwei Liu 0002. 11040-11049 [doi]

Contextual Instance Decoupling for Robust Multi-Person Pose EstimationDongkai Wang, Shiliang Zhang. 11050-11058 [doi]

End-to-End Multi-Person Pose Estimation with TransformersDahu Shi, Xing Wei, Liangqi Li, Ye Ren, Wenming Tan. 11059-11068 [doi]

Meta Agent Teaming Active Learning for Pose EstimationJia Gong, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu. 11069-11079 [doi]

Keypoint Transformer: Solving Joint Identification in Challenging Hands and Object Interactions for Accurate 3D Pose EstimationShreyas Hampali, Sayan Deb Sarkar, Mahdi Rad, Vincent Lepetit. 11080-11090 [doi]

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering TransformerWang Zeng, Sheng Jin 0007, Wentao Liu 0002, Chen Qian 0006, Ping Luo 0002, Wanli Ouyang, Xiaogang Wang 0001. 11091-11101 [doi]

Occlusion-robust Face Alignment using A Viewpoint-invariant Hierarchical Network ArchitectureCongcong Zhu, Xintong Wan, Shaorong Xie, Xiaoqiang Li, Yinzheng Gu. 11102-11111 [doi]

LASER: LAtent SpacE Rendering for 2D Visual LocalizationZhixiang Min, Naji Khosravan, Zachary Bessinger, Manjunath Narayana, Sing Bing Kang, Enrique Dunn, Ivaylo Boyadzhiev. 11112-11121 [doi]

Learning to Detect Scene Landmarks for Camera LocalizationTien Do, Ondrej Miksik, Joseph DeGol, Hyun Soo Park, Sudipta N. Sinha. 11122-11132 [doi]

Geometric Transformer for Fast and Robust Point Cloud RegistrationZheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, Kai Xu. 11133-11142 [doi]

ARCS: Accurate Rotation and Correspondence SearchLiangzu Peng, Manolis C. Tsakiris, René Vidal. 11143-11153 [doi]

FisherMatch: Semi-Supervised Rotation Regression via Entropy-based FilteringYingda Yin, Yingcheng Cai, He Wang, Baoquan Chen. 11154-11163 [doi]

Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose EstimationXiaoke Jiang, Donghai Li, Hao Chen, Ye Zheng, Rui Zhao 0018, Liwei Wu. 11164-11174 [doi]

OSSGAN: Open-Set Semi-Supervised Image GenerationKai Katsumata, Duc Minh Vo, Hideki Nakayama. 11175-11183 [doi]

Attribute Group Editing for Reliable Few-shot Image GenerationGuanqi Ding, Xinzhe Han, Shuhui Wang, Shuzhe Wu, Xin Jin, Dandan Tu, Qingming Huang. 11184-11193 [doi]

Few Shot Generative Model Adaption via Relaxed Spatial Structural AlignmentJiayu Xiao, Liang Li, Chaofei Wang, Zheng-Jun Zha, Qingming Huang. 11194-11203 [doi]

Semantic-shape Adaptive Feature Modulation for Semantic Image SynthesisZhengyao Lv, Xiaoming Li 0002, Zhenxing Niu, Bing Cao, Wangmeng Zuo. 11204-11213 [doi]

Retrieval-based Spatially Adaptive Normalization for Semantic Image SynthesisYupeng Shi, Xiao Liu, Yuxiang Wei 0001, Zhongqin Wu, Wangmeng Zuo. 11214-11223 [doi]

Generative Flows with Invertible AttentionsRhea Sanjay Sukthanker, Zhiwu Huang, Suryansh Kumar, Radu Timofte, Luc Van Gool. 11224-11233 [doi]

Style-Structure Disentangled Features and Normalizing Flows for Diverse Icon ColorizationYuan-kui Li, Yun-Hsuan Lien, Yu-Shuen Wang. 11234-11243 [doi]

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and EditingYichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen. 11244-11254 [doi]

Manifold Learning Benefits GANsYao Ni, Piotr Koniusz, Richard I. Hartley, Richard Nock. 11255-11264 [doi]

DO-GAN: A Double Oracle Framework for Generative Adversarial NetworksAye Phyu Phyu Aung, Xinrun Wang, Runsheng Yu, Bo An 0001, Senthilnath Jayavelu, Xiaoli Li 0001. 11265-11274 [doi]

Improving GAN Equilibrium by Raising Spatial AwarenessJianyuan Wang, Ceyuan Yang, Yinghao Xu, Yujun Shen, Hongdong Li, Bolei Zhou. 11275-11283 [doi]

Feature Statistics Mixing Regularization for Generative Adversarial NetworksJunho Kim, Yunjey Choi, Youngjung Uh. 11284-11293 [doi]

StyleSwin: Transformer-based GAN for High-resolution Image GenerationBowen Zhang, Shuyang Gu, Bo Zhang 0025, Jianmin Bao, Dong Chen 0003, Fang Wen, Yong Wang, Baining Guo. 11294-11304 [doi]

MaskGIT: Masked Generative Image TransformerHuiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman. 11305-11315 [doi]

2: Image Style Transfer with TransformersYingying Deng, Fan Tang, Weiming Dong, Chongyang Ma, Xingjia Pan, Lei Wang, Changsheng Xu. 11316-11326 [doi]

Style Transformer for Image Inversion and EditingXueqi Hu, Qiusheng Huang, Zhengyi Shi, Siyuan Li, Changxin Gao, Li Sun, Qingli Li. 11327-11336 [doi]

Reduce Information Loss in Transformers for Pluralistic Image InpaintingQiankun Liu, Zhentao Tan, Dongdong Chen, Qi Chu 0001, Xiyang Dai, Yinpeng Chen, Mengchen Liu, Lu Yuan, Nenghai Yu. 11337-11347 [doi]

Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional EncodingQiaole Dong, Chenjie Cao, Yanwei Fu. 11348-11358 [doi]

UniCoRN: A Unified Conditional Image Repainting NetworkJimeng Sun, Shuchen Weng, Zheng Chang, Si Li 0001, Boxin Shi. 11359-11368 [doi]

High-Fidelity GAN Inversion for Image Attribute EditingTengfei Wang, Yong Zhang 0034, Yanbo Fan, Jue Wang, Qifeng Chen. 11369-11378 [doi]

HyperInverter: Improving StyleGAN Inversion via HypernetworkTan M. Dinh, Anh Tuan Tran 0001, Rang Nguyen, Binh-Son Hua. 11379-11388 [doi]

Spatially-Adaptive Multilayer Selection for GAN Inversion and EditingGaurav Parmar, Yijun Li, Jingwan Lu, Richard Zhang 0001, Jun-Yan Zhu, Krishna Kumar Singh. 11389-11399 [doi]

On Aliased Resizing and Surprising Subtleties in GAN EvaluationGaurav Parmar, Richard Zhang 0001, Jun-Yan Zhu. 11400-11410 [doi]

Dual-path Image Inpainting with Auxiliary GAN InversionWentao Wang, Li Niu 0002, Jianfu Zhang 0003, Xue Yang 0005, Liqing Zhang 0001. 11411-11420 [doi]

InOut: Diverse Image Outpainting via GAN InversionYen-Chi Cheng, Chieh Hubert Lin, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Ming-Hsuan Yang 0001. 11421-11430 [doi]

Diverse Plausible 360-Degree Image Outpainting for Efficient 3DCG Background CreationNaofumi Akimoto, Yuhi Matsuo, Yoshimitsu Aoki. 11431-11440 [doi]

Contextual Outpainting with Object-Level Contrastive LearningJiacheng Li, Chang Chen, Zhiwei Xiong. 11441-11450 [doi]

RePaint: Inpainting using Denoising Diffusion Probabilistic ModelsAndreas Lugmayr, Martin Danelljan, Andrés Romero, Fisher Yu, Radu Timofte, Luc Van Gool. 11451-11461 [doi]

Perception Prioritized Training of Diffusion ModelsJooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, Sungroh Yoon. 11462-11471 [doi]

Dynamic Dual-Output Diffusion ModelsYaniv Benny, Lior Wolf. 11472-11481 [doi]

Generating High Fidelity Data from Low-density Regions using Diffusion ModelsVikash Sehwag, Caner Hazirbas, Albert Gordo, Firat Ozgenel, Cristian Canton-Ferrer. 11482-11491 [doi]

Global Context with Discrete Diffusion in Vector Quantised Modelling for Image GenerationMinghui Hu, Yujie Wang, Tat-Jen Cham, Jianfei Yang, Ponnuthurai N. Suganthan. 11492-11501 [doi]

Bridging Global Context Interactions for High-Fidelity Image CompletionChuanxia Zheng, Tat-Jen Cham, Jianfei Cai 0001, Dinh Q. Phung. 11502-11512 [doi]

Autoregressive Image Generation using Residual QuantizationDoyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han. 11513-11522 [doi]

Arbitrary-Scale Image SynthesisEvangelos Ntavelis, Mohamad Shahbazi, Iason Kastanis, Radu Timofte, Martin Danelljan, Luc Van Gool. 11523-11532 [doi]

Cluster-guided Image Synthesis with Unconditional ModelsMarkos Georgopoulos, James Oldfield 0001, Grigorios G. Chrysos, Yannis Panagakis. 11533-11542 [doi]

Dynamic Prototype Convolution Network for Few-Shot Semantic SegmentationJie Liu, Yanqi Bao, Guo-Sen Xie, Huan Xiong, Jan-Jakob Sonke, Efstratios Gavves. 11543-11552 [doi]

Generalized Few-shot Semantic SegmentationZhuotao Tian, Xin Lai, Li Jiang, Shu Liu 0005, Michelle Shu, Hengshuang Zhao, Jiaya Jia. 11553-11562 [doi]

Learning Non-target Knowledge for Few-shot Semantic SegmentationYuanwei Liu, Nian Liu, Qinglong Cao, Xiwen Yao, Junwei Han, Ling Shao 0001. 11563-11572 [doi]

Decoupling Zero-Shot Semantic SegmentationJian Ding, Nan Xue 0001, Gui-Song Xia, Dengxin Dai. 11573-11582 [doi]

Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic SegmentationRuihuang Li, Shuai Li, Chenhang He, Yabin Zhang, Xu Jia, Lei Zhang. 11583-11593 [doi]

ContrastMask: Contrastive Learning to Segment Every ThingXuehui Wang, Kai Zhao, Ruixin Zhang, Shouhong Ding, Yan Wang, Wei Shen 0002. 11594-11603 [doi]

The Neurally-Guided Shape Parser: Grammar-based Labeling of 3D Shape Regions with Approximate InferenceR. Kenny Jones, Aalia Habib, Rana Hanocka, Daniel Ritchie. 11604-11613 [doi]

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part SegmentationXueyi Liu, Xiaomeng Xu, Anyi Rao, Chuang Gan, Li Yi. 11614-11624 [doi]

APES: Articulated Part Extraction from Sprite SheetsZhan Xu, Matthew Fisher, Yang Zhou, Deepali Aneja, Rushikesh Dudhat, Li Yi, Evangelos Kalogerakis. 11625-11634 [doi]

GASP, a generalized framework for agglomerative clustering of signed graphs and its application to Instance SegmentationAlberto Bailoni, Constantin Pape, Nathan Hütsch, Steffen Wolf 0001, Thorsten Beier, Anna Kreshuk, Fred A. Hamprecht. 11635-11645 [doi]

CycleMix: A Holistic Strategy for Medical Image Segmentation from Scribble SupervisionKe Zhang, Xiahai Zhuang. 11646-11655 [doi]

Cross-patch Dense Contrastive Learning for Semi-supervised Segmentation of Cellular Nuclei in Histopathologic ImagesHuisi Wu, Zhaoze Wang, Youyi Song, Lin Yang, Jing Qin 0001. 11656-11665 [doi]

C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation on Medical ImageZhang Chen, Zhiqiang Tian, Jihua Zhu, Ce Li 0001, Shaoyi Du. 11666-11675 [doi]

CRIS: CLIP-Driven Referring Image SegmentationZhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, Tongliang Liu. 11676-11685 [doi]

MatteFormer: Transformer-Based Image Matting via Prior-TokensGyutae Park, Sungjoon Son, Jaeyoung Yoo, Seho Kim, Nojun Kwak. 11686-11696 [doi]

Boosting Robustness of Image Matting with Context Assembling and Strong Data AugmentationYutong Dai, Brian Price, He Zhang, Chunhua Shen. 11697-11706 [doi]

Pyramid Grafting Network for One-Stage High Resolution Saliency DetectionChenxi Xie, Changqun Xia, Mingcan Ma, Zhirui Zhao, Xiaowu Chen, Jia Li 0003. 11707-11716 [doi]

Multi-Source Uncertainty Mining for Deep Unsupervised Saliency DetectionYifan Wang, Wenbo Zhang, Lijun Wang, Ting Liu, Huchuan Lu. 11717-11726 [doi]

Modeling Motion with Multi-Modal Features for Text-Based Video SegmentationWangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You. 11727-11736 [doi]

GAT-CADNet: Graph Attention Network for Panoptic Symbol Spotting in CAD DrawingsZhaohua Zheng, Jianfang Li, Lingjie Zhu, Honghua Li, Frank Petzold, Ping Tan. 11737-11746 [doi]

Bending Graphs: Hierarchical Shape Matching using Gated Optimal TransportMahdi Saleh, Shun-Cheng Wu, Luca Cosmo, Nassir Navab, Benjamin Busam, Federico Tombari. 11747-11757 [doi]

CAPRI-Net: Learning Compact CAD Shapes with Adaptive Primitive AssemblyFenggen Yu, Zhiqin Chen, Manyi Li, Aditya Sanghi, Hooman Shayani, Ali Mahdavi-Amiri, Hao Zhang. 11758-11768 [doi]

RIM-Net: Recursive Implicit Fields for Unsupervised Learning of Hierarchical Shape StructuresChengjie Niu, Manyi Li, Kai Xu, Hao Zhang. 11769-11778 [doi]

Discovering Objects that Can MoveZhipeng Bao, Pavel Tokmakov, Allan Jabri, Yu-Xiong Wang, Adrien Gaidon, Martial Hebert. 11779-11788 [doi]

PatchFormer: An Efficient Point Transformer with Patch AttentionCheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu. 11789-11798 [doi]

Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo HeatmapJinke Li, Xiao He, Yang Wen, Yuan Gao, Xiaoqiang Cheng, Dan Zhang. 11799-11808 [doi]

SemAffiNet: Semantic-Affine Transformation for Point Cloud SegmentationZiyi Wang, Yongming Rao, Xumin Yu, Jie Zhou, Jiwen Lu. 11809-11819 [doi]

An MIL-Derived Transformer for Weakly Supervised Point Cloud SegmentationCheng-Kun Yang, Ji-Jia Wu, Kai-Syun Chen, Yung-Yu Chuang, Yen-Yu Lin. 11820-11829 [doi]

Weakly Supervised Segmentation on Outdoor 4D point clouds with Temporal Matching and Spatial Graph PropagationHanyu Shi 0002, Jiacheng Wei, Ruibo Li, Fayao Liu, Guosheng Lin. 11830-11839 [doi]

Point2Cyl: Reverse Engineering 3D Objects from Point Clouds to Extrusion CylindersMikaela Angelina Uy, Yen-Yu Chang, Minhyuk Sung, Purvi Goel, Joseph Lambourne, Tolga Birdal, Leonidas J. Guibas. 11840-11850 [doi]

Demystifying the Neural Tangent Kernel from a Practical Perspective: Can it be trusted for Neural Architecture Search without training?Jisoo Mok, Byunggook Na, Ji-Hoon Kim, Dongyoon Han, Sungroh Yoon. 11851-11860 [doi]

BaLeNAS: Differentiable Architecture Search via the Bayesian Learning RuleMiao Zhang, Shirui Pan, Xiaojun Chang, Steven Su, Jilin Hu, Gholamreza Haffari, Bin Yang 0002. 11861-11870 [doi]

Arch-Graph: Acyclic Architecture Relation Predictor for Task-Transferable Neural Architecture SearchMinbin Huang, Zhijian Huang, Changlin Li, Xin Chen, Hang Xu, Zhenguo Li, Xiaodan Liang. 11871-11881 [doi]

Shapley-NAS: Discovering Operation Contribution for Neural Architecture SearchHan Xiao, Ziwei Wang 0001, Zheng Zhu, Jie Zhou 0001, Jiwen Lu. 11882-11891 [doi]

GreedyNASv2: Greedier Search with a Greedy Path FilterTao Huang 0020, Shan You, Fei Wang 0032, Chen Qian 0006, Changshui Zhang, Xiaogang Wang 0001, Chang Xu 0002. 11892-11901 [doi]

Neural Architecture Search with Representation Mutual InformationXiawu Zheng, Xiang Fei, Lei Zhang, Chenglin Wu, Fei Chao 0001, Jianzhuang Liu, Wei Zeng, YongHong Tian, Rongrong Ji. 11902-11911 [doi]

Performance-Aware Mutual Knowledge Distillation for Improving Neural Architecture SearchPengtao Xie, Xuefeng Du. 11912-11922 [doi]

Knowledge Distillation with the Reused Teacher ClassifierDefang Chen, Jian-Ping Mei, Hailin Zhang, Can Wang, Yan Feng, Chun Chen 0001. 11923-11932 [doi]

Self-Distillation from the Last Mini-Batch for Consistency RegularizationYiqing Shen 0003, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo. 11933-11942 [doi]

Decoupled Knowledge DistillationBorui Zhao, Quan Cui, Renjie Song, Yiyu Qiu, Jiajun Liang. 11943-11952 [doi]

Scaling Up Your Kernels to 31×31: Revisiting Large Kernel Design in CNNsXiaohan Ding, Xiangyu Zhang 0005, Jungong Han, Guiguang Ding. 11953-11965 [doi]

A ConvNet for the 2020sZhuang Liu 0003, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie. 11966-11976 [doi]

Beyond Fixation: Dynamic Window Visual TransformerPengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du, Xiaodan Liang, Xiaojun Chang. 11977-11987 [doi]

Lite Vision Transformer with Enhanced Self-AttentionChenglin Yang, Yilin Wang, Jianming Zhang 0001, He Zhang, Zijun Wei, Zhe Lin, Alan L. Yuille. 11988-11998 [doi]

Swin Transformer V2: Scaling Up Capacity and ResolutionZe Liu, Han Hu 0004, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao 0001, Zheng Zhang 0022, Li Dong 0004, Furu Wei, Baining Guo. 11999-12009 [doi]

The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of RedundancyTianlong Chen, Zhenyu Zhang, Yu Cheng 0001, Ahmed Hassan Awadallah, Zhangyang Wang. 12010-12020 [doi]

MuIT: An End-to-End Multitask Learning TransformerDeblina Bhattacharjee, Tong Zhang 0023, Sabine Süsstrunk, Mathieu Salzmann. 12021-12031 [doi]

Towards Robust Vision TransformerXiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Ranjie Duan, Shaokai Ye, Yuan He 0011, Hui Xue 0001. 12032-12041 [doi]

DearKD: Data-Efficient Early Knowledge Distillation for Vision TransformersXianing Chen, Qiong Cao, Yujie Zhong, Jing Zhang, Shenghua Gao, Dacheng Tao. 12042-12052 [doi]

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger TokensJiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang 0008, Wenyu Liu 0001, Qi Tian 0001. 12053-12062 [doi]

NomMer: Nominate Synergistic Context in Vision Transformer for Visual RecognitionHao Liu 0003, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang, Bo Ren 0002. 12063-12072 [doi]

TopFormer: Token Pyramid Transformer for Mobile Semantic SegmentationWenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang, Wenyu Liu 0001, Gang Yu, Chunhua Shen. 12073-12083 [doi]

Multi-Scale High-Resolution Vision Transformer for Semantic SegmentationJiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye 0008, Meng Li 0004, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan. 12084-12093 [doi]

Bridged Transformer for Vision and Point Cloud 3D Object DetectionYikai Wang 0001, Tengqi Ye, Lele Cao, Wenbing Huang 0001, Fuchun Sun 0001, Fengxiang He, Dacheng Tao. 12104-12113 [doi]

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped WindowsXiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang 0001, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo. 12114-12124 [doi]

TransMix: Attend to Mix for Vision TransformersJieneng Chen, Shuyang Sun, Ju He, Philip H. S. Torr, Alan L. Yuille, Song Bai. 12125-12134 [doi]

MiniViT: Compressing Vision Transformers with Weight MultiplexingJinnian Zhang, Houwen Peng, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan. 12135-12144 [doi]

Fine-tuning Image Transformers using Learnable MemoryMark Sandler 0002, Andrey Zhmoginov, Max Vladymyrov, Andrew Jackson 0004. 12145-12154 [doi]

Patch Slimming for Efficient Vision TransformersYehui Tang, Kai Han 0002, Yunhe Wang 0001, Chang Xu, Jianyuan Guo, Chao Xu, Dacheng Tao. 12155-12164 [doi]

CMT: Convolutional Neural Networks Meet Vision TransformersJianyuan Guo, Kai Han 0002, Han Wu, Yehui Tang, Xinghao Chen 0001, Yunhe Wang 0001, Chang Xu. 12165-12175 [doi]

Multimodal Token Fusion for Vision TransformersYikai Wang 0001, Xinghao Chen 0001, Lele Cao, Wenbing Huang 0001, Fuchun Sun 0001, Yunhe Wang 0001. 12176-12185 [doi]

CAFE: Learning to Condense Dataset by Aligning FeaturesKai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Shuo Yang, Shuo Wang, Guan Huang, Hakan Bilen, Xinchao Wang, Yang You. 12186-12195 [doi]

Lite-MDETR: A Lightweight Multi-Modal DetectorQian Lou, Yen-Chang Hsu, Burak Uzkent, Ting Hua, Yilin Shen, Hongxia Jin. 12196-12205 [doi]

DeeCap: Dynamic Early Exiting for Efficient Image CaptioningZhengcong Fei, Xu Yan, Shuhui Wang, Qi Tian 0001. 12206-12216 [doi]

Searching the Deployable Convolution Neural Networks for GPUsLinnan Wang, Chenhan Yu, Satish Salian, Slawomir Kierat, Szymon Migacz, Alex Fit-Florea. 12217-12226 [doi]

Active Learning by Feature MixingAmin Parvaneh, Ehsan Abbasnejad, Damien Teney, Reza Haffari, Anton van den Hengel, Javen Qinfeng Shi. 12227-12236 [doi]

When to Prune? A Policy towards Early Structural PruningMaying Shen, Pavlo Molchanov, Hongxu Yin, Jose M. Alvarez. 12237-12246 [doi]

Contrastive Dual Gating: Learning Sparse Features With Contrastive LearningJian Meng, Li Yang, Jinwoo Shin, Deliang Fan, Jae-sun Seo. 12247-12255 [doi]

How Well Do Sparse ImageNet Models Transfer?Eugenia Iofinova, Alexandra Peste, Mark Kurtz, Dan Alistarh. 12256-12266 [doi]

RepNet: Efficient On-Device Learning via Feature ReprogrammingLi Yang, Adnan Siraj Rakin, Deliang Fan. 12267-12276 [doi]

CHEX: CHannel EXploration for CNN Model CompressionZejiang Hou, Minghai Qin, Fei Sun, Xiaolong Ma, Kun Yuan, Yi Xu, Yen-Kuang Chen, Rong Jin 0001, Yuan Xie 0008, Sun-Yuan Kung. 12277-12288 [doi]

HODEC: Towards Efficient High-Order DEcomposed Convolutional Neural NetworksMiao Yin, Yang Sui, Wanzhao Yang, Xiao Zang, Yu Gong, Bo Yuan 0001. 12289-12298 [doi]

AdaViT: Adaptive Vision Transformers for Efficient Image RecognitionLingchen Meng, Hengduo Li, Bor-Chun Chen, Shiyi Lan, Zuxuan Wu, Yu-Gang Jiang, Ser-Nam Lim. 12299-12308 [doi]

Cross-Image Relational Knowledge Distillation for Semantic SegmentationChuanguang Yang, Helong Zhou, Zhulin An, Xue Jiang, Yongjun Xu, Qian Zhang. 12309-12318 [doi]

Mr.BiQ: Post-Training Non-Uniform Quantization based on Minimizing the Reconstruction ErrorYongkweon Jeon, Chungman Lee, Eulrang Cho, Yeonju Ro. 12319-12328 [doi]

IntraQ: Learning Synthetic Images with Intra-Class Heterogeneity for Zero-Shot Network QuantizationYunshan Zhong, Mingbao Lin, Gongrui Nan, Jianzhuang Liu, Baochang Zhang 0001, Yonghong Tian 0001, Rongrong Ji. 12329-12338 [doi]

DECORE: Deep Compression with Reinforcement LearningManoj Alwani, Yang Wang, Vashisht Madhavan. 12339-12349 [doi]

Towards Efficient and Scalable Sharpness-Aware MinimizationYong Liu, Siqi Mai, Xiangning Chen, Cho-Jui Hsieh, Yang You. 12350-12360 [doi]

AEGNN: Asynchronous Event-based Graph Neural NetworksSimon Schaefer, Daniel Gehrig, Davide Scaramuzza 0001. 12361-12371 [doi]

DiSparse: Disentangled Sparsification for Multitask Model CompressionXinglong Sun, Ali Hassani 0001, Zhangyang Wang, Gao Huang, Humphrey Shi. 12372-12382 [doi]

Multi-modal Extreme ClassificationAnshul Mittal, Kunal Dahiya, Shreya Malani, Janani Ramaswamy, Seba Kuruvilla, Jitendra Ajmera, Keng-hao Chang, Sumeet Agarwal, Purushottam Kar, Manik Varma. 12383-12392 [doi]

A sampling-based approach for efficient clustering in large datasetsGeorgios Exarchakis, Omar Oubari, Gregor Lenz. 12393-12402 [doi]

Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic ContractionHyungjin Chung, Byeongsu Sim, Jong Chul Ye. 12403-12412 [doi]

Learnable Lookup Table for Neural Network QuantizationLongguang Wang, Xiaoyu Dong, Yingqian Wang 0002, Li Liu 0002, Wei An, Yulan Guo. 12413-12423 [doi]

Instance-Aware Dynamic Neural Network QuantizationZhenhua Liu 0003, Yunhe Wang 0001, Kai Han 0002, Siwei Ma, Wen Gao 0001. 12424-12433 [doi]

Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike RepresentationQingyan Meng, Mingqing Xiao 0002, Shen Yan, Yisen Wang 0001, Zhouchen Lin, Zhi-Quan Luo. 12434-12443 [doi]

Fire Together Wire Together: A Dynamic Pruning Approach with Self-Supervised Mask PredictionSara Elkerdawy, Mostafa Elhoushi, Hong Zhang 0013, Nilanjan Ray. 12444-12453 [doi]

Wavelet Knowledge Distillation: Towards Efficient Image-to-Image TranslationLinfeng Zhang, Xin Chen, Xiaobing Tu, Pengfei Wan, Ning Xu, Kaisheng Ma. 12454-12464 [doi]

PokeBNN: A Binary Pursuit of Lightweight AccuracyYichi Zhang, Zhiru Zhang, Lukasz Lew. 12465-12475 [doi]

Automated Progressive Learning for Efficient Training of Vision TransformersChanglin Li, Bohan Zhuang, Guangrun Wang, Xiaodan Liang, Xiaojun Chang, Yi Yang. 12476-12486 [doi]

DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in VideosMathias Parger, Chengcheng Tang, Christopher D. Twigg, Cem Keskin, Robert Wang 0002, Markus Steinberger. 12487-12496 [doi]

Channel Balancing for Accurate Quantization of Winograd ConvolutionsVladimir Chikin, Vladimir Kryzhanovskiy. 12497-12506 [doi]

ClusterGNN: Cluster-based Coarse-to-Fine Graph Neural Network for Efficient Feature MatchingYan Shi, Junxiong Cai, Yoli Shavit, Tai-Jiang Mu, WenSen Feng, Kai Zhang. 12507-12516 [doi]

Interspace Pruning: Using Adaptive Filter Representations to Improve Training of Sparse CNNsPaul Wimmer, Jens Mehnert, Alexandru Condurache. 12517-12527 [doi]

AlignQ: Alignment Quantization with ADMM-based Correlation PreservationTing-An Chen, De-Nian Yang, Ming-Syan Chen. 12528-12537 [doi]

TVConv: Efficient Translation Variant Convolution for Layout-aware Visual ProcessingJierun Chen, Tianlang He, Weipeng Zhuo, Li Ma, Sangtae Ha, S.-H. Gary Chan. 12538-12548 [doi]

SplitNets: Designing Neural Architectures for Efficient Distributed Computing on Head-Mounted SystemsXin Dong, Barbara De Salvo, Meng Li, Chiao Liu, Zhongnan Qu, H. T. Kung 0001, Ziyun Li. 12549-12559 [doi]

TO-FLOW: Efficient Continuous Normalizing Flows with Temporal Optimization adjoint with Moving SpeedShian Du, Yihong Luo, Wei Chen, Jian Xu, Delu Zeng. 12560-12570 [doi]

2: A Photometric Stereo Benchmark Dataset with Controlled Shape and Material VariationJieji Ren, Feishi Wang, Jiahao Zhang, Qian Zheng, Mingjun Ren, Boxin Shi. 12571-12580 [doi]

Universal Photometric Stereo Network using Global Lighting ContextsSatoshi Ikehata. 12581-12590 [doi]

Uncertainty-Aware Deep Multi-View Photometric StereoBerk Kaya, Suryansh Kumar, Carlos Eduardo Porto de Oliveira, Vittorio Ferrari, Luc Van Gool. 12591-12601 [doi]

Fast Light-Weight Near-Field Photometric StereoDaniel Lichy, Soumyadip Sengupta, David W. Jacobs. 12602-12611 [doi]

Glass Segmentation using Intensity and Spectral Polarization CuesHaiyang Mei, Bo Dong, Wen Dong 0008, Jiaxi Yang, Seung-Hwan Baek, Felix Heide, Pieter Peers, Xiaopeng Wei, Xin Yang. 12612-12621 [doi]

Shape from Polarization for Complex Scenes in the WildChenyang Lei, Chenyang Qi, Jiaxin Xie, Na Fan 0002, Vladlen Koltun, Qifeng Chen. 12622-12631 [doi]

Deep Depth from Focus with Differential Focus VolumeFengting Yang, Xiaolei Huang, Zihan Zhou 0001. 12632-12641 [doi]

Optimal LED Spectral Multiplexing for NIR2RGB TranslationLei Liu, Yuze Chen, Junchi Yan, Yinqiang Zheng. 12642-12650 [doi]

Shape from Thermal Radiation: Passive Ranging Using Multi-spectral LWIR MeasurementsYasuto Nagase, Takahiro Kushida, Kenichiro Tanaka, Takuya Funatomi, Yasuhiro Mukaigawa. 12651-12661 [doi]

NAN: Noise-Aware NeRFs for Burst-DenoisingNaama Pearl, Tali Treibitz, Simon Korman. 12662-12671 [doi]

Estimating Fine-Grained Noise Model via Contrastive LearningYunhao Zou, Ying Fu 0001. 12672-12681 [doi]

Real-time Hyperspectral Imaging in Hardware via Trained Metasurface EncodersMaksim Makarenko, Arturo Burguete-Lopez, Qizhou Wang, Fedor Getman, Silvio Giancola, Bernard Ghanem, Andrea Fratalocchi. 12682-12692 [doi]

MNSRNet: Multimodal Transformer Network for 3D Surface Super-ResolutionWuyuan Xie, Tengcong Huang, Miaohui Wang. 12693-12702 [doi]

PhyIR: Physics-based Inverse Rendering for Panoramic Indoor ImagesZhen Li, Lingli Wang, Xiang Huang, Cihui Pan, Jiaqi Yang. 12703-12713 [doi]

Neural Shape Mating: Self-Supervised Object Assembly with Adversarial Shape PriorsYun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, Animesh Garg. 12714-12723 [doi]

Learning to Anticipate Future with Dynamic Context RemovalXinyu Xu, Yong-Lu Li, Cewu Lu. 12724-12734 [doi]

Self-supervised Spatial Reasoning on Multi-View Line DrawingsSiyuan Xiang, Anbang Yang, Yanfei Xue, Yaoqing Yang, Chen Feng 0002. 12735-12744 [doi]

Contextual Debiasing for Visual Recognition with Causal MechanismsRuyang Liu, Hao Liu, Ge Li, Haodi Hou, Tinghao Yu, Tao Yang. 12745-12755 [doi]

Relative Pose from a Calibrated and an Uncalibrated Smartphone ImageYaqing Ding 0001, Daniel Barath, Jian Yang 0003, Zuzana Kukelova. 12756-12765 [doi]

Exploiting Rigidity Constraints for LiDAR Scene Flow EstimationGuanting Dong, Yueyi Zhang, Hanlin Li, Xiaoyan Sun 0001, Zhiwei Xiong. 12766-12775 [doi]

NICE-SLAM: Neural Implicit Scalable Encoding for SLAMZihan Zhu, Songyou Peng, Viktor Larsson, Weiwei Xu, Hujun Bao, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys. 12776-12786 [doi]

NinjaDesc: Content-Concealing Visual Descriptors via Adversarial LearningTony Ng, Hyo-Jin Kim, Vincent T. Lee, Daniel DeTone, Tsun-Yi Yang, Tianwei Shen, Eddy Ilg, Vassileios Balntas, Krystian Mikolajczyk, Chris Sweeney. 12787-12797 [doi]

ScaleNet: A Shallow Architecture for Scale EstimationAxel Barroso Laguna, Yurun Tian, Krystian Mikolajczyk. 12798-12808 [doi]

Camera Pose Estimation using Implicit Distortion ModelsLinfei Pan, Marc Pollefeys, Viktor Larsson. 12809-12818 [doi]

GIFS: Neural Implicit Function for General Shape RepresentationJianglong Ye, YunTao Chen, Naiyan Wang, Xiaolong Wang. 12819-12829 [doi]

Learning Deep Implicit Functions for 3D Shapes with Dynamic Code CloudsTianyang Li, Xin Wen, Yu-Shen Liu, Hua Su, Zhizhong Han. 12830-12840 [doi]

SPAMs: Structured Implicit Parametric ModelsPablo R. Palafox, Nikolaos Sarafianos, Tony Tung, Angela Dai. 12841-12850 [doi]

Deblur-NeRF: Neural Radiance Fields from Blurry ImagesLi Ma, Xiaoyu Li, Jing Liao 0001, Qi Zhang, Xuan Wang, Jue Wang, Pedro V. Sander. 12851-12860 [doi]

Panoptic Neural Fields: A Semantic Object-Aware Neural Scene RepresentationAbhijit Kundu, Kyle Genova, Xiaoqi Yin, Alireza Fathi, Caroline Pantofaru, Leonidas J. Guibas, Andrea Tagliasacchi, Frank Dellaert, Thomas A. Funkhouser. 12861-12871 [doi]

Depth-supervised NeRF: Fewer Views and Faster Training for FreeKangle Deng, Andrew Liu, Jun-Yan Zhu, Deva Ramanan. 12872-12881 [doi]

Dense Depth Priors for Neural Radiance Fields from Sparse Input ViewsBarbara Roessle, Jonathan T. Barron, Ben Mildenhall, Pratul P. Srinivasan, Matthias Nießner. 12882-12891 [doi]

EfficientNeRF - Efficient Neural Radiance FieldsTao Hu, Shu Liu 0005, Yilun Chen, Tiancheng Shen, Jiaya Jia. 12892-12901 [doi]

InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume RenderingMijeong Kim 0002, Seonguk Seo, Bohyung Han. 12902-12911 [doi]

Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly- ThroughsHaithem Turki, Deva Ramanan, Mahadev Satyanarayanan. 12912-12921 [doi]

Urban Radiance FieldsKonstantinos Rematas, Andrew Liu, Pratul P. Srinivasan, Jonathan T. Barron, Andrea Tagliasacchi, Thomas A. Funkhouser, Vittorio Ferrari. 12922-12932 [doi]

Hallucinated Neural Radiance Fields in the WildXingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Ying Feng, Xuan Wang, Jue Wang. 12933-12942 [doi]

Towards Multimodal Depth Estimation from Light FieldsTitus Leistner, Radek Mackowiak, Lynton Ardizzone, Ullrich Köthe, Carsten Rother. 12943-12951 [doi]

Degradation-agnostic Correspondence from Resolution-asymmetric StereoXihao Chen, Zhiwei Xiong, Zhen Cheng, Jiayong Peng, Yueyi Zhang, Zheng-Jun Zha. 12952-12961 [doi]

Uniform Subdivision of Omnidirectional Camera Space for Efficient Spherical Stereo MatchingDonghun Kang, Hyeonjoong Jang, Jungeon Lee, Chong-Min Kyung, Min H. Kim 0001. 12962-12970 [doi]

Attention Concatenation Volume for Accurate and Efficient Stereo MatchingGangwei Xu, Junda Cheng, Peng Guo, Xin Yang. 12971-12980 [doi]

Generalized Binary Search Network for Highly-Efficient Multi-View StereoZhenxing Mi, Di Chang, Dan Xu. 12981-12990 [doi]

Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency PerspectiveJiawei Zhang, Xiang Wang, Xiao Bai 0001, Chen Wang 0026, Lei Huang, Yimin Chen, Lin Gu 0003, Jun Zhou 0001, Tatsuya Harada, Edwin R. Hancock. 12991-13001 [doi]

GraftNet: Towards Domain Generalized Stereo Matching with a Broad-Spectrum and Task-Oriented FeatureBiyang Liu, Huimin Yu, Guodong Qi. 13002-13011 [doi]

ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching NetworksWeiqin Chuah, Ruwan B. Tennakoon, Reza Hoseinnezhad, Alireza Bab-Hadiashar, David Suter. 13012-13022 [doi]

ActiveZero: Mixed Domain Learning for Active Stereovision with Zero AnnotationIsabella Liu, Edward Yang, Jianyu Tao, Rui Chen, Xiaoshuai Zhang, Qing Ran, Zhu Liu, Hao Su 0001. 13023-13032 [doi]

FoggyStereo: Stereo Matching with Fog Volume RepresentationChengtang Yao, Lidong Yu. 13033-13042 [doi]

Multi-Person Extreme Motion PredictionWen Guo, Xiaoyu Bie, Xavier Alameda-Pineda, Francesc Moreno-Noguer. 13043-13054 [doi]

Learning Local-Global Contextual Adaptation for Multi-Person Pose EstimationNan Xue 0001, Tianfu Wu 0001, Gui-Song Xia, Liangpei Zhang. 13055-13064 [doi]

AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion GenerationMohsen Gholami, Bastian Wandt, Helge Rhodin, Rabab Ward, Z. Jane Wang 0001. 13065-13075 [doi]

Single-Stage is Enough: Multi-Person Absolute 3D Pose EstimationLei Jin, Chenyang Xu, Xiaojuan Wang, Yabo Xiao, Yandong Guo, Xuecheng Nie, Jian Zhao. 13076-13085 [doi]

Distribution-Aware Single-Stage Models for Multi-Person 3D Pose EstimationZitian Wang, Xuecheng Nie, Xiaochao Qu, Yunpeng Chen, Si Liu 0001. 13086-13095 [doi]

Trajectory Optimization for Physics-Based Reconstruction of 3d Human Pose from Monocular VideoErik Gärtner, Mykhaylo Andriluka, Hongyi Xu, Cristian Sminchisescu. 13096-13105 [doi]

Ray3D: ray-based 3D human pose estimation for monocular absolute 3D localizationYu Zhan, Fenghai Li, Renliang Weng, Wongun Choi. 13106-13115 [doi]

Lite Pose: Efficient Architecture Design for 2D Human Pose EstimationYihan Wang, Muyang Li, Han Cai, Wei-Ming Chen, Song Han 0003. 13116-13126 [doi]

Location-Free Human Pose EstimationXixia Xu, Yingguo Gao, Ke Yan, Xue Lin, Qi Zou. 13127-13136 [doi]

MHFormer: Multi-Hypothesis Transformer for 3D Human Pose EstimationWenhao Li, Hong Liu 0008, Hao Tang 0005, Pichao Wang, Luc Van Gool. 13137-13146 [doi]

Estimating Egocentric 3D Human Pose in the Wild with External Weak SupervisionJian Wang, Lingjie Liu, WeiPeng Xu, Kripasindhu Sarkar, Diogo Luvizon, Christian Theobalt. 13147-13156 [doi]

Physical Inertial Poser (PIP): Physics-aware Real-time Human Motion Tracking from Sparse Inertial SensorsXinyu Yi, Yuxiao Zhou, Marc Habermann, Soshi Shimada, Vladislav Golyanik, Christian Theobalt, Feng Xu 0005. 13157-13168 [doi]

PoseKernelLifter: Metric Lifting of 3D Human Pose using SoundZhijian Yang, Xiaoran Fan, Volkan Isler, Hyun Soo Park. 13169-13179 [doi]

Differentiable Dynamics for Articulated 3d Human Motion ReconstructionErik Gärtner, Mykhaylo Andriluka, Erwin Coumans, Cristian Sminchisescu. 13180-13190 [doi]

COAP: Compositional Articulated Occupancy of PeopleMarko Mihajlovic, Shunsuke Saito, Aayush Bansal, Michael Zollhöfer, Siyu Tang 0001. 13191-13200 [doi]

Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape Estimation from Monocular VideoWen-Li Wei, Jen-Chun Lin, Tyng-Luh Liu, Hong-Yuan Mark Liao. 13201-13210 [doi]

2-PCR: A Second Order Spatial Compatibility for Efficient and Robust Point Cloud RegistrationZhi Chen, Kun Sun 0002, Fan Yang, Wenbing Tao. 13211-13221 [doi]

MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in VideoJinlu Zhang, Zhigang Tu 0001, Jianyu Yang, Yujin Chen, Junsong Yuan. 13222-13232 [doi]

Putting People in their Place: Monocular Regression of 3D People in DepthYu Sun, Wu Liu, Qian Bao, Yili Fu, Tao Mei 0001, Michael J. Black. 13233-13242 [doi]

FLAG: Flow-based 3D Avatar Generation from Sparse ObservationsSadegh Aliakbarian, Pashmina Cameron, Federica Bogo, Andrew W. Fitzgibbon, Thomas J. Cashman 0001. 13243-13252 [doi]

GOAL: Generating 4D Whole-Body Motion for Hand-Object GraspingOmid Taheri, Vasileios Choutas, Michael J. Black, Dimitrios Tzionas. 13253-13263 [doi]

Capturing and Inferring Dense Full-Body Human-Scene ContactChun-Hao P. Huang, Hongwei Yi, Markus Höschle, Matvey Safroshkin, Tsvetelina Alexiadis, Senya Polikovsky, Daniel Scharstein, Michael J. Black. 13264-13275 [doi]

BodyMap: Learning Full-Body Dense Correspondence MapAnastasia Ianina, Nikolaos Sarafianos, Yuanlu Xu, Ignacio Rocco, Tony Tung. 13276-13285 [doi]

ICON: Implicit Clothed humans Obtained from NormalsYuliang Xiu, Jinlong Yang, Dimitrios Tzionas, Michael J. Black. 13286-13296 [doi]

Adversarial Texture for Fooling Person Detectors in the Physical WorldZhanhao Hu, Siyuan Huang, Xiaopei Zhu, Fuchun Sun 0001, Bo Zhang, Xiaolin Hu 0001. 13297-13306 [doi]

Infrared Invisible Clothing: Hiding from Infrared Detectors at Multiple Angles in Real WorldXiaopei Zhu, Zhanhao Hu, Siyuan Huang, Jianmin Li 0001, Xiaolin Hu 0001. 13307-13316 [doi]

Enhancing Classifier Conservativeness and Robustness by PolynomialityZiqi Wang, Marco Loog. 13317-13326 [doi]

Backdoor Attacks on Self-Supervised LearningAniruddha Saha, Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Hamed Pirsiavash. 13327-13336 [doi]

Towards Practical Deployment-Stage Backdoor Attack on Deep Neural NetworksXiangyu Qi, Tinghao Xie, Ruizhe Pan, Jifeng Zhu, Yong Yang, Kai Bu. 13337-13347 [doi]

Few-shot Backdoor Defense Using Shapley EstimationJiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao. 13348-13357 [doi]

Better Trigger Inversion Optimization in Backdoor ScanningGuanhong Tao, Guangyu Shen, Yingqi Liu, Shengwei An, Qiuling Xu, ShiQing Ma, Pan Li, Xiangyu Zhang 0001. 13358-13368 [doi]

Bandits for Structure Perturbation-based Black-box Attacks to Graph Neural Networks with Theoretical GuaranteesBinghui Wang, Youqi Li, Pan Zhou. 13369-13377 [doi]

Improving Robustness Against Stealthy Weight Bit-Flip Attacks by Output Code MatchingOzan Özdenizci, Robert Legenstein. 13378-13387 [doi]

LAS-AT: Adversarial Training with Learnable Attack StrategyXiaojun Jia, Yong Zhang 0034, Baoyuan Wu, Ke Ma 0001, Jue Wang 0001, Xiaochun Cao. 13388-13398 [doi]

Subspace Adversarial TrainingTao Li, Yingwen Wu, Sizhe Chen, Kun Fang 0004, Xiaolin Huang. 13399-13408 [doi]

Pyramid Adversarial Training Improves ViT PerformanceCharles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun. 13409-13419 [doi]

Fingerprinting Deep Neural Networks Globally via Universal Adversarial PerturbationsZirui Peng, Shaofeng Li, Guoxing Chen, Cheng Zhang, Haojin Zhu, Minhui Xue. 13420-13429 [doi]

Robust Image Forgery Detection over Online Social Network Shared ImagesHaiwei Wu, Jiantao Zhou 0001, Jinyu Tian, Jun Liu 0071. 13430-13439 [doi]

Quantifying Societal Bias Amplification in Image CaptioningYusuke Hirota, Yuta Nakashima, Noa Garcia. 13440-13449 [doi]

Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image Generative ModelsNiv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon, Michal Irani. 13450-13459 [doi]

GAN-Supervised Dense Visual AlignmentWilliam S. Peebles, Jun-Yan Zhu, Richard Zhang 0001, Antonio Torralba 0001, Alexei A. Efros, Eli Shechtman. 13460-13471 [doi]

Look Closer to Supervise Better: One-Shot Font Generation via Component-Based DiscriminatorYuxin Kong, Canjie Luo, Weihong Ma, Qiyuan Zhu, Shenggao Zhu, Nicholas Yuan, Lianwen Jin. 13472-13481 [doi]

Text2Mesh: Text-Driven Neural Stylization for MeshesOscar Michel, Roi Bar-On, Richard Liu, Sagie Benaim, Rana Hanocka. 13482-13492 [doi]

StyleSDF: High-Resolution 3D-Consistent Image and Geometry GenerationRoy Or-El, Xuan Luo, Mengyi Shan, Eli Shechtman, Jeong-Joon Park, Ira Kemelmacher-Shlizerman. 13493-13503 [doi]

Physical Simulation Layer for Accurate 3D ModelingMariem Mezghanni, Théo Bodrito, Malika Boulkenafed, Maks Ovsjanikov. 13504-13513 [doi]

Fourier PlenOctrees for Dynamic Radiance Field Rendering in Real-timeLiao Wang, Jiakai Zhang, Xinhang Liu, Fuqiang Zhao, Yanshun Zhang, Yingliang Zhang, Minye Wu, Jingyi Yu, Lan Xu. 13514-13524 [doi]

Neural Texture Extraction and Distribution for Controllable Person Image SynthesisYurui Ren, Xiaoqing Fan, Ge Li 0002, Shan Liu, Thomas H. Li. 13525-13534 [doi]

I M Avatar: Implicit Morphable Head Avatars from VideosYufeng Zheng, Victoria Fernández Abrevaya, Marcel C. Bühler, Xu Chen, Michael J. Black, Otmar Hilliges. 13535-13545 [doi]

RCL: Recurrent Continuous Localization for Temporal Action DetectionQiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan. 13556-13565 [doi]

Self-Supervised Predictive Convolutional Attentive Block for Anomaly DetectionNicolae-Catalin Ristea, Neelu Madan, Radu-Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah. 13566-13576 [doi]

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video RecognitionChao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan 0001, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer. 13577-13587 [doi]

TubeR: Tubelet Transformer for Video Action DetectionJiaojiao Zhao, Yanyi Zhang, Xinyu Li, Hao Chen, Bing Shuai, Mingze Xu, Chunhui Liu, Kaustav Kundu, Yuanjun Xiong, Davide Modolo, Ivan Marsic, Cees G. M. Snoek, Joseph Tighe. 13588-13597 [doi]

MixFormer: End-to-End Tracking with Iterative Mixed AttentionYutao Cui, Cheng Jiang, Limin Wang 0002, Gangshan Wu. 13598-13608 [doi]

DN-DETR: Accelerate DETR Training by Introducing Query DeNoisingFeng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M. Ni, Lei Zhang. 13609-13617 [doi]

Proper Reuse of Image Classification Features Improves Object DetectionCristina Vasconcelos, Vighnesh Birodkar, Vincent Dumoulin. 13618-13627 [doi]

Boosting 3D Object Detection by Simulating Multimodality on Point CloudsWu Zheng, Mingxuan Hong, Li Jiang, Chi-Wing Fu. 13628-13637 [doi]

TransVPR: Transformer-Based Place Recognition with Multi-Level Attention AggregationRuotong Wang 0005, Yanqing Shen, Weiliang Zuo, Sanping Zhou, Nanning Zheng 0001. 13638-13647 [doi]

Disentangling Visual Embeddings for Attributes and ObjectsNirat Saini, Khoi Pham, Abhinav Shrivastava. 13648-13657 [doi]

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object DetectionChenhongyi Yang, Zehao Huang, Naiyan Wang. 13658-13667 [doi]

Unknown-Aware Object Detection: Learning What You Don't Know from Videos in the WildXuefeng Du, Xin Wang, Gabriel Gozum, Yixuan Li. 13668-13678 [doi]

Interpretable part-whole hierarchies and conceptual-semantic relationships in neural networksNicola Garau, Niccoló Bisagno, Zeno Sambugaro, Nicola Conci. 13679-13688 [doi]

Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary PerspectiveGowthami Somepalli, Liam Fowl, Arpit Bansal, Ping-Yeh Chiang, Yehuda Dar, Richard G. Baraniuk, Micah Goldblum, Tom Goldstein. 13689-13698 [doi]

Calibrating Deep Neural Networks by Pairwise ConstraintsJiacheng Cheng, Nuno Vasconcelos. 13699-13708 [doi]

Lifelong Graph LearningChen Wang, Yuheng Qiu, Dasong Gao, Sebastian A. Scherer. 13709-13718 [doi]

OrphicX: A Causality-Inspired Latent Variable Model for Interpreting Graph Neural NetworksWanyu Lin, Hao Lan, Hao Wang 0014, Baochun Li. 13719-13728 [doi]

Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via DiscretisationStephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison. 13729-13738 [doi]

Dual Task Learning by Leveraging Both Dense Correspondence and Mis-Correspondence for Robust Change Detection With Imperfect MatchesJin Man Park, Ue-Hwan Kim, Seon-Hoon Lee, Jong-Hwan Kim 0001. 13739-13749 [doi]

Cross-view Transformers for real-time Map-view Semantic SegmentationBrady Zhou, Philipp Krähenbühl. 13750-13759 [doi]

UnweaveNet: Unweaving Activity StoriesWill Price, Carl Vondrick, Dima Damen. 13760-13769 [doi]

Weakly-Supervised Online Action Segmentation in Multi-View Instructional VideosReza Ghoddoosian, Isht Dwivedi, Nakul Agarwal, Chiho Choi, Behzad Dariush. 13770-13780 [doi]

Audio-Adaptive Activity Recognition Across Video DomainsYunhua Zhang, Hazel Doughty, Ling Shao 0001, Cees G. M. Snoek. 13781-13790 [doi]

Frame-wise Action Representations for Long Videos via Sequence Contrastive LearningMinghao Chen 0001, Fangyun Wei, Chong Li, Deng Cai 0001. 13791-13800 [doi]

Image Based Reconstruction of Liquids from 2D Surface DetectionsFlorian Richter 0002, Ryan K. Orosco, Michael C. Yip. 13801-13810 [doi]

Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical ConsistencyZhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yi Xu, Xiang Wang, Mingqian Tang, Changxin Gao, Rong Jin, Nong Sang. 13811-13821 [doi]

How Do You Do It? Fine-Grained Action Understanding with Pseudo-AdverbsHazel Doughty, Cees G. M. Snoek. 13822-13832 [doi]

Programmatic Concept Learning for Human Motion Description and SynthesisSumith Kulal, Jiayuan Mao, Alex Aiken, Jiajun Wu 0001. 13833-13842 [doi]

Learning To Recognize Procedural Activities with Distant SupervisionXudong Lin 0003, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani. 13843-13853 [doi]

Implicit Motion Handling for Video Camouflaged Object DetectionXuelian Cheng, Huan Xiong, Deng-Ping Fan, Yiran Zhong, Mehrtash Harandi, Tom Drummond, ZongYuan Ge. 13854-13863 [doi]

Dynamic Scene Graph Generation via Anticipatory Pre-trainingYiming Li, Xiaoshan Yang, Changsheng Xu. 13864-13873 [doi]

Learning to Refactor Action and Co-occurrence Features for Temporal Action LocalizationKun Xia, Le Wang 0003, Sanping Zhou, Nanning Zheng 0001, Wei Tang. 13874-13883 [doi]

OCSampler: Compressing Videos to One Clip with Single-step SamplingJintao Lin, Haodong Duan, Kai Chen, Dahua Lin, Limin Wang 0002. 13884-13893 [doi]

A Hybrid Egocentric Activity Anticipation Framework via Memory-Augmented Recurrent and One-shot Representation ForecastingTianshan Liu, Kin-Man Lam 0001. 13894-13903 [doi]

TubeFormer-DeepLab: Video Mask TransformerDahun Kim, Jun Xie, Huiyu Wang, Siyuan Qiao, Qihang Yu, Hong-seok Kim, Hartwig Adam, In-So Kweon, Liang-Chieh Chen. 13904-13914 [doi]

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action LocalizationBo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava. 13915-13925 [doi]

STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video PredictionZheng Chang 0002, Xinfeng Zhang 0001, Shanshe Wang, Siwei Ma, Wen Gao 0001. 13926-13935 [doi]

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web VideosTomás Soucek, Jean-Baptiste Alayrac, Antoine Miech, Ivan Laptev, Josef Sivic. 13936-13946 [doi]

End-to-End Compressed Video Representation Learning for Generic Event Boundary DetectionCongcong Li, Xinyao Wang, Longyin Wen, Dexiang Hong, Tiejian Luo, Libo Zhang 0001. 13947-13956 [doi]

Contextualized Spatio-Temporal Contrastive Learning with Self-SupervisionLiangzhe Yuan, Rui Qian, Yin Cui, Boqing Gong, Florian Schroff, Ming-Hsuan Yang 0001, Hartwig Adam, Ting Liu 0005. 13957-13966 [doi]

Deep Anomaly Discovery from Unlabeled Videos via Normality Advantage and Self-Paced RefinementGuang Yu, Siqi Wang, Zhiping Cai, Xinwang Liu, Chuanfu Xu, Chengkun Wu. 13967-13978 [doi]

A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic InformationMatthew Kowal, Mennatullah Siam, Md. Amirul Islam, Neil D. B. Bruce, Richard P. Wildes, Konstantinos G. Derpanis. 13979-13989 [doi]

Long-Short Temporal Contrastive Learning of Video TransformersJue Wang, Gedas Bertasius, Du Tran, Lorenzo Torresani. 13990-14000 [doi]

Scene Consistency Representation Learning for Video Scene SegmentationHaoqian Wu, Keyu Chen, Yanan Luo, Ruizhi Qiao, Bo Ren, Haozhe Liu, Weicheng Xie 0001, LinLin Shen. 14001-14010 [doi]

Unsupervised Pre-training for Temporal Action Localization TasksCan Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang, Yuexian Zou. 14011-14021 [doi]

Contrastive Learning for Unsupervised Video Highlight DetectionTaivanbat Badamdorj, Mrigank Rochan, Yang Wang 0003, Li Cheng. 14022-14032 [doi]

Deformable Video TransformerJue Wang, Lorenzo Torresani. 14033-14042 [doi]

Recurring the Transformer for Video Action RecognitionJiewen Yang, Xingbo Dong, Liujun Liu, Chao Zhang, Jiajun Shen, Dahai Yu. 14043-14053 [doi]

Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge DistillationZongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, Weiming Hu. 14054-14063 [doi]

Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language ModelYu Du, Fangyun Wei, Zihe Zhang, Miaojing Shi, Yue Gao, Guoqi Li. 14064-14073 [doi]

Sign Language Video Retrieval with Free-Form Textual QueriesAmanda Cardoso Duarte, Samuel Albanie, Xavier Giró i Nieto, Gül Varol. 14074-14084 [doi]

FashionVLP: Vision Language Transformer for Fashion Retrieval with FeedbackSonam Goenka, Zhaoheng Zheng, Ayush Jaiswal, Rakesh Chada, Yue Wu 0001, Varsha Hedau, Pradeep Natarajan. 14085-14095 [doi]

Pushing the Performance Limit of Scene Text Recognizer without Human AnnotationCaiyuan Zheng, Hui Li, Seon-Min Rhee, Seungju Han, Jae-Joon Han, Peng Wang. 14096-14105 [doi]

ESCNet: Gaze Target Detection with the Understanding of 3D ScenesJun Bao, Buyu Liu, Jun Yu 0002. 14106-14115 [doi]

Interactive Multi-Class Tiny-Object DetectionChunggi Lee, Seonwook Park, Heon Song, Jeongun Ryu, Sanghoon Kim, Haejoon Kim, Sérgio Pereira, Donggeun Yoo. 14116-14125 [doi]

Weakly Supervised Rotation-Invariant Aerial Object Detection NetworkXiaoxu Feng, Xiwen Yao, Gong Cheng 0003, Junwei Han. 14126-14135 [doi]

Large Loss Matters in Weakly Supervised Multi-Label ClassificationYoungwook Kim, Jae-Myung Kim, Zeynep Akata, Jungwoo Lee 0001. 14136-14145 [doi]

MetaFSCIL: A Meta-Learning Approach for Few-Shot Class Incremental LearningZhixiang Chi, Li Gu, Huan Liu, Yang Wang, Yuanhao Yu, Jin Tang. 14146-14155 [doi]

FreeSOLO: Learning to Segment Objects without AnnotationsXinlong Wang, Zhiding Yu, Shalini De Mello, Jan Kautz, Anima Anandkumar, Chunhua Shen, Jose M. Alvarez. 14156-14166 [doi]

Revisiting AP Loss for Dense Object Detection: Adaptive Ranking Pair SelectionDongli Xu, Jinhong Deng, Wen Li. 14167-14176 [doi]

SIOD: Single Instance Annotated Per Category Per Image for Object DetectionHanjun Li, Xingjia Pan, Ke Yan, Fan Tang, Wei-Shi Zheng. 14177-14186 [doi]

Towards Robust Adaptive Object Detection under Noisy AnnotationsXinyu Liu, Wuyang Li, Qiushi Yang, Baopu Li, Yixuan Yuan. 14187-14196 [doi]

Task-specific Inconsistency Alignment for Domain Adaptive Object DetectionLiang Zhao, Limin Wang 0002. 14197-14206 [doi]

Salvage of Supervision in Weakly Supervised Object DetectionLin Sui, Chen-Lin Zhang, Jianxin Wu 0001. 14207-14216 [doi]

Label, Verify, Correct: A Simple Few Shot Object Detection MethodPrannay Kaul, Weidi Xie, Andrew Zisserman. 14217-14227 [doi]

Background Activation Suppression for Weakly Supervised Object LocalizationPingyu Wu, Wei Zhai, Yang Cao. 14228-14237 [doi]

Bridging the Gap between Classification and Localization for Weakly Supervised Object LocalizationEunji Kim, Siwon Kim, Jungbeom Lee, Hyunwoo Kim, Sungroh Yoon. 14238-14247 [doi]

Divide and Conquer: Compositional Experts for Generalized Novel Class DiscoveryMuli Yang, Yuehua Zhu, Jiaping Yu, Aming Wu, Cheng Deng. 14248-14257 [doi]

Cloth-Changing Person Re-identification from A Single Image with Gait Prediction and RegularizationXin Jin, Tianyu He, Kecheng Zheng, Zhiheng Yin, Xu Shen, Zhen Huang, Ruoyu Feng, Jianqiang Huang, Zhibo Chen 0001, Xian-Sheng Hua 0001. 14258-14267 [doi]

Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and AdaptationZhipeng Huang 0014, Zhizheng Zhang 0004, Cuiling Lan, Wenjun Zeng, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu 0001, Zheng-Jun Zha. 14268-14277 [doi]

Unleashing Potential of Unsupervised Pre-Training with Intra-Identity Regularization for Person Re-IdentificationZizheng Yang, Xin Jin, Kecheng Zheng, Feng Zhao. 14278-14287 [doi]

Learning with Twin Noisy Labels for Visible-Infrared Person Re-IdentificationMouxing Yang, Zhenyu Huang 0005, Peng Hu 0002, Taihao Li, Jiancheng Lv 0001, Xi Peng 0001. 14288-14297 [doi]

Towards Total Recall in Industrial Anomaly DetectionKarsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter V. Gehler. 14298-14308 [doi]

H2FA R-CNN: Holistic and Hierarchical Feature Alignment for Cross-domain Weakly Supervised Object DetectionYunqiu Xu, Yifan Sun, Zongxin Yang, Jiaxu Miao, Yi Yang. 14309-14319 [doi]

Geometric and Textural Augmentation for Domain Gap ReductionXiao-Chang Liu, Yongliang Yang, Peter Hall 0001. 14320-14330 [doi]

General Incremental Learning with Domain-aware Categorical RepresentationsJiangwei Xie, Shipeng Yan, Xuming He 0001. 14331-14340 [doi]

DST: Dynamic Substitute Training for Data-free Black-box AttackWenxuan Wang, Xuelin Qian, Yanwei Fu, Xiangyang Xue. 14341-14350 [doi]

ART-Point: Improving Rotation Robustness of Point Cloud Classifiers via Adversarial RotationRuibin Wang, Yibo Yang, Dacheng Tao. 14351-14360 [doi]

Label Matching Semi-Supervised Object DetectionBinbin Chen, Weijie Chen, Shicai Yang, Yunyi Xuan, Jie Song, Di Xie, Shiliang Pu, Mingli Song, Yueting Zhuang. 14361-14370 [doi]

Multidimensional Belief Quantification for Label-Efficient Meta-LearningDeep Shankar Pandey, Qi Yu 0001. 14371-14380 [doi]

Propagation Regularizer for Semi-supervised Learning with Extremely Scarce Labeled SamplesNoo-ri Kim, Jee-Hyong Lee. 14381-14390 [doi]

Learning to Affiliate: Mutual Centralized Learning for Few-shot ClassificationYang Liu, Weifeng Zhang, Chao Xiang, Tu Zheng, Deng Cai 0001, Xiaofei He 0001. 14391-14400 [doi]

Class-Aware Contrastive Semi-Supervised LearningFan Yang, Kai Wu, Shuyi Zhang, Guannan Jiang, Yong Liu, Feng Zheng, Wei Zhang, Chengjie Wang, Long Zeng. 14401-14410 [doi]

Exploring the Equivalence of Siamese Self-Supervised Learning via A Unified Gradient FrameworkChenxin Tao, Honghui Wang, Xizhou Zhu, Jiahua Dong, Shiji Song, Gao Huang, Jifeng Dai. 14411-14420 [doi]

Dual Temperature Helps Contrastive Learning Without Many Negative Samples: Towards Understanding and Simplifying MoCoChaoning Zhang, Kang Zhang, Trung X. Pham, Axi Niu, Zhinan Qiao, Chang D. Yoo, In-So Kweon. 14421-14430 [doi]

Learning Where to Learn in Cross-View Self-Supervised LearningLang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Toshihiko Yamasaki. 14431-14440 [doi]

Dist-PU: Positive-Unlabeled Learning from a Label Distribution PerspectiveYunrui Zhao, Qianqian Xu, Yangbangyan Jiang, Peisong Wen, Qingming Huang. 14441-14450 [doi]

SimMatch: Semi-supervised Learning with Similarity MatchingMingkai Zheng, Shan You, Lang Huang, Fei Wang, Chen Qian, Chang Xu. 14451-14461 [doi]

Active Teacher for Semi-Supervised Object DetectionPeng Mi, Jianghang Lin, Yiyi Zhou, Yunhang Shen, Gen Luo, Xiaoshuai Sun, Liujuan Cao, Rongrong Fu, Qiang Xu, Rongrong Ji. 14462-14471 [doi]

Not All Labels Are Equal: Rationalizing The Labeling Costs for Training Object DetectionIsmail Elezi, Zhiding Yu, Anima Anandkumar, Laura Leal-Taixé, Jose M. Alvarez. 14472-14481 [doi]

Self-Supervised Learning of Object Parts for Semantic SegmentationAdrian Ziegler, Yuki M. Asano. 14482-14491 [doi]

MUM: Mix Image Tiles and UnMix Feature Tiles for Semi-Supervised Object DetectionJongmok Kim, Jooyoung Jang, Seunghyeon Seo, Jisoo Jeong, Jongkeun Na, Nojun Kwak. 14492-14501 [doi]

Scale-Equivalent Distillation for Semi-Supervised Object DetectionQiushan Guo, Yao Mu, Jianyu Chen, Tianqi Wang, Yizhou Yu, Ping Luo. 14502-14511 [doi]

A Self-Supervised Descriptor for Image Copy DetectionEd Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, Matthijs Douze. 14512-14522 [doi]

Self-Supervised Transformers for Unsupervised Object Discovery using Normalized CutYangtao Wang, Xi Shen 0001, Shell Xu Hu, Yuan Yuan 0002, James L. Crowley, Dominique Vaufreydaz. 14523-14533 [doi]

CAD: Co-Adapting Discriminative Features for Improved Few-Shot ClassificationPhilip Chikontwe, Soopil Kim, Sang-Hyun Park. 14534-14543 [doi]

Semi-Supervised Few-shot Learning via Multi-Factor ClusteringJie Ling, Lei Liao, Meng Yang 0001, Jia Shuai. 14544-14553 [doi]

CoSSL: Co-Learning of Representation and Classifier for Imbalanced Semi-Supervised LearningYue Fan, Dengxin Dai, Anna Kukleva, Bernt Schiele. 14554-14564 [doi]

Safe-Student for Safe Deep Semi-Supervised Learning with Unseen-Class Unlabeled DataRundong He, Zhongyi Han, Xiankai Lu, Yilong Yin. 14565-14574 [doi]

A Simple Data Mixing Prior for Improving Self-Supervised LearningSucheng Ren, Huiyu Wang, Zhengqi Gao, Shengfeng He, Alan L. Yuille, Yuyin Zhou, Cihang Xie. 14575-14584 [doi]

DETReg: Unsupervised Pretraining with Region Priors for Object DetectionAmir Bar, Xin Wang, Vadim Kantorov, Colorado J. Reed, Roei Herzig, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson. 14585-14595 [doi]

Sound and Visual Representation Learning with Multiple Pretraining TasksArun Balajee Vasudevan, Dengxin Dai, Luc Van Gool. 14596-14606 [doi]

UniVIP: A Unified Framework for Self-Supervised Visual Pre-trainingZhaowen Li, Yousong Zhu, Fan Yang, Wei Li, Chaoyang Zhao, Yingying Chen 0003, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao 0018, Ming Tang 0001, Jinqiao Wang. 14607-14616 [doi]

Weakly Supervised Object Localization as Domain AdaptionLei Zhu, Qi She, Qian Chen, Yunfei You, Boyu Wang, Yanye Lu. 14617-14626 [doi]

Debiased Learning from Naturally Imbalanced Pseudo-LabelsXudong Wang, Zhirong Wu, Long Lian, Stella X. Yu. 14627-14637 [doi]

Towards Discovering the Effectiveness of Moderately Confident Samples for Semi-Supervised LearningHui Tang, Kui Jia. 14638-14647 [doi]

Masked Feature Prediction for Self-Supervised Visual Pre-TrainingChen Wei 0005, Haoqi Fan 0001, Saining Xie, Chao-Yuan Wu, Alan L. Yuille, Christoph Feichtenhofer. 14648-14658 [doi]

Contrastive Learning for Space-time Correspondence via Self-cycle ConsistencyJeany Son. 14659-14668 [doi]

Id-Free Person Similarity LearningBing Shuai, Xinyu Li, Kaustav Kundu, Joseph Tighe. 14669-14679 [doi]

End-to-End Semi-Supervised Learning for Video Action DetectionAakash Kumar, Yogesh Singh Rawat. 14680-14690 [doi]

Probabilistic Representations for Video Contrastive LearningJungin Park, Jiyoung Lee, Ig-Jae Kim, Kwanghoon Sohn. 14691-14701 [doi]

Interact before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action RecognitionLijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato. 14702-14712 [doi]

BEVT: BERT Pretraining of Video TransformersRui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan. 14713-14723 [doi]

Generative Cooperative Learning for Unsupervised Video Anomaly DetectionMuhammad Zaigham Zaheer, Arif Mahmood, M. Haris Khan, Mattia Segù, Fisher Yu, Seung-Ik Lee. 14724-14734 [doi]

The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by NormalizationMuhammad Jehanzeb Mirza, Jakub Micorek, Horst Possegger, Horst Bischof. 14745-14755 [doi]

What Matters For Meta-Learning Vision Regression Tasks?Ning Gao, Hanna Ziesche, Ngo Anh Vien, Michael Volpp, Gerhard Neumann. 14756-14766 [doi]

IFOR: Iterative Flow Minimization for Robotic Object RearrangementAnkit Goyal, Arsalan Mousavian, Chris Paxton, Yu-Wei Chao, Brian Okorn, Jia Deng 0001, Dieter Fox. 14767-14777 [doi]

TCTrack: Temporal Contexts for Aerial TrackingZiang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu 0002, Changhong Fu 0001. 14778-14788 [doi]

AKB-48: A Real-World Articulated Object Knowledge BaseLiu Liu 0012, Wenqiang Xu, Haoyuan Fu, Sucheng Qian, Qiaojun Yu, Yang Han, Cewu Lu. 14789-14798 [doi]

3DAC: Learning Attribute Compression for Point CloudsGuangchi Fang, Qingyong Hu, Hanyun Wang, Yiling Xu, Yulan Guo. 14799-14808 [doi]

Simple but Effective: CLIP Embeddings for Embodied AIApoorv Khandelwal 0001, Luca Weihs, Roozbeh Mottaghi, Aniruddha Kembhavi. 14809-14818 [doi]

Multi-Robot Active Mapping via Neural Bipartite Graph MatchingKai Ye, Siyan Dong, Qingnan Fan, He Wang, Li Yi, Fei Xia, Jue Wang, Baoquan Chen. 14819-14828 [doi]

Continuous Scene Representations for Embodied AISamir Yitzhak Gadre, Kiana Ehsani, Shuran Song, Roozbeh Mottaghi. 14829-14839 [doi]

Interactron: Embodied Adaptive Object DetectionKlemen Kotar, Roozbeh Mottaghi. 14840-14849 [doi]

Online Learning of Reusable Abstract Models for Object Goal NavigationTommaso Campari, Leonardo Lamanna, Paolo Traverso, Luciano Serafini, Lamberto Ballan. 14850-14859 [doi]

RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose OptimizationYan Xu, Kwan-Yee Lin, Guofeng Zhang 0001, Xiaogang Wang 0001, Hongsheng Li 0001. 14860-14870 [doi]

UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose EstimationTaeyeop Lee, Byeong-uk Lee, Inkyu Shin, Jaesung Choe, Ukcheol Shin, In-So Kweon, Kuk-Jin Yoon. 14871-14880 [doi]

Symmetry and Uncertainty-Aware Object SLAM for 6DoF Object Pose EstimationNathaniel Merrill, Yuliang Guo, Xingxing Zuo, Xinyu Huang 0001, Stefan Leutenegger, Xi Peng, Liu Ren, Guoquan Huang 0001. 14881-14890 [doi]

Upright-Net: Learning Upright Orientation for 3D Point CloudXufang Pang, Feng Li, Ning Ding, Xiaopin Zhong. 14891-14899 [doi]

DeepFake Disrupter: The Detector of DeepFake Is My FriendXueyu Wang, Jiajun Huang, Siqi Ma, Surya Nepal, Chang Xu. 14900-14909 [doi]

HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive RegularizationMengtian Li, Yuan Xie 0006, Yunhang Shen, Bo Ke, Ruizhi Qiao, Bo Ren, Shaohui Lin, Lizhuang Ma. 14910-14919 [doi]

Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online ResourcesSahar Abdelnabi, Rakibul Hasan, Mario Fritz. 14920-14929 [doi]

Leveraging Real Talking Faces via Self-Supervision for Robust Forgery DetectionAlexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic. 14930-14942 [doi]

Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch DetectionJiang Liu, Alexander Levine 0001, Chun Pong Lau 0001, Rama Chellappa, Soheil Feizi. 14953-14962 [doi]

Stochastic Variance Reduced Ensemble Adversarial Attack for Boosting the Adversarial TransferabilityYifeng Xiong, Jiadong Lin, Min Zhang, John E. Hopcroft, Kun He 0001. 14963-14972 [doi]

Improving Adversarial Transferability via Neuron Attribution-based AttacksJianping Zhang, Weibin Wu, Jen-Tse Huang, Yizhan Huang, Wenxuan Wang, Yuxin Su 0001, Michael R. Lyu. 14973-14982 [doi]

Complex Backdoor Detection by Symmetric Feature DifferencingYingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, ShiQing Ma, Xiangyu Zhang 0001. 14983-14993 [doi]

Protecting Facial Privacy: Generating Adversarial Identity Masks via Style-robust Makeup TransferShengshan Hu, Xiaogeng Liu, Yechao Zhang, Minghui Li, Leo Yu Zhang, Hai Jin 0001, Libing Wu. 14994-15003 [doi]

Zero-Query Transfer Attacks on Context-Aware Object DetectorsZikui Cai, Shantanu Rane, Alejandro E. Brito, Chengyu Song, Srikanth V. Krishnamurthy, Amit K. Roy Chowdhury, M. Salman Asif. 15004-15014 [doi]

360-Attack: Distortion-Aware Perturbations from Perspective-ViewsYunjian Zhang, Yanwei Liu, Jinxia Liu, Jingbo Miao, Antonios Argyriou, Liming Wang, Zhen Xu. 15015-15024 [doi]

Label-Only Model Inversion Attacks via Boundary RepulsionMostafa Kahla, Si Chen, Hoang Anh Just, Ruoxi Jia. 15025-15033 [doi]

Merry Go Round: Rotate a Frame and Fool a DNNDaksh Thapar, Aditya Nigam, Chetan Arora 0001. 15034-15043 [doi]

Cross-Modal Transferable Adversarial Attacks from Images to VideosZhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang. 15044-15053 [doi]

BppAttack: Stealthy and Efficient Trojan Attacks against Deep Neural Networks via Image Quantization and Contrastive Adversarial LearningZhenting Wang, Juan Zhai, ShiQing Ma. 15054-15063 [doi]

Investigating Top-k White-Box and Transferable Black-box AttackChaoning Zhang, Philipp Benz, Adil Karjauv, Jae-Won Cho, Kang Zhang, In-So Kweon. 15064-15073 [doi]

Boosting Black-Box Attack with Partially Transferred Conditional Adversarial DistributionYan Feng, Baoyuan Wu, Yanbo Fan, Li Liu, Zhifeng Li 0001, Shu-Tao Xia. 15074-15083 [doi]

Practical Evaluation of Adversarial Robustness via Adaptive Auto AttackYe Liu, Yaya Cheng, Lianli Gao, Xianglong Liu, Qilong Zhang, Jingkuan Song. 15084-15093 [doi]

Towards Efficient Data Free Blackbox Adversarial AttackJie Zhang 0081, Bo Li 0115, Jianghe Xu, Shuang Wu 0001, Shouhong Ding, Lei Zhang, Chao Wu 0001. 15094-15104 [doi]

Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse NetworkByung kwan Lee, Junho Kim, Yong Man Ro. 15105-15115 [doi]

Certified Patch Robustness via Smoothed Vision TransformersHadi Salman, Saachi Jain, Eric Wong, Aleksander Madry. 15116-15126 [doi]

Towards Practical Certifiable Patch Defense with Vision TransformerZhaoyu Chen, Bo Li 0115, Jianghe Xu, Shuang Wu, Shouhong Ding, Wenqiang Zhang. 15127-15137 [doi]

On Adversarial Robustness of Trajectory Prediction for Autonomous VehiclesQingzhao Zhang, Shengtuo Hu, Jiachen Sun, Qi Alfred Chen, Z. Morley Mao. 15138-15147 [doi]

3DeformRS: Certifying Spatial Deformations on Point CloudsGabriel Pérez S., Juan C. Pérez, Motasem Alfarra, Silvio Giancola, Bernard Ghanem. 15148-15158 [doi]

Stereoscopic Universal Perturbations across Different Architectures and DatasetsZachary Berger, Parth Agrawal, Tian-Yu Liu, Stefano Soatto, Alex Wong 0001. 15159-15169 [doi]

Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level Physically-Grounded AugmentationsTianlong Chen, Peihao Wang, Zhiwen Fan, Zhangyang Wang. 15170-15181 [doi]

Bounded Adversarial Attack on Deep Content FeaturesQiuling Xu, Guanhong Tao, Xiangyu Zhang 0001. 15182-15191 [doi]

DEFEAT: Deep Hidden Feature Backdoor Attacks by Imperceptible Perturbation and Latent Representation ConstraintsZhendong Zhao, Xiaojun Chen 0004, Yuexin Xuan, Ye Dong, Dakui Wang, Kaitai Liang. 15192-15201 [doi]

Two Coupled Rejection Metrics Can Tell Adversarial Examples ApartTianyu Pang, Huishuai Zhang, Di He, Yinpeng Dong, Hang Su 0006, Wei Chen 0034, Jun Zhu 0001, Tie-Yan Liu. 15202-15212 [doi]

Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch RobustnessGiulio Lovisotto, Nicole Finnie, Mauricio Munoz, Chaithanya Kumar Mummadi, Jan Hendrik Metzen. 15213-15222 [doi]

Improving the Transferability of Targeted Adversarial Examples through Object-Based Diverse InputJunyoung Byun, Seungju Cho, Myung-Joon Kwon, Heeseon Kim, Changick Kim. 15223-15232 [doi]

Adversarial Eigen Attack on BlackBox ModelsLinjun Zhou, Peng Cui 0001, Xingxuan Zhang, Yinan Jiang, Shiqiang Yang. 15233-15241 [doi]

Appearance and Structure Aware Robust Deep Visual Graph Matching: Attack, Defense and BeyondQibing Ren, Qingquan Bao, Runzhong Wang, Junchi Yan. 15242-15251 [doi]

Enhancing Adversarial Training with Second-Order Statistics of WeightsGaojie Jin, Xinping Yi, Wei Huang, Sven Schewe, Xiaowei Huang 0001. 15252-15262 [doi]

Towards Data-Free Model Stealing in a Hard Label SettingSunandini Sanyal, Sravanti Addepalli, R. Venkatesh Babu. 15263-15272 [doi]

Robust Structured Declarative Classifiers for 3D Point Clouds: Defending Adversarial Attacks with Implicit GradientsKaidong Li, Ziming Zhang, Cuncong Zhong, Guanghui Wang 0001. 15273-15283 [doi]

DTA: Physical Camouflage Attacks using Differentiable Transformation NetworkNaufal Suryanto, Yongsu Kim, Hyoeun Kang, Harashta Tatimma Larasati, Youngyeo Yun, Thi-Thu-Huong Le, Hunmin Yang, Se-Yoon Oh, Howon Kim. 15284-15293 [doi]

Frequency-driven Imperceptible Adversarial Attack on Semantic SimilarityCheng Luo, Qinliang Lin, Weicheng Xie 0001, Bizhu Wu, Jinheng Xie, LinLin Shen. 15294-15303 [doi]

Enhancing Adversarial Robustness for Deep Metric LearningMo Zhou, Vishal M. Patel. 15304-15313 [doi]

Shape-invariant 3D Adversarial Point CloudsQidong Huang, Xiaoyi Dong, Dongdong Chen, Hang Zhou 0007, Weiming Zhang 0001, Nenghai Yu. 15314-15323 [doi]

Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural PhenomenonYiqi Zhong, Xianming Liu, Deming Zhai, Junjun Jiang, Xiangyang Ji. 15324-15333 [doi]

Exploring Effective Data for Surrogate Training Towards Black-box AttackXuxiang Sun, Gong Cheng 0003, Hongda Li, Lei Pei, Junwei Han. 15334-15343 [doi]

NICGSlowDown: Evaluating the Efficiency Robustness of Neural Image Caption Generation ModelsSimin Chen, Zihe Song, Mirazul Haque, Cong Liu, Wei Yang 0013. 15344-15353 [doi]

Dual-Key Multimodal Backdoors for Visual Question AnsweringMatthew Walmer, Karan Sikka, Indranil Sur, Abhinav Shrivastava, Susmit Jha. 15354-15364 [doi]

Proactive Image Manipulation DetectionVishal Asnani, Xi Yin 0008, Tal Hassner, Sijia Liu, Xiaoming Liu 0002. 15365-15374 [doi]

ADAPT: Vision-Language Navigation with Modality-Aligned Action PromptsBingqian Lin, Yi Zhu 0004, Zicong Chen, Xiwen Liang, Jianzhuang Liu, Xiaodan Liang. 15375-15385 [doi]

Envedit: Environment Editing for Vision-and-Language NavigationJialu Li, Hao Tan, Mohit Bansal. 15386-15396 [doi]

HOP: History-and-Order Aware Pretraining for Vision-and-Language NavigationYanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang 0023, Qi Wu 0001. 15397-15406 [doi]

Less is More: Generating Grounded Navigation Instructions from LandmarksSu Wang 0001, Ceslee Montgomery, Jordi Orbay, Vighnesh Birodkar, Aleksandra Faust, Izzeddin Gur, Natasha Jaques, Austin Waters, Jason Baldridge, Peter Anderson. 15407-15417 [doi]

Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language NavigationYicong Hong, Zun Wang, Qi Wu, Stephen Gould. 15418-15428 [doi]

Reinforced Structured State-Evolution for Vision-Language NavigationJinyu Chen, Chen Gao, Erli Meng, Qiong Zhang, Si Liu 0001. 15429-15438 [doi]

Cross-modal Map Learning for Vision and Language NavigationGeorgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, Soham Dan, Eleni Miltsakaki, Dan Roth, Kostas Daniilidis. 15439-15449 [doi]

Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language NavigationHanqing Wang, Wei Liang, Jianbing Shen, Luc Van Gool, Wenguan Wang. 15450-15460 [doi]

One Step at a Time: Long-Horizon Vision-and-Language Navigation with MilestonesChan Hee Song, Jihyung Kil, Tai-Yu Pan, Brian M. Sadler, Wei-Lun Chao, Yu Su 0001. 15461-15470 [doi]

Expanding Large Pre-trained Unimodal Models with Multimodal Information Injection for Image-Text Multimodal ClassificationTao Liang, Guosheng Lin, Mingyang Wan, Tianrui Li 0001, Guojun Ma, Fengmao Lv. 15471-15480 [doi]

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual GroundingJiabo Ye, Junfeng Tian, Ming Yan, Xiaoshan Yang, Xuwu Wang, Ji Zhang, Liang He 0001, Xin Lin. 15481-15491 [doi]

Pseudo-Q: Generating Pseudo Language Queries for Visual GroundingHaojun Jiang, Yuanze Lin, Dongchen Han, Shiji Song, Gao Huang. 15492-15502 [doi]

Multi-View Transformer for 3D Visual GroundingShijia Huang, Yilun Chen, Jiaya Jia, Liwei Wang 0009. 15503-15512 [doi]

Multi-Modal Dynamic Graph Transformer for Visual GroundingSijia Chen, Baochun Li. 15513-15522 [doi]

Weakly-Supervised Generation and Grounding of Visual Descriptions with Conditional Generative ModelsEffrosyni Mavroudi, René Vidal. 15523-15533 [doi]

Weakly Supervised Temporal Sentence Grounding with Gaussian-based Contrastive Proposal LearningMinghang Zheng, Yanjie Huang, Qingchao Chen, Yuxin Peng, Yang Liu. 15534-15543 [doi]

Visual Abductive ReasoningChen Liang, Wenguan Wang, Tianfei Zhou, Yi Yang. 15544-15554 [doi]

Query and Attention Augmentation for Knowledge-Based Explainable ReasoningYifeng Zhang, Ming Jiang, Qi Zhao. 15555-15564 [doi]

REX: Reasoning-aware and Grounded ExplanationShi Chen, Qi Zhao. 15565-15574 [doi]

Not All Relations are Equal: Mining Informative Labels for Scene Graph GenerationArushi Goel, Basura Fernando, Frank Keller, Hakan Bilen. 15575-15585 [doi]

Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency RelationshipsChao Lou, Wenjuan Han, Yuhuan Lin, Zilong Zheng. 15586-15595 [doi]

Scene Graph Expansion for Semantics-Guided Image OutpaintingChiao-An Yang, Cheng-Yo Tan, Wan-Cyuan Fan, Cheng-Fu Yang, Meng-Lin Wu, Yu-Chiang Frank Wang. 15596-15605 [doi]

VisualHow: Multimodal Problem SolvingJinhui Yang, Xianyu Chen, Ming Jiang, Shi Chen, Louis Wang, Qi Zhao. 15606-15616 [doi]

FLAVA: A Foundational Language And Vision Alignment ModelAmanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela. 15617-15629 [doi]

Multi-modal Alignment using Representation CodebookJiali Duan, Liqun Chen, Son Tran, Jinyu Yang, Yi Xu, Belinda Zeng, Trishul Chilimbi. 15630-15639 [doi]

Negative-Aware Attention Framework for Image-Text MatchingKun Zhang, Zhendong Mao, Quan Wang, Yongdong Zhang. 15640-15649 [doi]

Vision-Language Pre-Training with Triple Contrastive LearningJinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, JunZhou Huang. 15650-15659 [doi]

Vision-Language Pre-Training for Boosting Scene Text DetectorsSibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao. 15660-15670 [doi]

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal RetrievalHaoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu 0001, Ji-Rong Wen. 15671-15680 [doi]

NeurMiPs: Neural Mixture of Planar Experts for View SynthesisZhi-hao Lin, Wei-Chiu Ma, Hao-Yu Hsu, Yu-Chiang Frank Wang, Shenlong Wang. 15681-15691 [doi]

FWD: Real-time Novel View Synthesis with Forward Warping and DepthAng Cao, Chris Rockwell, Justin Johnson 0001. 15692-15703 [doi]

SOMSI: Spherical Novel View Synthesis with Soft Occlusion Multi-Sphere ImagesTewodros Habtegebrial, Christiano Couto Gava, Marcel Rogge, Didier Stricker, Varun Jampani. 15704-15713 [doi]

Fast, Accurate and Memory-Efficient Partial Permutation SynchronizationShaohan Li, Yunpeng Shi, Gilad Lerman. 15714-15722 [doi]

Learning to Find Good Models in RANSACDaniel Barath, Luca Cavalli, Marc Pollefeys. 15723-15732 [doi]

Optimizing Elimination Templates by Greedy Parameter SearchEvgeniy Martyushev, Jana Vráblíková, Tomás Pajdla. 15733-15743 [doi]

GPU-Based Homotopy Continuation for Minimal Problems in Computer VisionChiang-Heng Chien, Hongyi Fan, Ahmad Abdelfattah, Elias P. Tsigaridas, Stanimire Tomov, Benjamin B. Kimia. 15744-15755 [doi]

HARA: A Hierarchical Approach for Robust Rotation AveragingSeong-Hun Lee, Javier Civera. 15756-15765 [doi]

RAGO: Recurrent Graph Optimizer For Multiple Rotation AveragingHeng Li, Zhaopeng Cui, Shuaicheng Liu, Ping Tan. 15766-15775 [doi]

A Unified Model for Line Projections in Catadioptric Cameras with Rotationally Symmetric MirrorsPedro Miraldo, José Pedro Iglesias. 15776-15785 [doi]

ELSR: Efficient Line Segment Reconstruction with Planes and Points GuidanceDong Wei, Yi Wan, Yongjun Zhang 0002, Xinyi Liu, Bin Zhang, Xiqi Wang. 15786-15794 [doi]

Self-supervised Neural Articulated Shape and Appearance ModelsFangyin Wei, Rohan Chabra, Lingni Ma, Christoph Lassner, Michael Zollhöfer, Szymon Rusinkiewicz, Chris Sweeney, Richard A. Newcombe, Mira Slavcheva. 15795-15805 [doi]

Virtual Elastic ObjectsHsiao-yu Chen, Edith Tretschk, Tuur Stuyck, Petr Kadlecek, Ladislav Kavan, Etienne Vouga, Christoph Lassner. 15806-15816 [doi]

Decoupling Makes Weakly Supervised Local Feature BetterKunhong Li, Longguang Wang, Li Liu, Qing Ran, Kai Xu, Yulan Guo. 15817-15827 [doi]

JoinABLe: Learning Bottom-up Assembly of Parametric CAD JointsKarl D. D. Willis, Pradeep Kumar Jayaraman, Hang Chu, Yunsheng Tian, Yifei Li 0002, Daniele Grandi, Aditya Sanghi, Linh Tran, Joseph G. Lambourne, Armando Solar-Lezama, Wojciech Matusik. 15828-15839 [doi]

ImplicitAtlas: Learning Deformable Shape Templates in Medical ImagingJiancheng Yang, Udaranga Wickramasinghe, Bingbing Ni, Pascal Fua. 15840-15850 [doi]

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Reconstruction and RenderingRuizhi Shao, Hongwen Zhang, He Zhang, Mingjia Chen, Yanpei Cao, Tao Yu 0007, Yebin Liu. 15851-15861 [doi]

Surface-Aligned Neural Radiance Fields for Controllable 3D Human SynthesisTianhan Xu, Yasuhiro Fujita, Eiichi Matsumoto. 15862-15871 [doi]

Structured Local Radiance Fields for Human Avatar ModelingZerong Zheng, Han Huang, Tao Yu, Hongwen Zhang, Yandong Guo, Yebin Liu. 15872-15882 [doi]

High-Fidelity Human Avatars from a Single RGB CameraHao Zhao, Jinsong Zhang, Yu-Kun Lai, Zerong Zheng, Yingdi Xie, Yebin Liu, Kun Li 0001. 15883-15892 [doi]

Forecasting Characteristic 3D Poses of Human ActionsChristian Diller, Thomas A. Funkhouser, Angela Dai. 15893-15902 [doi]

Virtual Correspondence: Humans as a Cue for Extreme-View GeometryWei-Chiu Ma, Anqi Joyce Yang, Shenlong Wang, Raquel Urtasun, Antonio Torralba 0001. 15903-15913 [doi]

BEHAVE: Dataset and Method for Tracking Human Object InteractionsBharat Lal Bhatnagar, Xianghui Xie, Ilya A. Petrov 0001, Cristian Sminchisescu, Christian Theobalt, Gerard Pons-Moll. 15914-15925 [doi]

Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled PrimitivesXinke Li, Henghui Ding, Zekun Tong, Yuwei Wu, Yeow Meng Chee. 15926-15936 [doi]

RGB-Multispectral Matching: Dataset, Learning Methodology, EvaluationFabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi di Stefano. 15937-15947 [doi]

NPBG++: Accelerating Neural Point-Based GraphicsRuslan Rakhimov, Andrei-Timotei Ardelean, Victor Lempitsky, Evgeny Burnaev. 15948-15958 [doi]

Depth-Guided Sparse Structure-from-Motion for Movies and TV ShowsSheng Liu, Xiaohan Nie, Raffay Hamid. 15959-15968 [doi]

Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred Objects in VideosDenys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Marc Pollefeys. 15969-15978 [doi]

Masked Autoencoders Are Scalable Vision LearnersKaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross B. Girshick. 15979-15988 [doi]

Learning ABCs: Approximate Bijective Correspondence for isolating factors of variation with weak supervisionKieran A. Murphy, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia. 15989-15999 [doi]

Bayesian Invariant Risk MinimizationYong Lin, Hanze Dong, Hao Wang 0014, Tong Zhang. 16000-16009 [doi]

Crafting Better Contrastive Views for Siamese Representation LearningXiangyu Peng, Kai Wang, Zheng Zhu, Mang Wang, Yang You. 16010-16019 [doi]

Rethinking Minimal Sufficient Representation in Contrastive LearningHaoqing Wang, Xun Guo, Zhi-Hong Deng, Yan Lu 0001. 16020-16029 [doi]

Multi-level Feature Learning for Contrastive Multi-view ClusteringJie Xu, Huayi Tang, Yazhou Ren 0001, Liang Peng, Xiaofeng Zhu 0007, Lifang He 0001. 16030-16039 [doi]

Point-Level Region Contrast for Object Detection Pre-TrainingYutong Bai, Xinlei Chen, Alexander Kirillov, Alan L. Yuille, Alexander C. Berg. 16040-16049 [doi]

Class-Incremental Learning by Knowledge Distillation with Adaptive Feature ConsolidationMinsoo Kang, Jaeyoo Park, Bohyung Han. 16050-16059 [doi]

A Stitch in Time Saves Nine: A Train-Time Regularizing Loss for Improved Neural Network CalibrationRamya Hebbalaguppe, Jatin Prakash, Neelabh Madan, Chetan Arora 0001. 16060-16069 [doi]

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action VideosSalar Hosseini Khorasgani, Yuxuan Chen, Florian Shkurti. 16070-16080 [doi]

Omnivore: A Single Model for Many Visual ModalitiesRohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra. 16081-16091 [doi]

DPICT: Deep Progressive Image Compression Using Trit-PlanesJae-Han Lee, Seungmin Jeon, Kwang-Pyo Choi, Youngo Park, Chang-Su Kim 0001. 16092-16101 [doi]

Efficient Geometry-aware 3D Generative Adversarial NetworksEric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas J. Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, Gordon Wetzstein. 16102-16112 [doi]

Geometric Anchor Correspondence Mining with Uncertainty Modeling for Universal Domain AdaptationLiang Chen, Yihang Lou, Jianzhong He, Tao Bai, Minghua Deng. 16113-16122 [doi]

Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised LearningRichard J. Chen, Chengkuan Chen, Yicong Li 0003, Tiffany Y. Chen, Andrew D. Trister, Rahul G. Krishnan, Faisal Mahmood. 16123-16134 [doi]

Versatile Multi-Modal Pre-Training for Human-Centric PerceptionFangzhou Hong, Liang Pan, Zhongang Cai, Ziwei Liu 0002. 16135-16145 [doi]

Bridging Video-text Retrieval with Multiple Choice QuestionsYuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie, Ping Luo. 16146-16155 [doi]

Integrating Language Guidance into Vision-based Deep Metric LearningKarsten Roth, Oriol Vinyals, Zeynep Akata. 16156-16168 [doi]

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw ImagesBen Mildenhall, Peter Hedman, Ricardo Martin-Brualla, Pratul P. Srinivasan, Jonathan T. Barron. 16169-16178 [doi]

DIVeR: Real-time and Accurate Neural Radiance Fields with Deterministic Integration for Volume RenderingLiwen Wu, Jae-Yong Lee, Anand Bhattad, Yu-Xiong Wang, David A. Forsyth. 16179-16188 [doi]

HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular VideoChung-Yi Weng, Brian Curless, Pratul P. Srinivasan, Jonathan T. Barron, Ira Kemelmacher-Shlizerman. 16189-16199 [doi]

Neural Reflectance for Shape Recovery with Shadow HandlingJunxuan Li, Hongdong Li. 16200-16209 [doi]

Visual Vibration Tomography: Estimating Interior Material Properties from Monocular VideoBerthy T. Feng, Alexander C. Ogren, Chiara Daraio, Katherine L. Bouman. 16210-16219 [doi]

Dancing under the stars: video denoising in starlightKristina Monakhova, Stephan R. Richter, Laura Waller, Vladlen Koltun. 16220-16230 [doi]

Bacon: Band-limited Coordinate Networks for Multiscale Scene RepresentationDavid B. Lindell, Dave Van Veen, Jeong-Joon Park, Gordon Wetzstein. 16231-16241 [doi]

Practical Stereo Matching via Cascaded Recurrent Network with Adaptive CorrelationJiankun Li, Peisen Wang, Pengfei Xiong, Tao Cai, Ziwei Yan, Lei Yang, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu. 16242-16251 [doi]

3D Photo Stylization: Learning to Generate Stylized Novel Views from a Single ImageFangzhou Mu, Jian Wang, Yicheng Wu, Yin Li. 16252-16261 [doi]

BokehMe: When Neural Rendering Meets Classical RenderingJuewen Peng, Zhiguo Cao 0001, Xianrui Luo, Hao Lu 0003, Ke Xian, Jianming Zhang 0001. 16262-16271 [doi]

Deblurring via Stochastic RefinementJay Whang, Mauricio Delbracio, Hossein Talebi, Chitwan Saharia, Alexandros G. Dimakis, Peyman Milanfar. 16272-16282 [doi]

Learning to Deblur using Light Field Generated and Real Defocus ImagesLingyan Ruan, Bin Chen, Jizhou Li, Miu Ling Lam. 16283-16292 [doi]

Towards Layer-wise Image VectorizationXu Ma, YuQian Zhou, Xingqian Xu, Bin Sun 0002, Valerii Filev, Nikita Orlov, Yun Fu 0001, Humphrey Shi. 16293-16302 [doi]

Dual-Shutter Optical Vibration SensingMark Sheinin, Dorian Chan, Matthew O'Toole, Srinivasa G. Narasimhan. 16303-16312 [doi]

Fisher Information Guidance for Learned Time-of-Flight ImagingJiaqu Li, Tao Yue, Sijie Zhao, Xuemei Hu. 16313-16322 [doi]

Autofocus for Event CamerasShijie Lin, Yinqiang Zhang, Lei Yu, Bin Zhou, Xiaowei Luo, Jia Pan. 16323-16332 [doi]

Adaptive Gating for Single-Photon 3D ImagingRyan Po, Adithya Pediredla, Ioannis Gkioulekas. 16333-16342 [doi]

LiDAR Snowfall Simulation for Robust 3D Object DetectionMartin Hahner, Christos Sakaridis, Mario Bijelic, Felix Heide, Fisher Yu, Dengxin Dai, Luc Van Gool. 16343-16353 [doi]

MERLOT RESERVE: Neural Script Knowledge through Vision and Language and SoundRowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi. 16354-16366 [doi]

Joint Video Summarization and Moment Localization by Cross-Task Sample TransferHao Jiang, Yadong Mu. 16367-16377 [doi]

Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language ArchitectureTanmay Gupta, Amita Kamath, Aniruddha Kembhavi, Derek Hoiem. 16378-16388 [doi]

Disentangling visual and written concepts in CLIPJoanna Materzynska, Antonio Torralba 0001, David Bau. 16389-16398 [doi]

CLIP-Event: Connecting Text and Images with Event StructuresManling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin 0003, Chenguang Zhu, Michael Zeng 0001, Heng Ji, Shih-Fu Chang. 16399-16408 [doi]

Robust Cross-Modal Representation Learning with Progressive Self-DistillationAlex Andonian, Shixing Chen, Raffay Hamid. 16409-16420 [doi]

TubeDETR: Spatio-Temporal Video Grounding with TransformersAntoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid. 16421-16432 [doi]

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive SelectionJunyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, Hao Shen, Huaxia Xia, Si Liu 0001. 16433-16442 [doi]

3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point CloudsDaigang Cai, Lichen Zhao, Jing Zhang, Lu Sheng, Dong Xu. 16443-16452 [doi]

Globetrotter: Connecting Languages by Connecting ImagesDídac Surís, Dave Epstein, Carl Vondrick. 16453-16463 [doi]

Unsupervised Vision-and-Language Pretraining via Retrieval-based Multi-Granular AlignmentMingyang Zhou, Licheng Yu, Amanpreet Singh, Mengjiao Wang 0002, Zhou Yu, Ning Zhang. 16464-16473 [doi]

WebQA: Multihop and Multimodal QAYingshan Chang, Guihong Cao, Mridu Narang, Jianfeng Gao, Hisami Suzuki, Yonatan Bisk. 16474-16483 [doi]

PartGlot: Learning Shape Part Segmentation from Language Reference GamesJuil Koo, Ian Huang, Panos Achlioptas, Leonidas J. Guibas, Minhyuk Sung. 16484-16493 [doi]

DF-GAN: A Simple and Effective Baseline for Text-to-Image SynthesisMing Tao, Hao Tang 0005, Fei Wu 0004, Xiaoyuan Jing, Bing-Kun Bao, Changsheng Xu. 16494-16504 [doi]

L-Verse: Bidirectional Generation Between Image and TextTaehoon Kim, Gwangmo Song, Sihaeng Lee, Sangyun Kim, Yewon Seo, Soonyoung Lee, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae. 16505-16515 [doi]

Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language NavigationShizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev. 16516-16526 [doi]

LaTr: Layout-Aware Transformer for Scene-Text VQAAli Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, R. Manmatha. 16527-16537 [doi]

Learning Program Representations for Food Images and Cooking RecipesDim P. Papadopoulos, Enrique Mora, Nadiia Chepurko, Kuan-Wei Huang, Ferda Ofli, Antonio Torralba 0001. 16538-16548 [doi]

On the Importance of Asymmetry for Siamese Representation LearningXiao Wang, Haoqi Fan 0001, Yuandong Tian, Daisuke Kihara, Xinlei Chen. 16549-16558 [doi]

Leverage Your Local and Global Representations: A New Self-Supervised Learning StrategyTong Zhang 0023, Congpei Qiu, Wei Ke, Sabine Süsstrunk, Mathieu Salzmann. 16559-16568 [doi]

Exploring Set Similarity for Dense Self-supervised Representation LearningZhaoqing Wang, Qiang Li, Guoxin Zhang, Pengfei Wan, Wen Zheng, Nannan Wang 0001, Mingming Gong, Tongliang Liu. 16569-16578 [doi]

Align Representations with Base: A New Approach to Self-Supervised LearningShaofeng Zhang, Lyn Qiu, Feng Zhu, Junchi Yan, Hengrui Zhang, Rui Zhao 0018, Hongyang Li, Xiaokang Yang. 16579-16588 [doi]

Identifying Ambiguous Similarity Conditions via Semantic MatchingHan-Jia Ye, Yi Shi, De-Chuan Zhan. 16589-16598 [doi]

Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information MaximizationWei Dong, JunSheng Wu, Yi Luo, ZongYuan Ge, Peng Wang. 16599-16608 [doi]

Instance-Dependent Label-Noise Learning with Manifold-Regularized Transition Matrix EstimationDe Cheng, Tongliang Liu, Yixiong Ning, Nannan Wang 0001, Bo Han 0003, Gang Niu 0001, Xinbo Gao 0001, Masashi Sugiyama. 16609-16618 [doi]

Unsupervised Visual Representation Learning by Online Constrained K-MeansQi Qian 0001, Yuanhong Xu, Juhua Hu, Hao Li, Rong Jin 0001. 16619-16628 [doi]

Rethinking the Augmentation Module in Contrastive Learning: Learning Hierarchical Augmentation Invariance with Expanded ViewsJunbo Zhang, Kaisheng Ma. 16629-16638 [doi]

Use All The Labels: A Hierarchical Multi-Label Contrastive Learning FrameworkShu Zhang, Ran Xu, Caiming Xiong, Chetan Ramaiah. 16639-16648 [doi]

Robust Contrastive Learning against Noisy ViewsChing-Yao Chuang, R. Devon Hjelm, Xin Wang, Vibhav Vineet, Neel Joshi, Antonio Torralba 0001, Stefanie Jegelka, Yale Song. 16649-16660 [doi]

On Learning Contrastive Representations for Learning with Noisy LabelsLi Yi, Sheng Liu, Qi She, A. Ian McLeod, Boyu Wang. 16661-16670 [doi]

Directional Self-supervised Learning for Heavy Image AugmentationsYalong Bai, Yifan Yang, Wei Zhang, Tao Mei. 16671-16680 [doi]

Continual Learning for Visual Search with Backward Consistent Feature EmbeddingTimmy S. T. Wan, Jun-Cheng Chen, Tzer-Yi Wu, Chu-Song Chen. 16681-16690 [doi]

Probing Representation Forgetting in Supervised and Unsupervised Continual LearningMohammadReza Davari, Nader Asadi, Sudhir Mudur, Rahaf Aljundi, Eugene Belilovsky. 16691-16700 [doi]

Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental LearningYujun Shi, Kuangqi Zhou, Jian Liang, Zihang Jiang, Jiashi Feng, Philip H. S. Torr, Song Bai, Vincent Y. F. Tan. 16701-16710 [doi]

Bring Evanescent Representations to Life in Lifelong Class Incremental LearningMarco Toldo, Mete Ozay. 16711-16720 [doi]

Unsupervised Learning of Debiased Representations with Pseudo-AttributesSeonguk Seo, Joon-Young Lee, Bohyung Han. 16721-16730 [doi]

A Conservative Approach for Unbiased Learning on Unknown BiasesMyeongho Jeon, Daekyung Kim, Woochul Lee, Myungjoo Kang, Joonseok Lee. 16731-16739 [doi]

Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD GeneralizationDamien Teney, Ehsan Abbasnejad, Simon Lucey, Anton van den Hengel. 16740-16751 [doi]

Co-advise: Cross Inductive Bias DistillationSucheng Ren, Zhengqi Gao, Tianyu Hua, Zihui Xue, Yonglong Tian, Shengfeng He, Hang Zhao. 16752-16761 [doi]

PixMix: Dreamlike Pictures Comprehensively Improve Safety MeasuresDan Hendrycks, Andy Zou, Mantas Mazeika, Leonard Tang, Bo Li, Dawn Song, Jacob Steinhardt. 16762-16771 [doi]

RegionCLIP: Region-based Language-Image PretrainingYiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao. 16772-16782 [doi]

Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot TasksXizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Hongsheng Li, Xiaohua Wang, Jifeng Dai. 16783-16794 [doi]

Conditional Prompt Learning for Vision-Language ModelsKaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu 0002. 16795-16804 [doi]

Noisy Boundaries: Lemon or Lemonade for Semi-supervised Instance Segmentation?Zhenyu Wang 0005, Yali Li 0001, Shengjin Wang. 16805-16814 [doi]

Partial Class Activation Attention for Semantic SegmentationSun'ao Liu, Hongtao Xie, Hai Xu, Yongdong Zhang 0001, Qi Tian 0001. 16815-16824 [doi]

Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with TransformersLixiang Ru, Yibing Zhan, Baosheng Yu, Bo Du 0001. 16825-16834 [doi]

Towards Noiseless Object Contours for Weakly Supervised Semantic SegmentationJing Li, Junsong Fan, Zhaoxiang Zhang. 16835-16844 [doi]

Class Similarity Weighted Knowledge Distillation for Continual Semantic SegmentationMinh-Hieu Phan, The-Anh Ta, Son Lam Phung, Long Tran-Thanh, Abdesselam Bouzerdoum. 16845-16854 [doi]

Structural and Statistical Texture Knowledge Distillation for Semantic SegmentationDeyi Ji, Haoran Wang, Mingyuan Tao, Jianqiang Huang, Xian-Sheng Hua 0001, Hongtao Lu. 16855-16864 [doi]

L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly Supervised Semantic SegmentationPeng-Tao Jiang, Yuqi Yang, Qibin Hou, Yunchao Wei. 16865-16875 [doi]

Weakly Supervised Semantic Segmentation using Out-of-Distribution DataJungbeom Lee, Seong Joon Oh, Sangdoo Yun, Junsuk Choe, Eunji Kim, Sungroh Yoon. 16876-16885 [doi]

Tree Energy Loss: Towards Sparsely Annotated Semantic SegmentationZhiyuan Liang, Tiancai Wang, Xiangyu Zhang, Jian Sun, Jianbing Shen. 16886-16895 [doi]

Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic SegmentationJiaming Zhang 0001, Kailun Yang 0001, Chaoxiang Ma, Simon Reiß, Kunyu Peng, Rainer Stiefelhagen. 16896-16906 [doi]

MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic SegmentationInkyu Shin, Yi-Hsuan Tsai, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Sparsh Garg, In-So Kweon, Kuk-Jin Yoon. 16907-16916 [doi]

NightLab: A Dual-level Architecture with Hardness Detection for Segmentation at NightXueqing Deng, Peng Wang, Xiaochen Lian, Shawn Newsam. 16917-16927 [doi]

Fast Point TransformerChunghyun Park, Yoonwoo Jeong, Minsu Cho, Jaesik Park. 16928-16937 [doi]

RigidFlow: Self-Supervised Scene Flow Learning on Point Clouds by Local Rigidity PriorRuibo Li, Chi Zhang, Guosheng Lin, Zhe Wang, Chunhua Shen. 16938-16947 [doi]

ConDor: Self-Supervised Canonicalization of 3D Pose for Partial ShapesRahul Sajnani, Adrien Poulenard, Jivitesh Jain, Radhika Dua, Leonidas J. Guibas, Srinath Sridhar 0002. 16948-16958 [doi]

DisARM: Displacement Aware Relation Module for 3D DetectionYao Duan, Chenyang Zhu 0002, Yuqing Lan, Renjiao Yi, Xinwang Liu, Kai Xu 0004. 16959-16968 [doi]

Learning Object Context for Novel-view Scene Layout GenerationXiaotian Qiao, Gerhard P. Hancke 0002, Rynson W. H. Lau. 16969-16978 [doi]

Weakly But Deeply Supervised Occlusion-Reasoned Parametric Road LayoutsBuyu Liu, Bingbing Zhuang, Manmohan Chandraker. 16979-16988 [doi]

Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite ImageYujiao Shi, Hongdong Li. 16989-16999 [doi]

Raw High-Definition Radar for Multi-Task LearningJulien Rebut, Arthur Ouaknine, Waqas Malik, Patrick Pérez. 17000-17009 [doi]

Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual NavigationZiad Al-Halah, Santhosh K. Ramakrishnan, Kristen Grauman. 17010-17020 [doi]

UKPGAN: A General Self-Supervised Keypoint DetectorYang You, Wenhai Liu, Yanjie Ze, Yong-Lu Li, Weiming Wang, Cewu Lu. 17021-17030 [doi]

Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to Better Classify Objects in VideosSukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim. 17031-17040 [doi]

Rethinking Efficient Lane Detection via Curve ModelingZhengyang Feng, Shaohua Guo, Xin Tan, Ke Xu, Min Wang, Lizhuang Ma. 17041-17049 [doi]

Exploiting Temporal Relations on Radar Perception for Autonomous DrivingPeizhao Li, Pu Wang 0004, Karl Berntorp, Hongfu Liu. 17050-17059 [doi]

Towards Robust and Adaptive Motion Forecasting: A Causal Representation PerspectiveYuejiang Liu, Riccardo Cadei, Jonas Schweizer, Sherwin Bahmani, Alexandre Alahi. 17060-17071 [doi]

BE-STI: Spatial-Temporal Integrated Network for Class-agnostic Motion Prediction with Bidirectional EnhancementYunlong Wang, Hongyu Pan, Jun Zhu, Yu-Huan Wu, Xin Zhan, Kun Jiang 0002, Diange Yang. 17072-17081 [doi]

ScePT: Scene-consistent, Policy-based Trajectory Predictions for PlanningYuxiao Chen 0008, Boris Ivanovic, Marco Pavone. 17082-17091 [doi]

Stochastic Trajectory Prediction via Motion Indeterminacy DiffusionTianpei Gu, Guangyi Chen 0002, Junlong Li, Chunze Lin, Yongming Rao, Jie Zhou 0001, Jiwen Lu. 17092-17101 [doi]

Vehicle trajectory prediction works, but not everywhereMohammadhossein Bahari, Saeed Saadatnejad, Ahmad Rahimi, Mohammad Shaverdikondori, Amir Hossein Shahidzadeh, Seyed-Mohsen Moosavi-Dezfooli, Alexandre Alahi. 17102-17112 [doi]

LTP: Lane-based Trajectory Prediction for Autonomous DrivingJingke Wang, Tengju Ye, Ziqing Gu, Junbo Chen. 17113-17121 [doi]

ONCE-3DLanes: Building Monocular 3D Lane DetectionFan Yan, Ming Nie, Xinyue Cai, Jianhua Han, Hang Xu, Zhen Yang, Chaoqiang Ye, Yanwei Fu, Michael Bi Mi, Li Zhang. 17122-17131 [doi]

Towards Driving-Oriented Metric for Lane Detection ModelsTakami Sato, Qi Alfred Chen. 17132-17141 [doi]

Eigenlanes: Data-Driven Lane Descriptors for Structurally Diverse LanesDongkwon Jin, Wonhui Park, Seong-Gyun Jeong, Heeyeon Kwon, Chang-Su Kim 0001. 17142-17150 [doi]

LIFT: Learning 4D LiDAR Image Fusion Transformer for 3D Object DetectionYihan Zeng, Da Zhang, Chunwei Wang, Zhenwei Miao, Ting Liu, Xin Zhan, Dayang Hao, Chao Ma 0004. 17151-17160 [doi]

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object DetectionYingwei Li, Adams Wei Yu, Tianjian Meng, Benjamin Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan L. Yuille, Mingxing Tan. 17161-17170 [doi]

A Versatile Multi-View Framework for LiDAR-based 3D Object Detection with Guidance from Panoptic SegmentationHamidreza Fazlali, Yixuan Xu, Yuan Ren, Bingbing Liu. 17171-17180 [doi]

Forecasting from LiDAR via Future Object DetectionNeehar Peri, Jonathon Luiten, Mengtian Li, Aljosa Osep, Laura Leal-Taixé, Deva Ramanan. 17181-17190 [doi]

RIDDLE: Lidar Data Compression with Range Image Deep Delta EncodingXuanyu Zhou, Charles R. Qi, Yin Zhou, Dragomir Anguelov. 17191-17200 [doi]

Learning from All VehiclesDian Chen 0001, Philipp Krähenbühl. 17201-17210 [doi]

Is Mapping Necessary for Realistic PointGoal Navigation?Ruslan Partsey, Erik Wijmans, Naoki Yokoyama, Oles Dobosevych, Dhruv Batra, Oleksandr Maksymets. 17211-17220 [doi]

Symmetry-aware Neural Architecture for Embodied Visual ExplorationShuang Liu 0002, Takayuki Okatani. 17221-17230 [doi]

Coopernaut: End-to-End Driving with Cooperative Perception for Networked VehiclesJiaxun Cui, Hang Qiu, Dian Chen 0001, Peter Stone, Yuke Zhu. 17231-17241 [doi]

Topology Preserving Local Road Network Estimation from Single Onboard Camera ImageYigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool. 17242-17251 [doi]

Coupling Vision and Proprioception for Navigation of Legged RobotsZipeng Fu, Ashish Kumar, Ananye Agarwal, Haozhi Qi, Jitendra Malik, Deepak Pathak. 17252-17262 [doi]

Pyramid Architecture for Multi-Scale Processing in Point Cloud SegmentationDong Nie, Rui Lan, Ling Wang, Xiaofeng Ren. 17263-17273 [doi]

3D-VField: Adversarial Augmentation of Point Clouds for Domain Generalization in 3D Object DetectionAlexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt, Mohammad-Ali Nikouei Mahani, Nassir Navab, Benjamin Busam, Federico Tombari. 17274-17283 [doi]

Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic PriorDavis Rempe, Jonah Philion, Leonidas J. Guibas, Sanja Fidler, Or Litany. 17284-17294 [doi]

SelfD: Self-Learning Large-Scale Driving Policies From the WebJimuyang Zhang, Ruizhao Zhu, Eshed Ohn-Bar. 17295-17305 [doi]

Towards real-world navigation with deep differentiable plannersShu Ishida, João F. Henriques. 17306-17315 [doi]

Privacy Preserving Partial LocalizationMarcel Geppert, Viktor Larsson, Johannes L. Schönberger, Marc Pollefeys. 17316-17326 [doi]

Efficient Large-scale Localization by Global Instance RecognitionFei Xue, Ignas Budvytis, Daniel Olmeda Reino, Roberto Cipolla. 17327-17336 [doi]

CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic DataQi Yan, Jianhao Zheng, Simon Reding, Shanci Li, Iordan Doytchinov. 17337-17347 [doi]

Bilateral Video Magnification FilterShoichiro Takeda, Kenta Niwa, Mariko Isogawa, Shinya Shimizu, Kazuki Okami, Yushi Aono. 17348-17357 [doi]

Neural Data-Dependent Transform for Learned Image CompressionDezhao Wang, Wenhan Yang, Yueyu Hu, Jiaying Liu 0001. 17358-17367 [doi]

Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and Cycle IdempotenceZhihong Pan 0001, Baopu Li, Dongliang He, Mingde Yao, Wenhao Wu, Tianwei Lin, Xin Li, Errui Ding. 17368-17377 [doi]

Deep Generalized Unfolding Networks for Image RestorationChong Mou, Qian Wang, Jian Zhang. 17378-17389 [doi]

Look Back and Forth: Video Super-Resolution with Explicit Temporal Difference ModelingTakashi Isobe, Xu Jia, Xin Tao, Changlin Li, Ruihuang Li, Yongjie Shi, Jing Mu, Huchuan Lu, Yu-Wing Tai. 17390-17399 [doi]

XYDeblur: Divide and Conquer for Single Image DeblurringSeo-Won Ji, JeongMin Lee, Seung Wook Kim, Jun-Pyo Hong, Seung-Jin Baek, Seung-Won Jung, Sung Jea Ko. 17400-17409 [doi]

Abandoning the Bayer-Filter to See in the DarkXingbo Dong, Wanyan Xu, Zhihui Miao, Lan Ma, Chao Zhang, Jiewen Yang, Zhe Jin, Andrew Beng Jin Teoh, Jiajun Shen. 17410-17419 [doi]

RSTT: Real-time Spatial Temporal Transformer for Space-Time Video Super-ResolutionZhicheng Geng, Luming Liang, Tianyu Ding, Ilya Zharkov. 17420-17430 [doi]

All-In-One Image Restoration for Unknown CorruptionBoyun Li, Xiao Liu, Peng Hu, Zhongqin Wu, Jiancheng Lv 0001, Xi Peng 0001. 17431-17441 [doi]

Modeling sRGB Camera Noise with Normalizing FlowsShayan Kousha, Ali Maleky, Michael S. Brown, Marcus A. Brubaker. 17442-17450 [doi]

A Differentiable Two-stage Alignment Scheme for Burst Image Reconstruction with Large ShiftShi Guo, Xi Yang 0001, Jianqi Ma, Gaofeng Ren, Lei Zhang 0038. 17451-17460 [doi]

Video Frame Interpolation TransformerZhihao Shi, Xiangyu Xu, Xiaohong Liu 0001, Jun Chen 0005, Ming-Hsuan Yang 0001. 17461-17470 [doi]

The Devil Is in the Details: Window-based Attention for Image CompressionRenjie Zou, Chunfeng Song, Zhaoxiang Zhang. 17471-17480 [doi]

Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image ReconstructionYuanhao Cai, Jing Lin, Xiaowan Hu, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool. 17481-17490 [doi]

RestoreFormer: High-Quality Blind Face Restoration from Undegraded Key-Value PairsZhouxia Wang, Jiawei Zhang 0002, Runjian Chen, Wenping Wang, Ping Luo. 17491-17500 [doi]

AdaInt: Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image EnhancementCanqian Yang, Meiguang Jin, Xu Jia, Yi Xu, Ying Chen. 17501-17510 [doi]

HerosNet: Hyperspectral Explicable Reconstruction and Optimal Sampling Deep Network for Snapshot Compressive ImagingXuanyu Zhang, Yongbing Zhang, Ruiqin Xiong, Qilin Sun 0001, Jian Zhang. 17511-17520 [doi]

HDNet: High-resolution Dual-domain Learning for Spectral Compressive ImagingXiaowan Hu, Yuanhao Cai, Jing Lin, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool. 17521-17530 [doi]

Learning to Zoom Inside Camera Imaging PipelineChengzhou Tang, Yuqiang Yang, Bing Zeng, Ping Tan, Shuaicheng Liu. 17531-17540 [doi]

Towards An End-to-End Framework for Flow-Guided Video InpaintingZhen Li 0031, Chengze Lu, Jianhua Qin, Chun-Le Guo, Ming-Ming Cheng. 17541-17550 [doi]

Context-Aware Video Reconstruction for Rolling Shutter CamerasBin Fan, Yuchao Dai, Zhiyuan Zhang, Qi Liu, Mingyi He. 17551-17561 [doi]

CVF-SID: Cyclic multi-Variate Function for Self-Supervised Image Denoising by Disentangling Noise from ImageReyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son, Kyoung Mu Lee. 17562-17570 [doi]

Global Matching with Overlapping Attention for Optical Flow EstimationShiyu Zhao, Long Zhao, Zhixing Zhang, Enyu Zhou, Dimitris N. Metaxas. 17571-17580 [doi]

CRAFT: Cross-Attentional Flow Transformer for Robust Optical FlowXiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu 0026, Rick Siow Mong Goh, Hongyuan Zhu. 17581-17590 [doi]

Unified Multivariate Gaussian Mixture for Efficient Neural Image CompressionXiaosu Zhu, Jingkuan Song, Lianli Gao, Feng Zheng, Heng Tao Shen. 17591-17600 [doi]

Video Demoiréing with Relation-Based Temporal ConsistencyPeng Dai, Xin Yu, Lan Ma, Baoheng Zhang, Jia Li, Wenbo Li, Jiajun Shen, Xiaojuan Qi. 17601-17610 [doi]

Noise2NoiseFlow: Realistic Camera Noise Modeling without Clean ImagesAli Maleky, Shayan Kousha, Michael S. Brown, Marcus A. Brubaker. 17611-17620 [doi]

Deep Constrained Least Squares for Blind Image Super-ResolutionZiwei Luo, Haibin Huang, Lei Yu, Youwei Li, Haoqiang Fan, Shuaicheng Liu. 17621-17631 [doi]

Learning Multiple Adverse Weather Removal via Two-stage Knowledge Learning and Multi-contrastive Regularization: Toward a Unified ModelWei-Ting Chen, Zhi-Kai Huang, Cheng-Che Tsai, Hao-Hsiang Yang, Jian-Jiun Ding, Sy-Yen Kuo. 17632-17641 [doi]

Unsupervised Homography Estimation with Coplanarity-Aware GANMingbo Hong, Yuhang Lu, Nianjin Ye, Chunyu Lin, Qijun Zhao, Shuaicheng Liu. 17642-17651 [doi]

Attentive Fine-Grained Structured Sparsity for Image RestorationJunghun Oh, Heewon Kim, Seungjun Nah, Cheeun Hong, Jonghyun Choi, Kyoung Mu Lee. 17652-17661 [doi]

Uformer: A General U-Shaped Transformer for Image RestorationZhendong Wang, Xiaodong Cun, Jianmin Bao, Wengang Zhou, Jianzhuang Liu, Houqiang Li. 17662-17672 [doi]

Bringing Old Films Back to LifeZiyu Wan, Bo Zhang 0025, Dongdong Chen 0001, Jing Liao 0001. 17673-17682 [doi]

Learning sRGB-to-Raw-RGB De-rendering with Content-Aware MetadataSeonghyeon Nam, Abhijith Punnappurath, Marcus A. Brubaker, Michael S. Brown. 17683-17692 [doi]

SNR-Aware Low-light Image EnhancementXiaogang Xu, Ruixing Wang, Chi-Wing Fu, Jiaya Jia. 17693-17703 [doi]

AP-BSN: Self-Supervised Denoising for Real-World Images via Asymmetric PD and Blind-Spot NetworkWooseok Lee, Sanghyun Son, Kyoung Mu Lee. 17704-17713 [doi]

Synthetic Aperture Imaging with Events and FramesWei Liao, Xiang Zhang, Lei Yu, Shijie Lin, Wen Yang, Ning Qiao. 17714-17723 [doi]

Ev-TTA: Test-Time Adaptation for Event-Based Object RecognitionJunho Kim, Inwoo Hwang, Young Min Kim 0001. 17724-17733 [doi]

Time Lens++: Event-based Frame Interpolation with Parametric Nonlinear Flow and Multi-scale FusionStepan Tulyakov, Alfredo Bochicchio, Daniel Gehrig, Stamatios Georgoulis, Yuanyou Li, Davide Scaramuzza 0001. 17734-17743 [doi]

Unifying Motion Deblurring and Frame Interpolation with EventsXiang Zhang, Lei Yu. 17744-17753 [doi]

EvUnroll: Neuromorphic Events based Rolling Shutter Image CorrectionXinyu Zhou, Peiqi Duan, Yi Ma 0001, Boxin Shi. 17754-17763 [doi]

Learning Adaptive Warping for RealWorld Rolling Shutter CorrectionMingdeng Cao, Zhihang Zhong, Jiahao Wang, Yinqiang Zheng, Yujiu Yang. 17764-17772 [doi]

Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset FeatureZhixiang Wang, Xiang Ji, Jia-Bin Huang, Shin'ichi Satoh 0001, Xiao Zhou, Yinqiang Zheng. 17773-17782 [doi]

TimeReplayer: Unlocking the Potential of Event Cameras for Video InterpolationWeihua He, Kaichao You, Zhendong Qiao, Xu Jia, Ziyang Zhang, Wenhui Wang, Huchuan Lu, Yaoyuan Wang, Jianxing Liao. 17783-17792 [doi]

Optimizing Video Prediction via Video Frame InterpolationYue Wu 0012, Qiang Wen, Qifeng Chen. 17793-17802 [doi]

Reference-based Video Super-Resolution Using Multi-Camera Video TripletsJunyong Lee, Myeonghee Lee, Sunghyun Cho, Seungyong Lee 0001. 17803-17812 [doi]

Memory-Augmented Non-Local Attention for Video Super-ResolutionJiyang Yu, Jingen Liu, Liefeng Bo, Tao Mei 0001. 17813-17822 [doi]

Optical Flow Estimation for Spiking CameraLiwen Hu, Rui Zhao 0010, Ziluo Ding, Lei Ma 0008, Boxin Shi, Ruiqin Xiong, Tiejun Huang 0001. 17823-17832 [doi]

Compressive Single-Photon 3D CamerasFelipe Gutierrez-Barragan, Atul Ingle, Trevor Seets, Mohit Gupta 0001, Andreas Velten. 17833-17843 [doi]

Single-Photon Structured LightVarun Sundar, Sizhuo Ma, Aswin C. Sankaranarayanan, Mohit Gupta 0001. 17844-17854 [doi]

All-photon Polarimetric Time-of-Flight ImagingSeung-Hwan Baek, Felix Heide. 17855-17864 [doi]

Holocurtains: Programming Light Curtains via Binary HolographyDorian Chan, Srinivasa G. Narasimhan, Matthew O'Toole. 17865-17874 [doi]

Towards Implicit Text-Guided 3D Shape GenerationZhengzhe Liu, Yi Wang, Xiaojuan Qi, Chi-Wing Fu. 17875-17885 [doi]

Towards Language-Free Training for Text-to-Image GenerationYufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu 0001, Jiuxiang Gu, Jinhui Xu 0001, Tong Sun. 17886-17896 [doi]

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticYoad Tewel, Yoav Shalev, Idan Schwartz, Lior Wolf. 17897-17907 [doi]

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding MatchingYaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha. 17908-17917 [doi]

Hierarchical Modular Network for Video CaptioningHanhua Ye, Guorong Li, Yuankai Qi, Shuhui Wang, Qingming Huang, Ming-Hsuan Yang 0001. 17918-17927 [doi]

SwinBERT: End-to-End Transformers with Sparse Attention for Video CaptioningKevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed 0001, Zhe Gan, Zicheng Liu 0001, Yumao Lu, Lijuan Wang. 17928-17937 [doi]

End-to-end Generative Pretraining for Multimodal Video CaptioningPaul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid. 17938-17947 [doi]

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image CaptioningChia-Wen Kuo, Zsolt Kira. 17948-17958 [doi]

Scaling Up Vision-Language Pretraining for Image CaptioningXiaowei Hu 0006, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu 0001, Yumao Lu, Lijuan Wang. 17959-17968 [doi]

Comprehending and Ordering Semantics for Image CaptioningYehao Li, Yingwei Pan, Ting Yao, Tao Mei 0001. 17969-17978 [doi]

NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External KnowledgeDuc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama. 17979-17987 [doi]

Injecting Semantic Concepts into End-to-End Image CaptioningZhiyuan Fang, Jianfeng Wang, Xiaowei Hu 0006, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu 0001. 17988-17998 [doi]

DIFNet: Boosting Visual Information Flow for Image CaptioningMingrui Wu, Xuying Zhang, Xiaoshuai Sun, Yiyi Zhou, Chao Chen, Jiaxin Gu, Xing Sun, Rongrong Ji. 17999-18008 [doi]

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image CaptioningJun Chen, Han Guo, Kai Yi, Boyang Li 0001, Mohamed Elhoseiny. 18009-18019 [doi]

Show, Deconfound and Tell: Image Captioning with Causal InferenceBing Liu 0016, Dong Wang, Xu Yang, Yong Zhou 0003, Rui Yao, Zhiwen Shao, Jiaqi Zhao 0001. 18020-18029 [doi]

EI-CLIP: Entity-aware Interventional Contrastive Learning for E-commerce Cross-modal RetrievalHaoyu Ma, Handong Zhao, Zhe Lin, Ajinkya Kale, Zhangyang Wang, Tong Yu 0001, Jiuxiang Gu, Sunav Choudhary, Xiaohui Xie. 18030-18040 [doi]

CLIPstyler: Image Style Transfer with a Single Text ConditionGihyun Kwon, Jong Chul Ye. 18041-18050 [doi]

HairCLIP: Design Your Hair by Text and Reference ImageTianyi Wei, Dongdong Chen 0001, Wenbo Zhou, Jing Liao 0001, Zhentao Tan, Lu Yuan, Weiming Zhang 0001, Nenghai Yu. 18051-18060 [doi]

DenseCLIP: Language-Guided Dense Prediction with Context-Aware PromptingYongming Rao, Wenliang Zhao, Guangyi Chen 0002, Yansong Tang, Zheng Zhu, Guan Huang, Jie Zhou 0001, Jiwen Lu. 18061-18070 [doi]

On Guiding Visual Attention with Language SpecificationSuzanne Petryk, Lisa Dunlap, Keyan Nasseri, Joseph Gonzalez 0001, Trevor Darrell, Anna Rohrbach. 18071-18081 [doi]

UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual DialogCheng Chen, Zhenshan Tan, Qingrong Cheng, Xin Jiang 0002, Qun Liu 0001, Yudong Zhu, Xiaodong Gu 0001. 18082-18091 [doi]

Text-to-Image Synthesis based on Object-Guided Joint-Decoding TransformerFuxiang Wu, Liu Liu, Fusheng Hao, Fengxiang He, Jun Cheng. 18092-18101 [doi]

LiT: Zero-Shot Transfer with Locked-image text TuningXiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov 0003, Lucas Beyer. 18102-18112 [doi]

GroupViT: Semantic Segmentation Emerges from Text SupervisionJiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas M. Breuel, Jan Kautz, Xiaolong Wang. 18113-18123 [doi]

ReSTR: Convolution-free Referring Image Segmentation Using TransformersNamyup Kim, Dongwon Kim, Suha Kwak, Cuiling Lan, Wenjun Zeng. 18124-18133 [doi]

LAVT: Language-Aware Vision Transformer for Referring Image SegmentationZhao Yang 0002, Jiaqi Wang, Yansong Tang, Kai Chen 0026, Hengshuang Zhao, Philip H. S. Torr. 18134-18144 [doi]

An Empirical Study of Training End-to-End Vision-and-Language TransformersZi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu 0001, Michael Zeng 0001. 18145-18155 [doi]

Are Multimodal Transformers Robust to Missing Modality?Mengmeng Ma 0002, Jian Ren, Long Zhao 0003, Davide Testuggine, Xi Peng 0005. 18156-18165 [doi]

Text to Image Generation with Semantic-Spatial Aware GANWentong Liao, Kai Hu, Michael Ying Yang, Bodo Rosenhahn. 18166-18175 [doi]

StyleT2I: Toward Compositional and High-Fidelity Text-to-Image SynthesisZhiheng Li, Martin Renqiang Min, Kai Li 0012, Chenliang Xu. 18176-18186 [doi]

Blended Diffusion for Text-driven Editing of Natural ImagesOmri Avrahami, Dani Lischinski, Ohad Fried. 18187-18197 [doi]

Make It Move: Controllable Image-to-Video Generation with Text DescriptionsYaosi Hu, Chong Luo, Zhenzhong Chen. 18198-18207 [doi]

Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language ModelZipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He, Nicu Sebe, Radu Timofte, Luc Van Gool, Errui Ding. 18208-18217 [doi]

A Style-aware Discriminator for Controllable Image TranslationKunhee Kim, Sanghun Park, Eunyeong Jeon, Taehun Kim, Daijin Kim 0001. 18218-18227 [doi]

Alleviating Semantics Distortion in Unsupervised Low-Level Image-to-Image Translation via Structure Consistency ConstraintJiaxian Guo, Jiachen Li, Huan Fu, Mingming Gong, Kun Zhang 0001, Dacheng Tao. 18228-18238 [doi]

Exploring Patch-wise Semantic Relation for Contrastive Learning in Image-to-Image Translation TasksChanyong Jung, Gihyun Kwon, Jong Chul Ye. 18239-18248 [doi]

FlexIT: Towards Flexible Semantic Image TranslationGuillaume Couairon, Asya Grechka, Jakob Verbeek, Holger Schwenk, Matthieu Cord. 18249-18258 [doi]

Modulated Contrast for Versatile Image SynthesisFangneng Zhan, Jiahui Zhang, Yingchen Yu, Rongliang Wu, Shijian Lu. 18259-18269 [doi]

QS-Attn: Query-Selected Attention for Contrastive Learning in I2I TranslationXueqi Hu, Xinyue Zhou, Qiusheng Huang, Zhengyi Shi, Li Sun, Qingli Li. 18270-18279 [doi]

Self-Supervised Dense Consistency Regularization for Image-to-Image TranslationMinsu Ko, Eunju Cha, Sungjoo Suh, Huijin Lee, Jae-Joon Han, Jinwoo Shin, Bohyung Han. 18280-18289 [doi]

Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image TranslationYanwu Xu 0003, Shaoan Xie, Wenhao Wu, Kun Zhang 0001, Mingming Gong, Kayhan Batmanghelich. 18290-18299 [doi]

InstaFormer: Instance-Aware Image-to-Image Translation with TransformerSoohyun Kim, Jongbeom Baek, Jihye Park, Gyeongnyeon Kim, Seungryong Kim. 18300-18310 [doi]

Unsupervised Image-to-Image Translation with Generative PriorShuai Yang, Liming Jiang, Ziwei Liu 0002, Chen Change Loy. 18311-18320 [doi]

StylizedNeRF: Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual LearningYihua Huang, Yue He, Yu-Jie Yuan, Yu-Kun Lai, Lin Gao 0004. 18321-18331 [doi]

NeRF-Editing: Geometry Editing of Neural Radiance FieldsYu-Jie Yuan, Yang-Tian Sun, Yu-Kun Lai, Yuewen Ma, Rongfei Jia, Lin Gao 0004. 18332-18343 [doi]

GeoNeRF: Generalizing NeRF with Geometry PriorsMohammad Mahdi Johari, Yann Lepoittevin, François Fleuret. 18344-18347 [doi]

Ray Priors through Reprojection: Improving Neural Radiance Fields for Novel View ExtrapolationJian Zhang, Yuanqing Zhang, Huan Fu, Xiaowei Zhou, Bowen Cai, Jinchi Huang, Rongfei Jia, Binqiang Zhao, Xing Tang. 18355-18365 [doi]

AR-NeRF: Unsupervised Learning of Depth and Defocus Effects from Natural Images with Aperture Rendering Neural Radiance FieldsTakuhiro Kaneko. 18366-18376 [doi]

HDR-NeRF: High Dynamic Range Neural Radiance FieldsXin Huang, Qi Zhang, Ying Feng, Hongdong Li, Xuan Wang, Qing Wang. 18377-18387 [doi]

NeRFReN: Neural Radiance Fields with ReflectionsYuanchen Guo, Di Kang, Linchao Bao, Yu He, Song-Hai Zhang. 18388-18397 [doi]

Neural Point Light FieldsJulian Ost, Issam Laradji, Alejandro Newell, Yuval Bahat, Felix Heide. 18398-18408 [doi]

3D-aware Image Synthesis via Learning Structural and Textural RepresentationsYinghao Xu, Sida Peng, Ceyuan Yang, Yujun Shen, Bolei Zhou. 18409-18418 [doi]

GIRAFFE HD: A High-Resolution 3D-aware Generative ModelYang Xue, Yuheng Li, Krishna Kumar Singh, Yong Jae Lee. 18419-18428 [doi]

Multi-View Consistent Generative Adversarial Networks for 3D-aware Image SynthesisXuanmeng Zhang, Zhedong Zheng, Daiheng Gao, Bang Zhang, Pan Pan, Yi Yang. 18429-18438 [doi]

Bi-level Doubly Variational Learning for Energy-based Latent Variable ModelsGe Kan, Jinhu Lü, Tian Wang, Baochang Zhang 0001, Aichun Zhu, Lei Huang, Guodong Guo, Hichem Snoussi. 18439-18448 [doi]

High-Resolution Image Harmonization via Collaborative Dual TransformationsWenyan Cong, Xinhao Tao, Li Niu 0002, Jing Liang 0007, Xuesong Gao, Qihao Sun, Liqing Zhang 0001. 18449-18458 [doi]

Brain-Supervised Image EditingKeith M. Davis, Carlos de la Torre-Ortiz, Tuukka Ruotsalo. 18459-18468 [doi]

De-rendering 3D Objects in the WildFelix Wimbauer, Shangzhe Wu, Christian Rupprecht 0001. 18469-18478 [doi]

Neural Fields as Learnable Kernels for 3D ReconstructionFrancis Williams, Zan Gojcic, Sameh Khamis, Denis Zorin, Joan Bruna, Sanja Fidler, Or Litany. 18479-18489 [doi]

HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image EditingYuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit Bermano. 18490-18500 [doi]

3PSDF: Three-Pole Signed Distance Function for Learning Surfaces with Arbitrary TopologiesWeikai Chen 0001, Cheng Lin, Weiyang Li, Bo Yang. 18501-18510 [doi]

Pop-Out Motion: 3D-Aware Image Deformation via Learning the Shape LaplacianJihyun Lee, Minhyuk Sung, Hyunjin Kim, Tae-Kyun Kim. 18511-18520 [doi]

Deep Image-based Illumination HarmonizationZhongyun Bao, Chengjiang Long, Gang Fu, Daquan Liu, Yuanzhen Li, Jiaming Wu, Chunxia Xiao. 18521-18530 [doi]

PhotoScene: Photorealistic Material and Lighting Transfer for Indoor ScenesYu-Ying Yeh, Zhengqin Li, Yannick Hold-Geoffroy, Rui Zhu, Zexiang Xu, Milos Hasan, Kalyan Sunkavalli, Manmohan Chandraker. 18541-18550 [doi]

Neural Template: Topology-aware Reconstruction and Disentangled Generation of 3D MeshesKa-Hei Hui, Ruihui Li, Jingyu Hu, Chi-Wing Fu. 18551-18561 [doi]

Neural Mesh SimplificationRolandos-Alexandros Potamias, Stylianos Ploumpis, Stefanos Zafeiriou. 18562-18571 [doi]

SkinningNet: Two-Stream Graph Convolutional Neural Network for Skinning Prediction of Synthetic CharactersAlbert Mosella-Montoro, Javier Ruiz Hidalgo. 18572-18581 [doi]

CLIP-Forge: Towards Zero-Shot Text-to-Shape GenerationAditya Sanghi, Hang Chu, Joseph G. Lambourne, Ye Wang, Chin-Yi Cheng, Marco Fumero, Kamal Rahimi Malekshan. 18582-18592 [doi]

UNIST: Unpaired Neural Implicit Shape Translation NetworkQimin Chen, Johannes Merz, Aditya Sanghi, Hooman Shayani, Ali Mahdavi-Amiri, Hao Zhang. 18593-18601 [doi]

CoNeRF: Controllable Neural Radiance FieldsKacper Kania, Kwang Moo Yi, Marek Kowalski, Tomasz Trzcinski, Andrea Tagliasacchi. 18602-18611 [doi]

Neural Points: Point Cloud Representation with Neural Fields for Arbitrary UpsamplingWanquan Feng, Jin Li, Hongrui Cai, Xiaonan Luo, Juyong Zhang. 18612-18621 [doi]

Modeling Indirect Illumination for Inverse RenderingYuanqing Zhang, Jiaming Sun, Xingyi He, Huan Fu, Rongfei Jia, Xiaowei Zhou. 18622-18631 [doi]

Neural Head Avatars from Monocular RGB VideosPhilip-William Grassal, Malte Prinzler, Titus Leistner, Carsten Rother, Matthias Nießner, Justus Thies. 18632-18643 [doi]

DeepCurrents: Learning Implicit Representations of Shapes with BoundariesDavid R. Palmer 0001, Dmitriy Smirnov 0001, Stephanie Wang, Albert Chern, Justin Solomon 0001. 18644-18654 [doi]

Escaping Data Scarcity for High-Resolution Heterogeneous Face HallucinationYiqun Mei, Pengfei Guo, Vishal M. Patel. 18655-18665 [doi]

AnyFace: Free-style Text-to-Face Synthesis and ManipulationJianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun. 18666-18675 [doi]

General Facial Representation Learning in a Visual-Linguistic MannerYinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng 0008, Fang Wen. 18676-18688 [doi]

Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake DetectionLiang Chen, Yong Zhang, Yibing Song, Lingqiao Liu, Jue Wang. 18689-18698 [doi]

Detecting Deepfakes with Self-Blended ImagesKaede Shiohara, Toshihiko Yamasaki. 18699-18708 [doi]

3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and FacesSimone Foti, Bongjin Koo, Danail Stoyanov, Matthew J. Clarkson. 18709-18718 [doi]

Evaluation-oriented Knowledge Distillation for Deep Face RecognitionYuge Huang, Jiaxiang Wu, Xingkun Xu, Shouhong Ding. 18719-18728 [doi]

AdaFace: Quality Adaptive Margin for Face RecognitionMinchul Kim, Anil K. Jain 0001, Xiaoming Liu. 18729-18738 [doi]

Moving Window Regression: A Novel Approach to Ordinal RegressionNyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim 0001. 18739-18748 [doi]

FaceFormer: Speech-Driven 3D Facial Animation with TransformersYingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura. 18749-18758 [doi]

Neural Emotion Director: Speech-preserving semantic control of facial expressions in "in-the-wild" videosFoivos Paraperas Papantoniou, Panagiotis Paraskevas Filntisis, Petros Maragos, Anastasios Roussos. 18759-18768 [doi]

Deep Decomposition for Stochastic Normal-Abnormal TransportPeirong Liu, Yueh Z. Lee, Stephen R. Aylward, Marc Niethammer. 18769-18779 [doi]

DTFD-MIL: Double-Tier Feature Distillation Multiple Instance Learning for Histopathology Whole Slide Image ClassificationHongrun Zhang, Yanda Meng, Yitian Zhao, Yihong Qiao, Xiaoyun Yang, Sarah E. Coupland, Yalin Zheng. 18780-18790 [doi]

Node-aligned Graph Convolutional Network for Whole-slide Image Representation and ClassificationYonghang Guan, Jun Zhang 0018, Kuan Tian, Sen Yang, Pei-Dong, Jinxi Xiang, Wei Yang, JunZhou Huang, Yuyao Zhang, Xiao Han. 18791-18801 [doi]

Temporal Context Matters: Enhancing Single Image Prediction with Disease Progression RepresentationsAishik Konwer, Xuan Xu, Joseph Bae, Chao Chen, Prateek Prasanna. 18802-18813 [doi]

VRDFormer: End-to-End Video Visual Relation Detection with TransformersSipeng Zheng, Shizhe Chen, Qin Jin. 18814-18824 [doi]

Video K-Net: A Simple, Strong, and Unified Baseline for Video SegmentationXiangtai Li, Wenwei Zhang, Jiangmiao Pang, Kai Chen, Guangliang Cheng, Yunhai Tong, Chen Change Loy. 18825-18835 [doi]

Visual Acoustic MatchingChangan Chen, Ruohan Gao, Paul Calamia, Kristen Grauman. 18836-18846 [doi]

The Devil is in the Labels: Noisy Label Correction for Robust Scene Graph GenerationLin Li, Long Chen 0016, Yifeng Huang, Zhimeng Zhang, Songyang Zhang, Jun Xiao 0001. 18847-18856 [doi]

Learning Multiple Dense Prediction Tasks from Partially Annotated DataWei-Hong Li, Xialei Liu, Hakan Bilen. 18857-18867 [doi]

PONI: Potential Functions for ObjectGoal Navigation with Interaction-free LearningSanthosh Kumar Ramakrishnan, Devendra Singh Chaplot, Ziad Al-Halah, Jitendra Malik, Kristen Grauman. 18868-18878 [doi]

Continual Stereo Matching of Continuous Driving Scenes with Growing ArchitectureChenghao Zhang, Kun Tian, Bin Fan, Gaofeng Meng, Zhaoxiang Zhang, Chunhong Pan. 18879-18888 [doi]

FIFO: Learning Fog-invariant Features for Foggy Scene SegmentationSohyun Lee, Taeyoung Son, Suha Kwak. 18889-18899 [doi]

Both Style and Fog Matter: Cumulative Domain Adaptation for Semantic Foggy Scene UnderstandingXianzheng Ma, Zhixiang Wang, Yacheng Zhan, Yinqiang Zheng, Zheng Wang, Dengxin Dai, Chia-Wen Lin. 18900-18909 [doi]

Equivariant Point Cloud Analysis via Learning Orientations for Message PassingShitong Luo, Jiahan Li, Jiaqi Guan, Yufeng Su, Chaoran Cheng, Jian Peng 0001, Jianzhu Ma. 18910-18919 [doi]

Surface Representation for Point CloudsHaoxi Ran, Jun Liu, Chengjie Wang. 18920-18930 [doi]

Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point CloudsYifan Zhang, Qingyong Hu, Guoquan Xu, Yanxin Ma, JianWei Wan, Yulan Guo. 18931-18940 [doi]

3D Common Corruptions and Data AugmentationOguzhan Fatih Kar, Teresa Yeo, Andrei Atanov, Amir Zamir. 18941-18952 [doi]

INS-Conv: Incremental Sparse Convolution for Online 3D SegmentationLeyao Liu, Tian Zheng, Yun-Jou Lin, Kai Ni, Lu Fang. 18953-18962 [doi]

How much does input data type impact final face model accuracy?Jiahao Luo, Fahim Hasan Khan, Issei Mori, Akila de Silva, Eric Sandoval Ruezga, Minghao Liu 0009, Alex Pang, James Davis. 18963-18972 [doi]

Ego4D: Around the World in 3, 000 Hours of Egocentric VideoKristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang 0007, Miao Liu, Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu, Eric Zhongcong Xu, Chen Zhao 0002, Siddhant Bansal, Dhruv Batra, Vincent Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph Feichtenhofer, Adriano Fragomeni, Qichen Fu, Abrham Gebreselasie, Cristina González, James Hillis, Xuhua Huang, Yifei Huang, Wenqi Jia, Weslie Khoo, Jáchym Kolár, Satwik Kottur, Anurag Kumar 0003, Federico Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola Ruiz Puentes, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu, Takuma Yagi, Ziwei Zhao, Yunyi Zhu, Pablo Arbeláez, David Crandall, Dima Damen, Giovanni Maria Farinella, Christian Fuegen, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul Joo, Kris Kitani, Haizhou Li 0001, Richard A. Newcombe, Aude Oliva, Hyun Soo Park, James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba 0001, Lorenzo Torresani, Mingfei Yan, Jitendra Malik. 18973-18990 [doi]

TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action CountingHuazhang Hu, Sixun Dong, Yiqun Zhao, Dongze Lian, Zhengxin Li, Shenghua Gao. 18991-19000 [doi]

Animal Kingdom: A Large and Diverse Dataset for Animal Behavior UnderstandingXun Long Ng, Kian Eng Ong, Qichen Zheng, Yun Ni, Si Yong Yeo, Jun Liu. 19001-19012 [doi]

vCLIMB: A Novel Video Class Incremental Learning BenchmarkAndrés Villa, Kumail Alhamoud, Victor Escorcia, Fabian Caba Heilbron, Juan León Alcázar, Bernard Ghanem. 19013-19022 [doi]

Opening up Open World TrackingYang Liu, Idil Esen Zulfikar, Jonathon Luiten, Achal Dave, Deva Ramanan, Bastian Leibe, Aljosa Osep, Laura Leal-Taixé. 19023-19033 [doi]

Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object InteractionsHuaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Anima Anandkumar. 19034-19043 [doi]

CNN Filter DB: An Empirical Investigation of Trained Convolutional FiltersPaul Gavrikov, Janis Keuper. 19044-19054 [doi]

Failure Modes of Domain Generalization AlgorithmsTigran Galstyan, Hrayr Harutyunyan, Hrant Khachatrian, Greg Ver Steeg, Aram Galstyan. 19055-19064 [doi]

A Comprehensive Study of Image Classification Model Sensitivity to Foregrounds, Backgrounds, and Visual AttributesMazda Moayeri, Phillip Pope, Yogesh Balaji, Soheil Feizi. 19065-19075 [doi]

Grounding Answers for Visual Questions Asked by Visually Impaired PeopleChongyan Chen, Samreen Anjum, Danna Gurari. 19076-19085 [doi]

Learning to Answer Questions in Dynamic Audio-Visual ScenariosGuangyao Li, Yake Wei, Yapeng Tian, Chenliang Xu, Ji-Rong Wen, Di Hu 0001. 19086-19096 [doi]

Episodic Memory Question AnsweringSamyak Datta, Sameer Dharur, Vincent Cartillier, Ruta Desai, Mukul Khanna, Dhruv Batra, Devi Parikh. 19097-19106 [doi]

ScanQA: 3D Question Answering for Spatial Scene UnderstandingDaichi Azuma, Taiki Miyanishi, Shuhei Kurita, Motoaki Kawanabe. 19107-19117 [doi]

Learning Part Segmentation through Unsupervised Domain Adaptation from Synthetic VehiclesQing Liu 0017, Adam Kortylewski, Zhishuai Zhang, Zizhang Li, Mengqi Guo, Qihao Liu, Xiaoding Yuan, Jiteng Mu, Weichao Qiu, Alan L. Yuille. 19118-19129 [doi]

BTS: A Bi-lingual Benchmark for Text Segmentation in the WildXixi Xu, Zhongang Qi, Jianqi Ma, Honglun Zhang, Ying Shan, Xiaohu Qie. 19130-19140 [doi]

Unified Contrastive Learning in Image-Text-Label SpaceJianwei Yang, Chunyuan Li, Pengchuan Zhang, Bin Xiao, Ce Liu, Lu Yuan, Jianfeng Gao. 19141-19151 [doi]

AlignMixup: Improving Representations By Interpolating Aligned FeaturesShashanka Venkataramanan, Ewa Kijak, Laurent Amsaleg, Yannis Avrithis. 19152-19161 [doi]

On the Road to Online Adaptation for Semantic Image SegmentationRiccardo Volpi, Pau de Jorge, Diane Larlus, Gabriela Csurka. 19162-19173 [doi]

ADAS: A Direct Adaptation Strategy for Multi-Target Domain Adaptive Semantic SegmentationSeunghun Lee, Wonhyeok Choi, Changjae Kim, Minwoo Choi, Sunghoon Im. 19174-19184 [doi]

Kernelized Few-shot Object Detection with Efficient Integral AggregationShan Zhang, Lei Wang, Naila Murray, Piotr Koniusz. 19185-19194 [doi]

Neural Mean Discrepancy for Efficient Out-of-Distribution DetectionXin Dong 0009, Junfeng Guo, Ang Li, Wei-Te Ting, Cong Liu, H. T. Kung 0001. 19195-19205 [doi]

A Structured Dictionary Perspective on Implicit Neural RepresentationsGizem Yüce, Guillermo Ortiz-Jiménez, Beril Besbinar, Pascal Frossard. 19206-19216 [doi]

LARGE: Latent-Based Regression through GAN SemanticsYotam Nitzan, Rinon Gal, Ofir Brenner, Daniel Cohen-Or. 19217-19227 [doi]

Rethinking Controllable Variational AutoencodersHuajie Shao, Yifei Yang, Haohong Lin, Longzhong Lin, Yizhuo Chen, Qinmin Yang, Han Zhao. 19228-19237 [doi]

Learning Canonical F-Correlation Projection for Compact Multiview RepresentationYun-Hao Yuan, Jin Li, Yun Li, Jipeng Qiang, Yi Zhu 0006, Xiaobo Shen 0001, Jianping Gou. 19238-19247 [doi]

Cross-Architecture Self-supervised Video Representation LearningSheng Guo 0005, Zihua Xiong, Yujie Zhong, Limin Wang 0002, Xiaobo Guo, Bing Han, Weilin Huang. 19248-19257 [doi]

Improving Video Model Transfer with Dynamic Representation LearningYi Li, Nuno Vasconcelos. 19258-19269 [doi]

Self-Supervised Image Representation Learning with Geometric Set ConsistencyNenglun Chen, Lei Chu, Hao Pan, Yan Lu, Wenping Wang. 19270-19280 [doi]

HLRTF: Hierarchical Low-Rank Tensor Factorization for Inverse Problems in Multi-Dimensional ImagingYi-Si Luo, Xile Zhao, Deyu Meng, Tai-Xiang Jiang. 19281-19290 [doi]

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point ModelingXumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang 0001, Jie Zhou 0001, Jiwen Lu. 19291-19300 [doi]

DiGS : Divergence guided shape implicit neural representation for unoriented point cloudsYizhak Ben-Shabat, Chamin Hewa Koneputugodage, Stephen Gould. 19301-19310 [doi]

Neural Convolutional SurfacesLuca Morreale, Noam Aigerman, Paul Guerrero, Vladimir G. Kim, Niloy J. Mitra. 19311-19320 [doi]

Representing 3D Shapes with Probabilistic Directed Distance FieldsTristan Aumentado-Armstrong, Stavros Tsogkas, Sven J. Dickinson, Allan D. Jepson. 19321-19332 [doi]

H4D: Human 4D Modeling by Learning Neural Compositional RepresentationBoyan Jiang, Yinda Zhang 0001, Xingkui Wei, Xiangyang Xue, Yanwei Fu. 19333-19343 [doi]

Learning Memory-Augmented Unidirectional Metrics for Cross-modality Person Re-identificationJialun Liu, Yifan Sun, Feng Zhu, Hongbin Pei, Yi Yang, Wenhui Li. 19344-19353 [doi]

Contrastive Regression for Domain Adaptation on Gaze EstimationYaoming Wang, Yangzhou Jiang, Jin Li, Bingbing Ni, Wenrui Dai, Chenglin Li, Hongkai Xiong, Teng Li. 19354-19363 [doi]

Forward Compatible Training for Large-Scale Embedding Retrieval SystemsVivek Ramanujan, Pavan Kumar Anasosalu Vasu, Ali Farhadi, Oncel Tuzel, Hadi Pouransari. 19364-19373 [doi]

Notice of Retraction: E2V-SDE: From Asynchronous Events to Fast and Continuous Video Reconstruction via Neural Stochastic Differential EquationsJongwan Kim, DongJin Lee, Byunggook Na, Seongsik Park, Jeonghee Jo, Sungroh Yoon. 19374-19383 [doi]

Improving Subgraph Recognition with Variational Graph Information BottleneckJunchi Yu, Jie Cao 0002, Ran He. 19374-19383 [doi]

Learning Soft Estimator of Keypoint Scale and Orientation with Probabilistic Covariant LossPei Yan, Yihua Tan, Shengzhou Xiong, Yuan Tai, Yansheng Li. 19384-19393 [doi]

Few-shot Keypoint Detection with Uncertainty Learning for Unseen SpeciesChangsheng Lu, Piotr Koniusz. 19394-19404 [doi]

Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph GenerationXingning Dong, Tian Gan, Xuemeng Song, Jianlong Wu, Yuan Cheng, Liqiang Nie. 19405-19414 [doi]

Structured Sparse R-CNN for Direct Scene Graph GenerationYao Teng, Limin Wang 0002. 19415-19424 [doi]

PPDL: Predicate Probability Distribution based Loss for Unbiased Scene Graph GenerationWei Li, Haiwei Zhang, Qijie Bai, Guoqing Zhao, Ning Jiang, Xiaojie Yuan. 19425-19434 [doi]

RU-Net: Regularized Unrolling Network for Scene Graph GenerationXin Lin, Changxing Ding, Jing Zhang, Yibing Zhan, Dacheng Tao. 19435-19444 [doi]

Fine-Grained Predicates Learning for Scene Graph GenerationXinyu Lyu, Lianli Gao, Yuyu Guo 0001, Zhou Zhao, Hao Huang, Heng Tao Shen, Jingkuan Song. 19445-19453 [doi]

HL-Net: Heterophily Learning Network for Scene Graph GenerationXin Lin, Changxing Ding, Yibing Zhan, Zijian Li 0011, Dacheng Tao. 19454-19463 [doi]

SGTR: End-to-end Scene Graph Generation with TransformerRongjie Li, Songyang Zhang, Xuming He 0001. 19464-19474 [doi]

Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite GraphsKaifeng Gao, Long Chen 0016, Yulei Niu, Jian Shao, Jun Xiao 0001. 19475-19484 [doi]

RelTransformer: A Transformer-Based Long-Tail Visual Relationship RecognitionJun Chen, Aniket Agarwal, Sherif Abdelkarim, Deyao Zhu, Mohamed Elhoseiny. 19485-19495 [doi]

Spatial Commonsense Graph for Object Localisation in Partial ScenesFrancesco Giuliari, Geri Skenderi, Marco Cristani, Yiming Wang 0002, Alessio Del Bue. 19496-19505 [doi]

'The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better Instantaneous MappingAvishkar Saha, Oscar Mendez, Chris Russell 0001, Richard Bowden. 19506-19515 [doi]

Category-Aware Transformer Network for Better Human-Object Interaction DetectionLeizhen Dong, Zhimin Li, Kunlun Xu, Zhijun Zhang, Luxin Yan, Sheng Zhong 0001, Xu Zou. 19516-19525 [doi]

Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction DetectionYong Zhang, Yingwei Pan, Ting Yao, Rui Huang, Tao Mei 0001, Chang Wen Chen. 19526-19535 [doi]

Distillation Using Oracle Queries for Transformer-based Human-Object Interaction DetectionXian Qu, Changxing Ding, Xingao Li, Xubin Zhong, Dacheng Tao. 19536-19545 [doi]

Human-Object Interaction Detection via Disentangled TransformerDesen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu, Errui Ding, Jingdong Wang 0001. 19546-19555 [doi]

MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction DetectionBumsoo Kim, Jonghwan Mun, Kyoung-woon On, Minchul Shin, Junhyun Lee, Eun-Sol Kim. 19556-19565 [doi]

GaTector: A Unified Framework for Gaze Object PredictionBinglu Wang, Tao Hu, Baoshan Li, Xiaojuan Chen, Zhijie Zhang. 19566-19575 [doi]

STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded ScenesPeishan Cong, Xinge Zhu, Feng Qiao, Yiming Ren, Xidong Peng, Yuenan Hou, Lan Xu, Ruigang Yang, Dinesh Manocha, Yuexin Ma. 19576-19585 [doi]

Crowd Counting in the Frequency DomainWeibo Shu, Jia Wan, Kay Chen Tan, Sam Kwong, Antoni B. Chan. 19586-19595 [doi]

Boosting Crowd Counting via Multifaceted AttentionHui Lin, Zhiheng Ma, Rongrong Ji, Yaowei Wang, Xiaopeng Hong. 19596-19605 [doi]

Rethinking Spatial Invariance of Convolutional Networks for Object CountingZhi-Qi Cheng, Qi Dai, Hong Li, Jingkuan Song, Xiao Wu 0001, Alexander G. Hauptmann. 19606-19616 [doi]

Cerberus Transformer: Joint Semantic, Affordance and Attribute ParsingXiaoxue Chen, Tianyu Liu, Hao Zhao 0001, Guyue Zhou, Ya-Qin Zhang. 19617-19626 [doi]

Collaborative Transformers for Grounded Situation RecognitionJunhyeong Cho, YoungSeok Yoon, Suha Kwak. 19627-19636 [doi]

Deep Stereo Image Compression via Bi-directional CodingJianjun Lei, Xiangrui Liu, Bo Peng 0007, Dengchao Jin, Wanqing Li 0001, Jingxiao Gu. 19637-19646 [doi]

RFNet: Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and FusionHan Xu, Jiayi Ma 0001, Jiteng Yuan, Zhuliang Le, Wei Liu. 19647-19656 [doi]

Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale TransformerFushun Zhu, Shan Zhao, Peng Wang, Hao Wang, Hua Yan, Shuaicheng Liu. 19657-19666 [doi]

Semi-Supervised Learning of Semantic Correspondence with Pseudo-LabelsJiwon Kim, Kwangrok Ryoo, Junyoung Seo, Gyuseong Lee, Daehwan Kim, Hansang Cho, Seungryong Kim. 19667-19677 [doi]

SCS-Co: Self-Consistent Style Contrastive Learning for Image HarmonizationYucheng Hang, Bin Xia, Wenming Yang, Qingmin Liao. 19678-19687 [doi]

Automatic Color Image Stitching Using Quaternion Rank-1 AlignmentJiaxue Li, Yicong Zhou. 19688-19697 [doi]

SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Color EditingJing Shi 0005, Ning Xu, Haitian Zheng, Alex Smith, Jiebo Luo, Chenliang Xu. 19698-19707 [doi]

Degree-of-linear-polarization-based Color ConstancyTaishi Ono, Yuhi Kondo, Legong Sun, Teppei Kurita, Yusuke Moriuchi. 19708-19717 [doi]

Point Cloud Color ConstancyXiaoyan Xing, Yanlin Qian, Sibo Feng, Yuhan Dong, Jirí Matas. 19718-19727 [doi]

Boosting View Synthesis with Residual TransferXuejian Rong, Jia-Bin Huang, Ayush Saraf, Changil Kim 0001, Johannes Kopf. 19728-19737 [doi]

Deep Hyperspectral-Depth Reconstruction Using Single Color-Dot ProjectionChunyu Li, Yusuke Monno, Masatoshi Okutomi. 19738-19747 [doi]

Quantization-aware Deep Optics for Diffractive Snapshot Hyperspectral ImagingLingen Li, Lizhi Wang, WeiTao Song, Lei Zhang, Zhiwei Xiong, Hua Huang 0001. 19748-19757 [doi]

PIE-Net: Photometric Invariant Edge Guided Network for Intrinsic Image DecompositionPartha Das, Sezer Karaoglu, Theo Gevers. 19758-19767 [doi]

Multimodal Material SegmentationYupeng Liang, Ryosuke Wakaki, Shohei Nobuhara, Ko Nishino. 19768-19776 [doi]

Occlusion-Aware Cost Constructor for Light Field Depth EstimationYingqian Wang 0002, Longguang Wang, Zhengyu Liang, Jun-Gang Yang, Wei An, Yulan Guo. 19777-19786 [doi]

Learning Neural Light Fields with Ray-Space EmbeddingBenjamin Attal, Jia-Bin Huang, Michael Zollhöfer, Johannes Kopf, Changil Kim 0001. 19787-19797 [doi]

Acquiring a Dynamic Light Field through a Single-Shot Coded ImageRyoya Mizuno, Keita Takahashi 0001, Michitaka Yoshida, Chihiro Tsutake, Toshiaki Fujii, Hajime Nagahara. 19798-19808 [doi]

Gravitationally Lensed Black Hole Emission TomographyAviad Levis, Pratul P. Srinivasan, Andrew A. Chael, Ren Ng, Katherine L. Bouman. 19809-19818 [doi]

Deep Saliency Prior for Reducing Visual DistractionKfir Aberman, Junfeng He, Yossi Gandelsman, Inbar Mosseri, David E. Jacobs, Kai Kohlhoff, Yael Pritch, Michael Rubinstein. 19819-19828 [doi]

Personalized Image Aesthetics Assessment with Rich AttributesYuzhe Yang, Liwu Xu, Leida Li, Nan Qie, Yaqian Li, Peng Zhang, Yandong Guo. 19829-19837 [doi]

Artistic Style Discovery with Independent ComponentsXin Xie, Yi Li 0018, Huaibo Huang, Haiyan Fu, Wanwan Wang, Yanqing Guo. 19838-19847 [doi]

Bridge-Prompt: Towards Ordinal Action Understanding in Instructional VideosMuheng Li, Lei Chen 0069, Yueqi Duarr, Zhilan Hu, Jianjiang Feng, Jie Zhou 0001, Jiwen Lu. 19848-19857 [doi]

SVIP: Sequence VerIfication for Procedures in VideosYicheng Qian, Weixin Luo, Dongze Lian, Xu Tang, Peilin Zhao, Shenghua Gao. 19858-19870 [doi]

Set-Supervised Action Learning in Procedural Task Videos via Pairwise Order ConsistencyZijia Lu, Ehsan Elhamifar. 19871-19881 [doi]

Exploring Denoised Cross-video Contrast for Weakly-supervised Temporal Action LocalizationJingjing Li, Tianyu Yang, Wei Ji, Jue Wang, Li Cheng 0001. 19882-19892 [doi]

GateHUB: Gated History Unit with Background Suppression for Online Action DetectionJunwen Chen, Gaurav Mittal, Ye Yu, Yu Kong, Mei Chen. 19893-19902 [doi]

2(GO)MOTION: Motion Augmented Event Stream for Egocentric Action RecognitionChiara Plizzari, Mirco Planamente, Gabriele Goletto, Marco Cannici, Emanuele Gusso, Matteo Matteucci, Barbara Caputo. 19903-19915 [doi]

Hybrid Relation Guided Set Matching for Few-shot Action RecognitionXiang Wang, Shiwei Zhang, Zhiwu Qing, Mingqian Tang, Zhengrong Zuo, Changxin Gao, Rong Jin 0001, Nong Sang. 19916-19925 [doi]

Spatio-temporal Relation Modeling for Few-shot Action RecognitionAnirudh Thatipelli, Sanath Narayan, Salman Khan 0001, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem. 19926-19935 [doi]

Alignment-Uniformity aware Representation Learning for Zero-shot Video ClassificationShi Pu, Kaili Zhao, Mao Zheng. 19936-19945 [doi]

Crossmodal Representation Learning for Zero-shot Action RecognitionChung-Ching Lin, Kevin Lin, Lijuan Wang, Zicheng Liu 0001, Linjie Li. 19946-19956 [doi]

Cross-modal Background Suppression for Audio-Visual Event LocalizationYan Xia, Zhou Zhao. 19957-19966 [doi]

Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action LocalizationJunyu Gao, Mengyuan Chen, Changsheng Xu. 19967-19977 [doi]

An Empirical Study of End-to-End Temporal Action DetectionXiaolong Liu, Song Bai, Xiang Bai. 19978-19987 [doi]

Everything at Once - Multi-modal Fusion Transformer for Video RetrievalNina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas 0001, Brian Kingsbury, Rogério Feris, David Harwath, James R. Glass, Hilde Kuehne. 19988-19997 [doi]

DirecFormer: A Directed Attention in Transformer Approach to Robust Action RecognitionThanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam Phung, Xin Li, Khoa Luu. 19998-20008 [doi]

MS-TCT: Multi-Scale Temporal ConvTransformer for Action DetectionRui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, François Brémond. 20009-20019 [doi]

Uncertainty-Guided Probabilistic Transformer for Complex Action RecognitionHongji Guo, Hanjing Wang, Qiang Ji. 20020-20029 [doi]

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video RecognitionYulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang. 20030-20040 [doi]

UBoCo: Unsupervised Boundary Contrastive Learning for Generic Event Boundary DetectionHyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim. 20041-20050 [doi]

Detector-Free Weakly Supervised Group Activity RecognitionDongkeun Kim, Jinsung Lee, Minsu Cho, Suha Kwak. 20051-20061 [doi]

Multi-grained Spatio-Temporal Features Perceived Network for Event-based Lip-ReadingGanchao Tan, Yang Wang 0015, Han Han, Yang Cao 0010, Feng Wu 0001, Zhengjun Zha. 20062-20071 [doi]

Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise TransformerFrederic Z. Zhang, Dylan Campbell, Stephen Gould. 20072-20080 [doi]

Interactiveness Field in Human-Object InteractionsXinpeng Liu, Yong-Lu Li, Xiaoqian Wu, Yu-Wing Tai, Cewu Lu, Chi-Keung Tang. 20081-20090 [doi]

GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI DetectionYue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu 0001. 20091-20100 [doi]

Object-Relation Reasoning Graph for Action RecognitionYangjun Ou, Li Mi, Zhenzhong Chen. 20101-20110 [doi]

UBnormal: New Benchmark for Supervised Open-Set Video Anomaly DetectionAndra Acsintoae, Andrei Florescu, Mariana-Iuliana Georgescu, Tudor Mare, Paul Sumedrea, Radu-Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah. 20111-20121 [doi]

Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion RecognitionBenjia Zhou, Pichao Wang, Jun Wan 0001, Yanyan Liang, Fan Wang, Du Zhang, Zhen Lei 0001, Hao Li 0030, Rong Jin 0001. 20122-20131 [doi]

SPAct: Self-supervised Privacy Preservation for Action RecognitionIshan Rajendrakumar Dave, Chen Chen 0001, Mubarak Shah. 20132-20141 [doi]

Unsupervised Action Segmentation by Joint Representation Learning and Online ClusteringSateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc Huy Tran. 20142-20153 [doi]

InfoGCN: Representation Learning for Human Skeleton-based Action RecognitionHyung-Gun Chi, Myoung Hoon Ha, Seung-geun Chi, Sang Wan Lee, Qixing Huang, Karthik Ramani. 20154-20164 [doi]

Learning Video Representations of Human Motion from Synthetic DataXi Guo, Wei Wu, Dongliang Wang, Jing Su, Haisheng Su, Weihao Gan, Jian Huang, Qin Yang. 20165-20175 [doi]

Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated VideosSaghir Alfasly, Jian Lu, Chen Xu, Yuru Zou. 20176-20185 [doi]

EyePAD++: A Distillation-based approach for joint Eye Authentication and Presentation Attack Detection using Periocular ImagesPrithviraj Dhar, Amit Kumar, Kirsten Kaplan, Khushi Gupta, Rakesh Ranjan, Rama Chellappa. 20186-20195 [doi]

Gait Recognition in the Wild with Dense 3D Representations and A BenchmarkJinkai Zheng, Xinchen Liu, Wu Liu, Lingxiao He, Chenggang Yan 0001, Tao Mei 0001. 20196-20205 [doi]

Camera-Conditioned Stable Feature Generation for Isolated Camera Supervised Person Re-IDentificationChao Wu, Wenhang Ge, Ancong Wu, Xiaobin Chang. 20206-20216 [doi]

Lagrange Motion Analysis and View Embeddings for Improved Gait RecognitionTianrui Chai, Annan Li, Shaoxiong Zhang, Zilong Li, Yunhong Wang. 20217-20226 [doi]

DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover's Distance Improves Out-Of-Distribution Face IdentificationHai Phan, Anh Nguyen. 20227-20237 [doi]

Learning Second Order Local Anomaly for General Face Forgery DetectionJianwei Fei, Yunshu Dai, Peipeng Yu, Tianrun Shen, Zhihua Xia, Jian Weng 0001. 20238-20248 [doi]

PatchNet: A Simple Face Anti-Spoofing Framework via Fine-Grained Patch RecognitionChien-Yi Wang, Yu-Ding Lu, Shang-Ta Yang, Shang-Hong Lai. 20249-20258 [doi]

Face2Exp: Combating Data Biases for Facial Expression RecognitionDan Zeng, Zhiyuan Lin, Xiao Yan, Yuting Liu, Fei Wang, Bo Tang. 20259-20268 [doi]

Local-Adaptive Face Recognition via Graph-based Meta-Clustering and Regularized AdaptationWenbin Zhu, Chien-Yi Wang, Kuan-Lun Tseng, Shang-Hong Lai, Baoyuan Wang. 20269-20278 [doi]

EMOCA: Emotion Driven Monocular Face Capture and AnimationRadek Danecek, Michael J. Black, Timo Bolkart. 20279-20290 [doi]

Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual RealityAmin Jourabloo, Fernando De la Torre, Jason M. Saragih, Shih-En Wei, Stephen Lombardi, Te-Li Wang, Danielle Belko, Autumn Trimble, Hernán Badino. 20291-20300 [doi]

FaceVerse: a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid DatasetLizhen Wang, Zhiyuan Chen, Tao Yu, Chenguang Ma, Liang Li, Yebin Liu. 20301-20310 [doi]

ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural RepresentationsMingwu Zheng, Hongyu Yang, Di Huang 0001, Liming Chen 0002. 20311-20320 [doi]

Physically-guided Disentangled Implicit Rendering for 3D Face ModelingZhenyu Zhang 0005, Yanhao Ge, Ying Tai, Weijian Cao, Renwang Chen, Kunlin Liu, Hao Tang, Xiaoming Huang, Chengjie Wang, Zhifeng Xie, Dongjin Huang. 20321-20331 [doi]

RigNeRF: Fully Controllable Neural 3D PortraitsShahrukh Athar, Zexiang Xu, Kalyan Sunkavalli, Eli Shechtman, Zhixin Shu. 20332-20341 [doi]

HeadNeRF: A Realtime NeRF-based Parametric Head ModelYang Hong 0003, Bo Peng, Haiyao Xiao, Ligang Liu, Juyong Zhang. 20342-20352 [doi]

Sparse to Dense Dynamic 3D Facial Expression GenerationNaima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo. 20353-20362 [doi]

Learning to Listen: Modeling Non-Deterministic Dyadic Facial MotionEvonne Ng, Hanbyul Joo, Liwen Hu, Hao Li 0015, Trevor Darrell, Angjoo Kanazawa, Shiry Ginosar. 20363-20373 [doi]

Speech Driven Tongue AnimationSalvador Medina, Denis Tomè, Carsten Stoll, Mark Tiede, Kevin Munhall, Alex Hauptmann 0001, Iain A. Matthews. 20374-20384 [doi]

Knowledge-Driven Self-Supervised Representation Learning for Facial Action Unit RecognitionYanan Chang, Shangfei Wang. 20385-20394 [doi]

gDNA: Towards Generative Detailed Neural AvatarsXu Chen, Tianjian Jiang, Jie Song 0006, Jinlong Yang, Michael J. Black, Andreas Geiger 0001, Otmar Hilliges. 20395-20405 [doi]

GraFormer: Graph-oriented Transformer for 3D Pose EstimationWeixi Zhao, Weiqiang Wang, Yunjie Tian. 20406-20415 [doi]

Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose EstimationJogendra Nath Kundu, Siddharth Seth, Pradyumna YM, Varun Jampani, Anirban Chakraborty, R. Venkatesh Babu. 20416-20427 [doi]

Towards Diverse and Natural Scene-aware 3D Human Motion SynthesisJingbo Wang 0003, Yu Rong, Jingyuan Liu, Sijie Yan, Dahua Lin, Bo Dai. 20428-20437 [doi]

PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video SequenceZijian Dong, Chen Guo, Jie Song 0006, Xu Chen, Andreas Geiger 0001, Otmar Hilliges. 20438-20448 [doi]

The Wanderings of Odysseus in 3D ScenesYan Zhang, Siyu Tang. 20449-20459 [doi]

OSSO: Obtaining Skeletal Shape from OutsideMarilyn Keller, Silvia Zuffi, Michael J. Black, Sergi Pujades. 20460-20469 [doi]

LiDARCap: Long-range Markerless 3D Human Motion Capture with LiDAR Point CloudsJialian Li, Jingyi Zhang, Zhiyong Wang, Siqi Shen, Chenglu Wen, Yuexin Ma, Lan Xu, Jingyi Yu, Cheng Wang. 20470-20480 [doi]

Unimodal-Concentrated Loss: Fully Adaptive Label Distribution Learning for Ordinal RegressionQiang Li, Jingjing Wang, Zhaoliang Yao, Yachun Li, Pengju Yang 0001, Jingwei Yan, Chunmao Wang, Shiliang Pu. 20481-20490 [doi]

LISA: Learning Implicit Shape and Appearance of HandsEnric Corona, Tomas Hodan, Minh Vo, Francesc Moreno-Noguer, Chris Sweeney, Richard Newcombe, Lingni Ma. 20501-20511 [doi]

MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular ImageXingyu Chen, Yufeng Liu, Yajiao Dong, Xiong Zhang, Chongyang Ma, Yanmin Xiong, Yuan Zhang, Xiaoyan Guo. 20512-20522 [doi]

Mining Multi-View Information: A Strong Self-Supervised Framework for Depth-based 3D Hand Pose and Mesh EstimationPengfei Ren, Haifeng Sun, Jiachang Hao, Jingyu Wang, Qi Qi 0001, Jianxin Liao. 20523-20533 [doi]

Low-Resource Adaptation for Personalized Co-Speech Gesture GenerationChaitanya Ahuja, Dong Won Lee 0007, Louis-Philippe Morency. 20534-20544 [doi]

D-Grasp: Physically Plausible Dynamic Grasp Synthesis for Hand-Object InteractionsSammy Christen, Muhammed Kocabas, Emre Aksan, Jemin Hwangbo, Jie Song 0006, Otmar Hilliges. 20545-20554 [doi]

Synthetic Generation of Face Videos with Plethysmograph PhysiologyZhen Wang, Yunhao Ba, Pradyumna Chari, Oyku Deniz Bozkurt, Gianna Brown, Parth Patwa, Niranjan Vaddi, Laleh Jalilian, Achuta Kadambi. 20555-20564 [doi]

Contour-Hugging Heatmaps for Landmark DetectionJames McCouat, Irina Voiculescu. 20565-20573 [doi]

Which images to label for few-shot medical landmark detection?Quan Quan, Qingsong Yao, Jun Li, S. Kevin Zhou. 20574-20584 [doi]

Self-Supervised Bulk Motion Artifact Removal in Optical Coherence Tomography AngiographyJiaxiang Ren, Kicheon Park, Yingtian Pan, Haibin Ling. 20585-20593 [doi]

Multi-marginal Contrastive Learning for Multilabel Subcellular Protein LocalizationZiyi Liu, Zengmao Wang, Bo Du 0001. 20594-20603 [doi]

Transformer-empowered Multi-scale Contextual Matching and Aggregation for Multi-contrast MRI Super-resolutionGuangyuan Li, Jun Lv, Yapeng Tian, Qi Dou, Chengyan Wang, Chenliang Xu, Jing Qin 0001. 20604-20613 [doi]

Harmony: A Generic Unsupervised Approach for Disentangling Semantic Content from Parameterized TransformationsMostofa Rafid Uddin, Gregory Howe, Xiangrui Zeng, Min Xu 0009. 20614-20623 [doi]

Cross-modal Clinical Graph Transformer for Ophthalmic Report GenerationMingjie Li, Wenjia Cai, Karin Verspoor, Shirui Pan, Xiaodan Liang, Xiaojun Chang. 20624-20633 [doi]

BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active AnnotationWenqiao Zhang, Lei Zhu, James Hallinan, Shengyu Zhang, Andrew Makmur, Qingpeng Cai, Beng Chin Ooi. 20634-20644 [doi]

Incremental Cross-view Mutual Distillation for Self-supervised Medical CT SynthesisChaowei Fang, Liang Wang, Dingwen Zhang, Jun Xu, Yixuan Yuan, Junwei Han. 20645-20654 [doi]

Towards Low-Cost and Efficient Malaria DetectionWaqas Sultani, Wajahat Nawaz, Syed Javed, Muhammad Sohail Danish, Asma Saadia, Mohsen Ali. 20655-20664 [doi]

ACPL: Anti-curriculum Pseudo-labelling for Semi-supervised Medical Image ClassificationFengbei Liu, Yu Tian, Yuanhong Chen, Yuyuan Liu, Vasileios Belagiannis, Gustavo Carneiro. 20665-20674 [doi]

Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal ClassificationZongbo Han, Fan Yang, JunZhou Huang, Changqing Zhang, Jianhua Yao 0001. 20675-20685 [doi]

M3T: three-dimensional Medical image classifier using Multi-plane and Multi-slice TransformerJinseong Jang, Dosik Hwang. 20686-20697 [doi]

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image AnalysisYucheng Tang, Dong Yang, Wenqi Li 0001, Holger R. Roth, Bennett A. Landman, Daguang Xu, Vishwesh Nath, Ali Hatamizadeh. 20698-20708 [doi]

HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNetCheng Peng, Andriy Myronenko, Ali Hatamizadeh, Vishwesh Nath, Md Mahfuzur Rahman Siddiquee, Yufan He, Daguang Xu, Rama Chellappa, Dong Yang. 20709-20719 [doi]

DArch: Dental Arch Prior-assisted 3D Tooth Instance Segmentation with Weak AnnotationsLiangdong Qiu, Chongjie Ye, Pei Chen, Yunbi Liu, Xiaoguang Han 0001, Shuguang Cui. 20720-20729 [doi]

Clean Implicit 3D Structure from Noisy 2D STEM ImagesHannah Kniesel, Timo Ropinski, Tim Bergner, Kavitha Shaga Devan, Clarissa Read, Paul Walther, Tobias Ritschel 0001, Pedro Hermosilla. 20730-20740 [doi]

Vox2Cortex: Fast Explicit Reconstruction of Cortical Surfaces from 3D MRI Scans with Geometric Deep Neural NetworksFabian Bongratz, Anne-Marie Rickmann, Sebastian Pölsterl, Christian Wachinger. 20741-20751 [doi]

Aladdin: Joint Atlas Building and Diffeomorphic Registration Learning with Pairwise AlignmentZhipeng Ding, Marc Niethammer. 20752-20761 [doi]

Learning Optimal K-space Acquisition and Reconstruction using Physics-Informed Neural NetworksWei Peng, Li Feng, Guoying Zhao, Fang Liu. 20762-20771 [doi]

NODEO: A Neural Ordinary Differential Equation Based Optimization Framework for Deformable Image RegistrationYifan Wu, Tom Z. Jiahao, Jiancong Wang, Paul A. Yushkevich, M. Ani Hsieh, James C. Gee. 20772-20781 [doi]

SMPL-A: Modeling Person-Specific Deformable AnatomyHengtao Guo, Benjamin Planche, Meng Zheng, Srikrishna Karanam, Terrence Chen, Ziyan Wu. 20782-20791 [doi]

DiRA: Discriminative, Restorative, and Adversarial Learning for Self-supervised Medical Image AnalysisFatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Michael B. Gotway, Jianming Liang. 20792-20802 [doi]

Affine Medical Image Registration with Coarse-to-Fine Vision TransformerTony C. W. Mok, Albert C. S. Chung. 20803-20812 [doi]

Topology-Preserving Shape Reconstruction and Registration via Neural Diffeomorphic FlowShanlin Sun, Kun Han, Deying Kong, Hao Tang, Xiangyi Yan, Xiaohui Xie. 20813-20823 [doi]

Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual NormalizationZiqi Zhou, Lei Qi 0001, Xin Yang 0009, Dong Ni 0001, Yinghuan Shi. 20824-20833 [doi]

Closing the Generalization Gap of Cross-silo Federated Medical Image Segmentationan Xu, Wenqi Li 0001, Pengfei Guo, Dong Yang, Holger Roth, Ali Hatamizadeh, Can Zhao, Daguang Xu, Heng Huang, Ziyue Xu 0001. 20834-20843 [doi]

FIBA: Frequency-Injection based Backdoor Attack in Medical Image AnalysisYu Feng, Benteng Ma, Jing Zhang, Shanshan Zhao, Yong Xia, Dacheng Tao. 20844-20853 [doi]

Surpassing the Human Accuracy: Detecting Gallbladder Cancer from USG Images with Curriculum LearningSoumen Basu, Mayank Gupta, Pratyaksha Rana, Pankaj Gupta, Chetan Arora 0001. 20854-20864 [doi]

CellTypeGraph: A New Geometric Computer Vision BenchmarkLorenzo Cerrone, Athul Vijayan, Tejasvinee Mody, Kay Schneitz, Fred A. Hamprecht. 20865-20875 [doi]

ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with GeneticsAiham Taleb, Matthias Kirchler, Remo Monti, Christoph Lippert. 20876-20889 [doi]

FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in VideosYan Wang 0068, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei Zhang 0016, Weifeng Ge, Wenqiang Zhang. 20890-20899 [doi]

Multi-Dimensional, Nuanced and Subjective - Measuring the Perception of Facial ExpressionsDe'Aira Bryant, Siqi Deng, Nashlie Sephus, Wei Xia, Pietro Perona. 20900-20909 [doi]

DAD-3DHeads: A Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single ImageTetiana Martyniuk, Orest Kupyn, Yana Kurlyak, Igor Krashenyi, Jiri Matas, Viktoriia Sharmanska. 20910-20920 [doi]

OakInk: A Large-scale Knowledge Repository for Understanding Hand-Object InteractionLixin Yang, Kailin Li, Xinyu Zhan 0001, Fei Wu, Anran Xu, Liu Liu 0012, Cewu Lu. 20921-20930 [doi]

PoseTrack21: A Dataset for Person Search, Multi-Object Tracking and Multi-Person Pose TrackingAndreas Doering, Di Chen, Shanshan Zhang, Bernt Schiele, Juergen Gall. 20931-20940 [doi]

Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-IdentificationXinyu Lin, Jinxing Li, Zeyu Ma, Huafeng Li, Shuang Li, Kaixiong Xu, Guangming Lu, David Zhang 0001. 20941-20950 [doi]

JRDB-Act: A Large-scale Dataset for Spatio-temporal Action, Social Group and Activity DetectionMahsa Ehsanpour, Fatemeh Sadat Saleh, Silvio Savarese, Ian D. Reid 0001, Hamid Rezatofighi. 20951-20960 [doi]

DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse MotionPeize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo 0002. 20961-20970 [doi]

Egocentric Prediction of Action Target in 3DYiming Li 0003, Ziang Cao, Andrew Liang, Benjamin Liang, Luoyao Chen, Hang Zhao, Chen Feng 0002. 20971-20980 [doi]

HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object InteractionYunze Liu, Yun Liu, Che Jiang, Kangbo Lyu, Weikang Wan, Hao Shen, Boqiang Liang, Zhoujie Fu, He Wang, Li Yi. 20981-20990 [doi]

Amodal Panoptic SegmentationRohit Mohan, Abhinav Valada. 20991-21000 [doi]

Large-scale Video Panoptic Segmentation in the Wild: A BenchmarkJiaxu Miao, Xiaohan Wang, Yu Wu, Wei Li, Xu Zhang, Yunchao Wei, Yi Yang. 21001-21011 [doi]

YouMVOS: An Actor-centric Multi-shot Video Object Segmentation DatasetDonglai Wei 0001, Siddhant Kharbanda, Sarthak Arora, Roshan Roy, Nishant Jain, Akash Palrecha, Tanav Shah, Shray Mathur, Ritik Mathur, Abhijay Kemkar, Anirudh Srinivasan Chakravarthy, Zudi Lin, Won-Dong Jang, Yansong Tang, Song Bai, James Tompkin, Philip H. S. Torr, Hanspeter Pfister. 21012-21021 [doi]

The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video InpaintingRyan Szeto, Jason J. Corso. 21022-21031 [doi]

3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short VideosVikram Gupta, Trisha Mittal, Puneet Mathur, Vaibhav Mishra, Mayank Maheshwari, Aniket Bera, Debdoot Mukherjee, Dinesh Manocha. 21032-21043 [doi]

AxIoU: An Axiomatically Justified Measure for Video Moment RetrievalRiku Togashi, Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Tetsuya Sakai. 21044-21053 [doi]

A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for Segment-level Video Copy DetectionSifeng He, Xudong Yang, Chen Jiang, Gang Liang, Wei Zhang, Tan Pan, Qing Wang, Furong Xu, Chunguang Li, Jingxiong Liu, Hui Xu, Kaiming Huang, Yuan Cheng, Feng Qian, Xiaobo Zhang, Lei Yang. 21054-21063 [doi]

Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural ActivitiesFadime Sener, Dibyadip Chatterjee, Daniel Shelepov, Kun He, Dipika Singhania, Robert Wang, Angela Yao. 21064-21074 [doi]

Optimal Correction Cost for Object Detection EvaluationMayu Otani, Riku Togashi, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Shin'ichi Satoh 0003. 21075-21083 [doi]

GrainSpace: A Large-scale Dataset for Fine-grained and Domain-adaptive Recognition of Cereal GrainsLei Fan, Yiwen Ding, Dongdong Fan, Donglin Di, Maurice Pagnucco, Yang Song 0001. 21084-21093 [doi]

ABO: Dataset and Benchmarks for Real-World 3D Object UnderstandingJasmine Collins, Shubham Goel 0001, Kenan Deng, Achleshwar Luthra, Leon Xu, Erhan Gundogdu, Xi Zhang, Tomas F. Yago Vicente, Thomas Dideriksen, Himanshu Arora, Matthieu Guillaumin, Jitendra Malik. 21094-21104 [doi]

Improving Segmentation of the Inferior Alveolar Nerve through Deep Label PropagationMarco Cipriano, Stefano Allegretti, Federico Bolelli, Federico Pollastri, Costantino Grana. 21105-21114 [doi]

ZeroWaste Dataset: Towards Deformable Object Segmentation in Cluttered ScenesDina Bashkirova, Mohamed Abdelfattah, Ziliang Zhu, James Akl, Fadi M. Alladkani, Ping Hu, Vitaly Ablavsky, Berk Çalli, Sarah Adel Bargal, Kate Saenko. 21115-21125 [doi]

DynamicEarthNet: Daily Multi-Spectral Satellite Dataset for Semantic Change SegmentationAysim Toker, Lukas Kondmann, Mark Weber, Marvin Eisenberger, Andrés Camero, Jingliang Hu, Ariadna Pregel Hoderlein, Çaglar Senaras, Timothy Davis, Daniel Cremers, Giovanni Marchisio, Xiao Xiang Zhu, Laura Leal-Taixé. 21126-21135 [doi]

Open Challenges in Deep Stereo: the Booster DatasetPierluigi Zama Ramirez, Fabio Tosi, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi di Stefano. 21136-21146 [doi]

No-Reference Point Cloud Quality Assessment via Domain AdaptationQi Yang, Yipeng Liu, Siheng Chen, Yiling Xu, Jun Sun 0005. 21147-21156 [doi]

Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression NetworkRenshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. 21157-21167 [doi]

How Good Is Aesthetic Ability of a Fashion Model?Xingxing Zou, Kaicheng Pang, Wen Zhang, Waikeung Wong. 21168-21177 [doi]

Instance-wise Occlusion and Depth Orders in Natural ScenesHyunmin Lee, Jaesik Park. 21178-21189 [doi]

PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation with Photometrically Challenging ObjectsPengyuan Wang, Hyunjun Jung, Yitong Li, Siyuan Shen, Rahul Parthasarathy Srikanth, Lorenzo Garattoni, Sven Meier, Nassir Navab, Benjamin Busam. 21190-21199 [doi]

Replacing Labeled Real-image Datasets with Auto-generated ContoursHirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue, Rio Yokota. 21200-21209 [doi]

V2C: Visual Voice CloningQi Chen, Mingkui Tan, Yuankai Qi, Jiaqiu Zhou, Yuanqing Li, Qi Wu. 21210-21219 [doi]

M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal PretrainingXiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Michael C. Kampffmeyer, Xiaoyong Wei, Minlong Lu, Yaowei Wang, Xiaodan Liang. 21220-21230 [doi]

It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data CollectionYoussef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny. 21231-21240 [doi]

From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-AnsweringJiangtong Li, Li Niu 0002, Liqing Zhang 0001. 21241-21250 [doi]

Point Cloud Pre-training with Natural 3D StructuresRyosuke Yamada, Hirokatsu Kataoka, Naoya Chiba, Yukiyasu Domae, Tetsuya Ogata. 21251-21261 [doi]

The Auto Arborist Dataset: A Large-Scale Benchmark for Multiview Urban Forest Monitoring Under Domain ShiftSara Beery, Guanhang Wu, Trevor Edwards, Filip Pavetic, Bo Majewski, Shreyasee Mukherjee, Stanley Chan, John Morgan, Vivek Rathod, Jonathan Huang. 21262-21275 [doi]

AutoMine: An Unmanned Mine DatasetYuchen Li, Zixuan Li, Siyu Teng, Yu Zhang, Yuhang Zhou, Yuchang Zhu, Dongpu Cao, Bin Tian 0003, Yunfeng Ai, Zhe XuanYuan, Long Chen 0005. 21276-21285 [doi]

SmartPortraits: Depth Powered Handheld Smartphone Dataset of Human Portraits for State Estimation, Reconstruction and SynthesisAnastasiia Kornilova, Marsel Faizullin, Konstantin Pakulev, Andrey Sadkov, Denis Kukushkin, Azat Akhmetyanov, Timur Akhtyamov, Hekmat Taherinejad, Gonzalo Ferrer. 21286-21297 [doi]

BigDatasetGAN: Synthesizing ImageNet with Pixel-wise AnnotationsDaiqing Li, Huan Ling, Seung Wook Kim, Karsten Kreis, Sanja Fidler, Antonio Torralba 0001. 21298-21308 [doi]

Rope3D: The Roadside Perception Dataset for Autonomous Driving and Monocular 3D Object Detection TaskXiaoqing Ye, Mao Shu, Hanyu Li, Yifeng Shi, Yingying Li, Guangjie Wang, Xiao Tan 0001, Errui Ding. 21309-21318 [doi]

Unifying Panoptic Segmentation for Autonomous DrivingOliver Zendel, Matthias Schörghuber, Bernhard Rainer, Markus Murschitz, Csaba Beleznai. 21319-21328 [doi]

DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative 3D Object DetectionHaibao Yu, Yizhen Luo, Mao Shu, Yiyi Huo, Zebang Yang, Yifeng Shi, Zhenglong Guo, Hanyu Li, Xing Hu, Jirui Yuan, Zaiqing Nie. 21329-21338 [doi]

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain AdaptationTao Sun, Mattia Segù, Janis Postels, Yuxuan Wang, Luc Van Gool, Bernt Schiele, Federico Tombari, Fisher Yu. 21339-21350 [doi]

Ithaca365: Dataset and Driving Perception under Repeated and Challenging Weather ConditionsCarlos Andres Diaz-Ruiz, Youya Xia, Yurong You, Jose Nino, Junan Chen, Josephine Monica, Xiangyu Chen, Katie Luo, Yan Wang, Marc Emond, Wei-Lun Chao, Bharath Hariharan, Kilian Q. Weinberger, Mark E. Campbell. 21351-21360 [doi]

SCENIC: A JAX Library for Computer Vision Research and BeyondMostafa Dehghani 0001, Alexey A. Gritsenko, Anurag Arnab, Matthias Minderer, Yi Tay. 21361-21366 [doi]

DeepLIIF: An Online Platform for Quantification of Clinical Pathology SlidesParmida Ghahremani, Joseph Marino, Ricardo Dodds, Saad Nadeem. 21367-21373 [doi]

VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language TransformersEstelle Aflalo, Meng Du, Shao-Yen Tseng, Yongfei Liu, Chenfei Wu, Nan Duan, Vasudev Lal. 21374-21383 [doi]

GeoEngine: A Platform for Production-Ready Geospatial ResearchSagar Verma, Siddharth Gupta, Hal Shin, Akash Panigrahi, Shubham Goswami, Shweta Pardeshi, Natanael Exe, Ujwal Dutta, Tanka Raj Joshi, Nitin Bhojwani. 21384-21392 [doi]

Talking Face Generation with Multilingual TTSHyoung-Kyu Song, Sang Hoon Woo, Junhyeok Lee, Seungmin Yang, Hyunjae Cho, Youseong Lee, Dongho Choi, Kang-Wook Kim. 21393-21398 [doi]

Real-Time, Accurate, and Consistent Video Semantic Segmentation via Unsupervised Adaptation and Cross-Unit Deployment on Mobile DeviceHyojin Park, Alan Yessenbayev, Tushar Singhal, Navin Kumar Adhikari, Yizhe Zhang, Shubhankar Mangesh Borse, Hong Cai, Frank Mayer, Balaji Calidas, Nilesh Prasad Pandey, Fei Yin, Fatih Porikli. 21399-21406 [doi]

BigDL 2.0: Seamless Scaling of AI Pipelines from Laptops to Distributed ClusterJason Jinquan Dai, Ding Ding, Dongjie Shi, Shengsheng Huang, Jiao Wang, Xin Qiu, Kai Huang, Guoqiong Song, Yang Wang, Qiyuan Gong, Jiaming Song, Shan Yu, Le Zheng, Yina Chen, Junwei Deng, Ge Song. 21407-21414 [doi]

Interactive Segmentation and Visualization for Tiny Objects in Multi-megapixel ImagesChengyuan Xu, Boning Dong, Noah Stier, Curtis McCully, D. Andrew Howell, Pradeep Sen, Tobias Höllerer. 21415-21420 [doi]

A Low-cost & Realtime Motion Capture SystemAnargyros Chatzitofis, Georgios Albanis, Nikolaos Zioulis, Spyridon Thermos. 21421-21426 [doi]

PyMiceTracking: An Open-Source Toolbox For Real-Time Behavioral Neuroscience ExperimentsRichardson Santiago Teles de Menezes, Aron de Miranda, Helton Maia Peixoto. 21427-21433 [doi]

Effective conditioned and composed image retrieval combining CLIP-based featuresAlberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto Del Bimbo. 21434-21442 [doi]

VIsCUIT: Visual Auditor for Bias in CNN Image ClassifierSeongmin Lee 0007, Judy Hoffman, Zijie J. Wang, Duen Horng Chau. 21443-21451 [doi]

DetectorDetective: Investigating the Effects of Adversarial Examples on Object DetectorsSivapriya Vellaichamy, Matthew Hull, Zijie J. Wang, Nilaksh Das, Sheng-Yun Peng, Haekyu Park, Duen Horng (Polo) Chau. 21452-21459 [doi]

V-Doc : Visual questions answers with DocumentsYihao Ding, Zhe Huang, Runlin Wang, Yanhang Zhang, Xianru Chen, Yuzhong Ma, Hyunsuk Chung, Soyeon Caren Han. 21460-21466 [doi]

Clustering Plotted Data by Image SegmentationTarek Naous, Srinjay Sarkar, Abubakar Abid, James Zou 0001. 21467-21472 [doi]

Spatial-Temporal Parallel Transformer for Arm-Hand Dynamic EstimationShuying Liu, Wenbin Wu, Jiaxian Wu, Yue Lin. 24091-24100 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022

Abstract

Table of Contents