IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023. IEEE, 2023. [doi]

Conference: cvpr2023

Abstract is missing.

Megahertz Light Steering Without Moving PartsAdithya Pediredla, Srinivasa G. Narasimhan, Maysamreza Chamanzar, Ioannis Gkioulekas. 1-12 [doi]

Affordances from Human Videos as a Versatile Representation for RoboticsShikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak. 1-13 [doi]

RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression ComprehensionLei Jin, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji. 1-10 [doi]

Robust Dynamic Radiance FieldsYu-Lun Liu 0001, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim 0001, Yung-Yu Chuang, Johannes Kopf 0001, Jia-Bin Huang 0001. 13-23 [doi]

DBARF: Deep Bundle-Adjusting Generalizable Neural Radiance FieldsYu Chen, Gim Hee Lee. 24-34 [doi]

VDN-NeRF: Resolving Shape-Radiance Ambiguity via View-Dependence NormalizationBingfan Zhu, Yanchao Yang 0001, Xulong Wang, Youyi Zheng, Leonidas J. Guibas. 35-45 [doi]

AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware TrainingYifan Jiang 0001, Peter Hedman, Ben Mildenhall, Dejia Xu, Jonathan T. Barron, Zhangyang Wang, Tianfan Xue. 46-55 [doi]

SeaThru-NeRF: Neural Radiance Fields in Scattering MediaDeborah Levy, Amit Peleg, Naama Pearl, Dan Rosenbaum, Derya Akkaynak, Simon Korman, Tali Treibitz. 56-65 [doi]

Exact-NeRF: An Exploration of a Precise Volumetric Parameterization for Neural Radiance FieldsBrian K. S. Isaac-Medina, Chris G. Willcocks, Toby P. Breckon. 66-75 [doi]

Neural Residual Radiance Fields for Streamably Free-Viewpoint VideosLiao Wang, Qiang Hu, Qihan He, Ziyu Wang, Jingyi Yu, Tinne Tuytelaars, Lan Xu, Minye Wu. 76-87 [doi]

Plen-VDB: Memory Efficient VDB-Based Radiance Fields for Fast Training and RenderingHan Yan, Celong Liu, Chao Ma, Xing Mei. 88-96 [doi]

Local Implicit Ray Function for Generalizable Radiance Field RepresentationXin Huang, Qi Zhang, Ying Feng, Xiaoyu Li, Xuan Wang, Qing Wang. 97-107 [doi]

SurfelNeRF: Neural Surfel Radiance Fields for Online Photorealistic Reconstruction of Indoor ScenesYiming Gao 0007, Yan-Pei Cao, Ying Shan. 108-118 [doi]

Frequency-Modulated Point Cloud Rendering with Easy EditingYi Zhang, Xiaoyang Huang, Bingbing Ni, Wenjun Zhang, Teng Li. 119-129 [doi]

HexPlane: A Fast Representation for Dynamic ScenesAng Cao, Justin Johnson 0001. 130-141 [doi]

Differentiable Shadow Mapping for Efficient Inverse GraphicsMarkus Worchel, Marc Alexa. 142-153 [doi]

Hybrid Neural Rendering for Large-Scale Scenes with Motion BlurPeng Dai, Yinda Zhang 0001, Xin Yu 0004, Xiaoyang Lyu, Xiaojuan Qi. 154-164 [doi]

TensoIR: Tensorial Inverse RenderingHaian Jin, Isabella Liu, Peijia Xu, Xiaoshuai Zhang, Songfang Han, Sai Bi, Xiaowei Zhou, Zexiang Xu, Hao Su 0001. 165-174 [doi]

ShadowNeuS: Neural SDF Reconstruction by Shadow Ray SupervisionJingwang Ling, Zhibo Wang 0003, Feng Xu 0005. 175-185 [doi]

Realistic Saliency Guided Image EnhancementS. Mahdi H. Miangoleh, Zoya Bylinskii, Eric Kee, Eli Shechtman, Yagiz Aksoy. 186-194 [doi]

LightPainter: Interactive Portrait Relighting with Freehand ScribbleYiqun Mei, He Zhang, Xuaner Zhang, Jianming Zhang, Zhixin Shu, Yilin Wang, Zijun Wei, Shi Yan, Hyunjoon Jung, Vishal M. Patel 0001. 195-205 [doi]

A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and ReflectanceXianmin Xu, Yuxin Lin, Haoyang Zhou, Chong Zeng, Yaxin Yu, Kun Zhou 0001, Hongzhi Wu. 206-215 [doi]

Learning Visibility Field for Detailed 3D Human Reconstruction and RelightingRuichen Zheng, Peng Li, Haoqian Wang, Tao Yu. 216-226 [doi]

Unsupervised Contour Tracking of Live Cells by Mechanical and Cycle Consistency LossesJunbong Jang, Kwonmoo Lee, Tae-Kyun Kim. 227-236 [doi]

NeUDF: Leaning Neural Unsigned Distance Fields with Volume RenderingYu-Tao Liu, Li Wang, Jie Yang, Weikai Chen 0001, Xiaoxu Meng, Bo Yang, Lin Gao. 237-247 [doi]

NeAT: Learning Neural Implicit Surfaces with Arbitrary Topologies from Multi-View ImagesXiaoxu Meng, Weikai Chen 0001, Bo Yang. 248-258 [doi]

ALTO: Alternating Latent Topologies for Implicit 3D ReconstructionZhen Wang, Shijie Zhou, Jeong-Joon Park, Despoina Paschalidou, Suya You, Gordon Wetzstein, Leonidas J. Guibas, Achuta Kadambi. 259-270 [doi]

Controllable Mesh Generation Through Sparse Latent Point Diffusion ModelsZhaoyang Lyu, Jinyi Wang, Yuwei An, Ya Zhang, Dahua Lin, Bo Dai 0002. 271-280 [doi]

Photo Pre-Training, But for SketchKe Li 0004, Kaiyue Pang, Yi-Zhe Song. 275-285 [doi]

Power Bundle Adjustment for Large-Scale 3D ReconstructionSimon Weber 0002, Nikolaus Demmel, Tin Chon Chan, Daniel Cremers. 281-289 [doi]

Neural Pixel Composition for 3D-4D View Synthesis from Multi-ViewsAayush Bansal, Michael Zollhöfer. 290-299 [doi]

Magic3D: High-Resolution Text-to-3D Content CreationChen-Hsuan Lin, Jun Gao 0004, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu 0001, Tsung-Yi Lin. 300-309 [doi]

3D Video Loops from Asynchronous InputLi Ma, Xiaoyu Li, Jing Liao 0001, Pedro V. Sander. 310-320 [doi]

High-fidelity 3D GAN Inversion by Pseudo-multi-view OptimizationJiaxin Xie, Hao Ouyang, Jingtan Piao, Chenyang Lei, Qifeng Chen. 321-331 [doi]

Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance FieldLeheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Yingcong Chen. 332-341 [doi]

3D GAN Inversion with Facial Symmetry PriorFei Yin, Yong Zhang 0034, Xuan Wang, Tengfei Wang 0002, Xiaoyu Li, Yuan Gong, Yanbo Fan, Xiaodong Cun, Ying Shan, Cengiz Öztireli, Yujiu Yang. 342-351 [doi]

StyleIPSB: Identity-Preserving Semantic Basis of StyleGAN for High Fidelity Face SwappingDiqiong Jiang, Dan Song, Ruofeng Tong 0001, Min Tang 0001. 352-361 [doi]

FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face ReconstructionHaoran Bai, Di Kang, Haoxian Zhang, Jinshan Pan, Linchao Bao. 362-371 [doi]

Robust Model-based Face Reconstruction through Weakly-Supervised Outlier SegmentationChunlu Li, Andreas Morel-Forster, Thomas Vetter, Bernhard Egger, Adam Kortylewski. 372-381 [doi]

Learning Neural Proto-Face Field for Disentangled 3D Face Modeling in the WildZhenyu Zhang 0005, Renwang Chen, Weijian Cao, Ying Tai, Chengjie Wang. 382-393 [doi]

A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild ImagesBiwen Lei, Jianqiang Ren, Mengyang Feng, Miaomiao Cui, Xuansong Xie. 394-403 [doi]

BlendFields: Few-Shot Example-Driven Facial ModelingKacper Kania, Stephan J. Garbin, Andrea Tagliasacchi, Virginia Estellers, Kwang Moo Yi, Julien Valentin, Tomasz Trzcinski, Marek Kowalski. 404-415 [doi]

Implicit Neural Head Synthesis via Controllable Local Deformation FieldsChuhan Chen, Matthew O'Toole, Gaurav Bharaj, Pablo Garrido 0001. 416-426 [doi]

DPE: Disentanglement of Pose and Expression for General Video Portrait EditingYouxin Pang, Yong Zhang, Weize Quan, Yanbo Fan, Xiaodong Cun, Ying Shan, Dong-Ming Yan 0001. 427-436 [doi]

GANHead: Towards Generative Animatable Neural Head AvatarsSijing Wu, Yichao Yan, Yunhao Li, Yuhao Cheng, Wenhan Zhu, Ke Gao, Xiaobo Li, Guangtao Zhai. 437-447 [doi]

EDGE: Editable Dance Generation From MusicJonathan Tseng, Rodrigo Castellon, C. Karen Liu. 448-458 [doi]

Unsupervised Volumetric AnimationAliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Kyle Olszewski, Jian Ren, Hsin-Ying Lee, Menglei Chai, Sergey Tulyakov. 458-469 [doi]

Blowing in the Wind: CycleNet for Human Cinemagraphs from Still ImagesHugo Bertiche, Niloy J. Mitra, Kuldeep Kulkarni, Chun-Hao Paul Huang, Tuanfeng Y. Wang, Meysam Madadi, Sergio Escalera, Duygu Ceylan. 459-468 [doi]

Generating Holistic 3D Human Motion from SpeechHongwei Yi, Hualin Liang, YiFei Liu, Qiong Cao, YanDong Wen, Timo Bolkart, Dacheng Tao, Michael J. Black. 469-480 [doi]

Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion ModelYuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali K. Thabet, Artsiom Sanakoyeu. 481-490 [doi]

Learning Anchor Transformations for 3D Garment AnimationFang Zhao, Zekun Li, Shaoli Huang, Junwu Weng, Tianfei Zhou, Guo-Sen Xie, Jue Wang, Ying Shan. 491-500 [doi]

CloSET: Modeling Clothed Humans on Continuous Surface with Explicit Template DecompositionHongwen Zhang 0001, Siyou Lin, Ruizhi Shao, Yuxiang Zhang 0006, Zerong Zheng, Han Huang, Yandong Guo, Yebin Liu. 501-511 [doi]

ECON: Explicit Clothed humans Optimized via Normal integrationYuliang Xiu, Jinlong Yang, Xu Cao, Dimitrios Tzionas, Michael J. Black. 512-523 [doi]

PersonNeRF : Personalized Reconstruction from Photo CollectionsChung-Yi Weng, Pratul P. Srinivasan, Brian Curless, Ira Kemelmacher-Shlizerman. 524-533 [doi]

3D Human Mesh Estimation from Virtual MarkersXiaoxuan Ma, Jiajun Su, Chunyu Wang, Wentao Zhu, Yizhou Wang 0001. 534-543 [doi]

Overcoming the TradeOff between Accuracy and Plausibility in 3D Hand Shape ReconstructionZiwei Yu, Chen Li 0038, Linlin Yang, Xiaoxu Zheng, Michael Bi Mi, Gim Hee Lee, Angela Yao. 544-553 [doi]

Recovering 3D Hand Mesh Sequence from a Single Blurry Image: A New Dataset and Temporal UnfoldingYeonguk Oh, Joonkyu Park, Jaeha Kim, Gyeongsik Moon, Kyoung Mu Lee. 554-563 [doi]

MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand ReconstructionCongyi Wang, Feida Zhu 0005, Shilei Wen. 564-573 [doi]

PLIKS: A Pseudo-Linear Inverse Kinematic Solver for 3D Human Body EstimationKarthik Shetty, Annette Birkhold, Srikrishna Jaganathan, Norbert Strobel, Markus Kowarschik, Andreas K. Maier, Bernhard Egger. 574-584 [doi]

CAMS: CAnonicalized Manipulation Spaces for Category-Level Functional Hand-Object Manipulation SynthesisJuntian Zheng, Qingyuan Zheng, Lixing Fang, Yun Liu, Li Yi. 585-594 [doi]

Instant-NVR: Instant Neural Volumetric Rendering for Human-object Interactions from Monocular RGBD StreamYuheng Jiang, Kaixin Yao, Zhuo Su 0006, Zhehao Shen, Haimin Luo, Lan Xu. 595-605 [doi]

BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown ObjectsBowen Wen, Jonathan Tremblay, Valts Blukis, Stephen Tyree, Thomas Müller 0013, Alex Evans, Dieter Fox, Jan Kautz, Stan Birchfield. 606-617 [doi]

Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial ScenesXuan Ju, Ailing Zeng, Jianan Wang, Qiang Xu, Lei Zhang 0001. 618-629 [doi]

Omnimatte3D: Associating Objects and Their Effects in Unconstrained Monocular VideoMohammed Suhail, Erika Lu, Zhengqi Li, Noah Snavely, Leonid Sigal, Forrester Cole. 630-639 [doi]

On the Benefits of 3D Pose and Tracking for Human Action RecognitionJathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Christoph Feichtenhofer, Jitendra Malik. 640-649 [doi]

Towards Stable Human Pose Estimation via Cross-View Fusion and Foot StabilizationLi'an Zhuo, Jian Cao, Qi Wang, Bang Zhang, Liefeng Bo. 650-659 [doi]

Human Pose as Compositional TokensZigang Geng, Chunyu Wang, Yixuan Wei, Ze Liu, Houqiang Li, Han Hu 0001. 660-671 [doi]

PoseExaminer: Automated Testing of Out-of-Distribution Robustness in Human Pose and Shape EstimationQihao Liu, Adam Kortylewski, Alan L. Yuille. 672-681 [doi]

SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in Urban EnvironmentsYudi Dai, Yitai Lin, Xiping Lin, Chenglu Wen, Lan Xu, Hongwei Yi, Siqi Shen, Yuexin Ma, Cheng Wang. 682-692 [doi]

Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction ModuleLinzhi Huang, Yulong Li, Hongbo Tian, Yue Yang, Xiangang Li, Weihong Deng, Jieping Ye. 693-703 [doi]

Human Pose Estimation in Extremely Low-Light ConditionsSohyun Lee, Jaesung Rim, Boseung Jeong, Geonu Kim, Byungju Woo, Haechan Lee, Sunghyun Cho, Suha Kwak. 704-714 [doi]

m GAN: Towards Precise 3D Dose Prediction in RadiotherapyRiqiang Gao, Bin Lou, Zhoubing Xu, Dorin Comaniciu, Ali Kamen. 715-725 [doi]

DualRefine: Self-Supervised Depth and Pose Estimation Through Iterative Epipolar Sampling and Refinement Toward EquilibriumAntyanta Bangunharcana, Ahmed Magd, Kyung Soo Kim. 726-738 [doi]

A Rotation-Translation-Decoupled Solution for Robust and Efficient Visual-Inertial InitializationYijia He, Bo Xu 0022, Zhanpeng Ouyang, Hongdong Li. 739-748 [doi]

Semidefinite Relaxations for Robust Multiview TriangulationLinus Härenstam-Nielsen, Niclas Zeller, Daniel Cremers. 749-757 [doi]

A Probabilistic Attention Model with Occlusion-aware Texture Regression for 3D Hand Reconstruction from a Single RGB ImageZheheng Jiang, Hossein Rahmani, Sue Black 0002, Bryan M. Williams 0001. 758-768 [doi]

Instant Multi-View Head Capture through Learnable RegistrationTimo Bolkart, Tianye Li, Michael J. Black. 768-779 [doi]

On the Importance of Accurate Geometry Data for Dense 3D Vision TasksHyunjun Jung, Patrick Ruhkamp, Guangyao Zhai, Nikolas Brasch, Yitong Li, Yannick Verdie, Jifei Song, Yiren Zhou, Anil Armagan, Slobodan Ilic, Ales Leonardis, Nassir Navab, Benjamin Busam. 780-791 [doi]

Learning 3D Scene Priors with 2D SupervisionYinyu Nie, Angela Dai, Xiaoguang Han 0001, Matthias Nießner. 792-802 [doi]

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and GenerationTong Wu, Jiarui Zhang, Xiao Fu, Yuxin Wang, Jiawei Ren, Liang Pan, Wayne Wu, Lei Yang, Jiaqi Wang, Chen Qian, Dahua Lin, Ziwei Liu. 803-814 [doi]

OpenScene: 3D Scene Understanding with Open VocabulariesSongyou Peng, Kyle Genova, Chiyu "Max" Jiang, Andrea Tagliasacchi, Marc Pollefeys, Thomas A. Funkhouser. 815-824 [doi]

Multi-View Azimuth Stereo via Tangent Space ConsistencyXu Cao, Hiroaki Santo, Fumio Okura, Yasuyuki Matsushita. 825-834 [doi]

Progressive Transformation Learning for Leveraging Virtual Images in TrainingYi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra S. Bhattacharyya. 835-844 [doi]

Connecting the Dots: Floorplan Reconstruction Using Two-Level QueriesYuanwen Yue, Theodora Kontogianni, Konrad Schindler, Francis Engelmann. 845-854 [doi]

NeRF-Supervised Deep StereoFabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi. 855-866 [doi]

Semantic Scene Completion with Cleaner SelfFengyun Wang, Dong Zhang, Hanwang Zhang, Jinhui Tang 0001, Qianru Sun. 867-877 [doi]

PanelNet: Understanding 360 Indoor Environment via Panel RepresentationHaozheng Yu, Lu He, Bing Jian, Weiwei Feng, Shan Liu 0001. 878-887 [doi]

Implicit View-Time Interpolation of Stereo Videos Using Multi-Plane Disparities and Non-Uniform CoordinatesAvinash Paliwal, Andrii Tsarov, Nima Khademi Kalantari. 888-898 [doi]

Depth Estimation from Indoor Panoramas with Neural Scene RepresentationWenjie Chang, Yueyi Zhang, Zhiwei Xiong. 899-908 [doi]

NeuralPCI: Spatio-Temporal Neural Field for 3D Point Cloud Multi-Frame Non-Linear InterpolationZehan Zheng, Danni Wu, Ruisi Lu, Fan Lu, Guang Chen 0001, Changjun Jiang. 909-918 [doi]

RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View StereoChangjiang Cai, Pan Ji, Qingan Yan, Yi Xu. 919-928 [doi]

NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera LocalizationShitao Tang, Sicong Tang, Andrea Tagliasacchi, Ping Tan, Yasutaka Furukawa. 929-939 [doi]

MACARONS: Mapping and Coverage Anticipation with RGB Online Self-SupervisionAntoine Guédon, Tom Monnier, Pascal Monasse, Vincent Lepetit. 940-951 [doi]

vMAP: Vectorised Object Mapping for Neural Field SLAMXin Kong, Shikun Liu, Marwan Taher, Andrew J. Davison. 952-961 [doi]

Seeing a Rose in Five Thousand WaysYunzhi Zhang, Shangzhe Wu, Noah Snavely, Jiajun Wu 0001. 962-971 [doi]

Propagate and Calibrate: Real-Time Passive Non-Line-of-Sight TrackingYihao Wang, Zhigang Wang 0002, Bin Zhao 0001, Dong Wang, Mulin Chen, Xuelong Li 0001. 972-981 [doi]

Seeing With Sound: Long-Range Acoustic Beamforming for Multimodal Scene UnderstandingPraneeth Chakravarthula, Jim Aldon D'Souza, Ethan Tseng, Joe Bartusek, Felix Heide. 982-991 [doi]

Distilling Focal Knowledge from Imperfect Expert for 3D Object DetectionJia Zeng, Li Chen, Hanming Deng, Lewei Lu, Junchi Yan, Yu Qiao, Hongyang Li. 992-1001 [doi]

AShapeFormer : Semantics-Guided Object-Level Active Shape Encoding for 3D Object Detection via TransformersZechuan Li, Hongshan Yu, Zhengeng Yang, Tom Tongjia Chen, Naveed Akhtar. 1012-1021 [doi]

Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous DrivingYinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang 0001, Xiao Yang, Hang Su, Xingxing Wei, Jun Zhu. 1022-1032 [doi]

Gaussian Label Distribution Learning for Spherical Image Object DetectionHang Xu, Xinyuan Liu, Qiang Zhao 0005, Yike Ma, Chenggang Yan 0001, Feng Dai. 1033-1042 [doi]

Deep Depth Estimation from Thermal ImageUkcheol Shin, Jinsun Park, In-So Kweon. 1043-1053 [doi]

LidarGait: Benchmarking 3D Gait Recognition with Point CloudsChuanfu Shen, Fan Chao, Wei Wu 0041, Rui Wang, George Q. Huang, Shiqi Yu 0001. 1054-1063 [doi]

Generalized UAV Object Detection via Frequency Domain DisentanglementKunyu Wang, Xueyang Fu, Yukun Huang, Chengzhi Cao, Gege Shi, Zheng-Jun Zha. 1064-1073 [doi]

Learning Compact Representations for LiDAR Completion and GenerationYuwen Xiong, Wei-Chiu Ma, Jingkang Wang, Raquel Urtasun. 1074-1083 [doi]

CXTrack: Improving 3D Point Cloud Tracking with Contextual InformationTian-Xing Xu, Yuanchen Guo, Yu-Kun Lai, Song-Hai Zhang. 1084-1093 [doi]

Multispectral Video Semantic Segmentation: A Benchmark Dataset and BaselineWei Ji, Jingjing Li, Cheng Bian, Zongwei Zhou, Jiaying Zhao, Alan L. Yuille, Li Cheng 0001. 1094-1104 [doi]

LinK: Linear Kernel for LiDAR-based 3D PerceptionTao Lu, Xiang Ding, Haisong Liu, Gangshan Wu, Limin Wang. 1105-1115 [doi]

Point Cloud Forecasting as a Proxy for 4D Occupancy ForecastingTarasha Khurana, Peiyun Hu, David Held, Deva Ramanan. 1116-1124 [doi]

Curricular Object Manipulation in LiDAR-based Object DetectionZiyue Zhu, Qiang Meng, Xiao Wang, Ke Wang, Liujiang Yan, Jian Yang. 1125-1135 [doi]

Delivering Arbitrary-Modal Semantic SegmentationJiaming Zhang 0001, Ruiping Liu, Hao Shi, Kailun Yang 0001, Simon Reiß, Kunyu Peng, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen. 1136-1147 [doi]

Robust Outlier Rejection for 3D Registration with Variational BayesHaobo Jiang, Zheng Dang, Zhen Wei, Jin Xie, Jian Yang, Mathieu Salzmann. 1148-1157 [doi]

3D Human Keypoints Estimation from Point Clouds in the Wild without Human LabelsZhenzhen Weng, Alexander S. Gorban, Jingwei Ji, Mahyar Najibi, Yin Zhou, Dragomir Anguelov. 1158-1167 [doi]

Self-Supervised Pre-Training with Masked Shape Prediction for 3D Scene UnderstandingLi Jiang, Zetong Yang, Shaoshuai Shi, Vladislav Golyanik, Dengxin Dai, Bernt Schiele. 1168-1178 [doi]

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D UnderstandingLe Xue, Mingfei Gao, Chen Xing, Roberto Martín-Martín, Jiajun Wu 0001, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese. 1179-1189 [doi]

Open-Vocabulary Point-Cloud Object Detection without 3D AnnotationYuheng Lu, Chenfeng Xu, Xiaobao Wei, Xiaodong Xie, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang. 1190-1199 [doi]

FlatFormer: Flattened Window Attention for Efficient Point Cloud TransformerZhijian Liu, Xinyu Yang, Haotian Tang, Shang Yang, Song Han 0003. 1200-1211 [doi]

PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud VideosZhiqiang Shen, Xiaoxiao Sheng, Longguang Wang, Yulan Guo, Qiong Liu, Xi Zhou. 1212-1222 [doi]

E2PN: Efficient SE(3)-Equivariant Point NetworkMinghan Zhu, Maani Ghaffari, William A. Clark, Huei Peng. 1223-1232 [doi]

Poly-PC: A Polyhedral Network for Multiple Point Cloud Tasks at OnceTao Xie, ShiGuang Wang, Ke Wang, Linqi Yang, Zhiqiang Jiang, Xingcheng Zhang, Kun Dai, Ruifeng Li, Jian Cheng. 1233-1243 [doi]

Improving Graph Representation for Point Cloud Segmentation via Attentive FilteringNan Zhang, Zhiyi Pan, Thomas H. Li, Wei Gao 0003, Ge Li 0002. 1244-1254 [doi]

BUFFER: Balancing Accuracy, Efficiency, and Generalizability in Point Cloud RegistrationSheng Ao, Qingyong Hu, Hanyun Wang, Kai Xu 0004, Yulan Guo. 1255-1264 [doi]

TopDiG: Class-agnostic Topological Directional Graph Extraction from Remote Sensing ImagesBingnan Yang, Mi Zhang 0004, Zhan Zhang, Zhili Zhang, Xiangyun Hu. 1265-1274 [doi]

Recognizing Rigid Patterns of Unlabeled Point Clouds by Complete and Continuous Isometry Invariants with no False Negatives and no False PositivesDaniel Widdowson, Vitaliy Kurlin. 1275-1284 [doi]

Both Style and Distortion Matter: Dual-Path Unsupervised Domain Adaptation for Panoramic Semantic SegmentationXu Zheng, Jinjing Zhu, Yexin Liu, Zidong Cao, Chong Fu, Lin Wang. 1285-1295 [doi]

CCuantuMM: Cycle-Consistent Quantum-Hybrid Matching of Multiple ShapesHarshil Bhatia, Edith Tretschk, Zorah Lähner, Marcel Seelbach Benkner, Michael Moeller 0001, Christian Theobalt, Vladislav Golyanik. 1296-1305 [doi]

Enhancing Deformable Local Features by Jointly Learning to Detect and Describe KeypointsGuilherme A. Potje, Felipe Cadar, André Araujo, Renato Martins, Erickson R. Nascimento. 1306-1315 [doi]

Understanding and Improving Features Learned in Deep Functional MapsSouhaib Attaiki, Maks Ovsjanikov. 1316-1326 [doi]

High-Frequency Stereo Matching NetworkHaoliang Zhao, Huizhou Zhou, Yongjun Zhang, Jie Chen, Yitong Yang, Yong Zhao 0001. 1327-1336 [doi]

Rethinking Optical Flow from Geometric Matching Consistent PerspectiveQiaole Dong, Chenjie Cao, Yanwei Fu. 1337-1347 [doi]

Efficient Robust Principal Component Analysis via Block Krylov Iteration and CUR DecompositionShun Fang, Zhengqin Xu, Shiqian Wu, Shoulie Xie. 1348-1357 [doi]

VectorFloorSeg: Two-Stream Graph Attention Network for Vectorized Roughcast Floorplan SegmentationBingchen Yang, Haiyong Jiang, Hao Pan, Jun Xiao 0005. 1358-1367 [doi]

TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous DrivingShaoheng Fang, Zi Wang, Yiqi Zhong, Junhao Ge, Siheng Chen. 1368-1378 [doi]

Implicit Occupancy Flow Fields for Perception and Prediction in Self-DrivingBen Agro, Quinlan Sykora, Sergio Casas 0002, Raquel Urtasun. 1379-1388 [doi]

UniSim: A Neural Closed-Loop Sensor SimulatorZe Yang 0003, Yun Chen 0014, Jingkang Wang, Sivabalan Manivasagam, Wei-Chiu Ma, Anqi Joyce Yang, Raquel Urtasun. 1389-1399 [doi]

FEND: A Future Enhanced Distribution-Aware Contrastive Learning Framework for Long-Tail Trajectory PredictionYuning Wang, Pu Zhang, Lei Bai 0001, Jianru Xue. 1400-1409 [doi]

EqMotion: Equivariant Multi-Agent Motion Prediction with Invariant Interaction ReasoningChenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Yu Guang Wang, Xinchao Wang, Yanfeng Wang. 1410-1420 [doi]

Lookahead Diffusion Probabilistic Models for Refining Mean EstimationGuoqiang Zhang 0003, Kenta Niwa, W. Bastiaan Kleijn. 1421-1429 [doi]

Neural Volumetric Memory for Visual Locomotion ControlRuihan Yang, Ge Yang, Xiaolong Wang 0004. 1430-1440 [doi]

Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human AttentionSounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory J. Zelinsky, Minh Hoai. 1441-1450 [doi]

DrapeNet: Garment Generation and Self-Supervised DrapingLuca De Luigi, Ren Li, Benoît Guillard, Mathieu Salzmann, Pascal Fua. 1451-1460 [doi]

Tracking Multiple Deformable Objects in Egocentric VideosMingzhen Huang, Xiaoxing Li, Jun Hu, Honghong Peng, Siwei Lyu. 1461-1471 [doi]

Good is Bad: Causality Inspired Cloth-debiasing for Cloth-changing Person Re-identificationZhengwei Yang, Meng Lin, Xian Zhong, Yu Wu, Zheng Wang 0007. 1472-1481 [doi]

Micron-BERT: BERT-Based Facial Micro-Expression RecognitionXuan-Bac Nguyen, Chi Nhan Duong, Xin Li 0005, Susan Gauch, Han-Seok Seo, Khoa Luu. 1482-1492 [doi]

MARLIN: Masked Autoencoder for facial video Representation LearnINgZhixi Cai, Shreya Ghosh 0001, Kalin Stefanov, Abhinav Dhall, Jianfei Cai 0001, Hamid Rezatofighi, Reza Haffari, Munawar Hayat. 1493-1504 [doi]

StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-Based GeneratorJiazhi Guan, Zhanwang Zhang, Hang Zhou, Tianshu Hu, Kaisiyuan Wang, Dongliang He, Haocheng Feng, Jingtuo Liu, Errui Ding, Ziwei Liu 0002, Jingdong Wang 0001. 1505-1515 [doi]

REALIMPACT: A Dataset of Impact Sound Fields for Real ObjectsSamuel Clarke, Ruohan Gao, Mason Wang, Mark Rau, Julia Xu, Jui-Hsien Wang, Doug L. James, Jiajun Wu 0001. 1516-1525 [doi]

STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action RecognitionXiaoyu Zhu, Po-Yao Huang 0001, Junwei Liang 0001, Celso M. de Melo, Alexander G. Hauptmann. 1526-1536 [doi]

Progressive Spatio-temporal Alignment for Efficient Event-based Motion EstimationXueyan Huang, Yueyi Zhang, Zhiwei Xiong. 1537-1546 [doi]

Event-Based Shape from PolarizationManasi Muglikar, Leonard Bauersfeld, Diederik Paul Moeys, Davide Scaramuzza 0001. 1547-1556 [doi]

Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-ResolutionYunfan Lu, Zipeng Wang, Minjie Liu, Hongjian Wang, Lin Wang. 1557-1567 [doi]

BiFormer: Learning Bilateral Motion Estimation via Bilateral Transformer for 4K Video Frame InterpolationJunheum Park, Jintae Kim, Chang-Su Kim 0001. 1568-1577 [doi]

A Unified Pyramid Recurrent Network for Video Frame InterpolationXin Jin, Longhai Wu, Jie Chen, Youxin Chen, Jayoon Koo, Cheul-Hee Hahm. 1578-1587 [doi]

Event-based Blurry Frame Interpolation under Blind ExposureWenming Weng, Yueyi Zhang, Zhiwei Xiong. 1588-1598 [doi]

FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical Flow EstimationXiaoyu Shi, Zhaoyang Huang, Dasong Li, Manyuan Zhang, Ka-Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li. 1599-1610 [doi]

POTTER: Pooling Attention Transformer for Efficient Human Mesh RecoveryCe Zheng, Xianpeng Liu, Guo-Jun Qi, Chen Chen 0001. 1611-1620 [doi]

Adaptive Patch Deformation for Textureless-Resilient Multi-View StereoYuesong Wang 0001, Zhaojie Zeng, Tao Guan, Wei Yang 0011, Zhuo Chen, Wenkai Liu, Luoyuan Xu, Yawei Luo. 1621-1630 [doi]

On the Difficulty of Unpaired Infrared-to-Visible Video Translation: Fine-Grained Content-Rich Patches TransferZhenjie Yu, Shuang Li 0008, Yirui Shen, Chi Harold Liu, Shuigen Wang. 1631-1640 [doi]

Thermal Spread Functions (TSF): Physics-Guided Material ClassificationAniket Dashpute, Vishwanath Saragadam, Emma Alexander, Florian Willomitzer, Aggelos K. Katsaggelos, Ashok Veeraraghavan, Oliver Cossairt. 1641-1650 [doi]

Better "CMOS" Produces Clearer Images: Learning Space-Variant Blur Estimation for Blind Image Super-ResolutionXuhai Chen, Jiangning Zhang, Chao Xu, Yabiao Wang, Chengjie Wang, Yong Liu 0007. 1651-1661 [doi]

Learning Semantic-Aware Knowledge Guidance for Low-Light Image EnhancementYuhui Wu, Chen Pan, Guoqing Wang, Yang Yang 0003, Jiwei Wei, Chongyi Li, Heng Tao Shen. 1662-1671 [doi]

CutMIB: Boosting Light Field Super-Resolution via Multi-View Image BlendingZeyu Xiao, Yutong Liu, Ruisheng Gao, Zhiwei Xiong. 1672-1682 [doi]

sRGB Real Noise Synthesizing with Neighboring Correlation-Aware Noise ModelZixuan Fu, Lanqing Guo, Bihan Wen. 1683-1691 [doi]

Masked Image Training for Generalizable Deep Image DenoisingHaoyu Chen, Jinjin Gu, Yihao Liu 0001, Salma Abdel Magid, Chao Dong, Qiong Wang, Hanspeter Pfister, Lei Zhu. 1692-1703 [doi]

DR2: Diffusion-Based Robust Degradation Remover for Blind Face RestorationZhixin Wang, Ziying Zhang, Xiaoyun Zhang, Huangjie Zheng, Mingyuan Zhou, Ya Zhang, Yanfeng Wang. 1704-1713 [doi]

Learning Distortion Invariant Representation for Image Restoration from a Causality PerspectiveXin Li, Bingchen Li, Xin Jin, Cuiling Lan, Zhibo Chen 0001. 1714-1724 [doi]

Perception-Oriented Single Image Super-Resolution using Optimal Objective EstimationSeung-Ho Park, Young-Su Moon, Nam Ik Cho. 1725-1735 [doi]

Catch Missing Details: Image Reconstruction with Frequency Augmented Variational AutoencoderXinmiao Lin, Yikang Li 0001, Jenhao Hsiao, Chiuman Ho, Yu Kong. 1736-1745 [doi]

MD-VQA: Multi-Dimensional Quality Assessment for UGC Live VideosZicheng Zhang, Wei Wu, Wei Sun 0029, Danyang Tu, Wei Lu 0021, Xiongkuo Min, Ying Chen, Guangtao Zhai. 1746-1755 [doi]

CABM: Content-Aware Bit Mapping for Single Image Super-Resolution Network with Large InputSenmao Tian, Ming Lu, Jiaming Liu, Yandong Guo, Yurong Chen 0001, Shunli Zhang. 1756-1765 [doi]

Initialization Noise in Image Gradients and Saliency MapsAnn-Christin Woerl, Jan Disselhoff, Michael Wand. 1766-1775 [doi]

Local Implicit Normalizing Flow for Arbitrary-Scale Image Super-ResolutionJie-En Yao, Li-Yuan Tsao, Yi-Chen Lo, Roy Tseng, Chia-Che Chang, Chun-Yi Lee. 1776-1785 [doi]

Deep Arbitrary-Scale Image Super-Resolution via Scale-Equivariance PursuitXiaohang Wang 0004, Xuanhong Chen, Bingbing Ni, Hang Wang, Zhengyan Tong, Yutian Liu. 1786-1795 [doi]

CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-ResolutionJiezhang Cao, Qin Wang 0013, Yongqin Xian, Yawei Li, Bingbing Ni, Zhiming Pi, Kai Zhang 0008, Yulun Zhang, Radu Timofte, Luc Van Gool. 1796-1807 [doi]

Multiplicative Fourier Level of DetailYishun Dou, Zhong Zheng, Qiaoqiao Jin, Bingbing Ni. 1808-1817 [doi]

Document Image Shadow Removal Guided by Color-Aware BackgroundLing Zhang, Yinghao He, Qing Zhang, Zheng Liu, Xiaolong Zhang 0002, Chunxia Xiao. 1818-1827 [doi]

StyleRes: Transforming the Residuals for Real Image Editing with StyleGANHamza Pehlivan, Yusuf Dalva, Aysegul Dundar. 1828-1837 [doi]

TopNet: Transformer-Based Object Placement Network for Image CompositingSijie Zhu, Zhe Lin 0001, Scott Cohen, Jason Kuen, Zhifei Zhang, Chen Chen 0001. 1838-1847 [doi]

VecFontSDF: Learning to Reconstruct and Synthesize High-Quality Vector Fonts via Signed Distance FunctionsZeqing Xia, Bojun Xiong, Zhouhui Lian. 1848-1857 [doi]

CF-Font: Content Fusion for Few-Shot Font GenerationChi Wang, Min Zhou, Tiezheng Ge, Yuning Jiang, Hujun Bao, Weiwei Xu. 1858-1867 [doi]

SIEDOB: Semantic Image Editing by Disentangling Object and BackgroundWuyang Luo, Su Yang, Xinjian Zhang, Weishan Zhang. 1868-1878 [doi]

MaskSketch: Unpaired Structure-guided Masked Image GenerationDina Bashkirova, José Lezama, Kihyuk Sohn, Kate Saenko, Irfan Essa. 1879-1889 [doi]

Text2Scene: Text-driven Indoor Scene Stylization with Part-Aware DetailsInwoo Hwang, Hyeonwoo Kim, Young Min Kim 0001. 1890-1899 [doi]

Uncovering the Disentanglement Capability in Text-to-Image Diffusion ModelsQiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu 0001, Zhe Lin, Yang Zhang 0001, Shiyu Chang. 1900-1910 [doi]

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion ModelsAjay Jain, Amber Xie, Pieter Abbeel. 1911-1920 [doi]

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image TranslationNarek Tumanyan, Michal Geyer, Shai Bagon, Tali Dekel. 1921-1930 [doi]

Multi-Concept Customization of Text-to-Image DiffusionNupur Kumari, Bingliang Zhang, Richard Zhang 0001, Eli Shechtman, Jun-Yan Zhu. 1931-1941 [doi]

Unifying Layout Generation with a Decoupled Diffusion ModelMude Hui, Zhizheng Zhang 0004, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu. 1942-1951 [doi]

BBDM: Image-to-Image Translation with Brownian Bridge Diffusion ModelsBo Li, Kaitao Xue, Bin Liu 0057, Yu-Kun Lai. 1952-1961 [doi]

Towards Practical Plug-and-Play Diffusion ModelsHyojun Go, Yunsung Lee, Jin Young Kim, Seunghyun Lee, Myeongho Jeong, Hyun Seung Lee, Seungtaek Choi. 1962-1971 [doi]

Post-Training Quantization on Diffusion ModelsYuzhang Shang, Zhihang Yuan, Bin Xie, Bingzhe Wu, Yan Yan 0002. 1972-1981 [doi]

DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits AnimationShuai Shen, Wenliang Zhao, Zibin Meng, Wanhua Li 0001, Zheng Zhu, Jie Zhou 0001, Jiwen Lu. 1982-1991 [doi]

Mask-Guided Matting in the WildKwanYong Park, Sanghyun Woo, Seoung Wug Oh, In-So Kweon, Joon-Young Lee. 1992-2001 [doi]

Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image GenerationMengqi Huang, Zhendong Mao, Quan Wang, Yongdong Zhang 0001. 2002-2011 [doi]

Compression-Aware Video Super-ResolutionYingwei Wang, Takashi Isobe, Xu Jia, Xin Tao, Huchuan Lu, Yu-Wing Tai. 2012-2021 [doi]

Neural Rate Estimator and Unsupervised Learning for Efficient Distributed Image Analytics in Split-DNN modelsNilesh A. Ahuja, Parual Datta, Bhavya Kanzariya, V. Srinivasa Somayazulu, Omesh Tickoo. 2022-2030 [doi]

DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for VideosQi Zhao, M. Salman Asif, Zhan Ma. 2031-2040 [doi]

Polynomial Implicit Neural Representations For Large Diverse DatasetsRajhans Singh, Ankita Shukla, Pavan K. Turaga. 2041-2051 [doi]

Learning Decorrelated Representations Efficiently Using Fast Fourier TransformYutaro Shigeto, Masashi Shimbo, Yuya Yoshikawa, Akikazu Takeuchi. 2052-2060 [doi]

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision TransformerXuanyao Chen, Zhijian Liu, Haotian Tang, Li Yi, Hang Zhao, Song Han. 2061-2070 [doi]

N-Gram in Swin Transformers for Efficient Lightweight Image Super-ResolutionHaram Choi, Jeongmin Lee 0003, Jihoon Yang. 2071-2081 [doi]

Slide-Transformer: Hierarchical Vision Transformer with Local Self-AttentionXuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang. 2082-2091 [doi]

Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision TransformersSiyuan Wei, Tianzhu Ye, Shen Zhang, Yao Tang, Jiajun Liang. 2092-2101 [doi]

Top-Down Visual Attention from Analysis by SynthesisBaifeng Shi, Trevor Darrell, Xin Wang. 2102-2112 [doi]

Probing Neural Representations of Scene Perception in a Hippocampally Dependent Task Using Artificial Neural NetworksMarkus Frey, Christian F. Doeller, Caswell Barry. 2113-2121 [doi]

Masked Image Modeling with Local Multi-Scale ReconstructionHaoqing Wang, Yehui Tang, Yunhe Wang 0001, Jianyuan Guo, Zhi-Hong Deng, Kai Han 0002. 2122-2131 [doi]

Siamese Image Modeling for Self-Supervised Vision Representation LearningChenxin Tao, Xizhou Zhu, Weijie Su 0002, Gao Huang, Bin Li, Jie Zhou, Yu Qiao 0006, Xiaogang Wang 0001, Jifeng Dai. 2132-2141 [doi]

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image SynthesisTianhong Li, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi, Dilip Krishnan. 2142-2152 [doi]

Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identificationYukang Zhang, Hanzi Wang. 2153-2162 [doi]

DistilPose: Tokenized Pose Regression with Heatmap DistillationSuhang Ye, Yingyi Zhang, Jie Hu, Liujuan Cao, Shengchuan Zhang, Lei Shen, Jun Wang, Shouhong Ding, Rongrong Ji. 2163-2172 [doi]

Graph Transformer GANs for Graph-Constrained House GenerationHao Tang 0005, Zhenyu Zhang 0005, Humphrey Shi, Bo Li, Ling Shao 0001, Nicu Sebe, Radu Timofte, Luc Van Gool. 2173-2182 [doi]

Automatic High Resolution Wire Segmentation and RemovalMang Tik Chiu, Xuaner Zhang, Zijun Wei, YuQian Zhou, Eli Shechtman, Connelly Barnes, Zhe Lin, Florian Kainz, Sohrab Amirghodsi, Humphrey Shi. 2183-2192 [doi]

Tree Instance Segmentation with Temporal Contour GraphAdnan Firoze, Cameron Wingren, Raymond A. Yeh, Bedrich Benes, Daniel G. Aliaga. 2193-2202 [doi]

Dual-Path Adaptation from Image to Video TransformersJungin Park, Jiyoung Lee, Kwanghoon Sohn. 2203-2213 [doi]

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video LearningA. J. Piergiovanni, Weicheng Kuo, Anelia Angelova. 2214-2224 [doi]

Modeling Video as Stochastic Processes for Fine-Grained Video Representation LearningHeng Zhang, Daqing Liu, Qi Zheng, Bing Su 0001. 2225-2234 [doi]

Masked Motion Encoding for Self-Supervised Video Representation LearningXinyu Sun, Peihao Chen, Liangwei Chen, Changhao Li, Thomas H. Li, Mingkui Tan, Chuang Gan. 2235-2245 [doi]

Boosting Video Object Segmentation via Space-Time Correspondence LearningYurong Zhang, Liulei Li, Wenguan Wang, Rong Xie, Li Song, Wenjun Zhang. 2246-2256 [doi]

Two-shot Video Object SegmentationKun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu. 2257-2267 [doi]

Look Before You Match: Instance Understanding Matters in Video Object SegmentationJunke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Chuanxin Tang, Xiyang Dai, Yucheng Zhao, Yujia Xie, Lu Yuan, Yu-Gang Jiang. 2268-2278 [doi]

Spatial-then-Temporal Self-Supervised Learning for Video CorrespondenceRui Li, Dong Liu. 2279-2288 [doi]

Few-Shot Referring Relationships in VideosYogesh Kumar, Anand Mishra 0001. 2289-2298 [doi]

Vision Transformers are Parameter-Efficient Audio-Visual LearnersYan-Bo Lin, Yi-Lin Sung, Jie Lei 0003, Mohit Bansal, Gedas Bertasius. 2299-2309 [doi]

Egocentric Video Task TranslationZihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani. 2310-2320 [doi]

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture GenerationSicheng Yang, Zhiyong Wu 0001, Minglei Li 0001, Zhensong Zhang, Lei Hao, Weihong Bao, Haolin Zhuang. 2321-2330 [doi]

Co-speech Gesture Synthesis by Reinforcement Learning with Contrastive Pretrained RewardsMingyang Sun, Mengchen Zhao, Yaqing Hou, Minglei Li 0001, Huang Xu, Songcen Xu, Jianye Hao. 2331-2340 [doi]

TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action RecognitionIshan Rajendrakumar Dave, Mamshad Nayeem Rizve, Chen Chen 0001, Mubarak Shah. 2341-2352 [doi]

How can objects help action recognition?Xingyi Zhou, Anurag Arnab, Chen Sun 0002, Cordelia Schmid. 2353-2362 [doi]

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action RecognitionLilang Lin, Jiahang Zhang, Jiaying Liu 0001. 2363-2372 [doi]

Decomposed Cross-Modal Distillation for RGB-based Temporal Action DetectionPilhyeon Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Hyeran Byun. 2373-2383 [doi]

ASPnet: Action Segmentation with Shared-Private Representation of Multiple Data SourcesBeatrice van Amsterdam, Abdolrahim Kadkhodamohammadi, Imanol Luengo, Danail Stoyanov. 2384-2393 [doi]

Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action LocalizationHuan Ren, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang 0001. 2394-2404 [doi]

LOGO: A Long-Form Video Dataset for Group Action Quality AssessmentShiyi ZHANG, Wenxun Dai, Sujia Wang, Xiangwei Shen, Jiwen Lu, Jie Zhou 0001, Yansong Tang. 2405-2414 [doi]

Use Your Head: Improving Long-Tail Video RecognitionToby Perrett, Saptarshi Sinha, Tilo Burghardt, Majid Mirmehdi, Dima Damen. 2415-2425 [doi]

Conditional Generation of Audio from Video via Foley AnalogiesYuexi Du, Ziyang Chen, Justin Salamon, Bryan Russell, Andrew Owens. 2426-2436 [doi]

Weakly Supervised Video Representation Learning with Unaligned Text for Sequential VideosSixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian, Shenghua Gao. 2437-2447 [doi]

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed VideosXiang Fang, Daizong Liu, Pan Zhou, Guoshun Nan. 2448-2460 [doi]

Connecting Vision and Language with Video Localized NarrativesPaul Voigtlaender, Soravit Changpinyo, Jordi Pont-Tuset, Radu Soricut, Vittorio Ferrari. 2461-2471 [doi]

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation LearningPeng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu 0030, Xiangyang Ji, Li Yuan, Jie Chen 0001. 2472-2482 [doi]

Aligning Step-by-Step Instructional Diagrams to Video DemonstrationsJiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez Opazo, Stephen Gould. 2483-2492 [doi]

Make-A-Story: Visual Memory Conditioned Consistent Story GenerationTanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal. 2493-2502 [doi]

Test of Time: Instilling Video-Language Models with a Sense of TimePiyush Bagad, Makarand Tapaswi, Cees G. M. Snoek. 2503-2516 [doi]

How You Feelin'? Learning Emotions and Mental States in Movie ScenesDhruv Srivastava, Aditya Kumar Singh, Makarand Tapaswi. 2517-2528 [doi]

Continuous Sign Language Recognition with Correlation NetworkLianyu Hu 0003, Liqing Gao, Zekang Liu, Wei Feng 0005. 2529-2539 [doi]

DIP: Dual Incongruity Perceiving Network for Sarcasm DetectionChangsong Wen, Guoli Jia, Jufeng Yang. 2540-2550 [doi]

Gloss Attention for Gloss-free Sign Language TranslationAoxiong Yin, Tianyun Zhong, Li Tang, Weike Jin, Tao Jin, Zhou Zhao. 2551-2562 [doi]

Object-Goal Visual Navigation via Effective Exploration of Relations Among Historical Navigation StatesHeming Du, Lincheng Li, Zi Huang, Xin Yu 0002. 2563-2573 [doi]

Behavioral Analysis of Vision-and-Language Navigation AgentsZijiao Yang, Arjun Majumdar, Stefan Lee. 2574-2582 [doi]

KERM: Knowledge Enhanced Reasoning for Vision-and-Language NavigationXiangyang Li, Zihan Wang, Jiahao Yang, Yaowei Wang, Shuqiang Jiang. 2583-2592 [doi]

Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual Query LocalizationMengmeng Xu, Yanghao Li, Cheng-Yang Fu, Bernard Ghanem, Tao Xiang, Juan-Manuel Pérez-Rúa. 2593-2603 [doi]

Efficient Multimodal Fusion via Interactive PromptingYaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang. 2604-2613 [doi]

NS3D: Neuro-Symbolic Grounding of 3D Objects and RelationsJoy Hsu, Jiayuan Mao, Jiajun Wu 0001. 2614-2623 [doi]

Dynamic Inference with Grounding Based Vision and Language ModelsBurak Uzkent, Amanmeet Garg, Wentao Zhu, Keval Doshi, Jingru Yi, Xiaolong Wang, Mohamed Omar. 2624-2633 [doi]

Improving Commonsense in Vision-Language Models via Knowledge Graph RiddlesShuquan Ye, Yujia Xie, Dongdong Chen 0001, Yichong Xu, Lu Yuan, Chenguang Zhu 0001, Jing Liao 0001. 2634-2645 [doi]

3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical LearningWei Suo, Mengyang Sun, Weisong Liu, Yiqi Gao, Peng Wang 0015, Yanning Zhang, Qi Wu 0001. 2646-2656 [doi]

Teaching Structured Vision & Language Concepts to Vision & Language ModelsSivan Doveh, Assaf Arbelle, Sivan Harary, Eli Schwartz, Roei Herzig, Raja Giryes, Rogério Feris, Rameswar Panda, Shimon Ullman, Leonid Karlinsky. 2657-2668 [doi]

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion TasksXiao Han, Xiatian Zhu, Licheng Yu, Li Zhang 0040, Yi-Zhe Song, Tao Xiang. 2669-2680 [doi]

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language TasksHao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai. 2691-2700 [doi]

Learning from Unique Perspectives: User-aware Saliency ModelingShi Chen, Nachiappan Valliappan, Shaolei Shen, Xinyu Ye, Kai Kohlhoff, Junfeng He. 2701-2710 [doi]

CRAFT: Concept Recursive Activation FacTorization for ExplainabilityThomas Fel, Agustin Picard, Louis Béthune, Thibaut Boissin, David Vigouroux, Julien Colin, Rémi Cadènc, Thomas Serre. 2711-2721 [doi]

Doubly Right Object Recognition: A Why Prompt for Visual RationalesChengzhi Mao, Revant Teotia, Amrutha Sundar, Sachit Menon, Junfeng Yang, Xin Wang, Carl Vondrick. 2722-2732 [doi]

Sketch2Saliency: Learning to Detect Salient Objects from Human DrawingsAyan Kumar Bhunia, Subhadeep Koley, Amandeep Kumar, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song. 2733-2743 [doi]

PIP-Net: Patch-Based Intuitive Prototypes for Interpretable Image ClassificationMeike Nauta, Jörg Schlötterer, Maurice van Keulen, Christin Seifert. 2744-2753 [doi]

CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or NotAneeshan Sain, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Subhadeep Koley, Tao Xiang, Yi-Zhe Song. 2765-2775 [doi]

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-training for Visual RecognitionYixuan Wei, Yue Cao 0001, Zheng Zhang 0022, Houwen Peng, Zhuliang Yao, Zhenda Xie, Han Hu 0001, Baining Guo. 2776-2786 [doi]

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person RetrievalDing Jiang, Mang Ye. 2787-2797 [doi]

Multi-Modal Representation Learning with Text-Driven Soft MasksJaeyoo Park, Bohyung Han. 2798-2807 [doi]

Texts as Images in Prompt Tuning for Multi-Label Image RecognitionZixian Guo, Bowen Dong, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo. 2808-2817 [doi]

Reproducible Scaling Laws for Contrastive Language-Image LearningMehdi Cherti, Romain Beaumont, Ross Wightman, Mitchell Wortsman, Gabriel Ilharco, Cade Gordon, Christoph Schuhmann, Ludwig Schmidt, Jenia Jitsev. 2818-2829 [doi]

Multilateral Semantic Relations Modeling for Image Text RetrievalZheng Wang 0044, Zhenwei Gao, Kangshuai Guo, Yang Yang 0002, Xiaoming Wang, Heng Tao Shen. 2830-2839 [doi]

Smallcap: Lightweight Image Captioning Prompted with Retrieval AugmentationRita Ramos, Bruno Martins 0001, Desmond Elliott, Yova Kementchedjhieva. 2840-2849 [doi]

Probing Sentiment-Oriented PreTraining Inspired by Human Sentiment Perception MechanismTinglei Feng, Jiaxuan Liu, Jufeng Yang. 2850-2860 [doi]

Prefix Conditioning Unifies Language and Label SupervisionKuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister. 2861-2870 [doi]

Crossing the Gap: Domain Generalization for Image CaptioningYuchen Ren, Zhendong Mao, Shancheng Fang, Yan Lu, Tong He 0004, Hao Du, Yongdong Zhang, Wanli Ouyang. 2871-2880 [doi]

A Bag-of-Prototypes Representation for Dataset-Level ApplicationsWeijie Tu, Weijian Deng, Tom Gedeon, Liang Zheng 0001. 2881-2892 [doi]

CrowdCLIP: Unsupervised Crowd Counting via Vision-Language ModelDingkang Liang, Jiahao Xie, Zhikang Zou, Xiaoqing Ye, Wei Xu, Xiang Bai. 2893-2903 [doi]

2Former: Jointly Learning Hierarchical Detectors and Contextual Descriptors via Agent-Based TransformersJianfeng He, Yuan Gao, Tianzhu Zhang, Zhe Zhang, Feng Wu 0001. 2904-2914 [doi]

Learning to Generate Language-Supervised and Open-Vocabulary Scene Graph Using Pre-Trained Visual-Semantic SpaceYong Zhang 0056, Yingwei Pan, Ting Yao, Rui Huang 0001, Tao Mei, Chang Wen Chen. 2915-2924 [doi]

Relational Context Learning for Human-Object Interaction DetectionSanghyun Kim, Deunsol Jung, Minsu Cho. 2925-2934 [doi]

Learning Open-Vocabulary Semantic Segmentation Models From Natural Language SupervisionJilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi Xie. 2935-2944 [doi]

Side Adapter Network for Open-Vocabulary Semantic SegmentationMengde Xu, Zheng Zhang, Fangyun Wei, Han Hu, Xiang Bai. 2945-2954 [doi]

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion ModelsJiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello. 2955-2966 [doi]

IFSeg: Image-free Semantic Segmentation via Vision-Language ModelSukmin Yun, Seong Hyeon Park, Paul Hongsuck Seo, Jinwoo Shin. 2967-2977 [doi]

PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud ObservationsHaoran Geng, Ziming Li, Yiran Geng, Jiayi Chen, Hao Dong 0003, He Wang 0010. 2978-2988 [doi]

OneFormer: One Transformer to Rule Universal Image SegmentationJitesh Jain, Jiachen Li 0003, Mangtik Chiu, Ali Hassani 0001, Nikita Orlov, Humphrey Shi. 2989-2998 [doi]

Delving into Shape-aware Zero-shot Semantic SegmentationXinyu Liu, Beiwen Tian, Zhen Wang, Rui Wang, Kehua Sheng, Bo Zhang, Hao Zhao, Guyue Zhou. 2999-3009 [doi]

CoMFormer: Continual Learning in Semantic and Panoptic SegmentationFabio Cermelli, Matthieu Cord, Arthur Douillard. 3010-3020 [doi]

Learning to Segment Every Referring Object Point by PointMengxue Qu, Yu Wu 0011, Yunchao Wei, Wu Liu, Xiaodan Liang, Yao Zhao 0001. 3021-3030 [doi]

Unsupervised Continual Semantic Adaptation Through Neural RenderingZhizheng Liu, Francesco Milano 0001, Jonas Frey, Roland Siegwart, Hermann Blum, Cesar Cadena 0001. 3031-3040 [doi]

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and SegmentationFeng Li, Hao Zhang 0097, Huaizhe Xu, Shilong Liu, Lei Zhang 0001, Lionel M. Ni, Heung-Yeung Shum. 3041-3050 [doi]

Transformer Scale Gate for Semantic SegmentationHengcan Shi, Munawar Hayat, Jianfei Cai 0001. 3051-3060 [doi]

Style Projected Clustering for Domain Generalized Semantic SegmentationWei Huang, Chang Chen, Yong Li, Jiacheng Li, Cheng Li, Fenglong Song, Youliang Yan, Zhiwei Xiong. 3061-3071 [doi]

Rethinking Few-Shot Medical Segmentation: A Vector Quantization ViewShiqi Huang, Tingfa Xu, Ning Shen, Feng Mu, Jianan Li. 3072-3081 [doi]

Continual Semantic Segmentation with Automatic Memory Sample SelectionLanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, Jun Liu. 3082-3092 [doi]

Token Contrast for Weakly-Supervised Semantic SegmentationLixiang Ru, Heliang Zheng, Yibing Zhan, Bo Du 0001. 3093-3102 [doi]

Multi-Granularity Archaeological Dating of Chinese Bronze Dings Based on a Knowledge-Guided Relation GraphRixin Zhou, Jiafu Wei, Qian Zhang, Ruihua Qi, Xi Yang, Chuntao Li. 3103-3113 [doi]

Hunting Sparsity: Density-Guided Contrastive Learning for Semi-Supervised Semantic SegmentationXiaoyang Wang, Bingfeng Zhang, Limin Yu, Jimin Xiao. 3114-3123 [doi]

Cut and Learn for Unsupervised Object Detection and Instance SegmentationXudong Wang 0007, Rohit Girdhar, Stella X. Yu, Ishan Misra. 3124-3134 [doi]

Extracting Class Activation Maps from Non-Discriminative Features as wellZhaozheng Chen, Qianru Sun. 3135-3144 [doi]

BoxTeacher: Exploring High-Quality Pseudo Labels for Weakly Supervised Instance SegmentationTianheng Cheng, Xinggang Wang, Shaoyu Chen, Qian Zhang, Wenyu Liu 0001. 3145-3154 [doi]

Hierarchical Fine-Grained Image Forgery Detection and LocalizationXiao Guo, Xiaohong Liu, Zhiyuan Ren, Steven Grosz, Iacopo Masi, Xiaoming Liu 0002. 3155-3165 [doi]

Towards Professional Level Crowd Annotation of Expert Domain DataPei Wang, Nuno Vasconcelos. 3166-3175 [doi]

Unsupervised Object Localization: Observing the Background to Discover ObjectsOriane Siméoni, Chloé Sekkat, Gilles Puy, Antonín Vobecky, Éloi Zablocki, Patrick Pérez. 3176-3186 [doi]

Semi-supervised learning made simple with self-supervised clusteringEnrico Fini, Pietro Astolfi, Karteek Alahari, Xavier Alameda-Pineda, Julien Mairal, Moin Nabi, Elisa Ricci 0001. 3187-3197 [doi]

Unbalanced Optimal Transport: A Unified Framework for Object DetectionHenri De Plaen, Pierre-François De Plaen, Johan A. K. Suykens, Marc Proesmans, Tinne Tuytelaars, Luc Van Gool. 3198-3207 [doi]

DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object DetectionJiawei Ma, Yulei Niu, Jincheng Xu, Shiyuan Huang, Guangxing Han, Shih-Fu Chang. 3208-3218 [doi]

CLIP the Gap: A Single Domain Generalization Approach for Object DetectionVidit Vidit, Martin Engilberge, Mathieu Salzmann. 3219-3229 [doi]

Unknown Sniffer for Object Detection: Don't Turn a Blind Eye to Unknown ObjectsWenteng Liang, Feng Xue, Yihao Liu, Guofeng Zhong, Anlong Ming. 3230-3239 [doi]

Consistent-Teacher: Towards Reducing Inconsistent Pseudo-Targets in Semi-Supervised Object DetectionXinjiang Wang, Xingyi Yang, Shilong Zhang, Yijiang Li, Litong Feng, Shijie Fang, Chengqi Lyu, Kai Chen, Wayne Zhang. 3240-3249 [doi]

Optimal Proposal Learning for Deployable End-to-End Pedestrian DetectionXiaolin Song, Binghui Chen, Pengyu Li, Jun-Yan He, Biao Wang, Yifeng Geng, Xuansong Xie, Honggang Zhang. 3250-3260 [doi]

AsyFOD: An Asymmetric Adaptation Paradigm for Few-Shot Domain Adaptive Object DetectionYipeng Gao, Kun-Yu Lin, Junkai Yan, Yaowei Wang, Wei-Shi Zheng 0001. 3261-3271 [doi]

Where is My Spot? Few-shot Image Generation via Latent Subspace OptimizationChenxi Zheng, Bangzhen Liu, Huaidong Zhang, Xuemiao Xu, Shengfeng He. 3272-3281 [doi]

Uncertainty-Aware Optimal Transport for Semantically Coherent Out-of-Distribution DetectionFan Lu, Kai Zhu 0004, Wei Zhai, Kecheng Zheng, Yang Cao. 3282-3291 [doi]

MAESTER: Masked Autoencoder Guided Segmentation at Pixel Resolution for Accurate, Self-Supervised Subcellular Structure RecognitionRonald Xie, Kuan Pang, Gary D. Bader, Bo Wang. 3292-3301 [doi]

Orthogonal Annotation Benefits Barely-supervised Medical Image SegmentationHeng Cai, Shumeng Li, Lei Qi, Qian Yu, Yinghuan Shi, Yang Gao 0001. 3302-3311 [doi]

RepMode: Learning to Re-Parameterize Diverse Experts for Subcellular Structure PredictionDonghao Zhou, Chunbin Gu, Junde Xu, Furui Liu, Qiong Wang 0001, Guangyong Chen, Pheng-Ann Heng. 3312-3322 [doi]

Topology-Guided Multi-Class Cell Context Generation for Digital PathologyShahira Abousamra, Rajarsi Gupta 0001, Tahsin M. Kurç, Dimitris Samaras, Joel H. Saltz, Chao Chen 0012. 3323-3333 [doi]

Dynamic Graph Enhanced Contrastive Learning for Chest X-Ray Report GenerationMingjie Li 0006, Bingqian Lin, Zicong Chen, Haokun Lin, Xiaodan Liang, Xiaojun Chang. 3334-3343 [doi]

Benchmarking Self-Supervised Learning on Diverse Pathology DatasetsMingu Kang, Heon Song, Seonwook Park, Donggeun Yoo, Sérgio Pereira. 3344-3354 [doi]

Multiple Instance Learning via Iterative Self-Paced Supervised Contrastive LearningKangning Liu, Weicheng Zhu, Yiqiu Shen, Sheng Liu, Narges Razavian, Krzysztof J. Geras, Carlos Fernandez-Granda. 3355-3365 [doi]

Learning Expressive Prompting With Residuals for Vision TransformersRajshekhar Das, Yonatan Dukler, Avinash Ravichandran, Ashwin Swaminathan. 3366-3377 [doi]

Detection of Out-of-Distribution Samples Using Binary Neuron Activation PatternsBartlomiej Olber, Krystian Radlak, Adam Popowicz, Michal Szczepankiewicz, Krystian Chachula. 3378-3387 [doi]

Decoupling MaxLogit for Out-of-Distribution DetectionZihan Zhang, Xiang Xiang. 3388-3397 [doi]

Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete LabelsZixuan Ding, Ao Wang, Hui Chen, Qiang Zhang, Pengzhang Liu, Yongjun Bao, Weipeng Yan, Jungong Han. 3398-3407 [doi]

Bridging the Gap Between Model Explanations in Partially Annotated Multi-Label ClassificationYoungwook Kim, Jae-Myung Kim, Jieun Jeong, Cordelia Schmid, Zeynep Akata, Jungwoo Lee 0001. 3408-3417 [doi]

DivClust: Controlling Diversity in Deep ClusteringIoannis Maniadis Metaxas, Georgios Tzimiropoulos, Ioannis Patras. 3418-3428 [doi]

Deep Semi-Supervised Metric Learning with Mixed Label PropagationFuren Zhuang, Pierre Moulin. 3429-3438 [doi]

Leveraging Inter-Rater Agreement for Classification in the Presence of Noisy LabelsMaria Sofia Bucarelli, Lucas Cassano, Federico Siciliano, Amin Mantrach, Fabrizio Silvestri. 3439-3448 [doi]

Modeling Inter-Class and Intra-Class Constraints in Novel Class DiscoveryWenbin Li, Zhichen Fan, Jing Huo, Yang Gao. 3449-3458 [doi]

Bootstrap Your Own Prior: Towards Distribution-Agnostic Novel Class DiscoveryMuli Yang, Liancheng Wang, Cheng Deng, Hanwang Zhang. 3459-3468 [doi]

Towards Realistic Long-Tailed Semi-Supervised Learning: Consistency is All You NeedTong Wei, Kai Gan. 3469-3478 [doi]

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category DiscoverySheng Zhang, Salman Khan, Zhiqiang Shen, Muzammal Naseer, Guangyi Chen, Fahad Shahbaz Khan. 3479-3488 [doi]

Probabilistic Knowledge Distillation of Face EnsemblesJianqing Xu, Shen Li, Ailin Deng, Miao Xiong, Jiaying Wu, Jiaxiang Wu 0002, Shouhong Ding, Bryan Hooi. 3489-3498 [doi]

Class-Conditional Sharpness-Aware Minimization for Deep Long-Tailed RecognitionZhipeng Zhou, Lanqing Li, Peilin Zhao, Pheng-Ann Heng, Wei Gong 0001. 3499-3509 [doi]

Promoting Semantic Connectivity: Dual Nearest Neighbors Contrastive Learning for Unsupervised Domain GeneralizationYuchen Liu 0006, Yaoming Wang, Yabo Chen, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong. 3510-3519 [doi]

Instance Relation Graph Guided Source-Free Domain Adaptive Object DetectionVibashan VS, Poojan Oza, Vishal M. Patel 0001. 3520-3530 [doi]

MOT: Masked Optimal Transport for Partial Domain AdaptationYou-Wei Luo, Chuan-Xian Ren. 3531-3540 [doi]

TOPLight: Lightweight Neural Networks with Task-Oriented Pretraining for Visible-Infrared RecognitionHao Yu, Xu Cheng, Wei Peng. 3541-3550 [doi]

OSAN: A One-Stage Alignment Network to Unify Multimodal Alignment and Unsupervised Domain AdaptationYe Liu, Lingfeng Qiao, Changchong Lu, Di Yin, Chen Lin, Haoyuan Peng, Bo Ren 0002. 3551-3560 [doi]

Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game PerspectiveJinjing Zhu, Haotian Bai, Lin Wang. 3561-3571 [doi]

ARO-Net: Learning Implicit Fields from Anchored Radial ObservationsYizhi Wang, Zeyu Huang, Ariel Shamir, Hui Huang 0004, Hao Zhang, Ruizhen Hu. 3572-3581 [doi]

A Probabilistic Framework for Lifelong Test-Time AdaptationDhanajit Brahma, Piyush Rai. 3582-3591 [doi]

Distribution Shift Inversion for Out-of-Distribution PredictionRunpeng Yu, Songhua Liu, Xingyi Yang, Xinchao Wang. 3592-3602 [doi]

Learning Joint Latent Space EBM Prior Model for Multi-layer GeneratorJiali Cui, Ying Nian Wu, Tian Han 0001. 3603-3612 [doi]

A Data-Based Perspective on Transfer LearningSaachi Jain, Hadi Salman, Alaa Khaddaj, Eric Wong 0001, Sung Min Park, Aleksander Madry. 3613-3622 [doi]

A Meta-Learning Approach to Predicting Performance and Data RequirementsAchin Jain, Gurumurthy Swaminathan, Paolo Favaro, Hao Yang, Avinash Ravichandran, Hrayr Harutyunyan, Alessandro Achille, Onkar Dabeer, Bernt Schiele, Ashwin Swaminathan, Stefano Soatto. 3623-3632 [doi]

Guided Recommendation for Model Fine-TuningHao Li, Charless C. Fowlkes, Hao Yang, Onkar Dabeer, Zhuowen Tu, Stefano Soatto. 3633-3642 [doi]

EMT-NAS: Transferring architectural knowledge between tasks from different datasetsPeng Liao, Yaochu Jin, Wenli Du. 3643-3653 [doi]

AttriCLIP: A Non-Incremental Learner for Incremental Knowledge LearningRunqi Wang, Xiaoyue Duan, Guoliang Kang, Jianzhuang Liu, Shaohui Lin, Songcen Xu, Jinhu Lv, Baochang Zhang 0001. 3654-3663 [doi]

Batch Model Consolidation: A Multi-Task Model Consolidation FrameworkIordanis Fostiropoulos, Jiaye Zhu, Laurent Itti. 3664-3676 [doi]

SmartAssign: Learning A Smart Knowledge Assignment Strategy for Deraining and DesnowingYinglong Wang, Chao Ma, Jianzhuang Liu. 3677-3686 [doi]

TinyMIM: An Empirical Study of Distilling MIM Pre-trained ModelsSucheng Ren, Fangyun Wei, Zheng Zhang, Han Hu. 3687-3697 [doi]

Computationally Budgeted Continual Learning: What Does Matter?Ameya Prabhu, Hasan Abed Al Kader Hammoud, Puneet K. Dokania, Philip H. S. Torr, Ser-Nam Lim, Bernard Ghanem, Adel Bibi. 3698-3707 [doi]

GradMA: A Gradient-Memory-based Accelerated Federated Learning with Alleviated Catastrophic ForgettingKangyang Luo, Xiang Li, Yunshi Lan, Ming Gao. 3708-3717 [doi]

Rethinking Gradient Projection Continual Learning: Stability/Plasticity Feature Space DecouplingZhen Zhao, Zhizhong Zhang, Xin Tan, Jun Liu, Yanyun Qu, Yuan Xie 0006, Lizhuang Ma. 3718-3727 [doi]

Neuro-Modulated Hebbian Learning for Fully Test-Time AdaptationYushun Tang, Ce Zhang, Heng Xu, Shuoshuo Chen, Jie Cheng, Luziwei Leng, Qinghai Guo, Zhihai He. 3728-3738 [doi]

Generalizing Dataset Distillation via Deep Generative PriorGeorge Cazenavette, Tongzhou Wang 0001, Antonio Torralba 0001, Alexei A. Efros, Jun-Yan Zhu. 3739-3748 [doi]

Minimizing the Accumulated Trajectory Error to Improve Dataset DistillationJiawei Du, Yidi Jiang, Vincent Y. F. Tan, Joey Tianyi Zhou, Haizhou Li 0001. 3749-3758 [doi]

Slimmable Dataset CondensationSonghua Liu, Jingwen Ye, Runpeng Yu, Xinchao Wang. 3759-3768 [doi]

Sharpness-Aware Gradient Matching for Domain GeneralizationPengfei Wang, Zhaoxiang Zhang, Zhen Lei, Lei Zhang. 3769-3778 [doi]

Dynamic Neural Network for Multi-Task Learning Searching across Diverse Network TopologiesWonhyeok Choi, Sunghoon Im. 3779-3788 [doi]

SplineCam: Exact Visualization and Characterization of Deep Network Geometry and Decision BoundariesAhmed Imtiaz Humayun, Randall Balestriero, Guha Balakrishnan, Richard G. Baraniuk. 3789-3798 [doi]

VNE: An Effective Method for Improving Deep Representation by Manipulating Eigenvalue DistributionJaeill Kim, Suhyun Kang, Duhun Hwang, Jungwook Shin, Wonjong Rhee. 3799-3810 [doi]

Efficient On-Device Training via Gradient FilteringYuedong Yang, Guihong Li, Radu Marculescu. 3811-3820 [doi]

Are Data-Driven Explanations Robust Against Out-of-Distribution Data?Tang Li, Fengchun Qiao, Mengmeng Ma 0002, Xi Peng 0005. 3821-3831 [doi]

BiasAdv: Bias-Adversarial Augmentation for Model DebiasingJongin Lim 0002, Youngdong Kim, Byungjai Kim, Chanho Ahn, Jinwoo Shin, Eunho Yang, Seungju Han. 3832-3841 [doi]

Q-DETR: An Efficient Low-Bit Quantized Detection TransformerSheng Xu, Yanjing Li, Mingbao Lin, Peng Gao, Guodong Guo, Jinhu Lü, Baochang Zhang 0001. 3842-3851 [doi]

NIPQ: Noise proxy-based Integrated Pseudo-QuantizationJuncheol Shin, Junhyuk So, Sein Park, Seungyeop Kang, Sungjoo Yoo, Eunhyeok Park. 3852-3861 [doi]

CUDA: Convolution-Based Unlearnable DatasetsVinu Sankar Sadasivan, Mahdi Soltanolkotabi, Soheil Feizi. 3862-3871 [doi]

KD-DLGAN: Data Limited Image Generation via Knowledge DistillationKaiwen Cui, Yingchen Yu, Fangneng Zhan, ShengCai Liao, Shijian Lu, Eric P. Xing. 3872-3882 [doi]

Spider GAN: Leveraging Friendly Neighbors to Accelerate GAN TrainingSiddarth Asokan, Chandra Sekhar Seelamantula. 3883-3893 [doi]

Efficient Verification of Neural Networks Against LVM-Based SpecificationsHarleen Hanspal, Alessio Lomuscio. 3894-3903 [doi]

Bi-directional Feature Fusion Generative Adversarial Network for Ultra-high Resolution Pathological Image Virtual Re-stainingKexin Sun, Zhineng Chen, Gongwei Wang, Jun Liu, Xiongjun Ye, Yu-Gang Jiang. 3904-3913 [doi]

DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly DetectionXuan Zhang, Shiyu Li, Xi Li 0010, Ping Huang, Jiulong Shan, Ting Chen. 3914-3923 [doi]

OmniAL: A Unified CNN Framework for Unsupervised Anomaly LocalizationYing Zhao. 3924-3933 [doi]

Federated Incremental Semantic SegmentationJiahua Dong, Duzhen Zhang, Yang Cong, Wei Cong, Henghui Ding, Dengxin Dai. 3934-3943 [doi]

Re-Thinking Federated Active Learning Based on Inter-Class DiversitySangmook Kim, Sangmin Bae, Hwanjun Song, Se-Young Yun. 3944-3953 [doi]

Federated Domain Generalization with Generalization AdjustmentRuipeng Zhang, Qinwei Xu, Jiangchao Yao, Ya Zhang, Qi Tian 0001, Yanfeng Wang. 3954-3963 [doi]

On the Effectiveness of Partial Variance Reduction in Federated Learning with Heterogeneous DataBo Li, Mikkel N. Schmidt, Tommy S. Alstrøm, Sebastian U. Stich. 3964-3973 [doi]

The Resource Problem of Using Linear Layer Leakage Attack in Federated LearningJoshua C. Zhao, Ahmed Roushdy Elkordy, Atul Sharma, Yahya H. Ezzeldin, Salman Avestimehr, Saurabh Bagchi. 3974-3983 [doi]

Unlearnable Clusters: Towards Label-Agnostic Unlearnable ExamplesJiaming Zhang 0006, Xingjun Ma, Qi Yi, Jitao Sang, Yu-Gang Jiang, Yaowei Wang, Changsheng Xu. 3984-3993 [doi]

Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection GeneralizationShichao Dong, Jin Wang, Renhe Ji, Jiajun Liang, Haoqiang Fan, Zheng Ge. 3994-4004 [doi]

Backdoor Defense via Adaptively Splitting Poisoned DatasetKuofeng Gao, Yang Bai, Jindong Gu, Yong Yang, Shu-Tao Xia. 4005-4014 [doi]

How to Backdoor Diffusion Models?Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho. 4015-4024 [doi]

TrojViT: Trojan Insertion in Vision TransformersMengxin Zheng, Qian Lou, Lei Jiang 0001. 4025-4034 [doi]

TrojDiff: Trojan Attacks on Diffusion Models with Diverse TargetsWeixin Chen, Dawn Song, Bo Li 0026. 4035-4044 [doi]

Ensemble-based Blackbox Attacks on Dense PredictionZikui Cai, Yaoteng Tan, M. Salman Asif. 4045-4055 [doi]

Efficient Loss Function by Minimizing the Detrimental Effect of Floating-Point Errors on Gradient-Based AttacksYunrui Yu, Cheng-Zhong Xu 0001. 4056-4066 [doi]

The Best Defense is a Good Offense: Adversarial Augmentation Against Adversarial AttacksIuri Frosio, Jan Kautz. 4067-4076 [doi]

Adversarial Robustness via Random Projection FiltersMinjing Dong, Chang Xu 0002. 4077-4086 [doi]

Jedi: Entropy-Based Localization and Removal of Adversarial PatchesBilel Tarchoun, Anouar Ben Khalifa, Mohamed-Ali Mahjoub, Nael B. Abu-Ghazaleh, Ihsen Alouani. 4087-4095 [doi]

Exploring the Relationship Between Architectural Design and Adversarially Robust GeneralizationAishan Liu, Shiyu Tang, Siyuan Liang, Ruihao Gong, Boxi Wu, Xianglong Liu 0001, Dacheng Tao. 4096-4107 [doi]

Improving Robustness of Vision Transformers by Reducing Sensitivity to Patch CorruptionsYong Guo, David Stutz, Bernt Schiele. 4108-4118 [doi]

Towards Effective Adversarial Textured 3D Meshes on Physical Face RecognitionXiao Yang, Chang Liu, Longlong Xu, Yikai Wang, Yinpeng Dong, Ning Chen, Hang Su, Jun Zhu. 4119-4128 [doi]

AltFreezing for More General Video Face Forgery DetectionZhendong Wang, Jianmin Bao, Wengang Zhou, Weilun Wang, Houqiang Li. 4129-4138 [doi]

Passive Micron-Scale Time-of-Flight with Sunlight InterferometryAlankar Kotwal, Anat Levin, Ioannis Gkioulekas. 4139-4149 [doi]

2-NeRF: Fast Neural Radiance Field Training with Free Camera TrajectoriesPeng Wang 0099, Yuan Liu, Zhaoxi Chen 0009, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang. 4150-4159 [doi]

NoPe-NeRF: Optimising Neural Radiance Field with No Pose PriorWenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian. 4160-4169 [doi]

BAD-NeRF: Bundle Adjusted Deblur Neural Radiance FieldsPeng Wang, Lingzhe Zhao, Ruijie Ma, Peidong Liu. 4170-4179 [doi]

DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion ModelsJamie Wynn, Daniyar Turmukhambetov. 4180-4189 [doi]

SPARF: Neural Radiance Fields from Sparse and Noisy PosesPrune Truong, Marie-Julie Rakotosaona, Fabian Manhardt, Federico Tombari. 4190-4200 [doi]

Interactive Segmentation of Radiance FieldsRahul Goel, Dhawal Sirikonda, Saurabh Saini, P. J. Narayanan. 4201-4211 [doi]

Temporal Interpolation is all You Need for Dynamic Neural Radiance FieldsSungheon Park, Minjung Son 0001, Seokhwan Jang, Young Chun Ahn, Ji-Yeon Kim, Nahyup Kang. 4212-4221 [doi]

Compressing Volumetric Radiance Fields to 1 MBLingzhi Li 0002, Zhen Shen, Zhongshu Wang, Li Shen 0003, Liefeng Bo. 4222-4231 [doi]

Multiscale Tensor Decomposition and Rendering Equation Encoding for View SynthesisKang Han, Wei Xiang 0001. 4232-4241 [doi]

Ref-NPR: Reference-Based Non-Photorealistic Radiance Fields for Controllable Scene StylizationYuechen Zhang, Zexin He, Jinbo Xing, Xufeng Yao, Jiaya Jia. 4242-4251 [doi]

Representing Volumetric Videos as Dynamic MLP MapsSida Peng, Yunzhi Yan, Qing Shuai, Hujun Bao, Xiaowei Zhou. 4252-4262 [doi]

Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense GridsWei Dong, Christopher B. Choy, Charles Loop, Or Litany, Yuke Zhu, Anima Anandkumar. 4263-4272 [doi]

DynIBaR: Neural Dynamic Image-Based RenderingZhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker 0001, Noah Snavely. 4273-4284 [doi]

Plateau-Reduced Differentiable Path TracingMichael Fischer, Tobias Ritschel 0001. 4285-4294 [doi]

NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field Indirect IlluminationHaoqian Wu, Zhipeng Hu, Lincheng Li, Yongqiang Zhang, Changjie Fan, Xin Yu 0002. 4295-4304 [doi]

WildLight: In-the-wild Inverse Rendering with a FlashlightZiang Cheng, Junxuan Li, Hongdong Li. 4305-4314 [doi]

Relightable Neural Human Assets from Multi-view Gradient IlluminationsTaotao Zhou, Kai He, Di Wu, Teng Xu 0008, Qixuan Zhang, Kuixiang Shao, Wenzheng Chen, Lan Xu, Jingyi Yu. 4315-4327 [doi]

DiffRF: Rendering-Guided 3D Radiance Field DiffusionNorman Müller, Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Bulò, Peter Kontschieder, Matthias Nießner. 4328-4338 [doi]

Analyzing Physical Impacts Using Transient Surface Wave ImagingTianyuan Zhang, Mark Sheinin, Dorian Chan, Mark Rau, Matthew O'Toole, Srinivasa G. Narasimhan. 4339-4348 [doi]

Neural Kaleidoscopic Space SculptingByeongjoo Ahn, Michael DeZeeuw, Ioannis Gkioulekas, Aswin C. Sankaranarayanan. 4349-4358 [doi]

Towards Unbiased Volume Rendering of Neural Implicit Surfaces with Geometry PriorsYongqiang Zhang, Zhipeng Hu, Haoqian Wu, Minda Zhao, Lincheng Li, Zhengxia Zou, Changjie Fan. 4359-4368 [doi]

Neural Kernel Surface ReconstructionJiahui Huang, Zan Gojcic, Matan Atzmon, Or Litany, Sanja Fidler, Francis Williams. 4369-4379 [doi]

MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled ConsistencyMingye Xu, Mutian Xu, Tong He 0004, Wanli Ouyang, Yali Wang 0001, Xiaoguang Han 0001, Yu Qiao 0001. 4380-4390 [doi]

Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field InversionDario Pavllo, David Joseph Tan, Marie-Julie Rakotosaona, Federico Tombari. 4391-4401 [doi]

DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene SynthesisYinghao Xu, Menglei Chai, Zifan Shi, Sida Peng, Ivan Skorokhodov, Aliaksandr Siarohin, Ceyuan Yang, Yujun Shen, Hsin-Ying Lee, Bolei Zhou, Sergey Tulyakov. 4402-4412 [doi]

Heat Diffusion Based Multi-Scale and Geometric Structure-Aware Transformer for Mesh SegmentationChi Chong Wong. 4413-4422 [doi]

Learning Detailed Radiance Manifolds for High-Fidelity and 3D-Consistent Portrait Synthesis from Monocular ImageYu Deng, Baoyuan Wang, Heung-Yeung Shum. 4423-4433 [doi]

3D-aware Conditional Image SynthesisKangle Deng, Gengshan Yang, Deva Ramanan, Jun-Yan Zhu. 4434-4445 [doi]

VIVE3D: Viewpoint-Independent Video Editing using 3D-Aware GANsAnna Frühstück, Nikolaos Sarafianos, Yuanlu Xu, Peter Wonka, Tony Tung. 4446-4455 [doi]

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and GenerationYen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander G. Schwing, Liangyan Gui. 4456-4465 [doi]

Generating Part-Aware Editable 3D Shapes without 3D SupervisionKonstantinos Tertikas, Despoina Paschalidou, Boxiao Pan, Jeong-Joon Park, Mikaela Angelina Uy, Ioannis Z. Emiris, Yannis Avrithis, Leonidas J. Guibas. 4466-4478 [doi]

NeuralLift-360: Lifting an in-the-Wild 2D Photo to A 3D Object with 360° ViewsDejia Xu, Yifan Jiang 0001, Peihao Wang, Zhiwen Fan, Yi Wang, Zhangyang Wang. 4479-4489 [doi]

Implicit Identity Driven Deepfake Face Swapping DetectionBaojin Huang, Zhongyuan Wang, Jifan Yang, Jiaxin Ai, Qin Zou 0001, Qian Wang 0002, Dengpan Ye. 4490-4499 [doi]

Canonical Fields: Self-Supervised Learning of Pose-Canonicalized Neural FieldsRohith Agaram, Shaurya Dewan, Rahul Sajnani, Adrien Poulenard, K. Madhava Krishna, Srinath Sridhar 0002. 4500-4510 [doi]

Improving Fairness in Facial Albedo Estimation via Visual-Textual CuesXingyu Ren, Jiankang deng, Chao Ma 0004, Yichao Yan, Xiaokang Yang. 4511-4520 [doi]

High-fidelity 3D Face Generation from Natural Language DescriptionsMenghua Wu, Hao Zhu, Linjia Huang, Yiyu Zhuang, Yuanxun Lu, Xun Cao. 4521-4530 [doi]

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face AlignmentHeyuan Li, Bo Wang, Yu Cheng, Mohan S. Kankanhalli, Robby T. Tan. 4531-4540 [doi]

High-fidelity Facial Avatar Reconstruction from Monocular Video with Generative PriorsYunpeng Bai, Yanbo Fan, Xuan Wang, Yong Zhang, Jingxiang Sun, Chun Yuan, Ying Shan. 4541-4551 [doi]

3DAvatarGAN: Bridging Domains for Personalized Editable AvatarsRameen Abdal, Hsin-Ying Lee, Peihao Zhu 0001, Menglei Chai, Aliaksandr Siarohin, Peter Wonka, Sergey Tulyakov. 4552-4562 [doi]

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using DiffusionTengfei Wang, Bo Zhang 0025, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, JingJing Shen, Dong Chen 0003, Fang Wen 0001, Qifeng Chen, Baining Guo. 4563-4573 [doi]

Instant Volumetric Head AvatarsWojciech Zielonka, Timo Bolkart, Justus Thies. 4574-4584 [doi]

Synthesizing Photorealistic Virtual Humans Through Cross-Modal DisentanglementSiddarth Ravichandran, Ondrej Texler, Dimitar Dinev, Hyun-Jae Kang. 4585-4594 [doi]

3D Cinemagraphy from a Single ImageXingyi Li, Zhiguo Cao 0001, Huiqiang Sun, Jianming Zhang 0001, Ke Xian, Guosheng Lin. 4595-4605 [doi]

TryOnDiffusion: A Tale of Two UNetsLuyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi 0002, Ira Kemelmacher-Shlizerman. 4606-4615 [doi]

Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand DisentanglementXingqun Qi, Chen Liu, Muyi Sun, Lincheng Li, Changjie Fan, Xin Yu 0002. 4616-4626 [doi]

Normal-guided Garment UV Prediction for Human Re-texturingYasamin Jafarian, Tuanfeng Y. Wang, Duygu Ceylan, Jimei Yang, Nathan Carr 0001, Yi Zhou, Hyun Soo Park. 4627-4636 [doi]

REC-MV: REconstructing 3D Dynamic Cloth from Monocular VideosLingteng Qiu, Guanying Chen, Jiapeng Zhou, Mutian Xu, Junle Wang, Xiaoguang Han 0001. 4637-4646 [doi]

SeSDF: Self-Evolved Signed Distance Field for Implicit 3D Clothed Human ReconstructionYukang Cao, Kai Han 0001, Kwan-Yee K. Wong. 4647-4657 [doi]

Handy: Towards a High Fidelity 3D Hand Shape and Appearance ModelRolandos-Alexandros Potamias, Stylianos Ploumpis, Stylianos Moschoglou, Vasileios Triantafyllou, Stefanos Zafeiriou. 4670-4680 [doi]

Fantastic Breaks: A Dataset of Paired 3D Scans of Real-World Broken Objects and Their Complete CounterpartsNikolas Lamb, Cameron Palmer, Benjamin Molloy, Sean Banerjee, Natasha Kholgade Banerjee. 4681-4691 [doi]

Distilling Neural Fields for Real-Time Articulated Shape ReconstructionJeff Tan, Gengshan Yang, Deva Ramanan. 4692-4701 [doi]

GANmouflage: 3D Object Nondetection with Texture FieldsRui Guo, Jasmine Collins, Oscar de Lima, Andrew Owens. 4702-4712 [doi]

3D Human Pose Estimation via Intuitive PhysicsShashank Tripathi, Lea Müller, Chun-Hao P. Huang, Omid Taheri, Michael J. Black, Dimitrios Tzionas. 4713-4725 [doi]

Object pop-up: Can we infer 3D objects and their poses from human interactions alone?Ilya A. Petrov 0001, Riccardo Marin, Julian Chibane, Gerard Pons-Moll. 4726-4736 [doi]

UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned PolicyYinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, He Wang. 4737-4746 [doi]

Constrained Evolutionary Diffusion Filter for Monocular Endoscope TrackingXiongbiao Luo. 4747-4756 [doi]

Visibility Aware Human-Object Interaction Tracking from Single RGB CameraXianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll. 4757-4768 [doi]

Transformer-based Unified Recognition of Two Hands Manipulating ObjectsHoseong Cho, Chanwoo Kim, Jihyeon Kim, Seongyeong Lee, Elkhan Ismayilzada, SeungRyul Baek. 4769-4778 [doi]

HuManiFlow: Ancestor-Conditioned Normalising Flows on SO(3) Manifolds for Human Pose and Shape Distribution EstimationAkash Sengupta, Ignas Budvytis, Roberto Cipolla. 4779-4789 [doi]

3D Human Pose Estimation with Spatio-Temporal Criss-Cross AttentionZhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, Ting Yao. 4790-4799 [doi]

GFPose: Learning 3D Human Pose Prior with Gradient FieldsHai Ci, Mingdong Wu, Wentao Zhu, Xiaoxuan Ma, Hao Dong, Fangwei Zhong, Yizhou Wang. 4800-4810 [doi]

JRDB-Pose: A Large-Scale Dataset for Multi-Person Pose Estimation and TrackingEdward Vendrow, Duy-Tho Le, Jianfei Cai 0001, Hamid Rezatofighi. 4811-4820 [doi]

Analyzing and Diagnosing Pose Estimation with AttributionsQiyuan He, Linlin Yang, Kerui Gu, Qiuxia Lin, Angela Yao. 4821-4830 [doi]

Shape-Constraint Recurrent Flow for 6D Object Pose EstimationYang Hai, Rui Song 0003, Jiaojiao Li 0001, Yinlin Hu. 4831-4840 [doi]

TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose EstimationHanzhi Chen, Fabian Manhardt, Nassir Navab, Benjamin Busam. 4841-4852 [doi]

Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image EnsembleChun-Han Yao, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang 0001, Varun Jampani. 4853-4862 [doi]

Revisiting Rolling Shutter Bundle Adjustment: Toward Accurate and Fast SolutionBangyan Liao, Delin Qu, Yifei Xue, Huiqing Zhang, Yizhen Lao. 4863-4871 [doi]

Revisiting the P3P ProblemYaqing Ding 0001, Jian Yang, Viktor Larsson, Carl Olsson, Kalle Åström. 4872-4880 [doi]

Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable CategoriesSamarth Sinha, Roman Shapovalov, Jeremy Reizenstein, Ignacio Rocco, Natalia Neverova, Andrea Vedaldi, David Novotný. 4881-4891 [doi]

MobileBrick: Building LEGO for 3D Reconstruction on Mobile DevicesKejie Li, Jia-Wang Bian, Robert Castle, Philip H. S. Torr, Victor Adrian Prisacariu. 4892-4901 [doi]

EFEM: Equivariant Neural Field Expectation Maximization for 3D Object Segmentation Without Scene SupervisionJiahui Lei, Congyue Deng, Karl Schmeckpeper, Leonidas J. Guibas, Kostas Daniilidis. 4902-4912 [doi]

GINA-3D: Learning to Generate Implicit Neural Assets in the WildBokui Shen, Xinchen Yan, Charles R. Qi, Mahyar Najibi, Boyang Deng, Leonidas J. Guibas, Yin Zhou, Dragomir Anguelov. 4913-4926 [doi]

Habitat-Matterport 3D Semantics DatasetKarmesh Yadav, Ram Ramrakhya, Santhosh Kumar Ramakrishnan, Théophile Gervet, John Turner, Aaron Gokaslan, Noah Maestre, Angel Xuan Chang, Dhruv Batra, Manolis Savva, Alexander William Clegg, Devendra Singh Chaplot. 4927-4936 [doi]

BUOL: A Bottom-Up Framework with Occupancy-Aware Lifting for Panoptic 3D Scene Reconstruction From a Single ImageTao Chu, Pan Zhang, Qiong Liu, Jiaqi Wang. 4937-4946 [doi]

Panoptic Compositional Feature Field for Editable Scene Rendering with Network-Inferred Labels via Metric LearningXinhua Cheng, Yanmin Wu, Mengxi Jia, Qian Wang, Jian Zhang. 4947-4957 [doi]

A Light Touch Approach to Teaching Transformers Multi-view GeometryYash Bhalgat, João F. Henriques, Andrew Zisserman. 4958-4969 [doi]

Learning to Render Novel Views from Wide-Baseline Stereo PairsYilun Du, Cameron Smith, Ayush Tewari, Vincent Sitzmann. 4970-4980 [doi]

Spring: A High-Resolution High-Detail Dataset and Benchmark for Scene Flow, Optical Flow and StereoLukas Mehl, Jenny Schmalfuss, Azin Jahedi, Yaroslava Nalivayko, Andrés Bruhn. 4981-4991 [doi]

EventNeRF: Neural Radiance Fields from a Single Colour Event CameraViktor Rudnev, Mohamed Elgharib, Christian Theobalt, Vladislav Golyanik. 4992-5002 [doi]

LightedDepth: Video Depth Estimation in Light of Limited Inference View AnglesShengjie Zhu, Xiaoming Liu 0002. 5003-5012 [doi]

Generating Aligned Pseudo-Supervision from Non-Aligned Data for Image Restoration in Under-Display CameraRuicheng Feng, Chongyi Li, Huaijin Chen, Shuai Li, Jinwei Gu, Chen Change Loy. 5013-5022 [doi]

Spatio-Focal Bidirectional Disparity Estimation from a Dual-Pixel ImageDonggun Kim, Hyeonjoong Jang, Inchul Kim, Min H. Kim 0001. 5023-5032 [doi]

Trap Attention: Monocular Depth Estimation with Manual TrapsChao Ning, Hongping Gan. 5033-5043 [doi]

Accelerated Coordinate Encoding: Learning to Relocalize in Minutes Using RGB and PosesEric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu. 5044-5053 [doi]

Energy-Efficient Adaptive 3D SensingBrevin Tilmon, Zhanghao Sun, Sanjeev J. Koppal, Yicheng Wu, Georgios Evangelidis 0002, Ramzi Zahreddine, Gurunandan Krishnan, Sizhuo Ma, Jian Wang. 5054-5063 [doi]

Incremental 3D Semantic Scene Graph Prediction from RGB SequencesShun-Cheng Wu, Keisuke Tateno, Nassir Navab, Federico Tombari. 5064-5074 [doi]

Consistent Direct Time-of-Flight Video Depth Super-ResolutionZhanghao Sun, Wei Ye, Jinhui Xiong, Gyeongmin Choe, Jialiang Wang, Shuochen Su, Rakesh Ranjan. 5075-5085 [doi]

Learning to Zoom and UnzoomChittesh Thavamani, Mengtian Li, Francesco Ferroni, Deva Ramanan. 5086-5095 [doi]

FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D DetectionYuqi Wang, YunTao Chen, Zhaoxiang Zhang. 5096-5105 [doi]

3D Video Object Detection with Learnable Object-Centric Global OptimizationJiawei He 0002, YunTao Chen, Naiyan Wang, Zhaoxiang Zhang. 5106-5115 [doi]

UniDistill: A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection in Bird's-Eye ViewShengchao Zhou, Weizhou Liu, Chen Hu, Shuchang Zhou 0001, Chao Ma. 5116-5125 [doi]

ARKitTrack: A New Diverse Dataset for Tracking Using Mobile RGB-D DataHaojie Zhao, Junsong Chen, Lijun Wang, Huchuan Lu. 5126-5135 [doi]

Deep Dive into Gradients: Better Optimization for 3D Object Detection with Gradient-Corrected IoU SupervisionQi Ming, Lingjuan Miao, Zhe Ma, Lin Zhao, Zhiqiang Zhou, Xuhui Huang, Yuanpei Chen, Yufei Guo. 5136-5145 [doi]

SlowLiDAR: Increasing the Latency of LiDAR-Based Detection Using Adversarial ExamplesHan Liu, Yuhao Wu, Zhiyuan Yu, Yevgeniy Vorobeychik, Ning Zhang. 5146-5155 [doi]

Normalizing Flow based Feature Synthesis for Outlier-Aware Object DetectionNishant Kumar 0005, Sinisa Segvic, Abouzar Eslami, Stefan Gumhold. 5156-5165 [doi]

OcTr: Octree-Based Transformer for 3D Object DetectionChao Zhou, Yanan Zhang 0005, Jiaxin Chen, Di Huang 0001. 5166-5175 [doi]

HypLiLoc: Towards Effective LiDAR Pose Regression with Hyperbolic FusionSijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee-Peng Tay. 5176-5185 [doi]

LiDAR2Map: In Defense of LiDAR-Based Semantic Map Construction Using Online Camera DistillationSong Wang, Wentong Li, Wenyu Liu 0005, Xiaolu Liu, Jianke Zhu. 5186-5195 [doi]

MSF: Motion-guided Sequential Fusion for Efficient 3D Object Detection from Point Cloud SequencesChenhang He, Ruihuang Li, Yabin Zhang, Shuai Li, Lei Zhang. 5196-5205 [doi]

SFD2: Semantic-Guided Feature Detection and DescriptionFei Xue, Ignas Budvytis, Roberto Cipolla. 5206-5216 [doi]

Temporal Consistent 3D LiDAR Representation Learning for Semantic Perception in Autonomous DrivingLucas Nunes, Louis Wiesmann, Rodrigo Marcuzzi, Xieyuanli Chen, Jens Behley, Cyrill Stachniss. 5217-5228 [doi]

Unsupervised 3D Point Cloud Representation Learning by Triangle Constrained Contrast for Autonomous DrivingBo Pang, Hongchi Xia, Cewu Lu. 5229-5239 [doi]

RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in Autonomous DrivingAngelika Ando, Spyros Gidaris, Andrei Bursuc, Gilles Puy, Alexandre Boulch, Renaud Marlet. 5240-5250 [doi]

Spatiotemporal Self-Supervised Learning for Point Clouds in the WildYanhao Wu, Tong Zhang, Wei Ke 0003, Sabine Süsstrunk, Mathieu Salzmann. 5251-5260 [doi]

Change-Aware Sampling and Contrastive Learning for Satellite ImagesUtkarsh Mall, Bharath Hariharan, Kavita Bala. 5261-5270 [doi]

Self-Supervised 3D Scene Flow Estimation Guided by SuperpointsYaqi Shen, Le Hui, Jin Xie, Jian Yang. 5271-5280 [doi]

SCOOP: Self-Supervised Correspondence and Optimization-Based Scene FlowItai Lang, Dror Aiger, Forrester Cole, Shai Avidan, Michael Rubinstein. 5281-5290 [doi]

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object DetectionAnthony Chen, Kevin Zhang, Renrui Zhang, Zihan Wang, Yuheng Lu, Yandong Guo, Shanghang Zhang. 5291-5301 [doi]

3: Channel Pruning Plug-in for Point-Based NetworksYaomin Huang, Ning Liu, Zhengping Che, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Guixu Zhang, Xinmei Liu, Feifei Feng, Jian Tang. 5302-5312 [doi]

Binarizing Sparse Convolutional Networks for Efficient Point Cloud AnalysisXiuwei Xu, Ziwei Wang 0001, Jie Zhou 0001, Jiwen Lu. 5313-5322 [doi]

Hyperspherical Embedding for Point Cloud CompletionJunming Zhang, Haomeng Zhang, Ram Vasudevan, Matthew Johnson-Roberson. 5323-5332 [doi]

Attention-Based Point Cloud Edge SamplingChengzhi Wu, Junwei Zheng, Julius Pfrommer, Jürgen Beyerer. 5333-5343 [doi]

Starting from Non-Parametric Networks for 3D Point Cloud AnalysisRenrui Zhang, Liuhui Wang, Yali Wang, Peng Gao, Hongsheng Li, Jianbo Shi. 5344-5353 [doi]

Grad-PU: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent with Learned Distance FunctionsYun He, Danhang Tang, Yinda Zhang 0001, Xiangyang Xue, Yanwei Fu. 5354-5363 [doi]

SE-ORNet: Self-Ensembling Orientation-Aware Network for Unsupervised Point Cloud Shape CorrespondenceJiacheng Deng, Chuxin Wang, Jiahao Lu, Jianfeng He, Tianzhu Zhang, Jiyang Yu, Zhe Zhang. 5364-5373 [doi]

Robust 3D Shape Classification via Non-local Graph Attention NetworkShengwei Qin, Zhong Li, Ligang Liu. 5374-5383 [doi]

Rotation-Invariant Transformer for Point Cloud MatchingHao Yu 0010, Zheng Qin, Ji Hou, Mahdi Saleh, Dongsheng Li 0001, Benjamin Busam, Slobodan Ilic. 5384-5393 [doi]

Deep Graph-based Spatial Consistency for Robust Non-rigid Point Cloud RegistrationZheng Qin 0002, Hao Yu 0010, Changjian Wang, Yuxing Peng 0001, Kai Xu 0004. 5394-5403 [doi]

Efficient RGB-T Tracking via Cross-Modality DistillationTianlu Zhang, Hongyuan Guo, Qiang Jiao, Qiang Zhang, Jungong Han. 5404-5413 [doi]

Finding Geometric Models by Clustering in the Consensus SpaceDaniel Barath, Denys Rozumnyi, Ivan Eichhardt, Levente Hajder, Jiri Matas. 5414-5424 [doi]

Adaptive Assignment for Geometry Aware Local Feature MatchingDihe Huang, Ying Chen, Yong Liu, Jianlin Liu, Shang Xu, Wenlong Wu, Yikang Ding, Fan Tang, Chengjie Wang. 5425-5434 [doi]

Masked Representation Learning for Domain Generalized Stereo MatchingZhibo Rao, Bangshu Xiong, Mingyi He, Yuchao Dai, Renjie He, Zhelun Shen, Xing Li. 5435-5444 [doi]

Learning Optical Expansion from Scale MatchingHan Ling, Yinghui Sun, Quansen Sun, Zhenwen Ren. 5445-5454 [doi]

AnyFlow: Arbitrary Scale Optical Flow with Implicit Neural RepresentationHyunyoung Jung, Zhuo Hui, Lei Luo, Haitao Yang, Feng Liu, Sungjoo Yoo, Rakesh Ranjan, Denis Demandolx. 5455-5465 [doi]

HouseDiffusion: Vector Floorplan Generation via a Diffusion Model with Discrete and Continuous DenoisingMohammad Amin Shabani, Sepidehsadat Hosseini, Yasutaka Furukawa. 5466-5475 [doi]

Localized Semantic Feature Mixers for Efficient Pedestrian Detection in Autonomous DrivingAbdul Hannan Khan, Mohammed Shariq Nawaz, Andreas Dengel 0001. 5476-5485 [doi]

V2X-Seq: A Large-Scale Sequential Dataset for Vehicle-Infrastructure Cooperative Perception and ForecastingHaibao Yu, Wenxian Yang, Hongzhi Ruan, Zhenwei Yang, Yingjuan Tang, Xu Gao, Xin Hao, Yifeng Shi, Yifeng Pan, Ning Sun, Juan Song, Jirui Yuan, Ping Luo, Zaiqing Nie. 5486-5495 [doi]

ViP3D: End-to-End Visual Trajectory Prediction via 3D Agent QueriesJunru Gu, Chenxu Hu, Tianyuan Zhang 0002, Xuanyao Chen, Yilun Wang, Yue Wang 0041, Hang Zhao. 5496-5506 [doi]

IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory PredictionDekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt, Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari, Benjamin Busam. 5507-5516 [doi]

Leapfrog Diffusion Model for Stochastic Trajectory PredictionWeibo Mao, Chenxin Xu, Qi Zhu, Siheng Chen, Yanfeng Wang. 5517-5526 [doi]

DeFeeNet: Consecutive 3D Human Motion Prediction with Deviation FeedbackXiaoning Sun, HuaiJiang Sun, Bin Li, Dong Wei, Weiqing Li, Jianfeng Lu. 5527-5536 [doi]

Self-Correctable and Adaptable Inference for Generalizable Human Pose EstimationZhehan Kan, Shuoshuo Chen, Ce Zhang, Yushun Tang, Zhihai He. 5537-5546 [doi]

ReDirTrans: Latent-to-Latent Translation for Gaze and Head RedirectionShiwei Jin, Zhen Wang, Lei Wang, Ning Bi, Truong Q. Nguyen. 5547-5556 [doi]

Feature Shrinkage Pyramid for Camouflaged Object Detection with TransformersZhou Huang, Hang Dai, Tian-Zhu Xiang, Shuo Wang, Huai-Xin Chen, Jie Qin, Huan Xiong. 5557-5566 [doi]

OVTrack: Open-Vocabulary Multiple Object TrackingSiyuan Li, Tobias Fischer 0001, Lei Ke, Henghui Ding, Martin Danelljan, Fisher Yu. 5567-5577 [doi]

GaitGCI: Generative Counterfactual Intervention for Gait RecognitionHuanzhang Dou, Pengyi Zhang, Wei Su, Yunlong Yu, Yining Lin, Xi Li 0001. 5578-5588 [doi]

Multi-Label Compound Expression Recognition: C-EXPR Database & NetworkDimitrios Kollias. 5589-5598 [doi]

Blemish-aware and Progressive Face Retouching with Limited Paired DataLianxin Xie, Wen Xue, Zhen Xu, Si Wu 0002, Zhiwen Yu 0002, Hau-San Wong. 5599-5608 [doi]

High-Fidelity and Freely Controllable Talking Head Video GenerationYue Gao, Yuan Zhou, Jinglu Wang, Xiao Li, Xiang Ming, Yan Lu. 5609-5619 [doi]

3Mformer: Multi-order Multi-mode Transformer for Skeletal Action RecognitionLei Wang, Piotr Koniusz. 5620-5631 [doi]

UDE: A Unified Driving Engine for Human Motion GenerationZixiang Zhou, Baoyuan Wang. 5632-5641 [doi]

Data-Driven Feature Tracking for Event CamerasNico Messikommer, Carter Fang, Mathias Gehrig, Davide Scaramuzza 0001. 5642-5651 [doi]

MoStGAN-V: Video Generation with Temporal Motion StylesXiaoqian Shen, Xiang Li, Mohamed Elhoseiny. 5652-5661 [doi]

Two-stage Co-segmentation Network Based on Discriminative Representation for Recovering Human Mesh from VideosBoyang Zhang, Kehua Ma, Suping Wu, Zhixiang Yuan. 5662-5670 [doi]

Joint Appearance and Motion Learning for Efficient Rolling Shutter CorrectionBin Fan 0002, Yuxin Mao, Yuchao Dai, Zhexiong Wan, Qi Liu. 5671-5681 [doi]

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame InterpolationGuozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang. 5682-5692 [doi]

Deep Stereo Video InpaintingZhiliang Wu, Changchang Sun, Hanyu Xuan, Yan Yan 0002. 5693-5702 [doi]

Burstormer: Burst Image Restoration and Enhancement TransformerAkshay Dudhane, Syed Waqas Zamir, Salman Khan 0001, Fahad Shahbaz Khan, Ming-Hsuan Yang 0001. 5703-5712 [doi]

Blur Interpolation Transformer for Real-World Motion from BlurZhihang Zhong, Mingdeng Cao, Xiang Ji, Yinqiang Zheng, Imari Sato. 5713-5723 [doi]

HDR Imaging with Spatially Varying Signal-to-Noise RatiosYiheng Chi, Xingguang Zhang, Stanley H. Chan. 5724-5734 [doi]

Light Source Separation and Intrinsic Image Decomposition under AC IlluminationYusaku Yoshida, Ryo Kawahara, Takahiro Okabe. 5735-5743 [doi]

Physics-Guided ISO-Dependent Sensor Noise Modeling for Extreme Low-Light PhotographyYue Cao, Ming Liu, Shuai Liu, Xiaotao Wang, Lei Lei, Wangmeng Zuo. 5744-5753 [doi]

Neumann Network with Recursive Kernels for Single Image Defocus DeblurringYuhui Quan, Zicong Wu, Hui Ji. 5754-5763 [doi]

UMat: Uncertainty-Aware Single Image High Resolution Material CaptureCarlos Rodríguez-Pardo, Henar Dominguez-Elvira, David Pascual-Hernández, Elena Garces 0001. 5764-5774 [doi]

SMAE: Few-shot Learning for HDR Deghosting with Saturation-Aware Masked AutoencodersQingsen Yan, Song Zhang, Weiye Chen, Hao Tang, Yu Zhu, Jinqiu Sun, Luc Van Gool, Yanning Zhang. 5775-5784 [doi]

Curricular Contrastive Regularization for Physics-Aware Single Image DehazingYu Zheng, Jiahui Zhan, Shengfeng He, Junyu Dong, Yong Du 0003. 5785-5794 [doi]

PatchCraft Self-Supervised Training for Correlated Image DenoisingGregory Vaksman, Michael Elad. 5795-5804 [doi]

Spectral Enhanced Rectangle Transformer for Hyperspectral Image DenoisingMiaoyu Li, Ji Liu, Ying Fu, Yulun Zhang, Dejing Dou. 5805-5814 [doi]

All-in-One Image Restoration for Unknown Degradations Using Adaptive Discriminative Filters for Specific DegradationsDongwon Park, Byung-Hyun Lee, Se Young Chun. 5815-5824 [doi]

Ingredient-oriented Multi-Degradation Learning for Image RestorationJinghao Zhang, Jie Huang, Mingde Yao, Zizheng Yang, Hu Yu, Man Zhou, Feng Zhao. 5825-5835 [doi]

CR-FIQA: Face Image Quality Assessment by Learning Sample Relative ClassifiabilityFadi Boutros, Meiling Fang, Marcel Klemt, Biying Fu, Naser Damer. 5836-5845 [doi]

Re-IQA: Unsupervised Learning for Image Quality Assessment in the WildAvinab Saha, Sandeep Mishra, Alan C. Bovik. 5846-5855 [doi]

Toward Accurate Post-Training Quantization for Image Super ResolutionZhijun Tu, Jie Hu, Hanting Chen, Yunhe Wang. 5856-5865 [doi]

Learning Steerable Function for Efficient Image ResamplingJiacheng Li, Chang Chen, Wei Huang, Zhiqiang Lang, Fenglong Song, Youliang Yan, Zhiwei Xiong. 5866-5875 [doi]

ABCD : Arbitrary Bitwise Coefficient for De-QuantizationWoo Kyoung Han, Byeonghun Lee, Sang-Hyun Park, Kyong Hwan Jin. 5876-5885 [doi]

Efficient Frequency Domain-based Transformers for High-Quality Image DeblurringLingshun Kong, Jiangxin Dong, Jianjun Ge, Mingqiang Li, Jinshan Pan. 5886-5895 [doi]

Learning A Sparse Transformer Network for Effective Image DerainingXiang Chen, Hao Li, Mingqiang Li, Jinshan Pan. 5896-5905 [doi]

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image FusionZixiang Zhao, Haowen Bai, Jiangshe Zhang 0001, Yulun Zhang, Shuang Xu, Zudi Lin, Radu Timofte, Luc Van Gool. 5906-5916 [doi]

PCT-Net: Full Resolution Image Harmonization Using Pixel-Wise Color TransformationsJulian Jorge Andrade Guerreiro, Mitsuru Nakazawa, Björn Stenger. 5917-5926 [doi]

Semi-Supervised Parametric Real-World Image HarmonizationKe Wang, Michaël Gharbi, He Zhang, Zhihao Xia, Eli Shechtman. 5927-5936 [doi]

Towards Robust Tampered Text Detection in Document Image: New Dataset and New SolutionChenfan Qu, Chongyu Liu, Yuliang Liu, Xinhong Chen 0005, Dezhi Peng, Fengjun Guo, Lianwen Jin. 5937-5946 [doi]

QuantArt: Quantizing Image Style Transfer Towards High Visual FidelitySiyu Huang, Jie An 0002, Donglai Wei 0001, Jiebo Luo, Hanspeter Pfister. 5947-5956 [doi]

Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative ModelTakehiro Aoshima, Takashi Matsubara 0001. 5957-5967 [doi]

Person Image Synthesis via Denoising Diffusion ModelAnkan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Jorma Laaksonen, Mubarak Shah, Fahad Shahbaz Khan. 5968-5976 [doi]

Disentangling Writer and Character Styles for Handwriting GenerationGang Dai, Yifan Zhang, Qingfeng Wang, Qing Du, Zhuliang Yu, Zhuoman Liu, Shuangping Huang. 5977-5986 [doi]

NoisyTwins: Class-Consistent and Diverse Image Generation Through StyleGANsHarsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu. 5987-5996 [doi]

High-Fidelity Guided Image Synthesis with Latent Diffusion ModelsJaskirat Singh, Stephen Gould, Liang Zheng 0001. 5997-6006 [doi]

Imagic: Text-Based Real Image Editing with Diffusion ModelsBahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani. 6007-6017 [doi]

PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation LayoutHsiaoYuan Hsu, Xiangteng He, Yuxin Peng, Hao Kong, Qing Zhang. 6018-6026 [doi]

SINE: SINgle Image Editing with Text-to-Image Diffusion ModelsZhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris N. Metaxas, Jian Ren. 6027-6037 [doi]

Null-text Inversion for Editing Real Images using Guided Diffusion ModelsRon Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or. 6038-6047 [doi]

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion ModelsGowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein. 6048-6058 [doi]

Parallel Diffusion Models of Operator and Image for Blind Inverse ProblemsHyungjin Chung, Jeongsol Kim, Sehui Kim, Jong Chul Ye. 6059-6069 [doi]

Unite and Conquer: Plug & Play Multi-Modal Synthesis Using Diffusion ModelsNithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M. Patel 0001. 6070-6079 [doi]

Collaborative Diffusion for Multi-Modal Face Generation and EditingZiqi Huang, Kelvin C. K. Chan, Yuming Jiang 0003, Ziwei Liu 0002. 6080-6090 [doi]

Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video EncodingGyeongman Kim, Hajin Shim, Hyunsu Kim, Yunjey Choi, Junho Kim, Eunho Yang. 6091-6100 [doi]

NVTC: Nonlinear Vector Transform CodingRunsen Feng, Zongyu Guo, Weiping Li, Zhibo Chen 0001. 6101-6110 [doi]

Motion Information Propagation for Neural Video CompressionLinfeng Qi, Jiahao Li, Bin Li, Houqiang Li, Yan Lu. 6111-6120 [doi]

A Dynamic Multi-Scale Voxel Flow Network for Video PredictionXiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou 0001. 6121-6131 [doi]

Towards Scalable Neural Representation for Diverse VideosBo He 0004, Xitong Yang, Hanyu Wang 0002, Zuxuan Wu, Hao Chen, Shuaiyi Huang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava. 6132-6142 [doi]

DINER: Disorder-Invariant Implicit Neural RepresentationShaowen Xie, Hao Zhu, Zhen Liu, Qi Zhang, You Zhou, Xun Cao, Zhan Ma. 6143-6152 [doi]

SCConv: Spatial and Channel Reconstruction Convolution for Feature RedundancyJiafeng Li, Ying Wen 0003, Lianghua He. 6153-6162 [doi]

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural NetworkXuan Shen, Yaohua Wang, Ming Lin, Yilun Huang 0004, Hao Tang, Xiuyu Sun, Yanzhi Wang. 6163-6173 [doi]

Optimization-Inspired Cross-Attention Transformer for Compressive SensingJiechong Song, Chong Mou, Shiqi Wang 0001, Siwei Ma, Jian Zhang. 6174-6184 [doi]

Neighborhood Attention TransformerAli Hassani 0001, Steven Walton 0001, Jiachen Li 0003, Shen Li, Humphrey Shi. 6185-6194 [doi]

Making Vision Transformers Efficient from A Token Sparsification ViewShuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang, Rong Jin 0001, Mike Zheng Shou. 6195-6205 [doi]

Towards Efficient Use of Multi-Scale Features in Transformer-Based Object DetectorsGongjie Zhang, Zhipeng Luo, Zichen Tian, Jingyi Zhang 0005, Xiaoqin Zhang, Shijian Lu. 6206-6216 [doi]

Neuralizer: General Neuroimage Analysis without Re-TrainingSteffen Czolbe, Adrian V. Dalca. 6217-6230 [doi]

Learning Partial Correlation based Deep Visual Representation for Image ClassificationSaimunur Rahman, Piotr Koniusz, Lei Wang, Luping Zhou, Peyman Moghadam, Changming Sun. 6231-6240 [doi]

Understanding Masked Image Modeling via Learning Occlusion Invariant FeatureXiangwen Kong, Xiangyu Zhang 0005. 6241-6251 [doi]

MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision TransformersJihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li 0001. 6252-6261 [doi]

Adaptive Graph Convolutional Subspace ClusteringLai Wei, Zhengwei Chen, Jun Yin 0003, Changming Zhu, Rigui Zhou, Jin Liu. 6262-6271 [doi]

Deep Learning of Partial Graph Matching via Differentiable Top-KRunzhong Wang, Ziao Guo, Shaofei Jiang, Xiaokang Yang, Junchi Yan. 6272-6281 [doi]

DynamicDet: A Unified Dynamic Architecture for Object DetectionZhihao Lin, Yongtao Wang, Jinhe Zhang, Xiaojie Chu. 6282-6291 [doi]

IS-GGT: Iterative Scene Graph Generation with Generative TransformersSanjoy Kundu, Sathyanarayanan N. Aakur. 6292-6301 [doi]

Fast Contextual Scene Graph Generation with Unbiased Context AugmentationTianlei Jin, Fangtai Guo, Qiwei Meng, Shiqiang Zhu, Xiangming Xi, Wen Wang, Zonghao Mu, Wei Song. 6302-6311 [doi]

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation LearningRui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Yu-Gang Jiang. 6312-6322 [doi]

MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object SegmentationRezaul Karim, He Zhao 0004, Richard P. Wildes, Mennatullah Siam. 6323-6333 [doi]

MOVES: Manipulated Objects in Video Enable SegmentationRichard E. L. Higgins, David F. Fouhey. 6334-6343 [doi]

InstMove: Instance Motion for Object-centric Video SegmentationQihao Liu, Junfeng Wu, Yi Jiang, Xiang Bai, Alan L. Yuille, Song Bai. 6344-6354 [doi]

ZBS: Zero-Shot Background Subtraction via Instance-Level Background Modeling and Foreground SelectionYongqi An, Xu Zhao, Tao Yu, Haiyun Gu, Chaoyang Zhao, Ming Tang 0001, Jinqiao Wang. 6355-6364 [doi]

Feature Aggregated Queries for Transformer-Based Video Object DetectorsYiming Cui. 6365-6376 [doi]

Context-Aware Relative Object Queries to Unify Video Instance and Panoptic SegmentationAnwesa Choudhuri, Girish Chowdhary 0001, Alexander G. Schwing. 6377-6386 [doi]

Selective Structured State-Spaces for Long-Form Video UnderstandingJue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu, Mohamed Omar, Raffay Hamid. 6387-6397 [doi]

Relational Space-Time Query in Long-Form VideosXitong Yang, Fu-Jen Chu, Matt Feiszli, Raghav Goyal, Lorenzo Torresani, Du Tran. 6398-6408 [doi]

Novel-View Acoustic SynthesisChangan Chen, Alexander Richard, Roman Shapovalov, Vamsi Krishna Ithapu, Natalia Neverova, Kristen Grauman, Andrea Vedaldi. 6409-6419 [doi]

Learning Audio-Visual Source Localization via False Negative Aware Contrastive LearningWeixuan Sun, Jiayi Zhang, Jianyuan Wang, Zheyuan Liu 0002, Yiran Zhong, Tianpeng Feng, Yandong Guo, Yanhao Zhang, Nick Barnes. 6420-6429 [doi]

Sound to Visual Scene Generation by Audio-to-Visual Latent AlignmentKim Sung-Bin, Arda Senocak, Hyunwoo Ha, Andrew Owens, Tae Hyun Oh. 6430-6440 [doi]

CASP-Net: Rethinking Video Saliency Prediction from an Audio-Visual Consistency Perceptual PerspectiveJunwen Xiong, Ganglai Wang, Peng Zhang, Wei Huang 0013, Yufei Zha, Guangtao Zhai. 6441-6450 [doi]

Decompose More and Aggregate Better: Two Closer Looks at Frequency Representation Learning for Human Motion PredictionXuehao Gao, Shaoyi Du, Yang Wu, Yang Yang 0066. 6451-6460 [doi]

TempSAL - Uncovering Temporal Information for Deep Saliency PredictionBahar Aydemir, Ludo Hoffstetter, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk. 6461-6470 [doi]

Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton FeaturesFumiaki Sato, Ryo Hachiuma, Taiki Sekii. 6471-6480 [doi]

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action RecognitionXinyu Gong, Sreyas Mohan, Naina Dhingra, Jean Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan. 6481-6491 [doi]

Active Exploration of Multimodal Complementarity for Few-Shot Action RecognitionYuyang Wanyan, Xiaoshan Yang, Chaofan Chen, Changsheng Xu. 6492-6502 [doi]

Reducing the Label Bias for Timestamp Supervised Temporal Action SegmentationKaiyuan Liu, Yunheng Li, Shenglan Liu, Chenwei Tan, Zihang Shao. 6503-6513 [doi]

Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization TasksHyolim Kang, Hanjung Kim, Joungbin An, Minsu Cho, Seon Joo Kim. 6514-6523 [doi]

Iterative Proposal Refinement for Weakly-Supervised Video GroundingMeng Cao, Fangyun Wei, Can Xu, Xiubo Geng, Long Chen, Can Zhang, Yuexian Zou, Tao Shen, Daxin Jiang. 6524-6534 [doi]

Movies2Scenes: Using Movie Metadata to Learn Scene RepresentationShixing Chen, Chun-Hao Liu, Xiang Hao, Xiaohan Nie, Maxim Arap, Raffay Hamid. 6535-6544 [doi]

Fine-tuned CLIP Models are Efficient Video LearnersHanoona Abdul Rasheed, Muhammad Uzair Khattak, Muhammad Maaz 0001, Salman Khan, Fahad Shahbaz Khan. 6545-6554 [doi]

Revisiting Temporal Modeling for CLIP-Based Image-to-Video Knowledge TransferringRuyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li. 6555-6564 [doi]

VoP: Text-Video Co-Operative Prompt Tuning for Cross-Modal RetrievalSiteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang. 6565-6574 [doi]

ProTéGé: Untrimmed Pretraining for Video Temporal Grounding by Video Temporal GroundingLan Wang, Gaurav Mittal, Sandra Sajeev, Ye Yu 0003, Matthew Hall, Vishnu Naresh Boddeti, Mei Chen. 6575-6585 [doi]

Learning Video Representations from Large Language ModelsYue Zhao 0006, Ishan Misra, Philipp Krähenbühl, Rohit Girdhar. 6586-6597 [doi]

All in One: Exploring Unified Video-Language Pre-TrainingJinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Kevin Qinghong Lin, Satoshi Tsutsui, Xudong Lin 0003, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou. 6598-6608 [doi]

High-Fidelity Generalized Emotional Talking Face Generation with Multi-Modal Emotion Space LearningChao Xu, Junwei Zhu, Jiangning Zhang, Yue Han, Wenqing Chu, Ying Tai, Chengjie Wang, Zhifeng Xie, Yong Liu. 6609-6619 [doi]

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language ModelsWenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang. 6620-6630 [doi]

Decoupled Multimodal Distilling for Emotion RecognitionYong Li, Yuanzhi Wang, Zhen Cui 0001. 6631-6640 [doi]

Affection: Learning Affective Explanations for Real-World Visual DataPanos Achlioptas, Maks Ovsjanikov, Leonidas J. Guibas, Sergey Tulyakov. 6641-6651 [doi]

An Actor-centric Causality Graph for Asynchronous Temporal Inference in Group ActivityZhao Xie, Tian Gao, Kewei Wu, Jiao Chang. 6652-6661 [doi]

VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-SupervisionMengyin Liu, Jie Jiang, Chao Zhu 0003, Xu-Cheng Yin. 6662-6671 [doi]

3D-Aware Object Goal Navigation via Simultaneous Exploration and IdentificationJiazhao Zhang, Liu Dai, Fanpeng Meng, Qingnan Fan, Xuelin Chen, Kai Xu, He Wang. 6672-6682 [doi]

Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum GroundingMinyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh. 6683-6693 [doi]

NaQ: Leveraging Narrations as Queries to Supervise Episodic MemorySanthosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman. 6694-6703 [doi]

2: Emergent Communication for Embodied ControlYao Mu, Shunyu Yao, Mingyu Ding, Ping Luo, Chuang Gan. 6704-6714 [doi]

Abstract Visual Reasoning: An Algebraic Approach for Solving Raven's Progressive MatricesJingyi Xu, Tushar Vaidya, Yufei Wu 0003, Saket Chandra, Zhangsheng Lai, Kai Fong Ernest Chong. 6715-6724 [doi]

Logical Implications for Visual Question Answering ConsistencySergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman. 6725-6735 [doi]

Divide and Conquer: Answering Questions with Object Factorization and Compositional ReasoningShi Chen, Qi Zhao. 6736-6745 [doi]

The Dialog Must Go On: Improving Visual Dialog via Generative Self-TrainingGi-Cheon Kang, Sungdong Kim, Jin-Hwa Kim, Donghyun Kwak, Byoung-Tak Zhang. 6746-6756 [doi]

Visual-Language Prompt Tuning with Knowledge-Guided Context OptimizationHantao Yao, Rui Zhang, Changsheng Xu. 6757-6767 [doi]

Probabilistic Prompt Learning for Dense PredictionHyeongjun Kwon, Taeyong Song, Somi Jeong, Jin Kim, Jinhyun Jang, Kwanghoon Sohn. 6768-6777 [doi]

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language UnderstandingMorris Alper, Michael Fiman, Hadar Averbuch-Elor. 6778-6788 [doi]

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion LearningYatai Ji, Rongcheng Tu, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, Wei Liu 0005. 6789-6798 [doi]

Affordance Grounding from Demonstration Video to Target ImageJoya Chen, Difei Gao, Kevin Qinghong Lin, Mike Zheng Shou. 6799-6808 [doi]

Leverage Interactive Affinity for Affordance LearningHongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao. 6809-6819 [doi]

DeAR: Debiasing Vision-Language Models with Additive ResidualsAshish Seth, Mayur Hemani, Chirag Agarwal. 6820-6829 [doi]

Images Speak in Images: A Generalist Painter for In-Context Visual LearningXinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang 0003. 6830-6839 [doi]

Hyperbolic Contrastive Learning for Visual Representations beyond ObjectsSongwei Ge, Shlok Mishra, Simon Kornblith, Chun-Liang Li, David Jacobs 0001. 6840-6849 [doi]

Picture that Sketch: Photorealistic Image Generation from Abstract SketchesSubhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song. 6850-6861 [doi]

GeneCIS: A Benchmark for General Conditional Image SimilaritySagar Vaze, Nicolas Carion, Ishan Misra. 6862-6872 [doi]

Exploiting Unlabelled Photos for Stronger Fine-Grained SBIRAneeshan Sain, Ayan Kumar Bhunia, Subhadeep Koley, Pinaki Nath Chowdhury, Soumitri Chattopadhyay, Tao Xiang, Yi-Zhe Song. 6873-6883 [doi]

Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching Between Parts and WordsChuan Tang, Xi Yang, Bojian Wu, Zhizhong Han, Yi Chang. 6884-6893 [doi]

DeltaEdit: Exploring Text-free Training for Text-Driven Image ManipulationYueming Lyu, Tianwei Lin, Fu Li, Dongliang He, Jing Dong 0003, Tieniu Tan. 6894-6903 [doi]

Detecting and Grounding Multi-Modal Media ManipulationRui Shao, Tianxing Wu 0002, Ziwei Liu. 6904-6913 [doi]

Positive-Augmented Contrastive Learning for Image and Video Captioning EvaluationSara Sarto, Manuele Barraco, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara. 6914-6924 [doi]

Similarity Maps for Self-Training Weakly-Supervised Phrase GroundingTal Shaharabany, Lior Wolf. 6925-6934 [doi]

Cross-Domain Image Captioning with Discriminative FinetuningRoberto Dessì, Michele Bevilacqua, Eleonora Gualdoni, Nathanaël Carraz Rakotonirina, Francesca Franzon, Marco Baroni. 6935-6944 [doi]

EXIF as Language: Learning Cross-Modal Associations between Images and Camera MetadataChenhao Zheng, Ayush Shrivastava, Andrew Owens. 6945-6956 [doi]

Uncurated Image-Text Datasets: Shedding Light on Demographic BiasNoa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima. 6957-6966 [doi]

Filtering, Distillation, and Hard Negatives for Vision-Language Pre-TrainingFilip Radenovic, Abhimanyu Dubey, Abhishek Kadian, Todor Mihaylov, Simon Vandenhende, Yash Patel, Yi Wen, Vignesh Ramanathan, Dhruv Mahajan 0001. 6967-6977 [doi]

Turning a CLIP Model into a Scene Text DetectorWenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren 0002, Xiang Bai. 6978-6988 [doi]

ScanDMM: A Deep Markov Model of Scanpath Prediction for 360° ImagesXiangjie Sui, Yuming Fang, Hanwei Zhu, Shiqi Wang 0001, Zhou Wang 0001. 6989-6999 [doi]

CrOC: Cross-View Online Clustering for Dense Visual Representation LearningThomas Stegmüller, Tim Lebailly, Behzad Bozorgtabar, Tinne Tuytelaars, Jean-Philippe Thiran. 7000-7009 [doi]

PLA: Language-Driven Open-Vocabulary 3D Scene UnderstandingRunyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi. 7010-7019 [doi]

CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIPRunnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao, Wenping Wang. 7020-7030 [doi]

CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-MatchingXiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li. 7031-7040 [doi]

Open-vocabulary Attribute DetectionMaría Alejandra Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox. 7041-7050 [doi]

Learning to Detect and Segment for Open Vocabulary Object DetectionTao Wang. 7051-7060 [doi]

Open-Vocabulary Semantic Segmentation with Mask-adapted CLIPFeng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang Zhang 0005, Peizhao Zhang, Peter Vajda, Diana Marculescu. 7061-7070 [doi]

A Simple Framework for Text-Supervised Semantic SegmentationMuyang Yi, Quan Cui, Hao Wu, Cheng Yang, Osamu Yoshie, Hongtao Lu. 7071-7080 [doi]

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable PartsHaoran Geng, Helin Xu, Chengyang Zhao, Chao Xu 0016, Li Yi, Siyuan Huang, He Wang. 7081-7091 [doi]

GeoLayoutLM: Geometric Pre-training for Visual Information ExtractionChuwei Luo, Changxu Cheng, Qi Zheng, Cong Yao. 7092-7101 [doi]

Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive LossAnas Mahmoud, Jordan S. K. Hu, Tianshu Kuai, Ali Harakeh, Liam Paull, Steven L. Waslander. 7102-7110 [doi]

Generative Semantic SegmentationJiaqi Chen, Jiachen Lu, Xiatian Zhu, Li Zhang. 7111-7120 [doi]

MISC210K: A Large-Scale Dataset for Multi-Instance Semantic CorrespondenceYixuan Sun, Yiwen Huang, Haijing Guo, Yuzhou Zhao, Runmin Wu, Yizhou Yu, Weifeng Ge, Wenqiang Zhang. 7121-7130 [doi]

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic SegmentationYong Yang, Qiong Chen, Yuan Feng, Tianlin Huang. 7131-7140 [doi]

PACO: Parts and Attributes of Common ObjectsVignesh Ramanathan, Anmol Kalia, Vladan Petrovic, Yi Wen, Baixue Zheng, Baishan Guo, Rui Wang 0076, Aaron Marquez, Rama Kovvuri, Abhishek Kadian, Amir Mousavi, Yiwen Song, Abhimanyu Dubey, Dhruv Mahajan 0001. 7141-7151 [doi]

PartDistillation: Learning Parts from Instance SegmentationJang Hyun Cho, Philipp Krähenbühl, Vignesh Ramanathan. 7152-7161 [doi]

ACSeg: Adaptive Conceptualization for Unsupervised Semantic SegmentationKehan Li 0002, Zhennan Wang, Zesen Cheng, Runyi Yu, Yian Zhao, Guoli Song, Chang Liu, Li Yuan, Jie Chen. 7162-7172 [doi]

Reliability in Semantic Segmentation: Are we on the Right Track?Pau de Jorge, Riccardo Volpi, Philip H. S. Torr, Grégory Rogez. 7173-7182 [doi]

Rethinking the Correlation in Few-Shot Segmentation: A Buoys ViewYuan Wang, Rui Sun, Tianzhu Zhang. 7183-7192 [doi]

SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationRuihuang Li, Chenhang He, Yabin Zhang, Shuai Li, Liyi Chen, Lei Zhang. 7193-7203 [doi]

Endpoints Weight Fusion for Class Incremental Semantic SegmentationJia-Wen Xiao, Chang-Bin Zhang, Jiekang Feng, Xialei Liu, Joost van de Weijer 0001, Ming-Ming Cheng. 7204-7213 [doi]

Incrementer: Transformer for Class-Incremental Semantic Segmentation with Knowledge Distillation Focusing on Old ClassChao Shang, Hongliang Li, Fanman Meng, Qingbo Wu 0001, Heqian Qiu, Lanxiao Wang. 7214-7224 [doi]

Continuous Pseudo-Label Rectified Domain Adaptive Semantic Segmentation with Implicit Neural RepresentationsRui Gong, Qin Wang, Martin Danelljan, Dengxin Dai, Luc Van Gool. 7225-7235 [doi]

Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic SegmentationLihe Yang, Lei Qi, Litong Feng, Wayne Zhang, Yinghuan Shi. 7236-7246 [doi]

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object DetectionLong Li, Junwei Han, Ni Zhang, Nian Liu, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan. 7247-7256 [doi]

Texture-Guided Saliency Distilling for Unsupervised Salient Object DetectionHuajun Zhou, Bo Qiao 0003, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie. 7257-7267 [doi]

An Erudite Fine-Grained Visual Classification ModelDongliang Chang, Yujun Tong, Ruoyi Du, Timothy M. Hospedales, Yi-Zhe Song, Zhanyu Ma. 7268-7277 [doi]

Dynamic Graph Learning with Content-guided Spatial-Frequency Relation Reasoning for Deepfake DetectionYuan Wang, Kun Yu, Chen Chen 0036, Xiyuan Hu, Silong Peng. 7278-7287 [doi]

ScaleDet: A Scalable Multi-Dataset Object DetectorYanbei Chen, Manchen Wang, Abhay Mittal, Zhenlin Xu, Paolo Favaro, Joseph Tighe, Davide Modolo. 7288-7297 [doi]

Multi-Centroid Task Descriptor for Dynamic Class Incremental InferenceTenghao Cai, Zhizhong Zhang, Xin Tan, Yanyun Qu, Guannan Jiang, Chengjie Wang, Yuan Xie 0006. 7298-7307 [doi]

Matching Is Not Enough: A Two-Stage Framework for Category-Agnostic Pose EstimationMin Shi 0004, Zihao Huang, Xianzheng Ma, Xiaowei Hu, Zhiguo Cao 0001. 7308-7317 [doi]

Dynamic Coarse-to-Fine Learning for Oriented Tiny Object DetectionChang Xu, Jian Ding, Jinwang Wang, Wen Yang, Huai-yu, Lei Yu, Gui-Song Xia. 7318-7328 [doi]

Dense Distinct Query for End-to-End Object DetectionShilong Zhang, Xinjiang Wang, Jiaqi Wang, Jiangmiao Pang, Chengqi Lyu, Wenwei Zhang, Ping Luo, Kai Chen. 7329-7338 [doi]

Meta-Tuning Loss Functions and Data Augmentation for Few-Shot Object DetectionBerkan Demirel, Orhun Bugra Baran, Ramazan Gokberk Cinbis. 7339-7349 [doi]

One-to-Few Label Assignment for End-to-End Dense DetectionShuai Li, Minghan Li, Ruihuang Li, Chenhang He, Lei Zhang. 7350-7359 [doi]

Test Time Adaptation with Regularized Loss for Weakly Supervised Salient Object DetectionOlga Veksler. 7360-7369 [doi]

MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object DetectionLiang Liu, Boshen Zhang, Jiangning Zhang, Wuhao Zhang, Zhenye Gan, Guanzhong Tian, Wenbing Zhu, Yabiao Wang, Chengjie Wang. 7370-7379 [doi]

Exploring Incompatible Knowledge Transfer in Few-shot Image GenerationYunqing Zhao, Chao Du, Milad Abdollahzadeh, Tianyu Pang, Min Lin, Shuicheng Yan, Ngai-Man Cheung. 7380-7391 [doi]

Exploring Intra-class Variation Factors with Learnable Cluster Prompts for Semi-supervised Image SynthesisYunfei Zhang, Xiaoyang Huo, Tianyi Chen, Si Wu 0002, Hau-San Wong. 7392-7401 [doi]

A Soma Segmentation Benchmark in Full Adult Fly BrainXiaoyu Liu, Bo Hu, Mingxing Li, Wei Huang, Yueyi Zhang, Zhiwei Xiong. 7402-7411 [doi]

SDC-UDA: Volumetric Unsupervised Domain Adaptation Framework for Slice-Direction Continuous Cross-Modality Medical Image SegmentationHyungseob Shin, Hyeongyu Kim, Sewon Kim, Yohan Jun, Taejoon Eo, Dosik Hwang. 7412-7421 [doi]

Label-Free Liver Tumor SegmentationQixin Hu, Yixiong Chen, Junfei Xiao, Shuwen Sun, Jieneng Chen, Alan L. Yuille, Zongwei Zhou. 7422-7432 [doi]

Interactive and Explainable Region-guided Radiology Report GenerationTim Tanida, Philip Müller, Georgios Kaissis, Daniel Rueckert. 7433-7442 [doi]

A Loopback Network for Explainable Microvascular Invasion ClassificationShengxuming Zhang, Tianqi Shi, Yang Jiang, Xiuming Zhang, Jie Lei 0002, Zunlei Feng, Mingli Song. 7443-7453 [doi]

Task-Specific Fine-Tuning via Variational Information Bottleneck for Weakly-Supervised Pathology Whole Slide Image ClassificationHonglin Li, Chenglu Zhu, YunLong Zhang, Yuxuan Sun, Zhongyi Shui, Wenwei Kuang, Sunyi Zheng, Lin Yang. 7454-7463 [doi]

YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object DetectorsChien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao. 7464-7475 [doi]

Two-Way Multi-Label LossTakumi Kobayashi. 7476-7485 [doi]

Teaching Matters: Investigating the Role of Supervision in Vision TransformersMatthew Walmer, Saksham Suri, Kamal Gupta 0002, Abhinav Shrivastava. 7486-7496 [doi]

Label Information Bottleneck for Label EnhancementQinghai Zheng, Jihua Zhu, Haoyu Tang. 7497-7506 [doi]

Glocal Energy-based Learning for Few-Shot Open-Set RecognitionHaoyu Wang, Guansong Pang, Peng Wang 0023, Lei Zhang 0054, Wei Wei 0008, Yanning Zhang. 7507-7516 [doi]

Noisy Correspondence Learning with Meta Similarity CorrectionHaochen Han, Kaiyao Miao, Qinghua Zheng, Minnan Luo. 7517-7526 [doi]

Hubs and Hyperspheres: Reducing Hubness and Improving Transductive Few-Shot Learning with Hyperspherical EmbeddingsDaniel J. Trosten, Rwiddhi Chakraborty, Sigurd Løkse, Kristoffer Knutsen Wickstrøm, Robert Jenssen, Michael C. Kampffmeyer. 7527-7536 [doi]

Coreset Sampling from Open-Set for Fine-Grained Self-Supervised LearningSungnyun Kim, Sangmin Bae, Se-Young Yun. 7537-7547 [doi]

Boosting Semi-Supervised Learning by Exploiting All Unlabeled DataYuhao Chen, Xin Tan, Borui Zhao, Zhaowei Chen, Renjie Song, Jiajun Liang, Xuequan Lu. 7548-7557 [doi]

Trade-off between Robustness and Accuracy of Vision TransformersYanxi Li, Chang Xu. 7558-7568 [doi]

Exploring and Utilizing Pattern ImbalanceShibin Mei, Chenglong Zhao, Shengchao Yuan, Bingbing Ni. 7569-7578 [doi]

Dynamic Conceptional Contrastive Learning for Generalized Category DiscoveryNan Pu, Zhun Zhong, Nicu Sebe. 7579-7588 [doi]

Towards Better Decision Forests: Forest Alternating OptimizationMiguel Á. Carreira-Perpiñán, Magzhan Gabidolla, Arman Zharmagambetov. 7589-7598 [doi]

Learning Debiased Representations via Conditional Attribute InterpolationYi-Kai Zhang, Qi-Wei Wang, De-Chuan Zhan, Han-Jia Ye. 7599-7608 [doi]

On the Pitfall of Mixup for Uncertainty CalibrationDeng-Bao Wang, Lanqing Li, Peilin Zhao, Pheng-Ann Heng, Min-Ling Zhang. 7609-7618 [doi]

Class Relationship Embedded Learning for Source-Free Unsupervised Domain AdaptationYixin Zhang, Zilei Wang, Weinan He. 7619-7629 [doi]

FeatureBooster: Boosting Feature Descriptors with a Lightweight Neural NetworkXinjiang Wang, Zeyu Liu, Yu Hu, Wei Xi, Wenxian Yu, Danping Zou. 7630-7639 [doi]

Guiding Pseudo-labels with Uncertainty Estimation for Source-free Unsupervised Domain AdaptationMattia Litrico, Alessio Del Bue, Pietro Morerio. 7640-7650 [doi]

Divide and Adapt: Active Domain Adaptation via Customized LearningDuojun Huang, Jichang Li, Weikai Chen 0001, Junshi Huang, Zhenhua Chai, Guanbin Li. 7651-7660 [doi]

Understanding and Constructing Latent Modality Structures in Multi-Modal Representation LearningQian Jiang, Changyou Chen, Han Zhao 0002, Liqun Chen, Qing-ping, Son Dinh Tran, Yi Xu, Belinda Zeng, Trishul Chilimbi. 7661-7671 [doi]

Deep Factorized Metric LearningChengkun Wang, Wenzhao Zheng, Junlong Li, Jie Zhou 0001, Jiwen Lu. 7672-7682 [doi]

Meta-Causal Learning for Single Domain GeneralizationJin Chen 0009, Zhi Gao, Xinxiao Wu, Jiebo Luo. 7683-7692 [doi]

Meta Omnium: A Benchmark for General-Purpose Learning-to-LearnOndrej Bohdal, Yinbing Tian, Yongshuo Zong, Ruchika Chavhan, Da Li 0001, Henry Gouk, Li Guo, Timothy M. Hospedales. 7693-7703 [doi]

Robust Mean Teacher for Continual and Gradual Test-Time AdaptationMario Döbler, Robert A. Marsden, Bin Yang 0009. 7704-7714 [doi]

NAR-Former: Neural Architecture Representation Learning Towards Holistic Attributes PredictionYun Yi, Haokui Zhang, Wenze Hu, Nannan Wang 0001, Xiaoyu Wang 0002. 7715-7724 [doi]

Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer LearningCheng-Hao Tu 0004, Zheda Mai, Wei-Lun Chao. 7725-7735 [doi]

Architecture, Dataset and Model-Scale Agnostic Data-free Meta-LearningZixuan Hu, Li Shen, Zhenyi Wang, Tongliang Liu, Chun Yuan, Dacheng Tao. 7736-7745 [doi]

GKEAL: Gaussian Kernel Embedded Analytic Learning for Few-Shot Class Incremental TaskHuiping Zhuang, Zhenyu Weng, Run He, Zhiping Lin, Ziqian Zeng. 7746-7755 [doi]

Mitigating Task Interference in Multi-Task Learning via Explicit Task Routing with Non-Learnable PrimitivesChuntao Ding, Zhichao Lu, Shangguang Wang, Ran Cheng, Vishnu Naresh Boddeti. 7756-7765 [doi]

Boundary Unlearning: Rapid Forgetting of Deep Networks via Shifting the Decision BoundaryMin Chen, Weizhuo Gao, Gaoyang Liu, Kai Peng 0001, Chen Wang. 7766-7775 [doi]

Task Difficulty Aware Parameter Allocation & Regularization for Lifelong LearningWenjin Wang 0003, Yunqing Hu, Qianglong Chen, Yin Zhang. 7776-7785 [doi]

Learning to Retain while Acquiring: Combating Distribution-Shift in Adversarial Data-Free Knowledge DistillationGaurav Patel, Konda Reddy Mopuri, Qiang Qiu. 7786-7794 [doi]

A Unified Knowledge Distillation Framework for Deep Directed Graphical ModelsYizhuo Chen, Kaizhao Liang, Zhe Zeng, Shuochao Yao, Huajie Shao. 7795-7804 [doi]

Coaching a Teachable StudentJimuyang Zhang, Zanming Huang, Eshed Ohn-Bar. 7805-7815 [doi]

Adaptive Plasticity Improvement for Continual LearningYan-Shuo Liang, Wu-Jun Li. 7816-7825 [doi]

Improving Generalization of Meta-Learning with Inverted Regularization at Inner-LevelLianzhe Wang, Shiji Zhou, Shanghang Zhang, Xu Chu, Heng Chang, Wenwu Zhu 0001. 7826-7835 [doi]

Trainable Projected Gradient Method for Robust Fine-TuningJunjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu, Zsolt Kira. 7836-7845 [doi]

Imitation Learning as State Matching via Differentiable PhysicsSiwei Chen, Xiao Ma 0006, Zhongwen Xu. 7846-7855 [doi]

Improved Distribution Matching for Dataset CondensationGanlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu. 7856-7865 [doi]

A General Regret Bound of Preconditioned Gradient Method for DNN TrainingHongwei Yong, Ying Sun, Lei Zhang. 7866-7875 [doi]

From Node Interaction to Hop Interaction: New Effective and Scalable Graph Learning ParadigmJie Chen, Zilong Li, Yin Zhu, Junping Zhang, Jian Pu. 7876-7885 [doi]

Constructing Deep Spiking Neural Networks from Artificial Neural Networks with Knowledge DistillationQi Xu, Yaxin Li, Jiangrong Shen, Jian K. Liu, Huajin Tang, Gang Pan 0001. 7886-7895 [doi]

Rate Gradient Approximation Attack Threats Deep Spiking Neural NetworksTong Bu, Jianhao Ding, Zecheng Hao, Zhaofei Yu. 7896-7906 [doi]

MobileOne: An Improved One millisecond Mobile BackbonePavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan. 7907-7917 [doi]

Understanding Masked Autoencoders via Hierarchical Latent Variable ModelsLingjing Kong, Martin Q. Ma, Guangyi Chen 0002, Eric P. Xing, Yuejie Chi, Louis-Philippe Morency, Kun Zhang 0001. 7918-7928 [doi]

Training Debiased Subnetworks with Contrastive Weight PruningGeon Yeong Park, Sangmin Lee, Sang Wan Lee, Jong Chul Ye. 7929-7938 [doi]

One-Shot Model for Mixed-Precision QuantizationIvan Koryakovskiy, Alexandra Yakovleva, Valentin Buchnev, Temur Isaev, Gleb Odinokikh. 7939-7949 [doi]

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical PerspectiveYuexiao Ma, Huixia Li, Xiawu Zheng, XueFeng Xiao, Rui Wang, Shilei Wen, Xin Pan, Fei Chao 0001, Rongrong Ji. 7950-7959 [doi]

Adaptive Data-Free QuantizationBiao Qian, Yang Wang, Richang Hong, Meng Wang 0001. 7960-7968 [doi]

Learning to Generate Image Embeddings with User-Level Differential PrivacyZheng Xu 0002, Maxwell D. Collins, Yuxiao Wang 0001, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu 0005, Florian Schroff, H. Brendan McMahan. 7969-7980 [doi]

Cross-GAN Auditing: Unsupervised Identification of Attribute Level Similarities and Differences Between Pretrained Generative ModelsMatthew L. Olson, Shusen Liu, Rushil Anirudh, Jayaraman J. Thiagarajan, Peer-Timo Bremer, Weng-Keen Wong. 7981-7990 [doi]

HandsOff: Labeled Dataset Generation With No Additional Human AnnotationsAustin Xu, Mariya I. Vasileva, Achal Dave, Arjun Seshadri. 7991-8000 [doi]

Attribute-Preserving Face Dataset Anonymization via Latent Code OptimizationSimone Barattin, Christos Tzelepis, Ioannis Patras, Nicu Sebe. 8001-8010 [doi]

Fake it Till You Make it: Learning Transferable Representations from Synthetic ImageNet ClonesMert Bülent Sariyildiz, Karteek Alahari, Diane Larlus, Yannis Kalantidis. 8011-8021 [doi]

Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly DetectionHui Lv, Zhongqi Yue, Qianru Sun, Bin Luo, Zhen Cui 0001, Hanwang Zhang. 8022-8031 [doi]

Multimodal Industrial Anomaly Detection via Hybrid FusionYue Wang 0020, Jinlong Peng, Jiangning Zhang, Ran Yi, Yabiao Wang, Chengjie Wang. 8032-8041 [doi]

FedSeg: Class-Heterogeneous Federated Learning for Semantic SegmentationJiaxu Miao, Zongxin Yang, Leilei Fan, Yi Yang. 8042-8052 [doi]

Decentralized Learning with Multi-Headed DistillationAndrey Zhmoginov, Mark Sandler 0002, Nolan Miller, Gus Kristiansen, Max Vladymyrov. 8053-8063 [doi]

Learning Federated Visual Prompt in Null Space for MRI ReconstructionChun-Mei Feng, Bangjun Li, Xinxing Xu, Yong Liu 0026, Huazhu Fu, Wangmeng Zuo. 8064-8073 [doi]

Federated Learning with Data-Agnostic Distribution FusionJian-Hui Duan, Wenzhong Li, Derun Zou, Ruichen Li, Sanglu Lu. 8074-8083 [doi]

CaPriDe Learning: Confidential and Private Decentralized Learning Based on Encryption-Friendly Distillation LossNurbek Tastan, Karthik Nandakumar. 8084-8092 [doi]

Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen DomainsMingjun Xu, Lingyun Qin, Weijie Chen, Shiliang Pu, Lei Zhang. 8103-8112 [doi]

Single Image Backdoor Inversion via Robust Smoothed ClassifiersMingjie Sun, Zico Kolter. 8113-8122 [doi]

Effective Ambiguity Attack Against Passport-based DNN Intellectual Property Protection Schemes through Fully Connected Layer SubstitutionYiming Chen, Jinyu Tian, Xiangyu Chen, Jiantao Zhou. 8123-8132 [doi]

Color Backdoor: A Robust Poisoning Attack in Color SpaceWenbo Jiang, Hongwei Li 0001, Guowen Xu, Tianwei Zhang 0004. 8133-8142 [doi]

Adversarially Robust Neural Architecture Search for Graph Neural NetworksBeini Xie, Heng Chang, Ziwei Zhang, Xin Wang, Daixin Wang, Zhiqiang Zhang, Rex Ying, Wenwu Zhu 0001. 8143-8152 [doi]

Minimizing Maximum Model Discrepancy for Transferable Black-box Targeted AttacksAnqi Zhao, Tong Chu, Yahao Liu, Wen Li 0001, Jingjing Li, Lixin Duan. 8153-8162 [doi]

StyLess: Boosting the Transferability of Adversarial ExamplesKaisheng Liang, Bin Xiao. 8163-8172 [doi]

Improving the Transferability of Adversarial Samples by Path-Augmented MethodJianping Zhang, Jen-Tse Huang, Wenxuan Wang, Yichen Li, Weibin Wu, Xiaosen Wang, Yuxin Su 0001, Michael R. Lyu. 8173-8182 [doi]

Feature Separation and Recalibration for Adversarial RobustnessWoo-Jae Kim, Yoonki Cho, Junsik Jung, Sung-Eui Yoon. 8183-8192 [doi]

CFA: Class-Wise Calibrated Fair Adversarial TrainingZeming Wei, Yifei Wang, Yiwen Guo, Yisen Wang 0001. 8193-8201 [doi]

Revisiting Residual Networks for Adversarial RobustnessShihua Huang, Zhichao Lu, Kalyanmoy Deb, Vishnu Naresh Boddeti. 8202-8211 [doi]

Privacy-preserving Adversarial Facial FeaturesZhibo Wang 0001, He Wang 0005, Shuaifan Jin, Wenwen Zhang, Jiahui Hu, Yan Wang, Peng Sun, Wei Yuan, Kaixin Liu, Kui Rent. 8212-8221 [doi]

Edge-aware Regional Message Passing Controller for Image Forgery LocalizationDong Li, Jiaying Zhu, Menglu Wang 0003, Jiawei Liu 0001, Xueyang Fu, Zheng-Jun Zha. 8222-8232 [doi]

Swept-Angle Synthetic Wavelength InterferometryAlankar Kotwal, Anat Levin, Ioannis Gkioulekas. 8233-8243 [doi]

RefSR-NeRF: Towards High Fidelity and Super Resolution View SynthesisXudong Huang, Wei Li, Jie Hu, Hanting Chen, Yunhe Wang. 8244-8253 [doi]

FreeNeRF: Improving Few-Shot Neural Rendering with Free Frequency RegularizationJiawei Yang, Marco Pavone, Yue Wang. 8254-8263 [doi]

Local-to-Global Registration for Bundle-Adjusting Neural Radiance FieldsYue Chen, Xingyu Chen, Xuan Wang, Qi Zhang, Yu Guo 0006, Ying Shan, Fei Wang 0008. 8264-8273 [doi]

Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D SupervisionXiaoshuai Zhang, Abhijit Kundu, Thomas A. Funkhouser, Leonidas J. Guibas, Hao Su 0001, Kyle Genova. 8274-8284 [doi]

NeRF-DS: Neural Radiance Fields for Dynamic Specular ObjectsZhiwen Yan, Chen Li 0038, Gim Hee Lee. 8285-8295 [doi]

Grid-guided Neural Radiance Fields for Large Urban ScenesLinning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai 0002, Dahua Lin. 8296-8306 [doi]

Learning Neural Duplex Radiance Fields for Real-Time View SynthesisZiyu Wan, Christian Richardt, Aljaz Bozic, Chao Li, Vijay Rengarajan, Seonghyeon Nam, Xiaoyu Xiang, Tuotuo Li, Bo Zhu, Rakesh Ranjan, Jing Liao 0001. 8307-8316 [doi]

EditableNeRF: Editing Topologically Varying Neural Radiance Fields by Key PointsChengwei Zheng, Wenbin Lin, Feng Xu 0005. 8317-8327 [doi]

Real-Time Neural Light Field on Mobile DevicesJunli Cao, Huan Wang, Pavlo Chemerys, Vladislav Shakhrai, Ju Hu, Yun Fu 0001, Denys Makoviichuk, Sergey Tulyakov, Jian Ren. 8328-8337 [doi]

StyleRF: Zero-Shot 3D Style Transfer of Neural Radiance FieldsKunhao Liu, Fangneng Zhan, Yiwen Chen, Jiahui Zhang, Yingchen Yu, Abdulmotaleb El-Saddik, Shijian Lu, Eric P. Xing. 8338-8348 [doi]

Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance FieldsTao Hu, Xiaogang Xu, Shu Liu 0005, Jiaya Jia. 8349-8358 [doi]

Pointersect: Neural Rendering with Cloud-Ray IntersectionJen-Hao Rick Chang, Wei-Yu Chen, Anurag Ranjan, Kwang Moo Yi, Oncel Tuzel. 8359-8369 [doi]

Neural Fields Meet Explicit Geometric Representations for Inverse Rendering of Urban ScenesZian Wang, Tianchang Shen, Jun Gao, Shengyu Huang, Jacob Munkberg, Jon Hasselgren, Zan Gojcic, Wenzheng Chen, Sanja Fidler. 8370-8380 [doi]

DANI-Net: Uncalibrated Photometric Stereo by Differentiable Shadow Handling, Anisotropic Reflectance Modeling, and Neural Inverse RenderingZongrui Li, Qian Zheng, Boxin Shi, Gang Pan 0001, Xudong Jiang. 8381-8391 [doi]

MAIR: Multi-View Attention Inverse Rendering with 3D Spatially-Varying Lighting EstimationJunyong Choi, SeokYeong Lee, Haesol Park, Seung-Won Jung, Ig-Jae Kim, Junghyun Cho. 8392-8401 [doi]

Weakly-supervised Single-view Image RelightingRenjiao Yi, Chenyang Zhu 0002, Kai Xu. 8402-8411 [doi]

Controllable Light Diffusion for PortraitsDavid Futschik, Kelvin Ritland, James Vecore, Sean Fanello, Sergio Orts-Escolano, Brian Curless, Daniel Sýkora, Rohit Pandey. 8412-8421 [doi]

RGBD2: Generative Scene Synthesis via Incremental View Inpainting Using RGBD Diffusion ModelsJiabao Lei, Jiapeng Tang, Kui Jia. 8422-8434 [doi]

Neural Lens ModelingWenqi Xian, Aljaz Bozic, Noah Snavely, Christoph Lassner. 8435-8445 [doi]

RealFusion 360° Reconstruction of Any Object from a Single ImageLuke Melas-Kyriazi, Iro Laina, Christian Rupprecht 0001, Andrea Vedaldi. 8446-8455 [doi]

Neuralangelo: High-Fidelity Neural Surface ReconstructionZhaoshuo Li, Thomas Müller 0013, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu 0001, Chen-Hsuan Lin. 8456-8465 [doi]

PermutoSDF: Fast Multi-View Reconstruction with Implicit Surfaces Using Permutohedral LatticesRadu Alexandru Rosu, Sven Behnke. 8466-8475 [doi]

NeuDA: Neural Deformable Anchor for High-Fidelity Implicit Surface ReconstructionBowen Cai 0001, Jinchi Huang, Rongfei Jia, Chengfei Lv, Huan Fu. 8476-8485 [doi]

NEF: Neural Edge Fields for 3D Parametric Curve Reconstruction from Multi-View ImagesYunfan Ye, Renjiao Yi, Zhirui Gao, Chenyang Zhu 0002, Zhiping Cai, Kai Xu 0004. 8486-8495 [doi]

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion ModelsSeung Wook Kim 0001, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba 0001, Sanja Fidler. 8496-8506 [doi]

SinGRAF: Learning a 3D Generative Radiance Field for a Single SceneMinjung Son 0001, Jeong-Joon Park, Leonidas J. Guibas, Gordon Wetzstein. 8507-8517 [doi]

Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single Semantic MaskShangzhan Zhang, Sida Peng, Tianrun Chen, Linzhan Mou, Haotong Lin, Kaicheng Yu, Yiyi Liao, Xiaowei Zhou. 8518-8528 [doi]

Quantitative Manipulation of Custom Attributes on 3D-Aware Image SynthesisHoseok Do, Eunkyung Yoo, TaeHyeong Kim, Chul Lee, Jin Young Choi 0002. 8529-8538 [doi]

NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-Shot Real Image AnimationYu Yin, Kamran Ghasedi, HsiangTao Wu, Jiaolong Yang, Xin Tong 0001, Yun Fu 0001. 8539-8548 [doi]

PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single ImageJianhui Li, Jianmin Li, Haoji Zhang, Shilong Liu, Zhengyi Wang, Zihao Xiao, Kaiwen Zheng, Jun Zhu. 8549-8558 [doi]

Unsupervised 3D Shape Reconstruction by Part Retrieval and AssemblyXianghao Xu, Paul Guerrero, Matthew Fisher, Siddhartha Chaudhuri, Daniel Ritchie. 8559-8567 [doi]

DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked DiffusionWenliang Zhao, Yongming Rao, Weikang Shi, Zuyan Liu, Jie Zhou 0001, Jiwen Lu. 8568-8577 [doi]

Fine-Grained Face Swapping Via Regional GAN InversionZhian Liu, Maomao Li, Yong Zhang, Cairong Wang, Qi Zhang, Jue Wang, Yongwei Nie. 8578-8587 [doi]

Logical Consistency and Greater Descriptive Power for Facial Hair Attribute LearningHaiyu Wu, Grace Bezold, Aman Bhatta, Kevin W. Bowyer. 8588-8597 [doi]

Learning a 3D Morphable Face Reflectance Model from Low-Cost DataYuxuan Han, Zhibo Wang, Feng Xu. 8598-8608 [doi]

StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle TransferSasikarn Khwanmuang, Pakkapon Phongthawee, Patsorn Sangkloy, Supasorn Suwajanakorn. 8609-8618 [doi]

FaceLit: Neural 3D Relightable FacesAnurag Ranjan, Kwang Moo Yi, Jen-Hao Rick Chang, Oncel Tuzel. 8619-8628 [doi]

FitMe: Deep Photorealistic 3D Morphable Model AvatarsAlexandros Lattas, Stylianos Moschoglou, Stylianos Ploumpis, Baris Gecer, Jiankang deng, Stefanos Zafeiriou. 8629-8640 [doi]

NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and AnimationZiyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Chen Cao, Jason M. Saragih, Michael Zollhöfer, Jessica K. Hodgins, Christoph Lassner. 8641-8651 [doi]

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face AnimationWenxuan Zhang, Xiaodong Cun, Xuan Wang, Yong Zhang, Xi Shen, Yu Guo, Ying Shan, Fei Wang. 8652-8661 [doi]

High-Fidelity Clothed Avatar Reconstruction from a Single ImageTingting Liao, Xiaomei Zhang, Yuliang Xiu, Hongwei Yi, Xudong Liu, Guo-Jun Qi, Yong Zhang, Xuan Wang, Xiangyu Zhu, Zhen Lei. 8662-8672 [doi]

Music-Driven Group ChoreographyNhat Le, Thang Pham, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen 0003. 8673-8682 [doi]

Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular VideoXingyu Chen, Baoyuan Wang, Heung-Yeung Shum. 8683-8693 [doi]

Biomechanics-Guided Facial Action Unit Detection Through Force ModelingZijun Cui, Chenyi Kuang, Tian Gao, Kartik Talamadupula, Qiang Ji. 8694-8703 [doi]

Zero-shot Pose Transfer for Unrigged Stylized 3D CharactersJiashun Wang, Xueting Li, Sifei Liu, Shalini De Mello, Orazio Gallo, Xiaolong Wang, Jan Kautz. 8704-8714 [doi]

Invertible Neural SkinningYash Kant, Aliaksandr Siarohin, Riza Alp Güler, Menglei Chai, Jian Ren, Sergey Tulyakov, Igor Gilitschenski. 8715-8725 [doi]

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated MotionMichael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang. 8726-8737 [doi]

DIFu: Depth-Guided Implicit Function for Clothed Human ReconstructionDae-Young Song, Heekyung Lee, Jeongil Seo, Donghyeon Cho. 8738-8747 [doi]

Complete 3D Human Reconstruction from a Single Incomplete ImageJunying Wang, Jae Shin Yoon, Tuanfeng Y. Wang, Krishna Kumar Singh, Ulrich Neumann. 8748-8758 [doi]

Learning Neural Volumetric Representations of Dynamic Humans in MinutesChen Geng, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou. 8759-8770 [doi]

Marching-Primitives: Shape Abstraction from Signed Distance FunctionWeixiao Liu, Yuwei Wu 0002, Sipu Ruan, Gregory S. Chirikjian. 8771-8780 [doi]

Learning Analytical Posterior Probability for Human Mesh RecoveryQi Fang, Kang Chen, YingHui Fan, Qing Shuai, Jiefeng Li, Weidong Zhang. 8781-8791 [doi]

MagicPony: Learning Articulated 3D Animals in the WildShangzhe Wu, Ruining Li, Tomas Jakab, Christian Rupprecht 0001, Andrea Vedaldi. 8792-8802 [doi]

Visual-Tactile Sensing for In-Hand Object ReconstructionWenqiang Xu, Zhenjun Yu, Han Xue, Ruolin Ye, Siqiong Yao, Cewu Lu. 8803-8812 [doi]

Command-driven Articulated Object Understanding and ManipulationRuihang Chu, Zhengzhe Liu, Xiaoqing Ye, Xiao Tan, Xiaojuan Qi, Chi-Wing Fu, Jiaya Jia. 8813-8823 [doi]

Target-referenced Reactive Grasping for Dynamic ObjectsJirong Liu, Ruo Zhang, Haoshu Fang, Minghao Gou, Hongjie Fang, Chenxi Wang, Sheng Xu, Hengxu Yan, Cewu Lu. 8824-8833 [doi]

NeuralDome: A Neural Modeling Pipeline on Multi-View Human-Object InteractionsJuze Zhang, Haimin Luo, Hongdi Yang, Xinru Xu, Qianyang Wu, Ye Shi 0001, Jingyi Yu, Lan Xu, Jingya Wang. 8834-8845 [doi]

A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB ImageChanglong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng 0001, Zhiguo Cao 0001, Joey Tianyi Zhou. 8846-8855 [doi]

TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D EnvironmentsYu Sun, Qian Bao, Wu Liu, Tao Mei, Michael J. Black. 8856-8866 [doi]

BITE: Beyond Priors for Improved Three-D Dog Pose EstimationNadine Rüegg, Shashank Tripathi, Konrad Schindler, Michael J. Black, Silvia Zuffi. 8867-8876 [doi]

PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose EstimationQitao Zhao, Ce Zheng, Mengyuan Liu, Pichao Wang, Chen Chen 0015. 8877-8886 [doi]

Global-to-Local Modeling for Video-Based 3D Human Pose and Shape EstimationXiaolong Shen, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang. 8887-8896 [doi]

TokenHPE: Learning Orientation Tokens for Efficient Head Pose Estimation via TransformersCheng Zhang, Hai Liu, Yongjian Deng, Bochen Xie, Youfu Li. 8897-8906 [doi]

GFIE: A Dataset and Baseline for Gaze-Following from 2D to 3D in Indoor EnvironmentsZhengxi Hu, Yuxue Yang, Xiaolin Zhai, Dingye Yang, Bohan Zhou, Jingtai Liu. 8907-8916 [doi]

Robot Structure Prior Guided Temporal Attention for Camera-to-Robot Pose Estimation from Image SequenceYang Tian, Jiyao Zhang, Zekai Yin, Hao Dong 0003. 8917-8926 [doi]

Rigidity-Aware Detection for 6D Object Pose EstimationYang Hai, Rui Song 0003, Jiaojiao Li 0001, Mathieu Salzmann, Yinlin Hu. 8927-8936 [doi]

Crowd3D: Towards Hundreds of People Reconstruction from a Single ImageHao Wen, Jing Huang, Huili Cui, Haozhe Lin, Yu-Kun Lai, Lu Fang, Kun Li. 8937-8946 [doi]

Object Pose Estimation with Statistical Guarantees: Conformal Keypoint Detection and Geometric Uncertainty PropagationHeng Yang, Marco Pavone. 8947-8958 [doi]

expOSE: Accurate Initialization-Free Projective Factorization using Exponential RegularizationJosé Pedro Iglesias, Amanda Nilsson, Carl Olsson. 8959-8968 [doi]

Neural Voting Field for Camera-Space 3D Hand Pose EstimationLin Huang, Chung-Ching Lin, Kevin Lin, Lin Liang, Lijuan Wang, Junsong Yuan, Zicheng Liu 0001. 8969-8978 [doi]

Two-View Geometry Scoring Without CorrespondencesAxel Barroso Laguna, Eric Brachmann, Victor Adrian Prisacariu, Gabriel J. Brostow, Daniyar Turmukhambetov. 8979-8989 [doi]

Four-view Geometry with Unknown Radial DistortionPetr Hruby, Viktor Korotynskiy, Timothy Duff, Luke Oeding, Marc Pollefeys, Tomás Pajdla, Viktor Larsson. 8990-9000 [doi]

BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View VideosJennifer J. Sun, Lili Karashchuk, Amil Dravid, Serim Ryou, Sonia Fereidooni, John C. Tuthill, Aggelos K. Katsaggelos, Bingni W. Brunton, Georgia Gkioxari, Ann Kennedy, Yisong Yue, Pietro Perona. 9001-9010 [doi]

BAAM: Monocular 3D pose and shape reconstruction with bi-contextual attention module and attention-guided modelingHyo-jun Lee, Hanul Kim, Su-Min Choi, Seong-Gyun Jeong, Yeong Jun Koh. 9011-9020 [doi]

Multi-Object Manipulation via Object-Centric Neural Scattering FunctionsStephen Tian, YanCheng Cai, Hong-Xing Yu, Sergey Zakharov, Katherine Liu, Adrien Gaidon, Yunzhu Li, Jiajun Wu 0001. 9021-9031 [doi]

Neural Part Priors: Learning to Optimize Part-Based Object Completion in RGB-D ScansAleksei Bokhovkin, Angela Dai. 9032-9042 [doi]

Panoptic Lifting for 3D Scene Understanding with Neural FieldsYawar Siddiqui, Lorenzo Porzi, Samuel Rota Bulò, Norman Müller, Matthias Nießner, Angela Dai, Peter Kontschieder. 9043-9052 [doi]

Virtual Occlusions Through Implicit DepthJamie Watson, Mohamed Sayed, Zawar Qureshi, Gabriel J. Brostow, Sara Vicente, Oisin Mac Aodha, Michael Firman. 9053-9064 [doi]

Multiview Compressive Coding for 3D ReconstructionChao-Yuan Wu, Justin Johnson 0001, Jitendra Malik, Christoph Feichtenhofer, Georgia Gkioxari. 9065-9075 [doi]

Behind the Scenes: Density Fields for Single View ReconstructionFelix Wimbauer, Nan Yang 0007, Christian Rupprecht 0001, Daniel Cremers. 9076-9086 [doi]

VoxFormer: Sparse Voxel Transformer for Camera-Based 3D Semantic Scene CompletionYiming Li, Zhiding Yu, Christopher B. Choy, Chaowei Xiao, José M. Álvarez 0004, Sanja Fidler, Chen Feng 0002, Anima Anandkumar. 9087-9098 [doi]

Renderable Neural Radiance Map for Visual NavigationObin Kwon, Jeongho Park, Songhwai Oh. 9099-9108 [doi]

Learning to Detect Mirrors from Videos via Dual CorrespondencesJiaying Lin, Xin Tan, Rynson W. H. Lau. 9109-9118 [doi]

Temporally Consistent Online Depth Estimation Using Point-Based FusionNumair Khan, Eric Penner, Douglas Lanman, Lei Xiao. 9119-9129 [doi]

Zero-Shot Dual-Lens Super-ResolutionRuikang Xu, Mingde Yao, Zhiwei Xiong. 9130-9139 [doi]

Fully Self-Supervised Depth Estimation from Defocus ClueHaozhe Si, Bin Zhao, Dong Wang, Yunpeng Gao, Mulin Chen, Zhigang Wang 0002, Xuelong Li 0001. 9140-9149 [doi]

MVImgNet: A Large-scale Dataset of Multi-view ImagesXianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang, Guanying Chen, Shuguang Cui, Xiaoguang Han 0001. 9150-9161 [doi]

Revisiting the Stack-Based Inverse Tone MappingNing Zhang, Yuyao Ye, Yang Zhao, Ronggang Wang. 9162-9171 [doi]

Combining Implicit-Explicit View Correlation for Light Field Semantic SegmentationRuixuan Cong, Da Yang, Rongshan Chen, Sizhe Wang, Zhenglong Cui, Hao Sheng 0001. 9172-9181 [doi]

3D Spatial Multimodal Knowledge Accumulation for Scene Graph Prediction in Point CloudMingtao Feng, Haoran Hou, Liang Zhang 0010, Zijie Wu, Yulan Guo, Ajmal Mian. 9182-9191 [doi]

Role of Transients in Two-Bounce Non-Line-of-Sight ImagingSiddharth Somasundaram, Akshat Dave, Connor Henley, Ashok Veeraraghavan, Ramesh Raskar. 9192-9201 [doi]

3D Concept Learning and Reasoning from Multi-View ImagesYining Hong, Chunru Lin, Yilun Du, Zhenfang Chen, Joshua B. Tenenbaum, Chuang Gan. 9202-9212 [doi]

Viewpoint Equivariance for Multi-View 3D Object DetectionDian Chen 0005, Jie Li 0031, Vitor Guizilini, Rares Ambrus, Adrien Gaidon. 9213-9222 [doi]

Tri-Perspective View for Vision-Based 3D Semantic Occupancy PredictionYuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou 0001, Jiwen Lu. 9223-9232 [doi]

BEV@DC: Bird's-Eye View Assisted Training for Depth CompletionWending Zhou, Xu Yan, Yinghong Liao, Yuankai Lin, Jin Huang, Gangming Zhao, Shuguang Cui, Zhen Li. 9233-9242 [doi]

Collaboration Helps Camera Overtake LiDAR in 3D DetectionYue Hu, Yifan Lu, Runsheng Xu, Weidi Xie, Siheng Chen, Yanfeng Wang. 9243-9252 [doi]

Uni3D: A Unified Baseline for Multi-Dataset 3D Object DetectionBo Zhang, Jiakang Yuan, Botian Shi, Tao Chen, Yikang Li, Yu Qiao. 9253-9262 [doi]

Towards Building Self-Aware Object Detectors via Reliable Uncertainty Quantification and CalibrationKemal Oksuz, Tom Joy, Puneet K. Dokania. 9263-9274 [doi]

Depth Estimation from Camera Image and mmWave Radar Point CloudAkash Deep Singh, Yunhao Ba, Ankur Sarker, Howard Zhang, Achuta Kadambi, Stefano Soatto, Mani B. Srivastava, Alex Wong. 9275-9285 [doi]

SGLoc: Scene Geometry Encoding for Outdoor LiDAR LocalizationWen Li, Shangshu Yu, Cheng Wang, Guosheng Hu, Siqi Shen, Chenglu Wen. 9286-9295 [doi]

ConQueR: Query Contrast Voxel-DETR for 3D Object DetectionBenjin Zhu, Zhe Wang, Shaoshuai Shi, Hang Xu, Lanqing Hong, Hongsheng Li. 9296-9305 [doi]

DeepMapping2: Self-Supervised Large-Scale LiDAR Map OptimizationChao Chen, Xinhao Liu 0003, Yiming Li 0003, Li Ding 0009, Chen Feng 0002. 9306-9316 [doi]

Towards Unsupervised Object Detection from LiDAR Point CloudsLunjun Zhang, Anqi Joyce Yang, Yuwen Xiong, Sergio Casas 0002, Bin Yang 0021, Mengye Ren, Raquel Urtasun. 9317-9328 [doi]

MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud SequencesYingwei Li, Charles R. Qi, Yin Zhou, Chenxi Liu 0001, Dragomir Anguelov. 9329-9339 [doi]

Hidden Gems: 4D Radar Scene Flow Learning Using Cross-Modal SupervisionFangqiang Ding, Andras Palffy, Dariu M. Gavrila, Chris Xiaoxuan Lu. 9340-9349 [doi]

Instant Domain Augmentation for LiDAR Semantic SegmentationKwonyoung Ryu, Soonmin Hwang, Jaesik Park. 9350-9360 [doi]

Less is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic SegmentationLi Li, Hubert P. H. Shum, Toby P. Breckon. 9361-9371 [doi]

MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on Multi-Scan 3D Point CloudsJiahui Liu, Chirui Chang, Jianhui Liu, Xiaoyang Wu 0002, Lan Ma, Xiaojuan Qi. 9372-9381 [doi]

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point CloudsAoran Xiao, Jiaxing Huang 0001, Weihao Xuan, Ruijie Ren, Kangcheng Liu, Dayan Guan, Abdulmotaleb El-Saddik, Shijian Lu, Eric P. Xing. 9382-9392 [doi]

Novel Class Discovery for 3D Point Cloud Semantic SegmentationLuigi Riz, Cristiano Saltori, Elisa Ricci 0001, Fabio Poiesi. 9393-9402 [doi]

GD-MAE: Generative Decoder for MAE Pre-Training on LiDAR Point CloudsHonghui Yang, Tong He, Jiaheng Liu, Hua Chen, Boxi Wu, Binbin Lin, Xiaofei He 0001, Wanli Ouyang. 9403-9414 [doi]

Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation LearningXiaoyang Wu 0002, Xin Wen, Xihui Liu, Hengshuang Zhao. 9415-9424 [doi]

Open-set Semantic Segmentation for Point Clouds via Adversarial Prototype FrameworkJianan Li, Qiulei Dong. 9425-9434 [doi]

ACL-SPC: Adaptive Closed-Loop System for Self-Supervised Point Cloud CompletionSangmin Hong, Mohsen Yavartanoo, Reyhaneh Neshatavar, Kyoung Mu Lee. 9435-9444 [doi]

Fast Point Cloud Generation with Straight FlowsLemeng Wu, Dilin Wang, ChengYue Gong, Xingchao Liu, Yunyang Xiong, Rakesh Ranjan, Raghuraman Krishnamoorthi, Vikas Chandra, Qiang Liu 0001. 9445-9454 [doi]

PointVector: A Vector Representation In Point Cloud AnalysisXin Deng, Wenyu Zhang 0002, Qing Ding, Xinming Zhang 0001. 9455-9465 [doi]

ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with Missing Part Sensitive TransformerShanshan Li, Pan Gao, Xiaoyang Tan, Mingqiang Wei. 9466-9475 [doi]

FAC: 3D Representation Learning via Foreground Aware Feature ContrastKangcheng Liu, Aoran Xiao, Xiaoqin Zhang 0002, Shijian Lu, Ling Shao 0001. 9476-9485 [doi]

Rethinking the Approximation Error in 3D Surface Fitting for Point Cloud Normal EstimationHang Du, Xuejun Yan, Jingjing Wang, Di Xie, Shiliang Pu. 9486-9495 [doi]

PointCert: Point Cloud Classification with Deterministic Certified Robustness GuaranteesJinghuai Zhang, Jinyuan Jia, Hongbin Liu 0005, Neil Zhenqiang Gong. 9496-9505 [doi]

Robust Multiview Point Cloud Registration with Reliable Pose Graph Initialization and History ReweightingHaiping Wang, Yuan Liu, Zhen Dong, Yulan Guo, Yu-Shen Liu, Wenping Wang, Bisheng Yang. 9506-9515 [doi]

Visual Prompt Multi-Modal TrackingJiawen Zhu, Simiao Lai, Xin Chen 0032, Dong Wang 0004, Huchuan Lu. 9516-9526 [doi]

Progressive Neighbor Consistency Mining for Correspondence PruningXin Liu, Jufeng Yang. 9527-9537 [doi]

Geometric Visual Similarity Learning in 3D Medical Image Self-Supervised Pre-trainingYuting He, Guanyu Yang, Rongjun Ge, Yang Chen, Jean-Louis Coatrieux, Boyu Wang, Shuo Li 0001. 9538-9547 [doi]

Unsupervised Visible-Infrared Person Re-Identification via Progressive Graph Matching and Alternate LearningZesen Wu, Mang Ye. 9548-9558 [doi]

Domain Generalized Stereo Matching via Hierarchical Visual TransformationTianyu Chang, Xun Yang, Tianzhu Zhang, Meng Wang 0001. 9559-9568 [doi]

Unsupervised Cumulative Domain Adaptation for Foggy Scene Optical FlowHanyu Zhou, Yi Chang 0002, Wending Yan, Luxin Yan. 9569-9578 [doi]

PVO: Panoptic Visual OdometryWeicai Ye, Xinyue Lan, Shuo Chen, Yuhang Ming, Xingyuan Yu, Hujun Bao, Zhaopeng Cui, Guofeng Zhang 0001. 9579-9589 [doi]

BAEFormer: Bi-Directional and Early Interaction Transformers for Bird's Eye View Semantic SegmentationCong Pan, Yonghao He, Junran Peng, Qian Zhang 0009, Wei Sui, Zhaoxiang Zhang. 9590-9599 [doi]

Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP BenchmarkXiaofeng Wang, Zheng Zhu, Yunpeng Zhang, Guan Huang, Yun Ye, Wenbo Xu, Ziwei Chen, Xingang Wang 0003. 9600-9610 [doi]

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous DrivingXiwen Liang, Minzhe Niu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan Liang. 9611-9621 [doi]

MIXSIM: A Hierarchical Framework for Mixed Reality Traffic SimulationSimon Suo, Kelvin Wong, Justin Xu, James Tu, Alexander Cui, Sergio Casas 0002, Raquel Urtasun. 9622-9631 [doi]

Uncovering the Missing Pattern: Unified Framework Towards Trajectory Imputation and PredictionYi Xu 0005, Armin Bazarjani, Hyung-Gun Chi, Chiho Choi, Yun Fu. 9632-9643 [doi]

MotionDiffuser: Controllable Multi-Agent Motion Prediction Using DiffusionChiyu "Max" Jiang, Andre Cornman, Cheolho Park, Benjamin Sapp, Yin Zhou, Dragomir Anguelov. 9644-9653 [doi]

Learning Human-to-Robot Handovers from Point CloudsSammy Joe Christen, Wei Yang 0019, Claudia Pérez-D'Arpino, Otmar Hilliges, Dieter Fox, Yu-Wei Chao. 9654-9664 [doi]

Phone2Proc: Bringing Robust Robots into Our Chaotic WorldMatt Deitke, Rose Hendrix, Ali Farhadi, Kiana Ehsani, Aniruddha Kembhavi. 9665-9675 [doi]

GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance FieldsAlessandro Ruzzi, Xiangwei Shi, Xi Wang, Gengyan Li, Shalini De Mello, Hyung Jin Chang, Xucong Zhang, Otmar Hilliges. 9676-9685 [doi]

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object TrackingJinkun Cao, Jiangmiao Pang, Xinshuo Weng, Rawal Khirodkar, Kris Kitani. 9686-9696 [doi]

Autoregressive Visual TrackingXing Wei, Yifan Bai, Yongchao Zheng, Dahu Shi, Yihong Gong. 9697-9706 [doi]

OpenGait: Revisiting Gait Recognition Toward Better PracticalityChao Fan, Junhao Liang, Chuanfu Shen, Saihui Hou, Yongzhen Huang, Shiqi Yu 0001. 9707-9716 [doi]

Pose-disentangled Contrastive Learning for Self-supervised Facial RepresentationYuanyuan Liu, Wenbin Wang, Yibing Zhan, Shaoze Feng, Kejun Liu, Zhe Chen 0013. 9717-9728 [doi]

Identity-Preserving Talking Face Generation with Landmark and Appearance PriorsWeizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao, Liang Lin, Guanbin Li. 9729-9738 [doi]

DF-Platter: Multi-Face Heterogeneous Deepfake DatasetKartik Narayan, Harsh Agarwal, Kartik Thakral, Surbhi Mittal, Mayank Vatsa, Richa Singh 0001. 9739-9748 [doi]

Physics-Driven Diffusion Models for Impact Sound Synthesis from VideosKun Su, Kaizhi Qian, Eli Shlizerman, Antonio Torralba 0001, Chuang Gan. 9749-9759 [doi]

MoFusion: A Framework for Denoising-Diffusion-Based Motion SynthesisRishabh Dabral, Muhammad Hamza Mughal, Vladislav Golyanik, Christian Theobalt. 9760-9770 [doi]

Adaptive Global Decay Process for Event CamerasUrbano Miguel Nunes, Ryad Benosman, Sio-Hoi Ieng. 9771-9780 [doi]

Frame-Event Alignment and Fusion Network for High Frame Rate TrackingJiqing Zhang, Yuanchen Wang, Wenxi Liu, Meng Li, Jinpeng Bai, Baocai Yin, Xin Yang 0011. 9781-9790 [doi]

Exploring Discontinuity for Video Frame InterpolationSangjin Lee, Hyeongmin Lee, Chajin Shin, Hanbin Son, Sangyoun Lee. 9791-9800 [doi]

AMT: All-Pairs Multi-Field Transforms for Efficient Frame InterpolationZhen Li 0031, Zuo-Liang Zhu, Linghao Han, Qibin Hou, Chun-Le Guo, Ming-Ming Cheng. 9801-9810 [doi]

Frame Interpolation Transformer and Uncertainty GuidanceMarkus Plack, Matthias B. Hullin, Karlis Martins Briedis, Markus H. Gross, Abdelaziz Djelouah, Christopher Schroers. 9811-9821 [doi]

A Simple Baseline for Video Restoration with Grouped Spatial-Temporal ShiftDasong Li, Xiaoyu Shi, Yi Zhang, Ka-Chun Cheung, Simon See, Xiaogang Wang, Hongwei Qin, Hongsheng Li. 9822-9832 [doi]

Recurrent Homography Estimation Using Homography-Guided Image Warping and Focus TransformerSi-Yuan Cao, Runmin Zhang, Lun Luo, Beinan Yu, Zehua Sheng, Junwei Li, Hui-Liang Shen. 9833-9842 [doi]

HyperCUT: Video Sequence from a Single Blurry Image using Unsupervised OrderingBang-Dang Pham, Phong Tran, Anh Tran 0001, Cuong Pham 0001, Rang Nguyen, Minh Hoai. 9843-9852 [doi]

Indescribable Multi-Modal Spatial EvaluatorLingke Kong, X. Sharon Qi, Qijin Shen, Jiacheng Wang 0002, Jingyi Zhang, Yanle Hu, Qichao Zhou. 9853-9862 [doi]

Structured Kernel Estimation for Photon-Limited DeconvolutionYash Sanghvi, Zhiyuan Mao, Stanley H. Chan. 9863-9872 [doi]

Polarized Color Image DenoisingZhuoxiao Li, Haiyang Jiang 0002, Mingdeng Cao, Yinqiang Zheng. 9873-9882 [doi]

Uncertainty-Aware Unsupervised Image Deblurring with Deep Residual PriorXiaole Tang, Xile Zhao, Jun Liu 0012, Jianli Wang, Yuchun Miao, Tieyong Zeng. 9883-9892 [doi]

Low-Light Image Enhancement via Structure Modeling and GuidanceXiaogang Xu, Ruixing Wang, Jiangbo Lu. 9893-9903 [doi]

Learning Sample Relationship for Exposure CorrectionJie Huang 0017, Feng Zhao 0004, Man Zhou, Jie Xiao 0002, Naishan Zheng, Kaiwen Zheng, Zhiwei Xiong. 9904-9913 [doi]

Spatially Adaptive Self-Supervised Learning for Real-World Image DenoisingJunyi Li, Zhilu Zhang, Xiaoyu Liu 0006, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo. 9914-9924 [doi]

Quantum-Inspired Spectral-Spatial Pyramid Network for Hyperspectral Image ClassificationJie Zhang, Yongshan Zhang, Yicong Zhou. 9925-9934 [doi]

Generative Diffusion Prior for Unified Image Restoration and EnhancementBen Fei, Zhaoyang Lyu, Liang Pan, Junzhe Zhang, Weidong Yang, Tianyue Luo, Bo Zhang, Bo Dai 0002. 9935-9946 [doi]

Ground-Truth Free Meta-Learning for Deep Compressive SamplingXinran Qin, Yuhui Quan, Tongyao Pang, Hui Ji. 9947-9956 [doi]

Recognizability Embedding Enhancement for Very Low-Resolution Face Recognition and Quality EstimationJacky Chen Long Chai, Tiong-Sik Ng, Cheng-Yaw Low, Jaewoo Park, Andrew Beng Jin Teoh. 9957-9967 [doi]

An Image Quality Assessment Dataset for PortraitsNicolas Chahine, Ana-Stefania Calarasanu, Davide Garcia-Civiero, Théo Cayla, Sira Ferradans, Jean Ponce. 9968-9978 [doi]

Bitstream-Corrupted JPEG Images are Restorable: Two-stage Compensation and Alignment Framework for Image RestorationWenyang Liu, Yi Wang 0068, Kim-Hui Yap, Lap-Pui Chau. 9979-9988 [doi]

Image Super-Resolution Using T-Tetromino PixelsSimon Grosche, Andy Regensky, Jürgen Seiler, André Kaup. 9989-9998 [doi]

CUF: Continuous Upsampling FiltersCristina N. Vasconcelos, A. Cengiz Öztireli, Mark J. Matthews, Milad Hashemi, Kevin Swersky, Andrea Tagliasacchi. 9999-10008 [doi]

OPE-SR: Orthogonal Position Encoding for Designing a Parameter-free Upsampling Module in Arbitrary-scale Image Super-ResolutionGaochao Song, Qian Sun, Luo Zhang, Ran Su, Jianfeng Shi, Ying He 0001. 10009-10020 [doi]

Implicit Diffusion Models for Continuous Super-ResolutionSicheng Gao, Xuhui Liu, Bohan Zeng, Sheng Xu, Yanjing Li, Xiaoyan Luo, Jianzhuang Liu, Xiantong Zhen, Baochang Zhang 0001. 10021-10030 [doi]

Pixels, Regions, and Objects: Multiple Enhancement for Salient Object DetectionYi Wang, Ruili Wang, Xin Fan, Tianzhu Wang, Xiangjian He. 10031-10040 [doi]

VILA: Learning Image Aesthetics from User Comments with Vision-Language PretrainingJunjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, Feng Yang. 10041-10051 [doi]

Image Cropping with Spatial-aware Feature and Rank ConsistencyChao Wang, Li Niu, Bo Zhang, Liqing Zhang 0001. 10052-10061 [doi]

B-Spline Texture Coefficients Estimator for Screen Content Image Super-ResolutionByeonghyun Pak, Jaewon Lee, Kyong Hwan Jin. 10062-10071 [doi]

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space ViewpointHongyu Liu, Yibing Song, Qifeng Chen. 10072-10082 [doi]

Learning Dynamic Style Kernels for Artistic Style TransferWenju Xu, Chengjiang Long, Yongwei Nie. 10083-10092 [doi]

SVGformer: Representation Learning for Continuous Vector Graphics using TransformersDefu Cao, Zhaowen Wang, Jose Echevarria, Yan Liu 0002. 10093-10102 [doi]

Learning Generative Structure Prior for Blind Text Image Super-resolutionXiaoming Li 0002, Wangmeng Zuo, Chen Change Loy. 10103-10113 [doi]

Unsupervised Domain Adaption with Pixel-Level Discriminator for Image-Aware Layout GenerationChenchen Xu, Min Zhou, Tiezheng Ge, Yuning Jiang, Weiwei Xu. 10114-10123 [doi]

Scaling up GANs for Text-to-Image SynthesisMinguk Kang, Jun-Yan Zhu, Richard Zhang 0001, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park. 10124-10134 [doi]

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-ExpertsZhida Feng, Zhenyu Zhang 0006, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu 0004, Weichong Yin, Shikun Feng, Yu Sun, Li Chen, Hao Tian, Hua Wu 0003, Haifeng Wang 0001. 10135-10145 [doi]

Inversion-based Style Transfer with Diffusion ModelsYuxin Zhang, Nisha Huang, Fan Tang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu. 10146-10156 [doi]

Shifted Diffusion for Text-to-image GenerationYufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen, Jinhui Xu 0001. 10157-10166 [doi]

LayoutDM: Discrete Diffusion Model for Controllable Layout GenerationNaoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi. 10167-10176 [doi]

Unpaired Image-to-Image Translation with Shortest Path RegularizationShaoan Xie, Yanwu Xu, Mingming Gong, Kun Zhang 0001. 10177-10187 [doi]

DiffCollage: Parallel Generation of Large Content with Diffusion ModelsQinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu 0001. 10188-10198 [doi]

Wavelet Diffusion Models are fast and scalable Image GeneratorsHao Phung, Quan Dao, Anh Tran 0001. 10199-10208 [doi]

VideoFusion: Decomposed Diffusion Models for High-Quality Video GenerationZhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan. 10209-10218 [doi]

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video GenerationLudan Ruan, Yiyang Ma, Huan Yang 0005, Huiguo He, Bei Liu 0001, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, Baining Guo. 10219-10228 [doi]

Adaptive Human Matting for Dynamic VideosChung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu 0001. 10229-10238 [doi]

LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive Companding for Efficient Learned Image CompressionXi Zhang 0019, Xiaolin Wu 0001. 10239-10248 [doi]

Hierarchical B-Frame Video Coding Using Two-Layer CANF Without Motion CodingDavid Alexandre, Hsueh-Ming Hang, Wen-Hsiao Peng. 10249-10258 [doi]

Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data OverfittingGen Li, Jie Ji, Minghai Qin, Wei Niu 0002, Bin Ren, Fatemeh Afghah, Linke Guo, Xiaolong Ma. 10259-10269 [doi]

HNeRV: A Hybrid Neural Representation for VideosHao Chen, Matthew Gwilliam, Ser-Nam Lim, Abhinav Shrivastava. 10270-10279 [doi]

Regularize implicit neural representation by itselfZhemin Li, Hongxia Wang, Deyu Meng. 10280-10288 [doi]

SMPConv: Self-Moving Point Representations for Continuous ConvolutionSangHyeon Kim, Eunbyung Park. 10289-10299 [doi]

Long Range Pooling for 3D Large-Scale Scene UnderstandingXiang-Li Li, Meng-Hao Guo, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu 0001. 10300-10311 [doi]

Progressive Random Convolutions for Single Domain GeneralizationSeokeon Choi, Debasmit Das, Sungha Choi, Seunghan Yang, Hyunsin Park, Sungrack Yun. 10312-10322 [doi]

BiFormer: Vision Transformer with Bi-Level Routing AttentionLei Zhu, Xinjiang Wang, Zhanghan Ke, Wayne Zhang, Rynson W. H. Lau. 10323-10333 [doi]

Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision TransformersSifan Long, Zhen Zhao, Jimin Pi, Shengsheng Wang 0001, Jingdong Wang 0001. 10334-10343 [doi]

BioNet: A Biologically-Inspired Network for Face RecognitionPengyu Li. 10344-10354 [doi]

Dual-bridging with Adversarial Noise Generation for Domain Adaptive rPPG EstimationJingda Du, Siqi Liu 0003, Bochao Zhang, Pong C. Yuen. 10355-10364 [doi]

On Data Scaling in Masked Image ModelingZhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, Han Hu 0001. 10365-10374 [doi]

Hard Patches Mining for Masked Image ModelingHaochen Wang, Kaiyou Song, Junsong Fan, Yuxi Wang, Jin Xie, Zhaoxiang Zhang. 10375-10385 [doi]

Evolved Part Masking for Self-Supervised LearningZhanzhou Feng, Shiliang Zhang. 10386-10395 [doi]

BASiS: Batch Aligned Spectral Embedding SpaceOr Streicher, Ido Cohen, Guy Gilboa. 10396-10405 [doi]

OmniMAE: Single Model Masked Pretraining on Images and VideosRohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. 10406-10417 [doi]

ViTs for SITS: Vision Transformers for Satellite Image Time SeriesMichail Tarasiou, Erik Chavez, Stefanos Zafeiriou. 10418-10428 [doi]

Probabilistic Debiasing of Scene GraphsBashirul Azam Biswas, Qiang Ji. 10429-10438 [doi]

Blind Video Deflickering by Neural Filtering with a Flawed AtlasChenyang Lei, Xuanchi Ren, Zhaoxiang Zhang, Qifeng Chen. 10439-10448 [doi]

SCOTCH and SODA: A Transformer Video Shadow Detection FrameworkLihao Liu, Jean Prost, Lei Zhu, Nicolas Papadakis, Pietro Liò, Carola-Bibiane Schönlieb, Angelica I. Avilés-Rivero. 10449-10458 [doi]

MAGVIT: Masked Generative Video TransformerLijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang 0010, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang 0001, Yuan-Hao, Irfan Essa, Lu Jiang 0004. 10459-10469 [doi]

Improving Robustness of Semantic Segmentation to Motion-Blur Using Class-Centric AugmentationAakanksha, A. N. Rajagopalan 0001. 10470-10479 [doi]

MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge DistillationRoy Miles, Mehmet Kerim Yucel, Bruno Manganelli, Albert Saà-Garriga. 10480-10490 [doi]

Self-Supervised Video Forensics by Audio-Visual Anomaly DetectionChao Feng, Ziyang Chen, Andrew Owens. 10491-10503 [doi]

Frame Flexible NetworkYitian Zhang, Yue Bai, Chang Liu 0022, Huan Wang 0014, Sheng Li 0001, Yun Fu 0001. 10504-10513 [doi]

System-Status-Aware Adaptive Network for Online Streaming Video UnderstandingLin Geng Foo, Jia Gong, Zhipeng Fan, Jun Liu 0036. 10514-10523 [doi]

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging VideosMinghan Li, Shuai Li 0014, Wangmeng Xiang, Lei Zhang 0006. 10524-10533 [doi]

Spatio-Temporal Pixel-Level Contrastive Learning-based Source-Free Domain Adaptation for Video Semantic SegmentationShao-Yuan Lo, Poojan Oza, Sumanth Chennupati, Alejandro Galindo, Vishal M. Patel 0001. 10534-10543 [doi]

Taming Diffusion Models for Audio-Driven Co-Speech Gesture GenerationLingting Zhu, Xian Liu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu. 10544-10553 [doi]

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsSagnik Majumder, Hao Jiang 0007, Pierre Moulon, Ethan Henderson, Paul Calamia, Kristen Grauman, Vamsi Krishna Ithapu. 10554-10564 [doi]

Audio-Visual Grouping Network for Sound Localization from MixturesShentong Mo, Yapeng Tian. 10565-10574 [doi]

Language-Guided Audio-Visual Source Separation via Trimodal ConsistencyReuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko. 10575-10584 [doi]

Fine-grained Audible Video DescriptionXuyang Shen, Dong Li, Jinxing Zhou, Zhen Qin, Bowen He, Xiaodong Han, Aixuan Li, Yuchao Dai, Lingpeng Kong, Meng Wang, Yu Qiao, Yiran Zhong. 10585-10596 [doi]

Neural Koopman Pooling: Control-Inspired Temporal Dynamics Encoding for Skeleton-Based Action RecognitionXinghan Wang, Xin Xu, Yadong Mu. 10597-10607 [doi]

Learning Discriminative Representations for Skeleton Based Action RecognitionHuanyu Zhou, Qingjie Liu, Yunhong Wang. 10608-10617 [doi]

Therbligs in Action: Video Understanding through Motion PrimitivesEadom Dessalene, Michael Maynord, Cornelia Fermüller, Yiannis Aloimonos. 10618-10626 [doi]

Search-Map-Search: A Frame Selection Paradigm for Action RecognitionMingjun Zhao, Yakun Yu, Xiaoli Wang, Lei Yang, Di Niu. 10627-10636 [doi]

2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action LocalizationChen Zhao 0002, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem. 10637-10647 [doi]

Boosting Weakly-Supervised Temporal Action Localization with Text InformationGuozhang Li, De Cheng, Xinpeng Ding, Nannan Wang 0001, Xiaoyu Wang, Xinbo Gao 0001. 10648-10657 [doi]

Perception and Semantic Aware Regularization for Sequential Confidence CalibrationZhenghua Peng, Yu Luo, Tianshui Chen, Keke Xu, Shuangping Huang. 10658-10668 [doi]

NewsNet: A Novel Dataset for Hierarchical Temporal SegmentationHaoqian Wu, Keyu Chen, Haozhe Liu, Mingchen Zhuge, Bing Li 0024, Ruizhi Qiao, Xiujun Shu, Bei Gan, Liangsheng Xu, Bo Ren 0002, Mengmeng Xu, Wentian Zhang, Raghavendra Ramachandra, Chia-Wen Lin, Bernard Ghanem. 10669-10680 [doi]

Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video GenerationTsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell. 10681-10692 [doi]

Leveraging Temporal Context in Low Representational Power RegimesCamilo Luciano Fosco, SouYoung Jin, Emilie Josephs, Aude Oliva. 10693-10703 [doi]

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang 0001, Wanli Ouyang. 10704-10713 [doi]

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video CaptioningAntoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid. 10714-10726 [doi]

Procedure-Aware Pretraining for Instructional Video UnderstandingHonglu Zhou, Roberto Martín-Martín, Mubbasir Kapadia, Silvio Savarese, Juan Carlos Niebles. 10727-10738 [doi]

VindLU: A Recipe for Effective Video-and-Language PretrainingFeng Cheng, Xizi Wang, Jie Lei 0003, David J. Crandall, Mohit Bansal, Gedas Bertasius. 10739-10750 [doi]

Modular Memorability: Tiered Representations for Video Memorability PredictionThéo Dumont, Juan Segundo Hevia, Camilo Luciano Fosco. 10751-10760 [doi]

Multivariate, Multi-Frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Recognition in ConversationFeiyu Chen, Jie Shao 0001, Shuyuan Zhu, Heng Tao Shen. 10761-10770 [doi]

Distilling Cross-Temporal Contexts for Continuous Sign Language RecognitionLeming Guo, Wanli Xue, Qing Guo 0005, Bo Liu 0005, Kaihua Zhang, Tiantian Yuan, Shengyong Chen. 10771-10780 [doi]

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language ModelShengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang 0004, Yao Li, Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu. 10781-10791 [doi]

Layout-based Causal Inference for Object NavigationSixian Zhang, Xinhang Song, Weijie Li, Yubing Bai, Xinyao Yu, Shuqiang Jiang. 10792-10802 [doi]

Improving Vision-and-Language Navigation by Generating Future-View Image SemanticsJialu Li, Mohit Bansal. 10803-10812 [doi]

A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation LearningAishwarya Kamath, Peter Anderson, Su Wang 0001, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh. 10813-10823 [doi]

A-CAP: Anticipation Captioning with Commonsense KnowledgeDuc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama. 10824-10833 [doi]

Are Deep Neural Networks SMARTer Than Second Graders?Anoop Cherian, Kuan-Chuan Peng, Suhas Lohit, Kevin A. Smith, Joshua B. Tenenbaum. 10834-10844 [doi]

Fusing Pre-Trained Language Models with Multimodal Prompts through Reinforcement LearningYoungjae Yu, Jiwan Chung, Heeseung Yun, Jack Hessel, Jae Sung Park, Ximing Lu, Rowan Zellers, Prithviraj Ammanabrolu, Ronan Le Bras 0001, Gunhee Kim, Yejin Choi 0001. 10845-10856 [doi]

Language Adaptive Weight Generation for Multi-Task Visual GroundingWei Su, Peihan Miao 0002, Huanzhang Dou, Gaoang Wang, Liang Qiao 0001, Zheyang Li, Xi Li 0001. 10857-10866 [doi]

From Images to Textual Prompts: Zero-shot Visual Question Answering with Frozen Large Language ModelsJiaxian Guo, Junnan Li 0001, Dongxu Li, Anthony Meng Huat Tiong, Boyang Li 0001, Dacheng Tao, Steven C. H. Hoi. 10867-10877 [doi]

Diversity-Aware Meta Visual PromptingQidong Huang, Xiaoyi Dong, Dongdong Chen, Weiming Zhang 0001, Feifei Wang, Gang Hua 0001, Nenghai Yu. 10878-10887 [doi]

Hierarchical Prompt Learning for Multi-Task LearningYajing Liu, Yuning Lu, Hao Liu, Yaozu An, Zhuoran Xu, Zhuokun Yao, Baofeng Zhang, Zhiwei Xiong, Chenguang Gui. 10888-10898 [doi]

Task Residual for Tuning Vision-Language ModelsTao Yu 0012, Zhihe Lu, Xin Jin, Zhibo Chen 0001, Xinchao Wang. 10899-10909 [doi]

@ CREPE: Can Vision-Language Foundation Models Reason Compositionally?Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna. 10910-10921 [doi]

LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance GroundingGen Li 0008, Varun Jampani, Deqing Sun, Laura Sevilla-Lara. 10922-10931 [doi]

Overlooked Factors in Concept-Based Explanations: Dataset Choice, Concept Learnability, and Human CapabilityVikram V. Ramaswamy, Sunnie S. Y. Kim, Ruth Fong, Olga Russakovsky. 10932-10941 [doi]

Grounding Counterfactual Explanation of Image Classifiers to Textual Concept SpaceSiwon Kim, Jinoh Oh, Sungjin Lee, Seunghak Yu, Jaeyoung Do, Tara Taghavi. 10942-10950 [doi]

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training MethodsDa Yin, Feng Gao, Govind Thattai, Michael Johnston, Kai-Wei Chang. 10951-10961 [doi]

Learning Bottleneck Concepts in Image ClassificationBowen Wang, Liangzhi Li 0001, Yuta Nakashima, Hajime Nagahara. 10962-10971 [doi]

SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo and TextPinaki Nath Chowdhury, Ayan Kumar Bhunia, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Yi-Zhe Song. 10972-10983 [doi]

Context-aware Alignment and Mutual Masking for 3D-Language Pre-trainingZhao Jin, Munawar Hayat, Yuwei Yang, Yulan Guo, Yinjie Lei. 10984-10994 [doi]

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image PretrainingXiaoyi Dong, Jianmin Bao, Yinglin Zheng, Ting Zhang 0002, Dongdong Chen, Hao Yang 0036, Ming Zeng 0008, Weiming Zhang 0001, Lu Yuan, Dong Chen, Fang Wen 0001, Nenghai Yu. 10995-11005 [doi]

CLIPPO: Image-and-Language Understanding from Pixels OnlyMichael Tschannen, Basil Mustafa, Neil Houlsby. 11006-11017 [doi]

ViLEM: Visual-Language Error Modeling for Image-Text RetrievalYuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Weiming Hu, Xiaohu Qie, Jianping Wu. 11018-11027 [doi]

Non-Contrastive Learning Meets Language-Image Pre-TrainingJinghao Zhou, Li Dong 0004, Zhe Gan, Lijuan Wang, Furu Wei. 11028-11038 [doi]

HAAV: Hierarchical Aggregation of Augmented Views for Image CaptioningChia-Wen Kuo, Zsolt Kira. 11039-11049 [doi]

Learning Attribute and Class-Specific Representation Duet for Fine-Grained Fashion AnalysisYang Jiao, Yan Gao, Jingjing Meng, Jin Shang, Yi Sun. 11050-11059 [doi]

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-CommerceYang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu. 11060-11069 [doi]

Cross-Image-Attention for Conditional Embeddings in Deep Metric LearningDmytro Kotovenko, Pingchuan Ma 0006, Timo Milbich, Björn Ommer. 11070-11081 [doi]

Asymmetric Feature Fusion for Image RetrievalHui Wu, Min Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li. 11082-11092 [doi]

Improving Zero-shot Generalization and Robustness of Multi-Modal ModelsYunhao Ge, Jie Ren 0006, Andrew Gallagher, Yuxiao Wang 0001, Ming-Hsuan Yang 0001, Hartwig Adam, Laurent Itti, Balaji Lakshminarayanan, Jiaping Zhao. 11093-11101 [doi]

Hint-Aug: Drawing Hints from Foundation Vision Transformers towards Boosted Few-shot Parameter-Efficient TuningZhongzhi Yu, Shang Wu, Yonggan Fu, Shunyao Zhang, Yingyan Celine Lin. 11102-11112 [doi]

Visual DNA: Representing and Comparing Images Using Distributions of Neuron ActivationsBenjamin Ramtoula, Matthew Gadd, Paul Newman 0001, Daniele De Martini. 11113-11123 [doi]

End-to-End 3D Dense Captioning with Vote2Cap-DETRSijin Chen, Hongyuan Zhu, Xin Chen, Yinjie Lei, Gang Yu, Tao Chen. 11124-11133 [doi]

Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate ModelingYongshuai Huang, Ning Lu, Dapeng Chen, Yibo Li, Zecheng Xie, Shenggao Zhu, Liangcai Gao, Wei Peng. 11134-11143 [doi]

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision TransformersDahun Kim, Anelia Angelova, Weicheng Kuo. 11144-11154 [doi]

Mobile User Interface Element Detection Via Adaptively Prompt TuningZhangxuan Gu, Zhuoer Xu, Haoxing Chen, Jun Lan, Changhua Meng, Weiqiang Wang. 11155-11164 [doi]

Learning to Generate Text-Grounded Mask for Open-World Semantic Segmentation from Only Image-Text PairsJunbum Cha, Jonghwan Mun, Byungseok Roh. 11165-11174 [doi]

ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic SegmentationZiqin Zhou, Yinjie Lei, Bowen Zhang, Lingqiao Liu, Yifan Liu. 11175-11185 [doi]

Object-Aware Distillation Pyramid for Open-Vocabulary Object DetectionLuting Wang 0001, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi, Biaolong Chen, Si Liu. 11186-11196 [doi]

Learning Conditional Attributes for Compositional Zero-Shot LearningQingSheng Wang, Lingqiao Liu, Chenchen Jing, Hao Chen, Guoqiang Liang, Peng Wang, Chunhua Shen. 11197-11206 [doi]

CLIP-S4: Language-Guided Self-Supervised Semantic SegmentationWenbin He, Suphanut Jamonnak, Liang Gou, Liu Ren. 11207-11216 [doi]

StructVPR: Distill Structural Knowledge with Weighting Samples for Visual Place RecognitionYanqing Shen, Sanping Zhou, Jingwen Fu, Ruotong Wang 0005, Shitao Chen, Nanning Zheng 0001. 11217-11226 [doi]

UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask CalibrationJingyi Zhang 0005, Jiaxing Huang 0001, Xiaoqin Zhang 0002, Shijian Lu. 11227-11237 [doi]

Primitive Generation and Semantic-Related Alignment for Universal Zero-Shot SegmentationShuting He, Henghui Ding, Wei Jiang. 11238-11247 [doi]

Inferring and Leveraging Parts from Object Shape for Improving Semantic Image SynthesisYuxiang Wei 0001, Zhilong Ji, Xiaohe Wu, Jinfeng Bai, Lei Zhang 0033, Wangmeng Zuo. 11248-11258 [doi]

Compositor: Bottom-Up Clustering and Compositing for Robust Part and Object SegmentationJu He, Jieneng Chen, Ming-Xian Lin, Qihang Yu, Alan L. Yuille. 11259-11268 [doi]

A Strong Baseline for Generalized Few-Shot Semantic SegmentationSina Hajimiri, Malik Boudiaf, Ismail Ben Ayed, Jose Dolz. 11269-11278 [doi]

DynaMask: Dynamic Mask Selection for Instance SegmentationRuihuang Li, Chenhang He, Shuai Li, Yabin Zhang, Lei Zhang. 11279-11288 [doi]

Focus On Details: Online Multi-Object Tracking with Diverse Fine-Grained RepresentationHao Ren, Shoudong Han, Huilin Ding, Ziwen Zhang, Hongwei Wang, Faquan Wang. 11289-11298 [doi]

Dynamic Focus-aware Positional Queries for Semantic SegmentationHaoyu He, Jianfei Cai 0001, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao, Bohan Zhuang. 11299-11308 [doi]

Beyond mAP: Towards Better Evaluation of Instance SegmentationRohit Jena, Lukas Zhornyak, Nehal Doiphode, Pratik Chaudhari, Vivek Buch, James C. Gee, Jianbo Shi. 11309-11318 [doi]

Learning Orthogonal Prototypes for Generalized Few-Shot Semantic SegmentationSun'ao Liu, Yiheng Zhang, Zhaofan Qiu, Hongtao Xie, Yongdong Zhang 0001, Ting Yao. 11319-11328 [doi]

Weakly Supervised Semantic Segmentation via Adversarial Learning of Classifier and ReconstructorHyeokjun Kweon, Sung Hoon Yoon, Kuk-Jin Yoon. 11329-11339 [doi]

SemiCVT: Semi-Supervised Convolutional Vision Transformer for Semantic SegmentationHuimin Huang, Shiao Xie, Lanfen Lin, Ruofeng Tong 0001, Yen-Wei Chen 0001, Yuexiang Li, Hong Wang, Yawen Huang, Yefeng Zheng 0001. 11340-11349 [doi]

Augmentation Matters: A Simple-Yet-Effective Approach to Semi-Supervised Semantic SegmentationZhen Zhao, Lihe Yang, Sifan Long, Jimin Pi, Luping Zhou, Jingdong Wang 0001. 11350-11359 [doi]

The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask RepresentationBeomyoung Kim, Joonhyun Jeong, Dongyoon Han, Sung Ju Hwang. 11360-11370 [doi]

Class-Incremental Exemplar Compression for Class-Incremental LearningZilin Luo, Yaoyao Liu 0001, Bernt Schiele, Qianru Sun. 11371-11380 [doi]

Full or Weak Annotations? An Adaptive Strategy for Budget-Constrained Annotation CampaignsJavier Gamazo Tejero, Martin S. Zinkernagel, Sebastian Wolf 0005, Raphael Sznitman, Pablo Márquez-Neila. 11381-11391 [doi]

Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition ProblemsYangyang Shu, Anton van den Hengel, Lingqiao Liu. 11392-11401 [doi]

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language EmbeddingLingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang. 11402-11411 [doi]

Self-supervised AutoFlowHsin-Ping Huang, Charles Herrmann, Junhwa Hur, Erika Lu, Kyle Sargent, Austin Stone, Ming-Hsuan Yang 0001, Deqing Sun. 11412-11421 [doi]

DETR with Additional Global Aggregation for Cross-domain Weakly Supervised Object DetectionZongheng Tang, Yifan Sun 0003, Si Liu, Yi Yang. 11422-11432 [doi]

Detecting Everything in the Open World: Towards Universal Object DetectionZhenyu Wang 0005, Yali Li 0001, Xi Chen, Ser-Nam Lim, Antonio Torralba 0001, Hengshuang Zhao, Shengjin Wang. 11433-11443 [doi]

PROB: Probabilistic Objectness for Open World Object DetectionOrr Zohar, Kuan-Chieh Wang, Serena Yeung. 11444-11453 [doi]

Annealing-based Label-Transfer Learning for Open World Object DetectionYuqing Ma, Hainan Li, Zhange Zhang, Jinyang Guo, Shanghang Zhang, Ruihao Gong, Xianglong Liu 0001. 11454-11463 [doi]

Learning Transformation-Predictive Representations for Detection and Description of Local FeaturesZihao Wang, Chunxu Wu, Yifei Yang, Zhen Li 0004. 11464-11473 [doi]

Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object DetectionMuhammad Akhtar Munir, Muhammad Haris Khan, Salman H. Khan 0001, Fahad Shahbaz Khan. 11474-11483 [doi]

2PCNet: Two-Phase Consistency Training for Day-to-Night Unsupervised Domain Adaptive Object DetectionMikhail Kennerley, Jian-Gang Wang, Bharadwaj Veeravalli, Robby T. Tan. 11484-11493 [doi]

Zero-Shot Generative Model Adaptation via Image-Specific Prompt LearningJiayi Guo, Chaofei Wang, You Wu, Eric Zhang, Kai Wang, Xingqian Xu, Shiji Song, Humphrey Shi, Gao Huang. 11494-11503 [doi]

AutoLabel: CLIP-based framework for Open-Set Video Domain AdaptationGiacomo Zara, Subhankar Roy, Paolo Rota, Elisa Ricci 0001. 11504-11513 [doi]

Bidirectional Copy-Paste for Semi-Supervised Medical Image SegmentationYunhao Bai, Duowen Chen, Qingli Li, Wei Shen 0002, Yan Wang 0033. 11514-11524 [doi]

Directional Connectivity-based Segmentation of Medical ImagesZiyun Yang, Sina Farsiu. 11525-11535 [doi]

Ambiguous Medical Image Segmentation Using Diffusion ModelsAimon Rahman, Jeya Maria Jose Valanarasu, Ilker Hacihaliloglu, Vishal M. Patel 0001. 11536-11546 [doi]

Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel ImagesRamin Nakhli, Puria Azadi Moghadam, Haoyang Mi, Hossein Farahani, Alexander Baras, C. Blake Gilks, Ali Bashashati. 11547-11557 [doi]

METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert TokensZhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou. 11558-11567 [doi]

Towards Trustable Skin Cancer Diagnosis via Rewriting Model's DecisionSiyuan Yan, Zhen Yu, Xuelin Zhang, Dwarikanath Mahapatra, Shekhar S. Chandra, Monika Janda, H. Peter Soyer, ZongYuan Ge. 11568-11577 [doi]

Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is All You NeedJingyao Li, Pengguang Chen, Zexin He, Shaozuo Yu, Shu Liu 0005, Jiaya Jia. 11578-11589 [doi]

MetaViewer: Towards A Unified Multi-View RepresentationRen Wang 0011, Haoliang Sun, Yuling Ma, Xiaoming Xi, Yilong Yin. 11590-11599 [doi]

Deep Incomplete Multi-View Clustering with Cross-View Partial Sample and Prototype AlignmentJiaqi Jin, Siwei Wang, Zhibin Dong, Xinwang Liu, En Zhu. 11600-11609 [doi]

RONO: Robust Discriminative Learning with Noisy Labels for 2D-3D Cross-Modal RetrievalYanglin Feng, Hongyuan Zhu, Dezhong Peng, Xi Peng 0001, Peng Hu 0002. 11610-11619 [doi]

Mind the Label Shift of Augmentation-based Graph OOD GeneralizationJunchi Yu, Jian Liang, Ran He. 11620-11630 [doi]

Zero-Shot Model DiagnosisJinqi Luo, Zhaoning Wang, Chen Henry Wu, Dong Huang 0007, Fernando De la Torre. 11631-11640 [doi]

Protocon: Pseudo-Label Refinement via Online Clustering and Prototypical Consistency for Efficient Semi-Supervised LearningIslam Nassar, Munawar Hayat, Ehsan Abbasnejad, Hamid Rezatofighi, Gholamreza Haffari. 11641-11650 [doi]

Fine-Grained Classification with Noisy LabelsQi Wei, Lei Feng, Haoliang Sun, Ren Wang 0011, Chenhui Guo, Yilong Yin. 11651-11660 [doi]

Twin Contrastive Learning with Noisy LabelsZhizhong Huang, Junping Zhang, Hongming Shan. 11661-11670 [doi]

RMLVQA: A Margin Loss Approach For Visual Question Answering with Language BiasesAbhipsa Basu, Sravanti Addepalli, R. Venkatesh Babu. 11671-11680 [doi]

Generative Bias for Robust Visual Question AnsweringJae-Won Cho, Dong-Jin Kim 0003, Hyeonggon Ryu, In-So Kweon. 11681-11690 [doi]

On-the-Fly Category DiscoveryRuoyi Du, Dongliang Chang, Kongming Liang, Timothy M. Hospedales, Yi-Zhe Song, Zhanyu Ma. 11691-11700 [doi]

Co-training 2L Submodels for Visual RecognitionHugo Touvron, Matthieu Cord, Maxime Oquab, Piotr Bojanowski, Jakob Verbeek, Hervé Jégou. 11701-11710 [doi]

Neural Dependencies Emerging from Learning Massive CategoriesRuili Feng, Kecheng Zheng, Kai Zhu 0004, Yujun Shen, Jian Zhao, Yukun Huang, Deli Zhao, Jingren Zhou, Michael I. Jordan, Zheng-Jun Zha. 11711-11720 [doi]

MIC: Masked Image Consistency for Context-Enhanced Domain AdaptationLukas Hoyer, Dengxin Dai, Haoran Wang, Luc Van Gool. 11721-11732 [doi]

Towards Better Stability and Adaptability: Improve Online Self-Training for Model Adaptation in Semantic SegmentationDong Zhao, Shuang Wang, Qi Zang, Dou Quan, Xiutiao Ye, Licheng Jiao. 11733-11743 [doi]

DARE-GRAM : Unsupervised Domain Adaptation Regression by Aligning Inverse Gram MatricesIsmail Nejjar, Qin Wang, Olga Fink. 11744-11754 [doi]

Equiangular Basis VectorsYang Shen, Xuhao Sun, Xiu-Shen Wei. 11755-11765 [doi]

Enhanced Multimodal Representation Learning with Cross-modal KDMengxi Chen, Linyu Xing, Yu Wang, Ya Zhang. 11766-11775 [doi]

Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain GeneralizationSangrok Lee, Jongseong Bae, Ha-Young Kim. 11776-11785 [doi]

Back to the Source: Diffusion-Driven Adaptation to Test-Time CorruptionJin Gao, Jialing Zhang, Xihui Liu, Trevor Darrell, Evan Shelhamer, Dequan Wang. 11786-11796 [doi]

Deep Frequency Filtering for Domain GeneralizationShiqi Lin, Zhizheng Zhang 0004, Zhipeng Huang 0014, Yan Lu, Cuiling Lan, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu 0001, Amey Parulkar, Viraj Navkal, Zhibo Chen 0001. 11797-11807 [doi]

Generalizable Implicit Neural Representations via Instance Pattern ComposersChiheon Kim, Doyup Lee, Saehoon Kim, Minsu Cho, Wook-Shin Han. 11808-11817 [doi]

Train-Once-for-All PersonalizationHong-You Chen, Yandong Li, Yin Cui, Mingda Zhang, Wei-Lun Chao, Li Zhang 0003. 11818-11827 [doi]

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task LearnersZitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao, Erik G. Learned-Miller, Chuang Gan. 11828-11837 [doi]

Few-Shot Class-Incremental Learning via Class-Aware Bilateral DistillationLinglan Zhao, Jing Lu 0004, Yunlu Xu, Zhanzhan Cheng, Dashan Guo, Yi Niu, Xiangzhong Fang. 11838-11847 [doi]

Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation LearningKaiyou Song, Jin Xie, Shan Zhang, Zimeng Luo. 11848-11857 [doi]

Dense Network Expansion for Class Incremental LearningZhiyuan Hu, Yunsheng Li, Jiancheng Lyu, Dashan Gao, Nuno Vasconcelos. 11858-11867 [doi]

Class Attention Transfer Based Knowledge DistillationZiyao Guo, Haonan Yan, Hui Li, Xiaodong Lin 0001. 11868-11877 [doi]

Dealing with Cross-Task Class Discrimination in Online Continual LearningYiduo Guo, Bing Liu, Dongyan Zhao 0001. 11878-11887 [doi]

Real-Time Evaluation in Online Continual Learning: A New HopeYasir Ghunaim, Adel Bibi, Kumail Alhamoud, Motasem Alfarra, Hasan Abed Al Kader Hammoud, Ameya Prabhu, Philip H. S. Torr, Bernard Ghanem. 11888-11897 [doi]

DisWOT: Student Architecture Search for Distillation WithOut TrainingPeijie Dong, Lujun Li, Zimian Wei. 11898-11908 [doi]

CODA-Prompt: COntinual Decomposed Attention-Based Prompting for Rehearsal-Free Continual LearningJames Seale Smith, Leonid Karlinsky, Vyshnavi Gutta, Paola Cascante-Bonilla, Donghyun Kim, Assaf Arbelle, Rameswar Panda, Rogério Feris, Zsolt Kira. 11909-11919 [doi]

EcoTTA: Memory-Efficient Continual Test-Time Adaptation via Self-Distilled RegularizationJunha Song, Jungsoo Lee, In-So Kweon, Sungha Choi. 11920-11929 [doi]

Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual LearningSanghwan Kim, Lorenzo Noci, Antonio Orvieto, Thomas Hofmann. 11930-11939 [doi]

PA&DA: Jointly Sampling PAth and DAta for Consistent NASShun Lu, Yu Hu 0001, Longxing Yang, Zihao Sun, Jilin Mei, Jianchao Tan, Chengru Song. 11940-11949 [doi]

Accelerating Dataset Distillation via Model AugmentationLei Zhang, Jie Zhang 0081, Bowen Lei, Subhabrata Mukherjee, Xiang Pan, Bo Zhao, Caiwen Ding, Yao Li, Dongkuan Xu. 11950-11959 [doi]

Multi-Agent Automated Machine LearningZhaozhi Wang, Kefan Su, Jian Zhang, Huizhu Jia, Qixiang Ye, Xiaodong Xie, Zongqing Lu. 11960-11969 [doi]

Transformer-Based Learned OptimizationErik Gärtner, Luke Metz, Mykhaylo Andriluka, C. Daniel Freeman, Cristian Sminchisescu. 11970-11979 [doi]

Solving Relaxations of MAP-MRF Problems: Combinatorial in-Face Frank-Wolfe DirectionsVladimir Kolmogorov. 11980-11989 [doi]

HOTNAS: Hierarchical Optimal Transport for Neural Architecture SearchJiechao Yang, Yong Liu, Hongteng Xu. 11990-12000 [doi]

Disentangled Representation Learning for Unsupervised Neural QuantizationHaechan Noh, Sangeek Hyun, Woojin Jeong, Hanshin Lim, Jae-Pil Heo. 12001-12010 [doi]

FFCV: Accelerating Training by Removing Data BottlenecksGuillaume Leclerc, Andrew Ilyas, Logan Engstrom, Sung Min Park, Hadi Salman, Aleksander Madry. 12011-12020 [doi]

Run, Don't Walk: Chasing Higher FLOPS for Faster Neural NetworksJierun Chen, Shiu-hong Kao, Hao He, Weipeng Zhuo, Song Wen 0001, Chul-Ho Lee, S.-H. Gary Chan. 12021-12031 [doi]

Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable RegressionJunho Kim, Byung kwan Lee, Yong Man Ro. 12032-12042 [doi]

FIANCEE: Faster Inference of Adversarial Networks via Conditional Early ExitsPolina Karpikova, Ekaterina Radionova, Anastasia Yaschenko, Andrei Spiridonov, Leonid Kostyushko, Riccardo Fabbricatore, Aleksei Ivakhnenko. 12032-12043 [doi]

Gradient-based Uncertainty Attribution for Explainable Bayesian Deep LearningHanjing Wang, Dhiraj Joshi, Shiqiang Wang 0001, Qiang Ji. 12044-12053 [doi]

How to Prevent the Continuous Damage of Noises to Model Training?Xiaotian Yu, Yang Jiang, Tianqi Shi, Zunlei Feng, Yuexuan Wang, Mingli Song, Li Sun. 12054-12063 [doi]

Genie: Show Me the Data for QuantizationYongkweon Jeon, Chungman Lee, Ho Young Kim. 12064-12073 [doi]

OpenMix: Exploring Outlier Samples for Misclassification DetectionFei Zhu, Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu. 12074-12083 [doi]

Data-Free Sketch-Based Image RetrievalAbhra Chaudhuri, Ayan Kumar Bhunia, Yi-Zhe Song, Anjan Dutta 0001. 12084-12093 [doi]

GLeaD: Improving GANs with A Generator-Leading TaskQingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen. 12094-12104 [doi]

Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images DetectionChuangchuang Tan, Yao Zhao 0001, Shikui Wei, Guanghua Gu, Yunchao Wei. 12105-12114 [doi]

Adversarial Normalization: I Can visualize Everything (ICE)Hoyoung Choi, Seungwan Jin, Kyungsik Han. 12115-12124 [doi]

Semi-Supervised Hand Appearance Recovery via Structure Disentanglement and Dual Adversarial DiscriminationZimeng Zhao, Binghui Zuo, Zhiyu Long, Yangang Wang. 12125-12136 [doi]

Look Around for Anomalies: Weakly-Supervised Anomaly Detection via Context-Motion Relational LearningMyeongAh Cho, Minjung Kim, Sangwon Hwang, Chaewon Park, Kyungjae Lee 0003, Sangyoun Lee. 12137-12146 [doi]

Diversity-Measurable Anomaly DetectionWenrui Liu, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen 0001. 12147-12156 [doi]

Cloud-Device Collaborative Adaptation to Continual Changing Environments in the Real-WorldYulu Gan, Mingjie Pan, Rongyu Zhang, Zijian Ling, Lingran Zhao, Jiaming Liu, Shanghang Zhang. 12157-12166 [doi]

How to Prevent the Poor Performance Clients for Personalized Federated Learning?Zhe Qu, Xingyu Li, Xiao Han, Rui Duan, Chengchao Shen, Lixing Chen. 12167-12176 [doi]

DYNAFED: Tackling Client Data Heterogeneity with Global DynamicsRenjie Pi, Weizhong Zhang, Yueqi Xie, Jiahui Gao, Xiaoyu Wang, Sunghun Kim 0001, Qifeng Chen. 12177-12186 [doi]

Elastic Aggregation for Federated OptimizationDengsheng Chen, Jie Hu 0019, Vince Junkai Tan, Xiaoming Wei, Enhua Wu. 12187-12197 [doi]

Breaching FedMD: Image Recovery via Paired-Logits Inversion AttackHideaki Takahashi, Jingjing Liu, Yang Liu. 12198-12207 [doi]

Learning to Measure the Point Cloud Reconstruction Loss in a Representation SpaceTianxin Huang, Zhonggan Ding, Jiangning Zhang, Ying Tai, Zhenyu Zhang 0005, Mingang Chen, Chengjie Wang, Yong Liu 0007. 12208-12217 [doi]

Backdoor Cleansing with Unlabeled DataLu Pang 0006, Tao Sun 0009, Haibin Ling, Chao Chen 0012. 12218-12227 [doi]

Backdoor Defense via Deconfounded Representation LearningZaixi Zhang, Qi Liu 0003, Zhicai Wang, Zepu Lu, Qingyong Hu. 12228-12238 [doi]

Defending Against Patch-based Backdoor Attacks on Self-Supervised LearningAjinkya Tejankar, Maziar Sanjabi, Qifan Wang, Sinong Wang, Hamed Firooz, Hamed Pirsiavash, Liang Tan. 12239-12249 [doi]

Backdoor Attacks Against Deep Image Compression via Adaptive Frequency TriggerYi Yu, Yufei Wang, Wenhan Yang, Shijian Lu, Yap-Peng Tan, Alex C. Kot. 12250-12259 [doi]

CAP: Robust Point Cloud Classification via Semantic and Structural ModelingDaizong Ding, Erling Jiang, Yuanmin Huang 0001, Mi Zhang 0001, Wenxuan Li, Min Yang 0002. 12260-12270 [doi]

Evading DeepFake Detectors via Adversarial Statistical ConsistencyYang Hou, Qing Guo, Yihao Huang 0001, Xiaofei Xie, Lei Ma 0003, Jianjun Zhao 0001. 12271-12280 [doi]

Enhancing the Self-Universality for Transferable Targeted AttacksZhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang. 12281-12290 [doi]

Black-Box Sparse Adversarial Attack via Multi-Objective Optimisation CVPR ProceedingsPhoenix Neale Williams, Ke Li 0001. 12291-12301 [doi]

Seasoning Model Soups for Robustness to Adversarial and Natural Distribution ShiftsFrancesco Croce, Sylvestre-Alvise Rebuffi, Evan Shelhamer, Sven Gowal. 12313-12323 [doi]

Towards Benchmarking and Assessing Visual Naturalness of Physical World Adversarial AttacksSimin Li, Shuning Zhang, Gujun Chen, Dong Wang, Pu Feng, Jiakai Wang, Aishan Liu, Xin Yi 0001, Xianglong Liu 0001. 12324-12333 [doi]

Physically Adversarial Infrared Patches with Learnable Shapes and LocationsXingxing Wei, Jie Yu, Yao Huang. 12334-12342 [doi]

MaLP: Manipulation Localization Using a Proactive SchemeVishal Asnani, Xi Yin 0008, Tal Hassner, Xiaoming Liu 0002. 12343-12352 [doi]

Polarimetric iToF: Measuring High-Fidelity Depth Through Scattering MediaDaniel S. Jeon, Andreas Meuleman, Seung-Hwan Baek, Min H. Kim 0001. 12353-12362 [doi]

NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXerKun Zhou, Wenbo Li, Yi Wang, Tao Hu, Nianjuan Jiang, Xiaoguang Han 0001, Jiangbo Lu. 12363-12374 [doi]

SUDS: Scalable Urban Dynamic ScenesHaithem Turki, Jason Y. Zhang 0001, Francesco Ferroni, Deva Ramanan. 12375-12385 [doi]

DP-NeRF: Deblurred Neural Radiance Field with Physical Scene PriorsDogyoon Lee, Minhyeok Lee, Chajin Shin, Sangyoun Lee. 12386-12396 [doi]

DyLiN: Making Light Field Networks DynamicHeng Yu, Joel Julin, Zoltan A. Milacski, Koichiro Niinuma, László A. Jeni. 12397-12406 [doi]

Multi-Space Neural Radiance FieldsZe-Xin Yin, Jiaxiong Qiu, Ming-Ming Cheng, Bo Ren 0003. 12407-12416 [doi]

NeRFLight: Fast and Light Neural Radiance Fields using a Shared Feature GridFernando Rivas-Manzaneque, Jorge Sierra Acosta, Adrián Peñate Sánchez, Francesc Moreno-Noguer, Angela Ribeiro. 12417-12427 [doi]

Cross-Guided Optimization of Radiance Fields with Multi-View Image Super-Resolution for High-Resolution Novel View SynthesisYoungHo Yoon, Kuk-Jin Yoon. 12428-12438 [doi]

NeuralEditor: Editing Neural Radiance Fields via Manipulating Point CloudsJun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang. 12439-12448 [doi]

DINER: Depth-aware Image-based NEural Radiance fieldsMalte Prinzler, Otmar Hilliges, Justus Thies. 12449-12459 [doi]

Modernizing Old Photos Using Multiple References via Photorealistic Style TransferAgus Gunawan, Soo Ye Kim, Hyeonjun Sim, Jae-Ho Lee, Munchurl Kim. 12460-12469 [doi]

Efficient Map Sparsification Based on 2D and 3D Discretized GridsXiaoyu Zhang, Yun-Hui Liu. 12470-12478 [doi]

K-Planes: Explicit Radiance Fields in Space, Time, and AppearanceSara Fridovich-Keil, Giacomo Meanti, Frederik Rahbæk Warburg, Benjamin Recht, Angjoo Kanazawa. 12479-12488 [doi]

2-SDF: Intrinsic Indoor Scene Reconstruction and Editing via Raytracing in Neural SDFsJingsen Zhu, Yuchi Huo, Qi Ye, Fujun Luan, Jifan Li, Dianbing Xi, Lisha Wang, Rui Tang, Wei Hua, Hujun Bao, Rui Wang 0004. 12489-12498 [doi]

Multi-view Inverse Rendering for Large-scale Real-world Indoor ScenesZhen Li, Lingli Wang, Mofang Cheng, Cihui Pan, Jiaqi Yang 0002. 12499-12509 [doi]

Inverse Rendering of Translucent Objects using Physical and Neural RenderersChenhao Li, Thanh-Trung Ngo, Hajime Nagahara. 12510-12520 [doi]

Accidental Light ProbesHong-Xing Yu, Samir Agarwala, Charles Herrmann, Richard Szeliski, Noah Snavely, Jiajun Wu 0001, Deqing Sun. 12521-12530 [doi]

Humans as Light Bulbs: 3D Human Reconstruction from Thermal ReflectionRuoshi Liu, Carl Vondrick. 12531-12542 [doi]

HumanGen: Generating Human Radiance Fields with Explicit PriorsSuyi Jiang, Haoran Jiang, Ziyu Wang, Haimin Luo, Wenzheng Chen, Lan Xu. 12543-12554 [doi]

Seeing Through the Glass: Neural 3D Reconstruction of Object Inside a Transparent ContainerJinguang Tong, Sundaram Muthu, Fahira Afzal Maken, Chuong Nguyen, Hongdong Li. 12555-12564 [doi]

3D Shape Reconstruction of Semi-Transparent WormsThomas P. Ilett, Omer Yuval, Thomas Ranner, Netta Cohen, David C. Hogg. 12565-12575 [doi]

Dionysus: Recovering Scene Structures by Dividing into Semantic PiecesLikang Wang, Lei Chen. 12576-12587 [doi]

SparseFusion: Distilling View-Conditioned Diffusion for 3D ReconstructionZhizhuo Zhou, Shubham Tulsiani. 12588-12597 [doi]

PET-NeuS: Positional Encoding Tri-Planes for Neural SurfacesYiqun Wang 0001, Ivan Skorokhodov, Peter Wonka. 12598-12607 [doi]

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and GenerationTitas Anciukevicius, Zexiang Xu, Matthew Fisher, Paul Henderson, Hakan Bilen, Niloy J. Mitra, Paul Guerrero. 12608-12618 [doi]

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D GenerationHaochen Wang, Xiaodan Du, Jiahao Li, Raymond A. Yeh, Greg Shakhnarovich. 12619-12629 [doi]

Infinite Photorealistic Worlds Using Procedural GenerationAlexander Raistrick, Lahav Lipson, Zeyu Ma, Lingjie Mei, Mingzhe Wang, Yiming Zuo, Karhan Kayan, Hongyu Wen, Beining Han, Yihan Wang, Alejandro Newell, Hei Law, Ankit Goyal, Kaiyu Yang, Jia Deng 0001. 12630-12641 [doi]

Diffusion-SDF: Text-to-Shape via Voxelized DiffusionMuheng Li, Yueqi Duan, Jie Zhou 0001, Jiwen Lu. 12642-12651 [doi]

3D-Aware Multi-Class Image-to-Image Translation with NeRFsSenmao Li, Joost van de Weijer 0001, Yaxing Wang, Fahad Shahbaz Khan, Meiqin Liu, Jian Yang. 12652-12662 [doi]

Latent-NeRF for Shape-Guided Generation of 3D Shapes and TexturesGal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, Daniel Cohen-Or. 12663-12673 [doi]

Balanced Spherical Grid for Egocentric View SynthesisChangwoon Choi, Sang-Min Kim, Young Min Kim 0001. 12663-12673 [doi]

Local 3D Editing via 3D Distillation of CLIP KnowledgeJunha Hyung, Sungwon Hwang, Daejin Kim, Hyunji Lee, Jaegul Choo. 12674-12684 [doi]

ShapeTalk: A Language Dataset and Framework for 3D Shape Edits and DeformationsPanos Achlioptas, Ian Huang, Minhyuk Sung, Sergey Tulyakov, Leonidas J. Guibas. 12685-12694 [doi]

CoralStyleCLIP: Co-optimized Region and Layer Selection for Image EditingAmbareesh Revanur, Debraj Basu, Shradha Agrawal, Dhwanit Agarwal, Deepak Pai. 12695-12704 [doi]

3D-Aware Face SwappingYixuan Li, Chao Ma 0004, Yichao Yan, Wenhan Zhu, Xiaokang Yang. 12705-12714 [doi]

DCFace: Synthetic Face Generation with Dual Condition Diffusion ModelMinchul Kim, Feng Liu 0037, Anil K. Jain 0001, Xiaoming Liu 0002. 12715-12725 [doi]

HairStep: Transfer Synthetic to Real Using Strand and Depth Maps for Single-View 3D Hair ModelingYujian Zheng, Zirong Jin, Moran Li, Haibin Huang, Chongyang Ma, Shuguang Cui, Xiaoguang Han 0001. 12726-12735 [doi]

DiffusionRig: Learning Personalized Priors for Facial Appearance EditingZheng-ding, Xuaner Zhang, Zhihao Xia, Lars Jebe, Zhuowen Tu, Xiuming Zhang. 12736-12746 [doi]

3D-aware Facial Landmark Detection via Multi-view Consistent Training on Synthetic DataLibing Zeng, Lele Chen, Wentao Bao, Zhong Li, Yi Xu, Junsong Yuan, Nima K. Kalantari. 12747-12758 [doi]

Parametric Implicit Face Representation for Audio-Driven Facial ReenactmentRicong Huang, Peiwen Lai, Yipeng Qin, Guanbin Li. 12759-12768 [doi]

MEGANE: Morphable Eyeglass and Avatar NetworkJunxuan Li, Shunsuke Saito, Tomas Simon, Stephen Lombardi, Hongdong Li, Jason M. Saragih. 12769-12779 [doi]

CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion PriorJinbo Xing, Menghan Xia, Yuechen Zhang, Xiaodong Cun, Jue Wang 0001, Tien-Tsin Wong. 12780-12790 [doi]

Reconstructing Signing Avatars from Video Using Linguistic PriorsMaria-Paola Forte, Peter Kulits, Chun-Hao Huang, Vasileios Choutas, Dimitrios Tzionas, Katherine J. Kuchenbecker, Michael J. Black. 12791-12801 [doi]

HARP: Personalized Hand Reconstruction from a Monocular RGB VideoKorrawe Karunratanakul, Sergey Prokudin, Otmar Hilliges, Siyu Tang 0001. 12802-12813 [doi]

OmniAvatar: Geometry-Guided Controllable 3D Head SynthesisHongyi Xu, Guoxian Song, Zihang Jiang, Jianfeng Zhang, Yichun Shi, Jing Liu, Wan-Chun Ma, Jiashi Feng, Linjie Luo. 12814-12824 [doi]

RaBit: Parametric Modeling of 3D Biped Cartoon Characters with a Topological-Consistent DatasetZhongjin Luo, Shengcai Cai, Jinguo Dong, RuiBo Ming, Liangdong Qiu, Xiaohang Zhan, Xiaoguang Han 0001. 12825-12835 [doi]

Transfer4D: A Framework for Frugal Motion Capture and Deformation TransferShubh Maheshwari, Rahul Narain, Ramya Hebbalaguppe. 12836-12846 [doi]

CLOTH4D: A Dataset for Clothed Human ReconstructionXingxing Zou, Xintong Han, Waikeung Wong. 12847-12857 [doi]

Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene DecompositionChen Guo, Tianjian Jiang, Xu Chen 0025, Jie Song 0006, Otmar Hilliges. 12858-12868 [doi]

High-fidelity 3D Human Digitization from Single 2K Resolution ImagesSang-Hun Han, Min-Gyu Park, Ju Hong Yoon, Ju-Mi Kang, Young Jae Park, Hae-Gon Jeon. 12869-12879 [doi]

Sampling is Matter: Point-Guided 3D Human Mesh ReconstructionJeonghwan Kim, Mi-Gyeong Gwon, Hyunwoo Park, Hyukmin Kwon, Gi Mun Um, Wonjun Kim. 12880-12889 [doi]

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object ReconstructionZerui Chen, Shizhe Chen, Cordelia Schmid, Ivan Laptev. 12890-12900 [doi]

Human Body Shape Completion with Implicit Shape and Flow LearningBoyao Zhou, Di Meng, Jean-Sébastien Franco, Edmond Boyer. 12901-12911 [doi]

ShapeClipper: Scalable 3D Shape Learning from Single-View Images via Geometric and CLIP-Based ConsistencyZixuan Huang, Varun Jampani, Anh Thai, Yuanzhen Li, Stefan Stojanov, James M. Rehg. 12912-12922 [doi]

2: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D ReconstructionLuke Melas-Kyriazi, Christian Rupprecht 0001, Andrea Vedaldi. 12923-12932 [doi]

NIKI: Neural Inverse Kinematics with Invertible Neural Networks for 3D Human Pose and Shape EstimationJiefeng Li, Siyuan Bian, Qi Liu, Jiasheng Tang, Fan Wang, Cewu Lu. 12933-12942 [doi]

ARCTIC: A Dataset for Dexterous Bimanual Hand-Object ManipulationZicong Fan, Omid Taheri, Dimitrios Tzionas, Muhammed Kocabas, Manuel Kaufmann, Michael J. Black, Otmar Hilliges. 12943-12954 [doi]

ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand ReconstructionZhengdi Yu, Shaoli Huang, Chen Fang, Toby P. Breckon, Jue Wang. 12955-12964 [doi]

MIME: Human-Aware 3D Scene GenerationHongwei Yi, Chun-Hao P. Huang, Shashank Tripathi, Lea Hering, Justus Thies, Michael J. Black. 12965-12976 [doi]

CIMI4D: A Large Multimodal Climbing Motion Dataset under Human-scene InteractionsMing Yan, Xin Wang, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, Cheng Wang 0003. 12977-12988 [doi]

Harmonious Feature Learning for Interactive Hand-Object Pose EstimationZhifeng Lin, Changxing Ding, Huan Yao, Zengsheng Kuang, Shaoli Huang. 12989-12998 [doi]

AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose EstimationTakehiko Ohkawa, Kun He, Fadime Sener, Tomas Hodan, Luan Tran, Cem Keskin. 12999-13008 [doi]

A Characteristic Function-Based Method for Bottom-Up Human Pose EstimationHaoxuan Qu, Yujun Cai, Lin Geng Foo, Ajay Kumar, Jun Liu 0036. 13009-13018 [doi]

Unified Pose Sequence ModelingLin Geng Foo, Tianjiao Li, Hossein Rahmani, Qiuhong Ke, Jun Liu 0036. 13019-13030 [doi]

Scene-Aware Egocentric 3D Human Pose EstimationJian Wang 0042, Diogo C. Luvizon, WeiPeng Xu, Lingjie Liu, Kripasindhu Sarkar, Christian Theobalt. 13031-13040 [doi]

DiffPose: Toward More Reliable 3D Pose EstimationJia Gong, Lin Geng Foo, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu 0036. 13041-13051 [doi]

MammalNet: A Large-Scale Video Benchmark for Mammal Recognition and Behavior UnderstandingJun Chen, Ming Hu, Darren J. Coker, Michael L. Berumen, Blair R. Costelloe, Sara Beery, Anna Rohrbach, Mohamed Elhoseiny. 13052-13061 [doi]

Learning 3D-Aware Image Synthesis with Unknown Pose DistributionZifan Shi, Yujun Shen, Yinghao Xu, Sida Peng, Yiyi Liao, Sheng Guo, Qifeng Chen, Dit-Yan Yeung. 13062-13071 [doi]

Pose Synchronization under Multiple Pair-wise Relative PosesYifan Sun 0007, Qixing Huang. 13072-13081 [doi]

ObjectMatch: Robust Registration using Canonical Object CorrespondencesCan Gümeli, Angela Dai, Matthias Nießner. 13082-13091 [doi]

Learning Articulated Shape with Keypoint Pseudo-Labels from Web ImagesAnastasis Stathopoulos, Georgios Pavlakos, Ligong Han, Dimitris N. Metaxas. 13092-13101 [doi]

Learning Correspondence Uncertainty via Differentiable Nonlinear Least SquaresDominik Muhle, Lukas Koestler, Krishna Murthy Jatavallabhula, Daniel Cremers. 13102-13112 [doi]

Efficient Second-Order Plane AdjustmentLipu Zhou. 13113-13121 [doi]

Learning a Depth Covariance FunctionEric Dexheimer, Andrew J. Davison. 13122-13131 [doi]

Privacy-Preserving Representations are not Enough: Recovering Scene Content from Camera PosesKunal Chelani, Torsten Sattler, Fredrik Kahl, Zuzana Kukelova. 13132-13141 [doi]

Objaverse: A Universe of Annotated 3D ObjectsMatt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, Ali Farhadi. 13142-13153 [doi]

Omni3D: A Large Benchmark and Model for 3D Object Detection in the WildGarrick Brazil, Abhinav Kumar 0004, Julian Straub, Nikhila Ravi, Justin Johnson 0001, Georgia Gkioxari. 13154-13164 [doi]

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes with Iterative Intertwined RegularizationZhihao Liang, Zhangjin Huang, Changxing Ding, Kui Jia. 13165-13174 [doi]

Visual Localization using Imperfect 3D Models from the InternetVojtech Panek, Zuzana Kukelova, Torsten Sattler. 13175-13186 [doi]

PRISE: Demystifying Deep Lucas-Kanade with Strongly Star-Convex Constraints for Multimodel Image AlignmentYiqing Zhang, Xinming Huang 0001, Ziming Zhang. 13187-13197 [doi]

Scalable, Detailed and Mask-Free Universal Photometric StereoSatoshi Ikehata. 13198-13207 [doi]

Enhanced Stable View SynthesisNishant Jain, Suryansh Kumar 0001, Luc Van Gool. 13208-13217 [doi]

End-to-End Vectorized HD-map Construction with Piecewise Bézier CurveLimeng Qiao, Wenjie Ding, Xi Qiu, Chi Zhang 0026. 13218-13228 [doi]

DynamicStereo: Consistent Dynamic Depth from Stereo VideosNikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht 0001. 13229-13239 [doi]

Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized PhotographyIlya Chugunov, Yuxuan Zhang 0001, Felix Heide. 13240-13251 [doi]

Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo CuesStefanie Walz, Mario Bijelic, Andrea Ramazzina, Amanpreet Walia, Fahim Mannan, Felix Heide. 13252-13262 [doi]

K3DN: Disparity-Aware Kernel Estimation for Dual-Pixel Defocus DeblurringYan Yang, Liyuan Pan, Liu Liu 0009, Miaomiao Liu 0001. 13263-13272 [doi]

HRDFuse: Monocular 360° Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth DistributionsHao Ai, Zidong Cao, Yan-Pei Cao, Ying Shan, Lin Wang. 13273-13282 [doi]

OSRT: Omnidirectional Image Super-Resolution with Distortion-aware TransformerFanghua Yu, Xintao Wang, Mingdeng Cao, Gen Li, Ying Shan, Chao Dong. 13283-13292 [doi]

Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAMHengyi Wang, Jingwen Wang, Lourdes Agapito. 13293-13302 [doi]

Few-Shot Non-Line-of-Sight Imaging with Signal-Surface Collaborative RegularizationXintong Liu, Jianyu Wang, Leping Xiao, Xing Fu, Lingyun Qiu, Zuoqiang Shi. 13303-13312 [doi]

NLOST: Non-Line-of-Sight Imaging with TransformerYue Li, Jiayong Peng, Juntian Ye, Yueyi Zhang, Feihu Xu, Zhiwei Xiong. 13313-13322 [doi]

Listening Human Behavior: 3D Human Pose Estimation with Acoustic SignalsYuto Shibata, Yutaka Kawashima, Mariko Isogawa, Go Irie, Akisato Kimura, Yoshimitsu Aoki. 13323-13332 [doi]

Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-ViewShuo Wang, Xinhai Zhao, Hai-ming Xu, Zehui Chen, Dameng Yu, Jiahao Chang, Zhen Yang, Feng Zhao 0004. 13333-13342 [doi]

3KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object DetectionMarvin Klingner, Shubhankar Borse, Varun Ravi Kumar, Behnaz Rezaei, Venkatraman Narayanan, Senthil Kumar Yogamani, Fatih Porikli. 13343-13353 [doi]

Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object DetectionYi Yu 0010, Feipeng Da. 13354-13363 [doi]

Learned Two-Plane Perspective Prior based Image Resampling for Efficient Object DetectionAnurag Ghosh, N. Dinesh Reddy, Christoph Mertz, Srinivasa G. Narasimhan. 13364-13373 [doi]

Resource-Efficient RGBD Aerial TrackingJinyu Yang, Shang Gao, Zhe Li, Feng Zheng, Ales Leonardis. 13374-13383 [doi]

Toward RAW Object Detection: A New Benchmark and A New ModelRuikang Xu, Chang Chen, Jingyang Peng, Cheng Li, Yibin Huang, Fenglong Song, Youliang Yan, Zhiwei Xiong. 13384-13393 [doi]

Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object DetectionYingjie Wang 0005, Jiajun Deng, Yao Li, Jinshui Hu, Cong Liu, Yu Zhang, Jianmin Ji, Wanli Ouyang, Yanyong Zhang. 13394-13403 [doi]

LiDAR-in-the-Loop Hyperparameter OptimizationFélix Goudreault, Dominik Scheuble, Mario Bijelic, Nicolas Robidoux, Felix Heide. 13404-13414 [doi]

Learning and Aggregating Lane Graphs for Urban Automated DrivingMartin Büchner, Jannik Zürn, Ion-George Todoran, Abhinav Valada, Wolfram Burgard. 13415-13424 [doi]

Center Focusing Network for Real-Time LiDAR Panoptic SegmentationXiaoyan Li, Gang Zhang, Boyue Wang, Yongli Hu, Baocai Yin. 13425-13434 [doi]

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone ImagesBowei Du, Yecheng Huang, Jiaxin Chen, Di Huang 0001. 13435-13444 [doi]

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-TrainingRunsen Xu, Tai Wang, Wenwei Zhang, Runjian Chen, Jinkun Cao, Jiangmiao Pang, Dahua Lin. 13445-13454 [doi]

ALSO: Automotive Lidar Self-Supervision by Occupancy EstimationAlexandre Boulch, Corentin Sautier, Björn Michele, Gilles Puy, Renaud Marlet. 13455-13465 [doi]

Unsupervised Intrinsic Image Decomposition with LiDAR IntensityShogo Sato, Yasuhiro Yao, Taiga Yoshida, Takuhiro Kaneko, Shingo Ando, Jun Shimamura. 13466-13475 [doi]

PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel TransformerHonghui Yang, Wenxiao Wang 0001, Minghao Chen, Binbin Lin, Tong He, Hua Chen, Xiaofei He 0001, Wanli Ouyang. 13476-13487 [doi]

LargeKernel3D: Scaling up Kernels in 3D Sparse CNNsYukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia. 13488-13498 [doi]

WeatherStream: Light Transport Automation of Single Image DeweatheringHoward Zhang, Yunhao Ba, Ethan Yang, Varan Mehra, Blake Gella, Akira Suzuki, Arnold Pfahnl, Chethan Chinder Chandrappa, Alex Wong 0001, Achuta Kadambi. 13499-13509 [doi]

Mask3D: Pretraining 2D Vision Transformers by Learning Masked 3D PriorsJi Hou, Xiaoliang Dai, Zijian He, Angela Dai, Matthias Nießner. 13510-13519 [doi]

DSVT: Dynamic Sparse Voxel Transformer with Rotated SetsHaiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang. 13520-13529 [doi]

IterativePFN: True Iterative Point Cloud FilteringDasith de Silva Edirimuni, Xuequan Lu, Zhiwen Shao, Gang Li, Antonio Robles-Kelly, Ying He. 13530-13539 [doi]

itKD: Interchange Transfer-based Knowledge Distillation for 3D Object DetectionHyeon Cho, Junyong Choi, Geonwoo Baek, Wonjun Hwang. 13540-13549 [doi]

ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic ConvolutionTuan Duc Ngo, Binh-Son Hua, Khoi Nguyen 0001. 13550-13559 [doi]

Symmetric Shape-Preserving Autoencoder for Unsupervised Real Scene Point Cloud CompletionChangfeng Ma, Yinuo Chen, Pengxiao Guo, Jie Guo 0001, Chongjun Wang, Yanwen Guo 0001. 13560-13569 [doi]

GeoMAE: Masked Geometric Target Prediction for Self-supervised Point Cloud Pre-TrainingXiaoyu Tian, Haoxi Ran, Yue Wang 0041, Hang Zhao. 13570-13580 [doi]

AnchorFormer: Point Cloud Completion from Discriminative NodesZhikai Chen, Fuchen Long, Zhaofan Qiu, Ting Yao, Wengang Zhou, Jiebo Luo, Tao Mei 0001. 13581-13590 [doi]

SHS-Net: Learning Signed Hyper Surfaces for Oriented Normal Estimation of Point CloudsQing Li, Huifang Feng 0002, Kanle Shi, Yue Gao, Yi Fang, Yu-Shen Liu, Zhizhong Han. 13591-13600 [doi]

NerVE: Neural Volumetric Edges for Parametric Curve Extraction from Point CloudXiangyu Zhu, Dong Du 0002, Weikai Chen 0001, Zhiyou Zhao, Yinyu Nie, Xiaoguang Han 0001. 13601-13610 [doi]

Unsupervised Deep Probabilistic Approach for Partial Point Cloud RegistrationGuofeng Mei, Hao Tang 0005, Xiaoshui Huang, Weijie Wang, Juan Liu, Jian Zhang, Luc Van Gool, Qiang Wu 0001. 13611-13620 [doi]

Local Connectivity-Based Density Estimation for Face ClusteringJunho Shin, Hyo-jun Lee, Hyunseop Kim, Jong-Hyeon Baek, Daehyun Kim, Yeong Jun Koh. 13621-13629 [doi]

Bridging Search Region Interaction with Template for RGB-T TrackingTianrui Hui, Zizheng Xun, Fengguang Peng, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao Dai, Jizhong Han, Si Liu. 13630-13639 [doi]

Quantum Multi-Model FittingMatteo Farina, Luca Magri, Willi Menapace, Elisa Ricci 0001, Vladislav Golyanik, Federica Arrigoni. 13640-13649 [doi]

Generalizable Local Feature Pre-training for Deformable Shape AnalysisSouhaib Attaiki, Lei Li 0038, Maks Ovsjanikov. 13650-13661 [doi]

Similarity Metric Learning For RGB-Infrared Group Re-IdentificationJianghao Xiong, Jianhuang Lai. 13662-13671 [doi]

Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-SimilarityTaeyong Song, Sunok Kim, Kwanghoon Sohn. 13672-13680 [doi]

Sliced Optimal Partial TransportYikun Bai, Bernhard Schmitzer, Matthew Thorpe, Soheil Kolouri. 13681-13690 [doi]

DistractFlow: Improving Optical Flow Estimation via Realistic Distractions and Pseudo-LabelingJisoo Jeong, Hong Cai, Risheek Garrepalli, Fatih Porikli. 13691-13700 [doi]

Bayesian Posterior Approximation With Stochastic EnsemblesOleksandr Balabanov, Bernhard Mehlig, Hampus Linander. 13701-13711 [doi]

V2V4Real: A Real-World Large-Scale Dataset for Vehicle-to-Vehicle Cooperative PerceptionRunsheng Xu, Xin Xia 0007, Jinlong Li, Hanzhao Li, Shuo Zhang, Zhengzhong Tu, Zonglin Meng, Hao Xiang, Xiaoyu Dong, Rui Song, Hongkai Yu, Bolei Zhou, Jiaqi Ma. 13712-13722 [doi]

ReasonNet: End-to-End Driving with Temporal and Global ReasoningHao Shao, Letian Wang, Ruobing Chen 0005, Steven L. Waslander, Hongsheng Li 0001, Yu Liu 0015. 13723-13733 [doi]

Open-World Multi-Task Control Through Goal-Aware Representation Learning and Adaptive Horizon PredictionShaofei Cai, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang. 13734-13744 [doi]

FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsLuke Rowe, Martin Ethier, Eli-Henry Dykhne, Krzysztof Czarnecki 0001. 13745-13755 [doi]

Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory DiffusionDavis Rempe, Zhengyi Luo 0002, Xue Bin Peng, Ye Yuan 0007, Kris Kitani, Karsten Kreis, Sanja Fidler, Or Litany. 13756-13766 [doi]

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-SecondVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander. 13767-13777 [doi]

Indiscernible Object Counting in Underwater ScenesGuolei Sun, Zhaochong An, Yun Liu, Ce Liu, Christos Sakaridis, Deng-Ping Fan, Luc Van Gool. 13791-13801 [doi]

Tracking Through Containers and Occluders in the WildBasile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick. 13802-13812 [doi]

Simple Cues Lead to a Strong Multi-Object TrackerJenny Seidenschwarz, Guillem Brasó, Victor Castro Serrano, Ismail Elezi, Laura Leal-Taixé. 13813-13823 [doi]

An In-Depth Exploration of Person Re-Identification and Gait Recognition in Cloth-Changing ConditionsWeijia Li, Saihui Hou, Chunjie Zhang, Chunshui Cao, Xu Liu 0008, Yongzhen Huang, Yao Zhao. 13824-13833 [doi]

SelfME: Self-Supervised Motion Learning for Micro-Expression RecognitionXinqi Fan, Xueli Chen, Mingjie Jiang, Ali Raza Shahid, Hong Yan 0001. 13834-13843 [doi]

LipFormer: High-fidelity and Generalizable Talking Face Generation with A Pre-learned Facial CodebookJiayu Wang, Kang Zhao, Shiwei Zhang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou. 13844-13853 [doi]

Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed VideoWenzheng Zeng, Yang Xiao 0007, Sicheng Wei, Jinfang Gan, Xintao Zhang, Zhiguo Cao 0001, Zhiwen Fang, Joey Tianyi Zhou. 13854-13863 [doi]

Skinned Motion Retargeting with Residual Perception of Motion Semantics & GeometryJiaxu Zhang, Junwu Weng, Di Kang, Fang Zhao, Shaoli Huang, Xuefei Zhe, Linchao Bao, Ying Shan, Jue Wang, Zhigang Tu 0001. 13864-13872 [doi]

MoDi: Unconditional Motion Synthesis from Diverse DataSigal Raab, Inbal Leibovitch, Peizhuo Li, Kfir Aberman, Olga Sorkine-Hornung, Daniel Cohen-Or. 13873-13883 [doi]

Recurrent Vision Transformers for Object Detection with Event CamerasMathias Gehrig, Davide Scaramuzza 0001. 13884-13893 [doi]

Continuous Intermediate Token Learning with Implicit Motion Manifold for Keyframe Based Motion InterpolationClinton Ansun Mo, Kun Hu, Chengjiang Long, Zhiyong Wang 0001. 13894-13903 [doi]

EvShutter: Transforming Events for Unconstrained Rolling Shutter CorrectionJulius Erbach, Stepan Tulyakov, Patricia Vitoria, Alfredo Bochicchio, Yuanyou Li. 13904-13913 [doi]

Multi Domain Learning for Motion MagnificationJasdeep Singh, Subrahmanyam Murala, G. Sankara Raju Kosuru. 13914-13923 [doi]

Learning Event Guided High Dynamic Range Video ReconstructionYixin Yang, Jin Han, Jinxiu Liang, Imari Sato, Boxin Shi. 13924-13934 [doi]

Joint Video Multi-Frame Interpolation and Deblurring under Unknown Exposure TimeWei Shang, Dongwei Ren, Yi Yang, Hongzhi Zhang, Kede Ma, Wangmeng Zuo. 13935-13944 [doi]

FeatER: An Efficient Network for Human Reconstruction via Feature Map-Based TransformERCe Zheng, Matías Mendieta, Taojiannan Yang, Guo-Jun Qi, Chen Chen 0001. 13945-13954 [doi]

MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding from Object DetectionWenda Zhao, Shigeng Xie, Fan Zhao, You He, Huchuan Lu. 13955-13965 [doi]

Joint HDR Denoising and Fusion: A Real-World Mobile HDR Image DatasetShuaizheng Liu, Xindong Zhang, Lingchen Sun, Zhetong Liang, Hui Zeng, Lei Zhang. 13966-13975 [doi]

Visibility Constrained Wide-Band Illumination Spectrum Design for Seeing-in-the-DarkMuyao Niu, Zhuoxiao Li, Zhihang Zhong, Yinqiang Zheng. 13976-13985 [doi]

Self-Supervised Blind Motion Deblurring with Deep Expectation MaximizationJi Li, Weixi Wang, Yuesong Nan, Hui Ji. 13986-13996 [doi]

Structure Aggregation for Cross-Spectral Stereo Image Guided DenoisingZehua Sheng, Zhu Yu, Xiongwei Liu, Si-Yuan Cao, Yu-qi Liu, Hui-Liang Shen, Huaqi Zhang. 13997-14006 [doi]

Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of EnvironmentsMasakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi. 14007-14017 [doi]

Zero-Shot Noise2Noise: Efficient Image Denoising without any DataYoussef Mansour, Reinhard Heckel. 14018-14027 [doi]

Real-Time Controllable Denoising for Image and VideoZhaoyang Zhang, Yitong Jiang, Wenqi Shao, Xiaogang Wang, Ping Luo, Kaimo Lin, Jinwei Gu. 14028-14038 [doi]

Probability-based Global Cross-modal Upsampling for PansharpeningZeyu Zhu, Xiangyong Cao, Man Zhou, Junhao Huang, Deyu Meng. 14039-14048 [doi]

ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow RemovalLanqing Guo, Chong Wang, Wenhan Yang, Siyu Huang, Yufei Wang, Hanspeter Pfister, Bihan Wen. 14049-14058 [doi]

Visual Recognition-Driven Image Restoration for Multiple Degradation with Intrinsic Semantics RecoveryZizheng Yang, Jie Huang 0017, Jiahao Chang, Man Zhou, Hu Yu, Jinghao Zhang, Feng Zhao 0004. 14059-14070 [doi]

Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning PerspectiveWeixia Zhang, Guangtao Zhai, Ying Wei 0001, Xiaokang Yang, Kede Ma. 14071-14081 [doi]

Human Guided Ground-Truth Generation for Realistic Image Super-ResolutionDu Chen, Jie Liang, Xindong Zhang, Ming Liu, Hui Zeng, Lei Zhang. 14082-14091 [doi]

Real-time 6K Image Rescaling with Rate-distortion OptimizationChenyang Qi, Xin Yang, Ka Leong Cheng, Ying-Cong Chen, Qifeng Chen. 14092-14101 [doi]

Equivalent Transformation and Dual Stream Network Construction for Mobile Image Super-ResolutionJiahao Chao, Zhou Zhou, Hongfan Gao, Jiali Gong, Zhengfeng Yang, Zhenbing Zeng, Lydia Dehbi. 14102-14111 [doi]

Ultrahigh Resolution Image/Video Matting with Spatio-Temporal SparsityYanan Sun 0005, Chi-Keung Tang, Yu-Wing Tai. 14112-14121 [doi]

Comprehensive and Delicate: An Efficient Transformer for Image RestorationHaiyu Zhao, Yuanbiao Gou, Boyun Li, Dezhong Peng, Jiancheng Lv, Xi Peng. 14122-14132 [doi]

PHA: Patch-Wise High-Frequency Augmentation for Transformer-Based Person Re-IdentificationGuiwei Zhang, Yongfei Zhang, Tianyu Zhang, Bo Li 0006, Shiliang Pu. 14133-14142 [doi]

PyramidFlow: High-Resolution Defect Contrastive Localization Using Pyramid Normalizing FlowJiarui Lei, Xiaobo Hu, Yue Wang, Dong Liu. 14143-14152 [doi]

Neural Fourier Filter BankZhijie Wu, Yuhe Jin, Kwang Moo Yi. 14153-14163 [doi]

Restoration of Hand-Drawn Architectural Drawings using Latent Space Mapping with Degradation GeneratorNakkwan Choi, Seungjae Lee, Yongsik Lee, Seungjoon Yang. 14164-14172 [doi]

Neural Preset for Color Style TransferZhanghan Ke, Yuhao Liu, Lei Zhu, Nanxuan Zhao, Rynson W. H. Lau. 14173-14182 [doi]

NÜWA-LIP: Language-guided Image Inpainting with Defect-free VQGANMinheng Ni, Xiaoming Li 0002, Wangmeng Zuo. 14183-14192 [doi]

DualVector: Unsupervised Vector Font Synthesis with Dual-Part RepresentationYing-Tian Liu, Zhifei Zhang, Yuanchen Guo, Matthew Fisher, Zhaowen Wang, Song-Hai Zhang. 14193-14202 [doi]

DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative ModelGwanghyun Kim, Se Young Chun. 14203-14213 [doi]

GALIP: Generative Adversarial CLIPs for Text-to-Image SynthesisMing Tao, Bing-Kun Bao, Hao Tang 0005, Changsheng Xu. 14214-14223 [doi]

Fix the Noise: Disentangling Source Feature for Controllable Domain TranslationDongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Jaejun Yoo, Junmo Kim. 14224-14234 [doi]

Conditional Text Image Generation with Diffusion ModelsYuanzhi Zhu, Zhaohai Li, Tianwei Wang, Mengchao He, Cong Yao. 14235-14244 [doi]

ReCo: Region-Controlled Text-to-Image GenerationZhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu 0001, Ce Liu, Michael Zeng 0001, Lijuan Wang. 14246-14255 [doi]

Freestyle Layout-to-Image SynthesisHan Xue, Zhiwu Huang, Qianru Sun, Li Song, Wenjun Zhang 0001. 14256-14266 [doi]

Specialist Diffusion: Plug-and-Play Sample-Efficient Fine-Tuning of Text-to-Image Diffusion Models to Learn Any Unseen StyleHaoming Lu, Hazarapet Tunanyan, Kai Wang, Shant Navasardyan, Zhangyang Wang, Humphrey Shi. 14267-14276 [doi]

Toward Verifiable and Reproducible Human Evaluation for Text-to-Image GenerationMayu Otani, Riku Togashi, Yu Sawai, Ryosuke Ishigami, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Shin'ichi Satoh 0003. 14277-14286 [doi]

Towards Flexible Multi-modal Document ModelsNaoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi. 14287-14296 [doi]

On Distillation of Guided Diffusion ModelsChenlin Meng, Robin Rombach, RuiQi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans. 14297-14306 [doi]

Dimensionality-Varying Diffusion ProcessHan Zhang, Ruili Feng, Zhantao Yang, Lianghua Huang, Yu Liu 0063, Yifei Zhang, Yujun Shen, Deli Zhao, Jingren Zhou, Fan Cheng. 14307-14316 [doi]

Shape-Aware Text-Driven Layered Video EditingYao-Chih Lee, Ji-Ze Genevieve Jang, Yi-Ting Chen, Elizabeth Qiu, Jia-Bin Huang 0001. 14317-14326 [doi]

Rethinking Image Super Resolution from Long-Tailed Distribution Learning PerspectiveYuanbiao Gou, Peng Hu, Jiancheng Lv, Hongyuan Zhu, Xi Peng. 14327-14336 [doi]

End-to-end Video Matting with Trimap PropagationWei-Lun Huang, Ming-Sui Lee. 14337-14347 [doi]

Context-Based Trit-Plane Coding for Progressive Image CompressionSeungmin Jeon, Kwang-Pyo Choi, Youngo Park, Chang-Su Kim 0001. 14348-14357 [doi]

Complexity-guided Slimmable Decoder for Efficient Deep Video CompressionZhihao Hu, Dong Xu 0001. 14358-14367 [doi]

Efficient Hierarchical Entropy Model for Learned Point Cloud CompressionRui Song, Chunyang Fu, Shan Liu 0001, Ge Li 0002. 14368-14377 [doi]

NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-Wise ModelingShishira R. Maiya, Sharath Girish, Max Ehrlich, Hanyu Wang 0002, Kwot Sin Lee, Patrick Poirson, Pengxiang Wu, Chen Wang, Abhinav Shrivastava. 14378-14387 [doi]

Learned Image Compression with Mixed Transformer-CNN ArchitecturesJinming Liu, Heming Sun, Jiro Katto. 14388-14397 [doi]

Memory-Friendly Scalable Super-Resolution via Rewinding Lottery Ticket HypothesisJin Lin, Xiaotong Luo, Ming Hong, Yanyun Qu, Yuan Xie 0006, Zongze Wu. 14398-14407 [doi]

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable ConvolutionsWenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao. 14408-14419 [doi]

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group AttentionXinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang 0001, Han Hu 0001, Yixuan Yuan. 14420-14430 [doi]

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer InferenceHaoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan 0004, Peter Vajda, Yingyan Celine Lin. 14431-14442 [doi]

RIFormer: Keep Your Vision Backbone Effective But Removing Token MixerJiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin. 14443-14452 [doi]

High-resolution image reconstruction with latent diffusion models from human brain activityYu Takagi, Shinji Nishimoto. 14453-14463 [doi]

Non-Contrastive Unsupervised Learning of Physiological Signals from VideoJeremy Speth, Nathan Vance, Patrick J. Flynn, Adam Czajka. 14464-14474 [doi]

Revealing the Dark Secrets of Masked Image ModelingZhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang 0022, Han Hu 0001, Yue Cao 0001. 14475-14485 [doi]

Improving Visual Representation Learning Through Perceptual UnderstandingSamyakh Tukra, Frederick Hoffman, Ken Chatfield. 14486-14495 [doi]

FlexiViT: One Model for All Patch SizesLucas Beyer, Pavel Izmailov, Alexander Kolesnikov 0003, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, Filip Pavetic. 14496-14506 [doi]

AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked AutoencodersWele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel 0001. 14507-14517 [doi]

SimpSON: Simplifying Photo Cleanup with Single-Click Distracting Object Segmentation NetworkChuong Huynh, YuQian Zhou, Zhe Lin, Connelly Barnes, Eli Shechtman, Sohrab Amirghodsi, Abhinav Shrivastava. 14518-14527 [doi]

Visual Dependency Transformers: Dependency Tree Emerges from Reversed AttentionMingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B. Tenenbaum, Chuang Gan. 14528-14539 [doi]

Iterative Next Boundary Detection for Instance Segmentation of Tree Rings in Microscopy Images of Shrub Cross SectionsAlexander Gillert, Giulia Resente, Alba Anadon-Rosell, Martin Wilmking, Uwe Freiherr von Lukas. 14540-14548 [doi]

VideoMAE V2: Scaling Video Masked Autoencoders with Dual MaskingLimin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao. 14549-14560 [doi]

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking TasksQiangqiang Wu, Tianyu Yang, Ziquan Liu, Baoyuan Wu, Ying Shan, Antoni B. Chan. 14561-14571 [doi]

SeqTrack: Sequence to Sequence Learning for Visual Object TrackingXin Chen, Houwen Peng, Dong Wang 0004, Huchuan Lu, Han Hu. 14572-14581 [doi]

Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual GroupingLong Lian, Zhirong Wu, Stella X. Yu. 14582-14591 [doi]

Video Event Restoration Based on Keyframes for Video Anomaly DetectionZhiwei Yang, Jing Liu, Zhaoyang Wu, Peng Wu, Xiaotao Liu. 14592-14601 [doi]

Streaming Video ModelYucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha. 14602-14612 [doi]

LSTFE-Net: Long Short-Term Feature Enhancement Network for Video Small Object DetectionJinsheng Xiao, Yuanxu Wu, Yunhua Chen, Shurui Wang, Zhongyuan Wang, Jiayi Ma 0001. 14613-14622 [doi]

A Generalized Framework for Video Instance SegmentationMiran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim. 14623-14632 [doi]

Referring Multi-Object TrackingDongming Wu, Wencheng Han, Tiancai Wang, Xingping Dong, Xiangyu Zhang 0005, Jianbing Shen. 14633-14642 [doi]

Source-Free Video Domain Adaptation with Spatial-Temporal-Historical Consistency LearningKai Li 0012, Deep Patel, Erik Kruus, Martin Renqiang Min. 14643-14652 [doi]

Seeing What You Said: Talking Face Generation Guided by a Lip Reading ExpertJiadong Wang, Xinyuan Qian, Malu Zhang, Robby T. Tan, Haizhou Li 0001. 14653-14662 [doi]

Egocentric Auditory Attention Localization in ConversationsFiona Ryan, Hao Jiang 0007, Abhinav Shukla, James M. Rehg, Vamsi Krishna Ithapu. 14663-14674 [doi]

iQuery: Instruments as Queries for Audio-Visual Sound SeparationJiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi. 14675-14686 [doi]

Learning to Dub Movies via Hierarchical Prosody ModelsGaoxiang Cong, Liang Li 0003, Yuankai Qi, Zheng-Jun Zha, Qi Wu, Wenyu Wang, Bin Jiang, Ming-Hsuan Yang 0001, Qingming Huang. 14687-14697 [doi]

A Large-Scale Robustness Analysis of Video Action Recognition ModelsMadeline Chantry Schiappa, Naman Biyani, Prudvi Kamtam, Shruti Vyas, Hamid Palangi, Vibhav Vineet, Yogesh S. Rawat. 14698-14708 [doi]

The Wisdom of Crowds: Temporal Progressive Attention for Early Action PredictionAlexandros Stergiou, Dima Damen. 14709-14719 [doi]

STMixer: A One-Stage Sparse Action DetectorTao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang. 14720-14729 [doi]

Generating Human Motion from Textual Descriptions with Discrete RepresentationsJianrong Zhang, Yangsong Zhang, Xiaodong Cun, Yong Zhang, Hongwei Zhao, Hongtao Lu, Xi Shen, Shan Ying. 14730-14740 [doi]

Cascade Evidential Learning for Open-world Weakly-supervised Temporal Action LocalizationMengyuan Chen, Junyu Gao, Changsheng Xu. 14741-14750 [doi]

Distilling Vision-Language Pre-Training to Collaborate with Weakly-Supervised Temporal Action LocalizationChen Ju, Kunhao Zheng, Jinxiang Liu, Peisen Zhao, Ya Zhang, Jianlong Chang, Qi Tian 0001, Yanfeng Wang. 14751-14762 [doi]

Simultaneously Short- and Long-Term Temporal Modeling for Semi-Supervised Video Semantic SegmentationJiangwei Lao, Weixiang Hong, Xin Guo, Yingying Zhang, Jian Wang, Jingdong Chen, Wei Chu. 14763-14772 [doi]

MIST : Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question AnsweringDifei Gao, Luowei Zhou, Lei Ji 0001, Linchao Zhu, Yi Yang, Mike Zheng Shou. 14773-14783 [doi]

Language-Guided Music Recommendation for Video via Prompt AnalogiesDaniel McKee, Justin Salamon, Josef Sivic, Bryan Russell. 14784-14793 [doi]

Text-Visual Prompting for Efficient 2D Temporal Video GroundingYimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu 0001, Ke Ding. 14794-14804 [doi]

CelebV-Text: A Large-Scale Facial Text-Video DatasetJianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai 0001, Wayne Wu. 14805-14814 [doi]

CNVid-3.5M: Build, Filter, and Pre-Train the Large-Scale Public Chinese Video-Text DatasetTian Gan, Qing Wang, Xingning Dong, Xiangyuan Ren, Liqiang Nie, Qingpei Guo. 14815-14824 [doi]

Learning Procedure-aware Video Representation from Instructional Videos and Their NarrationsYiwu Zhong, Licheng Yu, Yang Bai, Shangwen Li, Xueting Yan, Yin Li 0003. 14825-14835 [doi]

PDPP: Projected Diffusion for Procedure Planning in Instructional VideosHanlin Wang, Yilu Wu, Sheng Guo 0005, Limin Wang 0002. 14836-14845 [doi]

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language RetrievalXudong Lin 0003, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang. 14846-14855 [doi]

Clover: Towards A Unified Video-Language Alignment and Fusion ModelJingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji. 14856-14866 [doi]

Align and Attend: Multimodal Summarization with Dual Contrastive LossesBo He 0004, Jun Wang 0090, Jielin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen Wang. 14867-14878 [doi]

Learning Situation Hyper-Graphs for Video Question AnsweringAisha Urooj Khan, Hilde Kuehne, Bo Wu 0018, Kim Chheu, Walid Bousselham, Chuang Gan, Niels da Vitoria Lobo, Mubarak Shah. 14879-14889 [doi]

Natural Language-Assisted Sign Language RecognitionRonglai Zuo, Fangyun Wei, Brian Mak. 14890-14900 [doi]

SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular Frontal View ImagesNikhil Gosala, Kürsat Petek, Paulo L. J. Drews-Jr, Wolfram Burgard, Abhinav Valada. 14901-14910 [doi]

Adaptive Zone-aware Hierarchical Planner for Vision-Language NavigationChen Gao, Xingyu Peng, Mi Yan, He Wang, Lirong Yang, Haibing Ren, Hongsheng Li, Si Liu. 14911-14920 [doi]

Iterative Vision-and-Language NavigationJacob Krantz, Shurjo Banerjee, Wang Zhu 0001, Jason J. Corso, Peter Anderson, Stefan Lee, Jesse Thomason. 14921-14930 [doi]

EXCALIBUR: Encouraging and Evaluating Embodied ExplorationHao Zhu, Raghav Kapoor, So Yeon Min, Winson Han, Jiatai Li, Kaiwen Geng, Graham Neubig, Yonatan Bisk, Aniruddha Kembhavi, Luca Weihs. 14931-14942 [doi]

Multimodal Prompting with Missing Modalities for Visual RecognitionYi Lun Lee, Yi-Hsuan Tsai, Wei-chen Chiu, Chen-Yu Lee. 14943-14952 [doi]

Visual Programming: Compositional visual reasoning without trainingTanmay Gupta, Aniruddha Kembhavi. 14953-14962 [doi]

Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual ReasoningZhuowan Li, Xingrui Wang, Elias Stengel-Eskin, Adam Kortylewski, Wufei Ma, Benjamin Van Durme, Alan L. Yuille. 14963-14973 [doi]

Prompting Large Language Models with Answer Heuristics for Knowledge-Based Visual Question AnsweringZhenwei Shao, Zhou Yu 0001, Meng Wang 0001, Jun Yu 0002. 14974-14983 [doi]

À-la-carte Prompt Tuning (APT): Combining Distinct Data Via Composable PromptingBenjamin Bowman, Alessandro Achille, Luca Zancato, Matthew Trager, Pramuditha Perera, Giovanni Paolini, Stefano Soatto. 14984-14993 [doi]

ConStruct-VL: Data-Free Continual Structured VL Concepts LearningJames Seale Smith, Paola Cascante-Bonilla, Assaf Arbelle, Donghyun Kim, Rameswar Panda, David D. Cox, Diyi Yang, Zsolt Kira, Rogério Feris, Leonid Karlinsky. 14994-15004 [doi]

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!Zaid Khan 0001, BG Vijay Kumar, Samuel Schulter, Xiang Yu 0002, Yun Fu 0001, Manmohan Chandraker. 15005-15015 [doi]

Learning to Exploit Temporal Structure for Biomedical Vision-Language ProcessingShruthi Bannur, Stephanie L. Hyland, Qianchu Liu, Fernando Pérez-García, Maximilian Ilse, Daniel C. Castro, Benedikt Boecking, Harshita Sharma, Kenza Bouzid, Anja Thieme, Anton Schwaighofer, Maria Wetscherek, Matthew P. Lungren, Aditya V. Nori, Javier Alvarez-Valle, Ozan Oktay. 15016-15027 [doi]

FashionSAP: Symbols and Attributes Prompt for Fine-Grained Fashion Vision-Language Pre-TrainingYunpeng Han, Lisai Zhang, Qingcai Chen, Zhijian Chen, Zhonghua Li, Jianxin Yang, Zhao Cao. 15028-15038 [doi]

Advancing Visual Grounding with Scene Knowledge: Benchmark and MethodZhihong Chen, Ruifei Zhang, Yibing Song, Xiang Wan, Guanbin Li. 15039-15049 [doi]

Beyond Appearance: A Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual TasksWeihua Chen, Xianzhe Xu, Jian Jia, Hao Luo, Yaohua Wang, Fan Wang, Rong Jin 0001, Xiuyu Sun. 15050-15061 [doi]

OCTET: Object-aware Counterfactual ExplanationsMehdi Zemni, Mickaël Chen, Éloi Zablocki, Hédi Ben-Younes, Patrick Pérez, Matthieu Cord. 15062-15071 [doi]

Local-Guided Global: Paired Similarity Representation for Visual Reinforcement LearningHyesong Choi, Hunsang Lee, Wonil Song, Sangryul Jeon, Kwanghoon Sohn, Dongbo Min. 15072-15082 [doi]

What Can Human Sketches Do for Object Detection?Pinaki Nath Chowdhury, Ayan Kumar Bhunia, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Yi-Zhe Song. 15083-15094 [doi]

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete TokensYuxiao Chen 0002, Jianbo Yuan, Yu Tian 0003, Shijie Geng, Xinyu Li, Ding Zhou, Dimitris N. Metaxas, Hongxia Yang. 15095-15104 [doi]

Correlational Image Modeling for Self-Supervised Visual Pre-TrainingWei Li, Jiahao Xie 0002, Chen Change Loy. 15105-15115 [doi]

Generalized Decoding for Pixel, Image, and LanguageXueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao. 15116-15127 [doi]

Towards Modality-Agnostic Person Re-identification with Descriptive QueryCuiqun Chen, Mang Ye, Ding Jiang. 15128-15137 [doi]

6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout AnalysisHiuyi Cheng, Peirong Zhang, Sihang Wu, Jiaxin Zhang 0003, Qiyuan Zhu, Zecheng Xie, Jing Li, Kai Ding, Lianwen Jin. 15138-15147 [doi]

Learning Customized Visual Models with Retrieval-Augmented KnowledgeHaotian Liu, Kilho Son, Jianwei Yang, Ce Liu 0001, Jianfeng Gao, Yong Jae Lee, Chunyuan Li. 15148-15158 [doi]

Learning Semantic Relationship among Instances for Image-Text MatchingZheren Fu, Zhendong Mao, Yan Song, Yongdong Zhang 0001. 15159-15168 [doi]

I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image ClassificationMuhammad Ferjad Naeem, Muhammad Gul Zain Ali Khan, Yongqin Xian, Muhammad Zeshan Afzal, Didier Stricker, Luc Van Gool, Federico Tombari. 15169-15179 [doi]

ImageBind One Embedding Space to Bind Them AllRohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. 15180-15190 [doi]

Model-Agnostic Gender Debiased Image CaptioningYusuke Hirota, Yuta Nakashima, Noa Garcia. 15191-15200 [doi]

Boundary-aware Backward-Compatible Representation via Adversarial Learning in Image RetrievalTan Pan, Furong Xu, Xudong Yang, Sifeng He, Chen Jiang, Qingpei Guo, Feng Qian, Xiaobo Zhang, Yuan Cheng, Lei Yang, Wei Chu. 15201-15210 [doi]

Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot LearnersRenrui Zhang, Xiangfei Hu, BoHao Li, Siyuan Huang, Hanqiu Deng, Yu Qiao, Peng Gao, Hongsheng Li. 15211-15222 [doi]

Towards Unified Scene Text Spotting Based on Sequence GenerationTaeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim. 15223-15232 [doi]

CapDet: Unifying Dense Captioning and Open-World Detection PretrainingYanxin Long, Youpeng Wen, Jianhua Han, Hang Xu, Pengzhen Ren, Wei Zhang 0196, Shen Zhao, Xiaodan Liang. 15233-15243 [doi]

2: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud DataYihan Zeng, Chenhan Jiang, Jiageng Mao, Jianhua Han, Chaoqiang Ye, Qingqiu Huang, Dit-Yan Yeung, Zhen Yang, Xiaodan Liang, Hang Xu. 15244-15253 [doi]

Aligning Bag of Regions for Open-Vocabulary Object DetectionSize Wu, Wenwei Zhang, Sheng Jin 0007, Wentao Liu 0002, Chen Change Loy. 15254-15264 [doi]

Visual Recognition by RequestChufeng Tang, Lingxi Xie, Xiaopeng Zhang 0008, Xiaolin Hu 0001, Qi Tian 0001. 15265-15274 [doi]

Category Query Learning for Human-Object Interaction ClassificationChi Xie, Fangao Zeng, Yue Hu, Shuang Liang, Yichen Wei. 15275-15284 [doi]

Self-Supervised Implicit Glyph Attention for Text RecognitionTongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Wei Shen. 15285-15294 [doi]

Enlarging Instance-specific and Class-specific Information for Open-set Action RecognitionJun Cen, Shiwei Zhang, Xiang Wang, Yixuan Pei, Zhiwu Qing, Yingya Zhang, Qifeng Chen. 15295-15304 [doi]

CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic SegmentationYuqi Lin, Minghao Chen 0001, Wenxiao Wang 0001, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He 0001. 15305-15314 [doi]

Learning Attention as Disentangler for Compositional Zero-Shot LearningShaozhe Hao, Kai Han 0001, Kwan-Yee K. Wong. 15315-15324 [doi]

Universal Instance Perception as Object Discovery and RetrievalBin Yan 0004, Yi Jiang, Jiannan Wu, Dong Wang 0004, Ping Luo, Zehuan Yuan, Huchuan Lu. 15325-15336 [doi]

Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot LearningMan Liu, Feng Li 0037, Chunjie Zhang, Yunchao Wei, Huihui Bai, Yao Zhao. 15337-15346 [doi]

DPF: Learning Dense Prediction Fields with Weak SupervisionXiaoxue Chen, Yuhang Zheng, Yupeng Zheng, Qiang Zhou, Hao Zhao, Guyue Zhou, Ya-Qin Zhang. 15347-15357 [doi]

Modeling Entities as Semantic Points for Visual Information Extraction in the WildZhibo Yang, Rujiao Long, Pengfei Wang, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao. 15358-15367 [doi]

GeoNet: Benchmarking Unsupervised Adaptation across GeographiesTarun Kalluri, Wangdong Xu, Manmohan Chandraker. 15368-15379 [doi]

SegLoc: Learning Segmentation-Based Representations for Privacy-Preserving Visual LocalizationMaxime Pietrantoni, Martin Humenberger, Torsten Sattler, Gabriela Csurka. 15380-15391 [doi]

Towards Open-World Segmentation of PartsTai-Yu Pan, Qing Liu, Wei-Lun Chao, Brian Price. 15392-15401 [doi]

Pruning Parameterization with Bi-level Optimization for Efficient Semantic Segmentation on the EdgeChangdi Yang, Pu Zhao 0001, Yanyu Li, Wei Niu 0002, Jiexiong Guan, Hao Tang 0005, Minghai Qin, Bin Ren, Xue Lin, Yanzhi Wang. 15402-15412 [doi]

HGFormer: Hierarchical Grouping Transformer for Domain Generalized Semantic SegmentationJian Ding, Nan Xue 0001, Gui-Song Xia, Bernt Schiele, Dengxin Dai. 15413-15423 [doi]

Exemplar-FreeSOLO: Enhancing Unsupervised Instance Segmentation with ExemplarsTaoseef Ishtiak, Qing En, Yuhong Guo. 15424-15433 [doi]

Weakly-Supervised Domain Adaptive Semantic Segmentation with Prototypical Contrastive LearningAnurag Das, Yongqin Xian, Dengxin Dai, Bernt Schiele. 15434-15443 [doi]

Spatial-temporal Concept based Explanation of 3D ConvNetsYing Ji 0003, Yu Wang 0018, Jien Kato. 15444-15453 [doi]

Sparsely Annotated Semantic Segmentation with Adaptive Gaussian MixturesLinshan Wu, Zhun Zhong, Leyuan Fang, Xingxin He, Qiang Liu, Jiayi Ma 0001, Hao Chen. 15454-15464 [doi]

Fuzzy Positive Learning for Semi-Supervised Semantic SegmentationPengchong Qiao, Zhidan Wei, Yu Wang, Zhennan Wang, Guoli Song, Fan Xu, Xiangyang Ji, Chang Liu, Jie Chen 0001. 15465-15474 [doi]

STAR Loss: Reducing Semantic Ambiguity in Facial Landmark DetectionZhenglin Zhou, Huaxia Li, Hong Liu, Nanyang Wang, Gang Yu, Rongrong Ji. 15475-15484 [doi]

Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency PromptHao Li, Dingwen Zhang, Nian Liu, Lechao Cheng, Yalun Dai, Chao Zhang, Xinggang Wang, Junwei Han. 15485-15494 [doi]

Decoupled Semantic Prototypes enable learning from diverse annotation types for semi-weakly segmentation in expert-driven domainsSimon Reiß, Constantin Seibold, Alexander Freytag, Erik Rodner, Rainer Stiefelhagen. 15495-15506 [doi]

The Treasure Beneath Multiple Annotations: An Uncertainty-Aware Edge DetectorCaixia Zhou, Yaping Huang, Mengyang Pu, Qingji Guan, Li Huang, Haibin Ling. 15507-15517 [doi]

Knowledge Combination to Learn Rotated Detection without Rotated AnnotationTianyu Zhu, Bryce Ferenczi, Pulak Purkait, Tom Drummond, Hamid Rezatofighi, Anton van den Hengel. 15518-15527 [doi]

Mapping Degeneration Meets Label Evolution: Learning Infrared Small Target Detection with Single Point SupervisionXinyi Ying, Li Liu, Yingqian Wang 0002, Ruojing Li, Nuo Chen, Zaiping Lin, Weidong Sheng, Shilin Zhou. 15528-15538 [doi]

SAP-DETR: Bridging the Gap Between Salient Points and Queries-Based Transformer Detector for Fast Model ConvergencyYang Liu, Yao Zhang, Yixin Wang, Yang Zhang, Jiang Tian, Zhongchao Shi, Jianping Fan 0007, Zhiqiang He 0002. 15539-15547 [doi]

Zero-Shot Object CountingJingyi Xu, Hieu Le, Vu Nguyen 0004, Viresh Ranjan, Dimitris Samaras. 15548-15557 [doi]

SOOD: Towards Semi-Supervised Oriented Object DetectionWei Hua, Dingkang Liang, Jingyu Li, Xiaolong Liu, Zhikang Zou, Xiaoqing Ye, Xiang Bai. 15558-15567 [doi]

Large-scale Training Data Search for Object Re-identificationYue Yao, Tom Gedeon, Liang Zheng 0001. 15568-15578 [doi]

Ambiguity-Resistant Semi-Supervised Learning for Dense Object DetectionChang Liu, Weiming Zhang, Xiangru Lin, Wei Zhang, Xiao Tan, Junyu Han, Xiaomao Li, Errui Ding, Jingdong Wang 0001. 15579-15588 [doi]

Towards Effective Visual Representations for Partial-Label LearningShiyu Xia, Jiaqi Lv, Ning Xu 0009, Gang Niu 0001, Xin Geng. 15589-15598 [doi]

Bi3D: Bi-Domain Active Learning for Cross-Domain 3D Object DetectionJiakang Yuan, Bo Zhang, Xiangchao Yan, Tao Chen, Botian Shi, Yikang Li, Yu Qiao. 15599-15608 [doi]

Boosting Detection in Crowd Analysis via Underutilized Output FeaturesShaokai Wu, Fengyu Yang. 15609-15618 [doi]

Self-Supervised Learning from Images with a Joint-Embedding Predictive ArchitectureMahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael G. Rabbat, Yann LeCun, Nicolas Ballas. 15619-15629 [doi]

Weakly Supervised Segmentation with Point Annotations for Histopathology Images via Contrast-Based Variational ModelHongrun Zhang, Liam Burrows, Yanda Meng, Declan Sculthorpe, Abhik Mukherjee, Sarah E. Coupland, Ke Chen 0002, Yalin Zheng. 15630-15640 [doi]

DoNet: Deep De-Overlapping Network for Cytology Instance SegmentationHao Jiang, Rushan Zhang, Yanning Zhou 0001, Yumeng Wang, Hao Chen 0085. 15641-15650 [doi]

MCF: Mutual Correction Framework for Semi-Supervised Medical Image SegmentationYongchao Wang, Bin Xiao 0002, Xiuli Bi, Weisheng Li 0001, Xinbo Gao 0001. 15651-15660 [doi]

Histopathology Whole Slide Image Analysis with Heterogeneous Graph Representation LearningTsai Hor Chan, Fernando Julio Cendra, Lan Ma, Guosheng Yin, Lequan Yu. 15661-15670 [doi]

PEFAT: Boosting Semi-Supervised Medical Image Classification via Pseudo-Loss Estimation and Feature Adversarial TrainingQingjie Zeng, Yutong Xie, Zilin Lu, Yong Xia 0001. 15671-15680 [doi]

Causally-Aware Intraoperative Imputation for Overall Survival Time PredictionXiang Li, Xuelin Qian, Litian Liang, Lingjie Kong, Qiaole Dong, Jiejun Chen, Dingxia Liu, Xiuzhong Yao, Yanwei Fu. 15681-15690 [doi]

Balanced Energy Regularization Loss for Out-of-distribution DetectionHyunjun Choi, Hawook Jeong, Jin Young Choi 0002. 15691-15700 [doi]

Block Selection Method for Using Feature Norm in Out-of-Distribution DetectionYeonguk Yu, Sungho Shin, Seongju Lee, ChangHyun Jun, Kyoobin Lee. 15701-15711 [doi]

Highly Confident Local Structure Based Consensus Graph Learning for Incomplete Multi-view ClusteringJie Wen 0001, Chengliang Liu 0003, Gehui Xu, Zhihao Wu 0002, Chao Huang 0008, Lunke Fei, Yong Xu 0001. 15712-15721 [doi]

Siamese DETRZeren Chen, Gengshi Huang, Wei Li, Jianing Teng, Kun Wang, Jing Shao, Chen Change Loy, Lu Sheng. 15722-15731 [doi]

Towards Bridging the Performance Gaps of Joint Energy-Based ModelsXiulong Yang, Qing Su, Shihao Ji. 15732-15741 [doi]

Three Guidelines You Should Know for Universally Slimmable Self-Supervised LearningYun-Hao Cao, Peiqin Sun, Shuchang Zhou 0001. 15742-15751 [doi]

Boosting Transductive Few-Shot Fine-tuning with Margin-based Uncertainty Weighting and Probability RegularizationRan Tao, Hao Chen, Marios Savvides. 15752-15761 [doi]

CHMATCH: Contrastive Hierarchical Matching and Robust Adaptive Threshold Boosted Semi-Supervised LearningJianlong Wu, Haozhe Yang, Tian Gan, Ning Ding, Feijun Jiang, Liqiang Nie. 15762-15772 [doi]

MarginMatch: Improving Semi-Supervised Learning with Pseudo-MarginsTiberiu Sosea, Cornelia Caragea. 15773-15782 [doi]

Ranking Regularization for Critical Rare Classes: Minimizing False Positives at a High True Positive RateKiarash Mohammadi, He Zhao, Mengyao Zhai, Frederick Tung. 15783-15792 [doi]

Learning Imbalanced Data with Vision TransformersZhengzhuo Xu, Ruikang Liu, Shuo Yang, Zenghao Chai, Chun Yuan. 15793-15803 [doi]

No One Left Behind: Improving the Worst Categories in Long-Tailed LearningYingxiao Du, Jianxin Wu 0001. 15804-15813 [doi]

Global and Local Mixture Consistency Cumulative Learning for Long-tailed Visual RecognitionsFei Du, Peng Yang, Qi Jia, Fengtao Nan, Xiaoting Chen, Yun Yang 0003. 15814-15823 [doi]

Curvature-Balanced Feature Manifold Learning for Long-Tailed ClassificationYanbiao Ma, Licheng Jiao, Fang Liu 0001, Shuyuan Yang, Xu Liu 0006, Lingling Li 0002. 15824-15835 [doi]

DAA: A Delta Age AdaIN operation for age estimation via binary code transformerPing Chen, Xingpeng Zhang, Ye Li, Ju Tao, Bin Xiao, Bing Wang, Zongjie Jiang. 15836-15845 [doi]

DLBD: A Self-Supervised Direct-Learned Binary DescriptorBin Xiao 0002, Yang Hu, Bo Liu 0047, Xiuli Bi, Weisheng Li 0001, Xinbo Gao 0001. 15846-15855 [doi]

Progressive Open Space Expansion for Open-Set Model AttributionTianyun Yang, Danding Wang, Fan Tang, Xinying Zhao, Juan Cao, Sheng Tang. 15856-15865 [doi]

DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic SegmentationFengyi Shen, Akhil Gurram, Ziyuan Liu, He Wang 0010, Alois Knoll. 15866-15877 [doi]

Multi-Modal Learning with Missing Modality via Shared-Specific Feature ModellingHu Wang 0005, Yuanhong Chen, Congbo Ma, Jodie Avery, Louise Hull, Gustavo Carneiro 0001. 15878-15887 [doi]

Towards All-in-One Pre-Training via Maximizing Multi-Modal Mutual InformationWeijie Su 0002, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie Zhou 0001, Jifeng Dai. 15888-15899 [doi]

Bi-Level Meta-Learning for Few-Shot Domain GeneralizationXiaorong Qin, Xinhang Song, Shuqiang Jiang. 15900-15910 [doi]

Train/Test-Time Adaptation with RetrievalLuca Zancato, Alessandro Achille, Tian-Yu Liu, Matthew Trager, Pramuditha Perera, Stefano Soatto. 15911-15921 [doi]

Robust Test-Time Adaptation in Dynamic ScenariosLonghui Yuan, Binhui Xie, Shuang Li 0008. 15922-15932 [doi]

Domain Expansion of Image GeneratorsYotam Nitzan, Michaël Gharbi, Richard Zhang 0001, Taesung Park, Jun-Yan Zhu, Daniel Cohen-Or, Eli Shechtman. 15933-15942 [doi]

Switchable Representation Learning Framework with Self-CompatibilityShengsen Wu, Yan Bai, Yihang Lou, Xiongkun Linghu, Jianzhong He, Ling-Yu Duan. 15943-15953 [doi]

A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain AdaptationHui Tang, Kui Jia. 15954-15964 [doi]

Adapting Shortcut with Normalizing Flow: An Efficient Tuning Framework for Visual RecognitionYaoming Wang, Bowen Shi, Xiaopeng Zhang, Jin Li, Yuchen Liu 0006, Wenrui Dai, Chenglin Li, Hongkai Xiong, Qi Tian 0001. 15965-15974 [doi]

Manipulating Transfer Learning for Property InferenceYulong Tian, Fnu Suya, Anshuman Suri, Fengyuan Xu, David Evans 0001. 15975-15984 [doi]

Heterogeneous Continual LearningDivyam Madaan, Hongxu Yin, Wonmin Byeon, Jan Kautz, Pavlo Molchanov 0001. 15985-15995 [doi]

Generic-to-Specific Distillation of Masked AutoencodersWei Huang, Zhiliang Peng, Li Dong 0004, Furu Wei, Jianbin Jiao, Qixiang Ye. 15996-16005 [doi]

Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image RetrievalYi Xie, Huaidong Zhang, Xuemiao Xu, Jianqing Zhu, Shengfeng He. 16006-16015 [doi]

CafeBoost: Causal Feature Boost to Eliminate Task-Induced Bias for Class Incremental LearningBenliu Qiu, Hongliang Li, Haitao Wen, Heqian Qiu, Lanxiao Wang, Fanman Meng, Qingbo Wu 0001, Lili Pan 0001. 16016-16025 [doi]

Bilateral Memory Consolidation for Continual LearningXing Nie, Shixiong Xu, Xiyan Liu, Gaofeng Meng, Chunlei Huo, Shiming Xiang. 16026-16035 [doi]

NICO++: Towards Better Benchmarking for Domain GeneralizationXingxuan Zhang, Yue He 0001, Renzhe Xu, Han Yu, Zheyan Shen, Peng Cui 0001. 16036-16047 [doi]

DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural NetworksSamyak Jain, Sravanti Addepalli, Pawan Kumar Sahu, Priyam Dey, R. Venkatesh Babu. 16048-16059 [doi]

Differentiable Architecture Search with Random FeaturesXuanyang Zhang, Yonggang Li, Xiangyu Zhang, Yongtao Wang, Jian Sun. 16060-16069 [doi]

Class Adaptive Network CalibrationBingyuan Liu, Jérôme Rony, Adrian Galdran, Jose Dolz, Ismail Ben Ayed. 16070-16079 [doi]

Meta-Learning with a Geometry-Adaptive PreconditionerSuhyun Kang, Duhun Hwang, Moonjung Eo, Taesup Kim, Wonjong Rhee. 16080-16090 [doi]

DepGraph: Towards Any Structural PruningGongfan Fang, Xinyin Ma, Mingli Song, Michael Bi Mi, Xinchao Wang. 16091-16101 [doi]

Stitchable Neural NetworksZizheng Pan, Jianfei Cai 0001, Bohan Zhuang. 16102-16112 [doi]

Integral Neural NetworksKirill Solodskikh, Azim Kurbanov, Ruslan Aydarkhanov, Irina Zhelavskaya, Yury Parfenov, Dehua Song, Stamatios Lefkimmiatis. 16113-16122 [doi]

Regularization of polynomial networks for image recognitionGrigorios G. Chrysos, Bohan Wang, Jiankang deng, Volkan Cevher. 16123-16132 [doi]

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersSanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu 0003, In-So Kweon, Saining Xie. 16133-16142 [doi]

Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network ExplanationsAlexander Binder, Leander Weber, Sebastian Lapuschkin, Grégoire Montavon, Klaus-Robert Müller, Wojciech Samek. 16143-16152 [doi]

Don't Lie to Me! Robust and Efficient Explainability with Verified Perturbation AnalysisThomas Fel, Melanie Ducoffe, David Vigouroux, Rémi Cadène, Mikael Capelle, Claire Nicodème, Thomas Serre. 16153-16163 [doi]

OT-Filter: An Optimal Transport Filter for Learning with Noisy LabelsChuanwen Feng, Yilong Ren, Xike Xie. 16164-16174 [doi]

Robust Generalization Against Photon-Limited Corruptions via Worst-Case Sharpness MinimizationZhuo Huang, Miaoxi Zhu, Xiaobo Xia, Li Shen 0008, Jun Yu 0001, Chen Gong 0002, Bo Han 0003, Bo Du 0001, Tongliang Liu. 16175-16185 [doi]

Learning with Noisy labels via Self-supervised Adversarial Noisy MaskingYuanpeng Tu, Boshen Zhang, Yuxi Li, Liang Liu, Jian Li, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cairong Zhao. 16186-16195 [doi]

Bit-shrinking: Limiting Instantaneous Sharpness for Improving Post-training QuantizationChen Lin, Bo Peng, Zheyang Li, Wenming Tan, Ye Ren, Jun Xiao 0001, Shiliang Pu. 16196-16205 [doi]

Enhancing Multiple Reliability Measures via Nuisance-Extended Information BottleneckJongheon Jeong, Sihyun Yu, Hankook Lee, Jinwoo Shin. 16206-16218 [doi]

AdaptiveMix: Improving GAN Training via Feature Space ShrinkageHaozhe Liu, Wentian Zhang, Bing Li 0024, Haoqian Wu, Nanjun He, Yawen Huang, Yuexiang Li, Bernard Ghanem, Yefeng Zheng 0001. 16219-16229 [doi]

Re-GAN: Data-Efficient GANs Training via Architectural ReconfigurationDivya Saxena, Jiannong Cao 0001, Jiahao Xu, Tarun Kulshrestha. 16230-16240 [doi]

Soft Augmentation for Image ClassificationYang Liu, Shen Yan, Laura Leal-Taixé, James Hays, Deva Ramanan. 16241-16250 [doi]

Boosting Verified Training for Robust Image Classifications via AbstractionZhaodi Zhang, Zhiyi Xue, Yang Chen, Si Liu 0003, Yueling Zhang, Jing Liu, Min Zhang 0002. 16251-16260 [doi]

A New Dataset Based on Images Taken by Blind People for Testing the Robustness of Image Classification Models Trained for ImageNet CategoriesReza Akbarian Bafghi, Danna Gurari. 16261-16270 [doi]

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly DetectionChen Zhang, Guorong Li, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming-Hsuan Yang 0001. 16271-16280 [doi]

Prototypical Residual Networks for Anomaly Detection and LocalizationHui Zhang 0090, Zuxuan Wu, Zheng Wang 0059, Zhineng Chen, Yu-Gang Jiang. 16281-16291 [doi]

Class Balanced Adaptive Pseudo Labeling for Federated Semi-Supervised LearningMing Li, Qingli Li, Yan Wang 0033. 16292-16301 [doi]

Fair Federated Medical Image Segmentation via Client Contribution EstimationMeirui Jiang, Holger R. Roth, Wenqi Li 0001, Dong Yang 0005, Can Zhao, Vishwesh Nath, Daguang Xu, Qi Dou 0001, Ziyue Xu 0001. 16302-16311 [doi]

Rethinking Federated Learning with Domain Shift: A Prototype ViewWenke Huang, Mang Ye, Zekun Shi, He Li, Bo Du 0001. 16312-16322 [doi]

FedDM: Iterative Distribution Matching for Communication-Efficient Federated LearningYuanhao Xiong, Ruochen Wang, Minhao Cheng, Felix Yu, Cho-Jui Hsieh. 16323-16332 [doi]

Alias-Free Convnets: Fractional Shift Invariance via Polynomial ActivationsHagay Michaeli, Tomer Michaeli, Daniel Soudry. 16333-16342 [doi]

STDLens: Model Hijacking-Resilient Federated Learning for Object DetectionKa Ho Chow, Ling Liu 0001, Wenqi Wei, Fatih Ilhan, Yanzhao Wu. 16343-16351 [doi]

Detecting Backdoors in Pre-trained EncodersShiwei Feng 0002, Guanhong Tao 0001, Siyuan Cheng 0005, Guangyu Shen, Xiangzhe Xu, Yingqi Liu, Kaiyuan Zhang 0002, ShiQing Ma, Xiangyu Zhang 0001. 16352-16362 [doi]

Detecting Backdoors During the Inference Stage Based on Corruption Robustness ConsistencyXiaogeng Liu, Minghui Li, Haoyu Wang, Shengshan Hu, Dengpan Ye, Hai Jin 0001, Libing Wu, Chaowei Xiao. 16363-16372 [doi]

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image EncodersZeyang Sha, Xinlei He, Ning Yu, Michael Backes 0001, Yang Zhang 0016. 16373-16383 [doi]

Re-Thinking Model Inversion Attacks Against Deep Neural NetworksNgoc-Bao Nguyen, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung. 16384-16393 [doi]

Turning Strengths into Weaknesses: A Certified Robustness Inspired Attack Framework against Graph Neural NetworksBinghui Wang, Meng Pang, Yun Dong. 16394-16403 [doi]

Dynamic Generative Targeted Attacks with Pattern InjectionWeiwei Feng, Nanqing Xu, Tianzhu Zhang, Yongdong Zhang 0001. 16404-16414 [doi]

Transferable Adversarial Attacks on Vision Transformers with Token Gradient RegularizationJianping Zhang, Yizhan Huang, Weibin Wu, Michael R. Lyu. 16415-16424 [doi]

Adversarial Counterfactual Visual ExplanationsGuillaume Jeanneret, Loïc Simon, Frédéric Jurie. 16425-16435 [doi]

TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and GeneralizationZiquan Liu, Yi Xu, Xiangyang Ji, Antoni B. Chan. 16436-16446 [doi]

Randomized Adversarial Training via Taylor ExpansionGaojie Jin, Xinping Yi, Dengyu Wu, Ronghui Mu, Xiaowei Huang. 16447-16457 [doi]

Improving Robust Generalization by Direct PAC-Bayesian Bound MinimizationZifan Wang, Nan Ding 0002, Tomer Levinboim, Xi Chen, Radu Soricut. 16458-16468 [doi]

Evading Forensic Classifiers with Attribute-Conditioned Adversarial FacesFahad Shamshad, Koushik Srivatsan, Karthik Nandakumar. 16469-16478 [doi]

DartBlur: Privacy Preservation with Detection Artifact SuppressionBaowei Jiang, Bing Bai, Haozhe Lin, Yu Wang, Yuchen Guo, Lu Fang. 16479-16488 [doi]

Fresnel Microfacet BRDF: Unification of Polari-Radiometric Surface-Body ReflectionTomoki Ichikawa, Yoshiki Fukao, Shohei Nobuhara, Ko Nishino. 16489-16497 [doi]

JacobiNeRF: NeRF Shaping with Mutual Information GradientsXiaomeng Xu, Yanchao Yang 0001, Kaichun Mo, Boxiao Pan, Li Yi, Leonidas J. Guibas. 16498-16507 [doi]

ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real Novel View Synthesis via Contrastive LearningHao Yang, Lanqing Hong, Aoxue Li, Tianyang Hu, Zhenguo Li, Gim Hee Lee, Liwei Wang. 16508-16517 [doi]

SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth EstimatesMikaela Angelina Uy, Ricardo Martin-Brualla, Leonidas J. Guibas, Ke Li. 16518-16527 [doi]

Removing Objects From Neural Radiance FieldsSilvan Weder, Guillermo Garcia-Hernando, Áron Monszpart, Marc Pollefeys, Gabriel J. Brostow, Michael Firman, Sara Vicente. 16528-16538 [doi]

Progressively Optimized Local Radiance Fields for Robust View SynthesisAndreas Meuleman, Yu-Lun Liu 0001, Chen Gao, Jia-Bin Huang 0001, Changil Kim 0001, Min H. Kim 0001, Johannes Kopf 0001. 16539-16548 [doi]

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry ScaffoldsChen Yang, Peihao Li, Zanwei Zhou, Shanxin Yuan, Bingbing Liu, Xiaokang Yang, Weichao Qiu, Wei Shen. 16549-16558 [doi]

ABLE-NeRF: Attention-Based Rendering with Learnable Embeddings for Neural Radiance FieldZhe Jun Tang, Tat-Jen Cham, Haiyu Zhao. 16559-16568 [doi]

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile ArchitecturesZhiqin Chen, Thomas A. Funkhouser, Peter Hedman, Andrea Tagliasacchi. 16569-16578 [doi]

pCON: Polarimetric Coordinate Networks for Neural Scene RepresentationsHenry Peters, Yunhao Ba, Achuta Kadambi. 16579-16589 [doi]

Complementary Intrinsics from Neural Radiance Fields and CNNs for Outdoor Scene RelightingSiqi Yang, Xuanning Cui, Yongjie Zhu, Jiajun Tang, Si Li 0001, Zhaofei Yu, Boxin Shi. 16600-16609 [doi]

HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned SamplingBenjamin Attal, Jia-Bin Huang 0001, Christian Richardt, Michael Zollhöfer, Johannes Kopf 0001, Matthew O'Toole, Changil Kim 0001. 16610-16620 [doi]

UV Volumes for Real-time Rendering of Editable Free-view Human PerformanceYue Chen, Xuan Wang, Xingyu Chen, Qi Zhang 0029, Xiaoyu Li, Yu Guo, Jue Wang, Fei Wang. 16621-16631 [doi]

Tensor4D: Efficient Neural 4D Decomposition for High-Fidelity Dynamic Reconstruction and RenderingRuizhi Shao, Zerong Zheng, Hanzhang Tu, Boning Liu, Hongwen Zhang 0001, Yebin Liu. 16632-16642 [doi]

PixHt-Lab: Pixel Height Based Light Effect Generation for Image CompositingYichen Sheng, Jianming Zhang, Julien Philip, Yannick Hold-Geoffroy, Xin Sun, He Zhang 0004, Lu Ling, Bedrich Benes. 16643-16653 [doi]

Computational Flash Photography through IntrinsicsSepideh Sarajian Maralan, Chris Careaga, Yagiz Aksoy. 16654-16662 [doi]

RelightableHands: Efficient Neural Relighting of Articulated Hand ModelsShun Iwase, Shunsuke Saito, Tomas Simon, Stephen Lombardi, Timur M. Bagautdinov, Rohan Joshi, Fabian Prada, Takaaki Shiratori, Yaser Sheikh, Jason M. Saragih. 16663-16673 [doi]

TMO: Textured Mesh Acquisition of Objects with a Mobile Device by using Differentiable RenderingJaehoon Choi, Dongki Jung, Taejae Lee, Sangwook Kim, Youngdong Jung, Dinesh Manocha, Donghwan Lee. 16674-16684 [doi]

VolRecon: Volume Rendering of Signed Ray Distance Functions for Generalizable Multi-View ReconstructionYufan Ren, Fangjinhua Wang, Tong Zhang, Marc Pollefeys, Sabine Süsstrunk. 16685-16695 [doi]

Multi-View Reconstruction Using Signed Ray Distance Functions (SRDF)Pierre Zins, Yuanlu Xu, Edmond Boyer, Stefanie Wuhrer, Tony Tung. 16696-16706 [doi]

Structural Multiplane Image: Bridging Neural View Synthesis and 3D ReconstructionMingfang Zhang 0002, Jinglu Wang, Xiao Li, Yifei Huang, Yoichi Sato, Yan Lu 0001. 16707-16716 [doi]

Octree Guided Unoriented Surface ReconstructionChamin Hewa Koneputugodage, Yizhak Ben-Shabat, Stephen Gould. 16717-16726 [doi]

Neural Vector Fields: Implicit Representation by Explicit LearningXianghui Yang, Guosheng Lin, Zhenghao Chen, Luping Zhou. 16727-16738 [doi]

DA Wand: Distortion-Aware Selection Using Neural Mesh ParameterizationRichard Liu, Noam Aigerman, Vladimir G. Kim, Rana Hanocka. 16739-16749 [doi]

Diffusion-based Generation, Optimization, and Planning in 3D ScenesSiyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, Song Chun Zhu. 16750-16761 [doi]

Patch-Based 3D Natural Scene Generation from a Single ExampleWeiyu Li, Xuelin Chen, Jue Wang 0001, Baoquan Chen. 16762-16772 [doi]

Consistent View Synthesis with Pose-Guided Diffusion ModelsHung-Yu Tseng, Qinbo Li, Changil Kim 0001, Suhib Alsisan, Jia-Bin Huang 0001, Johannes Kopf 0001. 16773-16783 [doi]

Generalized Deep 3D Shape Prior via Part-Discretized Diffusion ProcessYuhan Li, Yishun Dou, Xuanhong Chen, Bingbing Ni, Yilin Sun, Yutian Liu, Fuzhen Wang. 16784-16794 [doi]

High Fidelity 3D Hand Shape Reconstruction via Scalable Graph Frequency DecompositionTianyu Luan, Yuanhao Zhai 0001, Jingjing Meng, Zhong Li, Zhang Chen, Yi Xu, Junsong Yuan. 16795-16804 [doi]

TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo SupervisionJiacheng Wei, Hao Wang, Jiashi Feng, Guosheng Lin, Kim-Hui Yap. 16805-16815 [doi]

SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude OperationsPu Li, Jianwei Guo, Xiaopeng Zhang 0001, Dong-Ming Yan 0001. 16816-16826 [doi]

Interactive Cartoonization with Controllable Perceptual FactorsNamhyuk Ahn, Patrick Kwon, Jihye Back, Kibeom Hong, Seungkwon Kim. 16827-16835 [doi]

High-Res Facial Appearance Capture from Polarized Smartphone ImagesDejan Azinovic, Olivier Maury, Christophe Hery, Matthias Nießner, Justus Thies. 16836-16846 [doi]

GlassesGAN: Eyewear Personalization Using Synthetic Appearance Discovery and Targeted Subspace ModelingRichard Plesh, Peter Peer, Vitomir Struc. 16847-16857 [doi]

Continuous Landmark Detection with 3D QueriesPrashanth Chandran, Gaspard Zoss, Paulo F. U. Gotardo, Derek Bradley. 16858-16867 [doi]

NeuFace: Realistic 3D Neural Face Rendering from Multi-View ImagesMingwu Zheng, Haiyu Zhang, Hongyu Yang, Di Huang 0001. 16868-16877 [doi]

AVFace: Towards Detailed Audio-Visual 4D Face ReconstructionAggelina Chatziagapi, Dimitris Samaras. 16878-16889 [doi]

Learning Personalized High Quality Volumetric Head Avatars from Monocular RGB VideosZiqian Bai, Feitong Tan, Zeng Huang, Kripasindhu Sarkar, Danhang Tang, Di Qiu, Abhimitra Meka, Ruofei Du, Mingsong Dou, Sergio Orts-Escolano, Rohit Pandey, Ping Tan, Thabo Beeler, Sean Fanello, Yinda Zhang 0001. 16890-16900 [doi]

OTAvatar: One-Shot Talking Face Avatar with Controllable Tri-Plane RenderingZhiyuan Ma, Xiangyu Zhu, Guojun Qi, Zhen Lei, Lei Zhang. 16901-16910 [doi]

X-Avatar: Expressive Human AvatarsKaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song 0006, Otmar Hilliges. 16911-16921 [doi]

InstantAvatar: Learning Avatars from Monocular Video in 60 SecondsTianjian Jiang, Xu Chen 0025, Jie Song 0006, Otmar Hilliges. 16922-16932 [doi]

JAWS: Just A Wild Shot for Cinematic Transfer in Neural Radiance FieldsXi Wang, Robin Courant, Jinglei Shi, Éric Marchand, Marc Christie. 16933-16942 [doi]

MonoHuman: Animatable Human Neural Field from Monocular VideoZhengming Yu, Wei Cheng, Xian Liu, Wayne Wu, Kwan-Yee Lin. 16943-16953 [doi]

Structured 3D Features for Reconstructing Controllable AvatarsEnric Corona, Mihai Zanfir, Thiemo Alldieck, Eduard Gabriel Bazavan, Andrei Zanfir, Cristian Sminchisescu. 16954-16964 [doi]

HOOD: Hierarchical Graphs for Generalized Modelling of Clothing DynamicsArtur Grigorev, Michael J. Black, Otmar Hilliges. 16965-16974 [doi]

Physically Realizable Natural-Looking Clothing Textures Evade Person Detectors via 3D ModelingZhanhao Hu, Wenda Chu, Xiaopei Zhu, Hui Zhang, Bo Zhang 0010, Xiaolin Hu 0001. 16975-16984 [doi]

Learning Semantic-Aware Disentangled Representation for Flexible 3D Human Body EditingXiaokun Sun, Qiao Feng, Xiongzheng Li, Jinsong Zhang, Yu-Kun Lai, Jingyu Yang, Kun Li. 16985-16994 [doi]

Reconstructing Animatable Categories from VideosGengshan Yang, Chaoyang Wang, N. Dinesh Reddy, Deva Ramanan. 16995-17005 [doi]

Deformable Mesh Transformer for 3D Human Mesh RecoveryYusuke Yoshiyasu. 17006-17015 [doi]

Hi4D: 4D Instance Segmentation of Close Human InteractionYifei Yin, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Jie Song 0006, Otmar Hilliges. 17016-17027 [doi]

Bringing Inputs to Shared Domains for 3D Interacting Hands Recovery in the WildGyeongsik Moon. 17028-17037 [doi]

Learning Human Mesh Recovery in 3D ScenesZehong Shen, Zhi Cen, Sida Peng, Qing Shuai, Hujun Bao, Xiaowei Zhou. 17038-17047 [doi]

H2ONet: Hand-Occlusion-and-Orientation-Aware Network for Real-Time 3D Hand Mesh ReconstructionHao Xu, Tianyu Wang 0003, Xiao Tang, Chi-Wing Fu. 17048-17058 [doi]

What You Can Reconstruct from a ShadowRuoshi Liu, Sachit Menon, Chengzhi Mao, Dennis Park, Simon Stent, Carl Vondrick. 17059-17068 [doi]

Autonomous Manipulation Learning for Similar Deformable Objects via Only One DemonstrationYu Ren, Ronghan Chen, Yang Cong. 17069-17078 [doi]

In-Hand 3D Object Scanning from an RGB SequenceShreyas Hampali, Tomas Hodan, Luan Tran, Lingni Ma, Cem Keskin, Vincent Lepetit. 17079-17088 [doi]

Putting People in Their Place: Affordance-Aware Human Insertion into ScenesSumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu 0001, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh. 17089-17099 [doi]

Detecting Human-Object Contact in ImagesYixin Chen, Sai Kumar Dwivedi, Michael J. Black, Dimitrios Tzionas. 17100-17110 [doi]

What Happened 3 Seconds Ago? Inferring the Past with Thermal ImagingZitian Tang, Wenjie Ye, Wei-Chiu Ma, Hang Zhao. 17111-17120 [doi]

Trajectory-Aware Body Interaction Transformer for Multi-Person Pose ForecastingXiaogang Peng, Siyuan Mao, Zizhao Wu. 17121-17130 [doi]

Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in VideoRunyang Feng, Yixing Gao, Xueqing Ma, Tze Ho Elden Tse, Hyung Jin Chang. 17131-17141 [doi]

Ego-Body Pose Estimation via Ego-Head Pose EstimationJiaman Li, C. Karen Liu, Jiajun Wu 0001. 17142-17151 [doi]

ViPLO: Vision Transformer Based Pose-Conditioned Self-Loop Graph for Human-Object Interaction DetectionJeeseung Park, Jin-Woo Park, Jong-Seok Lee. 17152-17162 [doi]

HS-Pose: Hybrid Scope Feature Extraction for Category-level Object Pose EstimationLinfang Zheng, Chen Wang, Yinghan Sun, Esha Dasgupta, Hua Chen, Ales Leonardis, Wei Zhang, Hyung Jin Chang. 17163-17173 [doi]

ScarceNet: Animal Pose Estimation with Scarce AnnotationsChen Li 0038, Gim Hee Lee. 17174-17183 [doi]

Cross-Domain 3D Hand Pose Estimation with Dual ModalitiesQiuxia Lin, Linlin Yang, Angela Yao. 17184-17193 [doi]

Linking Garment with Person via Semantically Associated Landmarks for Virtual Try-OnKeyu Yan, Tingwei Gao, Hui Zhang, Chengjun Xie. 17194-17204 [doi]

2fM: Structure from Motion on Neural Level Set of Implicit SurfacesYuxi Xiao, Nan Xue 0001, Tianfu Wu 0001, Gui-Song Xia. 17205-17214 [doi]

Revisiting Rotation Averaging: Uncertainties and Robust LossesGanlin Zhang, Viktor Larsson, Daniel Barath. 17215-17224 [doi]

SliceMatch: Geometry-Guided Aggregation for Cross-View Pose EstimationTed de Vries Lentsch, Zimin Xia, Holger Caesar, Julian F. P. Kooij. 17225-17234 [doi]

Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty EstimationLiyan Chen, Weihan Wang, Philippos Mordohai. 17235-17244 [doi]

Long-Term Visual Localization with Mobile SensorsShen Yan, Yu Liu, Long Wang, Zehong Shen, Zhen Peng, Haomin Liu, Maojun Zhang, Guofeng Zhang 0001, Xiaowei Zhou. 17245-17255 [doi]

Learning to Predict Scene-Level Implicit 3D from Posed RGBD DataNilesh Kulkarni, Linyi Jin, Justin Johnson 0001, David F. Fouhey. 17256-17265 [doi]

Paired-Point Lifting for Enhanced Privacy-Preserving Visual LocalizationChunghwan Lee, Jaihoon Kim, Chanhyuk Yun, Je Hyeong Hong. 17266-17275 [doi]

The Object Folder Benchmark : Multisensory Learning with Neural and Real ObjectsRuohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei 0001, Jiajun Wu 0001. 17276-17286 [doi]

Learning Accurate 3D Shape Based on Stereo Polarimetric ImagingTianyu Huang, Haoang Li, Kejing He, Congying Sui, Bin Li, Yun-Hui Liu. 17287-17296 [doi]

RUST: Latent Neural Scene Representations from Unposed ImageryMehdi S. M. Sajjadi, Aravindh Mahendran, Thomas Kipf, Etienne Pot, Daniel Duckworth, Mario Lucic, Klaus Greff. 17297-17306 [doi]

Perspective Fields for Single Image Camera CalibrationLinyi Jin, Jianming Zhang, Yannick Hold-Geoffroy, Oliver Wang, Kevin Blackburn-Matzen, Matthew Sticha, David F. Fouhey. 17307-17316 [doi]

VisFusion: Visibility-Aware Online 3D Scene Reconstruction from VideosHuiyu Gao, Wei Mao 0001, Miaomiao Liu 0001. 17317-17326 [doi]

DeepLSD: Line Segment Detection and Refinement with Deep Image GradientsRémi Pautrat, Daniel Barath, Viktor Larsson, Martin R. Oswald, Marc Pollefeys. 17327-17336 [doi]

Disentangling Orthogonal Planes for Indoor Panoramic Room Layout Estimation with Cross-Scale Distortion AwarenessZhijie Shen, Zishuo Zheng, Chunyu Lin, Lang Nie, Kang Liao, Shuai Zheng 0005, Yao Zhao. 17337-17345 [doi]

Single Image Depth Prediction Made Better: A Multivariate Gaussian TakeCe Liu, Suryansh Kumar 0001, Shuhang Gu, Radu Timofte, Luc Van Gool. 17346-17356 [doi]

Wide-Angle Rectification via Content-Aware Conformal MappingQi Zhang, Hongdong Li, Qing Wang. 17357-17365 [doi]

All-in-Focus Imaging from Event Focal StackHanyue Lou, Minggui Teng, Yixin Yang, Boxin Shi. 17366-17375 [doi]

Multi-View Stereo Representation Revist: Region-Aware MVSNetYisu Zhang, Jianke Zhu, Lixiang Lin. 17376-17385 [doi]

Semantic Ray: Learning a Generalizable Semantic Field with Cross-Reprojection AttentionFangfu Liu, Chubin Zhang, Yu Zheng, Yueqi Duan. 17386-17396 [doi]

OmniCity: Omnipotent City Understanding with Multi-Level and Multi-View ImagesWeijia Li, Yawen Lai, Linning Xu, Yuanbo Xiangli, Jinhua Yu, Conghui He, Gui-Song Xia, Dahua Lin. 17397-17407 [doi]

ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of Signed Distance FieldsMohammad Mahdi Johari, Camilla Carta, François Fleuret. 17408-17419 [doi]

Non-Line-of-Sight Imaging with Signal Superresolution NetworkJianyu Wang, Xintong Liu, Leping Xiao, Zuoqiang Shi, Lingyun Qiu, Xing Fu. 17420-17429 [doi]

Look, Radiate, and Learn: Self-Supervised Localisation via Radio-Visual CorrespondenceMohammed Alloulah, Maximilian Arnold. 17430-17440 [doi]

Learning Transformations to Reduce the Geometric Shift in Object DetectionVidit Vidit, Martin Engilberge, Mathieu Salzmann. 17441-17450 [doi]

Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane DetectionShaofei Huang, Zhenwei Shen, Zehao Huang, Zi-han Ding, Jiao Dai, Jizhong Han, Naiyan Wang, Si Liu. 17451-17460 [doi]

BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention NetworksXiaowei Chi, Jiaming Liu, Ming Lu, Rongyu Zhang, Zhaoqing Wang, Yandong Guo, Shanghang Zhang. 17461-17470 [doi]

Semi-Supervised Stereo-Based 3D Object Detection via Cross-View ConsensusWenhao Wu, Hau-San Wong, Si Wu 0002. 17471-17481 [doi]

Weakly Supervised Monocular 3D Object Detection Using Multi-View Projection and Direction ConsistencyRunzhou Tao, Wencheng Han, Zhongying Qiu, Cheng-Zhong Xu 0001, Jianbing Shen. 17482-17492 [doi]

MonoATT: Online Monocular 3D Object Detection with Adaptive Token TransformerYunsong Zhou, Hongzi Zhu, Quan Liu, Shan Chang, Minyi Guo. 17493-17503 [doi]

Azimuth Super-Resolution for FMCW Radar in Autonomous DrivingYu-Jhe Li, Shawn Hunt, Jinhyung Park, Matthew O'Toole, Kris Kitani. 17504-17513 [doi]

Pix2Map: Cross-Modal Retrieval for Inferring Street Maps from ImagesXindi Wu, KwunFung Lau, Francesco Ferroni, Aljosa Osep, Deva Ramanan. 17514-17523 [doi]

LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross- Modal FusionXin Li, Tao Ma 0002, Yuenan Hou, Botian Shi, Yuchen Yang, Youquan Liu, Xingjiao Wu, Qin Chen, Yikang Li, Yu Qiao, Liang He 0001. 17524-17534 [doi]

Neural Map Prior for Autonomous DrivingXuan Xiong, Yicheng Liu, Tianyuan Yuan, Yue Wang, Yilun Wang, Hang Zhao. 17535-17544 [doi]

Spherical Transformer for LiDAR-Based 3D RecognitionXin Lai, Yukang Chen, Fanbin Lu, Jianhui Liu, Jiaya Jia. 17545-17555 [doi]

Density-Insensitive Unsupervised Domain Adaption on 3D Object DetectionQianjiang Hu, Daizong Liu, Wei Hu 0003. 17556-17566 [doi]

PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point CloudsJinyu Li, Chenxu Luo, Xiaodong Yang. 17567-17576 [doi]

PeakConv: Learning Peak Receptive Field for Radar Semantic SegmentationLiwen Zhang, Xinyan Zhang, Youcheng Zhang, Yufei Guo, Yuanpei Chen, Xuhui Huang, Zhe Ma. 17577-17586 [doi]

Single Domain Generalization for LiDAR Semantic SegmentationHyeonseong Kim, Yoonsu Kang, Changgyoon Oh, Kuk-Jin Yoon. 17587-17598 [doi]

Weakly Supervised Class-agnostic Motion Prediction for Autonomous DrivingRuibo Li, Hanyu Shi 0002, Ziang Fu, Zhe Wang, Guosheng Lin. 17599-17608 [doi]

MethaneMapper: Spectral Absorption Aware Hyperspectral Transformer for Methane DetectionSatish Kumar, Ivan Arevalo, ASM Iftekhar, B. S. Manjunath. 17609-17618 [doi]

GrowSP: Unsupervised Semantic Segmentation of 3D Point CloudsZihui Zhang, Bo Yang 0027, Bing Wang 0013, Bo Li 0037. 17619-17629 [doi]

SCoDA: Domain Adaptive Shape Completion for Real ScansYushuang Wu, Zizheng Yan, Ce Chen, Lai Wei, Xiao Li, Guanbin Li, Yihao Li, Shuguang Cui, Xiaoguang Han 0001. 17630-17641 [doi]

SCPNet: Semantic Scene Completion on Point CloudZhaoyang Xia, Youquan Liu, Xin Li, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao. 17642-17651 [doi]

ViewNet: A Novel Projection-Based Backbone with View Pooling for Few-shot Point Cloud ClassificationJiajing Chen, Minmin Yang, Senem Velipasalar. 17652-17660 [doi]

Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation LearningZhuoyang Zhang, Yuhao Dong, Yunze Liu, Li Yi. 17661-17670 [doi]

Learnable Skeleton-Aware 3D Point Cloud SamplingCheng Wen, Baosheng Yu, Dacheng Tao. 17671-17681 [doi]

Meta Architecture for Point Cloud AnalysisHaojia Lin, Xiawu Zheng, Lijiang Li, Fei Chao 0001, Shanshan Wang, Yan Wang, Yonghong Tian 0001, Rongrong Ji. 17682-17691 [doi]

PointListNet: Deep Learning on 3D Point ListsHehe Fan, Linchao Zhu, Yi Yang, Mohan S. Kankanhalli. 17692-17701 [doi]

PEAL: Prior-embedded Explicit Attention Learning for Low-overlap Point Cloud RegistrationJunle Yu, Luwei Ren, WenHui Zhou, Yu Zhang, Lili Lin, Guojun Dai. 17702-17711 [doi]

Unsupervised Inference of Signed Distance Functions from Single Sparse Point Clouds without Learning PriorsChao Chen, Yu-Shen Liu, Zhizhong Han. 17712-17723 [doi]

Towards Better Gradient Consistency for Neural Signed Distance Functions via Level Set AlignmentBaorui Ma, Junsheng Zhou, Yu-Shen Liu, Zhizhong Han. 17724-17734 [doi]

Self-Supervised Learning for Multimodal Non-Rigid 3D Shape MatchingDongliang Cao, Florian Bernard. 17735-17744 [doi]

3D Registration with Maximal CliquesXiyu Zhang, Jiaqi Yang 0002, Shikun Zhang, Yanning Zhang. 17745-17754 [doi]

PanoSwin: a Pano-style Swin Transformer for Panorama UnderstandingZhixin Ling, Zhen Xing, Xiangdong Zhou, Manliang Cao, Guichun Zhou. 17755-17764 [doi]

DKM: Dense Kernelized Feature Matching for Geometry EstimationJohan Edstedt, Ioannis Athanasiadis, Mårten Wadenbäck, Michael Felsberg. 17765-17775 [doi]

PATS: Patch Area Transportation with Subdivision for Local Feature MatchingJunjie Ni, Yijin Li, Zhaoyang Huang, Hongsheng Li 0001, Hujun Bao, Zhaopeng Cui, Guofeng Zhang 0001. 17776-17786 [doi]

Correspondence Transformers with Asymmetric Feature Learning and Matching Flow Super-ResolutionYixuan Sun, Dongyang Zhao, Zhangyue Yin, Yiwen Huang, Tao Gui, Wenqiang Zhang, Weifeng Ge. 17787-17796 [doi]

Learning Adaptive Dense Event Stereo from the Image DomainHoonhee Cho, Jegyeong Cho, Kuk-Jin Yoon. 17797-17807 [doi]

On the Convergence of IRLS and Its Variants in Outlier-Robust EstimationLiangzu Peng, Christian Kümmerle, René Vidal. 17808-17818 [doi]

You Only Segment Once: Towards Real-Time Panoptic SegmentationJie Hu, Linyan Huang, Tianhe Ren, Shengchuan Zhang, Rongrong Ji, Liujuan Cao. 17819-17829 [doi]

BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective SupervisionChenyu Yang, YunTao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li 0001, Yu Qiao, Lewei Lu, Jie Zhou 0001, Jifeng Dai. 17830-17839 [doi]

UniHCP: A Unified Model for Human-Centric PerceptionsYuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai 0001, Feng Zhu 0006, Rui Zhao 0001, Fengwei Yu, Donglian Qi, Wanli Ouyang. 17840-17852 [doi]

Planning-oriented Autonomous DrivingYihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li 0001. 17853-17862 [doi]

Query-Centric Trajectory PredictionZikang Zhou, Jianping Wang 0001, Yung-hui Li, Yu-Kai Huang. 17863-17873 [doi]

Unsupervised Sampling Promoting for Stochastic Human Trajectory PredictionGuangyi Chen, Zhenhao Chen, Shunxing Fan, Kun Zhang. 17874-17884 [doi]

AdamsFormer for Spatial Action Localization in the FutureHyung-Gun Chi, Kwonjoon Lee, Nakul Agarwal, Yi Xu 0005, Karthik Ramani, Chiho Choi. 17885-17895 [doi]

PIRLNav: Pretraining with Imitation and RL Finetuning for OBJECTNAVRam Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das. 17896-17906 [doi]

NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View SynthesisAllan Zhou, Moo Jin Kim, Lirui Wang, Pete Florence, Chelsea Finn. 17907-17917 [doi]

Camouflaged Instance Segmentation via Explicit De-CamouflagingNaisong Luo, Yuwen Pan, Rui Sun, Tianzhu Zhang, Zhiwei Xiong, Feng Wu 0001. 17918-17927 [doi]

Standing Between Past and Future: Spatio-Temporal Modeling for Multi-Camera 3D Multi-Object TrackingZiqi Pang, Jie Li, Pavel Tokmakov, Dian Chen 0005, Sergey Zagoruyko, Yu-Xiong Wang. 17928-17938 [doi]

MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object TrackingZheng Qin, Sanping Zhou, Le Wang 0003, Jinghai Duan, Gang Hua 0001, Wei Tang. 17939-17948 [doi]

Multi-modal Gait Recognition via Effective Spatial-Temporal Feature FusionYufeng Cui, Yimei Kang. 17949-17957 [doi]

Rethinking the Learning Paradigm for Dynamic Facial Expression RecognitionHanyang Wang, Bo Li, Shuang Wu, Siyuan Shen, Feng Liu 0039, Shouhong Ding, Aimin Zhou. 17958-17968 [doi]

One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance FieldWeichuang Li, Longhao Zhang, Dong Wang, Bin Zhao, Zhigang Wang 0002, Mulin Chen, Bang Zhang, Zhongjian Wang, Liefeng Bo, Xuelong Li 0001. 17969-17978 [doi]

Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head SynthesisDuomin Wang, Yu Deng, Zixin Yin, Heung-Yeung Shum, Baoyuan Wang. 17979-17989 [doi]

Event-Guided Person Re-Identification via Sparse-Dense Complementary LearningChengzhi Cao, Xueyang Fu, Hongjian Liu, Yukun Huang, Kunyu Wang, Jiebo Luo, Zheng-Jun Zha. 17990-17999 [doi]

Executing your Commands via Motion Diffusion in Latent SpaceXin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Gang Yu. 18000-18010 [doi]

MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action RecognitionXiang Wang, Shiwei Zhang, Zhiwu Qing, Changxin Gao, Yingya Zhang, Deli Zhao, Nong Sang. 18011-18021 [doi]

"Seeing" Electric Network Frequency from EventsLexuan Xu, Guang Hua 0001, Haijian Zhang, Lei Yu 0006, Ning Qiao. 18022-18031 [doi]

Event-based Video Frame Interpolation with Cross-Modal Asymmetric Bidirectional Motion FieldsTaewoo Kim, Yujeong Chae, Hyun-Kurl Jang, Kuk-Jin Yoon. 18032-18042 [doi]

Event-Based Frame Interpolation with Ad-hoc DeblurringLei Sun, Christos Sakaridis, Jingyun Liang, Peng Sun, Kai Zhang, Jiezhang Cao, Qi Jiang, Kaiwei Wang, Luc Van Gool. 18043-18052 [doi]

Video Dehazing via a Multi-Range Temporal Alignment Network with Physical PriorJiaqi Xu, Xiaowei Hu, Lei Zhu 0003, Qi Dou 0001, Jifeng Dai, Yu Qiao 0006, Pheng-Ann Heng. 18053-18062 [doi]

TransFlow: Transformer as Flow LearnerYawen Lu, Qifan Wang, Siqi Ma, Tong Geng, Yingjie Victor Chen, Huaijin Chen, Dongfang Liu. 18063-18073 [doi]

MP-Former: Mask-Piloted Transformer for Image SegmentationHao Zhang 0097, Feng Li, Huaizhe Xu, Shijia Huang, Shilong Liu, Lionel M. Ni, Lei Zhang. 18074-18083 [doi]

GradICON: Approximate Diffeomorphisms via Gradient Inverse ConsistencyLin Tian, Hastings Greer, François-Xavier Vialard, Roland Kwitt, Raúl San José Estépar, Richard Jarrett Rushmore, Nikolaos Makris, Sylvain Bouix, Marc Niethammer. 18084-18094 [doi]

Neural Texture Synthesis with Guided CorrespondenceYang Zhou, Kaijian Chen, Rongjun Xiao, Hui Huang 0004. 18095-18104 [doi]

Self-supervised Non-uniform Kernel Estimation with Flow-based Motion Prior for Blind Image DeblurringZhenxuan Fang, Fangfang Wu, Weisheng Dong, Xin Li 0005, Jinjian Wu, Guangming Shi. 18105-18114 [doi]

Decoupling-and-Aggregating for Image Exposure CorrectionYang Wang, Long Peng, Liang Li, Yang Cao, Zheng-Jun Zha. 18115-18124 [doi]

You Do Not Need Additional Priors or Regularizers in Retinex-Based Low-Light Image EnhancementHuiyuan Fu, Wenkai Zheng, Xiangyu Meng, Xin Wang 0001, Chuanming Wang, Huadong Ma. 18125-18134 [doi]

DNF: Decouple and Feedback Network for Seeing in the DarkXin Jin, Linghao Han, Zhen Li 0031, Chun-Le Guo, Zhi Chai, Chongyi Li. 18135-18144 [doi]

Contrastive Semi-Supervised Learning for Underwater Image Restoration via Reliable BankShirui Huang, Keyan Wang, Huan Liu, Jun Chen 0005, Yunsong Li. 18145-18155 [doi]

LG-BPN: Local and Global Blind-Patch Network for Self-Supervised Real-World DenoisingZichun Wang, Ying Fu 0001, Ji Liu, Yulun Zhang. 18156-18165 [doi]

Spectral Bayesian Uncertainty for Image Super-ResolutionTao Liu, Jun Cheng, Shan Tan. 18166-18175 [doi]

Deep Random Projector: Accelerated Deep Image PriorTaihui Li, Hengkang Wang, Zhong Zhuang, Ju Sun. 18176-18185 [doi]

Context-Aware Pretraining for Efficient Blind Image DecompositionChao Wang, Zhedong Zheng, Ruijie Quan, Yifan Sun 0003, Yi Yang 0001. 18186-18195 [doi]

Metadata-Based RAW Reconstruction via Implicit Neural FunctionsLeyi Li, Huijie Qiao, Qi Ye, Qinmin Yang. 18196-18205 [doi]

Raw Image Reconstruction with Learned Compact MetadataYufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen. 18206-18215 [doi]

AccelIR: Task-aware Image Compression for Accelerating Neural RestorationJuncheol Ye, Hyunho Yeo, Jinwoo Park, Dongsu Han. 18216-18226 [doi]

AutoFocusFormer: Image Segmentation off the GridZiwen Chen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren, Alexander G. Schwing, Alex Colburn, Fuxin Li. 18227-18236 [doi]

Guided Depth Super-Resolution by Deep Anisotropic DiffusionNando Metzger, Rodrigo Caye Daudt, Konrad Schindler. 18237-18246 [doi]

Super-Resolution Neural OperatorMin Wei, Xuesong Zhang. 18247-18256 [doi]

Cascaded Local Implicit Transformer for Arbitrary-Scale Super-ResolutionHao-Wei Chen, Yu-Syuan Xu, Min-Fong Hong, Yi-Min Tsai, Hsien-Kai Kuo, Chun-Yi Lee. 18257-18267 [doi]

GamutMLP: A Lightweight MLP for Color Loss RecoveryHoang M. Le, Brian Price, Scott Cohen, Michael S. Brown. 18268-18277 [doi]

Efficient and Explicit Modelling of Image Hierarchies for Image RestorationYawei Li, Yuchen Fan, Xiaoyu Xiang, Denis Demandolx, Rakesh Ranjan, Radu Timofte, Luc Van Gool. 18278-18289 [doi]

LEMaRT: Label-Efficient Masked Region Transform for Image HarmonizationSheng Liu, Cong Phuoc Huynh, Cong Chen, Maxim Arap, Raffay Hamid. 18290-18299 [doi]

CAP-VSTNet: Content Affinity Preserved Versatile Style TransferLinfeng Wen, Chengying Gao, Changqing Zou. 18300-18309 [doi]

ObjectStitch: Object Compositing with Diffusion ModelYizhi Song, Zhifei Zhang, Zhe L. Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, Daniel G. Aliaga. 18310-18319 [doi]

DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher QualityYuqing Wang, Yizhi Wang, Longhui Yu, Yuesheng Zhu, Zhouhui Lian. 18320-18328 [doi]

Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot Artistic Style TransferHao Tang, Songhua Liu, Tianwei Lin, Shaoli Huang, Fu Li, Dongliang He, Xinchao Wang. 18329-18338 [doi]

CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural LanguageAditya Sanghi, Rao Fu, Vivian Liu, Karl D. D. Willis, Hooman Shayani, Amir Hosein Khasahmadi, Srinath Sridhar 0002, Daniel Ritchie. 18339-18348 [doi]

LayoutDM: Transformer-based Diffusion Model for Layout GenerationShang Chai, Liansheng Zhuang, Fengying Yan. 18349-18358 [doi]

Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image InpaintingSu Wang 0001, Chitwan Saharia, Ceslee Montgomery, Jordi Pont-Tuset, Shai Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu Soricut, Jason Baldridge, Mohammad Norouzi 0002, Peter Anderson, William Chan. 18359-18369 [doi]

SpaText: Spatio-Textual Representation for Controllable Image GenerationOmri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, Xi Yin 0008. 18370-18380 [doi]

Paint by Example: Exemplar-based Image Editing with Diffusion ModelsBinxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, Fang Wen 0001. 18381-18391 [doi]

InstructPix2Pix: Learning to Follow Image Editing InstructionsTim Brooks, Aleksander Holynski, Alexei A. Efros. 18392-18402 [doi]

LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space RestrictionZhaoyun Jiang, Jiaqi Guo, Shizhao Sun, Huayu Deng, Zhongkai Wu, Vuksan Mijovic, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang 0001. 18403-18412 [doi]

Self-Guided Diffusion ModelsVincent Tao Hu, David W. Zhang, Yuki M. Asano, Gertjan J. Burghouts, Cees G. M. Snoek. 18413-18422 [doi]

HOLODIFFUSION: Training a 3D Diffusion Model Using 2D ImagesAnimesh Karnewar, Andrea Vedaldi, David Novotný, Niloy J. Mitra. 18423-18433 [doi]

Class-Balancing Diffusion ModelsYiming Qin, Huangjie Zheng, Jiangchao Yao, Mingyuan Zhou, Ya Zhang. 18434-18443 [doi]

Conditional Image-to-Video Generation with Latent Flow Diffusion ModelsHaomiao Ni, Changhao Shi, Kai Li, Sharon X. Huang, Martin Renqiang Min. 18444-18455 [doi]

Video Probabilistic Diffusion Models in Projected Latent SpaceSihyun Yu, Kihyuk Sohn, Subin Kim, Jinwoo Shin. 18456-18466 [doi]

Regularized Vector Quantization for Tokenized Image SynthesisJiahui Zhang, Fangneng Zhan, Christian Theobalt, Shijian Lu. 18467-18476 [doi]

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive ImagingLishun Wang, Miao Cao, Xin Yuan. 18477-18486 [doi]

MMVC: Learned Multi-Mode Video Compression with Block-based Prediction Mode Selection and Density-Adaptive Entropy CodingBowen Liu, Yu Chen, Rakesh Chowdary Machineni, Shiyu Liu, Hun-Seok Kim. 18487-18496 [doi]

Video Compression with Entropy-Constrained Neural RepresentationsCarlos Gomes, Roberto Azevedo, Christopher Schroers. 18497-18506 [doi]

WIRE: Wavelet Implicit Neural RepresentationsVishwanath Saragadam, Daniel LeJeune, Jasper Tan, Guha Balakrishnan, Ashok Veeraraghavan, Richard G. Baraniuk. 18507-18516 [doi]

TINC: Tree-Structured Implicit Neural CompressionRunzhao Yang. 18517-18526 [doi]

CompletionFormer: Depth Completion with Convolutions and Vision TransformersYoumin Zhang 0008, Xianda Guo, Matteo Poggi, Zheng Zhu, Guan Huang, Stefano Mattoccia. 18527-18536 [doi]

Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationNing Zhang, Francesco Nex, George Vosselman, Norman Kerle. 18537-18546 [doi]

Global Vision Transformer Pruning with Hessian-Aware SaliencyHuanrui Yang, Hongxu Yin, Maying Shen, Pavlo Molchanov 0001, Hai Li, Jan Kautz. 18547-18557 [doi]

Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETRFeng Li, Ailing Zeng, Shilong Liu, Hao Zhang 0097, Hongyang Li, Lei Zhang, Lionel M. Ni. 18558-18567 [doi]

PaCa-ViT: Learning Patch-to-Cluster Attention in Vision TransformersRyan Grainger, Thomas Paniagua, Xi Song, Naresh Cuntoor, Mun Wai Lee, Tianfu Wu 0001. 18568-18578 [doi]

Visual Atoms: Pre-Training Vision Transformers with Sinusoidal WavesSora Takashima, Ryo Hayamizu, Nakamasa Inoue, Hirokatsu Kataoka, Rio Yokota. 18579-18588 [doi]

Neuron Structure Modeling for Generalizable Remote Physiological MeasurementHao Lu 0009, Zitong Yu, Xuesong Niu, Yingcong Chen. 18589-18599 [doi]

Explaining Image Classifiers with Multiscale Directional Image RepresentationStefan Kolek, Robert Windesheim, Héctor Andrade-Loarca, Gitta Kutyniok, Ron Levie. 18600-18609 [doi]

Integrally Pre-Trained Transformer Pyramid NetworksYunjie Tian, Lingxi Xie, Zhaozhi Wang, Longhui Wei, Xiaopeng Zhang, Jianbin Jiao, Yaowei Wang, Qi Tian 0001, Qixiang Ye. 18610-18620 [doi]

PartMix: Regularization Strategy to Learn Part Discovery for Visible-Infrared Person Re-IdentificationMinsu Kim, Seungryong Kim, Jungin Park, Seongheon Park, Kwanghoon Sohn. 18621-18632 [doi]

Knowledge Distillation for 6D Pose Estimation by Aligning Distributions of Local PredictionsShuxuan Guo, Yinlin Hu, Jose M. Alvarez, Mathieu Salzmann. 18633-18642 [doi]

Focused and Collaborative Feedback Integration for Interactive Image SegmentationQiaoqiao Wei, Hui Zhang 0013, Jun-Hai Yong. 18643-18652 [doi]

PolyFormer: Referring Image Segmentation as Sequential Polygon GenerationJiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha. 18653-18663 [doi]

Devil's on the Edges: Selective Quad Attention for Scene Graph GenerationDeunsol Jung, Sanghyun Kim, Won Hwa Kim, Minsu Cho. 18664-18674 [doi]

Panoptic Video Scene Graph GenerationJingkang Yang, Wenxuan Peng, Xiangtai Li, Zujin Guo, Liangyu Chen, Bo Li, Zheng Ma 0008, Kaiyang Zhou, Wayne Zhang, Chen Change Loy, Ziwei Liu. 18675-18685 [doi]

Generalized Relation Modeling for Transformer TrackingShenyuan Gao, Chunluan Zhou, Jun Zhang 0004. 18686-18695 [doi]

Representation Learning for Visual Object Tracking by Masked Appearance TransferHaojie Zhao, Dong Wang 0004, Huchuan Lu. 18696-18705 [doi]

Unified Mask Embedding and Correspondence Learning for Self-Supervised Video SegmentationLiulei Li, Wenguan Wang, Tianfei Zhou, Jianwu Li, Yi Yang. 18706-18716 [doi]

EVAL: Explainable Video Anomaly LocalizationAshish Singh, Michael J. Jones 0001, Erik G. Learned-Miller. 18717-18726 [doi]

MOSO: Decomposing MOtion, Scene and Object for Video PredictionMingzhen Sun, Weining Wang, Xinxin Zhu, Jing Liu 0001. 18727-18737 [doi]

TarViS: A Unified Approach for Target-Based Video SegmentationAli Athar, Alexander Hermans, Jonathon Luiten, Deva Ramanan, Bastian Leibe. 18738-18748 [doi]

Efficient Movie Scene Detection using State-Space TransformersMd Mohaiminul Islam, Mahmudul Hasan 0003, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius. 18749-18758 [doi]

Latency Matters: Real-Time Action Forecasting TransformerHarshayu Girase, Nakul Agarwal, Chiho Choi, Karttikeya Mangalam. 18759-18769 [doi]

Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive LearningCheng Tan 0012, Zhangyang Gao, Lirong Wu, Yongjie Xu, Jun Xia, Siyuan Li, Stan Z. Li. 18770-18782 [doi]

Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability ScoringJoanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro. 18783-18794 [doi]

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech RegenerationWei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi. 18796-18806 [doi]

SynthVSR: Scaling Up Visual Speech RecognitionWith Synthetic SupervisionXubo Liu, Egor Lakomkin, Konstantinos Vougioukas, Pingchuan Ma 0001, Honglie Chen, Ruiming Xie, Morrie Doulaty, Niko Moritz, Jáchym Kolár, Stavros Petridis, Maja Pantic, Christian Fuegen. 18806-18815 [doi]

SVFormer: Semi-supervised Video Transformer for Action RecognitionZhen Xing, Qi Dai, Han Hu 0001, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang. 18816-18826 [doi]

Collecting Cross-Modal Presence-Absence Evidence for Weakly-Supervised Audio- Visual Event PerceptionJunyu Gao, Mengyuan Chen, Changsheng Xu. 18827-18836 [doi]

Post-Processing Temporal Action DetectionSauradip Nag, Xiatian Zhu, Yi-Zhe Song, Tao Xiang. 18837-18845 [doi]

HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised Learning of ActionsAnshul Shah, Aniket Roy, Ketul Shah, Shlok Mishra, David Jacobs 0001, Anoop Cherian, Rama Chellappa. 18846-18856 [doi]

TriDet: Temporal Action Detection with Relative Boundary ModelingDingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Lit, Dacheng Tao. 18857-18866 [doi]

Hybrid Active Learning via Deep Clustering for Video Action DetectionAayush Jung Rana, Yogesh S. Rawat. 18867-18877 [doi]

Two-Stream Networks for Weakly-Supervised Temporal Action Localization with Semantic-Aware MechanismsYu Wang, Yadong Li, Hongbin Wang. 18878-18887 [doi]

Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing NetworkZhicheng Zhang, Lijuan Wang, Jufeng Yang. 18888-18897 [doi]

Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for Multi-modal Highlight Detection in MoviesBei Gan, Xiujun Shu, Ruizhi Qiao, Haoqian Wu, Keyu Chen, Hanjun Li, Bo Ren 0002. 18898-18907 [doi]

Weakly Supervised Temporal Sentence Grounding with Uncertainty-Guided Self-trainingYifei Huang, Lijin Yang, Yoichi Sato. 18908-18918 [doi]

SViTT: Temporal Learning of Sparse Video-Text TransformersYi Li, Kyle Min 0001, Subarna Tripathi, Nuno Vasconcelos. 18919-18929 [doi]

AutoAD: Movie Description in ContextTengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman. 18930-18940 [doi]

Text with Knowledge Graph Augmented Transformer for Video CaptioningXin Gu, Guang Chen, Yufei Wang, Libo Zhang 0001, Tiejian Luo, Longyin Wen. 18941-18951 [doi]

StepFormer: Self-Supervised Step Discovery and Localization in Instructional VideosNikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Richard P. Wildes, Allan D. Jepson. 18952-18961 [doi]

Dual Alignment Unsupervised Domain Adaptation for Video-Text RetrievalXiaoshuai Hao, Wanqian Zhang, Dayan Wu, Fei Zhu, Bo Li. 18962-18972 [doi]

Hierarchical Semantic Correspondence Networks for Video Paragraph GroundingChaolei Tan, Zihang Lin, Jian-Fang Hu, Wei-Shi Zheng 0001, Jianhuang Lai. 18973-18982 [doi]

CLIPPING: Distilling CLIP-Based Models with a Student Base for Video-Language RetrievalRenjing Pei, Jianzhuang Liu, Weimian Li, Bin Shao, Songcen Xu, Peng Dai, Juwei Lu, Youliang Yan. 18983-18992 [doi]

Learning Emotion Representations from Verbal and Nonverbal CommunicationSitao Zhang, Yimu Pan, James Z. Wang 0001. 18993-19004 [doi]

Context De-Confounded Emotion RecognitionDingkang Yang, Zhaoyu Chen, Yuzheng Wang, Shunli Wang, Mingcheng Li, Siao Liu, Xiao Zhao, Shuai Huang, Zhiyan Dong, Peng Zhai, Lihua Zhang. 19005-19015 [doi]

CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive LearningYiting Cheng 0001, Fangyun Wei, Jianmin Bao, Dong Chen 0003, Wenqiang Zhang. 19016-19026 [doi]

Discovering the Real Association: Multimodal Causal Reasoning in Video Question AnsweringChuanqi Zang, Hanqing Wang, Mingtao Pei, Wei Liang. 19027-19036 [doi]

LEGO-Net: Learning Regular Rearrangements of Objects in RoomsQiuhong Anna Wei, Sijie Ding, Jeong-Joon Park, Rahul Sajnani, Adrien Poulenard, Srinath Sridhar 0002, Leonidas J. Guibas. 19037-19047 [doi]

LANA: A Language-Capable Navigator for Instruction Following and GenerationXiaohan Wang, Wenguan Wang, Jiayi Shao, Yi Yang. 19048-19058 [doi]

Policy Adaptation from Foundation Model FeedbackYuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo 0002, Xiaolong Wang. 19059-19069 [doi]

Token Turing MachinesMichael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu 0006, Julian Ibarz, Anurag Arnab. 19070-19081 [doi]

Unicode Analogies: An Anti-Objectivist Visual Reasoning ChallengeSteven Spratley, Krista A. Ehinger, Tim Miller 0001. 19082-19091 [doi]

Exploring the Effect of Primitives for Compositional Generalization in Vision-and-LanguageChuanhao Li, Zhen Li, Chenchen Jing, Yunde Jia, Yuwei Wu 0001. 19092-19101 [doi]

VQACL: A Novel Visual Question Answering Continual Learning SettingXi Zhang, Feifei Zhang, Changsheng Xu. 19102-19112 [doi]

MaPLe: Multi-modal Prompt LearningMuhammad Uzair Khattak, Hanoona Abdul Rasheed, Muhammad Maaz 0001, Salman H. Khan 0001, Fahad Shahbaz Khan. 19113-19122 [doi]

Meta-Personalizing Vision-Language Models to Find Named Instances in VideoChun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni. 19123-19132 [doi]

Understanding and Improving Visual Prompting: A Label-Mapping PerspectiveAochuan Chen, Yuguang Yao, Pin-Yu Chen, Yihua Zhang, Sijia Liu. 19133-19143 [doi]

RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression ComprehensionJiamu Sun, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang, Rongrong Ji. 19144-19154 [doi]

Leveraging per Image-Token Consistency for Vision-Language Pre-trainingYunhao Gou, Tom Ko, Hansi Yang, James T. Kwok, Yu Zhang 0006, Mingxuan Wang. 19155-19164 [doi]

Improving Visual Grounding by Encouraging Consistent Gradient-Based ExplanationsZiyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez. 19165-19174 [doi]

Image as a Foreign Language: BEIT Pretraining for Vision and Vision-Language TasksWenhui Wang, Hangbo Bao, Li Dong 0004, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei. 19175-19186 [doi]

Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image ClassificationYue Yang, Artemis Panagopoulou, Shenghao Zhou, Daniel Jin, Chris Callison-Burch, Mark Yatskar. 19187-19197 [doi]

Shepherding Slots to Objects: Towards Stable and Robust Object-Centric LearningJinwoo Kim, Janghyuk Choi, Ho-Jin Choi, Seon Joo Kim. 19198-19207 [doi]

Learning Visual Representations via Language-Guided SamplingMohamed El Banani, Karan Desai, Justin Johnson 0001. 19208-19220 [doi]

L-CoIns: Language-based Colorization With Instance AwarenessZheng Chang, Shuchen Weng, Peixuan Zhang, Yu Li 0003, Si Li 0001, Boxin Shi. 19221-19230 [doi]

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual GroundingYanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang. 19231-19242 [doi]

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReIDJianyang Gu, Kai Wang 0036, Hao Luo 0004, Chen Chen, Wei Jiang 0009, Yuqiang Fang, Shanghang Zhang, Yang You 0001, Jian Zhao 0006. 19243-19253 [doi]

Unifying Vision, Text, and Layout for Universal Document ProcessingZineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng 0001, Cha Zhang, Mohit Bansal. 19254-19264 [doi]

RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-TrainingChen-Wei Xie, Siyang Sun, Xiong Xiong, Yun Zheng, Deli Zhao, Jingren Zhou. 19265-19274 [doi]

Fine-grained Image-text Matching by Cross-modal Hard Aligning NetworkZhengxin Pan, Fangyu Wu, Bailing Zhang. 19275-19284 [doi]

Text-Guided Unsupervised Latent Transformation for Multi-Attribute Image ManipulationXiwen Wei, Zhen Xu, Cheng Liu, Si Wu 0002, Zhiwen Yu 0002, Hau-San Wong. 19285-19294 [doi]

Improving Image Recognition by Retrieving from Web-Scale Image-Text DataAhmet Iscen, Alireza Fathi, Cordelia Schmid. 19295-19304 [doi]

Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image RetrievalKuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister. 19305-19314 [doi]

DATE: Domain Adaptive Product Seeker for E-CommerceHaoyuan Li, Hao Jiang, Tao Jin, Mengyan Li, Yan Chen, Zhijie Lin, Yang Zhao, Zhou Zhao. 19315-19324 [doi]

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal ModelsZhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan. 19325-19337 [doi]

Finetune like you pretrain: Improved finetuning of zero-shot vision modelsSachin Goyal, Ananya Kumar, Sankalp Garg, Zico Kolter, Aditi Raghunathan. 19338-19347 [doi]

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text SpottingMaoyuan Ye, Jing Zhang, Shanshan Zhao 0001, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao. 19348-19357 [doi]

EVA: Exploring the Limits of Masked Visual Representation Learning at ScaleYuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang 0003, Xinlong Wang, Yue Cao. 19358-19369 [doi]

$R^{2}$ Former: Unified Retrieval and Reranking Transformer for Place RecognitionSijie Zhu, Linjie Yang, Chen Chen 0001, Mubarak Shah, Xiaohui Shen, Heng Wang. 19370-19380 [doi]

Open-Set Fine-Grained Retrieval via Prompting Vision-Language EvaluatorShijie Wang, Jianlong Chang, Haojie Li, Zhihui Wang, Wanli Ouyang, Qi Tian 0001. 19381-19391 [doi]

Open-Category Human-Object Interaction Pre-training via Language Modeling FrameworkSipeng Zheng, Boshen Xu, Qin Jin. 19392-19402 [doi]

Neural Congealing: Aligning Images to a Joint Semantic AtlasDolev Ofri-Amar, Michal Geyer, Yoni Kasten, Tali Dekel. 19403-19412 [doi]

Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive LearningJishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H. S. Torr, Ser-Nam Lim. 19413-19423 [doi]

Semantic Human Parsing via Scalable Semantic Transfer Over Multiple Label DomainsJie Yang, Chaoqun Wang, Zhen Li, Junle Wang, Ruimao Zhang. 19424-19433 [doi]

Explicit Visual Prompting for Low-Level Structure SegmentationsWeihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun. 19434-19445 [doi]

FreeSeg: Unified, Universal and Open-Vocabulary Image SegmentationJie Oin, Jie Wu, Pengxiang Yan, Ming Li, Yuxi Ren, XueFeng Xiao, Yitong Wang, Rui Wang, Shilei Wen, Xin Pan, Xingang Wang. 19446-19455 [doi]

Zero-shot Referring Image Segmentation with Global-Local Context FeaturesSeonghoon Yu, Paul Hongsuck Seo, Jeany Son. 19456-19465 [doi]

DejaVu: Conditional Regenerative Learning to Enhance Dense PredictionShubhankar Borse, Debasmit Das, Hyojin Park, Hong Cai, Risheek Garrepalli, Fatih Porikli. 19466-19477 [doi]

Meta Compositional Referring Expression SegmentationLi Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu 0036. 19478-19487 [doi]

Interactive Segmentation as Gaussian Process ClassificationMingHao Zhou, Hong Wang, Qian Zhao 0002, Yuexiang Li, Yawen Huang, Deyu Meng, Yefeng Zheng 0001. 19488-19497 [doi]

Semantic-Promoted Debiasing and Background Disambiguation for Zero-Shot Instance SegmentationShuting He, Henghui Ding, Wei Jiang. 19498-19507 [doi]

Principles of Forgetting in Domain-Incremental Semantic Segmentation in Adverse Weather ConditionsTobias Kalb, Jürgen Beyerer. 19508-19518 [doi]

AttentionShift: Iteratively Estimated Part-Based Attention Map for Pointly Supervised Instance SegmentationMingxiang Liao, Zonghao Guo, Yuze Wang, Peng Yuan, Bailan Feng, Fang Wan. 19519-19528 [doi]

PIDNet: A Real-time Semantic Segmentation Network Inspired by PID ControllersJiacong Xu, Zixiang Xiong, Shankar P. Bhattacharyya. 19529-19539 [doi]

Leveraging Hidden Positives for Unsupervised Semantic SegmentationHyun Seok Seong, WonJun Moon, Su Been Lee, Jae-Pil Heo. 19540-19549 [doi]

Understanding Imbalanced Semantic Segmentation Through Neural CollapseZhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu 0002, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia. 19550-19559 [doi]

Balancing Logit Variation for Long-Tailed Semantic SegmentationYuchao Wang, Jingjing Fei, Haochen Wang, Wei Li, Tianpeng Bao, Liwei Wu, Rui Zhao, Yujun Shen. 19561-19573 [doi]

Boundary-enhanced Co-training for Weakly Supervised Semantic SegmentationShenghai Rong, Bohai Tu, Zilei Wang, Junjie Li. 19574-19584 [doi]

Conflict-Based Cross-View Consistency for Semi-Supervised Semantic SegmentationZiCheng Wang, Zhen Zhao, Xiaoxia Xing, Dong Xu 0001, Xiangyu Kong, Luping Zhou. 19585-19595 [doi]

Learning Multi-Modal Class-Specific Tokens for Weakly Supervised Dense Object LocalizationLian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaïd, Dan Xu 0002. 19596-19605 [doi]

WinCLIP: Zero-/Few-Shot Anomaly Classification and SegmentationJongheon Jeong, Yang Zou, Taewan Kim, DongQing Zhang, Avinash Ravichandran, Onkar Dabeer. 19606-19616 [doi]

DualRel: Semi-Supervised Mitochondria Segmentation from A Prototype PerspectiveHuayu Mai, Rui Sun 0006, Tianzhu Zhang, Zhiwei Xiong, Feng Wu 0001. 19617-19626 [doi]

Distilling Self-Supervised Vision Transformers for Weakly-Supervised Few-Shot Classification & SegmentationDahyun Kang, Piotr Koniusz, Minsu Cho, Naila Murray. 19627-19638 [doi]

Co-Salient Object Detection with Uncertainty-Aware Group Exchange-MaskingYang Wu, Huihui Song, Bo Liu, Kaihua Zhang, Dong Liu. 19639-19648 [doi]

Supervised Masked Knowledge Distillation for Few-Shot TransformersHan Lin, Guangxing Han, Jiawei Ma, Shiyuan Huang, Xudong Lin 0003, Shih-Fu Chang. 19649-19659 [doi]

Modeling the Distributional Uncertainty for Salient Object Detection ModelsXinyu Tian, Jing Zhang, Mochu Xiang, Yuchao Dai. 19660-19670 [doi]

Weak-shot Object Detection through Mutual Knowledge TransferXuanyi Du, Weitao Wan, Chong Sun, Chen Li. 19671-19680 [doi]

CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object DetectionShuailei Ma, Yuefeng Wang, Ying Wei 0007, Jiaqi Fan, Thomas H. Li, Hongli Liu, Fanbing Lv. 19681-19690 [doi]

Adaptive Sparse Pairwise Loss for Object Re-IdentificationXiao Zhou, Yujie Zhong, Zhen Cheng, Fan Liang, Lin Ma. 19691-19701 [doi]

DETRs with Hybrid MatchingDing Jia, Yuhui Yuan, Haodi He, Xiaopei Wu, Haojun Yu, Weihong Lin, Lei Sun 0003, Chao Zhang 0001, Han Hu. 19702-19712 [doi]

Generating Features with Increased Crop-Related Diversity for Few-Shot Object DetectionJingyi Xu, Hieu Le, Dimitris Samaras. 19713-19722 [doi]

ScaleKD: Distilling Scale-Aware Knowledge in Small Object DetectorYichen Zhu, QiQi Zhou, Ning Liu, Zhiyuan Xu, Zhicai Ou, Xiaofeng Mou, Jian Tang. 19723-19733 [doi]

Multiclass Confidence and Localization Calibration for Object DetectionBimsara Pathiraja, Malitha Gunawardhana, Muhammad Haris Khan. 19734-19743 [doi]

Open-Set Representation Learning through Combinatorial EmbeddingGeeho Kim, Junoh Kang, Bohyung Han. 19744-19753 [doi]

ProD: Prompting-to-disentangle Domain Knowledge for Cross-domain Few-shot Image ClassificationTianyi Ma, Yifan Sun 0003, Zongxin Yang, Yi Yang 0001. 19754-19763 [doi]

Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology ImagesMing Y. Lu, Bowen Chen, Andrew Zhang, Drew F. K. Williamson, Richard J. Chen, Tong Ding, Long Phi Le, Yung-Sung Chuang, Faisal Mahmood. 19764-19775 [doi]

FFF: Fragment-Guided Flexible Fitting for Building Complete Protein StructuresWeijie Chen, Xinyan Wang, Yuhang Wang. 19776-19785 [doi]

Pseudo-Label Guided Contrastive Learning for Semi-Supervised Medical Image SegmentationHritam Basak, Zhaozheng Yin. 19786-19797 [doi]

Hierarchical Discriminative Learning Improves Visual Representations of Biomedical MicroscopyCheng Jiang 0003, Xinhai Hou, Akhil Kondepudi, Asadur Chowdury, Christian W. Freudiger, Daniel A. Orringer, Honglak Lee, Todd C. Hollon. 19798-19808 [doi]

KiUT: Knowledge-injected U-Transformer for Radiology Report GenerationZhongzhen Huang, Xiaofan Zhang 0002, Shaoting Zhang. 19809-19818 [doi]

Image Quality-aware Diagnosis via Meta-knowledge Co-embeddingHaoxuan Che, Siyu Chen, Hao Chen. 19819-19829 [doi]

Interventional Bag Multi-Instance Learning On Whole-Slide Pathological ImagesTiancheng Lin 0001, Zhimiao Yu, Hongyu Hu, Yi Xu, Chang Wen Chen. 19830-19839 [doi]

Visual Prompt Tuning for Generative Transfer LearningKihyuk Sohn, Huiwen Chang, José Lezama, Luisa Polania, Han Zhang, Yuan-Hao, Irfan Essa, Lu Jiang 0004. 19840-19851 [doi]

LINe: Out-of-Distribution Detection by Leveraging Important NeuronsYong Hyun Ahn, Gyeong-Moon Park, Seong Tae Kim 0001. 19852-19862 [doi]

GCFAgg: Global and Cross-View Feature Aggregation for Multi-View ClusteringWeiqing Yan, Yuanyang Zhang, Chenlei Lv, Chang Tang, Guanghui Yue 0001, Liang Liao, Weisi Lin. 19863-19872 [doi]

Exploring and Exploiting Uncertainty for Incomplete Multi-View ClassificationMengyao Xie, Zongbo Han, Changqing Zhang, Yichen Bai, Qinghua Hu. 19873-19882 [doi]

BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity ConsistencyShuo Yang, Zhaopan Xu, Kai Wang, Yang You, Hongxun Yao, Tongliang Liu, Min Xu 0001. 19883-19892 [doi]

Bi-Directional Distribution Alignment for Transductive Zero-Shot LearningZhicai Wang, Yanbin Hao, Tingting Mu, Ouxiang Li, Shuo Wang 0008, Xiangnan He 0001. 19893-19902 [doi]

HIER: Metric Learning Beyond Class Labels via Hierarchical RegularizationSungyeon Kim, Boseung Jeong, Suha Kwak. 19903-19912 [doi]

MaskCon: Masked Contrastive Learning for Coarse-Labelled DatasetChen Feng, Ioannis Patras. 19913-19922 [doi]

Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational VideosRohit Gupta 0012, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah. 19923-19933 [doi]

Learning from Noisy Labels with Decoupled Meta Label PurifierYuanpeng Tu, Boshen Zhang, Yuxi Li, Liang Liu, Jian Li, Yabiao Wang, Chengjie Wang, Cairong Zhao. 19934-19943 [doi]

SuperDisco: Super-Class Discovery Improves Visual Recognition for the Long-TailYingjun Du, Jiayi Shen, Xiantong Zhen, Cees G. M. Snoek. 19944-19954 [doi]

Why is the Winner the Best?Matthias Eisenmann, Annika Reinke, Vivienn Weru, Minu Dietlinde Tizabi, Fabian Isensee, Tim J. Adler, Sharib Ali, Vincent Andrearczyk, Marc Aubreville, Ujjwal Baid, Spyridon Bakas, Niranjan Balu, Sophia Bano, Jorge Bernal, Sebastian Bodenstedt, Alessandro Casella, Veronika Cheplygina, Marie Daum, Marleen de Bruijne, Adrien Depeursinge, Reuben Dorent, Jan Egger, David G. Ellis, Sandy Engelhardt, Melanie Ganz, Noha M. Ghatwary, Gabriel Girard, Patrick Godau, Anubha Gupta, Lasse Hansen, Kanako Harada, Mattias P. Heinrich, Nicholas Heller, Alessa Hering, Arnaud Huaulmé, Pierre Jannin, A. Emre Kavur, Oldrich Kodym, Michal Kozubek 0001, Jianning Li, Hongwei Bran Li, Jun Ma 0016, Carlos Martín-Isla, Bjoern H. Menze, J. Alison Noble, Valentin Oreiller, Nicolas Padoy, Sarthak Pati, Kelly Payette, Tim Rädsch, Jonathan Rafael-Patino, Vivek Singh Bawa, Stefanie Speidel, Carole H. Sudre, Kimberlin M. H. van Wijnen, M. Wagner, D. Wei, Amine Yamlahi, Moi Hoon Yap, C. Yuan, Maximilian Zenk, A. Zia, David Zimmerer, Dogu Baran Aydogan, B. Bhattarai, Louise Bloch, Raphael Brüngel, J. Cho, C. Choi, Q. Dou, Ivan Ezhov, Christoph M. Friedrich, C. Fuller, Rebati Raman Gaire, Adrian Galdran, Álvaro García-Faura, Maria Grammatikopoulou, S. Hong, Mostafa Jahanifar, I. Jang, Abdolrahim Kadkhodamohammadi, I. Kang, Florian Kofler, S. Kondo, Hugo Jaco Kuijf, M. Li, M. Luu, Tomaz Martincic, P. Morais, M. A. Naser, B. Oliveira, D. Owen, S. Pang, J. Park, S. Park, S. Plotka, Élodie Puybareau, Nasir M. Rajpoot, K. Ryu, N. Saeed, Adam Shephard, P. Shi, Dejan Stepec, Ronast Subedi, Guillaume Tochon, Helena R. Torres, Hélène Urien, João L. Vilaça, Kareem A. Wahid, H. Wang, J. Wang, L. Wang, X. Wang, Benedikt Wiestler, Marek Wodzinski, F. Xia, J. Xie, Z. Xiong, S. Yang, Y. Yang, Z. Zhao, Klaus H. Maier-Hein, Paul F. Jäger, Annette Kopp-Schneider, Lena Maier-Hein. 19955-19966 [doi]

Balanced Product of Calibrated Experts for Long-Tailed RecognitionEmanuel Sanchez Aimar, Arvi Jonnarth, Michael Felsberg, Marco Kuhlmann. 19967-19977 [doi]

Transfer Knowledge from Head to Tail: Uncertainty Calibration under Long-tailed DistributionJiahao Chen, Bing Su 0001. 19978-19987 [doi]

FREDOM: Fairness Domain Adaptation Approach to Semantic Scene UnderstandingThanh-Dat Truong, Ngan Le, Bhiksha Raj, Jackson D. Cothren, Khoa Luu. 19988-19997 [doi]

COT: Unsupervised Domain Adaptation with Clustering and Optimal TransportYang Liu, Zhipeng Zhou, Baigui Sun. 19998-20007 [doi]

MHPL: Minimum Happy Points Learning for Active Source Free Domain AdaptationFan Wang, Zhongyi Han, Zhiyan Zhang, Rundong He, Yilong Yin. 20008-20018 [doi]

Upcycling Models Under Domain and Category ShiftSanqing Qu, Tianpei Zou, Florian Röhrbein, Cewu Lu, Guang Chen 0001, Dacheng Tao, Changjun Jiang. 20019-20028 [doi]

PMR: Prototypical Modal Rebalance for Multimodal LearningYunfeng Fan, Wenchao Xu 0001, Haozhao Wang, Junxiao Wang, Song Guo 0001. 20029-20038 [doi]

MMANet: Margin-Aware Distillation and Modality-Aware Regularization for Incomplete Multimodal LearningShicai Wei, Chunbo Luo, Yang Luo. 20039-20049 [doi]

Feature Alignment and Uniformity for Test Time AdaptationShuai Wang, Daoan Zhang, Zipei Yan, Jianguo Zhang, Rui Li. 20050-20060 [doi]

Revisiting Prototypical Network for Cross Domain Few-Shot LearningFei Zhou, Peng Wang 0023, Lei Zhang, Wei Wei 0008, Yanning Zhang. 20061-20070 [doi]

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies OthersZhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton-Ferrer, Chenliang Xu, Mark Ibrahim. 20071-20082 [doi]

Independent Component Alignment for Multi-Task LearningDmitry Senushkin, Nikolay Patakin, Arseny Kuznetsov, Anton Konushin 0002. 20083-20093 [doi]

MDL-NAS: A Joint Multi-domain Learning Framework for Vision TransformerShiGuang Wang, Tao Xie, Jian Cheng 0003, Xingcheng Zhang, Haijun Liu 0001. 20094-20104 [doi]

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation ModelsDohwan Ko, Joonmyung Choi, Hyeong Kyu Choi, Kyoung-woon On, Byungseok Roh, Hyunwoo J. Kim. 20105-20115 [doi]

1% VS 100%: Parameter-Efficient Low Rank Adapter for Dense PredictionsDongshuo Yin, Yiran Yang, Zhechao Wang, Hongfeng Yu, Kaiwen Wei, Xian Sun. 20116-20126 [doi]

Rebalancing Batch Normalization for Exemplar-Based Class-Incremental LearningSungmin Cha, Sungjun Cho, Dasol Hwang, Sunwon Hong, Moontae Lee, Taesup Moon. 20127-20136 [doi]

Partial Network CloningJingwen Ye, Songhua Liu, Xinchao Wang. 20137-20146 [doi]

ERM-KTP: Knowledge-Level Machine Unlearning via Knowledge TransferShen Lin, Xiaoyu Zhang, Chenyang Chen, Xiaofeng Chen, Willy Susilo. 20147-20155 [doi]

Rethinking Feature-based Knowledge Distillation for Face RecognitionJingzhi Li, Zidong Guo, Hui Li, Seungju Han, Ji Won Baek, Min Yang, Ran Yang, Sungjoo Suh. 20156-20165 [doi]

Regularizing Second-Order Influences for Continual LearningZhicheng Sun 0001, Yadong Mu, Gang Hua 0001. 20166-20175 [doi]

Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge DistillationTianli Zhang, Mengqi Xue, Jiangtao Zhang, Haofei Zhang, Yu Wang, Lechao Cheng, Jie Song 0011, Mingli Song. 20176-20185 [doi]

Decoupling Learning and Remembering: a Bilevel Memory Framework with Knowledge Projection for Task-Incremental LearningWenju Sun, Qingyong Li, Jing Zhang 0058, Wen Wang, Yangli-ao Geng. 20186-20195 [doi]

On the Stability-Plasticity Dilemma of Class-Incremental LearningDongwan Kim, Bohyung Han. 20196-20204 [doi]

Simulated Annealing in Early Layers Leads to Better GeneralizationAmirMohammad Sarfi, Zahra Karimpour, Muawiz Chaudhary, Nasir Mohammad Khalid, Mirco Ravanelli, Sudhir Mudur, Eugene Belilovsky. 20205-20214 [doi]

Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement LearningQiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou. 20215-20225 [doi]

Tunable Convolutions with Parametric Multi-Loss OptimizationMatteo Maggioni, Thomas Tanay, Francesca Babiloni, Steven McDonagh, Ales Leonardis. 20226-20236 [doi]

Re-basin via implicit Sinkhorn differentiationFidel A. Guerrero-Peña, Heitor Rapela Medeiros, Thomas Dubail, Masih Aminbeidokhti, Eric Granger, Marco Pedersoli. 20237-20246 [doi]

Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves GeneralizationXingxuan Zhang, Renzhe Xu, Han Yu, Hao Zou 0001, Peng Cui 0001. 20247-20257 [doi]

AstroNet: When Astrocyte Meets Artificial Neural NetworkMengqiao Han, Liyuan Pan, Xiabi Liu. 20258-20268 [doi]

Network Expansion For Practical Training AccelerationNing Ding, Yehui Tang, Kai Han 0002, Chao Xu 0006, Yunhe Wang 0001. 20269-20279 [doi]

Defining and Quantifying the Emergence of Sparse Concepts in DNNsJie Ren, Mingjie Li, Qirui Chen, Huiqi Deng, Quanshi Zhang. 20280-20289 [doi]

Samples with Low Loss Curvature Improve Data EfficiencyIsha Garg, Kaushik Roy 0001. 20290-20300 [doi]

Masked Images Are Counterfactual Samples for Robust Fine-TuningYao Xiao, Ziyi Tang, Pengxu Wei, Cong Liu 0001, Liang Lin. 20301-20310 [doi]

Bias Mimicking: A Simple Sampling Approach for Bias MitigationMaan Qraitem, Kate Saenko, Bryan A. Plummer. 20311-20320 [doi]

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision TransformersYijiang Liu, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang. 20321-20330 [doi]

Practical Network Acceleration with Tiny SetsGuo-Hua Wang, Jianxin Wu 0001. 20331-20340 [doi]

TeSLA: Test-Time Self-Learning With Automatic Adversarial AugmentationDevavrat Tomar, Guillaume Vray, Behzad Bozorgtabar, Jean-Philippe Thiran. 20341-20350 [doi]

Discriminator-Cooperated Feature Map Distillation for GAN CompressionTie Hu, Mingbao Lin, Lizhou You, Fei Chao 0001, Rongrong Ji. 20351-20360 [doi]

Private Image Generation with Dual-Purpose Auxiliary ClassifierChen Chen 0056, Daochang Liu, Siqi Ma, Surya Nepal, Chang Xu. 20361-20370 [doi]

ImageNet-E: Benchmarking Neural Network Robustness via Attribute EditingXiaodan Li, Yuefeng Chen, Yao Zhu, Shuhui Wang, Rong Zhang, Hui Xue 0001. 20371-20381 [doi]

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision TransformersBin Ren, Yahui Liu, Yue Song, Wei Bi, Rita Cucchiara, Nicu Sebe, Wei Wang 0108. 20382-20391 [doi]

A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and AnticipationCongqi Cao, Yue Lu, Peng Wang, Yanning Zhang. 20392-20401 [doi]

SimpleNet: A Simple Network for Image Anomaly Detection and LocalizationZhikang Liu, Yiming Zhou, Yuansheng Xu, Zilei Wang. 20402-20411 [doi]

DaFKD: Domain-aware Federated Knowledge DistillationHaozhao Wang, Yichen Li, Wenchao Xu 0001, Ruixuan Li 0001, Yufeng Zhan, Zhigang Zeng. 20412-20421 [doi]

Reliable and Interpretable Personalized Federated LearningZixuan Qin, Liu Yang, Qilong Wang, Yahong Han, Qinghua Hu. 20422-20431 [doi]

Adaptive Channel Sparsity for Federated Learning under System HeterogeneityDongping Liao, Xitong Gao, Yiren Zhao, Chengzhong Xu 0001. 20432-20441 [doi]

Bias-Eliminating Augmentation Learning for Debiased Federated LearningYuan-Yi Xu, Ci-Siang Lin, Yu-Chiang Frank Wang. 20442-20452 [doi]

Instance-Aware Domain Generalization for Face Anti-SpoofingQianyu Zhou 0001, Ke-Yue Zhang, Taiping Yao, Xuequan Lu, Ran Yi, Shouhong Ding, Lizhuang Ma. 20453-20463 [doi]

Adversarially Masking Synthetic to Mimic Real: Adaptive Noise Injection for Point Cloud Segmentation AdaptationGuangrui Li 0005, Guoliang Kang, Xiaohan Wang, Yunchao Wei, Yi Yang. 20464-20474 [doi]

Model Barrier: A Compact Un-Transferable Isolation Domain for Model Intellectual Property ProtectionLianyu Wang, Meng Wang, Daoqiang Zhang, Huazhu Fu. 20475-20484 [doi]

MEDIC: Remove Model Backdoors via Importance Driven CloningQiuling Xu, Guanhong Tao 0001, Jean Honorio, Yingqi Liu, Shengwei An, Guangyu Shen, Siyuan Cheng 0005, Xiangyu Zhang 0001. 20485-20494 [doi]

Progressive Backdoor Erasing via connecting Backdoor and Adversarial AttacksBingxu Mu, Zhenxing Niu, Le Wang 0003, Xue Wang, Qiguang Mia, Rong Jin, Gang Hua 0001. 20495-20503 [doi]

Reinforcement Learning-Based Black-Box Model Inversion AttacksGyojin Han, Jaehyun Choi, Haeil Lee, Junmo Kim. 20504-20513 [doi]

T-SEA: Transfer-Based Self-Ensemble Attack on Object DetectionHao Huang, Ziyan Chen, Huanran Chen, Yongtao Wang, Kevin Zhang. 20514-20523 [doi]

Proximal Splitting Adversarial Attack for Semantic SegmentationJérôme Rony, Jean-Christophe Pesquet, Ismail Ben Ayed. 20524-20533 [doi]

Towards Transferable Targeted Adversarial ExamplesZhibo Wang 0001, Hongshan Yang, Yunhe Feng, Peng Sun, Hengchang Guo, Zhifei Zhang, Kui Ren 0001. 20534-20543 [doi]

AGAIN: Adversarial Training with Attribution Span Enlargement and Hybrid Feature FusionShenglin Yin, Kelu Yao, Sheng Shi, Yangzhou Du, Zhen Xiao. 20544-20553 [doi]

Generalist: Decoupling Natural and Robust GeneralizationHongjun Wang, Yisen Wang 0001. 20554-20563 [doi]

Cooperation or Competition: Avoiding Player Domination for Multi-Target Robustness via Adaptive BudgetsYimu Wang, Dinghuai Zhang, Yihan Wu, Heng Huang, Hongyang Zhang 0001. 20564-20574 [doi]

Discrete Point-Wise Attack is Not Enough: Generalized Manifold Adversarial Attack for Face RecognitionQian Li, Yuxiao Hu, Ye Liu, Dongxiao Zhang, Xin Jin 0002, Yuntian Chen. 20575-20584 [doi]

RIATIG: Reliable and Imperceptible Adversarial Text-to-Image Generation with Natural PromptsHan Liu, Yuhao Wu, Shixuan Zhai, Bo Yuan 0002, Ning Zhang. 20585-20594 [doi]

CLIP2Protect: Protecting Facial Privacy Using Text-Guided Makeup via Adversarial Latent SearchFahad Shamshad, Muzammal Naseer, Karthik Nandakumar. 20595-20605 [doi]

TruFor: Leveraging All-Round Clues for Trustworthy Image Forgery Detection and LocalizationFabrizio Guillaro, Davide Cozzolino, Avneesh Sud, Nicholas Dufour, Luisa Verdoliva. 20606-20615 [doi]

High-fidelity Event-Radiance Recovery via Transient Event FrequencyJin Han, Yuta Asano, Boxin Shi, Yinqiang Zheng, Imari Sato. 20616-20625 [doi]

RobustNeRF: Ignoring Distractors with Robust LossesSara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi. 20626-20636 [doi]

NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image PriorsCongyue Deng, Chiyu Max Jiang, Charles R. Qi, Xinchen Yan, Yin Zhou, Leonidas J. Guibas, Dragomir Anguelov. 20637-20647 [doi]

GM-NeRF: Learning Generalizable Model-Based Neural Radiance Fields from Multi-View ImagesJianchuan Chen, Wentao Yi, Liqian Ma, Xu Jia, Huchuan Lu. 20648-20658 [doi]

MixNeRF: Modeling a Ray with Mixture Density for Novel View Synthesis from Sparse InputsSeunghyeon Seo, Donghoon Han, Yeonjin Chang, Nojun Kwak. 20659-20668 [doi]

SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance FieldsAshkan Mirzaei, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Jonathan Kelly, Marcus A. Brubaker, Igor Gilitschenski, Alex Levinshtein. 20669-20679 [doi]

Masked Wavelet Representation for Compact Neural Radiance FieldsDaniel Rho, Byeonghyeon Lee, Seungtae Nam, Joo Chan Lee, Jong Hwan Ko, Eunbyung Park. 20680-20690 [doi]

PaletteNeRF: Palette-based Appearance Editing of Neural Radiance FieldsZhengfei Kuang, Fujun Luan, Sai Bi, Zhixin Shu, Gordon Wetzstein, Kalyan Sunkavalli. 20691-20700 [doi]

SteerNeRF: Accelerating NeRF Rendering via Smooth Viewpoint TrajectorySicheng Li, Hao Li, Yue Wang, Yiyi Liao, Lu Yu. 20701-20711 [doi]

Transforming Radiance Field with Lipschitz Network for Photorealistic 3D Scene StylizationZicheng Zhang, Yinglu Liu, Congying Han, Yingwei Pan, Tiande Guo, Ting Yao. 20712-20721 [doi]

Occlusion-Free Scene Recovery via Neural Radiance FieldsChengxuan Zhu, Renjie Wan, Yunkai Tang, Boxin Shi. 20722-20731 [doi]

TriVol: Point Cloud Rendering via Triple VolumesTao Hu, Xiaogang Xu, Ruihang Chu, Jiaya Jia. 20732-20741 [doi]

DyNCA: Real-Time Dynamic Texture Synthesis Using Neural Cellular AutomataEhsan Pajouheshgar, Yitao Xu, Tong Zhang, Sabine Süsstrunk. 20742-20751 [doi]

Neural Scene ChronologyHaotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely. 20752-20761 [doi]

ReLight My NeRF: A Dataset for Novel View Synthesis and Relighting of Real World ObjectsMarco Toschi, Riccardo De Matteo, Riccardo Spezialetti, Daniele De Gregorio, Luigi di Stefano, Samuele Salti. 20762-20772 [doi]

ORCa: Glossy Objects as Radiance-Field CamerasKushagra Tiwary, Akshat Dave, Nikhil Behari, Tzofi Klinghoffer, Ashok Veeraraghavan, Ramesh Raskar. 20773-20782 [doi]

Nighttime Smartphone Reflective Flare Removal Using Optical Center Symmetry PriorYuekun Dai, Yihang Luo, Shangchen Zhou, Chongyi Li, Chen Change Loy. 20783-20791 [doi]

SunStage: Portrait Reconstruction and Relighting Using the Sun as a Light StageYifan Wang, Aleksander Holynski, Xiuming Zhang, Xuaner Zhang. 20792-20802 [doi]

The Differentiable Lens: Compound Lens Search over Glass Surfaces and Materials for Object DetectionGeoffroi Côté, Fahim Mannan, Simon Thibault, Jean-François Lalonde, Felix Heide. 20803-20812 [doi]

Teleidoscopic Imaging System for Microscale 3D Shape ReconstructionRyo Kawahara, Meng-Yu Jennifer Kuo, Shohei Nobuhara. 20813-20822 [doi]

Looking Through the Glass: Neural Surface Reconstruction Against High Specular ReflectionsJiaxiong Qiu, Peng-Tao Jiang, Yifan Zhu, Ze-Xin Yin, Ming-Ming Cheng, Bo Ren 0003. 20823-20833 [doi]

NeuralUDF: Learning Unsigned Distance Fields for Multi-View Reconstruction of Surfaces with Arbitrary TopologiesXiaoxiao Long, Cheng Lin, Lingjie Liu, Yuan Liu, Peng Wang, Christian Theobalt, Taku Komura, Wenping Wang. 20834-20843 [doi]

Sphere-Guided Training of Neural Implicit SurfacesAndreea Dogaru, Andrei-Timotei Ardelean, Savva Ignatyev, Egor Zakharov, Evgeny Burnaev. 20844-20853 [doi]

OReX: Object Reconstruction from Planar Cross-sections Using Neural FieldsHaim Sawdayee, Amir Vaxman, Amit H. Bermano. 20854-20862 [doi]

Persistent Nature: A Generative Model of Unbounded 3D WorldsLucy Chai, Richard Tucker 0001, Zhengqi Li, Phillip Isola, Noah Snavely. 20863-20874 [doi]

3D Neural Field Generation Using Triplane DiffusionJ. Ryan Shue, Eric Ryan Chan, Ryan Po, Zachary Ankner, Jiajun Wu 0001, Gordon Wetzstein. 20875-20886 [doi]

Diffusion-Based Signed Distance Fields for 3D Shape GenerationJaehyeok Shim, Changwoo Kang, Kyungdon Joo. 20887-20897 [doi]

Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature RepresentationsThomas Tanay, Ales Leonardis, Matteo Maggioni. 20898-20907 [doi]

Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion ModelsJiale Xu, Xintao Wang, Weihao Cheng 0002, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Shenghua Gao. 20908-20918 [doi]

SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing FieldChong Bao, Yinda Zhang 0001, Bangbang Yang, Tianxing Fan, Zesong Yang, Hujun Bao, Guofeng Zhang 0001, Zhaopeng Cui. 20919-20929 [doi]

3D Highlighter: Localizing Regions on 3D Shapes via Text DescriptionsDale Decatur, Itai Lang, Rana Hanocka. 20930-20939 [doi]

Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN InversionYushi Lan, Xuyi Meng, Shuai Yang 0001, Chen Change Loy, Bo Dai 0002. 20940-20949 [doi]

PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360°Sizhe An, Hongyi Xu, Yichun Shi, Guoxian Song, Ümit Y. Ogras, Linjie Luo. 20950-20959 [doi]

StyleGene: Crossover and Mutation of Region-level Facial Genes for Kinship Face SynthesisHao Li, Xianxu Hou, Zepeng Huang, LinLin Shen. 20960-20969 [doi]

Parameter Efficient Local Implicit Image Function Network for Face SegmentationMausoom Sarkar, Nikitha S. R., Mayur Hemani, Rishabh Jain, Balaji Krishnamurthy. 20970-20980 [doi]

Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D ImagesChang Yu, Xiangyu Zhu, Xiaomei Zhang, Zhaoxiang Zhang, Zhen Lei. 20981-20990 [doi]

Next3D: Generative Neural Texture Rasterization for 3D-Aware Head AvatarsJingxiang Sun, Xuan Wang, Lizhen Wang, Xiaoyu Li, Yong Zhang, Hongwen Zhang 0001, Yebin Liu. 20991-21002 [doi]

Learning Neural Parametric Head ModelsSimon Giebenhain, Tobias Kirschstein, Markos Georgopoulos, Martin Rünz, Lourdes Agapito, Matthias Nießner. 21003-21012 [doi]

Zero-Shot Text-to-Parameter Translation for Game Character Auto-CreationRui Zhao 0019, Wei Li 0224, Zhipeng Hu, Lincheng Li, Zhengxia Zou, Zhenwei Shi, Changjie Fan. 21013-21023 [doi]

Learning Locally Editable Virtual HumansHsuan-I Ho, Lixin Xue, Jie Song 0006, Otmar Hilliges. 21024-21035 [doi]

Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time Mobile TelepresenceYonggan Fu, Yuecheng Li, Chenghui Li, Jason M. Saragih, Peizhao Zhang, Xiaoliang Dai, Yingyan Celine Lin. 21036-21045 [doi]

Ham2Pose: Animating Sign Language Notation into Pose SequencesRotem Shalev-Arkushin, Amit Moryossef, Ohad Fried. 21046-21056 [doi]

PointAvatar: Deformable Point-Based Head Avatars from VideosYufeng Zheng, Wang YiFan, Gordon Wetzstein, Michael J. Black, Otmar Hilliges. 21057-21067 [doi]

PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime CharactersShuhong Chen, Kevin Zhang, Yichun Shi, Heng Wang, Yiheng Zhu, Guoxian Song, Sizhe An, Janus Kristjansson, Xiao Yang, Matthias Zwicker. 21068-21077 [doi]

HandNeRF: Neural Radiance Fields for Animatable Interacting HandsZhiyang Guo, Wengang Zhou, Min Wang, Li Li, Houqiang Li. 21078-21087 [doi]

VGFlow: Visibility guided Flow Network for Human ReposingRishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausoom Sarkar, Duygu Ceylan, Balaji Krishnamurthy. 21088-21097 [doi]

Clothed Human Performance Capture with a Double-layer Neural Radiance FieldsKangkan Wang, Guofeng Zhang 0001, Suxu Cong, Jian Yang 0003. 21098-21107 [doi]

POEM: Reconstructing Hand in a Point Embedded Multi-view StereoLixin Yang 0001, Jian Xu, Licheng Zhong, Xinyu Zhan 0001, Zhicheng Wang, Kejian Wu, Cewu Lu. 21108-21112 [doi]

FlexNeRF: Photorealistic Free-viewpoint Rendering of Moving Humans from Sparse ViewsVinoj Jayasundara 0001, Amit Agrawal, Nicolas Heron, Abhinav Shrivastava, Larry S. Davis. 21118-21127 [doi]

Flow Supervision for Deformable NeRFChaoyang Wang, Lachlan Ewen MacDonald, László A. Jeni, Simon Lucey. 21128-21137 [doi]

Building Rearticulable Models for Arbitrary 3D Objects from 4D Point CloudsShaowei Liu, Saurabh Gupta 0001, Shenlong Wang. 21138-21147 [doi]

Implicit 3D Human Mesh Recovery using Consistency with Pose and Shape from Unseen-viewHanbyel Cho, Yooshin Cho, Jaesung Ahn, Junmo Kim. 21148-21158 [doi]

One-Stage 3D Whole-Body Mesh Recovery with Component Aware TransformerJing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li. 21159-21168 [doi]

Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand ShapesJihyun Lee, Minhyuk Sung, Honggyu Choi, Tae-Kyun Kim. 21169-21178 [doi]

FLEX: Full-Body Grasping Without Full-Body GraspsPurva Tendulkar, Dídac Surís, Carl Vondrick. 21179-21189 [doi]

DexArt: Benchmarking Generalizable Dexterous Manipulation with Articulated ObjectsChen Bao, Helin Xu, Yuzhe Qin, Xiaolong Wang. 21190-21200 [doi]

CARTO: Category and Joint Agnostic Reconstruction of ARTiculated ObjectsNick Heppert, Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Rares Andrei Ambrus, Jeannette Bohg, Abhinav Valada, Thomas Kollar. 21201-21210 [doi]

CIRCLE: Capture In Rich Contextual EnvironmentsJoão Pedro Araújo, Jiaman Li, Karthik Vetrivel, Rishi Agarwal, Jiajun Wu 0001, Deepak Gopinath, Alexander Clegg, C. Karen Liu. 21211-21221 [doi]

Decoupling Human and Camera Motion from Videos in the WildVickie Ye, Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa. 21222-21232 [doi]

GarmentTracking: Category-Level Garment Pose TrackingHan Xue, Wenqiang Xu, Jieyi Zhang, Tutian Tang, Yutong Li, Wenxin Du, Ruolin Ye, Cewu Lu. 21233-21242 [doi]

Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB VideosYilin Wen 0001, Hao Pan, Lei Yang 0048, Jia Pan, Taku Komura, Wenping Wang. 21243-21253 [doi]

PSVT: End-to-End Multi-Person 3D Pose and Shape Estimation with Progressive Video TransformersZhongwei Qiu, Qiansheng Yang, Jian Wang 0066, Haocheng Feng, Junyu Han, Errui Ding, Chang Xu, Dongmei Fu, Jingdong Wang 0001. 21254-21263 [doi]

Delving into Discrete Normalizing Flows on SO(3) Manifold for Probabilistic Rotation ModelingYulin Liu, Haoran Liu, Yingda Yin, Yang Wang, Baoquan Chen, He Wang. 21264-21273 [doi]

3D-POP - An Automated Annotation Approach to Facilitate Markerless 2D-3D Tracking of Freely Moving Birds with Marker-Based Motion CaptureHemal Naik, Alex Hoi Hang Chan, Junran Yang, Mathilde Delacoux, Iain D. Couzin, Fumihiro Kano, Nagy Máté. 21274-21284 [doi]

TTA-COPE: Test-Time Adaptation for Category-Level Object Pose EstimationTaeyeop Lee, Jonathan Tremblay, Valts Blukis, Bowen Wen, Byeong-uk Lee, Inkyu Shin, Stan Birchfield, In-So Kweon, Kuk-Jin Yoon. 21285-21295 [doi]

Markerless Camera-to-Robot Pose Estimation via Self-Supervised Sim-to-Real TransferJingpei Lu, Florian Richter 0002, Michael C. Yip. 21296-21306 [doi]

SMOC-Net: Leveraging Camera Pose for Self-Supervised Monocular Object Pose EstimationTao Tan, Qiulei Dong. 21307-21316 [doi]

IMP: Iterative Matching and Pose Estimation with Adaptive PoolingFei Xue, Ignas Budvytis, Roberto Cipolla. 21317-21326 [doi]

Self-Supervised Representation Learning for CADBenjamin T. Jones, Michael Hu, Milin Kodnongbua, Vladimir G. Kim, Adriana Schulz. 21327-21336 [doi]

Few-Shot Geometry-Aware Keypoint LocalizationXingzhe He, Gaurav Bharaj, David Ferman, Helge Rhodin, Pablo Garrido 0001. 21337-21348 [doi]

SparsePose: Sparse-View Camera Pose Regression and RefinementSamarth Sinha, Jason Y. Zhang 0001, Andrea Tagliasacchi, Igor Gilitschenski, David B. Lindell. 21349-21359 [doi]

A Large-Scale Homography BenchmarkDaniel Barath, Dmytro Mishkin, Michal Polic, Wolfgang Förstner, Jiri Matas. 21360-21370 [doi]

Learning Geometric-Aware Properties in 2D Representation Using Lightweight CAD Models, or Zero Real 3D PairsPattaramanee Arsomngern, Sarana Nutanong, Supasorn Suwajanakorn. 21371-21381 [doi]

AutoRecon: Automated 3D Object Discovery and ReconstructionYuang Wang, Xingyi He, Sida Peng, Haotong Lin, Hujun Bao, Xiaowei Zhou. 21382-21391 [doi]

Multi-Sensor Large-Scale Dataset for Multi-View 3D ReconstructionOleg Voynov, Gleb Bobrovskikh, Pavel A. Karpyshev, Saveliy Galochkin, Andrei-Timotei Ardelean, Arseniy Bozhenko, Ekaterina Karmanova, Pavel Kopanev, Yaroslav Labutin-Rymsho, Ruslan Rakhimov, Aleksandr Safin, Valerii Serpiva, Alexey Artemov, Evgeny Burnaev, Dzmitry Tsetserukou, Denis Zorin. 21392-21403 [doi]

NeurOCS: Neural NOCS Supervision for Monocular 3D Object LocalizationZhixiang Min, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Enrique Dunn, Manmohan Chandraker. 21404-21414 [doi]

Self-Supervised Super-Plane for Neural 3D ReconstructionBotao Ye, Sifei Liu, Xueting Li, Ming-Hsuan Yang 0001. 21415-21424 [doi]

PlaneDepth: Self-Supervised Depth Estimation via Orthogonal PlanesRuoyu Wang 0014, Zehao Yu, Shenghua Gao. 21425-21434 [doi]

Single View Scene Scale Estimation using Scale FieldByeong-uk Lee, Jianming Zhang, Yannick Hold-Geoffroy, In-So Kweon. 21435-21444 [doi]

3D Line Mapping RevisitedShaohui Liu, Yifan Yu, Rémi Pautrat, Marc Pollefeys, Viktor Larsson. 21445-21455 [doi]

Inverting the Imaging Process by Learning an Implicit Camera ModelXin Huang, Qi Zhang, Ying Feng, Hongdong Li, Qing Wang. 21456-21465 [doi]

SfM-TTR: Using Structure from Motion for Test-Time Refinement of Single-View Depth NetworksSergio Izquierdo, Javier Civera. 21466-21476 [doi]

iDisc: Internal Discretization for Monocular Depth EstimationLuigi Piccinelli, Christos Sakaridis, Fisher Yu. 21477-21487 [doi]

2: Dual-Camera Defocus Control by Learning to RefocusHadi AlZayer, Abdullah Abuolaim, Leung Chun Chan, Yang Yang, Ying Chen Lou, Jia-Bin Huang 0001, Abhishek Kar. 21488-21497 [doi]

A Practical Stereo Depth System for Smart GlassesJialiang Wang, Daniel Scharstein, Akash Bapat, Kevin Blackburn-Matzen, Matthew Yu, Jonathan Lehman, Suhib Alsisan, Yanghan Wang, Sam S. Tsai, Jan-Michael Frahm, Zijian He, Peter Vajda, Michael F. Cohen, Matt Uyttendaele. 21498-21507 [doi]

GeoMVSNet: Learning Multi-View Stereo with Geometry PerceptionZhe Zhang, Rui Peng, Yuxi Hu, Ronggang Wang. 21508-21518 [doi]

DINN360: Deformable Invertible Neural Network for Latitude-aware 360° Image RescalingYichen Guo, Mai Xu, Lai Jiang, Leonid Sigal, Yunjin Chen. 21519-21528 [doi]

OmniVidar: Omnidirectional Depth Estimation from Multi-Fisheye ImagesSheng Xie, Daochuan Wang, Yunhui Liu. 21529-21538 [doi]

Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic ScenesRui Li, Dong Gong, Wei Yin, Hao Chen, Yu Zhu, Kaixuan Wang, Xiaozhi Chen, Jinqiu Sun, Yanning Zhang. 21539-21548 [doi]

Modality-invariant Visual Odometry for Embodied VisionMarius Memmel, Roman Bachmann 0001, Amir Zamir. 21549-21559 [doi]

VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction in Point CloudZiqin Wang, Bowen Cheng, Lichen Zhao, Dong Xu 0001, Yang Tang, Lu Sheng. 21560-21569 [doi]

CAPE: Camera View Position Embedding for Multi-View 3D Object DetectionKaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding, Jingdong Wang 0001, Xiang Bai. 21570-21579 [doi]

AeDet: Azimuth-Invariant Multi-View 3D Object DetectionChengjian Feng, Zequn Jie, Yujie Zhong, Xiangxiang Chu, Lin Ma. 21580-21588 [doi]

Object Detection with Self-Supervised Scene AdaptationZekun Zhang, Minh Hoai. 21589-21599 [doi]

Understanding the Robustness of 3D Object Detection with Bird'View Representations in Autonomous DrivingZijian Zhu, Yichi Zhang, Hai Chen, Yinpeng Dong, Shu Zhao, Wenbo Ding, Jiachen Zhong, Shibao Zheng. 21600-21610 [doi]

BEVHeight: A Robust Framework for Vision-based Roadside 3D Object DetectionLei Yang, Kaicheng Yu, Tao Tang, Jun Li 0082, Kun Yuan, Li Wang 0092, Xinyu Zhang, Peng Chen. 21611-21620 [doi]

BEV-LaneDet: An Efficient 3D Lane Detection Based on Virtual Camera via Key-PointsRuihao Wang, Jian Qin, Kaiying Li, Yaochen Li, Dong Cao, Jintao Xu. 21611-21620 [doi]

Uncertainty-Aware Vision-Based Metric Cross-View GeolocalizationFlorian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen. 21621-21631 [doi]

OrienterNet: Visual Localization in 2D Public Maps with Neural MatchingPaul-Edouard Sarlin, Daniel DeTone, Tsun-Yi Yang, Armen Avetisyan, Julian Straub, Tomasz Malisiewicz, Samuel Rota Bulò, Richard A. Newcombe, Peter Kontschieder, Vasileios Balntas. 21632-21642 [doi]

MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object DetectionYang Jiao, Zequn Jie, Shaoxiang Chen 0001, Jingjing Chen, Lin Ma 0002, Yu-Gang Jiang. 21643-21652 [doi]

Virtual Sparse Convolution for Multimodal 3D Object DetectionHai Wu, Chenglu Wen, Shaoshuai Shi, Xin Li, Cheng Wang. 21653-21662 [doi]

Optimal Transport Minimization: Crowd Localization on Density Maps for Semi-Supervised CountingWei Lin 0018, Antoni B. Chan. 21663-21673 [doi]

VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and TrackingYukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia. 21674-21683 [doi]

GraVoS: Voxel Selection for 3D Point-Cloud DetectionOren Shrout, Yizhak Ben-Shabat, Ayellet Tal. 21684-21693 [doi]

MSeg3D: Multi-Modal 3D Semantic Segmentation for Autonomous DrivingJiale Li, Hang Dai, Hao Han, Yong Ding 0003. 21694-21704 [doi]

LaserMix for Semi-Supervised LiDAR Semantic SegmentationLingdong Kong, Jiawei Ren, Liang Pan, Ziwei Liu 0002. 21706-21716 [doi]

Implicit Surface Contrastive Clustering for LiDAR Point CloudsZaiwei Zhang, Min Bai, Li Erran Li. 21716-21725 [doi]

Semi-Weakly Supervised Object Kinematic Motion PredictionGengxin Liu, Qian Sun, Haibin Huang, Chongyang Ma, Yulan Guo, Li Yi, Hui Huang, Ruizhen Hu. 21726-21735 [doi]

PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language ModelsMinghua Liu, Yinhao Zhu, Hong Cai, Shizhong Han, Zhan Ling, Fatih Porikli, Hao Su 0001. 21736-21746 [doi]

Learning Weather-General and Weather-Specific Features for Image Restoration Under Multiple Adverse Weather ConditionsYurui Zhu, Tianyu Wang, Xueyang Fu, Xuanyu Yang, Xin Guo, Jifeng Dai, Yu Qiao, Xiaowei Hu. 21747-21758 [doi]

Geometry and Uncertainty-Aware 3D Point Cloud Class-Incremental Semantic SegmentationYuwei Yang, Munawar Hayat, Zhao Jin, Chao Ren 0002, Yinjie Lei. 21759-21768 [doi]

Learning 3D Representations from 2D Pre-Trained Models via Image-to-Point Masked AutoencodersRenrui Zhang, Liuhui Wang, Yu Qiao, Peng Gao, Hongsheng Li. 21769-21780 [doi]

ToThePoint: Efficient Contrastive Learning of 3D Point Clouds via RecyclingXinglin Li, Jiajing Chen, Jinhui Ouyang, Hanhui Deng, Senem Velipasalar, Di Wu 0002. 21781-21790 [doi]

PointDistiller: Structured Knowledge Distillation Towards Efficient and Compact 3D DetectionLinfeng Zhang, Runpei Dong, Hung-Shuo Tai, Kaisheng Ma. 21791-21801 [doi]

PointConvFormer: Revenge of the Point-based ConvolutionWenxuan Wu, Fuxin Li, Qi Shan. 21802-21813 [doi]

Self-Positioning Point-Based Transformer for Point Cloud UnderstandingJinyoung Park, Sanghyeok Lee, Sihyeon Kim, Yunyang Xiong, Hyunwoo J. Kim. 21814-21823 [doi]

PointClustering: Unsupervised Point Cloud Pre-training using Transformation Invariance in ClusteringFuchen Long, Ting Yao, Zhaofan Qiu, Lusong Li, Tao Mei 0001. 21824-21834 [doi]

Neural Intrinsic Embedding for Non-Rigid Point Cloud MatchingPuhua Jiang, Mingze Sun, Ruqi Huang. 21835-21845 [doi]

HGNet: Learning Hierarchical Geometry from Points, Edges, and SurfacesTing Yao, Yehao Li, Yingwei Pan, Tao Mei 0001. 21846-21855 [doi]

LP-DIF: Learning Local Pattern-Specific Deep Implicit Function for 3D Objects and ScenesMeng Wang, Yu-Shen Liu, Yue Gao, Kanle Shi, Yi Fang, Zhizhong Han. 21856-21865 [doi]

Conjugate Product Graphs for Globally Optimal 2D-3D Shape MatchingPaul Roetzer, Zorah Lähner, Florian Bernard. 21866-21875 [doi]

UTM: A Unified Multiple Object Tracking Model with Identity-Aware Feature EnhancementSisi You, Hantao Yao, Bing-Kun Bao, Changsheng Xu. 21876-21886 [doi]

Learning Rotation-Equivariant Features for Visual CorrespondenceJongmin Lee 0005, Byungjin Kim, Seungwook Kim, Minsu Cho. 21887-21897 [doi]

Adaptive Spot-Guided Transformer for Consistent Local Feature MatchingJiahuan Yu, Jiahao Chang, Jianfeng He, Tianzhu Zhang, Jiyang Yu, Feng Wu 0001. 21898-21908 [doi]

PMatch: Paired Masked Image Modeling for Dense Geometric MatchingShengjie Zhu, Xiaoming Liu 0002. 21909-21918 [doi]

Iterative Geometry Encoding Volume for Stereo MatchingGangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang. 21919-21928 [doi]

Adaptive Annealing for Robust Geometric EstimationChitturi Sidhartha, Lalit Manam, Venu Madhav Govindu. 21929-21939 [doi]

Tangentially Elongated Gaussian Belief Propagation for Event-Based Incremental Optical Flow EstimationJun Nagata, Yusuke Sekikawa. 21940-21949 [doi]

Robust and Scalable Gaussian Process Regression and Its ApplicationsYifan Lu, Jiayi Ma 0001, Leyuan Fang, Xin Tian 0006, Junjun Jiang. 21950-21959 [doi]

BEV-Guided Multi-Modality Fusion for Driving PerceptionYunze Man, Liang-Yan Gui, Yu-Xiong Wang. 21960-21969 [doi]

HumanBench: Towards General Human-Centric Perception with Projector Assisted PretrainingShixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang, Yuanzheng Ci, Lei Bai 0001, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang. 21970-21982 [doi]

Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous DrivingXiaosong Jia, Penghao Wu, Li Chen, Jiangwei Xie, Conghui He, Junchi Yan, Hongyang Li 0001. 21983-21994 [doi]

ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed ProposalsXishun Wang, Tong Su, Fang Da, Xiaodong Yang. 21995-22003 [doi]

StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent EnvironmentsSean Kulinski, Nicholas R. Waytowich, James Z. Hare, David I. Inouye. 22004-22013 [doi]

Stimulus Verification is a Universal and Effective Sampler in Multi-modal Human Trajectory PredictionJianhua Sun 0003, Yuxuan Li, Liang Chai, Cewu Lu. 22014-22023 [doi]

PyPose: A Library for Robot Learning with Physics-based OptimizationChen Wang 0033, Dasong Gao, Kuan Xu, Junyi Geng, Yaoyu Hu, Yuheng Qiu, Bowen Li, Fan Yang, Brady G. Moon, Abhinav Pandey, Aryan, Jiahe Xu, Tianhao Wu, Haonan He, Daning Huang, Zhongqiang Ren, Shibo Zhao, Taimeng Fu, Pranay Reddy, Xiao Lin, Wenshan Wang, Jingnan Shi, Rajat Talak, Kun Cao 0002, Yi Du, Han Wang, Huai-yu, Shanzhao Wang, Siyu Chen, Ananth Kashyap, Rohan Bandaru, Karthik Dantu, Jiajun Wu 0001, Lihua Xie, Luca Carlone, Marco Hutter 0001, Sebastian A. Scherer. 22024-22034 [doi]

Source-Free Adaptive Gaze Estimation by Uncertainty ReductionXin Cai, Jiabei Zeng, Shiguang Shan, Xilin Chen 0001. 22035-22045 [doi]

Camouflaged Object Detection with Feature Decomposition and Edge ReconstructionChunming He, Kai Li, Yachao Zhang, Longxiang Tang, Yulun Zhang, Zhenhua Guo, Xiu Li. 22046-22055 [doi]

MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object DetectorsYuang Zhang, Tiancai Wang, Xiangyu Zhang 0005. 22056-22065 [doi]

Dynamic Aggregated Network for Gait RecognitionKang Ma, Ying Fu 0001, Dezhi Zheng, Chunshui Cao, Xuecai Hu, Yongzhen Huang. 22076-22085 [doi]

Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression RecognitionZhijun Zhai, Jianhui Zhao 0001, Chengjiang Long, Wenju Xu, Shuangjiang He, Huijuan Zhao. 22086-22095 [doi]

MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized AdaptationBowen Zhang, Chenyang Qi, Pan Zhang, Bo Zhang, HsiangTao Wu, Dong Chen 0003, Qifeng Chen, Yong Wang, Fang Wen 0001. 22096-22105 [doi]

FLAG3D: A 3D Fitness Activity Dataset with Language InstructionYansong Tang, Jinpeng Liu, Aoyang Liu, Bin Yang, Wenxun Dai, Yongming Rao, Jiwen Lu, Jie Zhou 0001, Xiu Li. 22106-22117 [doi]

TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-IdentificationHaocong Rao, Chunyan Miao. 22118-22128 [doi]

NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same ActionKuan-Chieh Wang, Zhenzhen Weng, Maria Xenochristou, João Pedro Araújo, Jeffrey Gu, C. Karen Liu, Serena Yeung. 22129-22138 [doi]

Unsupervised Space-Time Network for Temporally-Consistent Segmentation of Multiple MotionsEtienne Meunier, Patrick Bouthemy. 22139-22148 [doi]

Deep Polarization Reconstruction with PDAVIS EventsHaiyang Mei, Zuowen Wang, Xin Yang, Xiaopeng Wei, Tobi Delbruck. 22149-22158 [doi]

Range-nullspace Video Frame Interpolation with Focalized Motion EstimationZhiyang Yu, Yu Zhang, Dongqing Zou, Xijun Chen, Jimmy S. Ren, Shunqing Ren. 22159-22168 [doi]

Exploring Motion Ambiguity and Alignment for High-Quality Video Frame InterpolationKun Zhou, Wenbo Li, Xiaoguang Han 0001, Jiangbo Lu. 22169-22179 [doi]

1000 FPS HDR Video with a Spike-RGB Hybrid CameraYakun Chang, Chu Zhou, Yuchen Hong, Liwen Hu, Chao Xu 0002, Tiejun Huang 0001, Boxin Shi. 22180-22190 [doi]

Deep Discriminative Spatial and Temporal Network for Efficient Video DeblurringJinshan Pan, Boming Xu, Jiangxin Dong, Jianjun Ge, Jinhui Tang 0001. 22191-22200 [doi]

Gated Multi-Resolution Transfer Network for Burst Restoration and EnhancementNancy Mehta, Akshay Dudhane, Subrahmanyam Murala, Syed Waqas Zamir, Salman H. Khan 0001, Fahad Shahbaz Khan. 22201-22210 [doi]

A Unified HDR Imaging Method with Pixel and Patch LevelQingsen Yan, Weiye Chen, Song Zhang, Yu Zhu, Jinqiu Sun, Yanning Zhang. 22211-22220 [doi]

BiasBed - Rigorous Texture Bias EvaluationNikolai Kalischek, Rodrigo Caye Daudt, Torben Peters, Reinhard Furrer, Jan D. Wegner, Konrad Schindler. 22221-22230 [doi]

Learning a Practical SDR-to-HDRTV Up-conversion using New Dataset and Degradation ModelsCheng Guo, Leidong Fan, Ziyu Xue, Xiuhua Jiang. 22231-22241 [doi]

Learning a Deep Color Difference Metric for Photographic ImagesHaoyu Chen, Zhihua Wang 0002, Yang Yang, Qilin Sun 0001, Kede Ma. 22242-22251 [doi]

Learning a Simple Low-Light Image Enhancer from Paired Low-Light InstancesZhenqi Fu, Yan Yang, Xiaotong Tu, Yue Huang 0001, Xinghao Ding, Kai-Kuang Ma. 22252-22261 [doi]

Residual Degradation Learning Unfolding Framework with Mixing Priors Across Spectral and Spatial for Compressive Spectral ImagingYubo Dong, Dahua Gao, Tian Qiu, Yuyan Li, Minxi Yang, Guangming Shi. 22262-22271 [doi]

Toward Stable, Interpretable, and Lightweight Hyperspectral Super-ResolutionWen-jin Guo, Weiying Xie, Kai Jiang, Yunsong Li, Jie Lei 0001, Leyuan Fang. 22272-22281 [doi]

RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook PriorsRuiqi Wu, Zheng-Peng Duan, Chun-Le Guo, Zhi Chai, Chongyi Li. 22282-22291 [doi]

Robust Unsupervised StyleGAN Image RestorationYohan Poirier-Ginter, Jean-François Lalonde. 22292-22301 [doi]

Quality-aware Pretrained Models for Blind Image Quality AssessmentKai Zhao, Kun Yuan, Ming Sun, Mading Li, Xing Wen. 22302-22313 [doi]

Learning to Exploit the Sequence-Specific Prior Knowledge for Image Processing Pipelines OptimizationHaina Qin, Longfei Han, Weihua Xiong, Juan Wang, Wentao Ma, Bing Li, Weiming Hu. 22314-22323 [doi]

Multi-Realism Image Compression with a Conditional GeneratorEirikur Agustsson, David Minnen, George Toderici, Fabian Mentzer. 22324-22333 [doi]

RGB No More: Minimally-Decoded JPEG Vision TransformersJeongsoo Park, Justin Johnson 0001. 22334-22346 [doi]

Kernel Aware ResamplerMichael Bernasconi, Abdelaziz Djelouah, Farnood Salehi, Markus H. Gross, Christopher Schroers. 22347-22355 [doi]

Spatial-Frequency Mutual Learning for Face Super-ResolutionChenyang Wang 0002, Junjun Jiang, Zhiwei Zhong, Xianming Liu. 22356-22366 [doi]

Activating More Pixels in Image Super-Resolution TransformerXiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao 0001, Chao Dong. 22367-22377 [doi]

Omni Aggregation Networks for Lightweight Image Super-ResolutionHang Wang, Xuanhong Chen, Bingbing Ni, Yutian Liu, Jinfan Liu. 22378-22387 [doi]

Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and a New MethodRan Yi, Haoyuan Tian, Zhihao Gu, Yu-Kun Lai, Paul L. Rosin. 22388-22397 [doi]

RWSC-Fusion: Region-Wise Style-Controlled Fusion Network for the Prohibited X-ray Security Image SynthesisLuwen Duan, Min Wu, Lijian Mao, Jun Yin, Jianping Xiong, Xi Li. 22398-22407 [doi]

Efficient Scale-Invariant Generator with Column-Row Entangled Pixel SynthesisThuan Hoang Nguyen, Thanh Van Le, Anh Tran 0001. 22408-22417 [doi]

Masked and Adaptive Transformer for Exemplar Based Image TranslationChang Jiang, Fei Gao, Biao Ma, Yuhao Lin, Nannan Wang 0001, Gang Xu 0001. 22418-22427 [doi]

SmartBrush: Text and Shape Guided Object Inpainting with Diffusion ModelShaoan Xie, Zhifei Zhang, Zhe Lin 0001, Tobias Hinz, Kun Zhang 0001. 22428-22437 [doi]

Neural Transformation Fields for Arbitrary-Styled Font GenerationBin Fu, Junjun He, Jianjun Wang, Yu Qiao. 22438-22447 [doi]

Referring Image MattingJizhizi Li, Jing Zhang, Dacheng Tao. 22448-22457 [doi]

Handwritten Text Generation from Visual ArchetypesVittorio Pippi, Silvia Cascianelli, Rita Cucchiara. 22458-22467 [doi]

SceneComposer: Any-Level Semantic Image SynthesisYu Zeng 0001, Zhe Lin 0001, Jianming Zhang, Qing Liu, John P. Collomosse, Jason Kuen, Vishal M. Patel 0001. 22468-22478 [doi]

Affordance Diffusion: Synthesizing Hand-Object InteractionsYufei Ye, Xueting Li, Abhinav Gupta 0001, Shalini De Mello, Stan Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu. 22479-22489 [doi]

LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image GenerationGuangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, Xi Li. 22490-22499 [doi]

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven GenerationNataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman. 22500-22510 [doi]

GLIGEN: Open-Set Grounded Text-to-Image GenerationYuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee. 22511-22521 [doi]

Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion ModelsPatrick Schramowski, Manuel Brack, Björn Deiseroth, Kristian Kersting. 22522-22531 [doi]

EDICT: Exact Diffusion Inversion via Coupled TransformationsBram Wallace, Akash Gokul, Nikhil Naik. 22532-22541 [doi]

Solving 3D Inverse Problems Using Pre-Trained 2D Diffusion ModelsHyungjin Chung, Dohoon Ryu, Michael T. McCann, Marc Louis Klasky, Jong Chul Ye. 22542-22551 [doi]

Diffusion Probabilistic Model Made SlimXingyi Yang, Daquan Zhou, Jiashi Feng, Xinchao Wang. 22552-22562 [doi]

Align Your Latents: High-Resolution Video Synthesis with Latent Diffusion ModelsAndreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim 0001, Sanja Fidler, Karsten Kreis. 22563-22575 [doi]

Binary Latent DiffusionZe Wang, Jiang Wang, Zicheng Liu 0001, Qiang Qiu. 22576-22585 [doi]

Semi-Supervised Video Inpainting with Cycle Consistency ConstraintsZhiliang Wu, Hanyu Xuan, Changchang Sun, Weili Guan, Kang Zhang, Yan Yan 0002. 22586-22595 [doi]

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector QuantizationMengqi Huang, Zhendong Mao, Zhuowei Chen, Yongdong Zhang 0001. 22596-22605 [doi]

Large-Capacity and Flexible Video Steganography via Invertible Neural NetworkChong Mou, Youmin Xu, Jiechong Song, Chen Zhao, Bernard Ghanem, Jian Zhang. 22606-22615 [doi]

Neural Video Compression with Diverse ContextsJiahao Li, Bin Li 0012, Yan Lu. 22616-22626 [doi]

Efficient Semantic Segmentation by Altering Resolutions for Compressed VideosYubin Hu 0001, Yuze He, Yanghao Li, JiSheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu. 22627-22637 [doi]

Structured Sparsity Learning for Efficient Video Super-ResolutionBin Xia, Jingwen He, Yulun Zhang, Yitong Wang, Yapeng Tian, Wenming Yang, Luc Van Gool. 22638-22647 [doi]

DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP TrainingYihao Chen, Xianbiao Qi, Jianan Wang, Lei Zhang. 22648-22657 [doi]

Boost Vision Transformer with GPU-Friendly Sparsity and QuantizationChong Yu, Tao Chen, Zhongxue Gan, Jiayuan Fan. 22658-22668 [doi]

All are Worth Words: A ViT Backbone for Diffusion ModelsFan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su 0006, Jun Zhu 0001. 22669-22679 [doi]

Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient Vision TransformersCong Wei, Brendan Duke, Ruowei Jiang, Parham Aarabi, Graham W. Taylor, Florian Shkurti. 22680-22689 [doi]

DropKey for Vision TransformerBonan Li, Yinhan Hu, Xuecheng Nie, Congying Han, Xiangjian Jiang, Tiande Guo, Luoqi Liu. 22700-22709 [doi]

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision DecodingZijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou. 22710-22720 [doi]

ResFormer: Scaling ViTs with Multi-Resolution TrainingRui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang. 22721-22731 [doi]

Stare at What You See: Masked Image Modeling without ReconstructionHongwei Xue, Peng Gao, Hongyang Li 0001, Yu Qiao, Hao Sun, Houqiang Li, Jiebo Luo. 22732-22741 [doi]

Mixed Autoencoder for Self-Supervised Visual Representation LearningKai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung. 22742-22751 [doi]

Shape-Erased Feature Learning for Visible-Infrared Person Re-IdentificationJiawei Feng, Ancong Wu, Wei-Shi Zheng 0001. 22752-22761 [doi]

G-MSM: Unsupervised Multi-Shape Matching with Graph-Based Affinity PriorsMarvin Eisenberger, Aysim Toker, Laura Leal-Taixé, Daniel Cremers. 22762-22772 [doi]

Efficient Mask Correction for Click-Based Interactive Image SegmentationFei Du, Jianlong Yuan, Zhibin Wang, Fan Wang. 22773-22782 [doi]

Prototype-Based Embedding Network for Scene Graph GenerationChaofan Zheng, Xinyu Lyu, Lianli Gao, Bo Dai 0006, Jingkuan Song. 22783-22792 [doi]

Graph Representation for Order-aware Visual TransformationYue Qiu 0001, Yanjun Sun, Fumiya Matsuzawa, Kenji Iwata, Hirokatsu Kataoka. 22793-22802 [doi]

Unbiased Scene Graph Generation in VideosSayak Nag, Kyle Min 0001, Subarna Tripathi, Amit K. Roy Chowdhury. 22803-22813 [doi]

Recurrence without Recurrence: Stable Video Landmark Detection with Deep Equilibrium ModelsPaul Micaelli, Arash Vahdat, Hongxu Yin, Jan Kautz, Pavlo Molchanov 0001. 22814-22825 [doi]

VideoTrack: Learning to Track Objects via Video TransformerFei Xie, Lei Chu, Jiahao Li, Yan Lu, Chao Ma. 22826-22835 [doi]

Breaking the "Object" in Video Object SegmentationPavel Tokmakov, Jie Li, Adrien Gaidon. 22836-22845 [doi]

Hierarchical Semantic Contrast for Scene-aware Video Anomaly DetectionShengyang Sun, Xiaojin Gong. 22846-22856 [doi]

Mask-Free Video Instance SegmentationLei Ke, Martin Danelljan, Henghui Ding, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu. 22857-22866 [doi]

Hierarchical Neural Memory Network for Low Latency Event ProcessingRyuhei Hamaguchi, Yasutaka Furukawa, Masaki Onishi, Ken Sakurada. 22867-22876 [doi]

Unifying Short and Long-Term Tracking with Graph HierarchiesOrcun Cetintas, Guillem Brasó, Laura Leal-Taixé. 22877-22887 [doi]

Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional TransformersJaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong. 22888-22897 [doi]

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual ModelingTsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu 0001. 22898-22909 [doi]

Egocentric Audio-Visual Object LocalizationChao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu. 22910-22921 [doi]

AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASRPaul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid. 22922-22931 [doi]

A Light Weight Model for Active Speaker DetectionJunhua Liao, Haihan Duan, Kanghui Feng, Wanbing Zhao, Yanbing Yang, Liangyin Chen. 22932-22941 [doi]

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and BaselineTiantian Geng, Teng Wang, Jinming Duan 0001, Runmin Cong, Feng Zheng. 22942-22951 [doi]

Video Test-Time Adaptation for Action RecognitionWei Lin 0019, Muhammad Jehanzeb Mirza, Mateusz Kozinski, Horst Possegger, Hilde Kuehne, Horst Bischof. 22952-22961 [doi]

Unified Keypoint-Based Action Recognition Framework via Structured Keypoint PoolingRyo Hachiuma, Fumiaki Sato, Taiki Sekii. 22962-22971 [doi]

Object Discovery from Motion-Guided TokensZhipeng Bao, Pavel Tokmakov, Yu-Xiong Wang, Adrien Gaidon, Martial Hebert. 22972-22981 [doi]

Open Set Action Recognition via Multi-Label Evidential LearningChen Zhao, Dawei Du, Anthony Hoogs, Christopher Funk. 22982-22991 [doi]

PivoTAL: Prior-Driven Supervision for Weakly-Supervised Temporal Action LocalizationMamshad Nayeem Rizve, Gaurav Mittal, Ye Yu 0003, Matthew Hall, Sandra Sajeev, Mubarak Shah, Mei Chen. 22992-23002 [doi]

Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo LabelsJingqiu Zhou, Linjiang Huang, Liang Wang, Si Liu, Hongsheng Li. 23003-23012 [doi]

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-based Active LearningWei Ji 0008, Renjie Liang, Zhedong Zheng, Wenqiao Zhang, Shengyu Zhang, Juncheng Li 0006, Mengze Li, Tat-Seng Chua. 23013-23022 [doi]

Query - Dependent Video Representation for Moment Retrieval and Highlight DetectionWonJun Moon, Sangeek Hyun, Sanguk Park, Dongchan Park, Jae-Pil Heo. 23023-23033 [doi]

Vita-CLIP: Video and text adaptive CLIP via Multimodal PromptingSyed Talal Wasim, Muzammal Naseer, Salman H. Khan 0001, Fahad Shahbaz Khan, Mubarak Shah. 23034-23044 [doi]

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-TrainingDezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu. 23045-23055 [doi]

Hierarchical Video-Moment Retrieval and Step-CaptioningAbhay Zala, Jaemin Cho 0001, Satwik Kottur, Xilun Chen 0002, Barlas Oguz, Yashar Mehdad, Mohit Bansal. 23056-23065 [doi]

HierVL: Learning Hierarchical Video-Language EmbeddingsKumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman. 23066-23078 [doi]

Learning Transferable Spatiotemporal Representations from Natural Script KnowledgeZiyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia, Yixiao Ge. 23079-23089 [doi]

WINNER: Weakly-supervised hIerarchical decompositioN and aligNment for spatio-tEmporal video gRoundingMengze Li, Han Wang, Wenqiao Zhang, Jiaxu Miao, Zhou Zhao, Shengyu Zhang, Wei Ji 0008, Fei Wu. 23090-23099 [doi]

Collaborative Static and Dynamic Vision-Language Streams for Spatio-Temporal Video GroundingZihang Lin, Chaolei Tan, Jian-Fang Hu, Zhi Jin, Tiancai Ye, Wei-Shi Zheng 0001. 23100-23109 [doi]

Learning Action Changes by Measuring Verb-Adverb Textual RelationshipsDavide Moltisanti, Frank Keller, Hakan Bilen, Laura Sevilla-Lara. 23110-23118 [doi]

LAVENDER: Unifying Video-Language Understanding as Masked Language ModelingLinjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu 0001, Ce Liu 0001, Lijuan Wang. 23119-23129 [doi]

DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive RankingLijin Yang, Quan Kong, Hsuan-Kung Yang, Wadim Kehl, Yoichi Sato, Norimasa Kobori. 23130-23140 [doi]

CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational AlignmentJiangbin Zheng, Yile Wang, Cheng Tan 0012, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li. 23141-23150 [doi]

Joint Visual Grounding and Tracking with Natural Language SpecificationLi Zhou, Zikun Zhou, Kaige Mao, Zhenyu He 0001. 23151-23160 [doi]

Accelerating Vision-Language Pretraining with Free Language ModelingTeng Wang, Yixiao Ge, Feng Zheng, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo. 23161-23170 [doi]

CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object NavigationSamir Yitzhak Gadre, Mitchell Wortsman, Gabriel Ilharco, Ludwig Schmidt, Shuran Song. 23171-23181 [doi]

Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and ScenesBrandon Clark, Alec Kerrigan, Parth Parag Kulkarni, Vicente Vivanco Cepeda, Mubarak Shah. 23182-23190 [doi]

ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed VideosZhou Yu 0001, Lixiang Zheng, Zhou Zhao, Fei Wu 0001, Jianping Fan 0001, Kui Ren 0001, Jun Yu. 23191-23200 [doi]

MetaCLUE: Towards Comprehensive Visual Metaphors ResearchArjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas J. Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani. 23201-23211 [doi]

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language NavigationJingyang Huo, Qiang Sun, Boyan Jiang, Haitao Lin, Yanwei Fu. 23212-23221 [doi]

Being Comes from Not-Being: Open-Vocabulary Text-to-Motion Generation with Wordless TrainingJunfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi Tian, Chang Wen Chen. 23222-23231 [doi]

LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language ModelsAdrian Bulat, Georgios Tzimiropoulos. 23232-23241 [doi]

Position-Guided Text Prompt for Vision-Language Pre-TrainingJinpeng Wang, Pan Zhou, Mike Zheng Shou, Shuicheng Yan. 23242-23251 [doi]

Intrinsic Physical Concepts Discovery with Object-Centric Predictive ModelsQu Tang, Xiangyu Zhu, Zhen Lei, Zhaoxiang Zhang. 23252-23261 [doi]

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training ModelYatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang. 23262-23271 [doi]

CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseXu Zhang, Wen Wang, Zhe Chen, Yufei Xu, Jing Zhang, Dacheng Tao. 23272-23281 [doi]

Teacher-generated spatial-attention labels boost robustness and accuracy of contrastive modelsYushi Yao, Chang Ye, Junfeng He, Gamaleldin F. Elsayed. 23282-23291 [doi]

DegAE: A New Pretraining Paradigm for Low-Level VisionYihao Liu 0001, Jingwen He, Jinjin Gu, Xiangtao Kong, Yu Qiao 0001, Chao Dong. 23292-23303 [doi]

RILS: Masked Visual Reconstruction in Language Semantic SpaceShusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie, Xinggang Wang. 23304-23314 [doi]

Learning Geometry-aware Representations by SketchingHyundo Lee, Inwoo Hwang, Hyunsung Go, Won-Seok Choi 0006, Kibeom Kim, Byoung-Tak Zhang. 23315-23326 [doi]

SketchXAI: A First Look at Explainability for Human SketchesZhiyu Qu, Yulia Gryaditskaya, Ke Li 0004, Kaiyue Pang, Tao Xiang, Yi-Zhe Song. 23327-23337 [doi]

MAGVLT: Masked Generative Vision-and-Language TransformerSungwoong Kim, DaeJin Jo, Donghoon Lee, Jongmin Kim 0006. 23338-23348 [doi]

Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable StyleFengyin Lin, Mingkang Li, Da Li 0001, Timothy M. Hospedales, Yi-Zhe Song, Yonggang Qi. 23349-23358 [doi]

Semantic-Conditional Diffusion Networks for Image CaptioningJianjie Luo, Yehao Li, Yingwei Pan, Ting Yao, Jianlin Feng, Hongyang Chao, Tao Mei 0001. 23359-23368 [doi]

Reveal: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge MemoryZiniu Hu, Ahmet Iscen, Chen Sun 0002, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi. 23369-23379 [doi]

Variational Distribution Learning for Unsupervised Text-to-Image GenerationMinsoo Kang, Doyup Lee, Jiseob Kim, Saehoon Kim, Bohyung Han. 23380-23389 [doi]

Scaling Language-Image Pre-Training via MaskingYanghao Li, Haoqi Fan 0001, Ronghang Hu, Christoph Feichtenhofer, Kaiming He. 23390-23400 [doi]

LANIT: Language-Driven Image-to-Image Translation for Unlabeled DataJihye Park, Sunwoo Kim, Soohyun Kim, Seokju Cho, Jaejun Yoo, Youngjung Uh, Seungryong Kim. 23401-23411 [doi]

Revisiting Self-Similarity: Structural Embedding for Image RetrievalSeongwon Lee 0002, Suhyeon Lee 0002, Hongje Seong, Euntai Kim. 23412-23421 [doi]

Improving Cross-Modal Retrieval with Set of Diverse EmbeddingsDongwon Kim, Namyup Kim, Suha Kwak. 23422-23431 [doi]

Masked Autoencoding Does Not Help Natural Language Supervision at ScaleFloris Weers, Vaishaal Shankar, Angelos Katharopoulos, Yinfei Yang, Tom Gunter. 23432-23444 [doi]

Few-Shot Learning with Visual Distribution Calibration and Cross-Modal Distribution AlignmentRunqi Wang, Hao Zheng, Xiaoyue Duan, Jianzhuang Liu, Yuning Lu, Tian Wang, Songcen Xu, Baochang Zhang 0001. 23445-23454 [doi]

Deep Hashing with Minimal-Distance-Separated Hash CentersLiangdao Wang, Yan Pan, Cong Liu, Hanjiang Lai, Jian Yin 0001, Ye Liu. 23455-23464 [doi]

ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based PolishingZequn Zeng, Hao Zhang, Ruiying Lu, Dongsheng Wang, Bo Chen 0001, Zhengjue Wang. 23465-23476 [doi]

Learning to Name Classes for Vision and Language ModelsSarah Parisot, Yongxin Yang, Steven McDonagh. 23477-23486 [doi]

Data-Efficient Large Scale Place Recognition with Graded Similarity SupervisionMaria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov. 23487-23496 [doi]

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region AlignmentLewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang 0196, Zhenguo Li, Hang Xu. 23497-23506 [doi]

HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language ModelsShan Ning, Longtian Qiu, Yongfei Liu, Xuming He 0001. 23507-23517 [doi]

OvarNet: Towards Open-Vocabulary Object Attribute RecognitionKeyan Chen, Xiaolong Jiang, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie. 23518-23527 [doi]

NeRF-RPN: A general framework for object detection in NeRFsBenran Hu, Junkai Huang, Yichen Liu, Yu-Wing Tai, Chi-Keung Tang. 23528-23538 [doi]

Mask-Free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask AnnotationsVibashan VS, Ning Yu, Chen Xing, Can Qin, Mingfei Gao, Juan Carlos Niebles, Vishal M. Patel 0001, Ran Xu. 23539-23549 [doi]

GP-VTON: Towards General Purpose Virtual Try-On via Collaborative Local-Flow Global-Parsing LearningZhenyu Xie, Zaiyu Huang, Xin Dong, Fuwei Zhao, Haoye Dong, Xijin Zhang, Feida Zhu 0005, Xiaodan Liang. 23550-23559 [doi]

Decomposed Soft Prompt Guided Fusion Enhancing for Compositional Zero-Shot LearningXiaocheng Lu, Song Guo 0001, Ziming Liu, Jingcai Guo. 23560-23569 [doi]

Contrastive Grouping with Transformer for Referring Image SegmentationJiajin Tang, Ge Zheng, Cheng Shi, Sibei Yang. 23570-23580 [doi]

Semantic Prompt for Few-Shot Image RecognitionWentao Chen, Chenyang Si, Zhang Zhang 0001, Liang Wang, Zilei Wang, Tieniu Tan. 23581-23591 [doi]

GRES: Generalized Referring Expression SegmentationChang Liu 0072, Henghui Ding, Xudong Jiang. 23592-23601 [doi]

Network-Free, Unsupervised Semantic Segmentation with Synthetic ImagesQianli Feng, Raghudeep Gadde, Wentong Liao, Eduard Ramon, Aleix Martinez. 23602-23610 [doi]

Few-shot Semantic Image Synthesis with Class Affinity TransferMarlène Careil, Jakob Verbeek, Stéphane Lathuilière. 23611-23620 [doi]

Ultra-High Resolution Segmentation with Ultra-Rich Context: A Novel BenchmarkDeyi Ji, Feng Zhao, Hongtao Lu, Mingyuan Tao, Jieping Ye. 23621-23630 [doi]

Content-aware Token Sharing for Efficient Semantic Segmentation with Vision TransformersChenyang Lu 0002, Daan de Geus, Gijs Dubbelman. 23631-23640 [doi]

Hierarchical Dense Correlation Distillation for Few-Shot SegmentationBohao Peng, Zhuotao Tian, Xiaoyang Wu, Chengyao Wang, Shu Liu, Jingyong Su, Jiaya Jia. 23641-23651 [doi]

On Calibrating Semantic Segmentation Models: Analyses and An AlgorithmDongdong Wang, Boqing Gong, Liqiang Wang. 23652-23662 [doi]

FastInst: A Simple Query-Based Model for Real-Time Instance SegmentationJunjie He, Pengyu Li, Yifeng Geng, Xuansong Xie. 23663-23672 [doi]

Out-of-Candidate Rectification for Weakly Supervised Semantic SegmentationZesen Cheng, Pengchong Qiao, Kehan Li 0002, Siheng Li, Pengxu Wei, Xiangyang Ji, Li Yuan 0007, Chang Liu, Jie Chen. 23673-23684 [doi]

Foundation Model Drives Weakly Incremental Learning for Semantic SegmentationChaohui Yu, Qiang Zhou, Jingliang Li, Jianlong Yuan, Zhibin Wang, Fan Wang. 23685-23694 [doi]

Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge ExcavationYan Jin, Mengke Li, Yang Lu, Yiu-ming Cheung, Hanzi Wang. 23695-23704 [doi]

Instance-Specific and Model-Adaptive Supervision for Semi-Supervised Semantic SegmentationZhen Zhao, Sifan Long, Jimin Pi, Jingdong Wang 0001, Luping Zhou. 23705-23714 [doi]

Active Finetuning: Exploiting Annotation Budget in the Pretraining-Finetuning ParadigmYichen Xie, Han Lu, Junchi Yan, Xiaokang Yang, Masayoshi Tomizuka, Wei Zhan. 23715-23724 [doi]

IDGI: A Framework to Eliminate Explanation Noise from Integrated GradientsRuo Yang, Binghui Wang, Mustafa Bilgic 0001. 23725-23734 [doi]

Weakly Supervised Posture Mining for Fine-Grained ClassificationZhenchao Tang, Hualin Yang, Calvin Yu-Chian Chen. 23735-23744 [doi]

Vision Transformers are Good Mask Auto-LabelersShiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, José M. Álvarez 0004, Anima Anandkumar. 23745-23755 [doi]

Enhanced Training of Query-Based Object Detection via Selective Query RecollectionFangyi Chen, Han Zhang 0048, Kai Hu 0010, Yu-Kai Huang, Chenchen Zhu, Marios Savvides. 23756-23765 [doi]

Box-Level Active DetectionMengyao Lyu, Jundong Zhou, Hui Chen 0013, Yijie Huang, Dongdong Yu, Yaqian Li, Yandong Guo, Yuchen Guo, Liuyu Xiang, Guiguang Ding. 23766-23775 [doi]

CIGAR: Cross-Modality Graph Reasoning for Domain Adaptive Object DetectionYabo Liu, Jinghua Wang, Chao Huang, Yaowei Wang, Yong Xu. 23776-23786 [doi]

DA-DETR: Domain Adaptive Detection Transformer with Information FusionJingyi Zhang 0005, Jiaxing Huang 0001, Zhipeng Luo, Gongjie Zhang, Xiaoqin Zhang 0002, Shijian Lu. 23787-23798 [doi]

Continual Detection Transformer for Incremental Object DetectionYaoyao Liu 0001, Bernt Schiele, Andrea Vedaldi, Christian Rupprecht 0001. 23799-23808 [doi]

Semi-DETR: Semi-Supervised Object Detection with Detection TransformersJiacheng Zhang, Xiangru Lin, Wei Zhang 0197, Kuo Wang, Xiao Tan 0001, Junyu Han, Errui Ding, Jingdong Wang 0001, Guanbin Li. 23809-23818 [doi]

Hierarchical Supervision and Shuffle Data Augmentation for 3D Semi-Supervised Object DetectionChuandong Liu, Chenqiang Gao, Fangcen Liu, Pengcheng Li, Deyu Meng, Xinbo Gao 0001. 23819-23828 [doi]

Harmonious Teacher for Cross-Domain Object DetectionJinhong Deng, Dongli Xu, Wen Li 0003, Lixin Duan. 23829-23838 [doi]

Contrastive Mean Teacher for Domain Adaptive Object DetectorsShengcao Cao, Dhiraj Joshi, Liang-Yan Gui, Yu-Xiong Wang. 23839-23848 [doi]

Out-of-Distributed Semantic Pruning for Robust Semi-Supervised LearningYu Wang, Pengchong Qiao, Chang Liu, Guoli Song, Xiawu Zheng, Jie Chen. 23849-23858 [doi]

(ML)2P-Encoder: On Exploration of Channel-Class Correlation for Multi-Label Zero-Shot LearningZiming Liu, Song Guo 0001, Xiaocheng Lu, Jingcai Guo, Jiewei Zhang, Yue Zeng, Fushuo Huo. 23859-23868 [doi]

MagicNet: Semi-Supervised Multi-Organ Segmentation via Magic-Cube Partition and RecoveryDuowen Chen, Yunhao Bai, Wei Shen, Qingli Li, Lequan Yu, Yan Wang 0033. 23869-23878 [doi]

Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution LocalizationMingze Yuan, Yingda Xia, Hexin Dong, Zifan Chen, Jiawen Yao, Mingyan Qiu, Ke Yan, Xiaoli Yin, Yu Shi, Xin Chen, Zaiyi Liu, Bin Dong 0001, Jingren Zhou, Le Lu 0001, Ling Zhang, Li Zhang. 23879-23889 [doi]

SQUID: Deep Feature In-Painting for Unsupervised Anomaly DetectionTiange Xiang, Yixiao Zhang, Yongyi Lu, Alan L. Yuille, Chaoyi Zhang, Weidong Cai 0001, Zongwei Zhou. 23890-23901 [doi]

OCELOT: Overlapped Cell on Tissue Dataset for HistopathologyJeongun Ryu, Aaron Valero Puche, Jaewoong Shin, Seonwook Park, Biagio Brattoli, Jinhee Lee, Wonkyung Jung, Soo Ick Cho, Kyunghyun Paeng, Chan-Young Ock, Donggeun Yoo, Sérgio Pereira. 23902-23912 [doi]

DeGPR: Deep Guided Posterior Regularization for Multi-Class Cell Detection and CountingAayush Kumar Tyagi, Chirag Mohapatra, Prasenjit Das 0006, Govind Makharia, Lalita Mehra, Prathosh AP, Mausam. 23913-23923 [doi]

Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging DataPaul Hager, Martin J. Menten, Daniel Rueckert. 23924-23935 [doi]

RankMix: Data Augmentation for Weakly Supervised Learning of Classifying Whole Slide Images with Diverse Sizes and Imbalanced CategoriesYuan-Chih Chen, Chun-Shien Lu. 23936-23945 [doi]

GEN: Pushing the Limits of Softmax-Based Out-of-Distribution DetectionXixi Liu, Yaroslava Lochman, Christopher Zach. 23946-23955 [doi]

Discriminating Known from Unknown Objects via Structure-Enhanced Recurrent Variational AutoEncoderAming Wu, Cheng Deng. 23956-23965 [doi]

Sample-level Multi-view Graph ClusteringYuze Tan, Yixi Liu, Shudong Huang, Wentao Feng, Jiancheng Lv 0001. 23966-23975 [doi]

On the Effects of Self-supervision and Contrastive Alignment in Deep Multi-view ClusteringDaniel J. Trosten, Sigurd Løkse, Robert Jenssen, Michael C. Kampffmeyer. 23976-23985 [doi]

Deep Fair Clustering via Maximizing and Minimizing Mutual Information: Theory, Algorithm and MetricPengxin Zeng, Yunfan Li 0003, Peng Hu 0002, Dezhong Peng, Jiancheng Lv 0001, Xi Peng 0001. 23986-23995 [doi]

Transductive Few-Shot Learning with Prototype-Based Label Propagation by Iterative Graph RefinementHao Zhu, Piotr Koniusz. 23996-24006 [doi]

Open-Set Likelihood Maximization for Few-Shot LearningMalik Boudiaf, Etienne Bennequin, Myriam Tami, Antoine Toubhans, Pablo Piantanida, Céline Hudelot, Ismail Ben Ayed. 24007-24016 [doi]

HyperMatch: Noise-Tolerant Semi-Supervised Learning via Relaxed Contrastive ConstraintBeitong Zhou, Jing Lu 0004, Kerui Liu, Yunlu Xu, Zhanzhan Cheng, Yi Niu. 24017-24026 [doi]

Token Boosting for Robust Self-Supervised Visual Transformer Pre-trainingTianjiao Li, Lin Geng Foo, Ping Hu, Xindi Shang, Hossein Rahmani, Zehuan Yuan, Jun Liu 0036. 24027-24038 [doi]

Difficulty-Based Sampling for Debiased Contrastive Representation LearningTaeuk Jang, Xiaoqian Wang 0001. 24039-24048 [doi]

Improving Selective Visual Question Answering by Learning from Your PeersCorentin Dancette, Spencer Whitehead, Rishabh Maheshwary, Ramakrishna Vedantam, Stefan Scherer, Xinlei Chen, Matthieu Cord, Marcus Rohrbach. 24049-24059 [doi]

Superclass Learning with Representation EnhancementZeyu Gan, Suyun Zhao, Jinlong Kang, Liyuan Shang, Hong Chen 0001, Cuiping Li. 24060-24069 [doi]

DISC: Learning from Noisy Labels via Dynamic Instance-Specific Selection and CorrectionYifan Li, Hu Han 0001, Shiguang Shan, Xilin Chen 0001. 24070-24079 [doi]

FCC: Feature Clusters Compression for Long-Tailed Visual RecognitionJian Li, Ziyao Meng, Daqian Shi, Rui Song, Xiaolei Diao, Jingwen Wang, Hao Xu. 24080-24089 [doi]

Dynamically Instance-Guided Adaptation: A Backward-free Approach for Test-Time Domain Adaptive Semantic SegmentationWei Wang, Zhun Zhong, Weijie Wang, Xi Chen, Charles Ling 0001, Boyu Wang, Nicu Sebe. 24090-24099 [doi]

Semi-Supervised Domain Adaptation with Source Label AdaptationYu-Chu Yu, Hsuan-Tien Lin. 24100-24109 [doi]

Adjustment and Alignment for Unbiased Open Set Domain AdaptationWuyang Li, Jie Liu 0044, Bo Han, Yixuan Yuan. 24110-24119 [doi]

C-SFDA: A Curriculum Learning Aided Self-Training Framework for Efficient Source Free Domain AdaptationNazmul Karim, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han-Pang Chiu, Supun Samarasekera, Nazanin Rahnavard. 24120-24131 [doi]

ALOFT: A Lightweight MLP-Like Architecture with Dynamic Low-Frequency Transform for Domain GeneralizationJintao Guo, Na Wang, Lei Qi 0001, Yinghuan Shi. 24132-24141 [doi]

Modality-Agnostic Debiasing for Single Domain GeneralizationSanqing Qu, Yingwei Pan, Guang Chen 0001, Ting Yao, Changjun Jiang, Tao Mei 0001. 24142-24151 [doi]

ActMAD: Activation Matching to Align Distributions for Test-Time-TrainingMuhammad Jehanzeb Mirza, Pol Jané-Soneira, Wei Lin 0019, Mateusz Kozinski, Horst Possegger, Horst Bischof. 24152-24161 [doi]

TIPI: Test Time Adaptation with Transformation InvarianceA. Tuan Nguyen, Thanh Nguyen-Tang, Ser-Nam Lim, Philip H. S. Torr. 24162-24171 [doi]

Improved Test-Time Adaptation for Domain GeneralizationLiang Chen, Yong Zhang 0034, Yibing Song, Ying Shan, Lingqiao Liu. 24172-24182 [doi]

Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental LearningZeyin Song, Yifan Zhao, Yujun Shi, Peixi Peng, Li Yuan 0007, Yonghong Tian 0001. 24183-24192 [doi]

NIFF: Alleviating Forgetting in Generalized Few-Shot Object Detection via Neural Instance Feature ForgingKarim Guirguis, Johannes Meier, George Eskandar, Matthias Kayser, Bin Yang 0009, Jürgen Beyerer. 24193-24202 [doi]

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question AnsweringJingjing Jiang, Nanning Zheng 0001. 24203-24213 [doi]

PIVOT: Prompting for Video Continual LearningAndrés Villa, Juan León Alcázar, Motasem Alfarra, Kumail Alhamoud, Julio Hurtado, Fabian Caba Heilbron, Alvaro Soto, Bernard Ghanem. 24214-24223 [doi]

BlackVIP: Black-Box Visual Prompting for Robust Transfer LearningChangdae Oh, Hyeji Hwang, Hee Young Lee, Yongtaek Lim, Geunyoung Jung, Jiyoung Jung, Hosik Choi, Kyungwoo Song. 24224-24235 [doi]

DKT: Diverse Knowledge Transfer Transformer for Class Incremental LearningXinyuan Gao, Yuhang He, Songlin Dong, Jie Cheng, Xing Wei, Yihong Gong. 24236-24245 [doi]

PCR: Proxy-Based Contrastive Replay for Online Class-Incremental Continual LearningHuiwei Lin, Baoquan Zhang, Shanshan Feng, Xutao Li, Yunming Ye. 24246-24255 [doi]

Masked Autoencoders Enable Efficient Knowledge DistillersYutong Bai, Zeyu Wang 0008, Junfei Xiao, Chen Wei 0005, Huiyu Wang, Alan L. Yuille, Yuyin Zhou, Cihang Xie. 24256-24265 [doi]

Data-Free Knowledge Distillation via Feature Exchange and Activation Region ConstraintShikang Yu, Jiachen Chen, Hu Han 0001, Shuqiang Jiang. 24266-24275 [doi]

Multi-Level Logit DistillationYing Jin, Jiaqi Wang, Dahua Lin. 24276-24285 [doi]

Preserving Linear Separability in Continual Learning by Backward Feature ProjectionQiao Gu, Dongsub Shim, Florian Shkurti. 24286-24295 [doi]

Critical Learning Periods for Multisensory Integration in Deep NetworksMichael Kleinman, Alessandro Achille, Stefano Soatto. 24296-24305 [doi]

SLACK: Stable Learning of Augmentations with Cold-Start and KL RegularizationJuliette Marrie, Michael Arbel, Diane Larlus, Julien Mairal. 24306-24314 [doi]

Improving Generalization with Domain Convex GameFangrui Lv, Jian Liang, Shuang Li, Jinming Zhang, Di Liu. 24315-24324 [doi]

Exploring Data Geometry for Continual LearningZhi Gao, Chen Xu, Feng Li, Yunde Jia, Mehrtash Harandi, Yuwei Wu 0001. 24325-24334 [doi]

FlowGrad: Controlling the Output of Generative ODEs with GradientsXingchao Liu, Lemeng Wu, Shujian Zhang, ChengYue Gong, Wei Ping, Qiang Liu 0001. 24335-24344 [doi]

Deep Graph ReprogrammingYongcheng Jing, Chongbin Yuan, Li Ju, Yiding Yang, Xinchao Wang, Dacheng Tao. 24345-24354 [doi]

X-Pruner: eXplainable Pruning for Vision TransformersLu Yu, Wei Xiang. 24355-24363 [doi]

Bias in Pruned Vision Models: In-Depth Analysis and CountermeasuresEugenia Iofinova, Alexandra Peste, Dan Alistarh. 24364-24373 [doi]

Compacting Binary Neural Networks by Sparse Kernel SelectionYikai Wang 0001, Wenbing Huang 0001, Yinpeng Dong, Fuchun Sun 0001, Anbang Yao. 24374-24383 [doi]

Deep Deterministic Uncertainty: A New Simple BaselineJishnu Mukhoti, Andreas Kirsch 0002, Joost van Amersfoort, Philip H. S. Torr, Yarin Gal. 24384-24394 [doi]

Understanding Deep Generative Models with Generalized Empirical LikelihoodsSuman V. Ravuri, Mélanie Rey, Shakir Mohamed, Marc Peter Deisenroth. 24395-24405 [doi]

Fair Scratch Tickets: Finding Fair Sparse Networks without Weight TrainingPengwei Tang, Wei Yao, Zhicong Li, Yong Liu. 24406-24416 [doi]

Hard Sample Matters a Lot in Zero-Shot QuantizationHuantong Li, Xiangmiao Wu, Fanbing Lv, Daihai Liao, Thomas H. Li, Yonggang Zhang, Bo Han 0003, Mingkui Tan. 24417-24426 [doi]

PD-Quant: Post-Training Quantization Based on Prediction Difference MetricJiawei Liu, Lin Niu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu Liu 0001. 24427-24437 [doi]

Vector Quantization with Self-Attention for Quality-Independent Representation LearningZhou Yang, Weisheng Dong, Xin Li, Mengluan Huang, Yulin Sun, Guangming Shi. 24438-24448 [doi]

Masked Auto-Encoders Meet Generative Adversarial Networks and BeyondZhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang, Xiaoming Wei, Xiaolin Wei. 24449-24459 [doi]

Sequential Training of GANs Against GAN-Classifiers Reveals Correlated "Knowledge Gaps" Present Among Independently Trained GAN InstancesArkanath Pathak, Nicholas Dufour. 24460-24469 [doi]

Edges to Shapes to Concepts: Adversarial Augmentation for Robust VisionAditay Tripathi, Rishubh Singh, Anirban Chakraborty 0001, Pradeep Shenoy. 24470-24479 [doi]

Towards Universal Fake Image Detectors that Generalize Across Generative ModelsUtkarsh Ojha, Yuheng Li, Yong Jae Lee. 24480-24489 [doi]

Explicit Boundary Guided Semi-Push-Pull Contrastive Learning for Supervised Anomaly DetectionXincheng Yao, Ruoqi Li, Jing Zhang, Jun Sun 0005, Chongyang Zhang. 24490-24499 [doi]

Generating Anomalies for Video Anomaly Detection with Prompt-based Feature MappingZuhao Liu, Xiao-Ming Wu, Dian Zheng, Kun-Yu Lin, Wei-Shi Zheng 0001. 24500-24510 [doi]

Revisiting Reverse Distillation for Anomaly DetectionTran Dinh Tien, Anh Tuan Nguyen, Nguyen Hoang Tran, Ta Duc Huy, Soan Thi Minh Duong, Chanh D. Tr. Nguyen, Steven Q. H. Truong. 24511-24520 [doi]

MetaMix: Towards Corruption-Robust Continual Learning with Temporally Self-Adaptive Data TransformationZhenyi Wang, Li Shen, Donglin Zhan, Qiuling Suo, Yanjun Zhu, Tiehang Duan, Mingchen Gao. 24521-24531 [doi]

ScaleFL: Resource-Adaptive Federated Learning with Heterogeneous ClientsFatih Ilhan, Gong Su, Ling Liu 0001. 24532-24541 [doi]

Confidence-Aware Personalized Federated Learning via Variational Expectation MaximizationJunyi Zhu 0002, Xingchen Ma, Matthew B. Blaschko. 24542-24551 [doi]

Make Landscape Flatter in Differentially Private Federated LearningYifan Shi, Yingqi Liu, Kang Wei, Li Shen, Xueqian Wang 0001, Dacheng Tao. 24552-24562 [doi]

Rethinking Domain Generalization for Face Anti-spoofing: Separability and AlignmentYiyou Sun, Yaojie Liu, Xiaoming Liu, Yixuan Li 0001, Wen-Sheng Chu. 24563-24574 [doi]

StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot LearningYuqian Fu, Yu Xie, Yanwei Fu, Yu-Gang Jiang. 24575-24584 [doi]

The Dark Side of Dynamic Routing Neural Networks: Towards Efficiency Backdoor InjectionSimin Chen, Hanlin Chen, Mirazul Haque, Cong Liu, Wei Yang 0013. 24585-24594 [doi]

Architectural Backdoors in Neural NetworksMikel Bober-Irizar, Ilia Shumailov, Yiren Zhao, Robert D. Mullins, Nicolas Papernot. 24595-24604 [doi]

You Are Catching My Attention: Are Vision Transformers Bad Learners under Backdoor Attacks?Zenghui Yuan, Pan Zhou, Kai Zou, Yu Cheng 0001. 24605-24615 [doi]

A Practical Upper Bound for the Worst-Case Attribution DeviationsFan Wang, Adams Wai-Kin Kong. 24616-24625 [doi]

Sibling-Attack: Rethinking Transferable Adversarial Attacks against Face RecognitionZexin Li, Bangjie Yin, Taiping Yao, Junfeng Guo, Shouhong Ding, Simin Chen, Cong Liu. 24626-24637 [doi]

Angelic Patches for Improving Third-Party Object Detector PerformanceWenwen Si, Shuo Li, Sangdon Park 0001, Insup Lee 0001, Osbert Bastani. 24638-24647 [doi]

Introducing Competition to Boost the Transferability of Targeted Adversarial Examples Through Clean Feature MixupJunyoung Byun, Myung-Joon Kwon, Seungju Cho, Yoonji Kim, Changick Kim. 24648-24657 [doi]

Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic PerturbationsLei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho. 24658-24667 [doi]

Boosting Accuracy and Robustness of Student Models via Adaptive Adversarial DistillationBo Huang, Mingyang Chen, Yi Wang 0017, Junda Lu, Minhao Cheng, Wei Wang 0011. 24668-24677 [doi]

The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for Improving Adversarial TrainingJunhao Dong, Seyed-Mohsen Moosavi-Dezfooli, Jianhuang Lai, Xiaohua Xie. 24678-24687 [doi]

Robust Single Image Reflection Removal Against Adversarial AttacksZhenbo Song, Zhenyuan Zhang, Kaihao Zhang, Wenhan Luo, Zhaoxin Fan, Wenqi Ren, Jianfeng Lu 0003. 24688-24698 [doi]

Physical-World Optical Adversarial Attacks on 3D Face RecognitionYanjie Li, Yiquan Li, Xuelong Dai, Songtao Guo, Bin Xiao. 24699-24708 [doi]

AUNet: Learning Relations Between Action Units for Face Forgery DetectionWeiming Bai, Yufan Liu, Zhipeng Zhang, Bing Li, Weiming Hu. 24709-24719 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023

Abstract

Table of Contents