IEEE/CVF International Conference on Computer Vision, ICCV 2023, Paris, France, October 1-6, 2023 - researchr publication

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF International Conference on Computer Vision, ICCV 2023, Paris, France, October 1-6, 2023. IEEE, 2023. [doi]

Conference: iccv2023

Abstract is missing.

Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF SensorXinyang Liu, Yijin Li, Yanbin Teng, Hujun Bao, Guofeng Zhang 0001, Yinda Zhang 0001, Zhaopeng Cui. 1-11 [doi]

ScanNet++: A High-Fidelity Dataset of 3D Indoor ScenesChandan Yeshwanth, Yueh-Cheng Liu, Matthias Nießner, Angela Dai. 12-22 [doi]

Translating Images to Road Network: A Non-Autoregressive Sequence-to-Sequence ApproachJiachen Lu, Hongyang Li, Renyuan Peng, Feng Wen, Xinyue Cai, Wei Zhang, Hang Xu, Li Zhang. 23-33 [doi]

Doppelgangers: Learning to Disambiguate Images of Similar StructuresRuojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely. 34-44 [doi]

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual QueriesJinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao 0002, Bernard Ghanem. 45-57 [doi]

ClothPose: A Real-world Benchmark for Visual Analysis of Garment Pose via An Indirect Recording SolutionWenqiang Xu, Wenxin Du, Han Xue, Yutong Li, Ruolin Ye, Yan-Feng Wang, Cewu Lu. 58-68 [doi]

EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting Ego-Motion RigidityZijie Jiang, Masatoshi Okutomi. 69-78 [doi]

ENVIDR: Implicit Differentiable Renderer with Neural Environment LightingRuofan Liang, Huiting Chen, Chunlin Li 0014, Fan Chen, Selvakumar Panneer, Nandita Vijaykumar. 79-89 [doi]

Robust Mixture-of-Expert Training for Convolutional Neural NetworksYihua Zhang, Ruisi Cai, Tianlong Chen, Guanhua Zhang, Huan Zhang 0001, Pin-Yu Chen, Shiyu Chang, Zhangyang Wang, Sijia Liu 0001. 90-101 [doi]

Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training ModelsDong Lu, Zhiqiang Wang, Teng Wang, Weili Guan, Hongchang Gao, Feng Zheng. 102-111 [doi]

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive LearningHritik Bansal, Fan Yin, Nishad Singhi, Aditya Grover, Yu Yang, Kai-Wei Chang. 112-123 [doi]

CGBA: Curvature-aware Geometric Black-box AttackMd Farhamdur Reza, Ali Rahmati, Tianfu Wu 0001, Huaiyu Dai. 124-133 [doi]

Robust Evaluation of Diffusion-Based Adversarial PurificationMinjong Lee, Dongwoo Kim. 134-144 [doi]

Advancing Example Exploitation Can Alleviate Critical Challenges in Adversarial TrainingYao Ge, Yun Li, KeJi Han, Junyi Zhu, Xianzhong Long. 145-154 [doi]

The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned DataZixuan Zhu, Rui Wang 0032, Cong Zou, Lihua Jing. 155-164 [doi]

TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored ModelsIndranil Sur, Karan Sikka, Matthew Walmer, Kaushik Koneripalli, Anirban Roy, Xiao Lin, Ajay Divakaran, Susmit Jha. 165-175 [doi]

Simoun: Synergizing Interactive Motion-appearance Understanding for Vision-based Reinforcement LearningYangru Huang, Peixi Peng, Yifan Zhao, Yunpeng Zhai, Haoran Xu, YongHong Tian. 176-185 [doi]

Among Us: Adversarially Robust Collaborative Perception by ConsensusYiming Li, Qi Fang, Jiamu Bai, Siheng Chen, Felix Juefei-Xu, Chen Feng. 186-195 [doi]

Walking Your LiDOG: A Journey Through Multiple Domains for LiDAR Semantic SegmentationCristiano Saltori, Aljosa Osep, Elisa Ricci 0001, Laura Leal-Taixé. 196-206 [doi]

Stabilizing Visual Reinforcement Learning via Asymmetric Interactive CooperationYunpeng Zhai, Peixi Peng, Yifan Zhao, Yangru Huang, YongHong Tian. 207-216 [doi]

MAAL: Multimodality-Aware Autoencoder-based Affordance Learning for 3D Articulated ObjectsYuanzhi Liang, Xiaohan Wang, Linchao Zhu, Yi Yang. 217-227 [doi]

Rethinking Range View Representation for LiDAR SegmentationLingdong Kong, Youquan Liu, Runnan Chen, Yuexin Ma, Xinge Zhu, Yikang Li, Yuenan Hou, Yu Qiao, Ziwei Liu 0002. 228-240 [doi]

PourIt!: Weakly-supervised Liquid Perception from a Single Image for Visual Closed-Loop Robotic PouringHaitao Lin, Yanwei Fu, Xiangyang Xue. 241-251 [doi]

CROSSFIRE: Camera Relocalization On Self-Supervised Features from an Implicit RepresentationArthur Moreau, Nathan Piasco, Moussâb Bennehar, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle. 252-262 [doi]

Environment Agnostic Representation for Visual Reinforcement learningHyesong Choi, Hunsang Lee, Seongwon Jeong, Dongbo Min. 263-273 [doi]

Test-time Personalizable Forecasting of 3D Human PosesQiongjie Cui, HuaiJiang Sun, Jianfeng Lu, Weiqing Li, Bin Li, Hongwei Yi, Haofan Wang. 274-283 [doi]

HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative Perception with Vision TransformerHao Xiang, Runsheng Xu, Jiaqi Ma. 284-295 [doi]

Efficient neural supersampling on a novel gaming datasetAntoine Mercier 0005, Ruan Erasmus, Yashesh Savani, Manik Dhingra, Fatih Porikli, Guillaume Berger. 296-306 [doi]

Locally Stylized Neural Radiance FieldsHong-Wing Pang, Binh-Son Hua, Sai Kit Yeung. 307-316 [doi]

NEMTO: Neural Environment Matting for Novel View and Relighting Synthesis of Transparent ObjectsDongqing Wang, Tong Zhang, Sabine Süsstrunk. 317-327 [doi]

DDColor: Towards Photo-Realistic Image Colorization via Dual DecodersXiaoyang Kang 0002, Tao Yang, Wenqi Ouyang, Peiran Ren, Lingzhi Li, Xuansong Xie. 328-338 [doi]

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View SynthesisWeicai Ye, Shuo Chen, Chong Bao, Hujun Bao, Marc Pollefeys, Zhaopeng Cui, Guofeng Zhang 0001. 339-151 [doi]

PARIS: Part-level Reconstruction and Motion Analysis for Articulated ObjectsJiayi Liu, Ali Mahdavi-Amiri, Manolis Savva. 352-363 [doi]

ReMoDiffuse: Retrieval-Augmented Motion Diffusion ModelMingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu. 364-373 [doi]

DS-Fusion: Artistic Typography via Discriminated and Stylized DiffusionMaham Tanveer, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang. 374-384 [doi]

Dynamic Mesh-Aware Radiance FieldsYi-Ling Qiao, Alexander Gao, Yiran Xu, Yue Feng, Jia-Bin Huang 0001, Ming C. Lin. 385-396 [doi]

Neural Reconstruction of Relightable Human Model from Monocular VideoWenzhang Sun, Yunlong Che, Yandong Guo, Han Huang. 397-407 [doi]

Neural Microfacet Fields for Inverse RenderingAlexander Mai, Dor Verbin, Falko Kuester, Sara Fridovich-Keil. 408-418 [doi]

A Theory of Topological Derivatives for Inverse Rendering of GeometryIshit Mehta, Manmohan Chandraker, Ravi Ramamoorthi. 419-429 [doi]

Vox-E: Text-guided Voxel Editing of 3D ObjectsEtai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor. 430-440 [doi]

StegaNeRF: Embedding Invisible Information within Neural Radiance FieldsChenxin Li, Brandon Y. Feng, Zhiwen Fan, Panwang Pan, Zhangyang Wang. 441-453 [doi]

GlobalMapper: Arbitrary-Shaped Urban Layout GenerationLiu He, Daniel G. Aliaga. 454-464 [doi]

Urban Radiance Field Representation with Deformable Neural Mesh PrimitivesFan Lu 0001, Yan Xu, Guang Chen 0001, Hongsheng Li, Kwan-Yee Lin, Changjun Jiang. 465-476 [doi]

End2End Multi-View Feature Matching with Differentiable Pose OptimizationBarbara Roessle, Matthias Nießner. 477-487 [doi]

Tree-Structured Shading DecompositionChen Geng 0001, Hong-Xing Yu, Sharon Zhang, Maneesh Agrawala, Jiajun Wu 0001. 488-498 [doi]

Lens Parameter Estimation for Realistic Depth of Field ModelingDominique Piché-Meunier, Yannick Hold-Geoffroy, Jianming Zhang 0001, Jean-François Lalonde. 499-508 [doi]

AttT2M: Text-Driven Human Motion Generation with Multi-Perspective Attention MechanismChongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia. 509-519 [doi]

Cross-modal Latent Space Alignment for Image to Avatar TranslationManuel Ladron de Guevara, Yannick Hold-Geoffroy, Jose Echevarria, Cameron Smith, Yijun Li, Daichi Ito. 520-529 [doi]

Computationally-Efficient Neural Image Compression with Shallow DecodersYibo Yang, Stephan Mandt. 530-540 [doi]

3D Instance Segmentation via Enhanced Spatial and Semantic SupervisionSalwa K. Al Khatib, Mohamed El Amine Boudjoghra, Jean Lahoud, Fahad Shahbaz Khan. 541-550 [doi]

Learning Neural Eigenfunctions for Unsupervised Semantic SegmentationZhijie Deng, Yucen Luo. 551-561 [doi]

Divide and Conquer: 3D Point Cloud Instance Segmentation With Point-Wise BinarizationWeiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang 0008, Kaizhu Huang. 562-571 [doi]

Point2Mask: Point-supervised Panoptic Segmentation via Optimal TransportWentong Li, Yuqian Yuan, Song Wang, Jianke Zhu, Jianshu Li, Jian Liu, Lei Zhang. 572-581 [doi]

Handwritten and Printed Text Segmentation: A Signature Case StudySina Gholamian, Ali Vahdat. 582-592 [doi]

Semantic-Aware Implicit Template Learning via Part Deformation ConsistencySihyeon Kim, Juyeon Ko, Minseok Joo, Juhan Cha, Jaewon Lee, Hyunwoo J. Kim. 593-603 [doi]

LeaF: Learning Frames for 4D Point Cloud Sequence UnderstandingYunze Liu, Junyu Chen, Zekai Zhang, Jingwei Huang, Li Yi. 604-613 [doi]

MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic SegmentationSanghyun Jo, In-Jae Yu, Kyungsu Kim. 614-623 [doi]

USAGE: A Unified Seed Area Generation Paradigm for Weakly Supervised Semantic SegmentationZelin Peng, Guanchun Wang, Lingxi Xie, Dongsheng Jiang, Wei Shen 0002, Qi Tian 0001. 624-634 [doi]

XMem++: Production-level Video Segmentation From Few Annotated FramesMaksym Bekuzarov, Ariana Bermudez, Joon-Young Lee, Hao Li 0015. 635-644 [doi]

ΣIGMA: Scale-Invariant Global Sparse Shape MatchingMaolin Gao, Paul Roetzer, Marvin Eisenberger, Zorah Lähner, Michael Möller 0001, Daniel Cremers, Florian Bernard. 645-654 [doi]

Self-Calibrated Cross Attention Network for Few-Shot SegmentationQianxiong Xu, Wenting Zhao 0001, Guosheng Lin, Cheng Long. 655-665 [doi]

Multi-granularity Interaction Simulation for Unsupervised Interactive SegmentationKehan Li 0002, Yian Zhao, Zhennan Wang, Zesen Cheng, Peng Jin, Xiangyang Ji, Li Yuan 0007, Chang Liu, Jie Chen 0001. 666-676 [doi]

Texture Learning Domain Randomization for Domain Generalized SegmentationSunghwan Kim, Dae-Hwan Kim, Hoseong Kim. 677-687 [doi]

Unsupervised Video Object Segmentation with Online Adversarial Self-TuningTiankang Su, Huihui Song, Dong Liu, Bo Liu, Qingshan Liu. 688-698 [doi]

Exploring Open-Vocabulary Semantic Segmentation from CLIP Vision Encoder Distillation OnlyJun Chen, Deyao Zhu, Guocheng Qian, Bernard Ghanem, Zhicheng Yan, Chenchen Zhu, Fanyi Xiao, Sean Chang Culatana, Mohamed Elhoseiny. 699-710 [doi]

RbA: Segmenting Unknown Regions Rejected by AllNazir Nayal, Misra Yavuz, João F. Henriques, Fatma Güney. 711-722 [doi]

Sempart: Self-supervised Multi-resolution Partitioning of Image SemanticsSriram Ravindran, Debraj Basu. 723-733 [doi]

Multi-Object Discovery by Low-Dimensional Object MotionSadra Safadoust, Fatma Güney. 734-744 [doi]

MemorySeg: Online LiDAR Semantic Segmentation with a Latent MemoryEnxu Li, Sergio Casas 0002, Raquel Urtasun. 745-754 [doi]

Treating Pseudo-labels Generation as Image Matting for Weakly Supervised Semantic SegmentationChangwei Wang, Rongtao Xu, Shibiao Xu, Weiliang Meng, Xiaopeng Zhang 0001. 755-765 [doi]

BoxSnake: Polygonal Instance Segmentation with Box SupervisionRui Yang, Lin Song, Yixiao Ge, Xiu Li 0001. 766-776 [doi]

Dynamic Token Pruning in Plain Vision Transformers for Semantic SegmentationQuan Tang 0001, Bowen Zhang, Jiajun Liu, Fagui Liu, Yifan Liu. 777-786 [doi]

Instance Neural Radiance FieldYichen Liu, Benran Hu, Junkai Huang, Yu-Wing Tai, Chi-Keung Tang. 787-796 [doi]

Global Knowledge Calibration for Fast Open-Vocabulary SegmentationKunyang Han, Yong Liu, Jun Hao Liew, Henghui Ding, Jiajun Liu, Yitong Wang, Yansong Tang, Yujiu Yang, Jiashi Feng, Yao Zhao, Yunchao Wei. 797-807 [doi]

Diffusion-based Image Translation with Label Guidance for Domain Adaptive Semantic SegmentationDuo Peng, Ping Hu, Qiuhong Ke, Jun Liu. 808-820 [doi]

Boosting Semantic Segmentation from the Perspective of Explicit Class EmbeddingsYuhe Liu, Chuanjian Liu, Kai Han 0002, Quan Tang 0001, Zengchang Qin. 821-831 [doi]

The Making and Breaking of CamouflageHala Lamdouar, Weidi Xie, Andrew Zisserman. 832-842 [doi]

CoinSeg: Contrast Inter- and Intra- Class Representations for Incremental SegmentationZekang Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei. 843-853 [doi]

Few-Shot Physically-Aware Articulated Mesh Generation via Hierarchical DeformationXueyi Liu, Bin Wang, He Wang 0010, Li Yi. 854-864 [doi]

HAL3D: Hierarchical Active Learning for Fine-Grained 3D Part LabelingFenggen Yu, Yiming Qian, Francisca Gil Ureta, Brian Jackson, Eric Bennett, Hao Zhang. 865-875 [doi]

FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object SegmentationTianyi Shi, Xiaohuan Ding, Liang Zhang, Xin Yang. 876-886 [doi]

MasQCLIP for Open-Vocabulary Universal Image SegmentationXin Xu, Tianyi Xiong, Zheng-ding, Zhuowen Tu. 887-898 [doi]

CTVIS: Consistent Training for Online Video Instance SegmentationKaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, Chunhua Shen. 899-908 [doi]

A Generalist Framework for Panoptic Segmentation of Images and VideosTing Chen, Lala Li, Saurabh Saxena, Geoffrey E. Hinton, David J. Fleet. 909-919 [doi]

Spectrum-guided Multi-granularity Referring Video Object SegmentationBo Miao, Mohammed Bennamoun, Yongsheng Gao 0001, Ajmal Mian. 920-930 [doi]

Space Engage: Collaborative Space Supervision for Contrastive-based Semi-Supervised Semantic SegmentationChangqi Wang, Haoyu Xie, Yuhui Yuan, Chong Fu, Xiangyu Yue. 931-942 [doi]

Adaptive Superpixel for Active Learning in Semantic SegmentationHoyoung Kim, Minhyeon Oh, Sehyun Hwang, Suha Kwak, Jungseul Ok. 943-953 [doi]

Multimodal Variational Auto-encoder based Audio-Visual SegmentationYuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai. 954-965 [doi]

Isomer: Isomerous Transformer for Zero-shot Video Object SegmentationYichen Yuan, Yifan Wang 0004, Lijun Wang, Xiaoqi Zhao, Huchuan Lu, Yu Wang, Weibo Su, Lei Zhang. 966-976 [doi]

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level SupervisionCheng-Kun Yang, Min-Hung Chen, Yung-Yu Chuang, Yen-Yu Lin. 977-987 [doi]

Foreground-Background Separation through Concept Distillation from Generative Image Foundation ModelsMischa Dombrowski, Hadrien Reynaud, Matthew Baugh, Bernhard Kainz. 988-998 [doi]

SegPrompt: Boosting Open-world Segmentation via Category-level Prompt LearningMuzhi Zhu, Hengtao Li, Hao Chen, Chengxiang Fan, Weian Mao, Chenchen Jing, Yifan Liu, Chunhua Shen. 999-1008 [doi]

Monte Carlo Linear Clustering with Single-Point Supervision is Enough for Infrared Small Target DetectionBoyang Li, Yingqian Wang, Longguang Wang, Fei Zhang, Ting Liu, Zaiping Lin, Wei An, Yulan Guo. 1009-1019 [doi]

A Simple Framework for Open-Vocabulary Segmentation and DetectionHao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianwei Yang, Lei Zhang. 1020-1031 [doi]

Source-free Depth for Object Pop-outZongwei Wu, Danda Pani Paudel, Deng-Ping Fan, Jingjing Wang, Shuo Wang 0010, Cédric Demonceaux, Radu Timofte, Luc Van Gool. 1032-1042 [doi]

DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive Segmentation TransformerAmit Kumar Rana, Sabarinath Mahadevan, Alexander Hermans, Bastian Leibe. 1043-1052 [doi]

Atmospheric Transmission and Thermal Inertia Induced Blind Road Segmentation with a Large-Scale Dataset TBRSDJunzhang Chen, Xiangzhi Bai. 1053-1063 [doi]

Informative Data Mining for One-shot Cross-Domain Semantic SegmentationYuxi Wang, Jian Liang, Jun Xiao 0005, Shuqi Mei, Yuran Yang, Zhaoxiang Zhang. 1064-1074 [doi]

Homography Guided Temporal Fusion for Road Line and Marking SegmentationShan Wang, Chuong Nguyen, Jiawei Liu, Kaihao Zhang, Wenhan Luo, Yanhao Zhang, Sundaram Muthu, Fahira Afzal Maken, Hongdong Li. 1075-1085 [doi]

Open-Vocabulary Semantic Segmentation with Decoupled One-Pass NetworkCong Han, Yujie Zhong, Dengjie Li, Kai Han, Lin Ma 0002. 1086-1096 [doi]

TCOVIS: Temporally Consistent Online Video Instance SegmentationJunlong Li, Bingyao Yu, Yongming Rao, Jie Zhou, Jiwen Lu. 1097-1107 [doi]

FPR: False Positive Rectification for Weakly Supervised Semantic SegmentationLiyi Chen, Chenyang Lei, Ruihuang Li, Shuai Li, Zhaoxiang Zhang, Lei Zhang. 1108-1118 [doi]

Stochastic Segmentation with Conditional Categorical Diffusion ModelsLukas Zbinden, Lars Doorenbos, Theodoros Pissas, Adrian Thomas Huber, Raphael Sznitman, Pablo Márquez-Neila. 1119-1129 [doi]

SegGPT: Towards Segmenting Everything In ContextXinlong Wang, Xiaosong Zhang, Yue Cao, Wen Wang, Chunhua Shen, Tiejun Huang 0003. 1130-1140 [doi]

Open-vocabulary Panoptic Segmentation with Embedding ModulationXi Chen, Shuang Li, Ser-Nam Lim, Antonio Torralba 0001, Hengshuang Zhao. 1141-1150 [doi]

Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic SegmentationYuyuan Liu, Choubo Ding, Yu Tian 0001, Guansong Pang, Vasileios Belagiannis, Ian D. Reid 0001, Gustavo Carneiro 0001. 1151-1161 [doi]

Zero-guidance Segmentation Using Zero Segment LabelsPitchaporn Rewatbowornwong, Nattanat Chatthee, Ekapol Chuangsuwanich, Supasorn Suwajanakorn. 1162-1172 [doi]

Model Calibration in Dense Classification with Adaptive Label PerturbationJiawei Liu, Changkun Ye, Shan Wang, Ruikai Cui, Jing Zhang, Kaihao Zhang, Nick Barnes. 1173-1184 [doi]

Enhanced Soft Label for Semi-Supervised Semantic SegmentationJie Ma, Chuan Wang, Yang Liu, Liang Lin, Guanbin Li. 1185-1195 [doi]

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic SegmentationKaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin Li, Guangrun Wang, Xiaodan Liang. 1196-1205 [doi]

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion ModelsWeijia Wu, YuZhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen. 1206-1217 [doi]

Alignment Before Aggregation: Trajectory Memory Retrieval Network for Video Object SegmentationRui Sun, Yuan Wang, Huayu Mai, Tianzhu Zhang, Feng Wu. 1218-1228 [doi]

Semi-Supervised Semantic Segmentation under Label Noise via Diverse Learning GroupsPeixia Li, Pulak Purkait, Thalaiyasingam Ajanthan, Majid Abdolshah, Ravi Garg, Hisham Husain, Chenchen Xu, Stephen Gould, Wanli Ouyang, Anton van den Hengel. 1229-1238 [doi]

SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal TargetsCody Simons, Dripta S. Raychaudhuri, Sk Miraj Ahmed, Suya You, Konstantinos Karydis, Amit K. Roy Chowdhury. 1239-1249 [doi]

Class-incremental Continual Learning for Instance Segmentation with Image-level Weak SupervisionYu-Hsing Hsieh, Guan-Sheng Chen, Shun-Xian Cai, Ting-Yun Wei, Huei-Fang Yang, Chu-Song Chen. 1250-1261 [doi]

Coarse-to-Fine Amodal Segmentation with Shape PriorJianxiong Gao, Xuelin Qian, Yikai Wang 0002, Tianjun Xiao, Tong He, Zheng Zhang 0001, Yanwei Fu. 1262-1271 [doi]

Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric RepresentationKe-fan, Jingshi Lei, Xuelin Qian, Miaopeng Yu, Tianjun Xiao, Tong He, Zheng Zhang 0001, Yanwei Fu. 1272-1281 [doi]

DVIS: Decoupled Video Instance Segmentation FrameworkTao Zhang, Xingye Tian, Yu Wu, Shunping Ji, Xuebo Wang, Yuan Zhang, Pengfei Wan. 1282-1291 [doi]

3D Segmentation of Humans in Point Clouds with Synthetic DataAyça Takmaz, Jonas Schult, Irem Kaftan, Mertcan Akçay, Bastian Leibe, Robert W. Sumner, Francis Engelmann, Siyu Tang 0001. 1292-1304 [doi]

WaterMask: Instance Segmentation for Underwater ImageryShijie Lian, Hua Li, Runmin Cong, Suqi Li, Wei Zhang, Sam Kwong. 1305-1315 [doi]

Tracking Anything with Decoupled Video SegmentationHo Kei Cheng, Seoung Wug Oh, Brian Price, Alexander G. Schwing, Joon-Young Lee. 1316-1326 [doi]

Cross Contrasting Feature Perturbation for Domain GeneralizationChenming Li, Daoan Zhang, Wenjian Huang, Jianguo Zhang. 1327-1337 [doi]

Flexible Visual Recognition by Evidential Modeling of Confusion and IgnoranceLei Fan, Bo Liu 0043, Haoxiang Li, Ying Wu, Gang Hua 0001. 1338-1347 [doi]

CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image ClassificationRabab Abdelfattah, Qing Guo 0005, Xiaoguang Li, Xiaofeng Wang, Song Wang. 1348-1357 [doi]

RankMixup: Ranking-Based Mixup Training for Network CalibrationJongyoun Noh, Hyekang Park, Junghyup Lee, Bumsub Ham. 1358-1368 [doi]

Label-Noise Learning with Intrinsically Long-Tailed DataYang Lu, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang. 1369-1378 [doi]

Parallel Attention Interaction Network for Few-Shot Skeleton-based Action RecognitionXingyu Liu, Sanping Zhou, Le Wang 0003, Gang Hua 0001. 1379-1388 [doi]

Rethinking Mobile Block for Efficient Attention-based ModelsJiangning Zhang, Xiangtai Li, Jian Li, Liang Liu 0007, Zhucun Xue, Boshen Zhang, Zhengkai Jiang 0001, Tianxin Huang, Yabiao Wang, Chengjie Wang. 1389-1400 [doi]

Read-only Prompt Optimization for Vision-Language Few-shot LearningDongjun Lee, Seokwon Song, Jihee Suh, Joonmyeong Choi, Sanghyeok Lee, Hyunwoo J. Kim. 1401-1411 [doi]

Understanding Self-attention Mechanism via Dynamical System PerspectiveZhongzhan Huang, Mingfu Liang, Jinghui Qin, ShanShan Zhong, Liang Lin. 1412-1422 [doi]

Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial LabelsWenqiao Zhang, Changshuo Liu, Lingze Zeng, Beng Chin Ooi, Siliang Tang, Yueting Zhuang. 1423-1432 [doi]

What do neural networks learn in image classification? A frequency shortcut perspectiveShunxin Wang, Raymond N. J. Veldhuis, Christoph Brune, Nicola Strisciuglio. 1433-1442 [doi]

Inducing Neural Collapse to a Fixed Hierarchy-Aware Frame for Reducing Mistake SeverityTong Liang, Jim Davis. 1443-1452 [doi]

Unified Out-Of-Distribution Detection: A Model-Specific PerspectiveReza Averly, Wei-Lun Chao. 1453-1463 [doi]

A Unified Framework for Robustness on Diverse Sampling ErrorsMyeongho Jeon, Myungjoo Kang, Joonseok Lee. 1464-1472 [doi]

Scene-Aware Label Graph Learning for Multi-Label Image ClassificationXuelin Zhu, Jian Liu, Weijia Liu, Jiawei Ge, Bo Liu, Jiuxin Cao. 1473-1482 [doi]

Holistic Label Correction for Noisy Multi-Label ClassificationXiaobo Xia, Jiankang deng, Wei Bao, Yuxuan Du, Bo Han, Shiguang Shan, Tongliang Liu. 1483-1493 [doi]

Strip-MLP: Efficient Token Interaction for Vision MLPGuiping Cao, Shengda Luo, Wenjian Huang, Xiangyuan Lan, Dongmei Jiang, Yaowei Wang, Jianguo Zhang. 1494-1504 [doi]

EQ-Net: Elastic Quantization Neural NetworksKe Xu, Lei Han, Ye Tian, Shangshang Yang, Xingyi Zhang. 1505-1514 [doi]

Data-free Knowledge Distillation for Fine-grained Visual CategorizationRenrong Shao, Wei Zhang, Jianhua Yin, Jun Wang. 1515-1525 [doi]

Shift from Texture-bias to Shape-bias: Edge Deformation-based Augmentation for Robust Object RecognitionXilin He, Qinliang Lin, Cheng Luo, Weicheng Xie 0001, Siyang Song, Feng Liu, LinLin Shen. 1526-1535 [doi]

Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression RecognitionIsack Lee, Eungi Lee, Seok Bong Yoo. 1536-1546 [doi]

DR-Tune: Improving Fine-tuning of Pretrained Visual Models by Distribution Regularization with Semantic CalibrationNan Zhou, Jiaxin Chen, Di Huang 0001. 1547-1556 [doi]

Understanding the Feature Norm for Out-of-Distribution DetectionJaewoo Park, Jacky Chen Long Chai, Jaeho Yoon, Andrew Beng Jin Teoh. 1557-1567 [doi]

Multi-View Active Fine-Grained Visual RecognitionRuoyi Du, Wenqing Yu, Heqing Wang, Ting-En Lin, Dongliang Chang, Zhanyu Ma. 1568-1578 [doi]

DiffGuard: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion ModelsRuiyuan Gao 0001, Chenchen Zhao, Lanqing Hong, Qiang Xu 0001. 1579-1589 [doi]

Task-aware Adaptive Learning for Cross-domain Few-shot LearningYurong Guo, Ruoyi Du, Yuan Dong, Timothy M. Hospedales, Yi-Zhe Song, Zhanyu Ma. 1590-1599 [doi]

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain PromptingQidong Huang, Xiaoyi Dong, Dongdong Chen 0001, Yinpeng Chen, Lu Yuan, Gang Hua 0001, Weiming Zhang 0001, Nenghai Yu. 1600-1610 [doi]

Saliency Regularization for Self-Training with Partial AnnotationsShouwen Wang, Qian Wan, Xiang Xiang, Zhigang Zeng. 1611-1620 [doi]

Learning Gabor Texture Features for Fine-Grained RecognitionLanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, Jun Liu. 1621-1631 [doi]

UniFormerV2: Unlocking the Potential of Image ViTs for Video UnderstandingKunchang Li, Yali Wang, Yinan He, Yizhuo Li 0001, Yi Wang, Limin Wang, Yu Qiao 0001. 1632-1643 [doi]

RankMatch: Fostering Confidence and Consistency in Learning with Noisy LabelsZiyi Zhang, Weikai Chen 0001, Chaowei Fang, Zhen Li, Lechao Chen, Liang Lin, Guanbin Li. 1644-1654 [doi]

MetaGCD: Learning to Continually Learn in Generalized Category DiscoveryYanan Wu, Zhixiang Chi, Yang Wang, Songhe Feng. 1655-1665 [doi]

FerKD: Surgical Label Adaptation for Efficient DistillationZhiqiang Shen. 1666-1675 [doi]

Point-Query Quadtree for Crowd Counting, Localization, and MoreChengxin Liu, Hao Lu, Zhiguo Cao 0001, Tongliang Liu. 1676-1685 [doi]

Nearest Neighbor Guidance for Out-of-Distribution DetectionJaewoo Park, Yoon Gyo Jung, Andrew Beng Jin Teoh. 1686-1695 [doi]

Bayesian Optimization Meets Self-DistillationHyunjae Lee, Heon Song, Hyeonsoo Lee, GiHyeon Lee, Suyeong Park, Donggeun Yoo. 1696-1705 [doi]

When Prompt-based Incremental Learning Does Not Meet Strong PretrainingYu-Ming Tang, Yi-Xing Peng, Wei-Shi Zheng 0001. 1706-1716 [doi]

When to Learn What: Model-Adaptive Data Augmentation CurriculumChengkai Hou, Jieyu Zhang, Tianyi Zhou. 1717-1728 [doi]

Parametric Information Maximization for Generalized Category DiscoveryFlorent Chiaroni, Jose Dolz, Imtiaz Masud Ziko, Amar Mitiche, Ismail Ben Ayed. 1729-1739 [doi]

Boosting Few-shot Action Recognition with Graph-guided Hybrid MatchingJiazheng Xing, Mengmeng Wang, Yudi Ruan, Bofan Chen, Yaowei Guo, Boyu Mu, Guang Dai, Jingdong Wang 0001, Yong Liu 0007. 1740-1750 [doi]

Domain Generalization via Rationale InvarianceLiang Chen, Yong Zhang, Yibing Song, Anton van den Hengel, Lingqiao Liu. 1751-1760 [doi]

Masked Spiking TransformerZiqing Wang, Yuetong Fang, Jiahang Cao, Qiang Zhang, Zhongrui Wang, Renjing Xu. 1761-1771 [doi]

Prototype Reminiscence and Augmented Asymmetric Knowledge Aggregation for Non-Exemplar Class-Incremental LearningWuxuan Shi, Mang Ye. 1772-1781 [doi]

Distilled Reverse Attention Network for Open-world Compositional Zero-Shot LearningYun Li, Zhe Liu, Saurav Jha, Lina Yao 0001. 1782-1791 [doi]

Candidate-aware Selective Disambiguation Based On Normalized Entropy for Instance-dependent Partial-label LearningShuo He 0001, Guowu Yang, Lei Feng 0006. 1792-1801 [doi]

CLIPN for Zero-Shot OOD Detection: Teaching CLIP to Say NoHualiang Wang, Yi Li, Huifeng Yao, Xiaomeng Li. 1802-1812 [doi]

Self-similarity Driven Scale-invariant Learning for Weakly Supervised Person SearchBenzhi Wang, Yang Yang 0062, Jinlin Wu, Guo-Jun Qi, Zhen Lei 0001. 1813-1822 [doi]

Sample-wise Label Confidence Incorporation for Learning with Noisy LabelsChanho Ahn, Kikyung Kim, Ji Won Baek, Jongin Lim 0002, Seungju Han. 1823-1832 [doi]

Combating Noisy Labels with Sample Selection by Mining High-Discrepancy ExamplesXiaobo Xia, Bo Han 0003, Yibing Zhan, Jun Yu 0001, Mingming Gong, Chen Gong 0002, Tongliang Liu. 1833-1843 [doi]

Spatial-Aware Token for Weakly Supervised Object LocalizationPingyu Wu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha. 1844-1854 [doi]

Towards Improved Input Masking for Convolutional Neural NetworksSriram Balasubramanian, Soheil Feizi. 1855-1865 [doi]

PDiscoNet: Semantically consistent part discovery for fine-grained recognitionRobert van der Klis, Stephan Alaniz, Massimiliano Mancini, Cássio Fraga Dantas, Dino Ienco, Zeynep Akata, Diego Marcos. 1866-1876 [doi]

Corrupting Neuron Explanations of Deep Visual FeaturesDivyansh Srivastava, Tuomas P. Oikarinen, Tsui-Wei Weng. 1877-1886 [doi]

ICICLE: Interpretable Class Incremental Continual LearningDawid Rymarczyk, Joost van de Weijer 0001, Bartosz Zielinski 0001, Bartlomiej Twardowski. 1887-1898 [doi]

ProbVLM: Probabilistic Adapter for Frozen Vison-Language ModelsUddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata. 1899-1910 [doi]

Out-of-Distribution Detection for Monocular Depth EstimationJulia Hornauer, Adrian Holzbock, Vasileios Belagiannis. 1911-1921 [doi]

Studying How to Efficiently and Effectively Guide Models with ExplanationsSukrut Rao, Moritz Böhle, Amin Parchami-Araghi, Bernt Schiele. 1922-1933 [doi]

Rosetta Neurons: Mining the Common Units in a Model ZooAmil Dravid, Yossi Gandelsman, Alexei A. Efros, Assaf Shocher. 1934-1943 [doi]

Prototype-based Dataset ComparisonNanne van Noord. 1944-1954 [doi]

Learning to Identify Critical States for Reinforcement Learning from VideosHaozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, Jürgen Schmidhuber. 1955-1965 [doi]

Leaping Into Memories: Space-Time Deep Feature SynthesisAlexandros Stergiou, Nikos Deligiannis. 1966-1976 [doi]

MAGI: Multi-Annotated Explanation-Guided LearningYifei Zhang, Siyi Gu, Yuyang Gao, Bo Pan, Xiaofeng Yang 0005, Liang Zhao 0002. 1977-1987 [doi]

SAFARI: Versatile and Efficient Evaluations for Robustness of InterpretabilityWei Huang, Xingyu Zhao 0001, Gaojie Jin, Xiaowei Huang. 1988-1998 [doi]

Do DALL-E and Flamingo Understand Each Other?Hang Li 0010, Jindong Gu, Rajat Koner, Sahand Sharifzadeh, Volker Tresp. 1999-2010 [doi]

Evaluation and Improvement of Interpretability for Self-Explainable Part-Prototype NetworksQihan Huang, Mengqi Xue, Wenqi Huang, Haofei Zhang, Jie Song, Yongcheng Jing, Mingli Song. 2011-2020 [doi]

MoreauGrad: Sparse and Robust Interpretation of Neural Networks via Moreau EnvelopeJingwei Zhang, Farzan Farnia. 2021-2030 [doi]

Towards Understanding the Generalization of Deepfake Detectors from a Game-Theoretical ViewKelu Yao, Jin Wang, Boyu Diao, Chao Li 0028. 2031-2041 [doi]

Counterfactual-based Saliency Map: Towards Visual Contrastive Explanations for Neural NetworksXue Wang, Zhibo Wang 0001, Haiqin Weng, Hengchang Guo, Zhifei Zhang, Lu Jin, Tao Wei, Kui Ren 0001. 2042-2051 [doi]

Beyond Single Path Integrated Gradients for Reliable Input Attribution via Randomized Path SamplingGiyoung Jeon, Haedong Jeong, Jaesik Choi. 2052-2061 [doi]

Learning Support and Trivial Prototypes for Interpretable Image ClassificationChong Wang, Yuyuan Liu, Yuanhong Chen, Fengbei Liu, Yu Tian 0001, Davis J. McCarthy, Helen Frazer, Gustavo Carneiro 0001. 2062-2072 [doi]

Visual Explanations via Iterated Integrated AttributionsOren Barkan, Yehonatan Elisha, Yuval Asher, Amit Eshel, Noam Koenigstein. 2073-2084 [doi]

Unsupervised Compositional Concepts Discovery with Text-to-Image Generative ModelsNan Liu 0010, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba 0001. 2085-2095 [doi]

Human Preference Score: Better Aligning Text-to-image Models with Human PreferenceXiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li. 2096-2105 [doi]

DLT: Conditioned layout generation with Joint Discrete-Continuous Diffusion Layout TransformerElad Levi, Eli Brosh, Mykola Mykhailych, Meir Perez. 2106-2115 [doi]

Anti-DreamBooth: Protecting users from personalized text-to-image synthesisThanh Van Le, Hao Phung, Thuan Hoang Nguyen, Quan Dao, Ngoc N. Tran, Anh Tuan Tran 0001. 2116-2127 [doi]

GECCO: Geometrically-Conditioned Point Diffusion ModelsMichal J. Tyszkiewicz, Pascal Fua, Eduard Trulls. 2128-2138 [doi]

DiffDreamer: Towards Consistent Unsupervised Single-view Scene Extrapolation with Conditional Diffusion ModelsShengqu Cai, Eric Ryan Chan, Songyou Peng, Mohamad Shahbazi, Anton Obukhov, Luc Van Gool, Gordon Wetzstein. 2139-2150 [doi]

Guided Motion Diffusion for Controllable Human Motion SynthesisKorrawe Karunratanakul, Konpat Preechakul, Supasorn Suwajanakorn, Siyu Tang 0001. 2151-2162 [doi]

COOP: Decoupling and Coupling of Whole-Body Grasping Pose GenerationYanzhao Zheng, Yunzhou Shi, Yuhao Cui, Zhongzhou Zhao, Zhiling Luo, Wei Zhou. 2163-2173 [doi]

Zero-shot spatial layout conditioning for text-to-image diffusion modelsGuillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek. 2174-2183 [doi]

StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain AdaptationAibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry P. Vetrov. 2184-2194 [doi]

GRAM-HD: 3D-Consistent Image Generation at High Resolution with Generative Radiance ManifoldsJianfeng Xiang, Jiaolong Yang, Yu Deng 0006, Xin Tong 0001. 2195-2205 [doi]

Your Diffusion Model is Secretly a Zero-Shot ClassifierAlexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak. 2206-2217 [doi]

Learning Hierarchical Features with Joint Latent Space Energy-Based PriorJiali Cui, Ying Nian Wu, Tian Han 0001. 2218-2227 [doi]

ActFormer: A GAN-based Transformer towards General Action-Conditioned 3D Human Motion GenerationLiang Xu, Ziyang Song, Dongliang Wang, Jing Su, Zhicheng Fang, Chenjing Ding, Weihao Gan, Yichao Yan, Xin Jin, Xiaokang Yang, Wenjun Zeng, Wei Wu 0021. 2228-2238 [doi]

Landscape Learning for Neural Network InversionRuoshi Liu, Chengzhi Mao, Purva Tendulkar, Hao Wang, Carl Vondrick. 2239-2250 [doi]

Diffusion in StyleMartin Nicolas Everaert, Marco Bocchio, Sami Arpa, Sabine Süsstrunk, Radhakrishna Achanta. 2251-2261 [doi]

Diffusion-SDF: Conditional Generative Modeling of Signed Distance FunctionsGene Chou, Yuval Bahat, Felix Heide. 2262-2272 [doi]

GETAvatar: Generative Textured Meshes for Animatable Human AvatarsXuanmeng Zhang, Jianfeng Zhang, Rohan Chacko, Hongyi Xu, Guoxian Song, Yi Yang, Jiashi Feng. 2273-2282 [doi]

A-STAR: Test-time Attention Segregation and Retention for Text-to-image SynthesisAishwarya Agarwal, Srikrishna Karanam, K. J. Joseph, Apoorv Saxena, Koustava Goswami, Balaji Vasan Srinivasan. 2283-2293 [doi]

TF-ICON: Diffusion-Based Training-Free Cross-Domain Image CompositionShilin Lu, Yanzhu Liu, Adams Wai-Kin Kong. 2294-2305 [doi]

Breaking The Limits of Text-conditioned 3D Motion Synthesis with Elaborative DescriptionsYijun Qian, Jack Urbanek, Alexander G. Hauptmann, Jungdam Won. 2306-2316 [doi]

BeLFusion: Latent Diffusion for Behavior-Driven Human Motion PredictionGermán Barquero, Sergio Escalera, Cristina Palmero. 2317-2327 [doi]

Delta Denoising ScoreAmir Hertz, Kfir Aberman, Daniel Cohen-Or. 2328-2337 [doi]

Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D ImitationXingyu Chen, Yu Deng, Baoyuan Wang. 2338-2348 [doi]

DreamBooth3D: Subject-Driven Text-to-3D GenerationAmit Raj, Srinivas Kaza, Ben Poole, Michael Niemeyer, Nataniel Ruiz, Ben Mildenhall, Shiran Zada, Kfir Aberman, Michael Rubinstein, Jonathan T. Barron, Yuanzhen Li, Varun Jampani. 2349-2359 [doi]

Feature Proliferation - the "Cancer" in StyleGAN and its TreatmentsShuang Song, Yuanbang Liang, Jing Wu, Yu-Kun Lai, Yipeng Qin. 2360-2370 [doi]

Unsupervised Facial Performance Editing via Vector-Quantized StyleGAN RepresentationsBerkay Kicanaoglu, Pablo Garrido 0001, Gaurav Bharaj. 2371-2382 [doi]

3D-aware Image Generation using 2D Diffusion ModelsJianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong 0001. 2383-2393 [doi]

Neural Collage Transfer: Artistic Reconstruction via Material ManipulationGanghun Lee, Minji Kim 0005, Yunsu Lee, Minsu Lee, Byoung-Tak Zhang. 2394-2405 [doi]

Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model AdaptionTeng Hu, Jiangning Zhang, Liang Liu, Ran Yi, Siqi Kou, Haokun Zhu, Xu Chen, Yabiao Wang, Chengjie Wang, Lizhuang Ma. 2406-2415 [doi]

Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and ReconstructionHansheng Chen 0001, Jiatao Gu, Anpei Chen, Wei Tian 0001, Zhuowen Tu, Lingjie Liu, Hao Su 0001. 2416-2425 [doi]

Erasing Concepts from Diffusion ModelsRohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau. 2426-2436 [doi]

Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware EncodingZiyang Yuan, Yiming Zhu, Yu Li 0003, Hongyu Liu, Chun Yuan. 2437-2447 [doi]

HairNeRF: Geometry-Aware Image Synthesis for Hairstyle TransferSeunggyu Chang, Gihoon Kim, Hayeon Kim. 2448-2458 [doi]

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-trainingYuanze Lin, Chen Wei 0005, Huiyu Wang, Alan L. Yuille, Cihang Xie. 2459-2469 [doi]

DiffusionRet: Generative Text-Video Retrieval with Diffusion ModelPeng Jin 0001, Hao Li, Zesen Cheng, Kehan Li 0002, Xiangyang Ji, Chang Liu, Li Yuan 0007, Jie Chen 0001. 2470-2481 [doi]

Explore and Tell: Embodied Visual Captioning in 3D EnvironmentsAnwen Hu, Shizhe Chen, Liang Zhang, Qin Jin. 2482-2491 [doi]

Distilling Large Vision-Language Model with Out-of-Distribution GeneralizabilityXuanlin Li, Yunhao Fang, Minghua Liu, Zhan Ling, Zhuowen Tu, Hao Su 0001. 2492-2503 [doi]

Learning Trajectory-Word Alignments for Video-Language TasksXu Yang, Zhangzikang Li, Haiyang Xu, Hanwang Zhang, Qinghao Ye, Chenliang Li, Ming Yan, Yu Zhang, Fei Huang, Songfang Huang. 2504-2514 [doi]

Variational Causal Inference Network for Explanatory Visual Question AnsweringDizhan Xue, Shengsheng Qian, Changsheng Xu. 2515-2525 [doi]

TextManiA: Enriching Visual Feature by Text-driven Manifold AugmentationMoon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae Hyun Oh. 2526-2537 [doi]

Segment Every Reference Object in Spatial and Temporal SpacesJiannan Wu, Yi Jiang, Bin Yan 0004, Huchuan Lu, Zehuan Yuan, Ping Luo. 2538-2550 [doi]

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language ModelsJuncheng Li, Minghe Gao, Longhui Wei, Siliang Tang, Wenqiao Zhang, Mengze Li 0001, Wei Ji, Qi Tian, Tat-Seng Chua, Yueting Zhuang. 2551-2562 [doi]

Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image PretrainingBumsoo Kim, Yeonsik Jo, Jinhyung Kim, Seung Hwan Kim. 2563-2572 [doi]

Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical KnowledgeYifeng Zhang, Shi Chen, Qi Zhao. 2573-2583 [doi]

VL-Match: Enhancing Vision-Language Pretraining with Token-Level and Instance-Level MatchingJunyu Bi, Daixuan Cheng, Ping Yao, Bochen Pang, Yuefeng Zhan, Chuanguang Yang, Yujing Wang, Hao Sun, Weiwei Deng, Qi Zhang. 2584-2593 [doi]

Moment Detection in Long Tutorial VideosIoana Croitoru, Simion-Vlad Bogolin, Samuel Albanie, Yang Liu, Zhaowen Wang, Seunghyun Yoon 0002, Franck Dernoncourt, Hailin Jin, Trung Bui. 2594-2604 [doi]

Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior RefinementXiangyang Zhu, Renrui Zhang, Bowei He, Aojun Zhou, Dong Wang, Bin Zhao, Peng Gao 0007. 2605-2615 [doi]

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional ImagesNitzan Bitton Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz 0001. 2616-2627 [doi]

Advancing Referring Expression Segmentation Beyond Single ImageYixuan Wu, Zhao Zhang, Chi Xie, Feng Zhu, Rui Zhao. 2628-2638 [doi]

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world LearningXiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Ziyao Zeng, Zipeng Qin, Shanghang Zhang, Peng Gao. 2639-2650 [doi]

Unsupervised Prompt Tuning for Text-Driven Object DetectionWeizhen He, Weijie Chen, Binbin Chen, Shicai Yang, Di Xie, Luojun Lin, Donglian Qi, Yueting Zhuang. 2651-2661 [doi]

Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual GroundingZehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao. 2662-2671 [doi]

I can't believe there's no images! : Learning Visual Tasks Using Only Language SupervisionSophia Gu, Christopher Clark, Aniruddha Kembhavi. 2672-2683 [doi]

Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited SamplesGuanghui Li, Mingqi Gao 0004, Heng Liu, Xiantong Zhen, Feng Zheng. 2684-2693 [doi]

MeViS: A Large-scale Benchmark for Video Segmentation with Motion ExpressionsHenghui Ding, Chang Liu 0072, Shuting He, Xudong Jiang 0001, Chen Change Loy. 2694-2703 [doi]

Diverse Data Augmentation with Diffusions for Effective Test-time Prompt TuningChun-Mei Feng, Kai Yu 0009, Yong Liu, Salman Khan, Wangmeng Zuo. 2704-2714 [doi]

ShapeScaffolder: Structure-Aware 3D Shape Generation from TextXi Tian, Yong-Liang Yang, Qi Wu. 2715-2724 [doi]

SuS-X: Training-Free Name-Only Transfer of Vision-Language ModelsVishaal Udandarao, Ankush Gupta, Samuel Albanie. 2725-2736 [doi]

X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual GuidanceYiwei Ma, Haowei Wang, Xiaoqing Zhang, Guannan Jiang, Xiaoshuai Sun, Weilin Zhuang, Jiayi Ji, Rongrong Ji. 2737-2748 [doi]

OnlineRefer: A Simple Online Baseline for Referring Video Object SegmentationDongming Wu, Tiancai Wang, Yuang Zhang, Xiangyu Zhang, Jianbing Shen. 2749-2758 [doi]

Attentive Mask CLIPYifan Yang, Weiquan Huang, Yixuan Wei, Houwen Peng, Xinyang Jiang, Huiqiang Jiang, Fangyun Wei, Yin Wang, Han Hu 0001, Lili Qiu, Yuqing Yang 0001. 2759-2769 [doi]

Knowledge Proxy Intervention for Deconfounded Video Question AnsweringJiangtong Li, Li Niu 0002, Liqing Zhang 0001. 2770-2781 [doi]

UniVTG: Towards Unified Video-Language Temporal GroundingKevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou. 2782-2792 [doi]

Self-supervised Cross-view Representation Reconstruction for Change CaptioningYunbin Tu, Liang Li, Li Su 0003, Zheng-Jun Zha, Chenggang Yan 0001, Qingming Huang. 2793-2803 [doi]

Unified Coarse-to-Fine Alignment for Video-Text RetrievalZiyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal. 2804-2815 [doi]

Confidence-aware Pseudo-label Learning for Weakly Supervised Visual GroundingYang Liu, Jiahua Zhang, Qingchao Chen, Yuxin Peng. 2816-2826 [doi]

TextPSG: Panoptic Scene Graph Generation from Textual DescriptionsChengyang Zhao, Yikang Shen, Zhenfang Chen, Mingyu Ding, Chuang Gan. 2827-2838 [doi]

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language KnowledgeWei Lin 0019, Leonid Karlinsky, Nina Shvetsova, Horst Possegger, Mateusz Kozinski, Rameswar Panda, Rogério Feris, Hilde Kuehne, Horst Bischof. 2839-2850 [doi]

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report GenerationYaowei Li, Bang Yang, Xuxin Cheng, Zhihong Zhu, Hongxiang Li, Yuexian Zou. 2851-2862 [doi]

CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine TranslationDevaansh Gupta, Siddhant Kharbanda, Jiawei Zhou, Wanhua Li 0001, Hanspeter Pfister, Donglai Wei 0001. 2863-2874 [doi]

Learning Human-Human Interactions in Images from Weak Textual SupervisionMorris Alper, Hadar Averbuch-Elor. 2875-2887 [doi]

BUS : Efficient and Effective Vision-language Pre-training with Bottom-Up Patch SummarizationChaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang. 2888-2898 [doi]

3D-VisTA: Pre-trained Transformer for 3D Vision and Text AlignmentZiyu Zhu, Xiaojian Ma, Yixin Chen 0003, Zhidong Deng, Siyuan Huang 0001, Qing Li 0003. 2899-2909 [doi]

ALIP: Adaptive Language-Image Pre-training with Synthetic CaptionKaicheng Yang, Jiankang deng, Xiang An, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang 0038, Tongliang Liu. 2910-2919 [doi]

LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language ModelsCheng Shi, Sibei Yang. 2920-2929 [doi]

Noise-aware Learning from Web-crawled Image-Text Data for Image CaptioningWooyoung Kang, Jonghwan Mun, SungJun Lee, Byungseok Roh. 2930-2940 [doi]

Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question AnsweringZi Qian, Xin Wang, Xuguang Duan, Pengda Qin, Yuhong Li, Wenwu Zhu 0001. 2941-2950 [doi]

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo. 2951-2963 [doi]

Grounded Image Text Matching with Mismatched Relation ReasoningYu Wu, Yana Wei, Haozhe Wang, Yongfei Liu, Sibei Yang, Xuming He 0001. 2964-2975 [doi]

GePSAn: Generative Procedure Step Anticipation in Cooking VideosMohamed Ashraf Abdelsalam, Samrudhdhi B. Rangrej, Isma Hadji, Nikita Dvornik, Konstantinos G. Derpanis, Afsaneh Fazly. 2976-2985 [doi]

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language ModelsChan Hee Song, Brian M. Sadler, Jiaman Wu, Wei-Lun Chao, Clayton Washington, Yu Su 0001. 2986-2997 [doi]

VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity ControlZi-Yuan Hu, Yanyang Li, Michael R. Lyu, Liwei Wang. 2998-3008 [doi]

With a Little Help from your own Past: Prototypical Memory Networks for Image CaptioningManuele Barraco, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara. 3009-3019 [doi]

DALL-EVAL: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation ModelsJaemin Cho 0001, Abhay Zala, Mohit Bansal. 3020-3031 [doi]

Learning Navigational Visual Representations with Semantic Map SupervisionYicong Hong, Yang Zhou, Ruiyi Zhang, Franck Dernoncourt, Trung Bui, Stephen Gould, Hao Tan 0002. 3032-3044 [doi]

CoTDet: Affordance Knowledge Prompting for Task Driven Object DetectionJiajin Tang, Ge Zheng, Jingyi Yu, Sibei Yang. 3045-3055 [doi]

Open Set Video HOI detection from Action-centric Chain-of-Look PromptingNan Xi, Jingjing Meng, Junsong Yuan. 3056-3066 [doi]

Learning Concise and Descriptive Attributes for Visual RecognitionAn Yan 0003, Yu Wang, Yiwu Zhong, Chengyu Dong, Zexue He, Yujie Lu, William Yang Wang, Jingbo Shang, Julian J. McAuley. 3067-3077 [doi]

Open-Vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering ModelsDohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J. Kim. 3078-3089 [doi]

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categoriesThomas Mensink, Jasper R. R. Uijlings, Lluís Castrejón, Arushi Goel, Felipe Cadar, Howard Zhou, Fei Sha, André Araujo, Vittorio Ferrari. 3090-3101 [doi]

Story Visualization by Online Text Augmentation with Context MemoryDaechul Ahn, Daneul Kim, Gwangmo Song, Seung Hwan Kim, Honglak Lee, Dongyeop Kang, Jonghyun Choi. 3102-3112 [doi]

Transferable Decoding with Visual Entities for Zero-Shot Image CaptioningJunjie Fei, Teng Wang, Jinrui Zhang, Zhenyu He 0001, Chengjie Wang, Feng Zheng. 3113-3123 [doi]

Too Large; Data Reduction for Vision-Language Pre-TrainingAlex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan Weixian Lei, Mike Zheng Shou. 3124-3134 [doi]

ViLTA: Enhancing Vision-Language Pre-training through Textual AugmentationWeihan Wang, Zhen Yang, Bin Xu, Juanzi Li, Yankui Sun. 3135-3146 [doi]

Teaching CLIP to Count to TenRoni Paiss, Ariel Ephrat, Omer Tov, Shiran Zada, Inbar Mosseri, Michal Irani, Tali Dekel. 3147-3157 [doi]

Learning a More Continuous Zero Level Set in Unsigned Distance Fields through Level Set ProjectionJunsheng Zhou, Baorui Ma, Shujuan Li, Yu-Shen Liu, Zhizhong Han. 3158-3169 [doi]

Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer with Mixture-of-View-ExpertsWenyan Cong, Hanxue Liang, Peihao Wang, Zhiwen Fan, Tianlong Chen, Mukund Varma T, Yi Wang, Zhangyang Wang. 3170-3181 [doi]

MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering and BeyondYixuan Li 0002, Lihan Jiang, Linning Xu, Yuanbo Xiangli, Zhenzhi Wang 0001, Dahua Lin, Bo Dai 0002. 3182-3192 [doi]

R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple CamerasAron Schmied, Tobias Fischer 0004, Martin Danelljan, Marc Pollefeys, Fisher Yu 0001. 3193-3203 [doi]

ClimateNeRF: Extreme Weather Synthesis in Neural Radiance FieldYuan Li, Zhi-hao Lin, David A. Forsyth, Jia-Bin Huang 0001, Shenlong Wang. 3204-3215 [doi]

Rendering Humans from Object-Occluded Monocular VideosTiange Xiang, Adam Sun, Jiajun Wu 0001, Ehsan Adeli 0001, Li Fei-Fei 0001. 3216-3227 [doi]

AssetField: Assets Mining and Reconfiguration in Ground Feature Plane RepresentationYuanbo Xiangli, Linning Xu, Xingang Pan, Nanxuan Zhao, Bo Dai 0002, Dahua Lin. 3228-3238 [doi]

PETRv2: A Unified Framework for 3D Perception from Multi-Camera ImagesYingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Aqi Gao, Tiancai Wang, Xiangyu Zhang. 3239-3249 [doi]

MIMO-NeRF: Fast Neural Rendering with Multi-input Multi-output Neural Radiance FieldsTakuhiro Kaneko. 3250-3260 [doi]

Adaptive Positional Encoding for Bundle-Adjusting Neural Radiance FieldsZelin Gao, Weichen Dai, Yu Zhang 0018. 3261-3271 [doi]

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view ReconstructionYiming Wang, Qin Han, Marc Habermann, Kostas Daniilidis, Christian Theobalt, Lingjie Liu. 3272-3283 [doi]

Learning from Semantic Alignment between Unpaired Multiviews for Egocentric Video RecognitionQitong Wang 0001, Long Zhao 0003, Liangzhe Yuan, Ting Liu 0005, Xi Peng 0005. 3284-3294 [doi]

Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo MatchingJunpeng Jing, Jiankun Li, Pengfei Xiong, Jiangyu Liu, Shuaicheng Liu, Yichen Guo, Xin Deng 0002, Mai Xu, Lai Jiang, Leonid Sigal. 3295-3304 [doi]

Compatibility of Fundamental Matrices for Complete Viewing GraphsMartin Bråtelund, Felix Rydell. 3305-3313 [doi]

ProtoTransfer: Cross-Modal Prototype Transfer for Point Cloud SegmentationPin Tang, Hai-ming Xu, Chao Ma. 3314-3324 [doi]

SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view 3D Object DetectionJinqing Zhang, Yanan Zhang 0005, Qingjie Liu, Yunhong Wang. 3325-3334 [doi]

GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object DetectionZiying Song, Haiyue Wei, Lin Bai, Lei Yang, Caiyan Jia. 3335-3346 [doi]

Tangent Sampson Error: Fast Approximate Two-view Reprojection Error for Central Camera ModelsMikhail Terekhov, Viktor Larsson. 3347-3355 [doi]

Using a Waffle Iron for Automotive Point Cloud Semantic SegmentationGilles Puy, Alexandre Boulch, Renaud Marlet. 3356-3366 [doi]

Fast Globally Optimal Surface Normal from an Affine CorrespondenceLevente Hajder, Lajos Lóczi, Daniel Barath. 3367-3378 [doi]

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face SynthesisMarcel C. Bühler, Kripasindhu Sarkar, Tanmay Shah, Gengyan Li, Daoye Wang, Leonhard Helminger, Sergio Orts-Escolano, Dmitry Lagun, Otmar Hilliges, Thabo Beeler, Abhimitra Meka. 3379-3390 [doi]

Canonical Factors for Hybrid Neural FieldsBrent Yi, Weijia Zeng, Sam Buchanan, Yi Ma 0001. 3391-3403 [doi]

Center-Based Decoupled Point Cloud Registration for 6D Object Pose EstimationHaobo Jiang, Zheng Dang, Shuo Gu, Jin Xie, Mathieu Salzmann, Jian Yang. 3404-3414 [doi]

Deep geometry-aware camera self-calibration from videoAnnika Hagemann, Moritz Knorr, Christoph Stiller. 3415-3425 [doi]

V-FUSE: Volumetric Depth Map Fusion with Long-Range ConstraintsNathaniel Burgdorfer, Philippos Mordohai. 3426-3435 [doi]

Consistent Depth Prediction for Transparent Object Reconstruction from RGB-D CameraYuxiang Cai, Yifan Zhu, Haiwei Zhang, Bo Ren 0003. 3436-3445 [doi]

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance FieldsSungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim 0001, Jaegul Choo. 3446-3456 [doi]

HollowNeRF: Pruning Hashgrid-Based NeRFs with Trainable Collision MitigationXiufeng Xie, Riccardo Gherardi, Zhihong Pan 0007, Stephen Huang. 3457-3467 [doi]

ICE-NeRF: Interactive Color Editing of NeRFs via Decomposition-Aware Weight OptimizationJae-Hyeok Lee 0001, Dae-Shik Kim. 3468-3478 [doi]

FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient CalibrationZhijian Huang, Sihao Lin, Guiyu Liu, Mukun Luo, Chaoqiang Ye, Hang Xu, Xiaojun Chang, Xiaodan Liang. 3479-3488 [doi]

Neural Fields for Structured LightingAarrushi Shandilya, Benjamin Attal, Christian Richardt, James Tompkin 0001, Matthew O'Toole. 3489-3499 [doi]

CO-Net: Learning Multiple Point Cloud Tasks at Once with A Cohesive NetworkTao Xie, Ke Wang, Siyi Lu, Yukun Zhang, Kun Dai, Xiaoyu Li, Jie Xu, Li Wang, Lijun Zhao 0003, Xinyu Zhang, Ruifeng Li. 3500-3510 [doi]

Pose-Free Neural Radiance Fields via Implicit Pose RegularizationJiahui Zhang, Fangneng Zhan, Yingchen Yu, Kunhao Liu, Rongliang Wu, Xiaoqin Zhang, Ling Shao 0001, Shijian Lu. 3511-3520 [doi]

TransHuman: A Transformer-based Human Representation for Generalizable Neural Human RenderingXiao Pan, Zongxin Yang, Jianxin Ma, Chang Zhou, Yi Yang. 3521-3532 [doi]

S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit SurfacesHaoyu Wu, Alexandros Graikos, Dimitris Samaras. 3533-3545 [doi]

DPS-Net: Deep Polarimetric Stereo Depth EstimationChaoran Tian, Weihong Pan, Zimo Wang, Mao Mao, Guofeng Zhang 0001, Hujun Bao, Ping Tan, Zhaopeng Cui. 3546-3556 [doi]

3DPPE: 3D Point Positional Encoding for Transformer-based Multi-Camera 3D Object DetectionChangyong Shu, Jiajun Deng, Fisher Yu 0001, Yifan Liu 0001. 3557-3566 [doi]

Deformable Neural Radiance Fields using RGB and Event CamerasQi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool. 3567-3577 [doi]

NeILF++: Inter-Reflectable Light Fields for Geometry and Material EstimationJingyang Zhang, Yao Yao 0008, Shiwei Li, Jingbo Liu, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan. 3578-3587 [doi]

Hierarchical Prior Mining for Non-local Multi-View StereoChunlin Ren, Qingshan Xu, Shikun Zhang, Jiaqi Yang. 3588-3597 [doi]

Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object DetectionShihao Wang, Yingfei Liu, Tiancai Wang, Ying Li, Xiangyu Zhang. 3598-3608 [doi]

Re-ReND: Real-time Rendering of NeRFs across DevicesSara Rojas, Jesus Zarzar, Juan C. Pérez, Artsiom Sanakoyeu, Ali K. Thabet, Albert Pumarola, Bernard Ghanem. 3609-3618 [doi]

Learning Shape Primitives via Implicit Convexity RegularizationXiaoyang Huang, Yi Zhang, Kai Chen 0006, Teng Li, Wenjun Zhang 0001, Bingbing Ni. 3619-3628 [doi]

Geometry-guided Feature Learning and Fusion for Indoor Scene ReconstructionRuihong Yin, Sezer Karaoglu, Theo Gevers. 3629-3638 [doi]

LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and Semantic-Aware AlignmentZhiwei Zhang, Zhizhong Zhang, Qian Yu, Ran Yi, Yuan Xie 0006, Lizhuang Ma. 3639-3648 [doi]

PivotNet: Vectorized Pivot Learning for End-to-end HD Map ConstructionWenjie Ding, Limeng Qiao, Xi Qiu, Chi Zhang 0026. 3649-3659 [doi]

Sat2Density: Faithful Density Learning from Satellite-Ground Image PairsMing Qian, Jincheng Xiong, Gui-Song Xia, Nan Xue 0001. 3660-3669 [doi]

Mask-Attention-Free Transformer for 3D Instance SegmentationXin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu 0001, Jiaya Jia. 3670-3680 [doi]

Scene-Aware Feature MatchingXiaoyong Lu, Yaping Yan, Tong Wei, Songlin Du. 3681-3690 [doi]

Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-LabelingZhuoxiao Chen, Yadan Luo, Zheng Wang 0044, Mahsa Baktashmotlagh, Zi Huang. 3691-3703 [doi]

GO-SLAM: Global Optimization for Consistent 3D Instant ReconstructionYoumin Zhang 0008, Fabio Tosi, Stefano Mattoccia, Matteo Poggi. 3704-3714 [doi]

BANSAC: A dynamic BAyesian Network for adaptive SAmple ConsensusValter Piedade, Pedro Miraldo. 3715-3724 [doi]

Theoretical and Numerical Analysis of 3D Reconstruction Using Point and Line IncidencesFelix Rydell, Elima Shehu, Angélica Torres. 3725-3734 [doi]

RealGraph: A Multiview Dataset for 4D Real-world Context Graph GenerationHaozhe Lin, Zequn Chen, Jinzhi Zhang, Bing Bai, Yu Wang, Ruqi Huang, Lu Fang. 3735-3745 [doi]

CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive LearningKaiqiang Xiong, Rui Peng, Zhe Zhang, Tianxing Feng, Jianbo Jiao, Feng Gao, Ronggang Wang. 3746-3757 [doi]

Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object PredictionZhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su, Hongsheng Li 0001, Yu Liu. 3758-3767 [doi]

Object as Query: Lifting any 2D Object Detector to 3D DetectionZitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu 0001. 3768-3777 [doi]

PARTNER: Level up the Polar Representation for LiDAR 3D Object DetectionMing Nie, Yujing Xue, Chunwei Wang, Chaoqiang Ye, Hang Xu, Xinge Zhu, Qingqiu Huang, Michael Bi Mi, Xinchao Wang, Li Zhang 0040. 3778-3790 [doi]

Not Every Side Is Equal: Localization Uncertainty Estimation for Semi-Supervised 3D Object DetectionChuxin Wang, Wenfei Yang, Tianzhu Zhang. 3791-3801 [doi]

QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object DetectionYifan Zhang, Zhen Dong, Huanrui Yang, Ming Lu, Cheng-Ching Tseng, Yuan Du, Kurt Keutzer, Li Du, Shanghang Zhang. 3802-3812 [doi]

Adding Conditional Control to Text-to-Image Diffusion ModelsLvmin Zhang, Anyi Rao, Maneesh Agrawala. 3813-3824 [doi]

Factorized Inverse Path Tracing for Efficient and Accurate Material-Lighting EstimationLiwen Wu, Rui Zhu, Mustafa B. Yaldiz, Yinhao Zhu, Hong Cai, Janarbek Matai, Fatih Porikli, Tzu-Mao Li, Manmohan Chandraker, Ravi Ramamoorthi. 3825-3835 [doi]

Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained RepresentationsJianren Wang, Sudeep Dasari, Mohan Kumar Srirama, Shubham Tulsiani, Abhinav Gupta 0001. 3836-3845 [doi]

3D Implicit Transporter for Temporally Consistent Keypoint DiscoveryChengliang Zhong, Yuhang Zheng, Yupeng Zheng, Hao Zhao, Li Yi, Xiaodong Mu, Ling Wang, Pengfei Li, Guyue Zhou, Chao Yang 0026, Xinliang Zhang, Jian Zhao. 3846-3857 [doi]

Chordal Averaging on Flag Manifolds and Its ApplicationsNathan Mankovich, Tolga Birdal. 3858-3867 [doi]

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist LearningWeikang Wan, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang 0001, Li Yi, He Wang 0010. 3868-3879 [doi]

GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction and Planning for Autonomous DrivingZhiyu Huang, Haochen Liu, Chen Lv. 3880-3890 [doi]

PPR: Physically Plausible Reconstruction from Monocular VideosGengshan Yang, Shuo Yang, John Z. Zhang, Zachary Manchester, Deva Ramanan. 3891-3901 [doi]

Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh ReconstructionWenjia Wang, Yongtao Ge, Haiyi Mei, Zhongang Cai, Qingping Sun, Yanjun Wang, Chunhua Shen, Lei Yang, Taku Komura. 3902-3912 [doi]

ACLS: Adaptive and Conditional Label Smoothing for Network CalibrationHyekang Park, Jongyoun Noh, Youngmin Oh, Donghyeon Baek, Bumsub Ham. 3913-3922 [doi]

PGFed: Personalize Each Client's Global Objective for Federated LearningJun Luo, Matías Mendieta, Chen Chen 0001, Shandong Wu. 3923-3933 [doi]

Overwriting Pretrained Bias with Finetuning DataAngelina Wang, Olga Russakovsky. 3934-3945 [doi]

ITI-Gen: Inclusive Text-to-Image GenerationCheng Zhang, Xuanbai Chen, Siqi Chai, Chen Henry Wu, Dmitry Lagun, Thabo Beeler, Fernando De la Torre. 3946-3957 [doi]

FunnyBirds: A Synthetic Vision Dataset for a Part-Based Analysis of Explainable AI MethodsRobin Hesse, Simone Schaub-Meyer, Stefan Roth 0001. 3958-3968 [doi]

X-VoE: Measuring eXplanatory Violation of Expectation in Physical EventsBo Dai 0025, LinGe Wang, Baoxiong Jia, Zeyu Zhang 0001, Song Chun Zhu, Chi Zhang 0017, Yixin Zhu 0001. 3969-3979 [doi]

Adaptive Testing of Computer Vision ModelsIrena Gao, Gabriel Ilharco, Scott M. Lundberg, Marco Túlio Ribeiro. 3980-3991 [doi]

Segment AnythingAlexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloé Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross B. Girshick. 3992-4003 [doi]

Shape Analysis of Euclidean Curves under Frenet-Serret FrameworkPerrine Chassat, Juhyun Park, Nicolas J.-B. Brunel. 4004-4013 [doi]

Unmasking Anomalies in Road-Scene SegmentationShyam Nandan Rai, Fabio Cermelli, Dario Fontanel, Carlo Masone, Barbara Caputo. 4014-4023 [doi]

High Quality Entity SegmentationLu Qi, Jason Kuen, Tiancheng Shen, Jiuxiang Gu, Wenbo Li 0001, Weidong Guo, Jiaya Jia, Zhe Lin, Ming-Hsuan Yang 0001. 4024-4033 [doi]

Towards Open-Vocabulary Video Instance SegmentationHaochen Wang, Xiaolong Jiang, Xu Tang, Yao Hu, Cilin Yan, Weidi Xie, Shuai Wang, Efstratios Gavves. 4034-4043 [doi]

Beyond One-to-One: Rethinking the Referring Image SegmentationYutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li, Jungong Han, Ping Luo. 4044-4054 [doi]

Multiple Instance Learning Framework with Masked Hard Instance Mining for Whole Slide Image ClassificationWenhao Tang, Sheng Huang, Xiaoxian Zhang, Fengtao Zhou, Yi Zhang, Bo Liu 0005. 4055-4064 [doi]

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation LearningColorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Kurt Keutzer, Salvatore Candido, Matt Uyttendaele, Trevor Darrell. 4065-4076 [doi]

Progressive Spatio-Temporal Prototype Matching for Text-Video RetrievalPandeng Li, Chen-Wei Xie, Liming Zhao, Hongtao Xie, Jiannan Ge, Yun Zheng, Deli Zhao, Yongdong Zhang 0001. 4077-4087 [doi]

Towards Deeply Unified Depth-aware Panoptic Segmentation with Bi-directional Guidance LearningJunwen He, Yifan Wang 0004, Lijun Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Yifeng Geng, Xuansong Xie. 4088-4098 [doi]

LogicSeg: Parsing Visual Semantics with Neural Logic Learning and ReasoningLiulei Li, Wenguan Wang, Yang Yi. 4099-4110 [doi]

ASIC: Aligning Sparse in-the-wild Image CollectionsKamal Gupta 0002, Varun Jampani, Carlos Esteves, Abhinav Shrivastava, Ameesh Makadia, Noah Snavely, Abhishek Kar. 4111-4122 [doi]

CLIPascene: Scene Sketching with Different Types and Levels of AbstractionYael Vinker, Yuval Alaluf, Daniel Cohen-Or, Ariel Shamir. 4123-4133 [doi]

LD-ZNet: A Latent Diffusion Approach for Text-Based Image SegmentationKoutilya PNVR, Bharat Singh, Pallabi Ghosh, Behjat Siddiquie, David Jacobs 0001. 4134-4145 [doi]

TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion ModelsTianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin. 4146-4158 [doi]

NeuRBF: A Neural Fields Representation with Adaptive Radial Basis FunctionsZhang Chen, Zhong Li, Liangchen Song, Lele Chen, Jingyi Yu, Junsong Yuan, Yi Xu. 4159-4171 [doi]

Scalable Diffusion Models with TransformersWilliam Peebles, Saining Xie. 4172-4182 [doi]

Texture Generation on 3D Meshes with Point-UV DiffusionXin Yu 0004, Peng Dai, Wenbo Li 0002, Lan Ma, Zhengzhe Liu, Xiaojuan Qi. 4183-4193 [doi]

Generative Novel View Synthesis with 3D-Aware Diffusion ModelsEric R. Chan, Koki Nagano, Matthew A. Chan, Alexander W. Bergman, Jeong-Joon Park, Axel Levy, Miika Aittala, Shalini De Mello, Tero Karras, Gordon Wetzstein. 4194-4206 [doi]

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-TuningEnze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li. 4207-4216 [doi]

VQ3D: Learning a 3D-Aware Generative Model on ImageNetKyle Sargent, Jing Yu Koh, Han Zhang 0010, Huiwen Chang, Charles Herrmann, Pratul Srinivasan, Jiajun Wu 0001, Deqing Sun. 4217-4227 [doi]

Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with ReflectionWenhang Ge, Tao Hu, Haoyu Zhao, Shu Liu 0005, Ying-Cong Chen. 4228-4237 [doi]

A Complete Recipe for Diffusion Generative ModelsKushagra Pandey, Stephan Mandt. 4238-4249 [doi]

MMVP: Motion-Matrix-based Video PredictionYiqi Zhong, Luming Liang, Ilya Zharkov, Ulrich Neumann. 4250-4260 [doi]

SAGA: Spectral Adversarial Geometric Attack on 3D MeshesTomer Stolik, Itai Lang, Shai Avidan. 4261-4271 [doi]

Benchmarking and Analyzing Robust Point Cloud Recognition: Bag of Tricks for Defending Adversarial ExamplesQiufan Ji, Lin Wang, Cong Shi, Shengshan Hu, Yingying Chen, Lichao Sun 0001. 4272-4281 [doi]

ACTIVE: Towards Highly Transferable 3D Physical Camouflage for Universal and Robust Vehicle EvasionNaufal Suryanto, Yongsu Kim, Harashta Tatimma Larasati, Hyoeun Kang, Thi-Thu-Huong Le, Yoonyoung Hong, Hunmin Yang, Se-Yoon Oh, Howon Kim 0001. 4282-4291 [doi]

Frequency-aware GAN for Adversarial Manipulation GenerationPeifei Zhu, Genki Osada, Hirokatsu Kataoka, Tsubasa Takahashi. 4292-4301 [doi]

Breaking Temporal Consistency: Generating Video Universal Adversarial Perturbations Using Image ModelsHeeseon Kim, Minji Son, Minbeom Kim, Myung-Joon Kwon, Changick Kim. 4302-4311 [doi]

Tracing the Origin of Adversarial Attack for Forensic Investigation and DeterrenceHan Fang, Jiyi Zhang, Yupeng Qiu, Jiayang Liu, Ke Xu, Chengfang Fang, Ee-Chien Chang. 4312-4321 [doi]

Downstream-agnostic Adversarial ExamplesZiqi Zhou, Shengshan Hu, Ruizhi Zhao, Qian Wang 0002, Leo Yu Zhang, Junhui Hou, Hai Jin 0001. 4322-4332 [doi]

Hiding Visual Information via Obfuscating Adversarial PerturbationsZhigang Su, Dawei Zhou, Nannan Wang, Decheng Liu, Zhen Wang, Xinbo Gao 0001. 4333-4343 [doi]

An Embarrassingly Simple Backdoor Attack on Self-supervised LearningChangjiang Li, Ren Pang, Zhaohan Xi, Tianyu Du, Shouling Ji, Yuan Yao, Ting Wang. 4344-4355 [doi]

Efficient Decision-based Black-box Patch Attacks on Video RecognitionKaixun Jiang, Zhaoyu Chen, Hao Huang, Jiafeng Wang, Dingkang Yang, Bo Li, Yan Wang, Wenqiang Zhang. 4356-4366 [doi]

Adversarial Finetuning with Latent Representation Constraint to Mitigate Accuracy-Robustness TradeoffSatoshi Suzuki, Shin'ya Yamaguchi, Shoichiro Takeda, Sekitoshi Kanai, Naoki Makishima, Atsushi Ando, Ryo Masumura. 4367-4378 [doi]

Towards Building More Robust Models with Frequency BiasQingwen Bu, Dong Huang 0005, Heming Cui. 4379-4388 [doi]

Does Physical Adversarial Example Really Matter to Autonomous Driving? Towards System-Level Effect of Adversarial Object Evasion AttackNingfei Wang, Yunpeng Luo, Takami Sato, Kaidi Xu, Qi Alfred Chen. 4389-4400 [doi]

Improving Generalization of Adversarial Training via Robust Critical Fine-TuningKaijie Zhu, Xixu Hu, Jindong Wang 0001, Xing Xie 0001, Ge Yang. 4401-4411 [doi]

Enhancing Generalization of Universal Adversarial Perturbation through Gradient AggregationXuannan Liu, Yaoyao Zhong, Yuhang Zhang, Lixiong Qin, Weihong Deng. 4412-4421 [doi]

Unified Adversarial Patch for Cross-modal Attacks in the Physical WorldXingxing Wei, Yao Huang, Yitong Sun, Jie Yu 0026. 4422-4431 [doi]

RFLA: A Stealthy Reflected Light Adversarial Attack in the Physical WorldDonghua Wang, Wen Yao, Tingsong Jiang, Chao Li, Xiaoqian Chen. 4432-4442 [doi]

Enhancing Fine-Tuning based Backdoor Defense with Sharpness-Aware MinimizationMingli Zhu, Shaokui Wei, Li Shen 0008, Yanbo Fan, Baoyuan Wu. 4443-4454 [doi]

Conditional 360-degree Image Synthesis for Immersive Indoor Scene DecorationKa-Chun Shum, Hong-Wing Pang, Binh-Son Hua, Duc Thanh Nguyen, Sai Kit Yeung. 4455-4465 [doi]

An Adaptive Model Ensemble Adversarial Attack for Boosting Adversarial TransferabilityBin Chen, Jia-Li Yin, Shukai Chen, Bohao Chen, Ximeng Liu. 4466-4475 [doi]

Mitigating Adversarial Vulnerability through Causal Parameter Estimation by Adversarial Double Machine LearningByung kwan Lee, Junho Kim, Yong Man Ro. 4476-4486 [doi]

2: A Lightweight Ensemble Adversarial Attack via Non-overlapping Vulnerable Frequency RegionsYaguan Qian, Shuke He, Chenyu Zhao, Jiaqiang Sha, Wei Wang 0012, Bin Wang. 4487-4498 [doi]

Explaining Adversarial Robustness of Neural Networks from Clustering Effect PerspectiveYulin Jin, Xiaoyu Zhang, Jian Lou 0001, Xu Ma, Zilong Wang, Xiaofeng Chen. 4499-4508 [doi]

VertexSerum: Poisoning Graph Neural Networks for Link InferenceRuyi Ding, Shijin Duan, Xiaolin Xu, Yunsi Fei. 4509-4518 [doi]

How to choose your best allies for a transferable attack?Thibault Maho, Seyed-Mohsen Moosavi-Dezfooli, Teddy Furon. 4519-4528 [doi]

Enhancing Adversarial Robustness in Low-Label Regime via Adaptively Weighted Regularization and Knowledge DistillationDongyoon Yang, Insung Kong, Yongdai Kim. 4529-4538 [doi]

AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion ModelsXinquan Chen, Xitong Gao, Juanjuan Zhao, Kejiang Ye, Cheng-Zhong Xu 0001. 4539-4549 [doi]

F&F Attack: Adversarial Attack against Multiple Object Trackers by Inducing False Negatives and False PositivesTao Zhou, Qi Ye, Wenhan Luo, Kaihao Zhang, Zhiguo Shi, Jiming Chen 0001. 4550-4560 [doi]

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image SynthesisLukas Struppek, Dominik Hintersdorf, Kristian Kersting. 4561-4573 [doi]

Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed GradientZhengzhi Lu, He Wang 0002, Ziyi Chang, Guoan Yang, Hubert P. H. Shum. 4574-4583 [doi]

Structure Invariant Transformation for better Adversarial TransferabilityXiaosen Wang, Zeliang Zhang, Jianping Zhang. 4584-4596 [doi]

Beating Backdoor Attack at Its Own GameMin Liu, Alberto L. Sangiovanni-Vincentelli, Xiangyu Yue. 4597-4606 [doi]

Transferable Adversarial Attack for Both Vision Transformers and Convolutional Networks via Momentum Integrated GradientsWenshuo Ma, Yidong Li, Xiaofeng Jia, Wei Xu. 4607-4616 [doi]

REAP: A Large-Scale Realistic Adversarial Patch BenchmarkNabeel Hingun, Chawin Sitawarin, Jerry Li, David A. Wagner 0001. 4617-4628 [doi]

Multi-metrics adaptively identifies backdoors in Federated learningSiquan Huang, Yijiang Li, Chong Chen, Leyu Shi, Ying Gao 0004. 4629-4639 [doi]

Backpropagation Path Search On Adversarial TransferabilityZhuoer Xu, Zhangxuan Gu, Jianping Zhang, Shiwen Cui, Changhua Meng, Weiqiang Wang. 4640-4650 [doi]

Rapid Network Adaptation: Learning to Adapt Neural Networks Using Test-Time FeedbackTeresa Yeo, Oguzhan Fatih Kar, Zahra Sodagar, Amir Zamir. 4651-4664 [doi]

One-bit Flip is All You Need: When Bit-flip Attack Meets Model TrainingJianshuo Dong, Han Qiu 0001, Yiming Li 0004, Tianwei Zhang 0004, Yuanjie Li, Zeqi Lai, Chao Zhang, Shu-Tao Xia. 4665-4675 [doi]

PolicyCleanse: Backdoor Detection and Mitigation for Competitive Reinforcement LearningJunfeng Guo, Ang Li, Lixu Wang, Cong Liu 0005. 4676-4685 [doi]

Towards Viewpoint-Invariant Visual Recognition via Adversarial TrainingShouwei Ruan, Yinpeng Dong, Hang Su 0006, Jianteng Peng, Ning Chen 0002, Xingxing Wei. 4686-4696 [doi]

Fast Adversarial Training with Smooth ConvergenceMengnan Zhao, Lihe Zhang, Yuqiu Kong, Baocai Yin. 4697-4706 [doi]

The Perils of Learning From Unlabeled Data: Backdoor Attacks on Semi-supervised LearningVirat Shejwalkar, Lingjuan Lyu, Amir Houmansadr. 4707-4717 [doi]

Boosting Adversarial Transferability via Gradient Relevance AttackHegui Zhu, Yuchen Ren, Xiaoyan Sui, Lianping Yang, Wuming Jiang. 4718-4727 [doi]

Towards Robust Model Watermark via Reducing Parametric VulnerabilityGuanhao Gan, Yiming Li 0004, Dongxian Wu, Shu-Tao Xia. 4728-4738 [doi]

TRM-UAP: Enhancing the Transferability of Data-Free Universal Adversarial Perturbation via Truncated Ratio MaximizationYiran Liu, Xin Feng, Yunlong Wang, Wu Yang, Di Ming. 4739-4748 [doi]

Enhancing Privacy Preservation in Federated Learning via Learning Rate PerturbationGuangnian Wan, Haitao Du, Xuejing Yuan, Jun Yang, Meiling Chen, Jie Xu. 4749-4758 [doi]

TARGET: Federated Class-Continual Learning via Exemplar-Free DistillationJie Zhang, Chen Chen, Weiming Zhuang, Lingjuan Lyu. 4759-4770 [doi]

FACTS: First Amplify Correlations and Then Slice to Discover BiasSriram Yenamandra, Pratik Ramesh, Viraj Prabhu, Judy Hoffman. 4771-4781 [doi]

Computation and Data Efficient Backdoor AttacksYutong Wu, Xingshuo Han, Han Qiu 0001, Tianwei Zhang 0004. 4782-4791 [doi]

Global Balanced Experts for Federated Long-Tailed LearningYaopei Zeng, Lei Liu, Li Liu, Li Shen, Shaoguo Liu, Baoyuan Wu. 4792-4802 [doi]

Source-free Domain Adaptive Human Pose EstimationQucheng Peng, Ce Zheng, Chen Chen 0015. 4803-4813 [doi]

Gender Artifacts in Visual DatasetsNicole Meister, Dora Zhao, Angelina Wang, Vikram V. Ramaswamy, Ruth Fong, Olga Russakovsky. 4814-4825 [doi]

FRAug: Tackling Federated Learning with Non-IID Features via Representation AugmentationHaokun Chen, Ahmed Frikha 0002, Denis Krompass, Jindong Gu, Volker Tresp. 4826-4836 [doi]

zPROBE: Zero Peek Robustness Checks for Federated LearningZahra Ghodsi, Mojan Javaheripi, Nojan Sheybani, Xinqiao Zhang, Ke Huang 0001, Farinaz Koushanfar. 4837-4847 [doi]

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot StudyMyeongseob Ko, Ming Jin 0002, Chenguang Wang, Ruoxi Jia. 4848-4858 [doi]

FedPD: Federated Open Set Recognition with Parameter DisentanglementChen Yang, Meilu Zhu, Yifan Liu, Yixuan Yuan. 4859-4868 [doi]

MUter: Machine Unlearning on Adversarially Trained ModelsJunxu Liu, Mingsheng Xue, Jian Lou 0001, Xiaoyu Zhang, Li Xiong 0001, Zhan Qin. 4869-4879 [doi]

Beyond Skin Tone: A Multidimensional Measure of Apparent Skin ColorWilliam Thong, Przemyslaw Joniak, Alice Xiang. 4880-4890 [doi]

A Multidimensional Analysis of Social Biases in Vision TransformersJannik Brinkmann, Paul Swoboda, Christian Bartelt. 4891-4900 [doi]

Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific ExpertsJiaxuan Li, Duc Minh Vo, Hideki Nakayama. 4901-4911 [doi]

Rethinking Data Distillation: Do Not Overlook CalibrationDongyao Zhu, Yanbo Fang, Bowen Lei, Yiqun Xie, Dongkuan Xu, Jie Zhang, Ruqi Zhang. 4912-4922 [doi]

Mining bias-target Alignment from Voronoi CellsRémi Nahon, Van Tam Nguyen, Enzo Tartaglione. 4923-4932 [doi]

Better May Not Be Fairer: A Study on Subgroup Discrepancy in Image ClassificationMing-Chang Chiu, Pin-Yu Chen, Xuezhe Ma. 4933-4943 [doi]

GIFD: A Generative Gradient Inversion Method with Feature Domain OptimizationHao Fang, Bin Chen, Xuan Wang, Zhi Wang, Shu-Tao Xia. 4944-4953 [doi]

Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human EvaluationHao Liang, Pietro Perona, Guha Balakrishnan. 4954-4964 [doi]

FedPerfix: Towards Partial Model Personalization of Vision Transformers in Federated LearningGuangyu Sun, Matías Mendieta, Jun Luo 0010, Shandong Wu, Chen Chen 0001. 4965-4975 [doi]

Towards Attack-tolerant Federated Learning via Critical Parameter AnalysisSungwon Han 0001, Sungwon Park 0001, Fangzhao Wu, Sundong Kim, Bin Zhu, Xing Xie 0001, Meeyoung Cha. 4976-4985 [doi]

What can Discriminator do? Towards Box-free Ownership Verification of Generative Adversarial NetworksZiheng Huang, Boheng Li, Yan Cai 0015, Run Wang, Shangwei Guo, Liming Fang 0001, Jing Chen 0003, Lina Wang 0001. 4986-4996 [doi]

Robust Heterogeneous Federated Learning under Data CorruptionXiuwen Fang, Mang Ye, Xiyuan Yang. 4997-5007 [doi]

Communication-efficient Federated Learning with Single-Step Synthetic Features Compressor for Faster ConvergenceYuhao Zhou, Mingjia Shi, Yuanxi Li, Yanan Sun 0001, Qing Ye, Jiancheng Lv 0001. 5008-5017 [doi]

GPFL: Simultaneously Learning Global and Personalized Feature Information for Personalized Federated LearningJianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Jian Cao, Haibing Guan. 5018-5028 [doi]

MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous AttentionWenxuan Zeng, Meng Li, Wenjie Xiong 0001, Tong Tong, Wen-Jie Lu, Jin Tan, Runsheng Wang, Ru Huang. 5029-5040 [doi]

Identification of Systematic Errors of Image Classifiers on Rare SubgroupsJan Hendrik Metzen, Robin Hutmacher, N. Grace Hua, Valentyn Boreiko, Dan Zhang. 5041-5050 [doi]

Adaptive Image Anonymization in the Context of Image Classification with Neural NetworksNadiya Shvai, Arcadi Llanza Carmona, Amir Nakib. 5051-5060 [doi]

When Do Curricula Work in Federated Learning?Saeed Vahidian, Sreevatsank Kadaveru, Woonjoon Baek, Weijia Wang 0002, Vyacheslav Kungurtsev, Chen Chen 0001, Mubarak Shah, Bill Lin 0001. 5061-5071 [doi]

Domain Specified Optimization for Deployment AuthorizationHaotian Wang 0001, Haoang Chi, Wenjing Yang 0002, Zhipeng Lin, Mingyang Geng, Long Lan, Jing Zhang, Dacheng Tao. 5072-5082 [doi]

STPrivacy: Spatio-Temporal Privacy-Preserving Action RecognitionMing Li, Xiangyu Xu, Hehe Fan, Pan Zhou, Jun Liu, Jia-Wei Liu, Jiahe Li, Jussi Keppo, Mike Zheng Shou, Shuicheng Yan. 5083-5092 [doi]

SAL-ViT: Towards Latency Efficient Private Inference on ViT using Selective Attention Search with a Learnable Softmax ApproximationYuke Zhang, Dake Chen, Souvik Kundu 0002, Chenghao Li, Peter A. Beerel. 5093-5102 [doi]

Generative Gradient Inversion via Over-Parameterized Networks in Federated LearningChi Zhang, Xiaoman Zhang, Ekanut Sotthiwat, Yanyu Xu, Ping Liu, Liangli Zhen, Yong Liu. 5103-5112 [doi]

Inspecting the Geographical Representativeness of Images from Text-to-Image ModelsAbhipsa Basu, R. Venkatesh Babu, Danish Pruthi. 5113-5124 [doi]

Divide and Conquer: a Two-Step Method for High Quality Face De-identification with Model ExplainabilityYunqian Wen, Bo Liu 0001, Jingyi Cao, Rong Xie, Li Song. 5125-5134 [doi]

Exploring the Benefits of Visual Prompting in Differential PrivacyYizhe Li, Yu-Lin Tsai, Chia-Mu Yu, Pin-Yu Chen, Xuebin Ren. 5135-5144 [doi]

Towards Fairness-aware Adversarial Network PruningLei Zhang, Zhibo Wang 0001, XiaoWei Dong, Yunhe Feng, Xiaoyi Pang, Zhifei Zhang, Kui Ren 0001. 5145-5154 [doi]

AutoReP: Automatic ReLU Replacement for Fast Private Network InferenceHongwu Peng, Shaoyi Huang, Tong Zhou 0002, Yukui Luo, Chenghong Wang, Zigeng Wang, Jiahui Zhao, Xi Xie, Ang Li 0006, Tony Geng, Kaleel Mahmood, Wujie Wen, Xiaolin Xu, Caiwen Ding. 5155-5165 [doi]

Flatness-Aware Minimization for Domain GeneralizationXingxuan Zhang, Renzhe Xu, Han Yu, Yancheng Dong, Pengfei Tian, Peng Cui 0001. 5166-5179 [doi]

Communication-Efficient Vertical Federated Learning with Limited Overlapping SamplesJingwei Sun 0002, Ziyue Xu 0001, Dong Yang, Vishwesh Nath, Wenqi Li, Can Zhao, Daguang Xu, Yiran Chen 0001, Holger R. Roth. 5180-5189 [doi]

Multimodal Distillation for Egocentric Action RecognitionGorjan Radevski, Dusan Grujicic, Matthew B. Blaschko, Marie-Francine Moens, Tinne Tuytelaars. 5190-5201 [doi]

Self-Supervised Object Detection from Egocentric VideosPeri Akiva, Jing Huang 0020, Kevin J. Liang, Rama Kovvuri, Xingyu Chen, Matt Feiszli, Kristin J. Dana, Tal Hassner. 5202-5214 [doi]

Multi-label affordance mapping from egocentric visionLorenzo Mur-Labadia, Jose J. Guerrero, Ruben Martinez-Cantin. 5215-5226 [doi]

Ego-Only: Egocentric Action Detection without Exocentric TransferringHuiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani. 5227-5238 [doi]

COPILOT: Human-Environment Collision Prediction and Localization from Egocentric VideosBoxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo, Yanchao Yang 0001, Leonidas J. Guibas. 5239-5249 [doi]

EgoPCA: A New Framework for Egocentric Hand-Object Interaction UnderstandingYue Xu, Yong-Lu Li 0001, Zhemin Huang, Michael Xu Liu, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang. 5250-5261 [doi]

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the BackboneShraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang. 5262-5274 [doi]

WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminant AnalysisYiye Chen, Yunzhi Lin, Ruinian Xu, Patricio A. Vela. 5275-5284 [doi]

Pairwise Similarity Learning is SimPLEYanDong Wen, Weiyang Liu, Yao Feng, Bhiksha Raj, Rita Singh, Adrian Weller, Michael J. Black, Bernhard Schölkopf. 5285-5295 [doi]

No Fear of Classifier Biases: Neural Collapse Inspired Federated Learning with Synthetic and Fixed ClassifierZexi Li 0001, Xinyi Shang, Rui He, Tao Lin, Chao Wu. 5296-5306 [doi]

Generalizable Neural Fields as Partially Observed Neural ProcessesJeffrey Gu, Kuan-Chieh Wang, Serena Yeung. 5307-5316 [doi]

M2T: Masking Transformers Twice for Faster DecodingFabian Mentzer, Eirikur Agustsson, Michael Tschannen. 5317-5326 [doi]

Keep It SimPool: Who Said Supervised Transformers Suffer from Attention Deficit?Bill Psomas, Ioannis Kakogeorgiou, Konstantinos Karantzalos, Yannis Avrithis. 5327-5337 [doi]

Improving Pixel-based MIM by Reducing Wasted Modeling CapabilityYuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen, Dahua Lin. 5338-5349 [doi]

Learning Image-Adaptive Codebooks for Class-Agnostic Image RestorationKechun Liu, Yitong Jiang, Inchang Choi, Jinwei Gu. 5350-5360 [doi]

Quality Diversity for Visual Pre-TrainingRuchika Chavhan, Henry Gouk, Da Li 0001, Timothy M. Hospedales. 5361-5371 [doi]

Subclass-balancing Contrastive Learning for Long-tailed RecognitionChengkai Hou, Jieyu Zhang, Haonan Wang, Tianyi Zhou. 5372-5384 [doi]

Mastering Spatial Graph Prediction of Road NetworksSotiris Anagnostidis, Aurélien Lucchi, Thomas Hofmann. 5385-5395 [doi]

Poincaré ResNetMax van Spengler, Erwin Berkhout, Pascal Mettes. 5396-5405 [doi]

Exploring Model Transferability through the Lens of Potential EnergyXiaotong Li, Zixuan Hu, Yixiao Ge, Ying Shan, Ling-Yu Duan. 5406-5415 [doi]

Improving CLIP Fine-tuning PerformanceYixuan Wei, Han Hu 0001, Zhenda Xie, Ze Liu, Zheng Zhang, Yue Cao, Jianmin Bao, Dong Chen 0003, Baining Guo. 5416-5426 [doi]

Unsupervised Manifold Linearizing and ClusteringTianjiao Ding, Shengbang Tong, Kwan Ho Ryan Chan, Xili Dai, Yi Ma 0001, Benjamin D. Haeffele. 5427-5438 [doi]

Generalized Sum Pooling for Metric LearningYeti Ziya Gürbüz, Ozan Sener, A. Aydin Alatan. 5439-5450 [doi]

Partition Speeds Up Learning Implicit Neural Representations Based on Exponential-Increase HypothesisKe Liu, Feng Liu, Haishuai Wang, Ning Ma, Jiajun Bu, Bo Han 0003. 5451-5460 [doi]

The effectiveness of MAE pre-pretraining for billion-scale pretrainingMannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan 0001, Vaibhav Aggarwal, Aaron Adcock, Armand Joulin, Piotr Dollár, Christoph Feichtenhofer, Ross B. Girshick, Rohit Girdhar, Ishan Misra. 5461-5471 [doi]

Token-Label Alignment for Vision TransformersHan Xiao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. 5472-5481 [doi]

Efficiently Robustify Pre-Trained ModelsNishant Jain, Harkirat S. Behl, Yogesh Singh Rawat, Vibhav Vineet. 5482-5492 [doi]

OFVL-MS: Once for Visual Localization across Multiple Indoor ScenesTao Xie, Kun Dai, Siyi Lu, Ke Wang, Zhiqiang Jiang, Jinghan Gao, Dedong Liu, Jie Xu, Lijun Zhao 0003, Ruifeng Li. 5493-5503 [doi]

Feature Prediction Diffusion Model for Video Anomaly DetectionCheng Yan, Shiyu Zhang, Yang Liu, Guansong Pang, Wenjun Wang. 5504-5514 [doi]

Joint Implicit Neural Representation for High-fidelity and Compact Vector FontsChia-Hao Chen, Ying-Tian Liu, Zhifei Zhang, Yuan-Chen Guo, Song-Hai Zhang. 5515-5525 [doi]

How Far Pre-trained Models Are from Neural Collapse on the Target Dataset Informs their TransferabilityZijian Wang, Yadan Luo, Liang Zheng, Zi Huang, Mahsa Baktashmotlagh. 5526-5535 [doi]

OPERA: Omni-Supervised Representation Learning with Hierarchical SupervisionsChengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou 0001, Jiwen Lu. 5536-5547 [doi]

Perceptual Grouping in Contrastive Vision-Language ModelsKanchana Ranasinghe, Brandon McKinzie, Sachin Ravi, Yinfei Yang, Alexander Toshev, Jonathon Shlens. 5548-5561 [doi]

Fully Attentional Networks with Self-emerging Token LabelingBingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, José M. Álvarez 0004. 5562-5572 [doi]

Instance and Category Supervision are Alternate Learners for Continual LearningXudong Tian, Zhizhong Zhang, Xin Tan, Jun Liu, Chengjie Wang, Yanyun Qu, Guannan Jiang, Yuan Xie. 5573-5582 [doi]

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-trainingHong Yan, Yang Liu, Yushen Wei, Zhen Li, Guanbin Li, Liang Lin. 5583-5595 [doi]

Motion-Guided Masking for Spatiotemporal Representation LearningDavid Fan, Jue Wang, Shuai Liao, Yi Zhu, Vimal Bhat, Hector J. Santos-Villalobos, Rohith MV, Xinyu Li. 5596-5606 [doi]

Data Augmented Flatness-aware Gradient Projection for Continual LearningEnneng Yang, Li Shen, Zhenyi Wang, Shiwei Liu, Guibing Guo, Xingwei Wang 0001. 5607-5616 [doi]

Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud ModelsZiyi Wang 0007, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu. 5617-5627 [doi]

BiViT: Extremely Compressed Binary Vision TransformersYefei He, Zhenyu Lou, Luoming Zhang, Jing Liu 0048, Weijia Wu, Hong Zhou, Bohan Zhuang. 5628-5640 [doi]

Spatio-Temporal Crop Aggregation for Video Representation LearningSepehr Sameni, Simon Jenni, Paolo Favaro. 5641-5651 [doi]

Hierarchical Visual Primitive Experts for Compositional Zero-Shot LearningHanjae Kim, Jiyoung Lee, Seongheon Park, Kwanghoon Sohn. 5652-5662 [doi]

Semantic Information in Contrastive LearningShengjiang Quan, Masahiro Hirano, Yuji Yamakawa. 5663-5673 [doi]

Cross-Domain Product Representation Learning for Rich-Content E-CommerceXuehan Bai, Yan Li, Yanhua Cheng, Wenjie Yang, Quan Chen, Han Li. 5674-5683 [doi]

Contrastive Continuity on Augmentation Stability Rehearsal for Continual Self-Supervised LearningHaoyang Cheng, Haitao Wen, Xiaoliang Zhang 0002, Heqian Qiu, Lanxiao Wang, Hongliang Li. 5684-5694 [doi]

HybridAugment++: Unified Frequency Spectra Perturbations for Model RobustnessMehmet Kerim Yucel, Ramazan Gokberk Cinbis, Pinar Duygulu. 5695-5705 [doi]

Unleashing Text-to-Image Diffusion Models for Visual PerceptionWenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu. 5706-5716 [doi]

Efficient Controllable Multi-Task ArchitecturesAbhishek Aich, Samuel Schulter, Amit K. Roy Chowdhury, Manmohan Chandraker, Yumin Suh. 5717-5728 [doi]

*Ruihan Xu 0002, Haokui Zhang, Wenze Hu, Shiliang Zhang, Xiaoyu Wang. 5729-5739 [doi]

Unleashing the Power of Gradient Signal-to-Noise Ratio for Zero-Shot NASZihao Sun, Yu Sun, Longxing Yang, Shun Lu, Jilin Mei, Wenxiao Zhao, Yu Hu 0001. 5740-5750 [doi]

MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision TransformerFudong Lin, Summer Crawford, Kaleb Guillot, Yihe Zhang, Yan Chen, Xu Yuan 0001, Li Chen, Shelby Williams, Robert Minvielle, Xiangming Xiao, Drew Gholson, Nicolas Ashwell, Tri Setiyono, Brenda Tubana, Lu Peng 0001, Magdy A. Bayoumi, Nian-Feng Tzeng. 5751-5761 [doi]

FastViT: A Fast Hybrid Vision Transformer using Structural ReparameterizationPavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan. 5762-5772 [doi]

IIEU: Rethinking Neural Feature Activation from Decision-MakingSudong Cai. 5773-5783 [doi]

Scratching Visual Transformer's Back with Uniform AttentionNam Hyeon-Woo, Kim Yu-Ji, Byeongho Heo, Dongyoon Han, Seong Joon Oh, Tae Hyun Oh. 5784-5795 [doi]

SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8 InferenceXudong Wang, Li Lyna Zhang, Jiahang Xu, Quanlu Zhang, Yujing Wang, Yuqing Yang 0001, Ningxin Zheng, Ting Cao, Mao Yang. 5796-5805 [doi]

ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile DevicesChen Tang, Li Lyna Zhang, Huiqiang Jiang, Jiahang Xu, Ting Cao, Quanlu Zhang, YuQing Yang, Zhi Wang, Mao Yang. 5806-5817 [doi]

Gramian Attention Heads are Strong yet Efficient Vision LearnersJongbin Ryu, Dongyoon Han, Jongwoo Lim. 5818-5828 [doi]

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual BackbonesYulin Wang, Yang Yue, Rui Lu, Tianjiao Liu, Zhao Zhong, Shiji Song, Gao Huang. 5829-5841 [doi]

Ord2Seq: Regarding Ordinal Regression as Label Sequence PredictionJinhong Wang, Yi Cheng, Jintai Chen, Tingting Chen, Danny Chen, Jian Wu. 5842-5852 [doi]

Unified Data-Free Compression: Pruning and Quantization without Fine-TuningShipeng Bai, Jun Chen, Xintian Shen, Yixuan Qian, Yong Liu. 5853-5862 [doi]

LaPE: Layer-adaptive Position Embedding for Vision Transformers with Independent Layer NormalizationRunyi Yu, Zhennan Wang, Yinhuai Wang, Kehan Li 0002, Chang Liu, Haoyi Duan, Xiangyang Ji, Jie Chen 0001. 5863-5873 [doi]

Exemplar-Free Continual Transformer with ConvolutionsAnurag Roy, Vinay Kumar Verma, Sravan Voonna, Kripabandhu Ghosh, Saptarshi Ghosh 0001, Abir Das. 5874-5884 [doi]

Building Vision Transformers with Hierarchy Aware Feature AggregationYongjie Chen, Hongmin Liu, Haoran Yin, Bin Fan. 5885-5895 [doi]

ShiftNAS: Improving One-shot NAS via Probability ShiftMingyang Zhang, Xinyi Yu, Haodong Zhao, Linlin Ou. 5896-5905 [doi]

DarSwin: Distortion Aware Radial Swin TransformerAkshaya Athwale, Arman Afrasiyabi, Justin Lagüe, Ichrak Shili, Ola Ahmad, Jean-François Lalonde. 5906-5915 [doi]

ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradient AccumulationXiaoxing Wang, Xiangxiang Chu, Yuda Fan, Zhexi Zhang, Bo Zhang, Xiaokang Yang, Junchi Yan. 5916-5926 [doi]

FDViT: Improve the Hierarchical Architecture of Vision TransformerYixing Xu, Chao Li, Dong Li, Xiao Sheng, Fan Jiang, Lu Tian, Ashish Sirasao. 5927-5937 [doi]

FLatten Transformer: Vision Transformer using Focused Linear AttentionDongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang. 5938-5948 [doi]

MixPath: A Unified Approach for One-shot Neural Architecture SearchXiangxiang Chu, Shun Lu, Xudong Li 0003, Bo Zhang 0046. 5949-5958 [doi]

SSF: Accelerating Training of Spiking Neural Networks with Stabilized Spiking FlowJingtao Wang, Zengjie Song, Yuxi Wang, Jun Xiao 0005, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang. 5959-5968 [doi]

Dynamic Perceiver for Efficient Visual RecognitionYizeng Han, Dongchen Han, Zeyu Liu, Yulin Wang, Xuran Pan, Yifan Pu, Chao Deng, Junlan Feng, Shiji Song, Gao Huang. 5969-5979 [doi]

SG-Former: Self-guided Transformer with Evolving Token ReallocationSucheng Ren, Xingyi Yang, Songhua Liu, Xinchao Wang. 5980-5991 [doi]

Scale-Aware Modulation Meet TransformerWeifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin. 5992-6003 [doi]

Learning to Upsample by Learning to SampleWenze Liu, Hao Lu 0003, Hongtao Fu, Zhiguo Cao 0001. 6004-6014 [doi]

GET: Group Event Transformer for Event-Based VisionYansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun 0001, Feng Wu 0001. 6015-6025 [doi]

Adaptive Frequency Filters As Efficient Global Token MixersZhipeng Huang 0014, Zhizheng Zhang 0004, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo. 6026-6036 [doi]

Fcaformer: Forward Cross Attention in Hybrid Vision TransformerHaokui Zhang, Wenze Hu, Xiaoyu Wang. 6037-6046 [doi]

Dynamic Snake Convolution based on Topological Geometric Constraints for Tubular Structure SegmentationYaolei Qi, Yuting He, Xiaoming Qi, Yuan Zhang, Guanyu Yang. 6047-6056 [doi]

Sentence Attention Blocks for Answer GroundingSeyedalireza Khoshsirat, Chandra Kambhamettu. 6057-6067 [doi]

MST-compression: Compressing and Accelerating Binary Neural Networks with Minimum Spanning TreeQuang Hieu Vo, Linh-Tam Tran, Sung-Ho Bae, Lok-Won Kim, Choong Seon Hong. 6068-6077 [doi]

EGformer: Equirectangular Geometry-biased Transformer for 360 Depth EstimationIlwi Yun, Chanyong Shin, Hyunku Lee, Hyuk-Jae Lee, Chae-Eun Rhee. 6078-6089 [doi]

SPANet: Frequency-balancing Token Mixer using Spectral Pooling Aggregation ModulationGuhnoo Yun, Juhan Yoo, Kijung Kim, Jeongho Lee, Dong-Hwan Kim. 6090-6101 [doi]

ModelGiF: Gradient Fields for Model Functional DistanceJie Song, Zhengqi Xu, Sai Wu, Gang Chen, Mingli Song. 6102-6112 [doi]

ClusT3: Information Invariant Test-Time TrainingGustavo Adolfo Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Ismail Ben Ayed, Christian Desrosiers. 6113-6112 [doi]

Cumulative Spatial Knowledge Distillation for Vision TransformersBorui Zhao, Renjie Song, Jiajun Liang. 6123-6132 [doi]

Luminance-aware Color Transform for Multiple Exposure CorrectionJong-Hyeon Baek, Daehyun Kim, Su-Min Choi, Hyo-jun Lee, Hanul Kim, Yeong Jun Koh. 6133-6142 [doi]

Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural NetworksQingyan Meng, Mingqing Xiao 0002, Shen Yan, Yisen Wang 0001, Zhouchen Lin, Zhi-Quan Luo. 6143-6153 [doi]

Domain Generalization Guided by Gradient Signal to Noise Ratio of ParametersMateusz Michalkiewicz, Masoud Faraki, Xiang Yu 0002, Manmohan Chandraker, Mahsa Baktashmotlagh. 6154-6165 [doi]

DOT: A Distillation-Oriented TrainerBorui Zhao, Quan Cui, Renjie Song, Jiajun Liang. 6166-6175 [doi]

Extensible and Efficient Proxy for Neural Architecture SearchYuhong Li, Jiajie Li, Cong Hao, Pan Li 0005, Jinjun Xiong, Deming Chen. 6176-6187 [doi]

Learning to Transform for Generalizable Instance-wise InvarianceUtkarsh Singhal, Carlos Esteves, Ameesh Makadia, Stella X. Yu. 6188-6198 [doi]

Convolutional Networks with Oriented 1D KernelsAlexandre Kirchmeyer, Jia Deng. 6199-6209 [doi]

Random Boxes Are Open-world Object DetectorsYanghao Wang, Zhongqi Yue, Xian-Sheng Hua 0001, Hanwang Zhang. 6210-6220 [doi]

Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object DetectionYuxin Fang, Shusheng Yang, Shijie Wang, Yixiao Ge, Ying Shan, Xinggang Wang. 6221-6230 [doi]

CoIn: Contrastive Instance Feature Mining for Outdoor 3D Object Detection with Very Limited AnnotationsQiming Xia, Jinhao Deng, Chenglu Wen, Hai Wu, Shaoshuai Shi, Xin Li, Cheng Wang 0003. 6231-6240 [doi]

A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain's Recognition MechanismMinying Zhang, Tianpeng Bu, Lulu Hu. 6241-6251 [doi]

Anchor-Intermediate Detector: Decoupling and Coupling Bounding Boxes for Accurate Object DetectionYilong Lv, Min Li, Yujie He, Zhuzhen He, Shaopeng Li, Aitao Yang. 6252-6261 [doi]

Inter-Realization Channels: Unsupervised Anomaly Detection Beyond One-Class ClassificationDeclan McIntosh, Alexandra Branzan Albu. 6262-6272 [doi]

Deep Equilibrium Object DetectionShuai Wang, Yao Teng, Limin Wang. 6273-6283 [doi]

RecursiveDet: End-to-End Region-based Recursive Object DetectionJing Zhao, Li Sun, Qingli Li. 6284-6293 [doi]

Small Object Detection via Coarse-to-fine Proposal Generation and Imitation LearningXiang Yuan, Gong Cheng 0003, Kebing Yan, Qinghua Zeng, Junwei Han. 6294-6304 [doi]

ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive Sparse Anchor GenerationShenghao Fu, Junkai Yan, Yipeng Gao, Xiaohua Xie, Wei-Shi Zheng 0001. 6305-6315 [doi]

COCO-O: A Benchmark for Object Detectors under Natural Distribution ShiftsXiaofeng Mao, Yuefeng Chen, Yao Zhu, Da Chen 0003, Hang Su, Rong Zhang, Hui Xue 0001. 6316-6327 [doi]

Generative Prompt Model for Weakly Supervised Object LocalizationYuZhong Zhao, Qixiang Ye, Weijia Wu, Chunhua Shen, Fang Wan. 6328-6338 [doi]

UniKD: Universal Knowledge Distillation for Mimicking Homogeneous or Heterogeneous Object DetectorsShanshan Lao, Guanglu Song, Boxiao Liu, Yu Liu 0015, Yujiu Yang. 6339-6349 [doi]

PNI: Industrial Anomaly Detection using Position and Neighborhood InformationJaehyeok Bae, Jae-Han Lee, Seyun Kim. 6350-6360 [doi]

Masked Autoencoders Are Stronger Knowledge DistillersShanshan Lao, Guanglu Song, Boxiao Liu, Yu Liu, Yujiu Yang. 6361-6370 [doi]

GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point CloudsZiyu Li, Jingming Guo, Tongtong Cao, Bingbing Liu, Wankou Yang. 6371-6380 [doi]

ADNet: Lane Shape Prediction via Anchor DecompositionLingyu Xiao, Xiang Li, Sen Yang, Wankou Yang. 6381-6390 [doi]

Periodically Exchange Teacher-Student for Source-Free Object DetectionQipeng Liu 0004, Luojun Lin, Zhifeng Shen, Zhifeng Yang. 6391-6401 [doi]

Towards Fair and Comprehensive Comparisons for Image-Based 3D Object DetectionXinzhu Ma, Yongtao Wang, Yinmin Zhang, Zhiyi Xia, Yuan Meng, Zhihui Wang, Haojie Li, Wanli Ouyang. 6402-6412 [doi]

Monocular 3D Object Detection with Bounding Box Denoising in 3D by PerceiverXianpeng Liu, Ce Zheng, Kelvin Cheng 0003, Nan Xue 0001, Guo-Jun Qi, Tianfu Wu 0001. 6413-6423 [doi]

Template-guided Hierarchical Feature Restoration for Anomaly DetectionHewei Guo, Liping Ren, Jingjing Fu, Yuwang Wang, Zhizheng Zhang, Cuiling Lan, Haoqian Wang, Xinwen Hou. 6424-6435 [doi]

ALWOD: Active Learning for Weakly-Supervised Object DetectionYuTing Wang, Velibor Ilic, Jiatong Li, Branislav Kisacanin, Vladimir Pavlovic 0001. 6436-6446 [doi]

ProtoFL: Unsupervised Federated Learning via Prototypical DistillationHansol Kim, Youngjun Kwak, Minyoung Jung, Jinho Shin, Youngsung Kim, Changick Kim. 6447-6456 [doi]

Efficient Adaptive Human-Object Interaction Detection with Concept-guided MemoryTing Lei, Fabian Caba, Qingchao Chen, Hailin Jin, Yuxin Peng, Yang Liu. 6457-6467 [doi]

Detection Transformer with Stable MatchingShilong Liu, Tianhe Ren, Jiayu Chen, Zhaoyang Zeng, Hao Zhang, Feng Li, Hongyang Li, Jun Huang, Hang Su, Jun Zhu, Lei Zhang. 6468-6477 [doi]

Distilling DETR with Visual-Linguistic Knowledge for Open-Vocabulary Object DetectionLiangqi Li, Jiaxu Miao, Dahu Shi, Wenming Tan, Ye Ren, Yi Yang, Shiliang Pu. 6478-6487 [doi]

Anomaly Detection under Distribution ShiftTri Cao, Jiawen Zhu, Guansong Pang. 6488-6500 [doi]

Detecting Objects with Context-Likelihood Graphs and Graph RefinementAritra Bhowmik, Yu Wang 0065, Nora Baka, Martin R. Oswald, Cees G. M. Snoek. 6501-6510 [doi]

Unsupervised Object Localization with Representer Point SelectionYeonghwan Song, SeokWoo Jang, Dina Katabi, Jeany Son. 6511-6521 [doi]

DETR Does Not Need Multi-Scale or Locality DesignYutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng 0001, Han Hu 0001. 6522-6531 [doi]

Deep Directly-Trained Spiking Neural Networks for Object DetectionQiaoyi Su, Yuhong Chou, Yifan Hu, Jianing Li, Shijie Mei, Ziyang Zhang, Guoqi Li. 6532-6542 [doi]

GACE: Geometry Aware Confidence Enhancement for Black-box 3D Object Detectors on LiDAR-DataDavid Schinagl, Georg Krispel, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof. 6543-6553 [doi]

StageInteractor: Query-based Object Detector with Cross-stage InteractionYao Teng, Haisong Liu, Sheng Guo 0005, Limin Wang. 6554-6565 [doi]

Adaptive Rotated Convolution for Rotated Object DetectionYifan Pu, Yiru Wang, Zhuofan Xia, Yizeng Han, Yulin Wang, Weihao Gan, Zidong Wang, Shiji Song, Gao Huang. 6566-6577 [doi]

Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object DetectionManyuan Zhang, Guanglu Song, Yu Liu 0015, Hongsheng Li 0001. 6578-6587 [doi]

Exploring Transformers for Open-world Instance SegmentationJiannan Wu, Yi Jiang, Bin Yan 0004, Huchuan Lu, Zehuan Yuan, Ping Luo. 6588-6598 [doi]

DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised Temporal Action LocalizationXiaojun Tang, Junsong Fan, Chuanchen Luo, Zhaoxiang Zhang, Man Zhang, Zongyuan Yang. 6599-6609 [doi]

Group DETR: Fast DETR Training with Group-Wise One-to-Many AssignmentQiang Chen, Xiaokang Chen, Jian Wang, Shan Zhang, Kun Yao, Haocheng Feng, Junyu Han, Errui Ding, Gang Zeng, Jingdong Wang 0001. 6610-6619 [doi]

Category-aware Allocation Transformer for Weakly Supervised Object LocalizationZhiwei Chen, Jinren Ding, Liujuan Cao, Yunhang Shen, Shengchuan Zhang, Guannan Jiang, Rongrong Ji. 6620-6629 [doi]

The Devil is in the Crack Orientation: A New Perspective for Crack DetectionZhuangzhuang Chen, Jin Zhang, Zhuonan Lai, Guanming Zhu, Zun Liu, Jie Chen, Jianqiang Li 0001. 6630-6640 [doi]

Clusterformer: Cluster-based Transformer for 3D Object Detection in Point CloudsYu Pei, Xian Zhao, Hao Li, Jingyuan Ma, Jingwei Zhang, Shiliang Pu. 6641-6650 [doi]

Less is More: Focus Attention for Efficient DETRDehua Zheng, Wenhui Dong, Hailin Hu 0002, Xinghao Chen 0001, Yunhe Wang 0001. 6651-6660 [doi]

DFA3D: 3D Deformable Attention For 2D-to-3D Feature LiftingHongyang Li, Hao Zhang, Zhaoyang Zeng, Shilong Liu, Feng Li, Tianhe Ren, Lei Zhang. 6661-6670 [doi]

Multi-Label Self-Supervised Learning with Scene ImagesKe Zhu, Minghao Fu, Jianxin Wu 0001. 6671-6680 [doi]

Cascade-DETR: Delving into High-Quality Universal Object DetectionMingqiao Ye, Lei Ke, Siyuan Li, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu 0001. 6681-6691 [doi]

Representation Disparity-aware Distillation for 3D Object DetectionYanjing Li, Sheng Xu, Mingbao Lin, Jihao Yin, Baochang Zhang 0001, Xianbin Cao 0001. 6692-6701 [doi]

FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light VisionKhurram Azeem Hashmi, Goutham Kallempudi, Didier Stricker, Muhammad Zeshan Afzal. 6702-6712 [doi]

DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point CloudsTao Ma, Xuemeng Yang, Hongbin Zhou, Xin Li, Botian Shi, Junjie Liu, Yuchen Yang, Zhizheng Liu, Liang He, Yu Qiao, Yikang Li, Hongsheng Li. 6713-6724 [doi]

DETRs with Collaborative Hybrid Assignments TrainingZhuofan Zong, Guanglu Song, Yu Liu 0015. 6725-6735 [doi]

Open-Vocabulary Object Detection With an Open CorpusJiong Wang, Huiming Zhang, Haiwen Hong, Xuan Jin, Yuan He 0011, Hui Xue 0001, Zhou Zhao. 6736-6746 [doi]

SparseDet: Improving Sparsely Annotated Object Detection with Pseudo-positive MiningSaksham Suri, Sai Saketh Rambhatla, Rama Chellappa, Abhinav Shrivastava. 6747-6758 [doi]

Unsupervised Surface Anomaly Detection with Diffusion Probabilistic ModelXinyi Zhang, Naiqi Li, Jiawei Li, Tao Dai 0001, Yong Jiang, Shu-Tao Xia. 6759-6768 [doi]

UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View RepresentationHaiyang Wang, Hao Tang, Shaoshuai Shi, Aoxue Li, Zhenguo Li, Bernt Schiele, Liwei Wang. 6769-6779 [doi]

Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image Anomaly DetectionXincheng Yao, Ruoqi Li, Zefeng Qian, Yan Luo, Chongyang Zhang. 6780-6790 [doi]

MonoNeRD: NeRF-like Representations for Monocular 3D Object DetectionJunkai Xu, Liang Peng, Haoran Chen, Hao Li, Wei Qian, Ke Li, Wenxiao Wang 0001, Deng Cai 0001. 6791-6801 [doi]

Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object DetectionFeng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye. 6802-6811 [doi]

Generating Dynamic Kernels via Transformers for Lane DetectionZiye Chen, Yu Liu, Mingming Gong, Bo Du 0001, Guoqi Qian, Kate Smith-Miles. 6812-6821 [doi]

Meta-ZSDETR: Zero-shot DETR with Meta-learningLu Zhang, Chenbo Zhang, Jiajia Zhao, Jihong Guan, Shuigeng Zhou. 6822-6831 [doi]

Spatial Self-Distillation for Object Detection with Inaccurate Bounding BoxesDi Wu, Pengfei Chen 0004, Xuehui Yu, Guorong Li, Zhenjun Han, Jianbin Jiao. 6832-6842 [doi]

AlignDet: Aligning Pre-training and Fine-tuning in Object DetectionMing Li, Jie Wu, Xionghui Wang, Chen Chen, Jie Qin, XueFeng Xiao, Rui Wang, Min Zheng, Xin Pan. 6843-6853 [doi]

MULLER: Multilayer Laplacian Resizer for VisionZhengzhong Tu, Peyman Milanfar, Hossein Talebi. 6854-6864 [doi]

Unilaterally Aggregated Contrastive Learning with Hierarchical Augmentation for Anomaly DetectionGuodong Wang, Yunhong Wang, Jie Qin, Dongming Zhang, Xiuguo Bao, Di Huang 0001. 6865-6874 [doi]

DETRDistill: A Universal Knowledge Distillation Framework for DETR-familiesJiahao Chang, Shuo Wang, Hai-ming Xu, Zehui Chen, Chenhongyi Yang, Feng Zhao 0004. 6875-6885 [doi]

Delving into Motion-Aware Matching for Monocular 3D Object TrackingKuan-Chih Huang, Ming-Hsuan Yang 0001, Yi-Hsuan Tsai. 6886-6895 [doi]

FB-BEV: BEV Representation from Forward-Backward View TransformationsZhiqi Li, Zhiding Yu, Wenhai Wang, Anima Anandkumar, Tong Lu, José M. Álvarez 0004. 6896-6905 [doi]

Learning with Noisy Data for Semi-Supervised 3D Object DetectionZehui Chen, Zhenyu Li, Shuo Wang, Dengpan Fu, Feng Zhao. 6906-6916 [doi]

Boosting Long-tailed Object Detection via Step-wise Learning on Smooth-tail DataNa Dong, Yongqiang Zhang 0007, Mingli Ding, Gim Hee Lee. 6917-6926 [doi]

Objects do not disappear: Video object detection by single-frame object location anticipationXin Liu, Fatemeh Karimi Nejadasl, Jan C. van Gemert, Olaf Booij, Silvia L. Pintea. 6927-6938 [doi]

Unified Visual Relationship Detection with Vision and Language ModelsLong Zhao 0003, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang 0001, Hartwig Adam, Ting Liu 0005. 6939-6950 [doi]

Universal Domain Adaptation via Compressive Attention MatchingDidi Zhu, Yinchuan Li, Junkun Yuan, Zexi Li, Kun Kuang, Chao Wu. 6951-6962 [doi]

Unsupervised Domain Adaptive Detection with Network Stability AnalysisWenzhang Zhou, Heng Fan 0001, Tiejian Luo, Libo Zhang 0001. 6963-6972 [doi]

ImGeoNet: Image-induced Geometry-aware Voxel Representation for Multi-view 3D Object DetectionTao Tu, Shun-Po Chuang, Yu-Lun Liu 0001, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun. 6973-6984 [doi]

Cyclic-Bootstrap Labeling for Weakly Supervised Object DetectionYufei Yin, Jiajun Deng, Wengang Zhou, Li Li, Houqiang Li. 6985-6995 [doi]

Text-Driven Generative Domain Adaptation with Spectral Consistency RegularizationZhenhuan Liu, Liang Li, Jiayu Xiao, Zheng-Jun Zha, Qingming Huang. 6996-7006 [doi]

MosaiQ: Quantum Generative Adversarial Networks for Image Generation on NISQ ComputersDaniel Silver, Aditya Ranjan, Tirthak Patel, Harshitta Gandhi, William Cutler, Devesh Tiwari. 7007-7016 [doi]

Controllable Visual-Tactile SynthesisRuihan Gao, Wenzhen Yuan, Jun-Yan Zhu. 7017-7029 [doi]

Editing Implicit Assumptions in Text-to-Image Diffusion ModelsHadas Orgad, Bahjat Kawar, Yonatan Belinkov. 7030-7038 [doi]

DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human AvatarsDavid Svitov, Dmitrii Gudkov, Renat Bashirov, Victor Lempitsky. 7039-7049 [doi]

Smoothness Similarity Regularization for Few-Shot GAN AdaptationVadim Sushko, Ruyu Wang, Juergen Gall. 7050-7059 [doi]

HSR-Diff: Hyperspectral Image Super-Resolution via Conditional Diffusion ModelsChanyue Wu, Dong Wang, Yunpeng Bai, Hanyu Mao, Ying Li, Qiang Shen. 7060-7070 [doi]

Long-Term Photometric Consistent Novel View Synthesis with Diffusion ModelsJason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker. 7071-7081 [doi]

AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model AccelerationLijiang Li, Huixia Li, Xiawu Zheng, Jie Wu, XueFeng Xiao, Rui Wang, Min Zheng, Xin Pan, Fei Chao 0001, Rongrong Ji. 7082-7091 [doi]

Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose Transfer by Permuting TexturesNannan Li 0004, Kevin J. Shih, Bryan A. Plummer. 7092-7103 [doi]

Multi-Directional Subspace Editing in Style-SpaceChen Naveh. 7104-7114 [doi]

HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and Retarget FacesStella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis Patras, Georgios Tzimiropoulos. 7115-7125 [doi]

Generating Realistic Images from In-the-wild SoundsTaegyeong Lee, Jeonghun Kang, Hyeonyu Kim, Taehwan Kim. 7126-7136 [doi]

CC3D: Layout-Conditioned Generation of Compositional 3D ScenesSherwin Bahmani, Jeong-Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas J. Guibas, Andrea Tagliasacchi. 7137-7147 [doi]

UMFuse: Unified Multi View Fusion for Human Editing applicationsRishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan Lu, Mausoom Sarkar, Balaji Krishnamurthy. 7148-7157 [doi]

Evaluating Data Attribution for Text-to-Image ModelsSheng-yu Wang, Alexei A. Efros, Jun-Yan Zhu, Richard Zhang 0001. 7158-7169 [doi]

Neural Characteristic Function Learning for Conditional Image GenerationShengxi Li, Jialu Zhang, Yifei Li, Mai Xu, Xin Deng, Li Li. 7170-7180 [doi]

WaveIPT: Joint Attention and Flow Alignment in the Wavelet domain for Pose TransferLiyuan Ma, Tingwei Gao, Haitian Jiang, Haibin Shen, Kejie Huang. 7181-7191 [doi]

LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic ModelsJunyi Zhang 0004, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang 0001. 7192-7202 [doi]

Human-Inspired Facial Sketch Synthesis with Dynamic AdaptationFei Gao, Yifan Zhu, Chang Jiang, Nannan Wang 0001. 7203-7213 [doi]

Conceptual and Hierarchical Latent Space Decomposition for Face EditingSavas Özkan, Mete Özay, Tom Robinson. 7214-7223 [doi]

Improving Diversity in Zero-Shot GAN Adaptation with Semantic VariationsSeogkyu Jeon, Bei Liu 0001, Pilhyeon Lee, Kibeom Hong, Jianlong Fu, Hyeran Byun. 7224-7233 [doi]

BallGAN: 3D-aware Image Synthesis with a Spherical BackgroundMinjung Shin, Yunji Seo, Jeongmin Bae, Young Sun Choi, Hyunsu Kim, Hyeran Byun, Youngjung Uh. 7234-7245 [doi]

End-to-End Diffusion Latent Optimization Improves Classifier GuidanceBram Wallace, Akash Gokul, Stefano Ermon, Nikhil Naik. 7246-7256 [doi]

Deep Geometrized Cartoon Line InbetweeningLi Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu 0002, Chen Change Loy. 7257-7266 [doi]

UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human GenerationJianglin Fu, Shikai Li, Yuming Jiang 0003, Kwan-Yee Lin, Wayne Wu, Ziwei Liu 0002. 7267-7277 [doi]

Towards Authentic Face Restoration with Iterative Diffusion Models and BeyondYang Zhao, Tingbo Hou, Yu-Chuan Su, Xuhui Jia, Yandong Li, Matthias Grundmann. 7278-7288 [doi]

SVDiff: Compact Parameter Space for Diffusion Fine-TuningLigong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris N. Metaxas, Feng Yang. 7289-7300 [doi]

MI-GAN: A Simple Baseline for Image Inpainting on Mobile DevicesAndranik Sargsyan, Shant Navasardyan, Xingqian Xu, Humphrey Shi. 7301-7311 [doi]

Structure and Content-Guided Video Synthesis with Diffusion ModelsPatrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, Anastasis Germanidis. 7312-7322 [doi]

Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image TranslationYuxin Jiang, Liming Jiang, Shuai Yang 0001, Chen Change Loy. 7323-7333 [doi]

Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient Vision TransformersShiyue Cao, Yueqin Yin, Lianghua Huang, Yu Liu 0063, Xin Zhao 0012, Deli Zhao, Kaiqi Huang. 7334-7343 [doi]

A Latent Space of Stochastic Diffusion Models for Zero-Shot Image Editing and GuidanceChen Henry Wu, Fernando De la Torre. 7344-7353 [doi]

Generative Multiplane Neural Radiance for 3D-Aware Image GenerationAmandeep Kumar, Ankan Kumar Bhunia, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer, Salman H. Khan 0001, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 7354-7364 [doi]

Parallax-Tolerant Unsupervised Deep Image StitchingLang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao. 7365-7374 [doi]

GAIT: Generating Aesthetic Indoor Tours with Deep Reinforcement LearningDesai Xie, Ping Hu, Xin Sun, Sören Pirk, Jianming Zhang 0001, Radomír Mech, Arie E. Kaufman. 7375-7385 [doi]

EverLight: Indoor-Outdoor Editable HDR Lighting EstimationMohammad Reza Karimi Dastjerdi, Jonathan Eisenmann, Yannick Hold-Geoffroy, Jean-François Lalonde. 7386-7395 [doi]

Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion ModelsWenkai Dong, Song Xue, Xiaoyue Duan, Shumin Han. 7396-7406 [doi]

Efficient Diffusion Training via Min-SNR Weighting StrategyTiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen 0003, Han Hu 0001, Xin Geng, Baining Guo. 7407-7417 [doi]

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained DiffusionJinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng 0001, Mike Zheng Shou. 7418-7427 [doi]

Improving Sample Quality of Diffusion Models Using Self-Attention GuidanceSusung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim. 7428-7437 [doi]

Not All Steps are Created Equal: Selective Diffusion Distillation for Image ManipulationLuozhou Wang, Shuai Yang, Shu Liu, Ying-Cong Chen. 7438-7447 [doi]

Deep Image Harmonization with Learnable AugmentationLi Niu 0002, Junyan Cao, Wenyan Cong, Liqing Zhang 0001. 7448-7457 [doi]

Out-of-domain GAN inversion via Invertibility Decomposition for Photo-Realistic Human Face ManipulationXin Yang, Xiaogang Xu, Yingcong Chen. 7458-7467 [doi]

Bidirectionally Deformable Motion Modulation For Video-based Human Pose TransferWing Yin Yu, Lai-Man Po, Ray C. C. Cheung, Yuzhi Zhao, Yu Xue, Kun Li. 7468-7478 [doi]

Size Does Matter: Size-aware Virtual Try-on via Clothing-oriented Transformation Try-on NetworkChieh-Yun Chen, Yi-Chung Chen, Hong-Han Shuai, Wen-Huang Cheng. 7479-7488 [doi]

VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEsMoayed Haji Ali, Andrew Bond, Levent Karacan, Tolga Birdal, Erkut Erdem, Duygu Ceylan, Aykut Erdem. 7489-7500 [doi]

Learning Global-aware Kernel for Image HarmonizationXintian Shen, Jiangning Zhang, Jun Chen, Shipeng Bai, Yue Han, Yabiao Wang, Chengjie Wang, Yong Liu. 7501-7510 [doi]

Expressive Text-to-Image Generation with Rich TextSongwei Ge, Taesung Park, Jun-Yan Zhu, Jia-Bin Huang 0001. 7511-7522 [doi]

A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene ReconstructionChongshan Lu, Fukun Yin, Xin Chen, Wen Liu, Tao Chen 0003, Gang Yu, Jiayuan Fan. 7523-7533 [doi]

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait SynthesisJiahe Li, Jiawei Zhang, Xiao Bai 0001, Jun Zhou 0001, Lin Gu 0003. 7534-7544 [doi]

Perceptual Artifacts Localization for Image Synthesis TasksLingzhi Zhang, Zhengjie Xu, Connelly Barnes, YuQian Zhou, Qing Liu, He Zhang 0004, Sohrab Amirghodsi, Zhe Lin, Eli Shechtman, Jianbo Shi. 7545-7556 [doi]

Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image SynthesisMinho Park, Jooyeol Yun, Seunghwan Choi, Jaegul Choo. 7557-7566 [doi]

StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative ModelZipeng Xu, Enver Sangineto, Nicu Sebe. 7567-7577 [doi]

Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy ReductionChaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat, Jaegul Choo. 7578-7588 [doi]

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video GenerationJay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou. 7589-7599 [doi]

BlendFace: Re-designing Identity Encoders for Face-SwappingKaede Shiohara, Xingchao Yang, Takafumi Taketomi. 7600-7610 [doi]

Talking Head Generation with Probabilistic Audio-to-Visual Diffusion PriorsZhentao Yu, Zixin Yin, Deyu Zhou, Duomin Wang, Finn Wong, Baoyuan Wang. 7611-7621 [doi]

LinkGAN: Linking GAN Latents to Pixels for Controllable Image SynthesisJiapeng Zhu, Ceyuan Yang, Yujun Shen, Zifan Shi, Bo Dai 0002, Deli Zhao, Qifeng Chen. 7622-7632 [doi]

Open-vocabulary Object Segmentation with Diffusion ModelsZiyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie. 7633-7642 [doi]

StyleDiffusion: Controllable Disentangled Style Transfer via Diffusion ModelsZhizhong Wang, Lei Zhao, Wei Xing. 7643-7655 [doi]

ToonTalker: Cross-Domain Face ReenactmentYuan Gong, Yong Zhang, Xiaodong Cun, Fei Yin, Yanbo Fan, Xuan Wang, Baoyuan Wu, Yujiu Yang. 7656-7666 [doi]

Dense Text-to-Image Generation with Attention ModulationYunji Kim, Jiyoung Lee, Jin-Hwa Kim, Jung-Woo Ha, Jun-Yan Zhu. 7667-7677 [doi]

Householder Projector for Unsupervised Latent Semantics DiscoveryYue Song, Jichao Zhang, Nicu Sebe, Wei Wang. 7678-7688 [doi]

Deep Image Harmonization with Globally Guided Feature Transformation and Relation DistillationLi Niu, Linfeng Tan, Xinhao Tao, Junyan Cao, Fengjun Guo, Teng Long, Liqing Zhang. 7689-7698 [doi]

One-Shot Generative Domain AdaptationCeyuan Yang, Yujun Shen, Zhiyi Zhang, Yinghao Xu, Jiapeng Zhu, Zhirong Wu, Bolei Zhou. 7699-7708 [doi]

Hashing Neural Video Decomposition with Multiplicative Residuals in Space-TimeCheng-Hung Chan, Cheng-Yang Yuan, Cheng Sun 0004, Hwann-Tzong Chen. 7709-7719 [doi]

Versatile Diffusion: Text, Images and Variations All in One Diffusion ModelXingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi. 7720-7731 [doi]

Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image SynthesisQiucheng Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang, Shiyu Chang. 7732-7742 [doi]

Sound Source Localization is All about Cross-Modal AlignmentArda Senocak, Hyeonggon Ryu, Junsik Kim 0001, Tae Hyun Oh, Hanspeter Pfister, Joon Son Chung. 7743-7753 [doi]

Class-Incremental Grouping Network for Continual Audio-Visual LearningShentong Mo, Weiguo Pian, Yapeng Tian. 7754-7764 [doi]

Audio-Visual Class-Incremental LearningWeiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian. 7765-7777 [doi]

DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker EmbeddingJeongsoo Choi, Joanna Hong, Yong Man Ro. 7778-7787 [doi]

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable DiffusionYujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon, Sangpil Kim, Jinkyu Kim. 7788-7798 [doi]

SIDGAN: High-Resolution Dubbed Video Generation via Shift-Invariant LearningUrwa Muaz, Wondong Jang, Rohun Tripathi, Santhosh Mani, Wenbin Ouyang, Ravi Teja Gadde, Baris Gecer, Sergio Elizondo, Reza Madad, Naveen Nair. 7799-7808 [doi]

On the Audio-visual Synchronization for Lip-to-Speech SynthesisZhe Niu, Brian Mak. 7809-7818 [doi]

Be Everywhere - Hear Everything (BEE): Audio Scene Reconstruction by Sparse Audio-Visual SamplesMingfei Chen, Kun Su, Eli Shlizerman. 7819-7828 [doi]

Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal DistillationHeeseung Yun, Joonil Na, Gunhee Kim. 7829-7838 [doi]

Hyperbolic Audio-visual Zero-shot LearningJie Hong, Zeeshan Hayder, Junlin Han, Pengfei Fang, Mehrtash Harandi, Lars Petersson. 7839-7849 [doi]

AdVerb: Visually Guided Audio DereverberationSanjoy Chowdhury, Sreyan Ghosh, Subhrajyoti Dasgupta, Anton Ratnarajah, Utkarsh Tyagi, Dinesh Manocha. 7850-7862 [doi]

Sound Localization from Motion: Jointly Learning Sound Direction and Camera RotationZiyang Chen, Shengyi Qian 0001, Andrew Owens. 7863-7874 [doi]

Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image ModelsLukas Höllein, Ang Cao, Andrew Owens, Justin Johnson 0001, Matthias Nießner. 7875-7886 [doi]

LivePose: Online 3D Reconstruction from Monocular Video with Dynamic Camera PosesNoah Stier, Baptiste Angles, Liang Yang, Yajie Yan, Alex Colburn, Ming Chuang. 7887-7896 [doi]

NDDepth: Normal-Distance Assisted Monocular Depth EstimationShuwei Shao, Zhongcai Pei, Weihai Chen, Xingming Wu, Zhengguo Li. 7897-7906 [doi]

LATR: 3D Lane Detection from Monocular Images with TransformerYueru Luo, Chaoda Zheng, Xu Yan, Tang Kun, Chao Zheng, Shuguang Cui, Zhen Li. 7907-7918 [doi]

DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous DrivingXiaosong Jia, YuLu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li. 7919-7929 [doi]

Dynamic Point FieldsSergey Prokudin, Qianli Ma, Maxime Raafat, Julien Valentin, Siyu Tang 0001. 7930-7942 [doi]

Generalizing Neural Human Fitting to Unseen Poses With Articulated SE(3) EquivarianceHaiwen Feng, Peter Kulits, Shichen Liu, Michael J. Black, Victoria Fernández Abrevaya. 7943-7954 [doi]

Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric ViewsSiwei Zhang, Qianli Ma, Yan Zhang 0054, Sadegh Aliakbarian, Darren Cosker, Siyu Tang 0001. 7955-7966 [doi]

DECO: Dense Estimation of 3D Human-Scene Contact In The WildShashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black. 7967-7979 [doi]

Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB ImagePengfei Ren, Chao Wen, Xiaozheng Zheng, Zhou Xue, Haifeng Sun 0001, Qi Qi 0001, Jingyu Wang 0001, Jianxin Liao. 7980-7991 [doi]

Chasing clouds: Differentiable volumetric rasterisation of point clouds as a highly efficient and accurate loss for large-scale deformable 3D registrationMattias P. Heinrich, Alexander Bigalke, Christoph Großbröhmer, Lasse Hansen. 7992-8002 [doi]

Rehearsal-Free Domain Continual Face Anti-Spoofing: Generalize More and Forget LessRizhao Cai, Yawen Cui, Zhi Li, Zitong Yu, Haoliang Li, Yongjian Hu, Alex C. Kot. 8003-8014 [doi]

A 5-Point Minimal Solver for Event Camera Relative Motion EstimationLing Gao, Hang Su, Daniel Gehrig, Marco Cannici, Davide Scaramuzza 0001, Laurent Kneip. 8015-8025 [doi]

General Planar Motion from a Pair of 3D CorrespondencesJuan Carlos Dibene, Zhixiang Min, Enrique Dunn. 8026-8036 [doi]

Beyond the Pixel: a Photometrically Calibrated HDR Dataset for Luminance and Color PredictionChristophe Bolduc, Justine Giroux, Marc Hébert, Claude Demers, Jean-François Lalonde. 8037-8047 [doi]

DDFM: Denoising Diffusion Model for Multi-Modality Image FusionZixiang Zhao, Haowen Bai, Yuanzhi Zhu, Jiangshe Zhang 0001, Shuang Xu, Yulun Zhang, Kai Zhang 0008, Deyu Meng, Radu Timofte, Luc Van Gool. 8048-8059 [doi]

Iterative Prompt Learning for Unsupervised Backlit Image EnhancementZhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy. 8060-8069 [doi]

Similarity Min-Max: Zero-Shot Day-Night Domain AdaptationRundong Luo, Wenjing Wang 0001, Wenhan Yang, Jiaying Liu 0001. 8070-8080 [doi]

Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and SegmentationJinyuan Liu, Zhu Liu, Guanyao Wu, Long Ma 0002, Risheng Liu, Wei Zhong, Zhongxuan Luo, Xin Fan 0001. 8081-8090 [doi]

Computational 3D Imaging with Position SensorsJeremy Klotz, Mohit Gupta 0001, Aswin C. Sankaranarayanan. 8091-8100 [doi]

Passive Ultra-Wideband Single-Photon ImagingMian Wei, Sotiris Nousias, Rahul Gulve, David B. Lindell, Kiriakos N. Kutulakos. 8101-8112 [doi]

Viewing Graph Solvability in PracticeFederica Arrigoni, Tomás Pajdla, Andrea Fusiello. 8113-8121 [doi]

Minimal Solutions to Generalized Three-View Relative Pose ProblemYaqing Ding 0001, Chiang-Heng Chien, Viktor Larsson, Karl Åström 0002, Benjamin B. Kimia. 8122-8130 [doi]

SoDaCam: Software-defined Cameras via Single-Photon ImagingVarun Sundar, Andrei Ardelean, Tristan Swedish, Claudio Bruschini, Edoardo Charbon, Mohit Gupta 0001. 8131-8142 [doi]

Robust Monocular Depth Estimation under Challenging ConditionsStefano Gasperini, Nils Morbitzer, Hyunjun Jung, Nassir Navab, Federico Tombari. 8143-8152 [doi]

UMC: A Unified Bandwidth-efficient and Multi-resolution based Collaborative Perception FrameworkTianhang Wang, Guang Chen, Kai Chen, Zhengfa Liu, Bo Zhang, Alois Knoll, Changjun Jiang. 8153-8162 [doi]

View Consistent Purification for Accurate Cross-View LocalizationShan Wang, Yanhao Zhang, Akhil Perincherry, Ankit Vora, Hongdong Li. 8163-8172 [doi]

Semi-supervised Semantics-guided Adversarial Training for Robust Trajectory PredictionRuochen Jiao, Xiangguo Liu, Takami Sato, Qi Alfred Chen, Qi Zhu 0002. 8173-8183 [doi]

NeRF-LOAM: Neural Implicit Representation for Large-Scale Incremental LiDAR Odometry and MappingJunyuan Deng, Qi Wu, Xieyuanli Chen, Songpengcheng Xia, Zhen Sun, Guoqing Liu, Wenxian Yu, Ling Pei. 8184-8193 [doi]

MapPrior: Bird's-Eye View Map Layout Estimation with Generative ModelsXiyue Zhu, Vlas Zyrianov, Zhijian Liu, Shenlong Wang. 8194-8205 [doi]

Hidden Biases of End-to-End Driving ModelsBernhard Jaeger, Kashyap Chitta, Andreas Geiger 0001. 8206-8215 [doi]

Search for or Navigate to? Dual Adaptive Thinking for Object NavigationRonghao Dang, Liuyi Wang, Zongtao He, Shuai Su, Jiagui Tang, Chengju Liu, Qijun Chen. 8216-8225 [doi]

BiFF: Bi-level Future Fusion with Polyline-based Coordinate for Interactive Trajectory PredictionYiyao Zhu, Di Luan, Shaojie Shen. 8226-8237 [doi]

Towards Zero Domain Gap: A Comprehensive Study of Realistic LiDAR Simulation for Autonomy TestingSivabalan Manivasagam, Ioan Andrei Bârsan, Jingkang Wang, Ze Yang 0003, Raquel Urtasun. 8238-8248 [doi]

Clustering based Point Cloud Representation Learning for 3D AnalysisTuo Feng 0001, Wenguan Wang, Xiaohan Wang, Yi Yang, Qinghua Zheng. 8249-8260 [doi]

ADAPT: Efficient Multi-Agent Trajectory Prediction with AdaptationGörkay Aydemir, Adil Kaan Akan, Fatma Güney. 8261-8271 [doi]

MV-DeepSDF: Implicit Modeling with Multi-Sweep Point Clouds for 3D Vehicle Reconstruction in Autonomous DrivingYibo Liu, Kelly Zhu, Guile Wu, Yuan Ren, Bingbing Liu, Yang Liu, Jinjun Shan. 8272-8282 [doi]

Learning Vision-and-Language Navigation from YouTube VideosKunyang Lin, Peihao Chen, Diwei Huang, Thomas H. Li, Mingkui Tan, Chuang Gan. 8283-8292 [doi]

TrajPAC: Towards Robustness Verification of Pedestrian Trajectory Prediction ModelsLiang Zhang, Nathaniel Xu, Pengfei Yang, Gaojie Jin, Cheng-Chao Huang, Lijun Zhang. 8293-8305 [doi]

VAD: Vectorized Scene Representation for Efficient Autonomous DrivingBo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu 0001, Chang Huang, Xinggang Wang. 8306-8316 [doi]

Traj-MAE: Masked Autoencoders for Trajectory PredictionHao Chen, Jiaze Wang, Kun Shao, Furui Liu, Jianye Hao, Chenyong Guan, Guangyong Chen, Pheng-Ann Heng. 8317-8328 [doi]

Sparse Point Guided 3D Lane DetectionChengtang Yao, Lidong Yu, Yuwei Wu 0001, Yunde Jia. 8329-8338 [doi]

A Simple Vision Transformer for Weakly Semi-supervised 3D Object DetectionDingyuan Zhang, Dingkang Liang, Zhikang Zou, Jingyu Li, Xiaoqing Ye, Zhe Liu, Xiao Tan 0001, Xiang Bai. 8339-8349 [doi]

Learn TAROT with MENTOR: A Meta-Learned Self-supervised Approach for Trajectory PredictionMozhgan PourKeshavarz, Changhe Chen, Amir Rasouli. 8350-8359 [doi]

FocalFormer3D : Focusing on Hard Instance for 3D Object DetectionYilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Anima Anandkumar, Jiaya Jia, José M. Álvarez 0004. 8360-8371 [doi]

Scene as OccupancyWenwen Tong, Chonghao Sima, Tai Wang, Li Chen, Silei Wu, Hanming Deng, Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, Hongyang Li. 8372-8381 [doi]

Real-Time Neural Rasterization for Large ScenesJeffrey Yunfan Liu, Yun Chen 0014, Ze Yang 0003, Jingkang Wang, Sivabalan Manivasagam, Raquel Urtasun. 8382-8393 [doi]

A Game of Bundle Adjustment - Learning Efficient ConvergenceAmir Belder, Refael Vivanti, Ayellet Tal. 8394-8403 [doi]

Efficient Transformer-based 3D Object Detection with Dynamic Token HaltingMao Ye 0006, Gregory P. Meyer, Yuning Chai, Qiang Liu 0001. 8404-8416 [doi]

RegFormer: An Efficient Projection-Aware Transformer Network for Large-Scale Point Cloud RegistrationJiuming Liu, Guangming Wang, Zhe Liu 0022, Chaokang Jiang, Marc Pollefeys, Hesheng Wang 0001. 8417-8426 [doi]

CASSPR: Cross Attention Single Scan Place RecognitionYan Xia 0003, Mariia Gladkova, Rui Wang, Qianyun Li, Uwe Stilla, João F. Henriques, Daniel Cremers. 8427-8438 [doi]

Recursive Video Lane DetectionDongkwon Jin, DahYun Kim, Chang-Su Kim 0001. 8439-8448 [doi]

Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's-Eye ViewJiayu Yang, Enze Xie, Miaomiao Liu 0001, José M. Álvarez. 8449-8458 [doi]

SHIFT3D: Synthesizing Hard Inputs For Tricking 3D DetectorsHongge Chen, Zhao Chen, Gregory P. Meyer, Dennis Park, Carl Vondrick, Ashish Shrivastava, Yuning Chai. 8459-8469 [doi]

Bootstrap Motion Forecasting With Self-Consistent ConstraintsMaosheng Ye, Jiamiao Xu, Xunnong Xu, Tengfei Wang, Tongyi Cao, Qifeng Chen. 8470-8480 [doi]

Towards Viewpoint Robustness in Bird's Eye View SegmentationTzofi Klinghoffer, Jonah Philion, Wenzheng Chen, Or Litany, Zan Gojcic, Jungseock Joo, Ramesh Raskar, Sanja Fidler, José M. Álvarez 0004. 8481-8490 [doi]

R-Pred: Two-Stage Motion Prediction Via Tube-Query Attention-Based Trajectory RefinementSehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi. 8491-8501 [doi]

INT2: Interactive Trajectory Prediction at IntersectionsZhijie Yan, Pengfei Li, Zheng Fu, Shaocong Xu, Yongliang Shi, Xiaoxue Chen, Yuhang Zheng, Yang Li, Tianyu Liu, Chuxuan Li, Nairui Luo, Xu Gao, Yilun Chen, Zuoxu Wang, Yifeng Shi, Pengfei Huang, Zhengxiao Han, Jirui Yuan, Jiangtao Gong, Guyue Zhou, Hang Zhao, Hao Zhao. 8502-8513 [doi]

MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D PerceptionHongyu Zhou, Zheng Ge, Zeming Li, Xiangyu Zhang. 8514-8523 [doi]

Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge EmbeddingPengfei Zhu, Mengshi Qi, Xia Li, Weijian Li, Huadong Ma. 8524-8534 [doi]

SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic SegmentationXuechao Chen, Shuangjie Xu, Xiaoyi Zou, Tongyi Cao, Dit-Yan Yeung, Lu Fang. 8535-8544 [doi]

MotionLM: Multi-Agent Motion Forecasting as Language ModelingAri Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp. 8545-8556 [doi]

Improving Online Lane Graph Extraction by Object-Lane ClusteringYigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool. 8557-8567 [doi]

Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous DrivingMahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan, Scott Ettinger, Dragomir Anguelov. 8568-8578 [doi]

Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative Convolution NetworkWencheng Han, Junbo Yin, Jianbing Shen. 8579-8589 [doi]

Ordered Atomic Activity for Fine-grained Interactive Traffic Scenario UnderstandingNakul Agarwal, Yi-Ting Chen 0001. 8590-8602 [doi]

DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge DistillationZeyu Wang 0008, Dingwen Li, Chenxu Luo, Cihang Xie, Xiaodong Yang. 8603-8612 [doi]

Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingThomas E. Huang, Yifan Liu 0001, Luc Van Gool, Fisher Yu 0001. 8613-8623 [doi]

MV-Map: Offboard HD Map Generation with Multi-view ConsistencyZiyang Xie, Ziqi Pang, Yu-Xiong Wang. 8624-8634 [doi]

Towards Universal LiDAR-Based 3D Object Detection by Multi-Domain Knowledge TransferGuile Wu, Tongtong Cao, Bingbing Liu, Xingxin Chen, Yuan Ren. 8635-8644 [doi]

Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked AutoencodersJie Cheng, Xiaodong Mei 0001, Ming Liu. 8645-8655 [doi]

UniFusion: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-ViewZequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li. 8656-8665 [doi]

BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View ImagesLun Luo, Shuhang Zheng, Yixuan Li, Yongzhi Fan, Beinan Yu, Si-Yuan Cao, Junwei Li, Hui-Liang Shen. 8666-8675 [doi]

Core: Cooperative Reconstruction for Multi-Agent PerceptionBinglu Wang, Lei Zhang, Zhaozhong Wang, Yongqiang Zhao, Tianfei Zhou. 8676-8686 [doi]

MetaBEV: Solving Sensor Failures for 3D Detection and Map SegmentationChongjian Ge, Junsong Chen, Enze Xie, Zhongdao Wang, Lanqing Hong, Huchuan Lu, Zhenguo Li, Ping Luo. 8687-8697 [doi]

Aggregating Feature Point Cloud for Depth CompletionZhu Yu, Zehua Sheng, Zili Zhou, Lun Luo, Si-Yuan Cao, Hong Gu, Huaqi Zhang, Hui-Liang Shen. 8698-8709 [doi]

Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from VideosHaoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang. 8710-8719 [doi]

MAMo: Leveraging Memory and Attention for Monocular Video Depth EstimationRajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli. 8720-8730 [doi]

SlaBins: Fisheye Depth Estimation using Slanted Bins on Road EnvironmentsJongsung Lee, Gyeongsu Cho, Jeongin Park, Kyongjun Kim, Seongoh Lee, Jung Hee Kim, Seong-Gyun Jeong, Kyungdon Joo. 8731-8740 [doi]

Creative Birds: Self-Supervised Single-View 3D Style TransferRenke Wang, Guimin Que, Shuo Chen 0003, Xiang Li 0041, Jun Li 0027, Jian Yang 0003. 8741-8750 [doi]

Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRFHaotian Bai, Yiqi Lin, Yize Chen, Lin Wang. 8751-8761 [doi]

CORE: Co-planarity Regularized Monocular Geometry Estimation with Weak SupervisionYuguang Li, Kai Wang, Hui Li, Seon-Min Rhee, Seungju Han, Jihye Kim, Min Yang, Ran Yang, Feng Zhu. 8762-8771 [doi]

Relightify: Relightable 3D Faces from a Single Image via Diffusion ModelsFoivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou. 8772-8783 [doi]

GLA-GCN: Global-local Adaptive Graph Convolutional Network for 3D Human Pose Estimation from Monocular VideoBruce X. B. Yu, Zhi Zhang, Yongxu Liu 0003, Sheng-hua Zhong, Yan Liu, Chang Wen Chen. 8784-8795 [doi]

Calibrating Panoramic Depth Estimation for Practical Localization and MappingJunho Kim, Eun Sun Lee, Young Min Kim 0001. 8796-8806 [doi]

SimNP: Learning Self-Similarity Priors Between Neural PointsChristopher Wewer, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen. 8807-8818 [doi]

AGG-Net: Attention Guided Gated-convolutional Network for Depth Image CompletionDongyue Chen, Tingxuan Huang, Zhimin Song, Shizhuo Deng, Tong Jia. 8819-8828 [doi]

Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D DataStanislaw Szymanowicz, Christian Rupprecht 0001, Andrea Vedaldi. 8829-8839 [doi]

CVSformer: Cross-View Synthesis Transformer for Semantic Scene CompletionHaotian Dong, Enhui Ma, Lubo Wang, Miaohui Wang, Wuyuan Xie, Qing Guo 0005, Ping Li, Lingyu Liang, Kairui Yang, Di Lin 0002. 8840-8849 [doi]

U-RED: Unsupervised 3D Shape Retrieval and Deformation for Partial Point CloudsYan Di, Chenyangguang Zhang, Ruida Zhang, Fabian Manhardt, Yongzhi Su, Jason R. Rambach, Didier Stricker, Xiangyang Ji, Federico Tombari. 8850-8861 [doi]

Single Depth-image 3D Reflection Symmetry and Shape PredictionZhaoxuan Zhang, Bo Dong, Tong Li, Felix Heide, Pieter Peers, Baocai Yin, Xin Yang 0011. 8862-8872 [doi]

Self-supervised Monocular Depth Estimation: Let's Talk About The WeatherKieran Saunders, George Vogiatzis, Luis J. Manso. 8873-8883 [doi]

Mesh2Tex: Generating Mesh Textures from Image QueriesAlexey Bokhovkin, Shubham Tulsiani, Angela Dai. 8884-8894 [doi]

Sketch and Text Guided Diffusion Model for Colored Point Cloud GenerationZijie Wu, Yaonan Wang 0001, Mingtao Feng, He Xie, Ajmal Mian. 8895-8905 [doi]

Learning A Room with the Occ-SDF Hybrid: Signed Distance Function Mingled with Occupancy Aids Scene RepresentationXiaoyang Lyu, Peng Dai, Zizhang Li, Dongyu Yan, Yi Lin, Yifan Peng, Xiaojuan Qi. 8906-8916 [doi]

Robust Geometry-Preserving Depth Estimation Using Differentiable RenderingChi Zhang, Wei Yin, Gang Yu, Zhibin Wang, Tao Chen, Bin Fu, Joey Tianyi Zhou, Chunhua Shen. 8917-8927 [doi]

FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation ModelsJianglong Ye, Naiyan Wang, Xiaolong Wang. 8928-8939 [doi]

One-shot Implicit Animatable Avatars with Model-based PriorsYangyi Huang, Hongwei Yi, Weiyang Liu, Haofan Wang, Boxi Wu, Wenxiao Wang 0001, Binbin Lin, Debing Zhang, Deng Cai 0001. 8940-8951 [doi]

VeRi3D: Generative Vertex-based Radiance Fields for 3D Controllable Human Image SynthesisXinya Chen, Jiaxin Huang 0012, Yanrui Bin, Lu Yu, Yiyi Liao. 8952-8963 [doi]

Diffuse3D: Wide-Angle 3D Photography via Bilateral DiffusionYutao Jiang, Yang Zhou, Yuan Liang, Wenxi Liu, Jianbo Jiao, Yuhui Quan, Shengfeng He. 8964-8974 [doi]

AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud RegistrationZheng Dang, Mathieu Salzmann. 8975-8985 [doi]

Body Knowledge and Uncertainty Modeling for Monocular 3D Human Body ReconstructionYufei Zhang, Hanjing Wang, Jeffrey O. Kephart, Qiang Ji. 8986-8998 [doi]

Accurate 3D Face Reconstruction with Facial Component TokensTianke Zhang, Xuangeng Chu, Yunfei Liu, Lijian Lin, Zhendong Yang, Zhengzhuo Xu, Chengkun Cao, Fei Yu, Changyin Zhou, Chun Yuan, Yu Li 0003. 8999-9008 [doi]

Metric3D: Towards Zero-shot Metric 3D Prediction from A Single ImageWei Yin 0006, Chi Zhang 0007, Hao Chen 0041, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen. 9009-9019 [doi]

Reconstructing Interacting Hands with Interaction Prior from Monocular ImagesBinghui Zuo, Zimeng Zhao, Wenqian Sun, Wei Xie, Zhou Xue, Yangang Wang. 9020-9030 [doi]

SparseNeRF: Distilling Depth Ranking for Few-shot Novel View SynthesisGuangcong Wang, Zhaoxi Chen 0009, Chen Change Loy, Ziwei Liu 0002. 9031-9042 [doi]

Beyond the limitation of monocular 3D detector via knowledge distillationYiran Yang, Dongshuo Yin, Xuee Rong, Xian Sun, Wenhui Diao, Xinming Li. 9043-9052 [doi]

HiFace: High-Fidelity 3D Face Reconstruction by Learning Static and Dynamic DetailsZenghao Chai, Tianke Zhang, Tianyu He, Xu Tan 0003, Tadas Baltrusaitis, HsiangTao Wu, Runnan Li, Sheng Zhao, Chun Yuan, Jiang Bian 0002. 9053-9064 [doi]

Animal3D: A Comprehensive Dataset of 3D Animal Pose and ShapeJiacong Xu, Yi Zhang, Jiawei Peng, Wufei Ma, Artur Jesslen, Pengliang Ji, Qixin Hu, Jiehua Zhang, Qihao Liu, Jiahao Wang, Wei Ji, Chen Wang, Xiaoding Yuan, Prakhar Kaushik, Guofeng Zhang 0020, Jie Liu, Yushan Xie, Yawen Cui, Alan L. Yuille, Adam Kortylewski. 9065-9075 [doi]

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh RecoveryJiahao Li, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang. 9076-9087 [doi]

D-IF: Uncertainty-aware Human Digitization via Implicit Distribution FieldXueting Yang, Yihao Luo, Yuliang Xiu, Wei Wang, Hao Xu, Zhaoxin Fan. 9088-9098 [doi]

3D Distillation: Improving Self-Supervised Monocular Depth Estimation on Reflective SurfacesXuepeng Shi, Georgi Dikov, Gerhard Reitmayr, Tae-Kyun Kim, Mohsen Ghafoorian. 9099-9109 [doi]

DeformToon3d: Deformable Neural Radiance Fields for 3D ToonificationJunzhe Zhang, Yushi Lan, Shuai Yang, Fangzhou Hong, Quan Wang, Chai Kiat Yeo, Ziwei Liu, Chen Change Loy. 9110-9120 [doi]

MonoDETR: Depth-guided Transformer for Monocular 3D Object DetectionRenrui Zhang, Han Qiu 0010, Tai Wang, Ziyu Guo, Ziteng Cui, Yu Qiao, Hongsheng Li, Peng Gao. 9121-9132 [doi]

ReLeaPS : Reinforcement Learning-based Illumination Planning for Generalized Photometric StereoJun Hoong Chan, Bohan Yu, Heng Guo 0003, Jieji Ren, Zongqing Lu, Boxin Shi. 9133-9141 [doi]

Convex Decomposition of Indoor ScenesVaibhav Vavilala, David A. Forsyth. 9142-9152 [doi]

NeO 360: Neural Fields for Sparse View Synthesis of Outdoor ScenesMuhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Vitor Guizilini, Thomas Kollar, Adrien Gaidon, Zsolt Kira, Rares Ambrus. 9153-9164 [doi]

UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative Neural Feature FieldsYuanbo Yang, Yifei Yang, Hanlei Guo, Rong Xiong, Yue Wang 0020, Yiyi Liao. 9165-9176 [doi]

Efficient Converted Spiking Neural Network for 3D and 2D ClassificationYuxiang Lan, Yachao Zhang, Xu Ma, Yanyun Qu, Yun Fu 0001. 9177-9186 [doi]

Distribution-Aligned Diffusion for Human Mesh RecoveryLin Geng Foo, Jia Gong, Hossein Rahmani, Jun Liu. 9187-9198 [doi]

Towards Zero-Shot Scale-Aware Monocular Depth EstimationVitor Guizilini, Igor Vasiljevic, Dian Chen 0005, Rares Ambrus, Adrien Gaidon. 9199-9209 [doi]

Learning Depth Estimation for Transparent and Mirror SurfacesAlex Costanzino, Pierluigi Zama Ramirez, Matteo Poggi, Fabio Tosi, Stefano Mattoccia, Luigi di Stefano. 9210-9221 [doi]

Uni-3D: A Universal Model for Panoptic 3D Scene ReconstructionXiang Zhang, Zeyuan Chen, Fangyin Wei, Zhuowen Tu. 9222-9232 [doi]

3D VR Sketch Guided 3D Shape Prototyping and ExplorationLing Luo, Pinaki Nath Chowdhury, Tao Xiang 0003, Yi-Zhe Song, Yulia Gryaditskaya. 9233-9242 [doi]

Transparent Shape from a Single View Polarization ImageMingqi Shao, Chongkun Xia, Zhendong Yang, Junnan Huang, Xueqian Wang. 9243-9252 [doi]

Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using Pixel-aligned Reconstruction PriorsZhangyang Xiong, Di Kang, Derong Jin, Weikai Chen 0001, Linchao Bao, Shuguang Cui, Xiaoguang Han 0001. 9253-9263 [doi]

Zero-1-to-3: Zero-shot One Image to 3D ObjectRuoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick. 9264-9275 [doi]

FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth ModelsGuangkai Xu, Wei Yin, Hao Chen, Chunhua Shen, Kai Cheng, Feng Zhao. 9276-9286 [doi]

LIST: Learning Implicitly from Spatial Transformers for Single-View 3D ReconstructionMohammad Samiul Arshad, William J. Beksi. 9287-9296 [doi]

3DMiner: Discovering Shapes from Large-Scale Unannotated Image DatasetsTa Ying Cheng, Matheus Gadelha, Sören Pirk, Thibault Groueix, Radomír Mech, Andrew Markham, Niki Trigoni. 9297-9307 [doi]

Nonrigid Object Contact Estimation With Regional Unwrapping TransformerWei Xie, Zimeng Zhao, Shiying Li, Binghui Zuo, Yangang Wang. 9308-9317 [doi]

SHERF: Generalizable Human NeRF from a Single ImageShoukang Hu, Fangzhou Hong, Liang Pan, Haiyi Mei, Lei Yang, Ziwei Liu. 9318-9330 [doi]

Full-Body Articulated Human-Object InteractionNan Jiang, Tengyu Liu, Zhexuan Cao, Jieming Cui, Zhiyuan Zhang, Yixin Chen 0003, He Wang, Yixin Zhu 0001, Siyuan Huang. 9331-9342 [doi]

PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single ViewJingjia Shi, Shuaifeng Zhi, Kai Xu 0004. 9343-9352 [doi]

SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance FieldsAnh-Quan Cao, Raoul de Charette. 9353-9364 [doi]

3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose EstimationYi Zhang, Pengliang Ji, Angtian Wang, Jieru Mei, Adam Kortylewski, Alan L. Yuille. 9365-9376 [doi]

Two-in-One Depth: Bridging the Gap Between Monocular and Binocular Self-supervised Depth EstimationZhengming Zhou, Qiulei Dong. 9377-9387 [doi]

LRRU: Long-short Range Recurrent Updating Networks for Depth CompletionYufei Wang, Bo Li, Ge Zhang, Qi Liu, Tao Gao, Yuchao Dai. 9388-9398 [doi]

OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy PredictionYunpeng Zhang, Zheng Zhu, Dalong Du. 9399-9409 [doi]

Chord: Category-level Hand-held Object Reconstruction via Shape DeformationKailin Li 0001, Lixin Yang 0001, Haoyu Zhen, Zenan Lin, Xinyu Zhan 0001, Licheng Zhong, Jian Xu, Kejian Wu, Cewu Lu. 9410-9420 [doi]

NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates SpaceJiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang, Hongsheng Li. 9421-9431 [doi]

Neural Video Depth StabilizerYiran Wang 0005, Min Shi 0004, Jiaqi Li, Zihao Huang, Zhiguo Cao 0001, Jianming Zhang 0001, Ke Xian, Guosheng Lin. 9432-9442 [doi]

DiLiGenT-Π: Photometric Stereo for Planar Surfaces with Rich Details - Benchmark Dataset and BeyondFeishi Wang, Jieji Ren, Heng Guo 0003, Mingjun Ren, Boxin Shi. 9443-9453 [doi]

TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion SynthesisMathis Petrovich, Michael J. Black, Gül Varol. 9454-9463 [doi]

Sequential Texts Driven Cohesive Motions Synthesis with Natural TransitionsShuai Li 0001, Sisi Zhuang, Wenfeng Song, Xinyu Zhang, Hejia Chen, Aimin Hao. 9464-9474 [doi]

Auxiliary Tasks Benefit 3D Skeleton-based Human Motion PredictionChenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang. 9475-9486 [doi]

Explicit Motion Disentangling for Efficient Optical Flow EstimationChangxing Deng, Ao Luo, Haibin Huang, Shaodan Ma, Jiangyu Liu, Shuaicheng Liu. 9487-9496 [doi]

TrackFlow: Multi-Object Tracking with Normalizing FlowsGianluca Mancusi, Aniello Panariello, Angelo Porrello, Matteo Fabbri, Simone Calderara, Rita Cucchiara. 9497-9509 [doi]

HumanMAC: Masked Motion Completion for Human Motion PredictionLing-Hao Chen, Jiawei Zhang, Yewen Li, Yiren Pang, Xiaobo Xia, Tongliang Liu. 9510-9521 [doi]

Geometrized Transformer for Self-Supervised Homography EstimationJiazhen Liu, Xirong Li 0001. 9522-9531 [doi]

SemARFlow: Injecting Semantics into Unsupervised Optical Flow Estimation for Autonomous DrivingShuai Yuan, Shuzhi Yu, Hannah Halin Kim, Carlo Tomasi. 9532-9543 [doi]

NeSS-ST: Detecting Good and Stable Keypoints with a Neural Stability Score and the Shi-Tomasi detectorKonstantin Pakulev, Alexander Vakhitov, Gonzalo Ferrer. 9544-9554 [doi]

Robust Object Modeling for Visual TrackingYidong Cai, Jie Liu, Jie Tang 0006, Gangshan Wu. 9555-9566 [doi]

Social Diffusion: Long-term Multiple Human Motion AnticipationJulian Tanke, Linguang Zhang, Amy Zhao, Chengcheng Tang, Yujun Cai, Lezi Wang, Po-Chen Wu, Juergen Gall, Cem Keskin. 9567-9577 [doi]

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual TrackingBen Kang, Xin Chen, Dong Wang, Houwen Peng, Huchuan Lu. 9578-9587 [doi]

HMD-NeMo: Online 3D Avatar Motion Generation From Sparse ObservationsSadegh Aliakbarian, Fatemeh Sadat Saleh, David Collier, Pashmina Cameron, Darren Cosker. 9588-9597 [doi]

Learning Fine-Grained Features for Pixel-wise Video CorrespondencesRui Li, Shenglong Zhou 0002, Dong Liu. 9598-9607 [doi]

GAFlow: Incorporating Gaussian Attention into Optical FlowAo Luo, Fan Yang, Xin Li, Lang Nie, Chunyu Lin, Haoqiang Fan, Shuaicheng Liu. 9608-9617 [doi]

2Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded RegionsMiao Fan, Mingrui Chen, Chen Hu, Shuchang Zhou 0001. 9618-9628 [doi]

Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D EnvironmentsJiye Lee 0001, Hanbyul Joo. 9629-9640 [doi]

Trajectory Unified Transformer for Pedestrian Trajectory PredictionLiushuai Shi, Le Wang, Sanping Zhou, Gang Hua 0001. 9641-9650 [doi]

TMA: Temporal Motion Aggregation for Event-based Optical FlowHaotian Liu, Guang Chen 0001, Sanqing Qu, Yanping Zhang, Zhijun Li 0001, Alois Knoll, Changjun Jiang. 9651-9660 [doi]

Taming Contrast Maximization for Learning Sequential, Low-latency, Event-based Optical FlowFederico Paredes-Vallés, Kirk Y. W. Scheper, Christophe De Wagter, Guido C. H. E. de Croon. 9661-9671 [doi]

GlueStick: Robust Image Matching by Sticking Points and Lines TogetherRémi Pautrat, Iago Suárez, Yifan Yu, Marc Pollefeys, Viktor Larsson. 9672-9682 [doi]

DARTH: Holistic Test-time Adaptation for Multiple Object TrackingMattia Segù, Bernt Schiele, Fisher Yu 0001. 9683-9693 [doi]

S-TREK: Sequential Translation and Rotation Equivariant Keypoints for local feature extractionEmanuele Santellani, Christian Sormann, Mattia Rossi, Andreas Kuhn 0005, Friedrich Fraundorfer. 9694-9703 [doi]

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and SegmentationYuanyou Xu, Zongxin Yang, Yi Yang. 9704-9717 [doi]

Robust Frame-to-Frame Camera Rotation Estimation in Crowded ScenesFabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael J. Jones, Pedro Miraldo, Erik G. Learned-Miller. 9718-9728 [doi]

Sparse Instance Conditioned Multimodal Trajectory PredictionYonghao Dong, Le Wang 0003, Sanping Zhou, Gang Hua 0001. 9729-9738 [doi]

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle AdjustmentJianyuan Wang, Christian Rupprecht 0001, David Novotný. 9739-9749 [doi]

3DMOTFormer: Graph Transformer for Online 3D Multi-Object TrackingShuxiao Ding, Eike Rehder, Lukas Schneider, Marius Cordts, Juergen Gall. 9750-9760 [doi]

Fast Inference and Update of Probabilistic Density Estimation on Trajectory PredictionTakahiro Maeda 0001, Norimichi Ukita. 9761-9771 [doi]

Supervised Homography Learning with Realistic Dataset GenerationHai Jiang 0006, HaiPeng Li, Songchen Han, Haoqiang Fan, Bing Zeng, Shuaicheng Liu. 9772-9781 [doi]

Joint-Relation Transformer for Multi-Person Motion PredictionQingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi Xie, Ya Zhang, Yanfeng Wang. 9782-9792 [doi]

Event-based Temporally Dense Optical Flow Estimation with Sequential LearningWachirawit Ponghiran, Chamika Mihiranga Liyanagedera, Kaushik Roy 0001. 9793-9802 [doi]

3D Motion Magnification: Visualizing Subtle Motions with Time-Varying Radiance FieldsBrandon Y. Feng, Hadi AlZayer, Michael Rubinstein, William T. Freeman, Jia-Bin Huang 0001. 9803-9812 [doi]

Learning Optical Flow from Event Camera with Rendered DatasetXinglong Luo, Kunming Luo, Ao Luo, Zhengning Wang, Ping Tan, Shuaicheng Liu. 9813-9823 [doi]

Persistent-Transient Duality: A Multi-mechanism Approach for Modeling Human-Object InteractionHung Tran, Vuong Le, Svetha Venkatesh, Truyen Tran 0001. 9824-9833 [doi]

Deep Homography Mixture for Single Image Rolling Shutter CorrectionWeilong Yan, Robby T. Tan, Bing Zeng, Shuaicheng Liu. 9834-9843 [doi]

Fast Neural Scene FlowXueqian Li, Jianqiao Zheng, Francesco Ferroni, Jhony Kaesemodel Pontes, Simon Lucey. 9844-9856 [doi]

RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End Robust EstimationChang Nie, Guangming Wang, Zhe Liu 0022, Luca Cavalli, Marc Pollefeys, Hesheng Wang 0001. 9857-9866 [doi]

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object TrackingRuopeng Gao, Limin Wang. 9867-9876 [doi]

MBPTrack: Improving 3D Point Cloud Tracking with Memory networks and Box PriorsTian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang. 9877-9886 [doi]

SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports ScenesYutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu, Limin Wang. 9887-9897 [doi]

Heterogeneous Diversity Driven Active Learning for Multi-Object TrackingRui Li, Baopeng Zhang, Jun Liu, Wei Liu, Jian Zhao, Zhu Teng. 9898-9907 [doi]

TM2D: Bimodality Driven 3D Dance Generation via Music-Text IntegrationKehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Zihang Jiang, Xinxin Zuo, Michael Bi Mi, Xinchao Wang. 9908-9918 [doi]

Synchronize Feature Extracting and Matching: A Single Branch Framework for 3D Object TrackingTeli Ma, Mengmeng Wang, Jimin Xiao, Huifeng Wu, Yong Liu. 9919-9929 [doi]

Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object TrackingYiheng Liu, Junta Wu, Yi Fu. 9930-9939 [doi]

CiteTracker: Correlating Image and Text for Visual TrackingXin Li, Yuqing Huang, Zhenyu He 0001, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang 0001. 9940-9949 [doi]

SINC: Spatial Composition of 3D Human Motions for Simultaneous Action GenerationNikos Athanasiou, Mathis Petrovich, Michael J. Black, Gül Varol. 9950-9961 [doi]

Uncertainty-aware Unsupervised Multi-Object TrackingKai Liu, Sheng Jin 0002, Zhihang Fu, Ze Chen 0001, Rongxin Jiang 0001, Jieping Ye. 9962-9971 [doi]

PVT++: A Simple End-to-End Latency-Aware Visual Tracking FrameworkBowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian A. Scherer, Hang Zhao, Changhong Fu 0001. 9972-9982 [doi]

EigenTrajectory: Low-Rank Descriptors for Multi-Modal Trajectory ForecastingInhwan Bae, Jean Oh, Hae-Gon Jeon. 9983-9995 [doi]

RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical Flow and Scene Flow EstimationZhexiong Wan, Yuxin Mao, Jing Zhang, Yuchao Dai. 9996-10006 [doi]

Multi-Scale Bidirectional Recurrent Network with Hybrid Correlation for Point Cloud Based Scene Flow EstimationWencan Cheng, Jong Hwan Ko. 10007-10016 [doi]

ReST: A Reconfigurable Spatial-Temporal Graph Model for Multi-Camera Multi-Object TrackingCheng-Che Cheng, Min-Xuan Qiu, Chen-Kuo Chiang, Shang-Hong Lai. 10017-10026 [doi]

TAPIR: Tracking Any Point with per-frame Initialization and temporal RefinementCarl Doersch, Yi Yang, Mel Vecerík, Dilara Gokay, Ankush Gupta 0001, Yusuf Aytar, João Carreira, Andrew Zisserman. 10027-10038 [doi]

IHNet: Iterative Hierarchical Network Guided by High-Resolution Estimated Information for Scene Flow EstimationYun Wang, Cheng Chi, Min Lin, Xin Yang. 10039-10048 [doi]

Can Language Models Learn to Listen?Evonne Ng, Sanjay Subramanian, Dan Klein, Angjoo Kanazawa, Trevor Darrell, Shiry Ginosar. 10049-10059 [doi]

XVO: Generalized Visual Odometry via Cross-Modal Self-TrainingLei Lai, Zhongkai Shangguan, Jimuyang Zhang, Eshed Ohn-Bar. 10060-10071 [doi]

Distracting Downpour: Adversarial Weather Attacks for Motion EstimationJenny Schmalfuss, Lukas Mehl, Andrés Bruhn. 10072-10082 [doi]

Foreground-Background Distribution Modeling Transformer for Visual Object TrackingDawei Yang, Jianfeng He, Yinchao Ma, Qianjin Yu, Tianzhu Zhang. 10083-10093 [doi]

Weakly-Supervised Action Segmentation and Unseen Error Detection in Anomalous Instructional VideosReza Ghoddoosian, Isht Dwivedi, Nakul Agarwal, Behzad Dariush. 10094-10104 [doi]

Diffusion Action SegmentationDaochang Liu, Qiyue Li, Anh-Dung Dinh, Tingting Jiang, Mubarak Shah, Chang Xu 0002. 10105-10115 [doi]

Audio-Visual Glance Network for Efficient Video RecognitionMuhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Changick Kim. 10116-10125 [doi]

Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action LocalizationKun Xia, Le Wang 0003, Sanping Zhou, Gang Hua 0001, Wei Tang. 10126-10135 [doi]

Video Action Recognition with Attentive Semantic UnitsYifei Chen, Dapeng Chen, Ruijin Liu, Hao Li, Wei Peng. 10136-10146 [doi]

Masked Motion Predictors are Strong 3D Action Representation LearnersYunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang, Houqiang Li. 10147-10157 [doi]

Boosting Positive Segments for Weakly-Supervised Audio-Visual Video ParsingKranthi Kumar Rachavarapu, A. N. Rajagopalan 0001. 10158-10168 [doi]

Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention ModelingGuiqin Wang, Peng Zhao 0001, Cong Zhao 0001, Shusen Yang, Jie Cheng, Luziwei Leng, Jianxing Liao, Qinghai Guo. 10169-10179 [doi]

Few-Shot Common Action Localization via Cross-Attentional Fusion of Context and Temporal DynamicsJuntae Lee, Mihir Jain, Sungrack Yun. 10180-10189 [doi]

Interaction-aware Joint Attention Estimation Using People AttributesChihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita. 10190-10199 [doi]

FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance GenerationRonghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Yansong Tang, Xiu Li 0001. 10200-10209 [doi]

SOAR: Scene-debiasing Open-set Action RecognitionYuanhao Zhai 0001, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David S. Doermann, Junsong Yuan, Gang Hua 0001. 10210-10220 [doi]

Leveraging Spatio-Temporal Dependency for Skeleton-Based Action RecognitionJungho Lee, Minhyeok Lee, Suhwan Cho, Sungmin Woo, Sungjun Jang, Sangyoun Lee. 10221-10230 [doi]

Cross-Modal Learning with 3D Deformable Attention for Action RecognitionSangwon Kim, Dasom Ahn, ByoungChul Ko. 10231-10241 [doi]

Generative Action Description Prompts for Skeleton-based Action RecognitionWangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang. 10242-10251 [doi]

Self-Feedback DETR for Temporal Action DetectionJihwan Kim, Miso Lee, Jae-Pil Heo. 10252-10262 [doi]

Skip-Plan: Procedure Planning in Instructional Videos via Condensed Action Space LearningZhiheng Li, Wenjia Geng, Muheng Li, Lei Chen, Yansong Tang, Jiwen Lu, Jie Zhou. 10263-10272 [doi]

The Unreasonable Effectiveness of Large Language-Vision Models for Source-free Video Domain AdaptationGiacomo Zara, Alessandro Conti, Subhankar Roy, Stéphane Lathuilière, Paolo Rota, Elisa Ricci 0001. 10273-10283 [doi]

Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly DetectionAlessandro Flaborea, Luca Collorone, Guido Maria D'Amely di Melendugno, Stefano D'Arrigo, Bardh Prenkaj, Fabio Galasso. 10284-10295 [doi]

Video Anomaly Detection via Sequentially Learning Multiple Pretext TasksChenrui Shi, Che Sun, Yuwei Wu, Yunde Jia. 10296-10306 [doi]

MiniROAD: Minimal RNN Framework for Online Action DetectionJoungbin An, Hyolim Kang, Su Ho Han, Ming-Hsuan Yang 0001, Seon Joo Kim. 10307-10316 [doi]

How Much Temporal Long-Term Context is Needed for Action Segmentation?Emad Bahrami, Gianpiero Francesca, Juergen Gall. 10317-10327 [doi]

DiffTAD: Temporal Action Detection with Proposal Denoising DiffusionSauradip Nag, Xiatian Zhu, Jiankang deng, Yi-Zhe Song, Tao Xiang. 10328-10340 [doi]

STEPs: Self-Supervised Key Step Extraction and Localization from Unlabeled Procedural VideosAnshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa. 10341-10353 [doi]

Efficient Video Action Detection with Token Dropout and Context RefinementLei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang. 10354-10365 [doi]

FSAR: Federated Skeleton-based Action Recognition with Adaptive Topology Structure and Knowledge DistillationJingwen Guo, Hong Liu 0008, Shitong Sun, Tianyu Guo 0001, Min Zhang, Chenyang Si. 10366-10376 [doi]

Exploring Predicate Visual Context in Detecting of Human-Object InteractionsFrederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould. 10377-10387 [doi]

E2E-LOAD: End-to-End Long-form Online Action DetectionShuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma. 10388-10398 [doi]

Revisiting Foreground and Background Separation in Weakly-supervised Temporal Action Localization: A Clustering-based ApproachQinying Liu, Zilei Wang, Shenghai Rong, Junjie Li, Yixin Zhang. 10399-10409 [doi]

Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action RecognitionJungho Lee, Minhyeok Lee, Dogyoon Lee, Sangyoun Lee. 10410-10419 [doi]

Tiled Multiplane Images for Practical 3D PhotographyNumair Khan, Lei Xiao, Douglas Lanman. 10420-10430 [doi]

Eulerian Single-Photon VisionShantanu Gupta, Mohit Gupta 0001. 10431-10442 [doi]

ProPainter: Improving Propagation and Transformer for Video InpaintingShangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy. 10443-10452 [doi]

Global Perception Based Autoregressive Neural ProcessesJinyang Tai. 10453-10463 [doi]

DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle CT ReconstructionJiaming Liu 0001, Rushil Anirudh, Jayaraman J. Thiagarajan, Stewart He, K. Aditya Mohan, Ulugbek S. Kamilov, HyoJin Kim. 10464-10474 [doi]

GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the WildChao Wang, Ana Serrano, Xingang Pan, Bin Chen, Karol Myszkowski, Hans-Peter Seidel, Christian Theobalt, Thomas Leimkühler. 10475-10485 [doi]

Score-Based Diffusion Models as Principled Priors for Inverse ImagingBerthy T. Feng, Jamie Smith, Michael Rubinstein, Huiwen Chang, Katherine L. Bouman, William T. Freeman. 10486-10497 [doi]

NLOS-NeuS: Non-line-of-sight Neural Implicit SurfaceYuki Fujimura, Takahiro Kushida 0001, Takuya Funatomi, Yasuhiro Mukaigawa. 10498-10507 [doi]

MEFLUT: Unsupervised 1D Lookup Tables for Multi-exposure Image FusionTing Jiang, Chuan Wang, Xinpeng Li, Ru Li 0002, Haoqiang Fan, Shuaicheng Liu. 10508-10517 [doi]

Temporal-Coded Spiking Neural Networks with Dynamic Firing Threshold: Learning with Event-Driven BackpropagationWenjie Wei, Malu Zhang, Hong Qu, Ammar Belatreche, Jian Zhang, Hong Chen. 10518-10528 [doi]

Enhancing Non-line-of-sight Imaging via Learnable Inverse Kernel and Attention MechanismsYanhua Yu, Siyuan Shen, Zi Wang, Binbin Huang, Yuehan Wang, Xingyue Peng, Suan Xia, Ping Liu, Ruiqian Li, Shiying Li. 10529-10539 [doi]

Aperture Diffraction for Compact Snapshot Spectral ImagingTao Lv, Hao Ye, Quan Yuan, Zhan Shi, Yibo Wang, Shuming Wang, Xun Cao. 10540-10550 [doi]

Content-Aware Local GAN for Photo-Realistic Super-ResolutionJoonkyu Park, Sanghyun Son, Kyoung Mu Lee. 10551-10560 [doi]

RED-PSM: Regularization by Denoising of Partially Separable Models for Dynamic ImagingBerk Iskender, Marc Louis Klasky, Yoram Bresler. 10561-10570 [doi]

Self-Supervised Burst Super-ResolutionGoutam Bhat, Michaël Gharbi, Jiawen Chen, Luc Van Gool, Zhihao Xia. 10571-10580 [doi]

Coherent Event Guided Low-Light Video EnhancementJinxiu Liang, Yixin Yang, Boyu Li, Peiqi Duan, Yong Xu 0007, Boxin Shi. 10581-10591 [doi]

Panoramas from PhotonsSacha Jungerman, Atul Ingle, Mohit Gupta 0001. 10592-10602 [doi]

Designing Phase Masks for Under-Display CamerasAnqi Yang, Eunhee Kang, Hyong-Euk Lee, Aswin C. Sankaranarayanan. 10603-10611 [doi]

Deep Optics for Video Snapshot Compressive ImagingPing Wang, Lishun Wang, Xin Yuan. 10612-10622 [doi]

TiDy-PSFs: Computational Imaging with Time-Averaged Dynamic Point-Spread-FunctionsSachin Shah, Sakshum Kulshrestha, Christopher A. Metzler. 10623-10633 [doi]

Generalized Lightness Adaptation with Channel Selective NormalizationMingde Yao, Jie Huang, Xin Jin, Ruikang Xu, Shenglong Zhou 0002, Man Zhou, Zhiwei Xiong. 10634-10645 [doi]

Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter CorrectionDelin Qu, Yizhen Lao, Zhigang Wang, Dong Wang, Bin Zhao, Xuelong Li 0001. 10646-10654 [doi]

FCCNs: Fully Complex-valued Convolutional Networks using Complex-valued Color Model and Loss FunctionSaurabh Yadav, Koteswar Rao Jerripothula. 10655-10664 [doi]

Event Camera Data Pre-trainingYan Yang, Liyuan Pan, Liu Liu 0009. 10665-10675 [doi]

Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion ModelsSuhyeon Lee 0004, Hyungjin Chung, Minyoung Park, Jonghyuk Park, Wi-Sun Ryu, Jong Chul Ye. 10676-10686 [doi]

Multiscale Structure Guided Diffusion for Image DeblurringMengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, Peyman Milanfar. 10687-10699 [doi]

Generalizing Event-Based Motion Deblurring in Real-World ScenariosXiang Zhang, Lei Yu, Wen Yang, Jianzhuang Liu, Gui-Song Xia. 10700-10710 [doi]

On the Robustness of Normalizing Flows for Inverse Problems in ImagingSeongmin Hong, Inbum Park, Se Young Chun. 10711-10721 [doi]

Learned Compressive Representations for Single-Photon 3D ImagingFelipe Gutierrez-Barragan, Fangzhou Mu, Andrei Ardelean, Atul Ingle, Claudio Bruschini, Edoardo Charbon, Yin Li 0003, Mohit Gupta 0001, Andreas Velten. 10722-10732 [doi]

Recovering a Molecule's 3D Dynamics from Liquid-phase Electron Microscopy MoviesEnze Ye, Yuhang Wang, Hong Zhang, Yiqin Gao, Huan Wang, He Sun. 10733-10743 [doi]

NIR-assisted Video Enhancement via Unpaired 24-hour DataMuyao Niu, Zhihang Zhong, Yinqiang Zheng. 10744-10754 [doi]

SpinCam: High-Speed Imaging via a Rotating Point-Spread FunctionDorian Chan, Mark Sheinin, Matthew O'Toole. 10755-10765 [doi]

RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum LearningKang Liao, Lang Nie, Chunyu Lin, Zishuo Zheng, Yao Zhao. 10766-10775 [doi]

Affective Image Filter: Reflecting Emotions from Text to ImagesShuchen Weng, Peixuan Zhang, Zheng Chang, Xinlong Wang, Si Li 0001, Boxin Shi. 10776-10785 [doi]

Towards General Low-Light Raw Noise Synthesis and ModelingFeng Zhang, Bin Xu, Zhiqiang Li, Xinran Liu, Qingbo Lu, Changxin Gao, Nong Sang. 10786-10796 [doi]

Unsupervised Video Deraining with An Event CameraJin Wang, Wenming Weng, Yueyi Zhang, Zhiwei Xiong. 10797-10806 [doi]

LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion InferenceCong Wang, Yu-Ping Wang, Dinesh Manocha. 10807-10817 [doi]

Skill Transformer: A Monolithic Policy for Mobile ManipulationXiaoyu Huang, Dhruv Batra, Akshara Rai, Andrew Szot. 10818-10828 [doi]

ENTL: Embodied Navigation Trajectory LearnerKlemen Kotar, Aaron Walsman, Roozbeh Mottaghi. 10829-10838 [doi]

Dreamwalker: Mental Planning for Continuous Vision-Language NavigationHanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang. 10839-10849 [doi]

Scene Graph Contrastive Learning for Embodied NavigationKunal Pratap Singh, Jordi Salvador, Luca Weihs, Aniruddha Kembhavi. 10850-10860 [doi]

Perpetual Humanoid Control for Real-time Simulated AvatarsZhengyi Luo 0002, Jinkun Cao, Alexander Winkler, Kris Kitani, WeiPeng Xu. 10861-10870 [doi]

Grounding 3D Object Affordance from 2D Interactions in ImagesYuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Jiebo Luo, Zheng-Jun Zha. 10871-10881 [doi]

Navigating to Objects Specified by ImagesJacob Krantz, Théophile Gervet, Karmesh Yadav, Austin Wang, Chris Paxton, Roozbeh Mottaghi, Dhruv Batra, Jitendra Malik, Stefan Lee, Devendra Singh Chaplot. 10882-10891 [doi]

PEANUT: Predicting and Navigating to Unseen TargetsAlbert J. Zhai, Shenlong Wang. 10892-10901 [doi]

Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied AgentsByeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi. 10902-10912 [doi]

Learning Foresightful Dense Visual Affordance for Deformable Object ManipulationRuihai Wu, Chuanruo Ning, Hao Dong 0003. 10913-10922 [doi]

Exploiting Proximity-Aware Tasks for Embodied Social NavigationEnrico Cancelli, Tommaso Campari, Luciano Serafini, Angel X. Chang, Lamberto Ballan. 10923-10933 [doi]

Bird's-Eye-View Scene Graph for Vision-Language NavigationRui Liu, Xiaohan Wang, Wenguan Wang, Yi Yang. 10934-10946 [doi]

Active Neural MappingZike Yan, Haoxiang Yang, Hongbin Zha. 10947-10958 [doi]

Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual NavigationJinyu Chen, Wenguan Wang, Si Liu, Hongsheng Li, Yi Yang. 10959-10969 [doi]

Multi-Object Navigation with dynamically learned neural implicit representationsPierre Marza, Laëtitia Matignon, Olivier Simonin 0001, Christian Wolf 0001. 10970-10981 [doi]

Unsupervised Feature Representation Learning for Domain-generalized Cross-domain Image RetrievalConghui Hu, Can Zhang, Gim Hee Lee. 10982-10991 [doi]

DeDrift: Robust Similarity Search under Content DriftDmitry Baranchuk, Matthijs Douze, Yash Upadhyay, I. Zeki Yalniz. 10992-11001 [doi]

Global Features are All You Need for Image Retrieval and RerankingShihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, André Araujo, Bingyi Cao. 11002-11012 [doi]

HSE: Hybrid Species Embedding for Deep Metric LearningBailin Yang, Haoqiang Sun, Frederick W. B. Li, Zheng Chen, Jianlu Cai, Chao Song. 11013-11023 [doi]

Discrepant and Multi-instance Proxies for Unsupervised Person Re-identificationChang Zou, Zeqi Chen, Zhichao Cui, Yuehu Liu, Chi Zhang. 11024-11034 [doi]

Towards Grand Unified Representation Learning for Unsupervised Visible-Infrared Person Re-IdentificationBin Yang, Jun Chen, Mang Ye. 11035-11045 [doi]

EigenPlaces: Training Viewpoint Robust Models for Visual Place RecognitionGabriele Moreno Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone. 11046-11056 [doi]

Simple Baselines for Interactive Video Retrieval with Questions and AnswersKaiqu Liang, Samuel Albanie. 11057-11067 [doi]

Fan-Beam Binarization Difference Projection (FB-BDP): A Novel Local Object Descriptor for Fine-Grained Leaf Image RetrievalXin Chen, Bin Wang, Yongsheng Gao 0001. 11068-11077 [doi]

Conditional Cross Attention Network for Multi-Space Embedding without Entanglement in Only a SINGLE NetworkChull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong Hyeon Gu. 11078-11087 [doi]

Learning Concordant Attention via Target-aware Alignment for Visible-Infrared Person Re-identificationJianbing Wu, Hong Liu 0008, Yuxin Su 0004, Wei Shi, Hao Tang 0005. 11088-11097 [doi]

Person Re-Identification without Identification via Event AnonymizationShafiq Ahmad, Pietro Morerio, Alessio Del Bue. 11098-11107 [doi]

Divide&Classify: Fine-Grained Classification for City-Wide Visual Place RecognitionGabriele Trivigno, Gabriele Moreno Berton, Juan Aragon, Barbara Caputo, Carlo Masone. 11108-11118 [doi]

Dark Side Augmentation: Generating Diverse Night Examples for Metric LearningAlbert Mohwald, Tomás Jenícek, Ondrej Chum. 11119-11129 [doi]

PIDRo: Parallel Isomeric Attention with Dynamic Routing for Text-Video RetrievalPeiyan Guan, Renjing Pei, Bin Shao, Jianzhuang Liu, Weimian Li, Jiaxi Gu, Hang Xu, Songcen Xu, Youliang Yan, Edmund Y. Lam. 11130-11139 [doi]

Unified Pre-training with Pseudo Texts for Text-To-Image Person Re-identificationZhiyin Shao, Xinyu Zhang, Changxing Ding, Jian Wang, Jingdong Wang 0001. 11140-11150 [doi]

Modality Unifying Network for Visible-Infrared Person Re-IdentificationHao Yu, Xu Cheng, Wei Peng, Weihao Liu, Guoying Zhao 0001. 11151-11161 [doi]

DeepChange: A Long-Term Person Re-Identification Benchmark with Clothes ChangePeng Xu, Xiatian Zhu. 11162-11171 [doi]

LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Sparse RetrievalZiyang Luo, Pu Zhao 0004, Can Xu, Xiubo Geng, Tao Shen, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang. 11172-11183 [doi]

Dual Pseudo-Labels Interactive Self-Training for Semi-Supervised Visible-Infrared Person Re-IdentificationJiangming Shi, Yachao Zhang, Xiangbo Yin, Yuan Xie, Zhizhong Zhang, Jianping Fan 0007, Zhongchao Shi, Yanyun Qu. 11184-11194 [doi]

2: Backward-compatible Training with Basis TransformationYifei Zhou, Zilu Li, Abhinav Shrivastava, Hengshuang Zhao, Antonio Torralba 0001, Tai-Peng Tian, Ser-Nam Lim. 11195-11204 [doi]

Prototypical Mixing and Retrieval-based Refinement for Label Noise-resistant Image RetrievalXinlong Yang, Haixin Wang 0003, Jinan Sun, Shikun Zhang, Chong Chen, Xian-Sheng Hua 0001, Xiao Luo 0001. 11205-11215 [doi]

Learning Spatial-context-aware Global Visual Feature Representation for Instance Image RetrievalZhongyan Zhang, Lei Wang, Luping Zhou, Piotr Koniusz. 11216-11225 [doi]

Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image RetrievalYunquan Zhu, Xinkai Gao, Bo Ke, Ruizhi Qiao, Xing Sun. 11226-11235 [doi]

Visible-Infrared Person Re-Identification via Semantic Alignment and Affinity InferenceXingye Fang, Yang Yang, Ying Fu. 11236-11245 [doi]

Part-Aware Transformer for Generalizable Person Re-identificationHao Ni, Yuke Li, Lianli Gao, Heng Tao Shen, Jingkuan Song. 11246-11255 [doi]

Towards Universal Image Embeddings: A Large-Scale Dataset and Challenge for Generic Image RepresentationsNikolaos-Antonios Ypsilantis, Kaifeng Chen, Bingyi Cao, Mário Lipovský, Pelin Dogan-Schönberger, Grzegorz Makosa, Boris Bluntschli, Mojtaba Seyedhosseini, Ondrej Chum, André Araujo. 11256-11267 [doi]

Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video RetrievalJianfeng Dong, Minsong Zhang, Zheng Zhang, Xianke Chen, Daizong Liu, Xiaoye Qu, Xun Wang, Baolong Liu. 11268-11278 [doi]

Fine-grained Unsupervised Domain Adaptation for Gait RecognitionKang Ma, Ying Fu 0001, Dezhi Zheng, Yunjie Peng, Chunshui Cao, Yongzhen Huang. 11279-11288 [doi]

FashionNTM: Multi-turn Fashion Image Retrieval via Cascaded MemoryAnwesan Pal, Sahil Wadhwa, Ayush Jaiswal, Xu Zhang, Yue Wu, Rakesh Chada, Pradeep Natarajan, Henrik I. Christensen. 11289-11300 [doi]

CrossLoc3D: Aerial-Ground Cross-Source 3D Place RecognitionTianrui Guan, Aswath Muthuselvam, Montana Hoover, Xijun Wang 0002, Jing Liang 0006, Adarsh Jagan Sathyamoorthy, Damon Conover, Dinesh Manocha. 11301-11310 [doi]

ImbSAM: A Closer Look at Sharpness-Aware Minimization in Class-Imbalanced RecognitionYixuan Zhou, Yi Qu, Xing Xu, Hengtao Shen. 11311-11321 [doi]

LFS-GAN: Lifelong Few-Shot Image GenerationJuwon Seo, Ji-Su Kang, Gyeong-Moon Park. 11322-11332 [doi]

Augmented Box Replay: Overcoming Foreground Shift for Incremental Object DetectionYuyang Liu, Yang Cong, Dipam Goswami, Xialei Liu, Joost van de Weijer 0001. 11333-11343 [doi]

Contrastive Model Adaptation for Cross-Condition Robustness in Semantic SegmentationDavid Brüggemann, Christos Sakaridis, Tim Brödermann, Luc Van Gool. 11344-11353 [doi]

Towards Effective Instance Discrimination Contrastive Loss for Unsupervised Domain AdaptationYixin Zhang, Zilei Wang, Junjie Li, Jiafan Zhuang, Zihan Lin. 11354-11365 [doi]

Adversarial Bayesian Augmentation for Single-Source Domain GeneralizationSheng Cheng, Tejas Gokhale, Yezhou Yang. 11366-11376 [doi]

Measuring Asymmetric Gradient Discrepancy in Parallel Continual LearningFan Lyu, Qing Sun, Fanhua Shang, Liang Wan, Wei Feng. 11377-11386 [doi]

CSDA: Learning Category-Scale Joint Feature for Domain Adaptive Object DetectionChanglong Gao, Chengxu Liu, Yujie Dun, Xueming Qian. 11387-11396 [doi]

Distilling from Similar Tasks for Transfer Learning on a BudgetKenneth Borup, Cheng Perng Phoo, Bharath Hariharan. 11397-11407 [doi]

Complementary Domain Adaptation and Generalization for Unsupervised Continual Domain Shift LearningWonguk Cho, Jinha Park, Taesup Kim. 11408-11418 [doi]

Camera-Driven Representation Learning for Unsupervised Domain Adaptive Person Re-identificationGeon Lee, Sanghoon Lee, Dohyung Kim 0006, Younghoon Shin, Yongsang Yoon, Bumsub Ham. 11419-11428 [doi]

Introducing Language Guidance in Prompt-based Continual LearningMuhammad Gul Zain Ali Khan, Muhammad Ferjad Naeem, Luc Van Gool, Didier Stricker, Federico Tombari, Muhammad Zeshan Afzal. 11429-11439 [doi]

Fast and Accurate Transferability Measurement by Evaluating Intra-class Feature VarianceHuiwen Xu, U Kang. 11440-11448 [doi]

A Unified Continual Learning Framework with General Parameter-Efficient TuningQiankun Gao, Chen Zhao, Yifan Sun 0003, Teng Xi, Gang Zhang, Bernard Ghanem, Jian Zhang 0018. 11449-11459 [doi]

SFHarmony: Source Free Domain Adaptation for Distributed Neuroimaging AnalysisNicola K. Dinsdale, Mark Jenkinson, Ana I. L. Namburete. 11460-11471 [doi]

Towards Realistic Evaluation of Industrial Continual Learning Scenarios with an Emphasis on Energy Consumption and Computational FootprintVivek Chavan, Paul Koch, Marian Schlüter, Clemens Briese. 11472-11484 [doi]

CDAC: Cross-domain Attention Consistency in Transformer for Domain Adaptive Semantic SegmentationKaihong Wang, Donghyun Kim, Rogério Feris, Margrit Betke. 11485-11495 [doi]

PC-Adapter: Topology-Aware Adapter for Efficient Domain Adaption on Point Clouds with Rectified Pseudo-labelJoonhyung Park, Hyunjin Seo, Eunho Yang. 11496-11506 [doi]

DETA: Denoised Task Adaptation for Few-Shot LearningJi Zhang, Lianli Gao, Xu Luo, Hengtao Shen, Jingkuan Song. 11507-11517 [doi]

Activate and Reject: Towards Safe Domain Generalization under Category ShiftChaoqi Chen, Luyao Tang, Leitian Tao, Hong-Yu Zhou, Yue Huang 0001, Xiaoguang Han 0001, Yizhou Yu. 11518-11529 [doi]

Generalizable Decision Boundaries: Dualistic Meta-Learning for Open Set Domain GeneralizationXiran Wang, Jian Zhang, Lei Qi 0001, Yinghuan Shi. 11530-11539 [doi]

Continual Zero-Shot Learning through Semantically Guided Generative Random WalksWenxuan Zhang, Paul Janson, Kai Yi, Ivan Skorokhodov, Mohamed Elhoseiny. 11540-11551 [doi]

Zero-Shot Point Cloud Segmentation by Semantic-Visual Aware SynthesisYuwei Yang, Munawar Hayat, Zhao Jin, Hongyuan Zhu, Yinjie Lei. 11552-11562 [doi]

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed RecognitionQiHao Zhao, Chen Jiang, Wei Hu, Fan Zhang, Jun Liu. 11563-11574 [doi]

Building a Winning Team: Selecting Source Model Ensembles using a Submodular Transferability Estimation ApproachVimal K. B., Saketh Bachu, Tanmay Garg, Niveditha Lakshmi Narasimhan, Raghavan Konuru, Vineeth N. Balasubramanian. 11575-11586 [doi]

Confidence-based Visual Dispersal for Few-shot Unsupervised Domain AdaptationYizhe Xiong, Hui Chen, Zijia Lin, Sicheng Zhao, Guiguang Ding. 11587-11597 [doi]

BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain Generalization of 3D Semantic SegmentationMiaoyu Li, Yachao Zhang, Xu Ma, Yanyun Qu, Yun Fu 0001. 11598-11608 [doi]

CDFSL-V: Cross-Domain Few-Shot Learning for VideosSarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah. 11609-11618 [doi]

Energy-based Self-Training and Normalization for Unsupervised Domain AdaptationSamitha Herath, Basura Fernando, Ehsan Abbasnejad, Munawar Hayat, Shahram Khadivi, Mehrtash Harandi, Hamid Rezatofighi, Gholamreza Haffari. 11619-11628 [doi]

Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language ModelsKecheng Zheng, Wei Wu, Ruili Feng, Kai Zhu 0004, Jiawei Liu 0001, Deli Zhao, Zheng-Jun Zha, Wei Chen, Yujun Shen. 11629-11639 [doi]

NAPA-VQ: Neighborhood Aware Prototype Augmentation with Vector Quantization for Continual LearningTamasha Malepathirana, Damith A. Senanayake, Saman K. Halgamuge. 11640-11650 [doi]

A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language GuidanceZeyi Huang, Andy Zhou, Zijian Lin, Mu Cai, Haohan Wang, Yong Jae Lee. 11651-11661 [doi]

ViM: Vision Middleware for Unified Downstream TransferringYutong Feng, Biao Gong, Jianwen Jiang, Yiliang Lv, Yujun Shen, Deli Zhao, Jingren Zhou. 11662-11673 [doi]

Learning to Learn: How to Continuously Teach Humans and MachinesParantak Singh, You Li, Ankur Sikarwar, Weixian Lei, Difei Gao, Morgan B. Talbot, Ying Sun 0001, Mike Zheng Shou, Gabriel Kreiman, Mengmi Zhang. 11674-11685 [doi]

A Good Student is Cooperative and Reliable: CNN-Transformer Collaborative Learning for Semantic SegmentationJinjing Zhu, Yunhao Luo, Xu Zheng, Hao Wang, Lin Wang. 11686-11696 [doi]

Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt TuningJun-Yeong Moon, Keon Hee Park, Jung-Uk Kim, Gyeong-Moon Park. 11697-11707 [doi]

Heterogeneous Forgetting Compensation for Class-Incremental LearningJiahua Dong, Wenqi Liang, Yang Cong, Gan Sun. 11708-11717 [doi]

Disposable Transfer Learning for Selective Source Task UnlearningSeunghee Koh, Hyounguk Shon, Janghyeon Lee, Hyeong Gwon Hong, Junmo Kim. 11718-11726 [doi]

Online Continual Learning on Hierarchical Label ExpansionByung-Hyun Lee, Okchul Jung, Jonghyun Choi, Se Young Chun. 11727-11736 [doi]

Black-box Unsupervised Domain Adaptation with Bi-directional Atkinson-Shiffrin MemoryJingyi Zhang 0005, Jiaxing Huang 0001, Xueying Jiang, Shijian Lu. 11737-11748 [doi]

Local and Global Logit Adjustments for Long-Tailed LearningYingfan Tao, Jingna Sun, Hao Yang, Li Chen, Xu Wang, Wenming Yang, Daniel K. Du, Min Zheng. 11749-11758 [doi]

FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-trainingAdrian Bulat, Ricardo Guerrero, Brais Martínez, Georgios Tzimiropoulos. 11759-11768 [doi]

Tuning Pre-trained Model via Moment ProbingMingze Gao, Qilong Wang, Zhenyi Lin, Pengfei Zhu, Qinghua Hu, Jingbo Zhou. 11769-11779 [doi]

Frequency Guidance Matters in Few-Shot LearningHao Cheng, Siyuan Yang, Joey Tianyi Zhou, Lanqing Guo, Bihan Wen. 11780-11790 [doi]

Sensitivity-Aware Visual Parameter-Efficient Fine-TuningHaoyu He, Jianfei Cai 0001, Jing Zhang, Dacheng Tao, Bohan Zhuang. 11791-11801 [doi]

On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype ExpansionYushu Li, Xun Xu 0002, Yongyi Su, Kui Jia. 11802-11812 [doi]

Generating Instance-level Prompts for Rehearsal-free Continual LearningDahuin Jung, Dongyoon Han, Jihwan Bang, Hwanjun Song. 11813-11823 [doi]

Boosting Novel Category Discovery Over Domains with Soft Contrastive Learning and All in One ClassifierZelin Zang, Lei Shang, Senqiao Yang, Fei Wang, Baigui Sun, Xuansong Xie, Stan Z. Li. 11824-11833 [doi]

A soft nearest-neighbor framework for continual semi-supervised learningZhiqi Kang, Enrico Fini, Moin Nabi, Elisa Ricci 0001, Karteek Alahari. 11834-11843 [doi]

GraphEcho: Graph-Driven Unsupervised Domain Adaptation for Echocardiogram Video SegmentationJiewen Yang, Xinpeng Ding, Ziyang Zheng, Xiaowei Xu 0004, Xiaomeng Li 0001. 11844-11853 [doi]

ViperGPT: Visual Inference via Python Execution for ReasoningDídac Surís, Sachit Menon, Carl Vondrick. 11854-11864 [doi]

Improved Visual Fine-tuning with Natural Language SupervisionJunyang Wang, Yuanhong Xu, Juhua Hu, Ming Yan, Jitao Sang, Qi Qian. 11865-11875 [doi]

Preparing the Future for Continual Semantic SegmentationZihan Lin, Zilei Wang, Yixin Zhang. 11876-11886 [doi]

MAP: Towards Balanced Generalization of IID and OOD through Model-Agnostic AdaptersMin Zhang, Junkun Yuan, Yue He, Wenbin Li, Zhengyu Chen 0001, Kun Kuang. 11887-11897 [doi]

Space-time Prompting for Video Class-incremental LearningYixuan Pei, Zhiwu Qing, Shiwei Zhang, Xiang Wang, Yingya Zhang, Deli Zhao, Xueming Qian. 11898-11908 [doi]

Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS AligningHaiyang Yu, Xiaocong Wang, Bin Li, Xiangyang Xue. 11909-11918 [doi]

OmniLabel: A Challenging Benchmark for Language-Based Object DetectionSamuel Schulter, Vijay Kumar B. G, Yumin Suh, Konstantinos M. Dafnis, Zhixing Zhang, Shiyu Zhao, Dimitris N. Metaxas. 11919-11928 [doi]

IntentQA: Context-aware Video Intent ReasoningJiapeng Li, Ping Wei 0001, Wenjuan Han, Lifeng Fan. 11929-11940 [doi]

Sigmoid Loss for Language Image Pre-TrainingXiaohua Zhai, Basil Mustafa, Alexander Kolesnikov 0003, Lucas Beyer. 11941-11952 [doi]

What does CLIP know about a red circle? Visual prompt engineering for VLMsAleksandar Shtedritski, Christian Rupprecht 0001, Andrea Vedaldi. 11953-11963 [doi]

Equivariant Similarity for Vision-Language Foundation ModelsTan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu 0001, Lijuan Wang. 11964-11974 [doi]

Scaling Data Generation in Vision-and-Language NavigationZun Wang, Jialu Li, Yicong Hong, Yi Wang, Qi Wu, Mohit Bansal, Stephen Gould, Hao Tan 0002, Yu Qiao. 11975-11986 [doi]

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation TransformerShenghan Su, Lin Gu 0003, Yue Yang, Zenghui Zhang, Tatsuya Harada. 11987-11997 [doi]

G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game TheoryHongxiang Li, Meng Cao, Xuxin Cheng, Yaowei Li, Zhihong Zhu, Yuexian Zou. 11998-12008 [doi]

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language NavigationYibo Cui, Liang Xie 0012, Yakun Zhang, Meishan Zhang, Ye Yan, Erwei Yin. 12009-12019 [doi]

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentSarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan, Mohamed Omar. 12020-12030 [doi]

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia EntitiesHexiang Hu, Yi Luan, Yang Chen, Urvashi Khandelwal, Mandar Joshi, Kenton Lee, Kristina Toutanova, Ming-Wei Chang. 12031-12041 [doi]

Hierarchical Contrastive Learning for Pattern-Generalizable Image Corruption DetectionXin Feng, Yifeng Xu, Guangming Lu, Wenjie Pei. 12042-12051 [doi]

DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for Hyperspectral Image RestorationYuchun Miao, Lefei Zhang, Liangpei Zhang 0001, Dacheng Tao. 12052-12062 [doi]

From Sky to the Ground: A Large-scale Benchmark and Simple Baseline Towards Real Rain RemovalYun Guo, Xueyao Xiao, Yi Chang 0002, Shumin Deng, Luxin Yan. 12063-12073 [doi]

VAPCNet: Viewpoint-Aware 3D Point Cloud CompletionZhiheng Fu, Longguang Wang, Lian Xu, Zhiyong Wang, Hamid Laga, Yulan Guo, Farid Boussaïd, Mohammed Bennamoun. 12074-12084 [doi]

AccFlow: Backward Accumulation for Long-Range Optical FlowGuangyang Wu, Xiaohong Liu, Kunming Luo, Xi Liu, Qingqing Zheng, Shuaicheng Liu, Xinyang Jiang, Guangtao Zhai, Wenyi Wang 0005. 12085-12094 [doi]

Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative KeypointsChenjie Cao, Yanwei Fu. 12095-12105 [doi]

Low-Light Image Enhancement with Multi-stage Residue Quantization and Brightness-aware AttentionYunlong Liu, Tao Huang, Weisheng Dong, Fangfang Wu, Xin Li, Guangming Shi. 12106-12115 [doi]

Random Sub-Samples Generation for Self-Supervised Real Image DenoisingYizhong Pan, Xiao Liu, Xiangyu Liao, Yuanzhouhan Cao, Chao Ren 0002. 12116-12125 [doi]

RSFNet: A White-Box Image Retouching Approach using Region-Specific Color FiltersWenqi Ouyang, Yi Dong, Xiaoyang Kang 0002, Peiran Ren, Xin Xu, Xuansong Xie. 12126-12135 [doi]

Physics-Driven Turbulence Image Restoration with Stochastic RefinementAjay Jaiswal, Xingguang Zhang, Stanley H. Chan, Zhangyang Wang. 12136-12147 [doi]

SYENet: A Simple Yet Effective Network for Multiple Low-Level Vision Tasks with Real-time Performance on Mobile DeviceWeiran Gou, Ziyao Yi, Yan Xiang, Shaoqing Li, Zibin Liu, Dehui Kong, Ke Xu. 12148-12161 [doi]

Self-supervised Image Denoising with Downsampled Invariance Loss and Conditional Blind-Spot NetworkYeong Il Jang, Keuntek Lee, Gu Yong Park, Seyun Kim, Nam Ik Cho. 12162-12171 [doi]

Variational Degeneration to Structural Refinement: A Unified Framework for Superimposed Image DecompositionWenyu Li, Yan Xu, Yang Yang 0045, Haoran Ji, Yue Lang. 12172-12182 [doi]

Reconstructed Convolution Module Based Look-Up Tables for Efficient Image Super-ResolutionGuandu Liu, Yukang Ding, Mading Li, Ming Sun, Xing Wen, Bin Wang. 12183-12192 [doi]

Self-supervised Pre-training for Mirror DetectionJiaying Lin, Rynson W. H. Lau. 12193-12202 [doi]

Downscaled Representation Matters: Improving Image Rescaling with Collaborative Downscaled ImagesBingna Xu, Yong Guo, Luoqian Jiang, Mianjie Yu, Jian Chen. 12203-12213 [doi]

Self-supervised Monocular Underwater Depth Recovery, Image Restoration, and a Real-sea Video DatasetNisha Varghese, Ashish Kumar, A. N. Rajagopalan 0001. 12214-12224 [doi]

Rethinking Video Frame Interpolation from Shutter Mode Induced DegradationXiang Ji, Zhixiang Wang, Zhihang Zhong, Yinqiang Zheng. 12225-12234 [doi]

Single Image Deblurring with Row-dependent Blur MagnitudeXiang Ji, Zhixiang Wang, Shin'ichi Satoh 0001, Yinqiang Zheng. 12235-12246 [doi]

Multi-view Self-supervised Disentanglement for General Image DenoisingHao Chen, Chenyuan Qu, Yu Zhang, Chen Chen, Jianbo Jiao. 12247-12257 [doi]

Joint Demosaicing and Deghosting of Time-Varying Exposures for Single-Shot HDR ImagingJungwoo Kim, Min H. Kim. 12258-12267 [doi]

Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion ModelXunpeng Yi, Han Xu, Hao Zhang, Linfeng Tang, Jiayi Ma 0001. 12268-12277 [doi]

Dual Aggregation Transformer for Image Super-ResolutionZheng Chen 0014, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu 0001. 12278-12287 [doi]

Video Object Segmentation-aware Video Frame InterpolationJun-Sang Yoo 0002, Hongjae Lee, Seung-Won Jung. 12288-12299 [doi]

RawHDR: High Dynamic Range Image Reconstruction from a Single Raw ImageYunhao Zou, Chenggang Yan 0001, Ying Fu 0001. 12300-12310 [doi]

Multi-scale Residual Low-Pass Filter Network for Image DeblurringJiangxin Dong, Jinshan Pan, Zhongbao Yang, Jinhui Tang 0001. 12311-12320 [doi]

Indoor Depth Recovery Based on Deep Unfolding with Non-Local PriorYuhui Dai, Junkang Zhang, Faming Fang, Guixu Zhang. 12321-12330 [doi]

Learning Correction Filter via Degradation-Adaptive Regression for Blind Single Image Super-ResolutionHongyang Zhou, Xiaobin Zhu 0001, Jianqing Zhu, Zheng Han, Shi-Xue Zhang, Jingyan Qin, Xu-Cheng Yin. 12331-12341 [doi]

Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-ResolutionZhengyu Liang, Yingqian Wang, Longguang Wang, Jungang Yang 0001, Shilin Zhou, Yulan Guo. 12342-12352 [doi]

Both Diverse and Realism Matter: Physical Attribute and Style Alignment for Rainy Image GenerationChangfeng Yu, Shiming Chen 0002, Yi Chang, Yibing Song, Luxin Yan. 12353-12363 [doi]

Learned Image Reasoning Prior Penetrates Deep Unfolding Network for Panchromatic and Multi-Spectral Image FusionMan Zhou, Jie Huang, Naishan Zheng, Chongyi Li. 12364-12373 [doi]

The Devil is in the Upsampling: Architectural Decisions Made Simpler for Denoising with Deep Image PriorYilin Liu, Jiang Li, Yunkui Pang, Dong Nie, Pew-Thian Yap. 12374-12383 [doi]

SimFIR: A Simple Framework for Fisheye Image Rectification with Self-supervised Representation LearningHao Feng, Wendi Wang, Jiajun Deng, Wengang Zhou, Li Li, Houqiang Li. 12384-12393 [doi]

Exploring Temporal Frequency Spectrum in Deep Video DeblurringQi Zhu, Man Zhou, Naishan Zheng, Chongyi Li, Jie Huang, Feng Zhao. 12394-12403 [doi]

ExposureDiffusion: Learning to Expose for Low-light Image EnhancementYufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen. 12404-12414 [doi]

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing NetZinuo Li, Xuhang Chen 0002, Chi-Man Pun, Xiaodong Cun. 12415-12424 [doi]

Towards Saner Deep Image RegistrationBin Duan, Ming Zhong, Yan Yan 0002. 12425-12434 [doi]

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow EstimationXiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka-Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li. 12435-12446 [doi]

Scene Matters: Model-based Deep Video CompressionLv Tang, Xinfeng Zhang 0001, Gai Zhang, Xiaoqi Ma. 12447-12457 [doi]

Non-Coaxial Event-guided Motion Deblurring with Spatial AlignmentHoonhee Cho, Yuhwan Jeong, Taewoo Kim, Kuk-Jin Yoon. 12458-12469 [doi]

Retinexformer: One-stage Retinex-based Transformer for Low-light Image EnhancementYuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, Yulun Zhang. 12470-12479 [doi]

Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-ResolutionAo Li, Le Zhang, Yun Liu, Ce Zhu. 12480-12490 [doi]

MVPSNet: Fast Generalizable Multi-view Photometric StereoDongxu Zhao, Daniel Lichy, Pierre-Nicolas Perrin, Jan-Michael Frahm, Soumyadip Sengupta. 12491-12502 [doi]

FSI: Frequency and Spatial Interactive Learning for Image Restoration in Under-Display CamerasChengxu Liu, Xuan Wang, Shuai Li, Yuzhi Wang, Xueming Qian. 12503-12512 [doi]

Spherical Space Feature Decomposition for Guided Depth Map Super-ResolutionZixiang Zhao, Jiangshe Zhang 0001, Xiang Gu, Chengli Tan, Shuang Xu, Yulun Zhang, Radu Timofte, Luc Van Gool. 12513-12524 [doi]

Empowering Low-Light Image Enhancer through Customized Learnable PriorsNaishan Zheng, Man Zhou, Yanmeng Dong, Xiangyu Rui, Jie Huang, Chongyi Li, Feng Zhao. 12525-12535 [doi]

Learning Image Harmonization in the Linear Color SpaceKe Xu 0010, Gerhard Petrus Hancke, Rynson W. H. Lau. 12536-12545 [doi]

Under-Display Camera Image Restoration with Scattering EffectBinbin Song, Xiangyu Chen 0006, Shuning Xu, Jiantao Zhou 0001. 12546-12555 [doi]

Iterative Soft Shrinkage Learning for Efficient Image Super-ResolutionJiamian Wang, Huan Wang 0014, Yulun Zhang, Yun Fu 0001, Zhiqiang Tao. 12556-12565 [doi]

Single Image Defocus Deblurring via Implicit Neural Inverse KernelsYuhui Quan, Xin Yao, Hui Ji. 12566-12576 [doi]

Degradation-Resistant Unfolding Network for Heterogeneous Image FusionChunming He, Kai Li, Guoxia Xu, Yulun Zhang, Runze Hu, Zhenhua Guo, Xiu Li. 12577-12587 [doi]

Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW ImagesDonghwan Seo, Abhijith Punnappurath, LuXi Zhao, Abdelrahman Abdelhamed, SaiKiran Tedla, Sanguk Park, Jihwan Choe, Michael S. Brown. 12588-12597 [doi]

Lighting up NeRF via Unsupervised Decomposition and EnhancementHaoyuan Wang, Xiaogang Xu, Ke Xu 0010, Rynson W. H. Lau. 12598-12607 [doi]

Unsupervised Image Denoising in Real-World Scenarios via Self-Collaboration Parallel Generative Adversarial BranchesXin Lin, Chao Ren, Xiao Liu, Jie Huang, Yinjie Lei. 12608-12618 [doi]

Adverse Weather Removal with Codebook PriorsTian Ye, Sixiang Chen, Jinbin Bai, Jun Shi, Chenghao Xue, Jingxia Jiang, Junjie Yin, Erkang Chen, Yun Liu. 12619-12630 [doi]

Deep Video Demoiréing via Compact Invertible Dyadic DecompositionYuhui Quan, Haoran Huang, Shengfeng He, Ruotao Xu. 12631-12640 [doi]

SILT: Shadow-aware Iterative Label Tuning for Learning to Detect Shadows from Noisy LabelsHan Yang, Tianyu Wang, Xiaowei Hu, Chi-Wing Fu. 12641-12652 [doi]

Innovating Real Fisheye Image Correction with Dual Diffusion ArchitectureShangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao. 12653-12662 [doi]

Adaptive Illumination Mapping for Shadow Detection in Raw ImagesJiayu Sun, Ke Xu 0010, Youwei Pang, Lihe Zhang, Huchuan Lu, Gerhard P. Hancke 0002, Rynson W. H. Lau. 12663-12672 [doi]

GEDepth: Ground Embedding for Monocular Depth EstimationXiaodong Yang, Zhuang Ma, Zhiyu Ji, Zhe Ren. 12673-12681 [doi]

Lightweight Image Super-Resolution with Superpixel Token InteractionAiping Zhang, Wenqi Ren, Yi Liu, Xiaochun Cao. 12682-12691 [doi]

Unfolding Framework with Prior of Convolution-Transformer Mixture and Uncertainty Estimation for Video Snapshot Compressive ImagingSiming Zheng, Xin Yuan 0002. 12692-12703 [doi]

Efficient Unified Demosaicing for Bayer and Non-Bayer Patterned Image SensorsHaechang Lee, Dongwon Park, Wongi Jeong, Kijeong Kim, Hyunwoo Je, Dongil Ryu, Se Young Chun. 12704-12713 [doi]

LAN-HDR: Luminance-based Alignment Network for High Dynamic Range Video ReconstructionHaesoo Chung, Nam Ik Cho. 12714-12723 [doi]

Fine-grained Visible Watermark RemovalLi Niu, Xing Zhao, Bo Zhang, Liqing Zhang. 12724-12733 [doi]

SRFormer: Permuted Self-Attention for Single Image Super-ResolutionYupeng Zhou, Zhen Li, Chun-Le Guo, Song Bai, Ming-Ming Cheng, Qibin Hou. 12734-12745 [doi]

DLGSANet: Lightweight Dynamic Local and Global Self-Attention Network for Image Super-ResolutionXiang Li, Jiangxin Dong, Jinhui Tang, Jinshan Pan. 12746-12755 [doi]

MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image DehazingYuwei Qiu, Kaihao Zhang, Chenxi Wang, Wenhan Luo, Hongdong Li, Zhi Jin. 12756-12767 [doi]

Multi-Frequency Representation Enhancement with Privilege Information for Video Super-ResolutionFei Li, Linfeng Zhang, Zikun Liu, Juan Lei, Zhenbo Li. 12768-12779 [doi]

COMPASS: High-Efficiency Deep Image Compression with Arbitrary-scale Spatial ScalabilityJongmin Park, Jooyoung Lee 0004, Munchurl Kim. 12780-12789 [doi]

Alignment-free HDR Deghosting with Semantics Consistent TransformerSteven Tel, Zongwei Wu, Yulun Zhang, Barthélémy Heyrman, Cédric Demonceaux, Radu Timofte, Dominique Ginhac. 12790-12799 [doi]

From Chaos Comes Order: Ordering Event Representations for Object Recognition and DetectionNikola Zubic, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza 0001. 12800-12810 [doi]

Towards High-Quality Specular Highlight Removal by Leveraging Large-Scale Synthetic DataGang Fu, Qing Zhang, Lei Zhu 0003, Chunxia Xiao, Ping Li. 12811-12819 [doi]

DynamicISP: Dynamically Controlled Image Signal Processor for Image RecognitionMasakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi. 12820-12830 [doi]

Dancing in the Dark: A Benchmark towards General Low-light Video EnhancementHuiyuan Fu, Wenkai Zheng, Xicong Wang, Jiaxuan Wang, Heng Zhang, Huadong Ma. 12831-12840 [doi]

Dec-Adapter: Exploring Efficient Decoder-Side Adapter for Bridging Screen Content and Natural Image CompressionSheng Shen, Huanjing Yue, Jingyu Yang. 12841-12850 [doi]

OmniZoomer: Learning to Move and Zoom in on Sphere at High-ResolutionZidong Cao, Hao Ai, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Lin Wang. 12851-12861 [doi]

Pyramid Dual Domain Injection Network for Pan-sharpeningXuanhua He, Keyu Yan, Rui Li 0027, Chengjun Xie, Jie Zhang 0033, Man Zhou. 12862-12871 [doi]

Implicit Neural Representation for Cooperative Low-light Image EnhancementShuzhou Yang, Moxuan Ding, Yanmin Wu, Zihan Li, Jian Zhang. 12872-12881 [doi]

Physically-plausible illumination distribution estimationEgor I. Ershov, Vasily Tesalin, Ivan Ermakov, Michael S. Brown. 12882-12890 [doi]

Score Priors Guided Deep Variational Inference for Unsupervised Real-World Single Image DenoisingJun Cheng, Tao Liu, Shan Tan. 12891-12902 [doi]

Semantic-Aware Dynamic Parameter for Video Inpainting TransformerEunhye Lee, Jinsu Yoo, Yunjeong Yang, Sungyong Baik, Tae Hyun Kim 0006. 12903-12912 [doi]

Pixel Adaptive Deep Unfolding Transformer for Hyperspectral Image ReconstructionMiaoyu Li, Ying Fu 0001, Ji Liu 0003, Yulun Zhang. 12913-12922 [doi]

Improving Lens Flare Removal with General-Purpose Pipeline and Multiple Light Sources RecoveryYuyan Zhou, Dong Liang, Songcan Chen, Sheng-Jun Huang, Shuo Yang, Chongyi Li. 12923-12933 [doi]

RFD-ECNet: Extreme Underwater Image Compression with Reference to Feature DictionaryMengyao Li, Liquan Shen, Peng Ye, Guorui Feng, Zheyin Wang. 12934-12943 [doi]

Learning Continuous Exposure Value Representations for Single-Image HDR ReconstructionSu-Kai Chen, Hung-Lin Yen, Yu-Lun Liu 0001, Min-Hung Chen, Hou-Ning Hu, Wen-Hsiao Peng, Yen-Yu Lin. 12944-12954 [doi]

Focal Network for Image RestorationYuning Cui 0001, Wenqi Ren, Xiaochun Cao, Alois Knoll. 12955-12965 [doi]

CIRI: Curricular Inactivation for Residue-aware One-shot Video InpaintingWeiying Zheng, Cheng Xu, Xuemiao Xu, Wenxi Liu, Shengfeng He. 12966-12976 [doi]

Beyond Image Borders: Learning Feature Extrapolation for Unbounded Image CompositionXiaoyu Liu, Ming Liu, Junyi Li, Shuai Liu, Xiaotao Wang, Lei Lei, Wangmeng Zuo. 12977-12986 [doi]

MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from FacesZhicun Yin, Ming Liu, Xiaoming Li, Hui Yang, Longan Xiao, Wangmeng Zuo. 12987-12998 [doi]

Boundary-Aware Divide and Conquer: A Diffusion-based Solution for Unsupervised Shadow RemovalLanqing Guo, Chong Wang, Wenhan Yang, Yufei Wang, Bihan Wen. 12999-13008 [doi]

Leveraging Inpainting for Single-Image Shadow RemovalXiaoguang Li, Qing Guo 0005, Rabab Abdelfattah, Di Lin 0002, Wei Feng 0005, Ivor W. Tsang, Song Wang 0002. 13009-13018 [doi]

Hybrid Spectral Denoising Transformer with Guided AttentionZeqiang Lai, Chenggang Yan 0001, Ying Fu 0001. 13019-13029 [doi]

Examining Autoexposure for Challenging ScenesSaiKiran Tedla, Beixuan Yang, Michael S. Brown. 13030-13039 [doi]

Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images AliveWei Shang, Dongwei Ren, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo. 13040-13048 [doi]

DiffIR: Efficient Diffusion Model for Image RestorationBin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, Luc Van Gool. 13049-13059 [doi]

Sparse Sampling Transformer with Uncertainty-Driven Ranking for Unified Removal of Raindrops and Rain StreaksSixiang Chen, Tian Ye, Jinbin Bai, Erkang Chen, Jun Shi, Lei Zhu. 13060-13071 [doi]

LMR: A Large-Scale Multi-Reference Dataset for Reference-based Super-ResolutionLin Zhang, Xin Li, Dongliang He, Fu Li, Errui Ding, Zhaoxiang Zhang. 13072-13081 [doi]

Low-Light Image Enhancement with Illumination-Aware Gamma Correction and Complete Image Modelling NetworkYinglong Wang 0002, Zhen Liu, Jianzhuang Liu, Songcen Xu, Shuaicheng Liu. 13082-13091 [doi]

Single Image Reflection Separation via Component SynergyQiming Hu, Xiaojie Guo 0001. 13092-13101 [doi]

Learning Rain Location Prior for Nighttime DerainingFan Zhang, Shaodi You, Yu Li, Ying Fu. 13102-13111 [doi]

Exploring Positional Characteristics of Dual-Pixel Data for Camera AutofocusMyungsub Choi, Hana Lee, Hyong-Euk Lee. 13112-13122 [doi]

Continuously Masked Transformer for Image InpaintingKeunsoo Ko, Chang-Su Kim 0001. 13123-13132 [doi]

Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-ResolutionZixi Tuo, Huan Yang 0005, Jianlong Fu, Yujie Dun, Xueming Qian. 13133-13143 [doi]

Spatially-Adaptive Feature Modulation for Efficient Image Super-ResolutionLong Sun, Jiangxin Dong, Jinhui Tang 0001, Jinshan Pan. 13144-13153 [doi]

Video Adverse-Weather-Component Suppression Network via Weather Messenger and Adversarial BackpropagationYijun Yang, Angelica I. Avilés-Rivero, Huazhu Fu, Ye Liu, Weiming Wang, Lei Zhu 0003. 13154-13164 [doi]

Snow Removal in Video: A New Dataset and A Novel MethodHaoyu Chen, Jingjing Ren, Jinjin Gu, Hongtao Wu, Xuequan Lu, Haoming Cai, Lei Zhu. 13165-13176 [doi]

Boosting Single Image Super-Resolution via Partial Channel ShiftingXiaoming Zhang, Tianrui Li 0001, Xiaole Zhao. 13177-13186 [doi]

Towards Real-World Burst Image Super-Resolution: Benchmark and MethodPengxu Wei, Yujing Sun, Xingbei Guo, Chang Liu, Guanbin Li, Jie Chen, Xiangyang Ji, Liang Lin. 13187-13196 [doi]

On the Effectiveness of Spectral Discriminators for Perceptual Quality ImprovementXin Luo, Yunan Zhu 0001, Shunxin Xu, Dong Liu 0002. 13197-13206 [doi]

2NeRF: Event Enhanced Neural Radiance Fields from Blurry ImagesYunshan Qi, Lin Zhu, Yu Zhang, Jia Li. 13208-13218 [doi]

Iterative Denoiser and Noise Estimator for Self-Supervised Image DenoisingYunhao Zou, Chenggang Yan 0001, Ying Fu 0001. 13219-13228 [doi]

Lighting Every Darkness in Two Pairs : A Calibration-Free Pipeline for RAW DenoisingXin Jin, Jia-Wen Xiao, Linghao Han, Chunle Guo, Ruixun Zhang, Xialei Liu, Chongyi Li. 13229-13238 [doi]

Fingerprinting Deep Image Restoration ModelsYuhui Quan, Huan Teng, Ruotao Xu, Jun Huang, Hui Ji. 13239-13249 [doi]

Environment-Invariant Curriculum Relation Learning for Fine-Grained Scene Graph GenerationYukuan Min, Aming Wu, Cheng Deng. 13250-13261 [doi]

DCPB: Deformable Convolution based on the Poincaré Ball for Top-view Fisheye CamerasXuan Wei, Zhidan Ran, Xiaobo Lu. 13262-13271 [doi]

FemtoDet: An Object Detection Baseline for Energy Versus Performance TradeoffsPeng Tu, Xu Xie, Guo Ai, Yuexiang Li, Yawen Huang, Yefeng Zheng 0001. 13272-13281 [doi]

Curvature-Aware Training for Coordinate NetworksHemanth Saratchandran, Shin-Fang Chng, Sameera Ramasinghe, Lachlan E. MacDonald, Simon Lucey. 13282-13292 [doi]

Yes, we CANN: Constrained Approximate Nearest Neighbors for local feature-based visual localizationDror Aiger, André Araujo, Simon Lynen. 13293-13303 [doi]

Unleashing the Potential of Spiking Neural Networks with Dynamic ConfidenceChen Li, Edward G. Jones, Steve Furber. 13304-13314 [doi]

Minimal Solutions to Uncalibrated Two-view Geometry with Known EpipolesGaku Nakano. 13315-13324 [doi]

FBLNet: FeedBack Loop Network for Driver Attention PredictionYilong Chen, Zhixiong Nan, Tao Xiang. 13325-13334 [doi]

Deep Feature Deblurring Diffusion for Detecting Out-of-Distribution ObjectsAming Wu, Da Chen 0003, Cheng Deng. 13335-13345 [doi]

Long-range Multimodal Pretraining for Movie UnderstandingDawit Mureja Argaw, Joon-Young Lee, Markus Woodson, In-So Kweon, Fabian Caba Heilbron. 13346-13357 [doi]

Cross-view Semantic Alignment for Livestreaming Product RecognitionWenjie Yang, Yiyi Chen, Yan Li, Yanhua Cheng, Xudong Liu, Quan Chen, Han Li. 13358-13367 [doi]

HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object SegmentationMingfei Han 0002, Yali Wang 0001, Zhihui Li, Lina Yao 0001, Xiaojun Chang, Yu Qiao 0001. 13368-13377 [doi]

DyGait: Exploiting Dynamic Representations for High-performance Gait RecognitionMing Wang, Xianda Guo, Beibei Lin, Tian Yang, Zheng Zhu, Lincheng Li, Shunli Zhang, Xin Yu 0002. 13378-13387 [doi]

Identity-Consistent Aggregation for Video Object DetectionChaorui Deng, Da Chen 0003, Qi Wu 0001. 13388-13398 [doi]

Augmenting and Aligning Snippets for Few-Shot Video Domain AdaptationYuecong Xu, Jianfei Yang, Yunjiao Zhou, Zhenghua Chen, Min Wu, Xiaoli Li. 13399-13410 [doi]

Action Sensitivity Learning for Temporal Action LocalizationJiayi Shao, Xiaohan Wang, Ruijie Quan, Junjun Zheng, Jiang Yang, Yi Yang. 13411-13423 [doi]

SwinLSTM: Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTMSong Tang, Chuang Li 0002, Pu Zhang, Rongnian Tang. 13424-13433 [doi]

LVOS: A Benchmark for Long-term Video Object SegmentationLingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo, Zhaoyu Chen, Wenqiang Zhang. 13434-13446 [doi]

MGMAE: Motion Guided Masking for Video Masked AutoencodingBingkun Huang, Zhiyu Zhao, Guozhen Zhang, Yu Qiao, Limin Wang. 13447-13458 [doi]

Markov Game Video Augmentation for Action SegmentationNicolas Aziere, Sinisa Todorovic. 13459-13468 [doi]

COOL-CHIC: Coordinate-based Low Complexity Hierarchical Image CodecThéo Ladune, Pierrick Philippe, Félix Henry, Gordon Clare, Thomas Leguay. 13469-13476 [doi]

ReGen: A good Generative zero-shot video classifier should be RewardedAdrian Bulat, Enrique Sanchez, Brais Martínez, Georgios Tzimiropoulos. 13477-13487 [doi]

Task Agnostic Restoration of Natural Video DynamicsMuhammad Kashif Ali, Dongjin Kim, Tae-Hyun Kim. 13488-13498 [doi]

Normalizing Flows for Human Pose Anomaly DetectionOr Hirschorn, Shai Avidan. 13499-13508 [doi]

Movement Enhancement toward Multi-Scale Video Feature Representation for Temporal Action DetectionZixuan Zhao, Dongqi Wang, Xu Zhao. 13509-13518 [doi]

Event-Guided Procedure Planning from Instructional Videos with Text SupervisionAn-Lan Wang, Kun-Yu Lin, Jia-Run Du, Jingke Meng, Wei-Shi Zheng 0001. 13519-13529 [doi]

SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment RetrievalSunjae Yoon, Gwanhyeong Koo, DahYun Kim, Chang D. Yoo. 13530-13540 [doi]

Spatio-temporal Prompting Network for Robust Video Feature ExtractionGuanxiong Sun, Chi Wang, Zhaoyu Zhang, Jiankang deng, Stefanos Zafeiriou, Yang Hua. 13541-13551 [doi]

TeD-SPAD: Temporal Distinctiveness for Self-supervised Privacy-preservation for video Anomaly DetectionJoseph Fioresi, Ishan Rajendrakumar Dave, Mubarak Shah. 13552-13563 [doi]

Non-Semantics Suppressed Mask Learning for Unsupervised Video Semantic CompressionYuan Tian 0017, Guo Lu, Guangtao Zhai, Zhiyong Gao. 13564-13576 [doi]

UnLoc: A Unified Framework for Video Localization TasksShen Yan, Xuehan Xiong, Arsha Nagrani, Anurag Arnab, Zhonghao Wang, Weina Ge, David Ross, Cordelia Schmid. 13577-13587 [doi]

SkeleTR: Towards Skeleton-based Action Recognition in the WildHaodong Duan, Mingze Xu, Bing Shuai, Davide Modolo, Zhuowen Tu, Joseph Tighe, Alessandro Bergamo. 13588-13598 [doi]

AutoAD II: The Sequel - Who, When, and What in Movie Audio DescriptionTengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman. 13599-13609 [doi]

What can a cook in Italy teach a mechanic in India? Action Recognition Generalisation Over Scenarios and LocationsChiara Plizzari, Toby Perrett, Barbara Caputo, Dima Damen. 13610-13620 [doi]

Localizing Moments in Long Video Via Multimodal GuidanceWayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian Caba Heilbron, Bernard Ghanem. 13621-13632 [doi]

LAC - Latent Action Composition for Skeleton-based Action SegmentationDi Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Brémond. 13633-13644 [doi]

RIGID: Recurrent GAN Inversion and Editing of Real Face VideosYangyang Xu, Shengfeng He, Kwan-Yee K. Wong, Ping Luo. 13645-13655 [doi]

Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory ForecastingWentao Bao, Lele Chen, Libing Zeng, Zhong Li, Yi Xu, Junsong Yuan, Yu Kong. 13656-13665 [doi]

What Can Simple Arithmetic Operations Do for Temporal Modeling?Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang 0001, Chang Xu, Wanli Ouyang. 13666-13676 [doi]

UATVR: Uncertainty-Adaptive Text-Video RetrievalBo Fang, Wenhao Wu, Chang Liu, Yu Zhou, Yuxin Song, Weiping Wang 0005, Xiangbo Shu, Xiangyang Ji, Jingdong Wang. 13677-13687 [doi]

D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with Glance AnnotationHanjun Li 0002, Xiujun Shu, Sunan He, Ruizhi Qiao, Wei Wen, Taian Guo, Bei Gan, Xing Sun. 13688-13700 [doi]

Unsupervised Open-Vocabulary Object Localization in VideosKe-fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl-Johann Simon-Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He. 13701-13709 [doi]

HiVLP: Hierarchical Interactive Video-Language Pre-TrainingBin Shao, Jianzhuang Liu, Renjing Pei, Songcen Xu, Peng Dai, Juwei Lu, Weimian Li, Youliang Yan. 13710-13720 [doi]

Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long VideosYulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao. 13721-13731 [doi]

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action RecognitionSyed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan. 13732-13743 [doi]

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation MappingYasser Abdelaziz Dahou Djilali, Sanath Narayan, Haithem Boussaid, Ebtesam Almazrouei, Mérouane Debbah. 13744-13755 [doi]

Video OWL-ViT: Temporally-consistent open-world localization in videoGeorg Heigold, Daniel Keysers, Matthias Minderer, Mario Lucic, Alexey A. Gritsenko, Fisher Yu 0001, Alex Bewley, Thomas Kipf. 13756-13765 [doi]

Tubelet-Contrastive Self-Supervision for Video-Efficient GeneralizationFida Mohammad Thoker, Hazel Doughty, Cees G. M. Snoek. 13766-13777 [doi]

Memory-and-Anticipation Transformer for Online Action UnderstandingJiahao Wang, Guo Chen, Yifei Huang, Limin Wang, Tong Lu. 13778-13789 [doi]

Video Action Segmentation via Contextually Refined Temporal KeypointsBorui Jiang, Yang Jin, Zhentao Tan, Yadong Mu. 13790-13799 [doi]

Knowing Where to Focus: Event-aware Transformer for Video GroundingJinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon, Kwanghoon Sohn. 13800-13810 [doi]

MPI-Flow: Learning Realistic Optical Flow with Multiplane ImagesYingping Liang, Jiaming Liu, Debing Zhang, Ying Fu 0001. 13811-13822 [doi]

Discovering Spatio-Temporal Rationales for Video Question AnsweringYicong Li 0004, Junbin Xiao, Chun Feng, Xiang Wang 0010, Tat-Seng Chua. 13823-13832 [doi]

Scalable Video Object Segmentation with Simplified FrameworkQiangqiang Wu, Tianyu Yang 0003, Wei Wu, Antoni B. Chan. 13833-13843 [doi]

Root Pose Decomposition Towards Generic Non-rigid 3D Reconstruction with Monocular VideosYikai Wang, Yinpeng Dong, Fuchun Sun 0001, Xiao Yang. 13844-13854 [doi]

Helping Hands: An Object-Aware Ego-Centric Video Recognition ModelChuhan Zhang, Ankush Gupta 0001, Andrew Zisserman. 13855-13866 [doi]

Modeling the Relative Visual Tempo for Self-supervised Skeleton-based Action RecognitionYisheng Zhu, Hu Han 0001, Zhengtao Yu 0001, Guangcan Liu. 13867-13876 [doi]

Tube-Link: A Flexible Cross Tube Framework for Universal Video SegmentationXiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy. 13877-13887 [doi]

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer LearningZhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yingya Zhang, Changxin Gao, Deli Zhao, Nong Sang. 13888-13898 [doi]

Tem-adapter: Adapting Image-Text Pretraining for Video Question AnswerGuangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang 0001, Philip H. S. Torr, Xiao-Ping Zhang, Yansong Tang. 13899-13909 [doi]

MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with Cycle ConsistencyQiao Wu, Jiaqi Yang 0002, Kun Sun, Chu'ai Zhang, Yanning Zhang, Mathieu Salzmann. 13910-13920 [doi]

Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose EstimationJun Zhou, Kai Chen, Linlin Xu, Qi Dou 0001, Jing Qin. 13921-13931 [doi]

IST-Net: Prior-free Category-level Pose Estimation with Implicit Space TransformationJianhui Liu, Yukang Chen, Xiaoqing Ye, Xiaojuan Qi. 13932-13942 [doi]

Adaptive and Background-Aware Vision Transformer for Real-Time UAV TrackingShuiwang Li, Yangxiang Yang, Dan Zeng 0002, Xucheng Wang. 13943-13954 [doi]

VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning Decoupled Rotations on the Spherical RepresentationsJiehong Lin, Zewei Wei, Yabin Zhang, Kui Jia. 13955-13965 [doi]

Tracking by Natural Language Specification with Long Short-term Context DecouplingDing Ma, Xiangqian Wu 0002. 13966-13975 [doi]

CheckerPose: Progressive Dense Keypoint Localization for Object Pose Estimation with Graph Neural NetworkRuyi Lian, Haibin Ling. 13976-13987 [doi]

Deep Active Contours for Real-time 6-DoF Object TrackingLong Wang, Shen Yan, Jianan Zhen, Yu Liu, Maojun Zhang, Guofeng Zhang 0001, Xiaowei Zhou. 13988-13998 [doi]

Learning Symmetry-Aware Geometry Correspondences for 6D Object Pose EstimationHeng Zhao, Shenxing Wei, Dahu Shi, Wenming Tan, Zheyang Li, Ye Ren, Xing Wei, Yi Yang, Shiliang Pu. 13999-14008 [doi]

Query6DoF: Learning Sparse Queries as Implicit Shape Prior for Category-Level 6DoF Pose EstimationRuiqi Wang, Xinggang Wang, Te Li, Rong Yang, Minhong Wan, Wen-Yu Liu 0003. 14009-14018 [doi]

SOCS: Semantically-aware Object Coordinate Space for Category-Level 6D Object Pose Estimation under Large Shape VariationsBoyan Wan, Yifei Shi, Kai Xu 0004. 14019-14028 [doi]

Pseudo Flow Consistency for Self-Supervised 6D Object Pose EstimationYang Hai, Rui Song 0003, Jiaojiao Li 0001, David Ferstl, Yinlin Hu. 14029-14039 [doi]

Tracking by 3D Model Estimation of Unknown Objects in VideosDenys Rozumnyi, Jirí Matas, Marc Pollefeys, Vittorio Ferrari, Martin R. Oswald. 14040-14050 [doi]

Algebraically rigorous quaternion framework for the neural network pose estimation problemChen Lin, Andrew J. Hanson, Sonya M. Hanson. 14051-14060 [doi]

Linear-Covariance Loss for End-to-End Learning of 6D Pose EstimationFulin Liu, Yinlin Hu, Mathieu Salzmann. 14061-14071 [doi]

Vanishing Point Estimation in Uncalibrated Images with Prior Gravity DirectionRémi Pautrat, Shaohui Liu, Petr Hruby, Marc Pollefeys, Daniel Barath. 14072-14081 [doi]

2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration between Images and Point CloudsMinhao Li, Zheng Qin, Zhirui Gao, Renjiao Yi, Chenyang Zhu 0002, Yulan Guo, Kai Xu. 14082-14092 [doi]

Learning Versatile 3D Shape Generation with Improved Auto-regressive ModelsSimian Luo, Xuelin Qian, Yanwei Fu, Yinda Zhang 0001, Ying Tai, Zhenyu Zhang 0005, Chengjie Wang, Xiangyang Xue. 14093-14103 [doi]

CaPhy: Capturing Physical Properties for Animatable Human AvatarsZhaoqi Su, Liangxiao Hu, Siyou Lin, Hongwen Zhang 0001, Shengping Zhang, Justus Thies, Yebin Liu. 14104-14114 [doi]

Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud ModelsYaohua Zha, Jinpeng Wang, Tao Dai 0001, Bin Chen, Zhi Wang, Shu-Tao Xia. 14115-14124 [doi]

Structure-Aware Surface Reconstruction via Primitive AssemblyJingen Jiang, Mingyang Zhao, Shiqing Xin, Yanchao Yang, Hanxiao Wang, Xiaohong Jia 0001, Dong-Ming Yan 0001. 14125-14134 [doi]

BaRe-ESA: A Riemannian Framework for Unregistered Human Body ShapesEmmanuel Hartman, Emery Pierson, Martin Bauer 0004, Nicolas Charon, Mohamed Daoudi. 14135-14145 [doi]

Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial AnimationShan He, Haonan He, Shuo Yang, Xiaoyan Wu, Pengcheng Xia, Bing Yin, Cong Liu, Lirong Dai 0001, Chang Xu. 14146-14156 [doi]

Learning Point Cloud Completion without Complete Point Clouds: A Pose-Aware ApproachJihun Kim, Hyeokjun Kwon, Yunseo Yang, Kuk-Jin Yoon. 14157-14167 [doi]

GeoUDF: Surface Reconstruction from 3D Point Clouds via Geometry-guided Distance RepresentationSiyu Ren, Junhui Hou, Xiaodong Chen, Ying He, Wenping Wang. 14168-14178 [doi]

SurfsUp: Learning Fluid Simulation for Novel SurfacesArjun Mani, Ishaan Preetam Chandratreya, Elliot Creager, Carl Vondrick, Richard S. Zemel. 14179-14189 [doi]

DeFormer: Integrating Transformers with Deformable Models for 3D Shape Abstraction from a Single ImageDi Liu 0003, Xiang Yu 0002, Meng Ye 0003, Qilong Zhangli, Zhuowei Li 0002, Zhixing Zhang, Dimitris N. Metaxas. 14190-14200 [doi]

Neural Deformable Models for 3D Bi-Ventricular Heart Shape Reconstruction and Modeling from 2D Sparse Cardiac Magnetic Resonance ImagingMeng Ye 0003, Dong Yang 0005, Mikael Kanski, Leon Axel, Dimitris N. Metaxas. 14201-14210 [doi]

DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross DiffusionGeorge Kiyohiro Nakayama, Mikaela Angelina Uy, Jiahui Huang, Shi-Min Hu 0001, Ke Li, Leonidas J. Guibas. 14211-14221 [doi]

Self-supervised Learning of Implicit Shape Representation with Dense Correspondence for Deformable ObjectsBaowen Zhang, Jiahe Li, Xiaoming Deng 0001, Yinda Zhang 0001, CuiXia Ma, Hongan Wang. 14222-14232 [doi]

Neural Implicit Surface EvolutionTiago Novello, Vinícius da Silva, Guilherme G. Schardong, Luiz Schirmer, Hélio Lopes 0001, Luiz Velho 0001. 14233-14243 [doi]

PointDC: Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel ClusteringZisheng Chen, Hongbin Xu, Weitao Chen, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang. 14244-14253 [doi]

HyperDiffusion: Generating Implicit Neural Fields with Weight-Space DiffusionZiya Erkoç, Fangchang Ma, Qi Shan, Matthias Nießner, Angela Dai. 14254-14264 [doi]

Leveraging SE(3) Equivariance for Learning 3D Geometric Shape AssemblyRuihai Wu, Chenrui Tie, Yushi Du, Yan Zhao 0035, Hao Dong 0003. 14265-14274 [doi]

DPF-Net: Combining Explicit Shape Priors in Deformable Primitive Field for Unsupervised Structural Reconstruction of 3D ObjectsQingyao Shuai, Chi Zhang 0044, Kaizhi Yang, Xuejin Chen. 14275-14283 [doi]

Sample-adaptive Augmentation for Point Cloud Recognition Against Real-world CorruptionsJie Wang, Lihe Ding, Tingfa Xu, Shaocong Dong, Xinli Xu, Long Bai 0008, Jianan Li. 14284-14293 [doi]

3DHacker: Spectrum-based Decision Boundary Generation for Hard-label 3D Point Cloud AttackYunbo Tao, Daizong Liu, Pan Zhou, Yulai Xie, Wei Du, Wei Hu 0003. 14294-14304 [doi]

P2C: Self-Supervised Point Cloud Completion from Single Partial CloudsRuikai Cui, Shi Qiu, Saeed Anwar, Jiawei Liu, Chaoyue Xing, Jing Zhang, Nick Barnes. 14305-14314 [doi]

Towards Multi-Layered 3D Garments AnimationYidi Shao, Chen Change Loy, Bo Dai 0002. 14315-14324 [doi]

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose ControlRuixiang Jiang, Can Wang 0007, Jingbo Zhang, Menglei Chai, Mingming He, Dongdong Chen 0001, Jing Liao 0001. 14325-14336 [doi]

Blending-NeRF: Text-Driven Localized Editing in Neural Radiance FieldsHyeonseop Song, Seokhun Choi, Hoseok Do, Chul Lee, TaeHyeong Kim. 14337-14347 [doi]

SIRA-PCR: Sim-to-Real Adaptation for 3D Point Cloud RegistrationSuyi Chen, Hao Xu, Ru Li, Guanghui Liu 0001, Chi-Wing Fu, Shuaicheng Liu. 14348-14359 [doi]

3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing CapabilityRuowei Wang, Yu Liu, Pei Su, Jianwei Zhang, Qijun Zhao. 14360-14371 [doi]

DMNet: Delaunay Meshing Network for 3D Shape RepresentationChen Zhang, Ganzhangqin Yuan, Wenbing Tao. 14372-14382 [doi]

Attention Discriminant Sampling for Point CloudsCheng-Yao Hong, Yu-Ying Chou, Tyng-Luh Liu. 14383-14394 [doi]

SALAD: Part-Level Latent Diffusion for 3D Shape Generation and ManipulationJuil Koo, Seungwoo Yoo, Minh Hieu Nguyen, Minhyuk Sung. 14395-14405 [doi]

MAPConNet: Self-supervised 3D Pose Transfer with Mesh and Point Contrastive LearningJiaze Sun, Zhixiang Chen 0003, Tae-Kyun Kim. 14406-14416 [doi]

Invariant Training 2D-3D Joint Hard Samples for Few-Shot Point Cloud RecognitionXuanyu Yi, Jiajun Deng, Qianru Sun, Xian-Sheng Hua 0001, Joo-Hwee Lim, Hanwang Zhang. 14417-14428 [doi]

EPiC: Ensemble of Partial Point Clouds for Robust ClassificationMeir Yossef Levi, Guy Gilboa. 14429-14438 [doi]

Leveraging Intrinsic Properties for Non-Rigid Garment AlignmentSiyou Lin, Boyao Zhou, Zerong Zheng, Hongwen Zhang 0001, Yebin Liu. 14439-14450 [doi]

Spatially and Spectrally Consistent Deep Functional MapsMingze Sun, Shiwei Mao, Puhua Jiang, Maks Ovsjanikov, Ruqi Huang. 14451-14461 [doi]

SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generatorZhe Zhu, Honghua Chen, Xing He, Weiming Wang, Jing Qin, Mingqiang Wei. 14462-14472 [doi]

Batch-based Model Registration for Fast 3D Sherd ReconstructionJiepeng Wang, Congyi Zhang, Peng Wang, Xin Li, Peter J. Cobb, Christian Theobalt, Wenping Wang. 14473-14483 [doi]

Implicit Autoencoder for Point-Cloud Self-Supervised Representation LearningSiming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang. 14484-14496 [doi]

E3Sym: Leveraging E(3) Invariance for Unsupervised 3D Planar Reflective Symmetry DetectionRen-Wu Li, Ling-Xiao Zhang, Chunpeng Li, Yu-Kun Lai, Lin Gao 0004. 14497-14507 [doi]

Semantify: Simplifying the Control of 3D Morphable Models using CLIPOmer Gralnik, Guy Gafni, Ariel Shamir. 14508-14518 [doi]

VoroMesh: Learning Watertight Surface Meshes with Voronoi DiagramsNissim Maruani, Roman Klokov, Maks Ovsjanikov, Pierre Alliez, Mathieu Desbrun. 14519-14528 [doi]

DG3D: Generating High Quality 3D Textured Shapes by Learning to Discriminate Multi-Modal Diffusion-RenderingsQi Zuo, Yafei Song, Jianfang Li, Lin Liu, Liefeng Bo. 14529-14538 [doi]

Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code Diffusion using TransformersAbril Corona-Figueroa, Sam Bond-Taylor, Neelanjan Bhowmik, Yona Falinie A. Gaus, Toby P. Breckon, Hubert P. H. Shum, Chris G. Willcocks. 14539-14548 [doi]

Hyperbolic Chamfer Distance for Point Cloud CompletionFangzhou Lin, Yun Yue, Songlin Hou, Xuechu Yu, Yajun Xu, Kazunori D. Yamada, Ziming Zhang. 14549-14560 [doi]

SKED: Sketch-guided Text-based 3D EditingAryan Mikaeili, Or Perel, Mehdi Safaee, Daniel Cohen-Or, Ali Mahdavi-Amiri. 14561-14573 [doi]

Adaptive Spiral Layers for Efficient 3D Representation Learning on MeshesFrancesca Babiloni, Matteo Maggioni, Thomas Tanay, Jiankang deng, Ales Leonardis, Stefanos Zafeiriou. 14574-14585 [doi]

EMDB: The Electromagnetic Database of Global 3D Human Pose and Shape in the WildManuel Kaufmann, Jie Song 0006, Chen Guo, Kaiyue Shen, Tianjian Jiang, Chengcheng Tang, Juan José Zarate, Otmar Hilliges. 14586-14597 [doi]

ReFit: Recurrent Fitting Network for 3D Human RecoveryYufu Wang, Kostas Daniilidis. 14598-14608 [doi]

Global Adaptation meets Local Generalization: Unsupervised Domain Adaptation for 3D Human Pose EstimationWenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang, Gaoang Wang. 14609-14619 [doi]

Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color ImagesTze Ho Elden Tse, Franziska Mueller 0001, Zhengyang Shen, Danhang Tang, Thabo Beeler, Mingsong Dou, Yinda Zhang 0001, Sasa Petrovic, Hyung Jin Chang, Jonathan Taylor 0001, Bardia Doosti. 14620-14631 [doi]

Realistic Full-Body Tracking from Sparse Observations via Joint-Level ModelingXiaozheng Zheng, Zhuo Su 0006, Chao Wen, Zhou Xue, Xiaojie Jin. 14632-14642 [doi]

Rethinking pose estimation in crowds: overcoming the detection information bottleneck and ambiguityMu Zhou, Lucas Stoffl, Mackenzie Weygandt Mathis, Alexander Mathis. 14643-14653 [doi]

HDG-ODE: A Hierarchical Continuous-Time Model for Human Pose ForecastingYucheng Xing, Xin Wang 0001. 14654-14666 [doi]

AffordPose: A Large-scale Dataset of Hand-Object Interactions with Affordance-driven Hand PoseJuntao Jian, Xiuping Liu, Manyi Li, Ruizhen Hu, Jian Liu. 14667-14678 [doi]

PhaseMP: Robust 3D Pose Estimation via Phase-conditioned Human Motion PriorMingyi Shi, Sebastian Starke, Yuting Ye, Taku Komura, Jungdam Won. 14679-14691 [doi]

Synthesizing Diverse Human Motions in 3D Indoor ScenesKaifeng Zhao 0004, Yan Zhang, Shaofei Wang, Thabo Beeler, Siyu Tang 0001. 14692-14703 [doi]

TEMPO: Efficient Multi-View Pose Estimation, Tracking, and ForecastingRohan Choudhury, Kris M. Kitani, László A. Jeni. 14704-14714 [doi]

Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis AggregationWenkang Shan, Zhenhua Liu, Xinfeng Zhang 0001, Zhao Wang, Kai Han 0002, Shanshe Wang, Siwei Ma, Wen Gao. 14715-14725 [doi]

Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the WildSungchan Park, Eunyi You, Inhoe Lee, Joonseok Lee. 14726-14736 [doi]

Humans in 4D: Reconstructing and Tracking Humans with TransformersShubham Goel 0001, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik. 14737-14748 [doi]

NPC: Neural Point Characters from VideoShih-Yang Su, Timur M. Bagautdinov, Helge Rhodin. 14749-14759 [doi]

Priority-Centric Human Motion Generation in Discrete Latent SpaceHanyang Kong, Kehong Gong, Dongze Lian, Michael Bi Mi, Xinchao Wang. 14760-14770 [doi]

NCHO: Unsupervised Learning for Neural 3D Composition of Humans and ObjectsTaeksoo Kim, Shunsuke Saito, Hanbyul Joo. 14771-14782 [doi]

Cyclic Test-Time Adaptation on Monocular Video for 3D Human Mesh ReconstructionHyeongjin Nam, Daniel Sungho Jung, Yeonguk Oh, Kyoung Mu Lee. 14783-14793 [doi]

MHEntropy: Entropy Meets Multiple Hypotheses for Pose and Shape RecoveryRongyu Chen, Linlin Yang, Angela Yao. 14794-14803 [doi]

Probabilistic Triangulation for Uncalibrated Multi-View 3D Human Pose EstimationBoyuan Jiang, Lei Hu, Shihong Xia. 14804-14814 [doi]

DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose EstimationRunyang Feng, Yixing Gao, Tze Ho Elden Tse, Xueqing Ma, Hyung Jin Chang. 14815-14826 [doi]

Reconstructing Groups of People with Hypergraph Relational ReasoningBuzhen Huang, Jingyi Ju, Zhihao Li, Yangang Wang. 14827-14837 [doi]

MixSynthFormer: A Transformer Encoder-like Structure with Mixed Synthetic Self-attention for Efficient Human Pose EstimationYuran Sun, Alan William Dougherty, Zhuoying Zhang, Yi-King Choi, Chuan Wu. 14838-14847 [doi]

Dynamic Hyperbolic Attention Network for Fine Hand-object ReconstructionZhiying Leng, Shun-Cheng Wu, Mahdi Saleh, Antonio Montanaro, Hao Yu 0010, Yin Wang, Nassir Navab, Xiaohui Liang, Federico Tombari. 14848-14858 [doi]

Human from Blur: Human Pose Tracking from Blurry ImagesYiming Zhao, Denys Rozumnyi, Jie Song 0006, Otmar Hilliges, Marc Pollefeys, Martin R. Oswald. 14859-14869 [doi]

AG3D: Learning to Generate 3D Avatars from 2D Image CollectionsZijian Dong, Xu Chen 0025, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger 0001. 14870-14881 [doi]

InterDiff: Generating 3D Human-Object Interactions with Physics-Informed DiffusionSirui Xu 0002, Zhengyuan Li, Yu-Xiong Wang, Liang-Yan Gui. 14882-14894 [doi]

SEFD: Learning to Distill Complex Pose and OcclusionChangHee Yang, Kyeongbo Kong, Sung-Jun Min, Dongyoon Wee, Ho-Deok Jang, Geonho Cha, Suk-Ju Kang. 14895-14906 [doi]

3D Human Mesh Recovery with Sequentially Global Rotation EstimationDongkai Wang, Shiliang Zhang. 14907-14916 [doi]

Co-Evolution of Pose and Mesh for 3D Human Body Estimation from VideoYingxuan You, Hong Liu, Ti Wang, Wenhao Li, Runwei Ding, Xia Li. 14917-14927 [doi]

PHRIT: Parametric Hand Representation with Implicit TemplateZhisheng Huang, Yujin Chen, Di Kang, Jinlu Zhang 0001, Zhigang Tu 0001. 14928-14938 [doi]

HopFIR: Hop-wise GraphFormer with Intragroup Joint Refinement for 3D Human Pose EstimationKai Zhai, Qiang Nie, Bo Ouyang, Xiang Li, Shanlin Yang. 14939-14949 [doi]

Prior-guided Source-free Domain Adaptation for Human Pose EstimationDripta S. Raychaudhuri, Calvin-Khang Ta, Arindam Dutta, Rohit Lal, Amit K. Roy Chowdhury. 14950-14960 [doi]

Cloth2Body: Generating 3D Human Body Mesh from 2D ClothingLu Dai, Liqian Ma, Shenhan Qian, Hao Liu, Ziwei Liu, Hui Xiong. 14961-14971 [doi]

PoseFix: Correcting 3D Human Poses with Natural LanguageGinger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Grégory Rogez. 14972-14982 [doi]

Group Pose: A Simple Baseline for End-to-End Multi-person Pose EstimationHuan Liu, Qiang Chen, Zichang Tan, Jiang-Jiang Liu 0001, Jian Wang, Xiangbo Su, Xiaolong Li, Kun Yao, Junyu Han, Errui Ding, Yao Zhao, Jingdong Wang 0001. 14983-14992 [doi]

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion GenerationSamaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta. 14993-15002 [doi]

NSF: Neural Surface Fields for Human Modeling from Monocular DepthYuxuan Xue, Bharat Lal Bhatnagar, Riccardo Marin, Nikolaos Sarafianos, Yuanlu Xu, Gerard Pons-Moll, Tony Tung. 15004-15014 [doi]

Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic ModelsHuaijin Pi, Sida Peng, Minghui Yang, Xiaowei Zhou, Hujun Bao. 15015-15027 [doi]

Dynamic Mesh Recovery from Partial Point Cloud SequenceHojun Jang, Minkwan Kim, Jinseok Bae, Young Min Kim 0001. 15028-15038 [doi]

MotionBERT: A Unified Perspective on Learning Human Motion RepresentationsWentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang 0001. 15039-15053 [doi]

Novel-view Synthesis and Pose Estimation for Hand-Object Interaction from Sparse ViewsWentian Qu, Zhaopeng Cui, Yinda Zhang 0001, Chenyu Meng, CuiXia Ma, Xiaoming Deng 0001, Hongan Wang. 15054-15065 [doi]

OCHID-Fi: Occlusion-Robust Hand Pose Estimation in 3D via RF-VisionShujie Zhang, Tianyue Zheng, Zhe Chen, Jingzhi Hu, Abdelwahed Khamis, Jiajun Liu, Jun Luo 0001. 15066-15075 [doi]

Neural Interactive Keypoint DetectionJie Yang, Ailing Zeng, Feng Li, Shilong Liu, Ruimao Zhang, Lei Zhang. 15076-15086 [doi]

Plausible Uncertainties for Human Pose RegressionLennart Bramlage, Michelle Karg, Cristóbal Curio. 15087-15096 [doi]

TORE: Token Reduction for Efficient Human Mesh Recovery with TransformerZhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin Wan 0001, Taku Komura, Wenping Wang. 15097-15109 [doi]

Weakly-supervised 3D Pose Transfer with KeypointsJinnan Chen, Chen Li 0038, Gim Hee Lee. 15110-15119 [doi]

SATR: Zero-Shot Semantic Segmentation of 3D ShapesAhmed Abdelreheem 0002, Ivan Skorokhodov, Maks Ovsjanikov, Peter Wonka. 15120-15133 [doi]

CiT: Curation in Training for Effective Vision-Language DataHu Xu 0001, Saining Xie, Po-Yao Huang 0001, Licheng Yu, Russell Howes, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer. 15134-15143 [doi]

Self-regulating Prompts: Foundational Model Adaptation without ForgettingMuhammad Uzair Khattak, Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 15144-15154 [doi]

Learning to Ground Instructional Articles in Videos through NarrationsEffrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani. 15155-15167 [doi]

RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4DShuhei Kurita, Naoki Katsura, Eri Onami. 15168-15178 [doi]

Multi3DRefer: Grounding Text Description to Multiple 3D ObjectsYiming Zhang 0019, ZeMing Gong, Angel X. Chang. 15179 [doi]

Bayesian Prompt Learning for Image-Language Model GeneralizationMohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos, Brais Martínez. 15191-15200 [doi]

Who are you referring to? Coreference resolution in image narrationsArushi Goel, Basura Fernando, Frank Keller, Hakan Bilen. 15201-15212 [doi]

Guiding image captioning models toward more specific captionsSimon Kornblith, Lala Li, Zirui Wang, Thao Nguyen. 15213-15223 [doi]

PreSTU: Pre-Training for Scene-Text UnderstandingJihyung Kil, Soravit Changpinyo, Xi Chen 0071, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut. 15224-15234 [doi]

Exploring Group Video Captioning with Efficient Relational ApproximationWang Lin, Tao Jin, Ye Wang, Wenwen Pan, Linjun Li, Xize Cheng, Zhou Zhao. 15235-15244 [doi]

VLSlice: Interactive Vision-and-Language Slice DiscoveryEric Slyman, Minsuk Kahng, Stefan Lee. 15245-15255 [doi]

Pretrained Language Models as Visual Planners for Human AssistanceDhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai. 15256-15268 [doi]

VQA Therapy: Exploring Answer Differences by Visually Grounding AnswersChongyan Chen, Samreen Anjum, Danna Gurari. 15269-15279 [doi]

Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only ImagesCuican Yu, Guansong Lu, Yihan Zeng, Jian Sun, Xiaodan Liang, Huibin Li, ZongBen Xu, Songcen Xu, Wei Zhang, Hang Xu. 15280-15291 [doi]

Zero-Shot Composed Image Retrieval with Textual InversionAlberto Baldrati, Lorenzo Agnolucci, Marco Bertini 0001, Alberto Del Bimbo. 15292-15301 [doi]

PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image ClassificationMiaoge Li, Dongsheng Wang, Xinyang Liu, Zequn Zeng, Ruiying Lu, Bo Chen, Mingyuan Zhou. 15302-15312 [doi]

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific KnowledgeMinsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Yong Man Ro. 15313-15325 [doi]

ViewRefer: Grasp the Multi-view Knowledge for 3D Visual GroundingZoey Guo, Yiwen Tang, Ray Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li 0001. 15326-15337 [doi]

AerialVLN: Vision-and-Language Navigation for UAVsShubo Liu, Hongsheng Zhang, Yuankai Qi, Peng Wang 0015, Yanning Zhang, Qi Wu. 15338-15348 [doi]

Linear Spaces of Meanings: Compositional Structures in Vision-Language ModelsMatthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille, Parminder Bhatia, Stefano Soatto. 15349-15358 [doi]

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-trainingQinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang. 15359-15370 [doi]

EgoTV: Egocentric Task Verification from Natural Language Task DescriptionsRishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai. 15371-15383 [doi]

SINC: Self-Supervised In-Context Learning for Vision-Language TasksYi-Syuan Chen, Yun-Zhu Song, Cheng Yu Yeo, Bei Liu 0001, Jianlong Fu, Hong-Han Shuai. 15384-15396 [doi]

VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language NavigationYanyuan Qiao, Zheng Yu, Qi Wu 0001. 15397-15406 [doi]

Going Denser with Open-Vocabulary Part SegmentationPeize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan. 15407-15419 [doi]

Temporal Collection and Distribution for Referring Video Object SegmentationJiajin Tang, Ge Zheng, Sibei Yang. 15420-15430 [doi]

Inverse Compositional Learning for Weakly-supervised Relation GroundingHuan Li, Ping Wei 0001, Zeyu Ma, Nanning Zheng 0001. 15431-15441 [doi]

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado 0001, Yu Hen Hu, Linjie Yang. 15442-15451 [doi]

Champagne: Learning Real-world Conversation from Large-Scale Web VideosSeungju Han, Jack Hessel, Nouha Dziri, Yejin Choi 0001, Youngjae Yu. 15452-15463 [doi]

RCA-NOC: Relative Contrastive Alignment for Novel Object CaptioningJiashuo Fan, Yaoyuan Liang, Leyao Liu, Shao-Lun Huang, Lei Zhang. 15464-15474 [doi]

DIME-FM : DIstilling Multimodal and Efficient Foundation ModelsXimeng Sun, Pengchuan Zhang, Peizhao Zhang, Hardik Shah, Kate Saenko, Xide Xia. 15475-15487 [doi]

Black Box Few-Shot Adaptation for Vision-Language modelsYassine Ouali, Adrian Bulat, Brais Matínez, Georgios Tzimiropoulos. 15488-15500 [doi]

Shatter and Gather: Learning Referring Image Segmentation with Text SupervisionDongwon Kim, Namyup Kim, Cuiling Lan, Suha Kwak. 15501-15511 [doi]

Accurate and Fast Compressed Video CaptioningYaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang. 15512-15521 [doi]

Exploring Temporal Concurrency for Video-Language Representation LearningHeng Zhang, Daqing Liu, Zezhong Lv, Bing Su, Dacheng Tao. 15522-15532 [doi]

Verbs in Action: Improving verb understanding in video-language modelsLiliane Momeni, Mathilde Caron, Arsha Nagrani, Andrew Zisserman, Cordelia Schmid. 15533-15545 [doi]

Sign Language Translation with Iterative PrototypeHuijie Yao, Wengang Zhou, Hao Feng, Hezhen Hu, Hao Zhou, Houqiang Li. 15546-15555 [doi]

Contrastive Feature Masking Open-Vocabulary Vision TransformerDahun Kim, Anelia Angelova, Weicheng Kuo. 15556-15566 [doi]

Toward Unsupervised Realistic Visual Question AnsweringYuwei Zhang 0001, Chih-Hui Ho, Nuno Vasconcelos. 15567-15578 [doi]

GridMM: Grid Memory Map for Vision-and-Language NavigationZihan Wang, Xiangyang Li 0002, Jiahao Yang, Yeqi Liu, Shuqiang Jiang. 15579-15590 [doi]

Video Background Music Generation: Dataset, Method and EvaluationLe Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley Peng, Songhao Han, Aixi Zhang, Fei Fang, Si Liu. 15591-15601 [doi]

Prompt Switch: Efficient CLIP Adaptation for Text-Video RetrievalChaorui Deng, Qi Chen, Pengda Qin, Da Chen, Qi Wu. 15602-15612 [doi]

Prompt-aligned Gradient for Prompt TuningBeier Zhu, Yulei Niu, Yucheng Han, Yue Wu, Hanwang Zhang. 15613-15623 [doi]

Knowledge-Aware Prompt Tuning for Generalizable Vision-Language ModelsBaoshuo Kan, Teng Wang, Wenpeng Lu, Xiantong Zhen, Weili Guan, Feng Zheng. 15624-15634 [doi]

Order-Prompted Tag Sequence Generation for Video TaggingZongyang Ma, Ziqi Zhang, Yuxin Chen, Zhongang Qi, Yingmin Luo, Zekun Li, Chunfeng Yuan, Bing Li, Xiaohu Qie, Ying Shan, Weiming Hu. 15635-15644 [doi]

What does a platypus look like? Generating customized prompts for zero-shot image classificationSarah M. Pratt, Ian Covert, Rosanne Liu, Ali Farhadi. 15645-15655 [doi]

PromptStyler: Prompt-driven Style Generation for Source-free Domain GeneralizationJunhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak. 15656-15666 [doi]

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination CapabilityRunhui Huang, Jianhua Han, Guansong Lu, Xiaodan Liang, Yihan Zeng, Wei Zhang, Hang Xu. 15667-15677 [doi]

EdaDet: Open-Vocabulary Object Detection Using Early Dense AlignmentCheng Shi, Sibei Yang. 15678-15688 [doi]

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and RecognitionXize Cheng, Tao Jin, Rongjie Huang, Linjun Li, Wang Lin, Zehan Wang, Ye Wang, Huadai Liu, Aoxiong Yin, Zhou Zhao. 15689-15699 [doi]

Waffling around for Performance: Visual Classification with Random Words and Broad ConceptsKarsten Roth, Jae-Myung Kim, A. Sophia Koepke, Oriol Vinyals, Cordelia Schmid, Zeynep Akata. 15700-15711 [doi]

March in Chat: Interactive Prompting for Remote Embodied Referring ExpressionYanyuan Qiao, Yuankai Qi, Zheng Yu, Jing Liu, Qi Wu. 15712-15721 [doi]

Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTVJaime Spencer, Simon Hadfield, Chris Russell 0001, Richard Bowden 0001. 15722-15733 [doi]

Novel Scenes & Classes: Towards Adaptive Open-set Object DetectionWuyang Li, Xiaoqing Guo, Yixuan Yuan. 15734-15744 [doi]

Improving Unsupervised Visual Program Inference with Code Rewriting FamiliesAditya Ganeshan, R. Kenny Jones, Daniel Ritchie. 15745-15755 [doi]

Denoising Diffusion Autoencoders are Unified Self-supervised LearnersWeilai Xiang, Hongyu Yang, Di Huang 0001, Yunhong Wang. 15756-15766 [doi]

Self-Ordering Point CloudsPengwan Yang, Cees G. M. Snoek, Yuki M. Asano. 15767-15776 [doi]

MOST: Multiple Object localization with Self-supervised Transformers for object discoverySai Saketh Rambhatla, Ishan Misra, Rama Chellappa, Abhinav Shrivastava. 15777-15788 [doi]

CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized ImagesSookwan Han, Hanbyul Joo. 15789-15800 [doi]

Identity-Seeking Self-Supervised Representation Learning for Generalizable Person Re-identificationZhaopeng Dou, Zhongdao Wang, Yali Li 0001, Shengjin Wang. 15801-15812 [doi]

Anatomical Invariance Modeling and Semantic Alignment for Self-supervised Learning in 3D Medical Image AnalysisYankai Jiang, Mingze Sun, Heng Guo, Xiaoyu Bai, Ke Yan 0006, Le Lu 0001, Minfeng Xu. 15813-15823 [doi]

IOMatch: Simplifying Open-Set Semi-Supervised Learning with Joint Inliers and Outliers UtilizationZekun Li 0010, Lei Qi 0001, Yinghuan Shi, Yang Gao 0001. 15824-15833 [doi]

Enhancing Sample Utilization through Sample Adaptive Augmentation in Semi-Supervised LearningGuan Gui, Zhen Zhao, Lei Qi, Luping Zhou, Lei Wang, Yinghuan Shi. 15834-15843 [doi]

When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration MethodManyi Zhang, Xuyang Zhao, Jun Yao, Chun Yuan, Weiran Huang 0001. 15844-15854 [doi]

Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image CollectionsYifan Yang, Shuhai Zhang, Zixiong Huang, Yubing Zhang, Mingkui Tan. 15855-15865 [doi]

Effective Real Image Editing with Accelerated Iterative Diffusion InversionZhihong Pan 0007, Riccardo Gherardi, Xiufeng Xie, Stephen Huang. 15866-15875 [doi]

Simulating Fluids in Real-World Still ImagesSiming Fan, Jingtan Piao, Chen Qian 0006, Hongsheng Li 0001, Kwan-Yee Lin. 15876-15885 [doi]

FateZero: Fusing Attentions for Zero-shot Text-based Video EditingChenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, Qifeng Chen. 15886-15896 [doi]

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image GenerationYuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang 0033, Wangmeng Zuo. 15897-15907 [doi]

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video GeneratorsLevon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi. 15908-15918 [doi]

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic ModelsByungjun Kim, Patrick Kwon, KwangHo Lee, Myunggi Lee, Sookwan Han, DaeSik Kim, Hanbyul Joo. 15919-15930 [doi]

DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion ModelsKarl Holmquist, Bastian Wandt. 15931-15941 [doi]

HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image GenerationXuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, Qiang Xu. 15942-15952 [doi]

Role-aware Interaction Generation from Textual DescriptionMikihiro Tanaka, Kent Fujiwara. 15953-15963 [doi]

PhysDiff: Physics-Guided Human Motion Diffusion ModelYe Yuan 0007, Jiaming Song, Umar Iqbal 0001, Arash Vahdat, Jan Kautz. 15964-15975 [doi]

Forward Flow for Novel View Synthesis of Dynamic ScenesXiang Guo, Jiadai Sun, Yuchao Dai, Guanying Chen, Xiaoqing Ye, Xiao Tan 0001, Errui Ding, Yumeng Zhang, Jingdong Wang 0001. 15976-15987 [doi]

Noise2Info: Noisy Image to Information of Noise for Self-Supervised Image DenoisingJiachuan Wang, Shimin Di, Lei Chen, Charles Wang Wai Ng. 15988-15997 [doi]

Box-based Refinement for Weakly Supervised and Unsupervised Localization TasksEyal Gomel, Tal Shaharabany, Lior Wolf. 15998-16008 [doi]

Diverse Cotraining Makes Strong Semi-Supervised SegmentorYijiang Li, Xinjiang Wang, Lihe Yang, Litong Feng, Wayne Zhang, Ying Gao 0004. 16009-16021 [doi]

SSB: Simple but Strong Baseline for Boosting Performance of Open-Set Semi-Supervised LearningYue Fan, Anna Kukleva, Dengxin Dai, Bernt Schiele. 16022-16032 [doi]

Late Stopping: Avoiding Confidently Learning from Mislabeled ExamplesSuqin Yuan, Lei Feng 0006, Tongliang Liu. 16033-16042 [doi]

Ponder: Point Cloud Pre-training via Neural RenderingDi Huang, Sida Peng, Tong He 0004, Honghui Yang, Xiaowei Zhou, Wanli Ouyang. 16043-16052 [doi]

Semantics-Consistent Feature Search for Self-Supervised Visual Representation LearningKaiyou Song, Shan Zhang, Zimeng Luo, Tong Wang, Jin Xie. 16053-16062 [doi]

Stable and Causal Inference for Discriminative Self-supervised Deep Visual RepresentationsYuewei Yang, Hai Li, Yiran Chen 0001. 16063-16074 [doi]

Towards Semi-supervised Learning with Non-random Missing LabelsYue Duan, Zhen Zhao, Lei Qi, Luping Zhou, Lei Wang, Yinghuan Shi. 16075-16085 [doi]

Hallucination Improves the Performance of Unsupervised Visual Representation LearningJing Wu, Jennifer A. Hobbs, Naira Hovakimyan. 16086-16097 [doi]

Audiovisual Masked AutoencodersMariana-Iuliana Georgescu, Eduardo Fonseca, Radu-Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab. 16098-16108 [doi]

PADCLIP: Pseudo-labeling with Adaptive Debiasing in CLIP for Unsupervised Domain AdaptationZhengfeng Lai, Noranart Vesdapunt, Ning Zhou, Jun Wu, Cong Phuoc Huynh, Xuelu Li, Kah Kuen Fu, Chen-Nee Chuah. 16109-16119 [doi]

Removing Anomalies as Noises for Industrial Defect LocalizationFanbin Lu, Xufeng Yao, Chi-Wing Fu, Jiaya Jia. 16120-16129 [doi]

SparseMAE: Sparse Training Meets Masked AutoencodersAojun Zhou, Yang Li, Zipeng Qin, Jianbo Liu, Junting Pan, Renrui Zhang, Rui Zhao, Peng Gao, Hongsheng Li. 16130-16140 [doi]

Shrinking Class Space for Enhanced Certainty in Semi-Supervised LearningLihe Yang, Zhen Zhao, Lei Qi, Yu Qiao, Yinghuan Shi, Hengshuang Zhao. 16141-16150 [doi]

Logic-induced Diagnostic Reasoning for Semi-supervised Semantic SegmentationChen Liang, Wenguan Wang, Jiaxu Miao, Yi Yang. 16151-16162 [doi]

GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for Indoor ScenesChaoqiang Zhao, Matteo Poggi, Fabio Tosi, Lei Zhou, Qiyu Sun, Yang Tang, Stefano Mattoccia. 16163-16174 [doi]

Is Imitation All You Need? Generalized Decision-Making with Dual-Phase TrainingYao Wei, Yanchao Sun, Ruijie Zheng, Sai Vemprala, Rogerio Bonatti, Shuhang Chen, Ratnesh Madaan, Zhongjie Ba, Ashish Kapoor, Shuang Ma. 16175-16185 [doi]

Benchmarking Low-Shot Robustness to Natural Distribution ShiftsAaditya Singh, Kartik Sarangmath, Prithvijit Chattopadhyay, Judy Hoffman. 16186-16196 [doi]

All4One: Symbiotic Neighbour Contrastive Learning via Self-Attention and Redundancy ReductionImanol G. Estepa, Ignacio Sarasúa, Bhalaji Nagarajan, Petia Radeva. 16197-16207 [doi]

Weakly Supervised Learning of Semantic Correspondence through Cascaded Online Correspondence RefinementYiwen Huang, Yixuan Sun, Chenghang Lai, Qing Xu 0017, Xiaomei Wang, Xuli Shen, Weifeng Ge. 16208-16217 [doi]

Tracking without Label: Unsupervised Multiple Object Tracking via Contrastive Similarity LearningSha Meng, Dian Shao, Jiacheng Guo, Shan Gao. 16218-16227 [doi]

Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You NeedVivien Cabannes, Léon Bottou, Yann LeCun, Randall Balestriero. 16228-16237 [doi]

Diffusion Models as Masked AutoencodersChen Wei 0005, Karttikeya Mangalam, Po-Yao Huang 0001, Yanghao Li, Haoqi Fan 0001, Hu Xu 0001, Huiyu Wang, Cihang Xie, Alan L. Yuille, Christoph Feichtenhofer. 16238-16248 [doi]

Enhanced Meta Label Correction for Coping with Label CorruptionMitchell Keren Taraday, Chaim Baskin. 16249-16258 [doi]

Randomized Quantization: A Generic Augmentation for Data Agnostic Self-supervised LearningHuimin Wu 0001, Chenyang Lei, Xiao Sun, Peng-Shuai Wang, Qifeng Chen, Kwang-Ting Cheng, Stephen Lin 0001, Zhirong Wu. 16259-16270 [doi]

Prototypes-oriented Transductive Few-shot Learning with Conditional TransportLong Tian, Jingyi Feng, Xiaoqiang Chai, Wenchao Chen, Liming Wang, Xiyang Liu, Bo Chen. 16271-16280 [doi]

Contrastive Learning Relies More on Spatial Inductive Bias Than Supervised Learning: An Empirical StudyYuanyi Zhong, Haoran Tang, Jun-Kun Chen, Yu-Xiong Wang. 16281-16290 [doi]

Pseudo-label Alignment for Semi-supervised Instance SegmentationJie Hu, Chen Chen, Liujuan Cao, Shengchuan Zhang, Annan Shu, Guannan Jiang, Rongrong Ji. 16291-16301 [doi]

CFCG: Semi-Supervised Semantic Segmentation via Cross-Fusion and Contour Guidance SupervisionShuo Li, Yue He, Weiming Zhang, Wei Zhang 0197, Xiao Tan 0001, Junyu Han, Errui Ding, Jingdong Wang 0001. 16302-16312 [doi]

Pixel-Wise Contrastive DistillationJunqiang Huang, Zichao Guo. 16313-16323 [doi]

Rethinking Safe Semi-supervised Learning: Transferring the Open-set Problem to A Close-set OneQiankun Ma, Jiyao Gao, Bo Zhan, Yunpeng Guo, Jiliu Zhou, Yan Wang 0015. 16324-16333 [doi]

Towards Open-Set Test-Time Adaptation Utilizing the Wisdom of Crowds in Entropy MinimizationJungsoo Lee, Debasmit Das, Jaegul Choo, Sungha Choi. 16334 [doi]

Gradient-based Sampling for Class Imbalanced Semi-supervised Object DetectionJiaming Li, Xiangru Lin, Wei Zhang 0197, Xiao Tan 0001, Yingying Li, Junyu Han, Errui Ding, Jingdong Wang 0001, Guanbin Li. 16344-16354 [doi]

Remembering Normality: Memory-guided Knowledge Distillation for Unsupervised Anomaly DetectionZhihao Gu, Liang Liu 0007, Xu Chen, Ran Yi, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Annan Shu, Guannan Jiang, Lizhuang Ma. 16355-16363 [doi]

Semi-Supervised Learning via Weight-aware Distillation under Class Distribution MismatchPan Du 0002, Suyun Zhao, Zisen Sheng, Cuiping Li 0001, Hong Chen 0001. 16364-16374 [doi]

Label Shift Adapter for Test-Time Adaptation under Covariate and Label ShiftsSunghyun Park, Seunghan Yang, Jaegul Choo, Sungrack Yun. 16375-16385 [doi]

SimMatchV2: Semi-Supervised Learning with Graph ConsistencyMingkai Zheng, Shan You, Lang Huang 0001, Chen Luo, Fei Wang, Chen Qian, Chang Xu. 16386-16396 [doi]

Unsupervised Accuracy Estimation of Deep Visual Models using Domain-Adaptive Adversarial Perturbation without Source SamplesJoonho Lee, Jae Oh Woo, Hankyu Moon, Kwonho Lee. 16397-16406 [doi]

Learning by Sorting: Self-supervised Learning with Group Ordering ConstraintsNina Shvetsova, Felix Petersen, Anna Kukleva, Bernt Schiele, Hilde Kuehne. 16407-16417 [doi]

L-DAWA: Layer-wise Divergence Aware Weight Aggregation in Federated Self-Supervised Visual Representation LearningYasar Abbas Ur Rehman, Yan Gao, Pedro Porto Buarque de Gusmão, Mina Alibeigi, Jiajun Shen, Nicholas D. Lane. 16418-16427 [doi]

Class-relation Knowledge Distillation for Novel Class DiscoveryPeiyan Gu, Chuyu Zhang, Ruijie Xu, Xuming He 0001. 16428-16437 [doi]

Representation Uncertainty in Self-Supervised Learning as Variational InferenceHiroki Nakamura, Masashi Okada, Tadahiro Taniguchi. 16438-16447 [doi]

Point-TTA: Test-Time Adaptation for Point Cloud Registration Using Multitask Meta-Auxiliary LearningAhmed Hatem, Yiming Qian, Yang Wang. 16448-16458 [doi]

Adaptive Similarity Bootstrapping for Self-Distillation based Representation LearningTim Lebailly, Thomas Stegmüller, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars. 16459-16468 [doi]

Point Contrastive Prediction with Semantic Clustering for Self-Supervised Learning on Point Cloud VideosXiaoxiao Sheng, Zhiqiang Shen, Gang Xiao 0002, Longguang Wang, Yulan Guo, Hehe Fan. 16469-16478 [doi]

MHCN: A Hyperbolic Neural Network Model for Multi-view Hierarchical ClusteringFangfei Lin, Bing Bai, Yiwen Guo, Hao Chen 0003, Yazhou Ren 0001, Zenglin Xu. 16479-16489 [doi]

Time Does Tell: Self-Supervised Time-Tuning of Dense Image RepresentationsMohammadreza Salehi, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano. 16490-16501 [doi]

To Adapt or Not to Adapt? Real-Time Adaptation for Semantic SegmentationMarc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus Härenstam-Nielsen, Hossein Azizpour, Hedvig Kjellström, Daniel Cremers, Matteo Poggi. 16502-16513 [doi]

Simple and Effective Out-of-Distribution Detection via Cosine-based Softmax LossSoonCheol Noh, DongEon Jeong, Jee-Hyong Lee. 16514-16523 [doi]

MixBag: Bag-Level Data Augmentation for Learning from Label ProportionsTakanori Asanomi, Shinnosuke Matsuo, Daiki Suehiro, Ryoma Bise. 16524-16533 [doi]

Masked Spatio-Temporal Structure Prediction for Self-supervised Learning on Point Cloud VideosZhiqiang Shen, Xiaoxiao Sheng, Hehe Fan, Longguang Wang, Yulan Guo, Qiong Liu, Hao Wen, Xi Zhou. 16534-16543 [doi]

Parametric Classification for Generalized Category Discovery: A Baseline StudyXin Wen, Bingchen Zhao, Xiaojuan Qi. 16544-16554 [doi]

Object-Centric Multiple Object TrackingZixu Zhao, Jiaze Wang, Max Horn, Yizhuo Ding, Tong He, Zechen Bai, Dominik Zietlow, Carl-Johann Simon-Gabriel, Bing Shuai, Zhuowen Tu, Thomas Brox, Bernt Schiele, Yanwei Fu, Francesco Locatello, Zheng Zhang, Tianjun Xiao. 16555-16565 [doi]

Locating Noise is Halfway Denoising for Semi-Supervised SegmentationYan Fang, Feng Zhu 0005, Bowen Cheng, Luoqi Liu, Yao Zhao, Yunchao Wei. 16566-16576 [doi]

Learning Semi-supervised Gaussian Mixture Models for Generalized Category DiscoveryBingchen Zhao, Xin Wen, Kai Han 0001. 16577-16587 [doi]

LoCUS: Learning Multiscale 3D-consistent Features from Posed ImagesDominik A. Kloepfer, Dylan Campbell, João F. Henriques. 16588-16598 [doi]

Stable Cluster Discrimination for Deep ClusteringQi Qian. 16599-16608 [doi]

Cross-modal Scalable Hyperbolic Hierarchical ClusteringTeng Long, Nanne van Noord. 16609-16618 [doi]

Collaborative Propagation on Multiple Instance Graphs for 3D Instance Segmentation with Single-point SupervisionShichao Dong, Ruibo Li, Jiacheng Wei, Fayao Liu, Guosheng Lin. 16619-16628 [doi]

Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in VideosRui Qian, Shuangrui Ding, Xian Liu, Dahua Lin. 16629-16641 [doi]

Proxy Anchor-based Unsupervised Learning for Continuous Generalized Category DiscoveryHyungmin Kim, Sungho Suh, Daehwan Kim, Daun Jeong, Hansang Cho, Junmo Kim. 16642-16651 [doi]

DreamTeacher: Pretraining Image Backbones with Deep Generative ModelsDaiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim 0001, Karsten Kreis, Antonio Torralba 0001, Sanja Fidler. 16652-16662 [doi]

MATE: Masked Autoencoders are Online 3D Test-Time LearnersMuhammad Jehanzeb Mirza, Inkyu Shin, Wei Lin 0019, Andreas Schriebl, Kunyang Sun, Jaesung Choe, Mateusz Kozinski, Horst Possegger, In-So Kweon, Kuk-Jin Yoon, Horst Bischof. 16663-16672 [doi]

PADDLES: Phase-Amplitude Spectrum Disentangled Early Stopping for Learning with Noisy LabelsHuaxi Huang, Hui Kang, Sheng Liu, Olivier Salvado, Thierry Rakotoarivelo, Dadong Wang, Tongliang Liu. 16673-16684 [doi]

Calibrating Uncertainty for Semi-Supervised Crowd CountingChen Li, Xiaoling Hu 0002, Shahira Abousamra, Chao Chen. 16685-16695 [doi]

Test Time Adaptation for Blind Image Quality AssessmentSubhadeep Roy, Shankhanil Mitra, Soma Biswas, Rajiv Soundararajan. 16696-16705 [doi]

Deep Multiview Clustering by Contrasting Cluster AssignmentsJie Chen 0065, Hua Mao, Wai Lok Woo, Xi Peng 0001. 16706-16715 [doi]

Re: PolyWorld - A Graph Neural Network for Polygonal Scene ParsingStefano Zorzi, Friedrich Fraundorfer. 16716-16725 [doi]

SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image UnderstandingFavyen Bastani, Piper Wolters, Ritwik Gupta, Joe Ferdinando, Aniruddha Kembhavi. 16726-16736 [doi]

Large-Scale Land Cover Mapping with Fine-Grained Classes via Class-Aware Semi-Supervised Semantic SegmentationRunmin Dong, Lichao Mou, Mengxuan Chen, Weijia Li, Xin-Yi Tong, Shuai Yuan 0005, Lixian Zhang, Juepeng Zheng, Xiao Xiang Zhu, Haohuan Fu. 16737-16747 [doi]

Large Selective Kernel Network for Remote Sensing Object DetectionYuxuan Li, Qibin Hou, Zhaohui Zheng, Ming-Ming Cheng, Jian Yang, Xiang Li. 16748-16759 [doi]

Towards Geospatial Foundation Models via Continual PretrainingMatías Mendieta, Boran Han, Xingjian Shi, Yi Zhu, Chen Chen. 16760-16770 [doi]

Regularized Primitive Graph Learning for Unified Vector MappingLei Wang, Min Dai, Jianan He, Jingwei Huang. 16771-16780 [doi]

Class Prior-Free Positive-Unlabeled Learning with Taylor Variational Loss for Hyperspectral Remote Sensing ImageryHengwei Zhao, Xinyu Wang, Jingtao Li, Yanfei Zhong. 16781-16790 [doi]

MapFormer: Boosting Change Detection by Using Pre-change InformationMaximilian Bernhard, Niklas Strauß, Matthias Schubert. 16791-16800 [doi]

Sample4Geo: Hard Negative Sampling For Cross-View Geo-LocalisationFabian Deuser, Konrad Habel, Norbert Oswald. 16801-16810 [doi]

PanFlowNet: A Flow-Based Deep Network for Pan-sharpeningGang Yang, Xiangyong Cao, Wenzhe Xiao, Man Zhou, Aiping Liu, Xun Chen, Deyu Meng. 16811-16821 [doi]

Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery based on Reinforcement LearningYinhe Liu, Sunan Shi, Junjue Wang, Yanfei Zhong. 16822-16832 [doi]

AdaNIC: Towards Practical Neural Image Compression via Dynamic Transform RoutingLvfang Tao, Wei Gao, Ge Li 0002, Chenhao Zhang. 16833-16842 [doi]

Rethinking Vision Transformers for MobileNet Size and SpeedYanyu Li, Ju Hu, Yang Wen, Georgios Evangelidis 0002, Kamyar Salahi, Yanzhi Wang, Sergey Tulyakov, Jian Ren. 16843-16854 [doi]

DELFlow: Dense Efficient Learning of Scene Flow for Large-Scale Point CloudsChensheng Peng, Guangming Wang, Xian Wan Lo, Xinrui Wu, Chenfeng Xu, Masayoshi Tomizuka, Wei Zhan, Hesheng Wang. 16855-16864 [doi]

Eventful Transformers: Leveraging Temporal Redundancy in Vision TransformersMatthew Dutson, Yin Li 0003, Mohit Gupta 0001. 16865-16877 [doi]

Inherent Redundancy in Spiking Neural NetworksMan Yao, Jiakui Hu, Guangshe Zhao, Yaoyuan Wang, Ziyang Zhang, Bo Xu 0002, Guoqi Li. 16878-16888 [doi]

Achievement-based Training Progress Balancing for Multi-Task LearningHayoung Yun, Hanjoo Cho. 16889-16898 [doi]

Prune Spatio-temporal Tokens by Semantic-aware Temporal AccumulationShuangrui Ding, Peisen Zhao, Xiaopeng Zhang 0008, Rui Qian, Hongkai Xiong, Qi Tian 0001. 16899-16910 [doi]

Differentiable Transportation PruningYunqiang Li, Jan C. van Gemert, Torsten Hoefler, Bert Moons, Evangelos Eleftheriou, Bram-Ernst Verhoef. 16911-16921 [doi]

XiNet: Efficient Neural Networks for tinyMLAlberto Ancilotto, Francesco Paissan, Elisabetta Farella. 16922-16931 [doi]

Jumping through Local Minima: Quantization in the Loss Landscape of Vision TransformersNatalia Frumkin, Dibakar Gope, Diana Marculescu. 16932-16942 [doi]

A2Q: Accumulator-Aware Quantization with Guaranteed Overflow AvoidanceIan Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig. 16943-16952 [doi]

Workie-Talkie: Accelerating Federated Learning by Overlapping Computing and Communications via Contrastive RegularizationRui Chen, Qiyu Wan, Pavana Prakash, Lan Zhang 0005, Xu Yuan, Yanmin Gong 0001, Xin Fu, Miao Pan. 16953-16963 [doi]

DenseShift : Towards Accurate and Efficient Low-Bit Power-of-Two QuantizationXinlin Li, Bang Liu, Rui-Heng Yang, Vanessa Courville, Chao Xing, Vahid Partovi Nia. 16964-16974 [doi]

PRANC: Pseudo RAndom Networks for Compacting deep modelsParsa Nooralinejad, Ali Abbasi, Soroush Abbasi Koohpayegani, Kossar Pourahmadi Meibodi, Rana Muhammad Shahroz Khan, Soheil Kolouri, Hamed Pirsiavash. 16975-16985 [doi]

Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset ReinforcementFartash Faghri, Hadi Pouransari, Sachin Mehta, Mehrdad Farajtabar, Ali Farhadi, Mohammad Rastegari, Oncel Tuzel. 16986-16997 [doi]

A Fast Unified System for 3D Object Detection and TrackingThomas Heitzinger, Martin Kampel. 16998-17008 [doi]

Estimator Meets Equilibrium Perspective: A Rectified Straight Through Estimator for Binary Neural Networks TrainingXiao-Ming Wu 0002, Dian Zheng, Zuhao Liu, Wei-Shi Zheng 0001. 17009-17018 [doi]

I-ViT: Integer-only Quantization for Efficient Vision Transformer InferenceZhikai Li, Qingyi Gu. 17019-17029 [doi]

EMQ: Evolving Training-free Proxies for Automated Mixed Precision QuantizationPeijie Dong, Lujun Li, Zimian Wei, Xin Niu, Zhiliang Tian, Hengyue Pan. 17030-17040 [doi]

Local or Global: Selective Knowledge Assimilation for Federated Learning with Limited LabelsYae Jee Cho, Gauri Joshi, Dimitrios Dimitriadis. 17041-17050 [doi]

DataDAM: Efficient Dataset Distillation with Attention MatchingAhmad Sajedi, Samir Khaki, Ehsan Amjadian, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis. 17051-17061 [doi]

SAFE: Machine Unlearning With Shard GraphsYonatan Dukler, Benjamin Bowman, Alessandro Achille, Aditya Golatkar, Ashwin Swaminathan, Stefano Soatto. 17062-17072 [doi]

ResQ: Residual Quantization for Video PerceptionDavide Abati, Haitam Ben Yahia, Markus Nagel, AmirHossein Habibian. 17073-17083 [doi]

Efficient Computation Sharing for Multi-Task Visual Scene UnderstandingSara Shoouri, Mingyu Yang, Zichen Fan, Hun-Seok Kim. 17084-17095 [doi]

Essential Matrix Estimation using Convex Relaxations in Orthogonal SpaceArman Karimian, Roberto Tron. 17096-17106 [doi]

TripLe: Revisiting Pretrained Model Reuse and Progressive Learning for Efficient Vision Transformer Scaling and SearchingCheng Fu, Hanxian Huang, Zixuan Jiang, Yun Ni, Lifeng Nai, Gang Wu, Liqun Cheng, Yanqi Zhou, Sheng Li 0007, Andrew Li, Jishen Zhao. 17107-17117 [doi]

DiffRate : Differentiable Compression Rate for Efficient Vision TransformersMengzhao Chen, Wenqi Shao, Peng Xu, Mingbao Lin, Kaipeng Zhang, Fei Chao, Rongrong Ji, Yu Qiao, Ping Luo. 17118-17128 [doi]

Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object DetectionLongrong Yang, Xianpan Zhou, Xuewei Li, Liang Qiao, Zheyang Li, Ziwei Yang 0004, Gaoang Wang, Xi Li. 17129-17138 [doi]

From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft LabelsZhendong Yang, Ailing Zeng, Zhe Li, Tianke Zhang, Chun Yuan, Yu Li 0007. 17139-17148 [doi]

Efficient 3D Semantic Segmentation with Superpoint TransformerDamien Robert 0002, Hugo Raguet, Loïc Landrieu. 17149-17158 [doi]

Dataset QuantizationDaquan Zhou, Kai Wang, Jianyang Gu, Xiangyu Peng, Dongze Lian, Yifan Zhang, Yang You, Jiashi Feng. 17159-17170 [doi]

Revisiting the Parameter Efficiency of Adapters from the Perspective of Precision RedundancyShibo Jie, Haoqing Wang, Zhi-Hong Deng. 17171-17180 [doi]

RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision TransformersZhikai Li, Junrui Xiao, Lianwei Yang, Qingyi Gu. 17181-17190 [doi]

Semantically Structured Image Compression via Irregular Group-Based DecouplingRuoyu Feng, Yixin Gao, Xin Jin, Runsen Feng, Zhibo Chen 0001. 17191-17201 [doi]

SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel StorageSong Park, Sanghyuk Chun, Byeongho Heo, Wonjae Kim, Sangdoo Yun. 17202-17213 [doi]

SMMix: Self-Motivated Image Mixing for Vision TransformersMengzhao Chen, Mingbao Lin, Zhihang Lin, Yuxin Zhang 0002, Fei Chao, Rongrong Ji. 17214-17224 [doi]

Multi-Label Knowledge DistillationPenghui Yang, Ming-Kun Xie, Chen-Chen Zong, Lei Feng 0006, Gang Niu 0001, Masashi Sugiyama, Sheng-Jun Huang. 17225-17234 [doi]

UGC: Unified GAN Compression for Efficient Image-to-Image TranslationYuxi Ren, Jie Wu, Peng Zhang, Manlin Zhang, XueFeng Xiao, Qian He, Rui Wang, Min Zheng, Xin Pan. 17235-17245 [doi]

MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving Camera Videos with Spherical Buffers and Padded ConvolutionsMathias Parger, Chengcheng Tang, Thomas Neff, Christopher D. Twigg, Cem Keskin, Robert Wang 0002, Markus Steinberger. 17246-17255 [doi]

EfficientViT: Lightweight Multi-Scale Attention for High-Resolution Dense PredictionHan Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han 0003. 17256-17267 [doi]

DREAM: Efficient Dataset Distillation by Representative MatchingYanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang, Yang You. 17268-17278 [doi]

INSTA-BNN: Binary Neural Network with INSTAnce-aware ThresholdChanghun Lee, HyungJun Kim, Eunhyeok Park, Jae-Joon Kim. 17279-17288 [doi]

Deep Incubation: Training Large Models by Divide-and-ConqueringZanlin Ni, Yulin Wang, Jiangwei Yu, Haojun Jiang, Yue Cao, Gao Huang. 17289-17299 [doi]

AdaMV-MoE: Adaptive Multi-Task Vision Mixture-of-ExpertsTianlong Chen, Xuxi Chen, Xianzhi Du, Abdullah Rashwan, Fan Yang, Huizhong Chen, Zhangyang Wang, Yeqing Li. 17300-17311 [doi]

Overcoming Forgetting Catastrophe in Quantization-Aware TrainingTing-An Chen, De-Nian Yang, Ming-Syan Chen. 17312-17321 [doi]

Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep Ensembles are More Efficient than Single ModelsGuoxuan Xia, Christos-Savvas Bouganis. 17322-17334 [doi]

ORC: Network Group-based Knowledge Distillation using Online Role ChangeJunyong Choi, Hyeon Cho, Seokhwa Cheung, Wonjun Hwang. 17335-17344 [doi]

RMP-Loss: Regularizing Membrane Potential Distribution for Spiking Neural NetworksYufei Guo, Xiaode Liu, Yuanpei Chen, Liwen Zhang, Weihang Peng, Yuhan Zhang, Xuhui Huang, Zhe Ma. 17345-17355 [doi]

Structural Alignment for Network Pruning through Partial RegularizationShangqian Gao, Zeyu Zhang, Yanfu Zhang, Feihu Huang, Heng Huang. 17356-17366 [doi]

Automated Knowledge Distillation via Monte Carlo Tree SearchLujun Li, Peijie Dong, Zimian Wei, Ya Yang. 17367-17378 [doi]

SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision ApplicationsAbdelrahman Shaker, Muhammad Maaz 0001, Hanoona Abdul Rasheed, Salman H. Khan 0001, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 17379-17390 [doi]

Causal-DFQ: Causality Guided Data-free Network QuantizationYuzhang Shang, Bingxin Xu, Gaowen Liu, Ramana Rao Kompella, Yan Yan 0006. 17391-17400 [doi]

Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep Neural NetworksKaixin Xu, Zhe Wang, Xue Geng, Min Wu, Xiaoli Li, Weisi Lin. 17401-17411 [doi]

Automatic Network Pruning via Hilbert-Schmidt Independence Criterion Lasso under Information Bottleneck PrincipleSong Guo 0001, Lei Zhang, Xiawu Zheng, Yan Wang, Yuchao Li, Fei Chao 0001, Chenglin Wu, Shengchuan Zhang, Rongrong Ji. 17412-17423 [doi]

Distribution Shift Matters for Knowledge Distillation with Webly Collected ImagesJialiang Tang, Shuo Chen 0003, Gang Niu 0001, Masashi Sugiyama, Chen Gong 0002. 17424-17434 [doi]

FastRecon: Few-shot Industrial Anomaly Detection via Fast Feature ReconstructionZheng Fang, Xiaoyang Wang, Haocheng Li, Jiejie Liu, Qiugui Hu, Jimin Xiao. 17435-17444 [doi]

2VPT: An Effective and Efficient Approach for Visual Prompt TuningCheng Han, Qifan Wang, Yiming Cui, Zhiwen Cao, Wenguan Wang, Siyuan Qi, Dongfang Liu. 17445-17456 [doi]

Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image SegmentationZunnan Xu, Zhihong Chen, Yong Zhang 0034, Yibing Song, Xiang Wan, Guanbin Li. 17457-17466 [doi]

SHACIRA: Scalable HAsh-grid Compression for Implicit Neural RepresentationsSharath Girish, Abhinav Shrivastava, Kamal Gupta 0002. 17467-17478 [doi]

Efficient Deep Space Filling CurveWanli Chen, Xufeng Yao, Xinyun Zhang, Bei Yu 0001. 17479-17488 [doi]

Q-Diffusion: Quantizing Diffusion ModelsXiuyu Li, Yijiang Liu, Long Lian, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer. 17489-17499 [doi]

2) Post-training Model Size CompressionYumeng Shi, Shihao Bai, Xiuying Wei, Ruihao Gong, Jianlei Yang 0001. 17500-17510 [doi]

Robustifying Token Attention for Vision TransformersYong Guo, David Stutz, Bernt Schiele. 17511-17522 [doi]

Strivec: Sparse Tri-Vector Radiance FieldsQuankai Gao, Qiangeng Xu, Hao Su 0001, Ulrich Neumann, Zexiang Xu. 17523-17533 [doi]

LDP-Feat: Image Features with Local Differential PrivacyFrancesco Pittaluga, Bingbing Zhuang. 17534-17544 [doi]

SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object DetectionYichen Xie, Chenfeng Xu, Marie-Julie Rakotosaona, Patrick Rim, Federico Tombari, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan. 17545-17556 [doi]

Strata-NeRF : Neural Radiance Fields for Stratified ScenesAnkit Dhiman, R. Srinath, Harsh Rangwani, Rishubh Parihar, Lokesh R. Boregowda, Srinath Sridhar 0002, R. Venkatesh Babu. 17557-17568 [doi]

CRN: Camera Radar Net for Accurate, Robust, Efficient 3D PerceptionYoungseok Kim, Juyeb Shin, Sanmin Kim, In-Jae Lee, Jun Won Choi, Dongsuk Kum. 17569-17580 [doi]

LightGlue: Local Feature Matching at Light SpeedPhilipp Lindenberger, Paul-Edouard Sarlin, Marc Pollefeys. 17581-17592 [doi]

ExBluRF: Efficient Radiance Fields for Extreme Motion Blurred ImagesDongwoo Lee, Jeongtaek Oh, Jaesung Rim, Sunghyun Cho, Kyoung Mu Lee. 17593-17602 [doi]

Generalized Differentiable RANSACTong Wei, Yash Patel, Alexander Shekhovtsov, Jirí Matas, Daniel Barath. 17603-17614 [doi]

Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth Approach with Saddle-shaped Depth CellsXinyi Ye, Weiyue Zhao, Tianqi Liu, Zihao Huang, Zhiguo Cao 0001, Xin Li 0005. 17615-17624 [doi]

Total-Recon: Deformable Scene Reconstruction for Embodied View SynthesisChonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan. 17625-17636 [doi]

Seal-3D: Interactive Pixel-Level Editing for Neural Radiance FieldsXiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen. 17637-17647 [doi]

PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised RGB-D Point Cloud RegistrationMingzhi Yuan, Kexue Fu, Zhihao Li, Yucong Meng, Manning Wang. 17648-17659 [doi]

PARF: Primitive-Aware Radiance Fusion for Indoor Scene Novel View SynthesisHaiyang Ying, Baowei Jiang, Jinzhi Zhang, Di Xu, Tao Yu, Qionghai Dai, Lu Fang. 17660-17670 [doi]

Rethinking Point Cloud Registration as Masking and ReconstructionGuangyan Chen, Meiling Wang, Li Yuan, Yi Yang, Yufeng Yue. 17671-17681 [doi]

Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object DetectionTianchen Zhao, Xuefei Ning, Ke Hong, Zhongyuan Qiu, Pu Lu, Yali Zhao, Linfeng Zhang, Lipu Zhou, Guohao Dai, Huazhong Yang, Yu Wang 0002. 17682-17692 [doi]

Delicate Textured Mesh Recovery from NeRF via Adaptive Surface RefinementJiaxiang Tang, Hang Zhou, Xiaokang Chen, Tianshu Hu, Errui Ding, Jingdong Wang 0001, Gang Zeng. 17693-17703 [doi]

CVRecon: Rethinking 3D Geometric Feature Learning For Neural ReconstructionZiyue Feng, Liang Yang, Pengsheng Guo, Bing Li. 17704-17714 [doi]

RICO: Regularizing the Unobservable for Indoor Compositional ReconstructionZizhang Li, Xiaoyang Lyu, Yuanyuan Ding, Mengmeng Wang, Yiyi Liao, Yong Liu. 17715-17725 [doi]

Multiscale Representation for Real-Time Anti-Aliasing Neural RenderingDongting Hu, Zhenkai Zhang, Tingbo Hou, Tongliang Liu, Huan Fu, Mingming Gong. 17726-17737 [doi]

ELFNet: Evidential Local-global Fusion for Stereo MatchingJieming Lou, Weide Liu, Zhuo Chen, Fayao Liu, Jun Cheng. 17738-17747 [doi]

GaPro: Box-Supervised 3D Point Cloud Instance Segmentation Using Gaussian Processes as Pseudo LabelersTuan Duc Ngo, Binh-Son Hua, Khoi Nguyen 0001. 17748-17757 [doi]

Multi-body Depth and Camera Pose Estimation from Multiple ViewsAndrea Porfiri Dal Cin, Giacomo Boracchi, Luca Magri. 17758-17768 [doi]

Reference-guided Controllable Inpainting of Neural Radiance FieldsAshkan Mirzaei, Tristan Aumentado-Armstrong, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski. 17769-17779 [doi]

Retro-FPN: Retrospective Feature Pyramid Network for Point Cloud Semantic SegmentationPeng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han. 17780-17792 [doi]

GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D UnderstandingJihao Liu, Tai Wang, Boxiao Liu, Qihang Zhang, Yu Liu, Hongsheng Li 0001. 17793-17803 [doi]

OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy PerceptionXiaofeng Wang, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, Xingang Wang 0003. 17804-17813 [doi]

Surface Normal Clustering for Implicit Representation of Manhattan ScenesNikola Popovic, Danda Pani Paudel, Luc Van Gool. 17814-17824 [doi]

Spacetime Surface Regularization for Neural Dynamic Scene ReconstructionJaesung Choe, Christopher B. Choy, Jaesik Park, In-So Kweon, Anima Anandkumar. 17825-17835 [doi]

LDL: Line Distance Functions for Panoramic LocalizationJunho Kim, Changwoon Choi, Hojun Jang, Young Min Kim 0001. 17836-17846 [doi]

Learning Neural Implicit Surfaces with Object-Aware Radiance FieldsYiheng Zhang, Zhaofan Qiu, Yingwei Pan, Ting Yao, Tao Mei 0001. 17847-17856 [doi]

MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular VideosFengrui Tian, Shaoyi Du, Yueqi Duan. 17857-17867 [doi]

Neural Radiance Fields with LiDAR MapsMing-Fang Chang, Akash Sharma, Michael Kaess, Simon Lucey. 17868-17877 [doi]

Deformable Model-Driven Neural Rendering for High-Fidelity 3D Reconstruction of Human Heads Under Low-View SettingsBaixin Xu, Jiarui Zhang, Kwan-Yee Lin, Chen Qian 0006, Ying He 0001. 17878-17888 [doi]

DeLiRa: Self-Supervised Depth, Light, and Radiance FieldsVitor Guizilini, Igor Vasiljevic, Jiading Fang, Rares Ambrus, Sergey Zakharov, Vincent Sitzmann, Adrien Gaidon. 17889-17899 [doi]

ATT3D: Amortized Text-to-3D Object SynthesisJonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu 0001, Sanja Fidler, James Lucas. 17900-17910 [doi]

ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural RenderingAndrea Ramazzina, Mario Bijelic, Stefanie Walz, Alessandro Sanvito, Dominik Scheuble, Felix Heide. 17911-17922 [doi]

CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical FlowPhilippe Weinzaepfel, Thomas Lucas 0002, Vincent Leroy 0003, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud. 17923-17934 [doi]

Guiding Local Feature Matching with Surface CurvatureShuzhe Wang, Juho Kannala, Marc Pollefeys, Daniel Barath. 17935-17945 [doi]

NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic NavigationBaao Xie, Bohan Li, Zequn Zhang, Junting Dong, Xin Jin, Jingyu Yang, Wenjun Zeng. 17946-17956 [doi]

Efficient LiDAR Point Cloud Oversegmentation NetworkLe Hui, Linghua Tang, Yuchao Dai, Jin Xie, Jian Yang 0003. 17957-17966 [doi]

Iterative Superquadric Recomposition of 3D Objects from Multiple ViewsStephan Alaniz, Massimiliano Mancini, Zeynep Akata. 17967-17977 [doi]

S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural FieldsZeke Xie, Xindi Yang, Yujie Yang, Qi Sun, Yixiang Jiang, Haoran Wang, Yunfeng Cai, Mingming Sun. 17978-17988 [doi]

LiveHand: Real-time and Photorealistic Neural Hand RenderingAkshay Mundra, Mallikarjun B. R. 0001, Jiayi Wang 0001, Marc Habermann, Christian Theobalt, Mohamed Elgharib. 17989-17999 [doi]

Neural-PBIR Reconstruction of Shape, Material, and IlluminationCheng Sun 0004, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl Marshall, Jia-Bin Huang 0001, Shuang Zhao, Zhao Dong 0001. 18000-18010 [doi]

Predict to Detect: Prediction-guided 3D Object Detection using Sequential ImagesSanmin Kim, Youngseok Kim, In-Jae Lee, Dongsuk Kum. 18011-18020 [doi]

ObjectFusion: Multi-modal 3D Object Detection with Object-Centric FusionQi Cai, Yingwei Pan, Ting Yao, Chong-Wah Ngo, Tao Mei 0001. 18021-18030 [doi]

Domain generalization of 3D semantic segmentation in autonomous drivingJules Sanchez, Jean-Emmanuel Deschaud, François Goulette. 18031-18041 [doi]

When Epipolar Constraint Meets Non-local Operators in Multi-View StereoTianqi Liu, Xinyi Ye, Weiyue Zhao, Zhiyu Pan, Min Shi 0004, Zhiguo Cao 0001. 18042-18051 [doi]

Hierarchical Point-based Active Learning for Semi-supervised Point Cloud Semantic SegmentationZongyi Xu, Bo Yuan, Shanshan Zhao, Qianni Zhang, Xinbo Gao 0001. 18052-18062 [doi]

UniT3D: A Unified Transformer for 3D Dense Captioning and Visual GroundingDave Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nießner, Angel X. Chang. 18063-18073 [doi]

Nerfbusters: Removing Ghostly Artifacts from Casually Captured NeRFsFrederik Warburg, Ethan Weber, Matthew Tancik, Aleksander Holynski, Angjoo Kanazawa. 18074-18084 [doi]

Clutter Detection and Removal in 3D Scenes with View-Consistent InpaintingFangyin Wei, Thomas A. Funkhouser, Szymon Rusinkiewicz. 18085-18095 [doi]

PG-RCNN: Semantic Surface Point Generation for 3D Object DetectionInyong Koo, Inyoung Lee, Se-Ho Kim, Heeseon Kim, Woo-Jin Jeon, Changick Kim. 18096-18105 [doi]

Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasetsMaoteng Zheng, Nengcheng Chen, Junfeng Zhu, Xiaoru Zeng, Huanbin Qiu, Yuyao Jiang, Xingyue Lu, Hao Qu. 18106-18116 [doi]

Adaptive Reordering Sampler with Neurally Guided MAGSACTong Wei, Jirí Matas, Daniel Barath. 18117-18127 [doi]

Privacy Preserving Localization via Coordinate PermutationsLinfei Pan, Johannes L. Schönberger, Viktor Larsson, Marc Pollefeys. 18128-18137 [doi]

DG-Recon: Depth-Guided Neural 3D Scene ReconstructionJihong Ju, Ching Wei Tseng, Oleksandr Bailo, Georgi Dikov, Mohsen Ghafoorian. 18138-18148 [doi]

WaveNeRF: Wavelet-based Generalizable Neural Radiance FieldsMuyu Xu, Fangneng Zhan, Jiahui Zhang, Yingchen Yu, Xiaoqin Zhang, Christian Theobalt, Ling Shao 0001, Shijian Lu. 18149-18158 [doi]

TransIFF: An Instance-Level Feature Fusion Framework for Vehicle-Infrastructure Cooperative 3D Detection with TransformersZiming Chen, Yifeng Shi, Jinrang Jia. 18159-18168 [doi]

Density-invariant Features for Distant Point Cloud RegistrationQuan Liu, Hongzi Zhu, Yunsong Zhou, Hongyang Li, Shan Chang, Minyi Guo. 18169-18179 [doi]

UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D ReconstructionZhenwei Zhu, Liying Yang, Ning Li, Chaohao Jiang, Yanyan Liang. 18180-18189 [doi]

Neural LiDAR Fields for Novel View SynthesisShengyu Huang, Zan Gojcic, Zian Wang, Francis Williams, Yoni Kasten, Sanja Fidler, Konrad Schindler, Or Litany. 18190-18200 [doi]

Learning Unified Decompositional and Compositional NeRF for Editable Novel View SynthesisYuxin Wang, Wayne Wu, Dan Xu. 18201-18210 [doi]

Long-Range Grouping Transformer for Multi-View 3D ReconstructionLiying Yang, Zhenwei Zhu, Xuxin Lin, Jian Nong, Yanyan Liang. 18211-18221 [doi]

Cross Modal Transformer: Towards Fast and Robust 3D Object DetectionJunjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang. 18222-18232 [doi]

Kecor: Kernel Coding Rate Maximization for Active 3D Object DetectionYadan Luo, Zhuoxiao Chen, Zhen Fang, Zheng Zhang 0006, Mahsa Baktashmotlagh, Zi Huang. 18233-18244 [doi]

C2F2NeUS: Cascade Cost Frustum Fusion for High Fidelity and Generalizable Neural Surface ReconstructionLuoyuan Xu, Tao Guan, Yuesong Wang 0001, Wenkai Liu, Zhaojie Zeng, Junle Wang, Wei Yang 0011. 18245-18255 [doi]

End-to-end 3D Tracking with Decoupled QueriesYanwei Li, Zhiding Yu, Jonah Philion, Anima Anandkumar, Sanja Fidler, Jiaya Jia, Jose Alvarez. 18256-18265 [doi]

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFsZezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia. 18266-18275 [doi]

GridPull: Towards Scalability in Learning Implicit Representations from 3D Point CloudsChao Chen, Yu-Shen Liu, Zhizhong Han. 18276-18288 [doi]

Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform MotionWeng Fei Low, Gim Hee Lee. 18289-18300 [doi]

Parameterized Cost Volume for Stereo MatchingJiaxi Zeng, Chengtang Yao, Lidong Yu, Yuwei Wu 0001, Yunde Jia. 18301-18311 [doi]

Coordinate Quantized Neural Implicit Representations for Multi-view ReconstructionSijia Jiang, Jing Hua 0001, Zhizhong Han. 18312-18323 [doi]

Pixel-Aligned Recurrent Queries for Multi-View 3D Object DetectionYiming Xie, Huaizu Jiang, Georgia Gkioxari, Julian Straub. 18324-18334 [doi]

Optimizing the Placement of Roadside LiDARs for Autonomous DrivingWentao Jiang, Hao Xiang, Xinyu Cai, Runsheng Xu, Jiaqi Ma, Yikang Li, Gim Hee Lee, Si Liu 0001. 18335-18344 [doi]

ActorsNeRF: Animatable Few-shot Human Rendering with Generalizable NeRFsJiteng Mu, Shen Sang, Nuno Vasconcelos, Xiaolong Wang 0004. 18345-18355 [doi]

NeRFrac: Neural Radiance Fields through Refractive SurfaceYifan Zhan, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng. 18356-18366 [doi]

CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud Semantic SegmentationLizhao Liu, Zhuangwei Zhuang, Shangxin Huang, Xunlong Xiao, Tianhang Xiang, Cen Chen, Jingdong Wang 0001, Mingkui Tan. 18367-18376 [doi]

FineRecon: Depth-aware Feed-forward Network for Detailed 3D ReconstructionNoah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang 0005, Fangchang Ma, Baptiste Angles. 18377-18386 [doi]

Point-SLAM: Dense Neural Point Cloud-based SLAMErik Sandström, Yue Li 0036, Luc Van Gool, Martin R. Oswald. 18387-18398 [doi]

You Never Get a Second Chance To Make a Good First Impression: Seeding Active Learning for 3D Semantic SegmentationNermin Samet, Oriane Siméoni, Gilles Puy, Georgy Ponimatkin, Renaud Marlet, Vincent Lepetit. 18399-18411 [doi]

Tetra-NeRF: Representing Neural Radiance Fields Using TetrahedraJonás Kulhánek, Torsten Sattler. 18412-18423 [doi]

Active Stereo Without Pattern ProjectorLuca Bartolomei 0001, Matteo Poggi, Fabio Tosi, Andrea Conti 0002, Stefano Mattoccia. 18424-18436 [doi]

HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single VideoJia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Zhongcong Xu, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou. 18437-18448 [doi]

PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views with Learnt Shape ProgramsWentao Hu, Jia Zheng 0002, Zixin Zhang 0002, Xiaojun Yuan, Jian Yin 0001, Zihan Zhou 0001. 18449-18459 [doi]

Efficient View Synthesis with Neural Radiance Distribution FieldYushuang Wu, Xiao Li, Jinglu Wang, Xiaoguang Han 0001, Shuguang Cui, Yan Lu. 18460-18469 [doi]

Query Refinement Transformer for 3D Instance SegmentationJiahao Lu, Jiacheng Deng, Chuxin Wang, Jianfeng He, Tianzhu Zhang. 18470-18480 [doi]

TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory HypothesesXuesong Chen, Shaoshuai Shi, Chao Zhang, Benjin Zhu, Qiang Wang, Ka-Chun Cheung, Simon See, Hongsheng Li. 18481-18490 [doi]

NerfAcc: Efficient Sampling Accelerates NeRFsRuilong Li, Hang Gao, Matthew Tancik, Angjoo Kanazawa. 18491-18500 [doi]

NeTO: Neural Reconstruction of Transparent Objects with Self-Occlusion Aware Refraction-TracingZongcheng Li, Xiaoxiao Long, Yusen Wang, Tuo Cao, Wenping Wang, Fei Luo 0004, Chunxia Xiao. 18501-18511 [doi]

Text2Tex: Text-driven Texture Synthesis via Diffusion ModelsDave Zhenyu Chen, Yawar Siddiqui, Hsin-Ying Lee, Sergey Tulyakov, Matthias Nießner. 18512-18522 [doi]

Learning Long-range Information with Dual-Scale Transformers for Indoor Scene CompletionZiqi Wang, Fei Luo 0004, Xiaoxiao Long, Wenxiao Zhang, Chunxia Xiao. 18523-18533 [doi]

SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera VideosHaisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang. 18534-18544 [doi]

NeRF-MS: Neural Radiance Fields with Multi-SequencePeihao Li, Shaohui Wang, Chen Yang, Bingbing Liu, Weichao Qiu, Haoqian Wang. 18545-18554 [doi]

Label-Guided Knowledge Distillation for Continual Semantic Segmentation on 2D Images and 3D Point CloudsZe Yang 0002, Ruibo Li, Evan Ling, Chi Zhang, Yiming Wang, Dezhao Huang, Keng Teck Ma, Minhoe Hur, Guosheng Lin. 18555-18566 [doi]

ETran: Energy-Based Transferability EstimationMohsen Gholami, Mohammad Akbari, Xinglu Wang, Behnam Kamranian, Yong Zhang. 18567-18576 [doi]

PØDA: Prompt-driven Zero-shot Domain AdaptationMohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette. 18577-18587 [doi]

Local Context-Aware Active Domain AdaptationTao Sun 0009, Cheng Lu 0006, Haibin Ling. 18588-18597 [doi]

MRN: Multiplexed Routing Network for Incremental Multilingual Text RecognitionTianlun Zheng, Zhineng Chen, Bingchen Huang, Wei Zhang 0031, Yu-Gang Jiang. 18598-18607 [doi]

Few-Shot Dataset Distillation via Translative Pre-TrainingSonghua Liu, Xinchao Wang. 18608-18618 [doi]

Wasserstein Expansible Variational Autoencoder for Discriminative and Generative Continual LearningFei Ye 0004, Adrian G. Bors. 18619-18629 [doi]

Tangent Model Composition for Ensembling and Continual Fine-tuningTian-Yu Liu, Stefano Soatto. 18630-18640 [doi]

Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation for Panoramic Semantic SegmentationXu Zheng, Tianbo Pan, Yunhao Luo, Lin Wang. 18641-18652 [doi]

Homeomorphism Alignment for Unsupervised Domain AdaptationLihua Zhou, Mao Ye 0001, Xiatian Zhu, Siying Xiao, Xuqian Fan, Ferrante Neri. 18653-18664 [doi]

Knowledge Restore and Transfer for Multi-Label Class-Incremental LearningSonglin Dong, Haoyu Luo, Yuhang He, Xing Wei, Jie Cheng, Yihong Gong. 18665-18674 [doi]

Unsupervised Domain Adaptation for Training Event-Based Networks Using Contrastive Learning and Uncorrelated ConditioningDayuan Jian, Mohammad Rostami. 18675-18685 [doi]

A Simple Recipe to Meta-Learn Forward and Backward TransferEdoardo Cetin, Antonio Carta, Oya Çeliktutan. 18686-18696 [doi]

Dynamic Residual Classifier for Class Incremental LearningXiuwei Chen, Xiaobin Chang. 18697-18706 [doi]

Concept-wise Fine-tuning Matters in Preventing Negative TransferYunqiao Yang, Long-Kai Huang, Ying Wei 0001. 18707-18717 [doi]

Online Prototype Learning for Online Continual LearningYujie Wei 0001, Jiaxin Ye, Zhizhong Huang, Junping Zhang, Hongming Shan. 18718-18728 [doi]

Bidirectional Alignment for Domain Adaptive Detection with TransformersLiqiang He, Wei Wang, Albert Chen, Min Sun, Cheng-Hao Kuo, Sinisa Todorovic. 18729-18739 [doi]

Borrowing Knowledge From Pre-trained Language Model: A New Data-efficient Visual Learning ParadigmWenxuan Ma 0001, Shuang Li 0001, Jinming Zhang, Chi Harold Liu, Jingxuan Kang, Yulin Wang, Gao Huang. 18740-18751 [doi]

CLR: Channel-wise Lightweight Reprogramming for Continual LearningYunhao Ge, Yuecheng Li, Shuo Ni, Jiaping Zhao, Ming-Hsuan Yang 0001, Laurent Itti. 18752-18762 [doi]

Multi-Modal Continual Test-Time Adaptation for 3D Semantic SegmentationHaozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Shenghai Yuan, Lihua Xie. 18763-18773 [doi]

First Session Adaptation: A Strong Replay-Free Baseline for Class-Incremental LearningAristeidis Panos, Yuriko Kobe, Daniel Olmeda Reino, Rahaf Aljundi, Richard E. Turner. 18774-18784 [doi]

Domain Adaptive Few-Shot Open-Set LearningDebabrata Pal, Deeptej More, Sai Bhargav, Dipesh Tamboli, Vaneet Aggarwal, Biplab Banerjee. 18785-18794 [doi]

Rethinking the Role of Pre-Trained Networks in Source-Free Domain AdaptationWenyu Zhang 0003, Li Shen, Chuan-Sheng Foo. 18795-18805 [doi]

Rapid Adaptation in Online Continual Learning: Are We Evaluating It Right?Hasan Abed Al Kader Hammoud, Ameya Prabhu, Ser-Nam Lim, Philip H. S. Torr, Adel Bibi, Bernard Ghanem. 18806-18815 [doi]

Multi-grained Temporal Prototype Learning for Few-shot Video Object SegmentationNian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao, Salman Khan 0001, Hisham Cholakkal, Rao Muhammad Anwer, Junwei Han, Fahad Shahbaz Khan. 18816-18825 [doi]

A Low-Shot Object Counting Network With Iterative Prototype AdaptationNikola Ðukic, Alan Lukezic, Vitjan Zavrtanik, Matej Kristan. 18826-18835 [doi]

Towards Better Robustness against Common Corruptions for Unsupervised Domain AdaptationZhiqiang Gao, Kaizhu Huang, Rui Zhang, Dawei Liu 0001, Jieming Ma. 18836-18847 [doi]

Alleviating Catastrophic Forgetting of Incremental Object Detection via Within-Class and Between-Class Knowledge DistillationMengxue Kang, Jinpeng Zhang, Jinming Zhang, Xiashuang Wang, Yang Chen, Zhe Ma, Xuhui Huang. 18848-18858 [doi]

Class-Aware Patch Embedding Adaptation for Few-Shot Image ClassificationFusheng Hao, Fengxiang He, Liu Liu 0014, Fuxiang Wu, Dacheng Tao, Jun Cheng 0002. 18859-18869 [doi]

Order-preserving Consistency Regularization for Domain Adaptation and GeneralizationMengmeng Jing, Xiantong Zhen, Jingjing Li, Cees G. M. Snoek. 18870-18881 [doi]

Domain-Specificity Inducing Transformers for Source-Free Domain AdaptationSunandini Sanyal, Ashish Ramayee Asokan, Suvaansh Bhambri, Akshay R. Kulkarni, Jogendra Nath Kundu, R. Venkatesh Babu. 18882-18891 [doi]

Diffusion Model as Representation LearnerXingyi Yang, Xinchao Wang. 18892-18903 [doi]

σ-Adaptive Decoupled Prototype for Few-Shot Object DetectionJinhao Du, Shan Zhang, Qiang Chen, Haifeng Le, Yanpeng Sun, Yao Ni, Jian Wang, Bin He, Jingdong Wang 0001. 18904-18914 [doi]

Growing a Brain with Sparsity-Inducing Generation for Continual LearningHyundong Jin, Gyeong-Hyeon Kim, Chanho Ahn, Eunwoo Kim. 18915-18924 [doi]

DomainAdaptor: A Novel Approach to Test-time AdaptationJian Zhang 0002, Lei Qi 0001, Yinghuan Shi, Yang Gao. 18925-18935 [doi]

Reconciling Object-Level and Global-Level Objectives for Long-Tail DetectionShaoyu Zhang 0001, Chen Chen 0036, Silong Peng. 18936-18946 [doi]

Domain Generalization via Balancing Training Difficulty and Model CapabilityXueying Jiang, Jiaxing Huang 0001, Sheng Jin, Shijian Lu. 18947-18957 [doi]

Understanding Hessian Alignment for Domain GeneralizationSobhan Hemati, Guojun Zhang, Amir Hossein Estiri, Xi Chen. 18958-18968 [doi]

Vision Transformer Adapters for Generalizable Multitask LearningDeblina Bhattacharjee, Sabine Süsstrunk, Mathieu Salzmann. 18969-18980 [doi]

Focus on Your Target: A Dual Teacher-Student Framework for Domain-adaptive Semantic SegmentationXinyue Huo, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian 0001. 18981-18992 [doi]

Masked Retraining Teacher-Student Framework for Domain Adaptive Object DetectionZijing Zhao, Sitong Wei, Qingchao Chen, Dehui Li, Yifan Yang, Yuxin Peng, Yang Liu. 18993-19003 [doi]

DandelionNet: Domain Composition with Instance Adaptive Classification for Domain GeneralizationLanqing Hu, Meina Kan, Shiguang Shan, Xilin Chen 0001. 19004-19013 [doi]

CAFA: Class-Aware Feature Alignment for Test-Time AdaptationSanghun Jung, Jungsoo Lee, Nanhee Kim, Amirreza Shaban, Byron Boots, Jaegul Choo. 19014-19025 [doi]

Image-free Classifier Injection for Zero-Shot ClassificationAnders Christensen, Massimiliano Mancini, A. Sophia Koepke, Ole Winther, Zeynep Akata. 19026-19035 [doi]

CBA: Improving Online Continual Learning via Continual Bias AdaptorQuanziang Wang, Renzhen Wang, Yichen Wu, Xixi Jia, Deyu Meng. 19036-19046 [doi]

Masked Autoencoders are Efficient Class Incremental LearnersJiang-Tian Zhai, Xialei Liu, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng. 19047-19056 [doi]

DomainDrop: Suppressing Domain-Sensitive Channels for Domain GeneralizationJintao Guo, Lei Qi, Yinghuan Shi. 19057-19067 [doi]

Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language ModelsZangwei Zheng, Mingyuan Ma, Kai Wang, Ziheng Qin, Xiangyu Yue, Yang You. 19068-19079 [doi]

Incremental Generalized Category DiscoveryBingchen Zhao, Oisin Mac Aodha. 19080-19090 [doi]

SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained ModelGengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei. 19091-19101 [doi]

Efficient Model Personalization in Federated Learning via Client-Specific Prompt GenerationFu-En Yang, Chien-Yi Wang, Yu-Chiang Frank Wang. 19102-19111 [doi]

iDAG: Invariant DAG Searching for Domain GeneralizationZenan Huang, Haobo Wang, Junbo Zhao, Nenggan Zheng. 19112-19122 [doi]

SSDA: Secure Source-Free Domain AdaptationSabbir Ahmed, Abdullah Al Arafat, Mamshad Nayeem Rizve, Rahim Hossain, Zhishan Guo, Adnan Siraj Rakin. 19123-19133 [doi]

Learning Pseudo-Relations for Cross-domain Semantic SegmentationDong Zhao, Shuang Wang, Qi Zang, Dou Quan, Xiutiao Ye, Rui Yang, Licheng Jiao. 19134-19146 [doi]

Self-Organizing Pathway Expansion for Non-Exemplar Class-Incremental LearningKai Zhu 0004, Kecheng Zheng, Ruili Feng, Deli Zhao, Yang Cao, Zheng-Jun Zha. 19147-19156 [doi]

Improved Knowledge Transfer for Semi-supervised Domain Adaptation via Trico Training StrategyBa-Hung Ngo, Yeon Jeong Chae, Jung Eun Kwon, Jae-Hyeon Park, Sung In Cho. 19157-19166 [doi]

Few-shot Continual Infomax LearningZiqi Gu, Chunyan Xu, Jian Yang, Zhen Cui. 19167-19176 [doi]

EDAPS: Enhanced Domain-Adaptive Panoptic SegmentationSuman Saha 0001, Lukas Hoyer, Anton Obukhov, Dengxin Dai, Luc Van Gool. 19177-19188 [doi]

Label-Efficient Online Continual Object Detection in Streaming VideoJay Zhangjie Wu, David Junhao Zhang, Wynne Hsu, Mengmi Zhang, Mike Zheng Shou. 19189-19198 [doi]

Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic SegmentationKai Huang, Feigege Wang, Ye Xi, YuTao Gao. 19199-19208 [doi]

MSI: Maximize Support-Set Information for Few-Shot SegmentationSeonghyeon Moon, Samuel S. Sohn, Honglu Zhou, Sejong Yoon, Vladimir Pavlovic 0001, Muhammad Haris Khan, Mubbasir Kapadia. 19209-19219 [doi]

AREA: Adaptive Reweighting via Effective Area for Long-Tailed ClassificationXiaohua Chen, Yucan Zhou, Dayan Wu, Chule Yang, Bo Li, Qinghua Hu, Weiping Wang. 19220-19230 [doi]

Pasta: Proportional Amplitude Spectrum Training Augmentation for Syn-to-Real Domain GeneralizationPrithvijit Chattopadhyay, Kartik Sarangmath, Vivek Vijaykumar, Judy Hoffman. 19231-19243 [doi]

Personalized Semantics Excitation for Federated Image ClassificationHaifeng Xia, Kai Li 0012, Zhengming Ding. 19244-19253 [doi]

Few-Shot Video Classification via Representation Fusion and Promotion LearningHaifeng Xia, Kai Li, Martin Renqiang Min, Zhengming Ding. 19254-19263 [doi]

Segmenting Known Objects and Unseen Unknowns without Prior KnowledgeStefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt 0015, Nassir Navab, Benjamin Busam, Federico Tombari. 19264-19275 [doi]

Adaptive Calibrator Ensemble: Navigating Test Set Difficulty in Out-of-Distribution ScenariosYuli Zou, Weijian Deng, Liang Zheng 0001. 19276-19285 [doi]

Anchor Structure Regularization Induced Multi-view Subspace Clustering via Enhanced Tensor Rank MinimizationJintian Ji, Songhe Feng. 19286-19295 [doi]

Meta OOD Learning For Continuously Adaptive OOD DetectionXinheng Wu, Jie Lu 0001, Zhen Fang, Guangquan Zhang 0001. 19296-19307 [doi]

Learning with Diversity: Self-Expanded Equalization for Better Generalized Deep Metric LearningJiexi Yan, Zhihui Yin, Erkun Yang, Yanhua Yang, Heng Huang. 19308-19317 [doi]

Bold but Cautious: Unlocking the Potential of Personalized Federated Learning through Cautiously Aggressive CollaborationXinghao Wu, Xuefeng Liu 0001, Jianwei Niu, Guogang Zhu, Shaojie Tang 0001. 19318-19327 [doi]

Federated Learning Over Images: Vertical Decompositions and Pre-Trained Backbones Are Difficult to BeatErdong Hu, Yuxin Tang, Anastasios Kyrillidis, Chris Jermaine. 19328-19339 [doi]

Towards Inadequately Pre-trained Models in Transfer LearningAndong Deng, Xingjian Li 0002, Di Hu 0001, Tianyang Wang, Haoyi Xiong, Cheng-Zhong Xu 0001. 19340-19351 [doi]

Reducing Training Time in Cross-Silo Federated Learning using Multigraph TopologyTuong Do, Binh X. Nguyen, Vuong Pham, Toan Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen 0003. 19352-19362 [doi]

Membrane Potential Batch Normalization for Spiking Neural NetworksYufei Guo, Yuhan Zhang, Yuanpei Chen, Weihang Peng, Xiaode Liu, Liwen Zhang, Xuhui Huang, Zhe Ma. 19363-19373 [doi]

Revisit PCA-based technique for Out-of-Distribution DetectionXiaoyuan Guan, Zhouwu Liu, Wei-Shi Zheng 0001, Yuren Zhou, Ruixuan Wang. 19374-19382 [doi]

Cross-view Topology Based Consistent and Complementary Information for Deep Multi-view ClusteringZhibin Dong, Siwei Wang 0001, Jiaqi Jin, Xinwang Liu, En Zhu. 19383-19394 [doi]

A Benchmark for Chinese-English Scene Text Image Super-resolutionJianqi Ma, Zhetong Liang, Wangmeng Xiang, Xi Yang, Lei Zhang 0006. 19395-19404 [doi]

Vision Grid Transformer for Document Layout AnalysisCheng Da, Chuwei Luo, Qi Zheng, Cong Yao. 19405-19415 [doi]

Self-supervised Character-to-Character Distillation for Text RecognitionTongkun Guan, Wei Shen, Xue Yang, Qi Feng, Zekun Jiang, Xiaokang Yang. 19416-19427 [doi]

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information ExtractionJiabang He, Lei Wang, Yi Hu, Ning Liu, Hui Liu, Xing Xu, Heng Tao Shen. 19428-19437 [doi]

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in TransformerMingxin Huang, Jiaxin Zhang 0003, Dezhi Peng, Hao Lu, Can Huang, Yuliang Liu, Xiang Bai, Lianwen Jin. 19438-19448 [doi]

Few shot font generation via transferring similarity guided global style and quantization local styleWei Pan, Anna Zhu, Xinyu Zhou, Brian Kenji Iwana, Shilin Li. 19449-19459 [doi]

Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region ConcentrationHaoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin, Hao Liu, Yinsong Liu, Deqiang Jiang, Xing Sun. 19460-19470 [doi]

Document Understanding Dataset and Evaluation (DUDE)Jordy Van Landeghem, Rafal Powalski, Rubèn Tito, Dawid Jurkiewicz, Matthew B. Blaschko, Lukasz Borchmann, Mickaël Coustaty, Sien Moens, Michal Pietruszka, Bertrand Anckaert, Tomasz Stanislawek, Pawel Józiak, Ernest Valveny. 19471-19483 [doi]

LISTER: Neighbor Decoding for Length-Insensitive Scene Text RecognitionChangxu Cheng, Peng Wang, Cheng Da, Qi Zheng, Cong Yao. 19484-19494 [doi]

MolGrapher: Graph-based Visual Recognition of Chemical StructuresLucas Morin, Martin Danelljan, Maria Isabel Agea, Ahmed S. Nassar, Valéry Weber, Ingmar Meijer, Peter W. J. Staar, Fisher Yu 0001. 19495-19504 [doi]

SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain GapDaehee Kim, Yoonsik Kim, Donghyun Kim, Yumin Lim, Geewook Kim, Taeho Kil. 19505-19516 [doi]

Foreground and Text-lines Aware Document Image RectificationHeng Li, Xiangping Wu 0001, Qingcai Chen, Qianjin Xiang. 19517-19526 [doi]

DocTr: Document Transformer for Structured Information Extraction in DocumentsHaofu Liao, Aruni RoyChowdhury, Weijian Li, Ankan Bansal, Yuting Zhang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan. 19527-19537 [doi]

GPGait: Generalized Pose-based Gait RecognitionYang Fu, Shibei Meng, Saihui Hou, Xuecai Hu, Yongzhen Huang. 19538-19547 [doi]

RPG-Palm: Realistic Pseudo-data Generation for Palmprint RecognitionLei Shen, Jianlong Jin, Ruixin Zhang, Huaen Li, Kai Zhao, Yingyi Zhang, Jingyun Zhang, Shouhong Ding, Yang Zhao, Wei Jia 0001. 19548-19559 [doi]

Learning Clothing and Pose Invariant 3D Shape Representation for Long-Term Person Re-IdentificationFeng Liu, Minchul Kim, ZiAng Gu, Anil Jain, Xiaoming Liu. 19560-19569 [doi]

Physics-Augmented Autoencoder for 3D Skeleton-Based Gait RecognitionHongji Guo, Qiang Ji. 19570-19581 [doi]

Hierarchical Spatio-Temporal Representation Learning for Gait RecognitionLei Wang, Bo Liu, Fangfang Liang, Bincheng Wang. 19582-19592 [doi]

IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion ModelsFadi Boutros, Jonas Henry Grebe, Arjan Kuijper, Naser Damer. 19593-19604 [doi]

Template Inversion Attack against Face Recognition Systems using 3D Face ReconstructionHatef Otroshi-Shahreza, Sébastien Marcel. 19605-19615 [doi]

Privacy-Preserving Face Recognition Using Random Frequency ComponentsYuxi Mi, Yuge Huang, Jiazhen Ji, Minyi Zhao, Jiaxiang Wu 0001, Xingkun Xu, Shouhong Ding, Shuigeng Zhou. 19616-19627 [doi]

FLIP: Cross-domain Face Anti-spoofing with Language GuidanceKoushik Srivatsan, Muzammal Naseer, Karthik Nandakumar. 19628-19639 [doi]

Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance FieldsJonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman. 19640-19648 [doi]

Mixed Neural Voxels for Fast Multi-view Video SynthesisFeng Wang, Sinan Tan, Xinghang Li, Zeyue Tian, Yafei Song, Huaping Liu 0001. 19649-19659 [doi]

Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction ClipsYufei Ye, Poorvi Hebbar, Abhinav Gupta 0001, Shubham Tulsiani. 19660-19671 [doi]

LERF: Language Embedded Radiance FieldsJustin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik. 19672-19682 [doi]

Instruct-NeRF2NeRF: Editing 3D Scenes with InstructionsAyaan Haque, Matthew Tancik, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa. 19683-19693 [doi]

P1AC: Revisiting Absolute Pose From a Single Affine CorrespondenceJonathan Ventura, Zuzana Kukelova, Torsten Sattler, Dániel Baráth. 19694-19704 [doi]

Neural Haircut: Prior-Guided Strand-Based Hair ReconstructionVanessa Sklyarova, Jenya Chelishev, Andreea Dogaru, Igor Medvedev, Victor Lempitsky, Egor Zakharov. 19705-19716 [doi]

Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance FieldsWenbo Hu, Yuling Wang, Lin Ma, Bangbang Yang, Lin Gao 0004, Xiao Liu, Yuewen Ma. 19717-19726 [doi]

LiDAR-UDA: Self-ensembling Through Time for Unsupervised LiDAR Domain AdaptationAmirreza Shaban, Joonho Lee, Sanghun Jung, Xiangyun Meng, Byron Boots. 19727-19737 [doi]

Tracking Everything Everywhere All at OnceQianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely. 19738-19749 [doi]

EgoHumans: An Egocentric 3D Multi-Human BenchmarkRawal Khirodkar, Aayush Bansal, Lingni Ma, Richard A. Newcombe, Minh Vo, Kris Kitani. 19750-19762 [doi]

Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object DetectionLue Fan, Yuxue Yang, Yiming Mao, Feng Wang, YunTao Chen, Naiyan Wang, Zhaoxiang Zhang. 19763-19772 [doi]

DiffusionDet: Diffusion Model for Object DetectionShoufa Chen, Peize Sun, Yibing Song, Ping Luo. 19773-19786 [doi]

V3Det: Vast Vocabulary Visual Detection DatasetJiaqi Wang, Pan Zhang, Tao Chu, Yuhang Cao, Yujie Zhou, Tong Wu, Bin Wang, Conghui He, Dahua Lin. 19787-19797 [doi]

PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point TrackingYang Zheng, Adam W. Harley, Bokui Shen, Gordon Wetzstein, Leonidas J. Guibas. 19798-19808 [doi]

Label-Free Event-based Object Recognition via Joint Learning with Image Reconstruction from EventsHoonhee Cho, Hyeonseong Kim, Yujeong Chae, Kuk-Jin Yoon. 19809-19820 [doi]

Vision HGNN: An Image is More than a Graph of NodesYan Han, Peihao Wang, Souvik Kundu 0009, Ying Ding 0001, Zhangyang Wang. 19821-19831 [doi]

Revisiting Vision Transformer from the View of Path EnsembleShuning Chang, Pichao Wang, Hao Luo 0004, Fan Wang, Mike Zheng Shou. 19832-19842 [doi]

All in Tokens: Unifying Output Space of Visual Tasks via Soft TokenJia Ning, Chen Li, Zheng Zhang, Chunyu Wang, Zigang Geng, Qi Dai, Kun He 0001, Han Hu 0001. 19843-19853 [doi]

Mitigating and Evaluating Static Bias of Action Representations in the Background and the ForegroundHaoxin Li, Yuan Liu, Hanwang Zhang, Boyang Li. 19854-19866 [doi]

Deep Multitask Learning with Progressive Parameter SharingHaosen Shi, Shen Ren, Tianwei Zhang, Sinno Jialin Pan. 19867-19878 [doi]

Implicit Temporal Modeling with Learnable Alignment for Video RecognitionShuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang. 19879-19890 [doi]

Unmasked Teacher: Towards Training-Efficient Video Foundation ModelsKunchang Li, Yali Wang 0001, Yizhuo Li 0001, Yi Wang, Yinan He, Limin Wang, Yu Qiao. 19891-19903 [doi]

Large-Scale Person Detection and Localization using Overhead Fisheye CamerasLu Yang, Liulei Li, Xueshi Xin, Yifan Sun, Qing Song 0006, Wenguan Wang. 19904-19914 [doi]

A step towards understanding why classification helps regressionSilvia L. Pintea, Yancong Lin, Jouke Dijkstra, Jan C. van Gemert. 19915-19924 [doi]

DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric RenderingWei Cheng, Ruixiang Chen, Siming Fan, Wanqi Yin, Keyu Chen, Zhongang Cai, Jingbo Wang 0003, Yang Gao, Zhengming Yu, Zhengyu Lin, Daxuan Ren, Lei Yang, Ziwei Liu, Chen Change Loy, Chen Qian 0006, Wayne Wu, Dahua Lin, Bo Dai 0002, Kwan-Yee Lin. 19925-19936 [doi]

Robo3D: Towards Robust and Reliable 3D Perception against CorruptionsLingdong Kong, Youquan Liu, Xin Li, Runnan Chen, Wenwei Zhang, Jiawei Ren, Liang Pan, Kai Chen, Ziwei Liu. 19937-19949 [doi]

Efficient Discovery and Effective Evaluation of Visual Perceptual Similarity: A Benchmark and BeyondOren Barkan, Tal Reiss, Jonathan Weill, Ori Katz, Roy Hirsch, Itzik Malkiel, Noam Koenigstein. 19950-19961 [doi]

DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using DeterminersClarence Lee, M. Ganesh Kumar, Cheston Tan. 19962-19971 [doi]

Beyond Object Recognition: A New Benchmark towards Object Concept LearningYonglu Li 0001, Yue Xu, Xinyu Xu, Xiaohan Mao, Yuan Yao, Siqi Liu, Cewu Lu. 19972-19983 [doi]

HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image ModelsEslam Mohamed Bakr, Pengzhan Sun 0001, Xiaoqian Shen, Faizan Farooq Khan, Li Erran Li, Mohamed Elhoseiny. 19984-19996 [doi]

SegRCDB: Semantic Segmentation via Formula-Driven Supervised LearningRisa Shinoda, Ryo Hayamizu, Kodai Nakashima, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka. 19997-20006 [doi]

LoTE-Animal: A Long Time-span Dataset for Endangered Animal Behavior UnderstandingDan Liu, Jin Hou, Shaoli Huang, Jing Liu, Yuxin He, Bochuan Zheng, Jifeng Ning, Jindong Zhang. 20007-20018 [doi]

Building3D: An Urban-Scale Dataset and Benchmarks for Learning Roof Structures from Point CloudsRuisheng Wang, Shangfeng Huang, Hongxin Yang. 20019-20029 [doi]

Lecture Presentations Multimodal Dataset: Towards Understanding Multimodality in Educational VideosDong-Won Lee, Chaitanya Ahuja, Paul Pu Liang, Sanika Natu, Louis-Philippe Morency. 20030-20041 [doi]

Probabilistic Precision and Recall Towards Reliable Evaluation of Generative ModelsDogyun Park, Suhyun Kim. 20042-20052 [doi]

EgoObjects: A Large-Scale Egocentric Dataset for Fine-Grained Object UnderstandingChenchen Zhu, Fanyi Xiao, Andres Alvarado, Yasmine Babaei, Jiabo Hu, Hichem El-Mohri, Sean Chang Culatana, Roshan Sumbaly, Zhicheng Yan. 20053-20063 [doi]

CAME: Contrastive Automated Model EvaluationRu Peng, Qiuyang Duan, Haobo Wang, Jiachen Ma 0005, Yanbo Jiang, Yongjun Tu, Xiu Jiang, Junbo Zhao. 20064-20075 [doi]

Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine PerceptionXiaqing Pan, Nicholas Charron, Yongqian Yang, Scott Peters, Thomas Whelan, Chen Kong, Omkar M. Parkhi, Richard A. Newcombe, Carl Yuheng Ren. 20076-20086 [doi]

Exploring Video Quality Assessment on User Generated Contents from Aesthetic and Technical PerspectivesHaoning Wu, Erli Zhang 0001, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin. 20087-20097 [doi]

Going Beyond Nouns With Vision & Language Models Using Synthetic DataPaola Cascante-Bonilla, Khaled Shehada, James Seale Smith, Sivan Doveh, Donghyun Kim, Rameswar Panda, Gül Varol, Aude Oliva, Vicente Ordonez, Rogério Feris, Leonid Karlinsky. 20098-20108 [doi]

H3WB: Human3.6M 3D WholeBody Dataset and BenchmarkYue Zhu, Nermin Samet, David Picard. 20109-20120 [doi]

Zenseact Open Dataset: A large-scale and diverse multimodal dataset for autonomous drivingMina Alibeigi, William Ljungbergh, Adam Tonderski, Georg Hess, Adam Lilja, Carl Lindström, Daria Motorniuk, Junsheng Fu, Jenny Widahl, Christoffer Petersson. 20121-20131 [doi]

CAD-Estate: Large-scale CAD Model Annotation in RGB VideosKevis-Kokitsi Maninis, Stefan Popov, Matthias Nießner, Vittorio Ferrari. 20132-20142 [doi]

Neglected Free Lunch - Learning Image Classifiers Using Annotation ByproductsDongyoon Han, Junsuk Choe, Seonghyeok Chun, John Joon Young Chung, Minsuk Chang, Sangdoo Yun, Jean Y. Song, Seong Joon Oh. 20143-20155 [doi]

Chaotic World: A Large and Challenging Benchmark for Human Behavior Understanding in Chaotic EventsKian Eng Ong, Xun Long Ng, Yanchao Li, Wenjie Ai, Kuangyi Zhao, Si Yong Yeo, Jun Liu 0036. 20156-20166 [doi]

MOSE: A New Dataset for Video Object Segmentation in Complex ScenesHenghui Ding, Chang Liu 0072, Shuting He, Xudong Jiang 0001, Philip H. S. Torr, Song Bai. 20167-20177 [doi]

Spurious Features Everywhere - Large-Scale Detection of Harmful Spurious Features in ImageNetYannic Neuhaus, Maximilian Augustin, Valentyn Boreiko, Matthias Hein 0001. 20178-20189 [doi]

Chop & Learn: Recognizing and Generating Object-State CompositionsNirat Saini, Hanyu Wang 0002, Archana Swaminathan, Vinoj Jayasundara 0001, Bo He 0004, Kamal Gupta 0002, Abhinav Shrivastava. 20190-20201 [doi]

Building Bridge Across the Time: Disruption and Restoration of Murals In the WildHuiyang Shao, Qianqian Xu, Peisong Wen, Peifeng Gao, Zhiyong Yang 0001, Qingming Huang. 20202-20212 [doi]

HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real WorldXin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel Joshi, Marc Pollefeys. 20213-20224 [doi]

SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and ModelingZhitao Yang, Zhongang Cai, Haiyi Mei, Shuai Liu, Zhaoxi Chen 0009, Weiye Xiao, Yukun Wei, Zhongfei Qing, Chen Wei, Bo Dai 0002, Wayne Wu, Chen Qian 0006, Dahua Lin, Ziwei Liu, Lei Yang. 20225-20235 [doi]

OxfordTVG-HIC: Can Machine Make Humorous Captions from Images?Runjia Li, Shuyang Sun, Mohamed Elhoseiny, Philip H. S. Torr. 20236-20246 [doi]

LaRS: A Diverse Panoptic Maritime Obstacle Detection Dataset and BenchmarkLojze Zust, Janez Pers, Matej Kristan. 20247-20257 [doi]

Joint Metrics Matter: A Better Standard for Trajectory ForecastingErica Weng, Hana Hoshino, Deva Ramanan, Kris Kitani. 20258-20269 [doi]

LPFF: A Portrait Dataset for Face Generators Across Large PosesYiqian Wu, Jing Zhang, Hongbo Fu 0001, Xiaogang Jin 0001. 20270-20280 [doi]

Replay: Multi-modal Multi-view Acted Videos for Casual HolographyRoman Shapovalov, Yanir Kleiman, Ignacio Rocco, David Novotný, Andrea Vedaldi, Changan Chen, Filippos Kokkinos, Benjamin Graham, Natalia Neverova. 20281-20291 [doi]

Human-centric Scene Understanding for 3D Large-scale ScenariosYiteng Xu, Peishan Cong, Yichen Yao, Runnan Chen, Yuenan Hou, Xinge Zhu, Xuming He 0001, Jingyi Yu, Yuexin Ma. 20292-20302 [doi]

Pre-training Vision Transformers with Very Limited Synthesized ImagesRyo Nakamura, Hirokatsu Kataoka, Sora Takashima, Edgar Josafat Martinez-Noriega, Rio Yokota, Nakamasa Inoue. 20303-20312 [doi]

FACET: Fairness in Computer Vision Evaluation BenchmarkLaura Gustafson, Chloé Rolland, Nikhila Ravi, Quentin Duval, Aaron Adcock, Cheng-Yang Fu, Melissa Hall, Candace Ross. 20313-20325 [doi]

EmoSet: A Large-scale Visual Emotion Dataset with Rich AttributesJingyuan Yang, Qirui Huang, Tingting Ding, Dani Lischinski, Daniel Cohen-Or, Hui Huang 0004. 20326-20337 [doi]

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose EstimationLijun Li, Linrui Tian, Xindi Zhang, Qi Wang, Bang Zhang, Liefeng Bo, Mengyuan Liu, Chen Chen. 20338-20348 [doi]

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question AnsweringYushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith. 20349-20360 [doi]

Exploring the Sim2Real Gap using Digital TwinsSruthi Sudhakar, Jon Hanzelka, Josh Bobillot, Tanmay Randhavane, Neel Joshi, Vibhav Vineet. 20361-20370 [doi]

ClothesNet: An Information-Rich 3D Garment Model Repository with Simulated Clothes EnvironmentBingyang Zhou, Haoyu Zhou, Tianhai Liang, Qiaojun Yu, Siheng Zhao, Yuwei Zeng, Jun Lv, Siyuan Luo, Qiancai Wang, Xinyuan Yu, Haonan Chen, Cewu Lu, Lin Shao 0002. 20371-20381 [doi]

Video State-Changing Object SegmentationJiangwei Yu, Xiang Li, Xinran Zhao, Hongming Zhang, Yu-Xiong Wang. 20382-20391 [doi]

PlanarTrack: A Large-scale Challenging Benchmark for Planar Object TrackingXinran Liu, Xiaoqiong Liu, Ziruo Yi, Xin Zhou, Thanh Le, Libo Zhang, Yan Huang, Qing Yang, Heng Fan 0001. 20392-20401 [doi]

AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving PerceptionDingkang Yang, Shuai Huang, Zhi Xu, Zhenpeng Li, Shunli Wang 0001, Mingcheng Li, Yuzheng Wang, Yang Liu, Kun Yang, Zhaoyu Chen, Yan Wang, Jing Liu, Peixuan Zhang, Peng Zhai, Lihua Zhang. 20402-20413 [doi]

Harvard Glaucoma Detection and Progression: A Multimodal Multitask Dataset and Generalization-Reinforced Semi-Supervised LearningYan Luo, Min Shi, Yu Tian 0001, Tobias Elze, Mengyu Wang. 20414-20425 [doi]

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D ScenesRan Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao 0002, Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song Chun Zhu, Baoxiong Jia, Siyuan Huang. 20426-20438 [doi]

FishNet: A Large-scale Dataset and Benchmark for Fish Recognition, Detection, and Functional Trait PredictionFaizan Farooq Khan, Xiang Li, Andrew J. Temple, Mohamed Elhoseiny. 20439-20449 [doi]

Towards Content-based Pixel Retrieval in Revisited Oxford and ParisGuoyuan An, Woo-Jae Kim, Saelyne Yang, Rong Li, Yuchi Huo, Sung-Eui Yoon. 20450-20461 [doi]

A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action RecognitionAndong Deng, Taojiannan Yang, Chen Chen 0001. 20462-20474 [doi]

SQAD: Automatic Smartphone Camera Quality Assessment and BenchmarkingZilin Fang, Andrey Ignatov, Eduard Zamfir, Radu Timofte. 20475-20485 [doi]

Revisiting Scene Text Recognition: A Data PerspectiveQing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin. 20486-20497 [doi]

Will Large-scale Generative Models Corrupt Future Datasets?Ryuichiro Hataya, Han Bao 0002, Hiromi Arai. 20498-20508 [doi]

360VOT: A New Benchmark Dataset for Omnidirectional Visual Object TrackingHuajian Huang, Yinzhe Xu, Yingshu Chen, Sai Kit Yeung. 20509-20519 [doi]

DeePoint: Visual Pointing Recognition and Direction EstimationShu Nakamura, Yasutomo Kawanishi, Shohei Nobuhara, Ko Nishino. 20520-20530 [doi]

Contactless Pulse Estimation Leveraging Pseudo Labels and Self-SupervisionZhihua Li, Lijun Yin. 20531-20540 [doi]

Most Important Person-guided Dual-branch Cross-Patch Attention for Group Affect RecognitionHongxia Xie, Ming-Xian Lee, Tzu-Jui Chen, Hung-Jen Chen, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng. 20541-20551 [doi]

ContactGen: Generative Contact Modeling for Grasp GenerationShaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta 0001, Shenlong Wang. 20552-20563 [doi]

Imitator: Personalized Speech-driven 3D Facial AnimationBalamurugan Thambiraja, Ikhsanul Habibie, Sadegh Aliakbarian, Darren Cosker, Christian Theobalt, Justus Thies. 20564-20574 [doi]

DVGaze: Dual-View Gaze EstimationYihua Cheng, Feng Lu 0005. 20575-20584 [doi]

TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric PerspectiveJun Dan, Yang Liu, Haoyu Xie, Jiankang deng, Haoran Xie 0004, Xuansong Xie, Baigui Sun. 20585-20596 [doi]

Towards Unsupervised Domain Generalization for Face Anti-SpoofingYuchen Liu 0006, Yabo Chen, Mengran Gou, Chun-Ting Huang, Yaoming Wang, Wenrui Dai, Hongkai Xiong. 20597-20607 [doi]

Reinforced Disentanglement for Face Swapping without Skip ConnectionXiaohang Ren, Xingyu Chen, Pengfei Yao, Heung-Yeung Shum, Baoyuan Wang. 20608-20618 [doi]

CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language RecognitionPeiqi Jiao, Yuecong Min, Yanan Li, Xiaotao Wang, Lei Lei, Xilin Chen 0001. 20619-20629 [doi]

EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face AnimationZiqiao Peng, Haoyu Wu, Zhenbo Song, Hao Xu, Xiangyu Zhu, Jun He, Hongyan Liu 0002, Zhaoxin Fan. 20630-20640 [doi]

LA-Net: Landmark-Aware Learning for Reliable Facial Expression Recognition under Label NoiseZhiyu Wu, Jinshi Cui. 20641-20650 [doi]

ASM: Adaptive Skinning Model for High-Quality 3D Face ModelingKai Yang, Hong Shang, Tianyang Shi, Xinghan Chen, Jingkai Zhou, Zhongqian Sun, Wei Yang. 20651-20660 [doi]

Troubleshooting Ethnic Quality Bias with Curriculum Domain Adaptation for Face Image Quality AssessmentFu-Zhao Ou, Baoliang Chen, Chongyi Li, Shiqi Wang 0001, Sam Kwong. 20661-20672 [doi]

UniFace: Unified Cross-Entropy Loss for Deep Face RecognitionJiancan Zhou, Xi Jia, Qiufu Li, LinLin Shen, Jinming Duan 0001. 20673-20682 [doi]

Human Part-wise 3D Motion Context Learning for Sign Language RecognitionTaeryung Lee, Yeonguk Oh, Kyoung Mu Lee. 20683-20693 [doi]

Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior UnderstandingXiang Zhang, Taoyue Wang, Xiaotian Li, Huiyuan Yang, Lijun Yin 0001. 20694-20705 [doi]

HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised LearningXiaozheng Zheng, Chao Wen, Zhou Xue, Pengfei Ren, Jingyu Wang 0001. 20706-20716 [doi]

ReactioNet: Learning High-order Facial Behavior from Universal Stimulus-Reaction by Dyadic Relation ReasoningXiaotian Li, Taoyue Wang, Geran Zhao, Xiang Zhang, Xi Kang, Lijun Yin 0001. 20717-20728 [doi]

CLIP-Cluster: CLIP-Guided Attribute Hallucination for Face ClusteringShuai Shen, Wanhua Li 0001, Xiaobing Wang, Dafeng Zhang, Zhezhu Jin, Jie Zhou 0001, Jiwen Lu. 20729-20738 [doi]

Learning Human Dynamics in Autonomous Driving ScenariosJingbo Wang, Ye Yuan, Zhengyi Luo 0002, Kevin Xie, Dahua Lin, Umar Iqbal 0001, Sanja Fidler, Sameh Khamis. 20739-20749 [doi]

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture GenerationYiHao Zhi, Xiaodong Cun, Xuelin Chen, Xi Shen, Wen Guo, Shaoli Huang, Shenghua Gao. 20750-20760 [doi]

Controllable Guide-Space for Generalizable Face Forgery DetectionYing Guo, Cheng Zhen, Pengfei Yan. 20761-20770 [doi]

Unpaired Multi-domain Attribute Translation of 3D Facial Shapes with a Square and Symmetric Geometric MapZhenfeng Fan, Zhiheng Zhang, Shuang Yang, Chongyang Zhong, Min Cao, Shihong Xia. 20771-20781 [doi]

Emotional Listener Portrait: Realistic Listener Motion Simulation in ConversationLuchuan Song, Guojun Yin, Zhenchao Jin, Xiaoyi Dong, Chenliang Xu. 20782-20792 [doi]

Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image SynthesisNithin Gopalakrishnan Nair, Anoop Cherian, Suhas Lohit, Ye Wang 0001, Toshiaki Koike-Akino, Vishal M. Patel 0001, Tim K. Marks. 20793-20803 [doi]

Invariant Feature Regularization for Fair Face RecognitionJiaLi Ma, Zhongqi Yue, Tomoyuki Kagaya, Tomoki Suzuki, Jayashree Karlekar, Sugiri Pranata, Hanwang Zhang. 20804-20813 [doi]

Gloss-free Sign Language Translation: Improving from Visual-Language PretrainingBenjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan 0001, Yanyan Liang, Sergio Escalera, Zhen Lei 0001, Du Zhang. 20814-20824 [doi]

Contrastive Pseudo Learning for Open-World DeepFake AttributionZhimin Sun, Shen Chen, Taiping Yao, Bangjie Yin, Ran Yi, Shouhong Ding, Lizhuang Ma. 20825-20835 [doi]

Continual Learning for Personalized Co-Speech Gesture GenerationChaitanya Ahuja, Pratik Joshi, Ryo Ishii, Louis-Philippe Morency. 20836-20846 [doi]

2: Iterative 3D Hand Pose Estimation Using a Residual Recurrent Neural NetworkWencan Cheng, Jong Hwan Ko. 20847-20856 [doi]

SPACE: Speech-driven Portrait Animation with Controllable ExpressionSiddharth Gururani, Arun Mallya, Ting-chun Wang, Rafael Valle, Ming-Yu Liu 0001. 20857-20866 [doi]

How to Boost Face Recognition with StyleGAN?Artem Sevastopolsky, Yury Malkov, Nikita Durasov, Luisa Verdoliva, Matthias Nießner. 20867-20877 [doi]

ChildPlay: A New Benchmark for Understanding Children's Gaze BehaviourSamy Tafasca, Anshul Gupta, Jean-Marc Odobez. 20878-20889 [doi]

Robust One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2Trevine Oorloff, Yaser Yacoob. 20890-20900 [doi]

Data-Free Class-Incremental Hand Gesture RecognitionShubhra Aich, Jesús Ruiz-Santaquiteria, Zhenyu Lu, Prachi Garg, K. J. Joseph, Alvaro Fernandez Garcia, Vineeth N. Balasubramanian, Kenrick Kin, Chengde Wan, Necati Cihan Camgöz, Shugao Ma, Fernando De la Torre. 20901-20910 [doi]

Learning Robust Representations with Information Bottleneck and Memory Network for RGB-D-based Gesture RecognitionYunan Li, Huizhou Chen, Guanwen Feng, Qiguang Miao. 20911-20921 [doi]

Knowledge-Spreader: Learning Semi-Supervised Facial Action Dynamics by Consistifying Knowledge GranularityXiaotian Li, Xiang Zhang, Taoyue Wang, Lijun Yin 0001. 20922-20932 [doi]

Face Clustering via Graph Convolutional Networks with Confidence EdgesYang Wu, Zhiwei Ge, Yuhao Luo, Lin Liu, Sulong Xu. 20933-20942 [doi]

StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned FacesShuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy. 20943-20953 [doi]

SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for Exposing DeepfakesNicolas Larue, Ngoc-Son Vu, Vitomir Struc, Peter Peer, Vassilis Christophides. 20954-20964 [doi]

Adaptive Nonlinear Latent Transformation for Conditional Face EditingZhizhong Huang, Siteng Ma, Junping Zhang, Hongming Shan. 20965-20974 [doi]

Semi-supervised Speech-driven 3D Facial Animation via Cross-modal EncodingPeiji Yang, Huawei Wei, Yicheng Zhong, Zhisheng Wang. 20975-20984 [doi]

ICD-Face: Intra-class Compactness Distillation for Face RecognitionZhiPeng Yu, Jiaheng Liu, Haoyu Qin, Yichao Wu, Kun Hu, Jiayi Tian, Ding Liang. 20985-20995 [doi]

2ST: Cross-modal Contextualized Sequence Transduction for Continuous Sign Language RecognitionHuaiwen Zhang, Zihang Guo, Yang Yang, Xin Liu, De Hu. 20996-21005 [doi]

CO-PILOT: Dynamic Top-Down Point Cloud with Conditional Neighborhood Aggregation for Multi-Gigapixel Histopathology Image RepresentationRamin Nakhli, Allen W. Zhang, Ali Mirabadi, Katherine Rich, Maryam Asadi, C. Blake Gilks, Hossein Farahani, Ali Bashashati. 21006-21016 [doi]

SKiT: a Fast Key Information Video Transformer for Online Surgical Phase RecognitionYang Liu, Jiayu Huo, Jingjing Peng, Rachel Sparks, Prokar Dasgupta, Alejandro Granados, Sébastien Ourselin. 21017-21027 [doi]

XNet: Wavelet-Based Low and High Frequency Fusion Networks for Fully- and Semi-Supervised Semantic Segmentation of Biomedical ImagesYanfeng Zhou, Jiaxing Huang, Chenlong Wang, Le Song, Ge Yang 0002. 21028-21039 [doi]

Probabilistic Modeling of Inter- and Intra-observer Variability in Medical Image SegmentationArne Schmidt 0005, Pablo Morales Álvarez, Rafael Molina 0001. 21040-21049 [doi]

Learning Cross-Representation Affinity Consistency for Sparsely Supervised Biomedical Instance SegmentationXiaoyu Liu, Wei Huang, Zhiwei Xiong, Shenglong Zhou 0002, Yueyi Zhang, Xuejin Chen, Zheng-Jun Zha, Feng Wu. 21050-21060 [doi]

Dual Meta-Learning with Longitudinally Generalized Regularization for One-Shot Brain Tissue Segmentation Across the Human LifespanYongheng Sun, Fan Wang, Jun Shu, Haifeng Wang 0002, Li Wang, Deyu Meng, Chunfeng Lian. 21061-21071 [doi]

BlindHarmony: "Blind" Harmonization for MR Images via Flow modelHwihun Jeong, Heejoon Byun, Dong Un Kang, Jongho Lee. 21072-21082 [doi]

Continual Segment: Towards a Single, Unified and Non-forgetting Continual Segmentation Model of 143 Whole-body Organs in CT ScansZhanghexuan Ji, Dazhou Guo, Puyang Wang, Ke Yan 0006, Le Lu 0001, Minfeng Xu, Qifeng Wang, Jia Ge, Mingchen Gao, Xianghua Ye, Dakai Jin. 21083-21094 [doi]

CLIP-Driven Universal Model for Organ Segmentation and Tumor DetectionJie Liu, Yixiao Zhang, Jieneng Chen, Junfei Xiao, Yongyi Lu, Bennett A. Landman, Yixuan Yuan, Alan L. Yuille, Yucheng Tang, Zongwei Zhou. 21095-21107 [doi]

LIMITR: Leveraging Local Information for Medical Image-Text RepresentationGefen Dawidowicz, Elad Hirsch, Ayellet Tal. 21108-21116 [doi]

Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via Optimization Trajectory DistillationJianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, Weidong Cai 0001. 21117-21127 [doi]

CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super ResolutionZixuan Chen, Lingxiao Yang, Jian-Huang Lai, Xiaohua Xie. 21128-21138 [doi]

Learning to Distill Global Representation for Sparse-View CTZilong Li, Chenglong Ma, Jie Chen, Junping Zhang, Hongming Shan. 21139-21150 [doi]

Preserving Tumor Volumes for Unsupervised Medical Image RegistrationQihua Dong, Hao Du 0006, Ying Song, Yan Xu 0001, Jing Liao 0001. 21151-21161 [doi]

μSplit: image decomposition for fluorescence microscopyAshesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug. 21162-21172 [doi]

Rethinking Multi-Contrast MRI Super-Resolution: Rectangle-Window Cross-Attention Transformer and Arbitrary-Scale UpsamplingGuangyuan Li, Lei Zhao, Jiakai Sun, Zehua Lan, Zhanjie Zhang, Jiafu Chen, Zhijie Lin, Huaizhong Lin, Wei Xing. 21173-21183 [doi]

Multimodal Optimal Transport-based Co-Attention Transformer with Global Structure Consistency for Survival PredictionYingxue Xu, Hao Chen. 21184-21194 [doi]

4D Myocardium Reconstruction with Decoupled Motion and Shape ModelXiaohan Yuan, Cong Liu, Yangang Wang. 21195-21205 [doi]

Unsupervised Learning of Object-Centric Embeddings for Cell Instance Segmentation in Microscopy ImagesSteffen Wolf 0001, Manan Lalit, Katie McDole, Jan Funke. 21206-21215 [doi]

LightDepth: Single-View Depth Self-Supervision from Illumination DeclineJavier Rodriguez Puigvert, Victor M. Batlle, J. M. M. Montiel, Ruben Martinez-Cantin, Pascal Fua, Juan D. Tardós, Javier Civera 0001. 21216-21226 [doi]

BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray ClassificationYuanhong Chen, Fengbei Liu, Hu Wang, Chong Wang, Yuyuan Liu, Yu Tian 0001, Gustavo Carneiro 0001. 21227-21238 [doi]

Decomposition-Based Variational Network for Multi-Contrast MRI Super-Resolution and ReconstructionPengcheng Lei, Faming Fang, Guixu Zhang, Tieyong Zeng. 21239-21249 [doi]

TopoSeg: Topology-Aware Nuclear Instance SegmentationHongliang He, Jun Wang, Pengxu Wei, Fan Xu, Xiangyang Ji, Chang Liu, Jie Chen. 21250-21259 [doi]

Scratch Each Other's Back: Incomplete Multi-modal Brain Tumor Segmentation Via Category Aware Group Self-Support LearningYansheng Qiu, Delin Chen, Hongdou Yao, Yongchao Xu, Zheng Wang. 21260-21269 [doi]

CancerUniT: Towards a Single Unified Model for Effective Detection, Segmentation, and Diagnosis of Eight Major Cancers Using a Large Collection of CT ScansJieneng Chen, Yingda Xia, Jiawen Yao, Ke Yan, Jianpeng Zhang, Le Lu 0001, Fakai Wang, Bo Zhou 0009, Mingyan Qiu, Qihang Yu, Mingze Yuan, Wei Fang, YuXing Tang, Minfeng Xu, Jian Zhou, Yuqian Zhao, Qifeng Wang, Xianghua Ye, Xiaoli Yin, Yu Shi, Xin Chen, Jingren Zhou, Alan L. Yuille, Zaiyi Liu, Ling Zhang. 21270-21281 [doi]

Gram-based Attentive Neural Ordinary Differential Equations Network for Video Nystagmography ClassificationXihe Qiu, Shaojie Shi, Xiaoyu Tan, Chao Qu, Zhijun Fang, Hailing Wang, Yongbin Gao, Peixia Wu, Huawei Li. 21282-21291 [doi]

ConSlide: Asynchronous Hierarchical Interaction Transformer with Breakup-Reorganize Rehearsal for Continual Whole Slide Image AnalysisYanyan Huang, Weiqin Zhao, Shujun Wang, Yu Fu, Yuming Jiang 0005, Lequan Yu. 21292-21303 [doi]

PRIOR: Prototype Representation Joint Learning from Medical Images and ReportsPujin Cheng, Li Lin 0006, Junyan Lyu, Yijin Huang, Wenhan Luo, Xiaoying Tang 0001. 21304-21314 [doi]

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training for X-ray DiagnosisChaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie. 21315-21326 [doi]

Affine-Consistent Transformer for Multi-Class Cell Nuclei DetectionJunjia Huang, Haofeng Li, Xiang Wan, Guanbin Li. 21327-21336 [doi]

A skeletonization algorithm for gradient-based optimizationMartin J. Menten, Johannes C. Paetzold, Veronika A. Zimmer, Suprosanna Shit, Ivan Ezhov, Robbie Holland, Monika Probst, Julia A. Schnabel, Daniel Rueckert. 21337-21346 [doi]

Improving Representation Learning for Histopathologic Images with Cluster ConstraintsWeiyi Wu, Chongyang Gao, Joseph DiPalma, Soroush Vosoughi, Saeed Hassanpour. 21347-21357 [doi]

Enhancing Modality-Agnostic Representations via Meta-learning for Brain Tumor SegmentationAishik Konwer, Xiaoling Hu 0002, Joseph Bae, Xuan Xu, Chao Chen 0012, Prateek Prasanna. 21358-21368 [doi]

CauSSL: Causality-inspired Semi-supervised Learning for Medical Image SegmentationJuzheng Miao, Cheng Chen, Furui Liu, Hao Wei, Pheng-Ann Heng. 21369-21380 [doi]

UniverSeg: Universal Medical Image SegmentationVictor Ion Butoi, Jose Javier Gonzalez Ortiz, Tianyu Ma, Mert R. Sabuncu, John V. Guttag, Adrian V. Dalca. 21381-21394 [doi]

MRM: Masked Relation Modeling for Medical Image Pre-Training with GeneticsQiushi Yang, Wuyang Li, Baopu Li, Yixuan Yuan. 21395-21405 [doi]

Boosting Whole Slide Image Classification from the Perspectives of Distribution, Correlation and MagnificationLinhao Qu, Zhiwei Yang, Minghong Duan, Yingfan Ma, Shuo Wang, Manning Wang, Zhijian Song. 21406-21416 [doi]

Adaptive Template Transformer for Mitochondria Segmentation in Electron Microscopy ImagesYuwen Pan, Naisong Luo, Rui Sun, Meng Meng, Tianzhu Zhang, Zhiwei Xiong, Yongdong Zhang 0001. 21417-21427 [doi]

Cross-Modal Translation and Alignment for Survival AnalysisFengtao Zhou, Hao Chen. 21428-21437 [doi]

LNPL-MIL: Learning from Noisy Pseudo Labels for Promoting Multiple Instance Learning in Whole Slide ImageZhuchen Shao, Yifeng Wang, Yang Chen, Hao Bian, Shaohui Liu, Haoqian Wang, Yongbing Zhang. 21438 [doi]

Generalized Few-Shot Point Cloud Segmentation Via Geometric WordsYating Xu, Conghui Hu, Na Zhao 0004, Gim Hee Lee. 21449-21458 [doi]

Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via Geometry-Guided Cross-View TransformerYujiao Shi, Fei Wu, Akhil Perincherry, Ankit Vora, Hongdong Li. 21459-21469 [doi]

EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale Visual LocalizationMinjung Kim, Junseo Koo, Gunhee Kim. 21470-21480 [doi]

Multi-task View Synthesis with Neural Radiance FieldsShuhong Zheng, Zhipeng Bao, Martial Hebert, Yu-Xiong Wang. 21481-21492 [doi]

Multi-Task Learning with Knowledge Distillation for Dense PredictionYangyang Xu, Yibo Yang, Lefei Zhang. 21493-21502 [doi]

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open WorldQifan Yu, Juncheng Li 0006, Yu Wu 0011, Siliang Tang, Wei Ji 0008, Yueting Zhuang. 21503-21514 [doi]

CMDA: Cross-Modality Domain Adaptation for Nighttime Semantic SegmentationRuihao Xia, Chaoqiang Zhao, Meng Zheng, Ziyan Wu, Qiyu Sun, Yang Tang. 21515-21524 [doi]

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question AnsweringYanan Wang 0002, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec. 21525-21535 [doi]

Disentangle then Parse: Night-time Semantic Segmentation with Illumination DisentanglementZhixiang Wei, Lin Chen, Tao Tu, Pengyang Ling, Huaian Chen, Yi Jin. 21536-21546 [doi]

Visual Traffic Knowledge Graph Generation from Scene ImagesYunfei Guo, Fei Yin, Xiao-hui Li, Xudong Yan, Tao Xue, Shuqi Mei, Cheng-Lin Liu 0001. 21547-21556 [doi]

Agglomerative Transformer for Human-Object Interaction DetectionDanyang Tu, Wei Sun 0029, Guangtao Zhai, Wei Shen 0002. 21557-21567 [doi]

3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for Robust 6D Pose EstimationGuangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan Gutfreund, Miguel Lázaro-Gredilla, Dileep George, Vikash K. Mansinghka. 21568-21579 [doi]

HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph GenerationZijian Zhou 0002, Miaojing Shi, Holger Caesar. 21580-21591 [doi]

RLIPv2: Fast Scaling of Relational Language-Image Pre-trainingHangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni 0002, Yingya Zhang, Deli Zhao. 21592-21604 [doi]

UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg CodebaseYouquan Liu, Runnan Chen, Xin Li, Lingdong Kong, Yuchen Yang, Zhaoyang Xia, Yeqi Bai, Xinge Zhu, Yuexin Ma, Yikang Li, Yu Qiao, Yuenan Hou. 21605-21616 [doi]

See More and Know More: Zero-shot Point Cloud Segmentation via Multi-modal Visual DataYuhang Lu, Qi Jiang, Runnan Chen, Yuenan Hou, Xinge Zhu, Yuexin Ma. 21617-21627 [doi]

Compositional Feature Augmentation for Unbiased Scene Graph GenerationLin Li, Guikun Chen, Jun Xiao, Yi Yang, Chunping Wang, Long Chen 0016. 21628-21638 [doi]

Multi-weather Image Restoration via Domain TranslationPrashant W. Patil, Sunil Gupta 0001, Santu Rana, Svetha Venkatesh, Subrahmanyam Murala. 21639-21648 [doi]

CLIPTER: Looking at the Bigger Picture in Scene Text RecognitionAviad Aberdam, David Bensaïd, Alona Golts, Roy Ganz, Oren Nuriel, Royee Tichauer, Shai Mazor, Ron Litman. 21649-21660 [doi]

Towards Models that Can See and ReadRoy Ganz, Oren Nuriel, Aviad Aberdam, Yair Kittenplon, Shai Mazor, Ron Litman. 21661-21671 [doi]

SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous DrivingYi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. 21672-21683 [doi]

DDP: Diffusion Model for Dense Visual PredictionYuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo. 21684-21695 [doi]

Understanding 3D Object Interaction from a Single ImageShengyi Qian 0001, David F. Fouhey. 21696-21706 [doi]

ObjectSDF++: Improved Object-Compositional Neural Implicit SurfacesQianyi Wu, Kaisiyuan Wang, Kejie Li, Jianmin Zheng, Jianfei Cai 0001. 21707-21717 [doi]

Improving Equivariance in State-of-the-Art Supervised Depth and Normal PredictorsYuanyi Zhong, Anand Bhattad, Yu-Xiong Wang, David A. Forsyth. 21718-21728 [doi]

CrossMatch: Source-Free Domain Adaptive Semantic Segmentation via Cross-Modal Consistency TrainingYifang Yin, Wenmiao Hu, Zhenguang Liu, Guanfeng Wang, Shili Xiang, Roger Zimmermann. 21729-21739 [doi]

Semantic Attention Flow Fields for Monocular Dynamic Scene DecompositionYiqing Liang, Eliot Laidlaw, Alexander Meyerowitz, Srinath Sridhar 0002, James Tompkin 0001. 21740-21749 [doi]

Holistic Geometric Feature Learning for Structured ReconstructionZiqiong Lu, Linxi Huan, Qiyuan Ma, Xianwei Zheng. 21750-21760 [doi]

Scalable Multi-Temporal Remote Sensing Change Data Generation via Simulating Stochastic Change ProcessZhuo Zheng, Shiqi Tian, Ailong Ma, Liangpei Zhang 0001, Yanfei Zhong. 21761-21770 [doi]

TaskExpert: Dynamically Assembling Multi-Task Representations with Memorial Mixture-of-ExpertsHanrong Ye, Dan Xu. 21771-21780 [doi]

Thinking Image Color Aesthetics Assessment: Models, Datasets and BenchmarksShuai He, Anlong Ming, Yaqi Li, Jinyuan Sun, Shuntian Zheng, Huadong Ma. 21781-21790 [doi]

STEERER: Resolving Scale Variations for Counting and Localization via Selective Inheritance LearningTao Han, Lei Bai 0001, Lingbo Liu, Wanli Ouyang. 21791-21802 [doi]

Object-aware Gaze Target DetectionFrancesco Tonini, Nicola Dall'Asen, Cigdem Beyan, Elisa Ricci 0001. 21803-21812 [doi]

Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk ConsistencyJungbeom Lee, Sungjin Lee, Jinseok Nam, Seunghak Yu, Jaeyoung Do, Tara Taghavi. 21813-21824 [doi]

Vision Relation Transformer for Unbiased Scene Graph GenerationGopika Sudhakaran, Devendra Singh Dhami, Kristian Kersting, Stefan Roth 0001. 21825-21836 [doi]

DDIT: Semantic Scene Completion via Deformable Deep Implicit TemplatesHaoang Li, Jinhu Dong, Binghui Wen, Ming Gao, Tianyu Huang, Yun-Hui Liu, Daniel Cremers. 21837-21847 [doi]

DQS3D: Densely-matched Quantization-aware Semi-supervised 3D DetectionHuan-ang Gao, Beiwen Tian, Pengfei Li, Hao Zhao, Guyue Zhou. 21848-21858 [doi]

Shape Anchor Guided Holistic Indoor Scene UnderstandingMingyue Dong, Linxi Huan, Hanjiang Xiong, Shuhan Shen, Xianwei Zheng. 21859-21869 [doi]

SGAligner: 3D Scene Alignment with Scene GraphsSayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni. 21870-21880 [doi]

Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance SegmentationJianzong Wu, Xiangtai Li, Henghui Ding, Xia Li, Guangliang Cheng, Yunhai Tong, Chen Change Loy. 21881-21891 [doi]

SLAN: Self-Locator Aided Network for Vision-Language UnderstandingJiang-Tian Zhai, Qi Zhang, Tong Wu, Xing-yu Chen, Jiang-Jiang Liu 0001, Ming-Ming Cheng. 21892-21901 [doi]

Task-Oriented Multi-Modal Mutual Learning for Vision-Language ModelsSifan Long, Zhen Zhao, Junkun Yuan, Zichang Tan, Jiangjiang Liu 0006, Luping Zhou, Shengsheng Wang 0001, Jingdong Wang 0001. 21902-21912 [doi]

TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight InheritanceKan Wu, Houwen Peng, Zhenghong Zhou, Bin Xiao, Mengchen Liu, Lu Yuan, Hong Xuan, Michael Valenzuela, Xi Stephen Chen, Xinggang Wang, Hongyang Chao, Han Hu. 21913-21923 [doi]

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video RetrievalNina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne. 21924-21935 [doi]

Preserving Modality Structure Improves Multi-Modal LearningSirnam Swetha, Mamshad Nayeem Rizve, Nina Shvetsova, Hilde Kuehne, Mubarak Shah. 21936-21946 [doi]

Distribution-Aware Prompt Tuning for Vision-Language ModelsEulrang Cho, Jooyeon Kim, Hyunwoo J. Kim. 21947-21956 [doi]

SupFusion: Supervised LiDAR-Camera Fusion for 3D Object DetectionYiran Qin, Chaoqun Wang, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang. 21957-21967 [doi]

Distribution-Consistent Modal Recovering for Incomplete Multimodal LearningYuanzhi Wang, Zhen Cui, Yong Li. 21968-21977 [doi]

Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion ModelYin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang. 21978-21987 [doi]

Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackersZhiyu Zhu, Junhui Hou, Dapeng Oliver Wu. 21988-21998 [doi]

eP-ALM: Efficient Perceptual Augmentation of Language ModelsMustafa Shukor, Corentin Dancette, Matthieu Cord. 21999-22012 [doi]

Generating Visual Scenes from TouchFengyu Yang, Jiacheng Zhang, Andrew Owens. 22013-22023 [doi]

Multimodal High-order Relation Transformer for Scene Boundary DetectionXi Wei, Zhangxiang Shi, Tianzhu Zhang, Xiaoyuan Yu, Lei Xiao. 22024-22033 [doi]

Muscles in ActionMia Chiquier, Carl Vondrick. 22034-22044 [doi]

Self-Evolved Dynamic Expansion Model for Task-Free Continual LearningFei Ye 0004, Adrian G. Bors. 22045-22055 [doi]

Multi-event Video-Text RetrievalGengyuan Zhang, Jisen Ren, Jindong Gu, Volker Tresp. 22056-22066 [doi]

Referring Image Segmentation Using Text SupervisionFang Liu 0033, Yuhao Liu, Yuqiu Kong, Ke Xu, Lihe Zhang, Baocai Yin, Gerhard P. Hancke 0002, Rynson W. H. Lau. 22067-22077 [doi]

Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal LearningXiaobao Guo, Nithish Muthuchamy Selvaraj, Zitong Yu, Adams Wai-Kin Kong, Bingquan Shen, Alex C. Kot. 22078-22088 [doi]

EMMN: Emotional Motion Memory Network for Audio-driven Emotional Talking Face GenerationShuai Tan, bin Ji, Ye Pan. 22089-22099 [doi]

CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-TrainingTianyu Huang, Bowen Dong, Yunhan Yang, Xiaoshui Huang, Rynson W. H. Lau, Wanli Ouyang, Wangmeng Zuo. 22100-22110 [doi]

Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short VideoXiuzhe Wu, Pengfei Hu, Yang Wu, Xiaoyang Lyu, Yan-Pei Cao, Ying Shan, Wenming Yang, Zhongqian Sun, Xiaojuan Qi. 22111-22120 [doi]

GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-trainingXinchi Deng, Han Shi, Runhui Huang, Changlin Li, Hang Xu, Jianhua Han, James T. Kwok, Shen Zhao, Wei Zhang, Xiaodan Liang. 22121-22132 [doi]

A Retrospect to Multi-prompt Learning across Vision and LanguageZiliang Chen, Xin Huang, Quanlong Guan, Liang Lin, Weiqi Luo 0002. 22133-22144 [doi]

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic RulesZhi-Qi Cheng, Qi Dai, Alexander G. Hauptmann. 22145-22156 [doi]

Boosting Multi-modal Model Performance with Adaptive Gradient ModulationHong Li, Xingyu Li, Pengbo Hu, Yinuo Lei, Chunxiao Li, Yi Zhou. 22157-22167 [doi]

ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World DataMaya Varma, Jean-Benoit Delbrouck, Sarah M. Hooper, Akshay Chaudhari, Curtis P. Langlotz. 22168-22178 [doi]

Robust Referring Video Object Segmentation with Cyclic Structural ConsensusXiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu. 22179-22188 [doi]

Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content CreationRui Chen, Yongwei Chen, Ningxin Jiao, Kui Jia. 22189-22199 [doi]

CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology PreservationHongguang Zhu, Yunchao Wei, Xiaodan Liang, Chunjie Zhang, Yao Zhao 0001. 22200-22210 [doi]

Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship ReasoningHaibiao Xuan, Xiongzheng Li, Jinsong Zhang, Hongwen Zhang 0001, Yebin Liu, Kun Li. 22211-22221 [doi]

Knowledge-Aware Federated Active Learning with Non-IID DataYu-Tong Cao, Ye Shi 0001, Baosheng Yu, Jingya Wang, Dacheng Tao. 22222-22232 [doi]

SimpleClick: Interactive Image Segmentation with Simple Vision TransformersQin Liu 0008, Zhenlin Xu, Gedas Bertasius, Marc Niethammer. 22233-22243 [doi]

InterFormer Real-time Interactive Image SegmentationYou Huang, Hao Yang, Ke Sun, Shengchuan Zhang, Liujuan Cao, Guannan Jiang, Rongrong Ji. 22244-22254 [doi]

Interactive Class-Agnostic Object CountingYifeng Huang, Viresh Ranjan, Minh Hoai. 22255-22265 [doi]

Agile Modeling: From Concept to Classifier in MinutesOtilia Stretcu, Edward Vendrow, Kenji Hata, Krishnamurthy Viswanathan, Vittorio Ferrari, Sasan Tavakkol, Wenlei Zhou, Aditya Avinash, Enming Luo, Neil Gordon Alldrin, MohammadHossein Bateni, Gabriel Berger, Andrew Bunner, Chun-Ta Lu, Javier A Rey, Giulia DeSalvo, Ranjay Krishna, Ariel Fuxman. 22266-22277 [doi]

TiDAL: Learning Training Dynamics for Active LearningSeong Min Kye, KwangHee Choi, Hyeongmin Byun, Buru Chang. 22278-22288 [doi]

Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive LearningJizhe Zhou, Xiaochen Ma 0001, Xia Du, Ahmed Y. Al Hammadi, Wentao Feng. 22289-22299 [doi]

VADER: Video Alignment Differencing and RetrievalAlexander Black 0001, Simon Jenni, Tu Bui, Md. Mehrab Tanjim, Stefano Petrangeli, Ritwik Sinha, Viswanathan Swaminathan 0001, John P. Collomosse. 22300-22310 [doi]

PIRNet: Privacy-Preserving Image Restoration Network via Wavelet LiftingXin Deng 0002, Chao Gao, Mai Xu. 22311-22320 [doi]

Quality-Agnostic Deepfake Detection with Intra-model Collaborative LearningBinh M. Le, Simon S. Woo. 22321-22332 [doi]

Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency LearningYuanhao Zhai 0001, Tianyu Luan, David S. Doermann, Junsong Yuan. 22333-22343 [doi]

CopyRNeRF: Protecting the CopyRight of Neural Radiance FieldsZiyuan Luo, Qing Guo, Ka-Chun Cheung, Simon See, Renjie Wan. 22344-22354 [doi]

UCF: Uncovering Common Features for Generalizable Deepfake DetectionZhiyuan Yan 0002, Yong Zhang, Yanbo Fan, Baoyuan Wu. 22355-22366 [doi]

SAFL-Net: Semantic-Agnostic Feature Learning Network with Auxiliary Plugins for Image Manipulation DetectionZhihao Sun, Haoran Jiang, Danding Wang, Xirong Li 0001, Juan Cao. 22367-22376 [doi]

DRAW: Defending Camera-shooted RAW against Image ManipulationXiaoxiao Hu, Qichao Ying, Zhenxing Qian, Sheng Li, Xinpeng Zhang 0001. 22377-22387 [doi]

DIRE for Diffusion-Generated Image DetectionZhendong Wang, Jianmin Bao, Wengang Zhou, Weilun Wang, Hezhen Hu, Hong Chen, Houqiang Li. 22388-22398 [doi]

Uncertainty-guided Learning for Improving Image Manipulation DetectionKaixiang Ji, Feng Chen, Xin Guo, Yadong Xu, Jian Wang, Jingdong Chen. 22399-22408 [doi]

The Stable Signature: Rooting Watermarks in Latent Diffusion ModelsPierre Fernandez, Guillaume Couairon, Hervé Jégou, Matthijs Douze, Teddy Furon. 22409-22420 [doi]

Get the Best of Both Worlds: Improving Accuracy and Transferability by Grassmann Class RepresentationHaoqi Wang, Zhizhong Li 0002, Wayne Zhang. 22421-22430 [doi]

4D Panoptic Segmentation as Invariant and Equivariant Field PredictionMinghan Zhu, Shizhong Han, Maani Ghaffari, Hong Cai, Fatih Porikli, Shubhankar Borse. 22431-22441 [doi]

SiLK: Simple Learned KeypointsPierre Gleize, Weiyao Wang 0001, Matt Feiszli. 22442-22451 [doi]

SC3K: Self-supervised and Coherent 3D Keypoints Estimation from Rotated, Noisy, and Decimated Point Cloud DataMohammad Zohaib, Alessio Del Bue. 22452-22462 [doi]

Geometric Viewpoint Learning with Hyper-Rays and Harmonics EncodingZhixiang Min, Juan Carlos Dibene, Enrique Dunn. 22463-22473 [doi]

Surface Extraction from Neural Unsigned Distance FieldsCongyi Zhang, Guying Lin, Lei Yang, Xin Li, Taku Komura, Scott Schaefer, John Keyser, Wenping Wang. 22474-22483 [doi]

Learning Adaptive Neighborhoods for Graph Neural NetworksAvishkar Saha, Oscar Mendez, Chris Russell 0001, Richard Bowden. 22484-22493 [doi]

Why do networks have inhibitory/negative connections?Qingyang Wang, Michael A. Powell, Ali Geisa, Eric Bridgeford, Carey E. Priebe, Joshua T. Vogelstein. 22494-22502 [doi]

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and EditingMingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie, Yinqiang Zheng. 22503-22513 [doi]

Personalized Image Generation for Color Vision Deficiency PopulationShuyi Jiang, Daochang Liu, Dingquan Li, Chang Xu 0002. 22514-22523 [doi]

ReNeRF: Relightable Neural Radiance Fields with Nearfield LightingYingyan Xu, Gaspard Zoss, Prashanth Chandran, Markus H. Gross, Derek Bradley, Paulo F. U. Gotardo. 22524-22534 [doi]

MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion ModelsJing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wenjing Yang 0002. 22535-22545 [doi]

PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image DiffusionGwanghyun Kim, Ji Ha Jang, Se Young Chun. 22546-22555 [doi]

Pluralistic Aging Diffusion AutoencoderPeipei Li, Rui Wang, Huaibo Huang, Ran He 0001, Zhaofeng He. 22556-22566 [doi]

DPM-OT: A New Diffusion Probabilistic Model Based on Optimal TransportZezeng Li, Shenghao Li, Zhanpeng Wang, Na Lei, Zhongxuan Luo, Xianfeng David Gu. 22567-22576 [doi]

Efficient Emotional Adaptation for Audio-Driven Talking-Head GenerationYuan Gan, Zongxin Yang, Xihang Yue, Lingyun Sun, Yi Yang. 22577-22588 [doi]

DiFaReli: Diffusion Face RelightingPuntawat Ponglertnapakorn, Nontawat Tritrong, Supasorn Suwajanakorn. 22589-22600 [doi]

TALL: Thumbnail Layout for Deepfake Video DetectionYuting Xu, Jian Liang, Gengyun Jia, Ziming Yang, Yanhao Zhang, Ran He 0001. 22601-22611 [doi]

LAW-Diffusion: Complex Scene Generation by Diffusion with LayoutsBinbin Yang, Yi Luo, Ziliang Chen, Guangrun Wang, Xiaodan Liang, Liang Lin. 22612-22622 [doi]

DreamPose: Fashion Image-to-Video Synthesis via Stable DiffusionJohanna Karras, Aleksander Holynski, Ting-chun Wang, Ira Kemelmacher-Shlizerman. 22623-22633 [doi]

Ablating Concepts in Text-to-Image Diffusion ModelsNupur Kumari, Bingliang Zhang, Sheng-yu Wang, Eli Shechtman, Richard Zhang 0001, Jun-Yan Zhu. 22634-22645 [doi]

DReg-NeRF: Deep Registration for Neural Radiance FieldsYu Chen, Gim Hee Lee. 22646-22656 [doi]

The Euclidean Space is Evil: Hyperbolic Attribute Editing for Few-shot Image GenerationLingxiao Li, Yi Zhang, Shuhui Wang. 22657-22667 [doi]

Discriminative Class Tokens for Text-to-Image Diffusion ModelsIdan Schwartz, Vésteinn Snæbjarnarson, Hila Chefer, Serge J. Belongie, Lior Wolf, Sagie Benaim. 22668-22678 [doi]

General Image-to-Image Translation with One-Shot Image GuidanceBin Cheng, Zuhao Liu, Yunbo Peng, Yue Lin 0002. 22679-22689 [doi]

Text2Performer: Text-Driven Human Video GenerationYuming Jiang 0003, Shuai Yang, Tong Liang Koh, Wayne Wu, Chen Change Loy, Ziwei Liu. 22690-22700 [doi]

AesPA-Net: Aesthetic Pattern-Aware Style Transfer NetworksKibeom Hong, Seogkyu Jeon, Junsoo Lee, Namhyuk Ahn, Kunhee Kim, Pilhyeon Lee, DaeSik Kim, Youngjung Uh, Hyeran Byun. 22701-22710 [doi]

Controllable Person Image Synthesis with Pose-Constrained Latent DiffusionXiao Han, Xiatian Zhu, Jiankang deng, Yi-Zhe Song, Tao Xiang 0002. 22711-22720 [doi]

PATMAT: Person Aware Tuning of Mask-Aware Transformer for Face inpaintingSaman Motamed, Jianjin Xu, Chen Henry Wu, Christian Häne, Jean Charles Bazin, Fernando De la Torre. 22721-22730 [doi]

Virtual Try-On with Pose-Garment Keypoints Guided InpaintingZhi Li, Pengfei Wei, Xiang Yin 0006, Zejun Ma, Alex C. Kot. 22731-22740 [doi]

Online Clustered CodebookChuanxia Zheng, Andrea Vedaldi. 22741-22750 [doi]

InfiniCity: Infinite-Scale City SynthesisChieh Hubert Lin, Hsin-Ying Lee, Willi Menapace, Menglei Chai, Aliaksandr Siarohin, Ming-Hsuan Yang 0001, Sergey Tulyakov. 22751-22761 [doi]

Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion PriorJunshu Tang, Tengfei Wang, Bo Zhang, Ting Zhang, Ran Yi, Lizhuang Ma, Dong Chen 0003. 22762-22772 [doi]

SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single ImageXiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang 0001. 22773-22783 [doi]

StyleLipSync: Style-based Personalized Lip-sync Video GenerationTaekyung Ki, Dongchan Min. 22784-22793 [doi]

StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video GenerationYuhan Wang, Liming Jiang, Chen Change Loy. 22794-22804 [doi]

3D-Aware Generative Model for Improved Side-View Image SynthesisKyungmin Jo, Wonjoon Jin, Jaegul Choo, Hyunjoon Lee, Sunghyun Cho. 22805-22815 [doi]

Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style TransferSerin Yang, Hyunmin Hwang, Jong Chul Ye. 22816-22825 [doi]

FlipNeRF: Flipped Reflection Rays for Few-shot Novel View SynthesisSeunghyeon Seo, Yeonjin Chang, Nojun Kwak. 22826-22836 [doi]

Inverse problem regularization with hierarchical variational autoencodersJean Prost, Antoine Houdard, Andrés Almansa, Nicolas Papadakis. 22837-22848 [doi]

3D-aware Blending with Generative NeRFsHyunsu Kim, Gayoung Lee, Yunjey Choi, Jin-Hwa Kim, Jun-Yan Zhu. 22849-22861 [doi]

NeMF: Inverse Volume Rendering with Neural Microflake FieldYoujia Zhang, Teng Xu 0008, Junqing Yu, Yuteng Ye, Yanqing Jing, Junle Wang, Jingyi Yu, Wei Yang 0034. 22862-22872 [doi]

Preserve Your Own Correlation: A Noise Prior for Video Diffusion ModelsSongwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs 0001, Jia-Bin Huang, Ming-Yu Liu 0001, Yogesh Balaji. 22873-22884 [doi]

iVS-Net: Learning Human View Synthesis from Internet VideosJunting Dong, Qi Fang, Tianshuo Yang, Qing Shuai, Chengyu Qiao, Sida Peng. 22885-22894 [doi]

EGC: Image Generation and Classification via a Diffusion Energy-Based ModelQiushan Guo, Chuofan Ma, Yi Jiang, Zehuan Yuan, Yizhou Yu, Ping Luo. 22895-22905 [doi]

Automatic Animation of Hair Blowing in Still Portrait PhotosWenpeng Xiao, WenTao Liu, Yitong Wang, Bernard Ghanem, Bing Li. 22906-22918 [doi]

HoloFusion: Towards Photo-realistic 3D Generative ModelingAnimesh Karnewar, Niloy J. Mitra, Andrea Vedaldi, David Novotný. 22919-22928 [doi]

Foreground Object Search by Distilling Composite Image FeatureBo Zhang, Jiacheng Sui, Li Niu. 22929-22938 [doi]

OrthoPlanes: A Novel Representation for Better 3D-Awareness of GANsHonglin He, Zhuoqian Yang, Shikai Li, Bo Dai 0002, Wayne Wu. 22939-22950 [doi]

3DHumanGAN: 3D-Aware Human Image Generation with 3D Pose MappingZhuoqian Yang, Shikai Li, Wayne Wu, Bo Dai 0002. 22951-22962 [doi]

MODA: Mapping-Once Audio-driven Portrait Animation with Dual AttentionsYunfei Liu, Lijian Lin, Fei Yu, Changyin Zhou, Yu Li 0003. 22963-22972 [doi]

Minimum Latency Deep Online Video StabilizationZhuofan Zhang, Zhen Liu, Ping Tan, Bing Zeng, Shuaicheng Liu. 22973-22982 [doi]

StableVideo: Text-driven Consistency-aware Diffusion Video EditingWenhao Chai, Xun Guo, Gaoang Wang, Yan Lu. 22983-22993 [doi]

Localizing Object-level Shape Variations with Text-to-Image Diffusion ModelsOr Patashnik, Daniel Garibi, Idan Azuri, Hadar Averbuch-Elor, Daniel Cohen-Or. 22994-23004 [doi]

Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Video GenerationFa-Ting Hong, Dan Xu 0002. 23005-23015 [doi]

ESSAformer: Efficient Transformer for Hyperspectral Image Super-resolutionMingjin Zhang, Chi Zhang, Qiming Zhang 0001, Jie Guo 0009, Xinbo Gao 0001, Jing Zhang. 23016-23027 [doi]

GlueGen: Plug and Play Multi-modal Encoders for X-to-image GenerationCan Qin, Ning Yu, Chen Xing, Shu Zhang 0007, Zeyuan Chen, Stefano Ermon, Yun Fu 0001, Caiming Xiong, Ran Xu. 23028-23039 [doi]

UHDNeRF: Ultra-High-Definition Neural Radiance FieldsQuewei Li, Feichao Li, Jie Guo, Yanwen Guo 0001. 23040-23051 [doi]

All-to-key Attention for Arbitrary Style TransferMingrui Zhu, Xiao He, Nannan Wang 0001, Xiaoyu Wang 0002, Xinbo Gao 0001. 23052-23062 [doi]

Diverse Inpainting and Editing with GAN InversionAhmet Burak Yildirim, Hamza Pehlivan, Bahri Batuhan Bilecen, Aysegul Dundar. 23063-23073 [doi]

MoTIF: Learning Motion Trajectories with Local Implicit Neural Functions for Continuous Space-Time Video Super-ResolutionYi-Hsin Chen, Si-Cun Chen, Yi-Hsin Chen, Yen-Yu Lin, Wen-Hsiao Peng. 23074-23084 [doi]

RANA: Relightable Articulated Neural AvatarsUmar Iqbal 0001, Akin Caliskan, Koki Nagano, Sameh Khamis, Pavlo Molchanov 0001, Jan Kautz. 23085-23096 [doi]

DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic AlignmentXujie Zhang, Binbin Yang, Michael C. Kampffmeyer, Wenqing Zhang, Shiyue Zhang, Guansong Lu, Liang Lin, Hang Xu, Xiaodan Liang. 23097-23106 [doi]

Masked Diffusion Transformer is a Strong Image SynthesizerShanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan. 23107-23116 [doi]

FreeDoM: Training-Free Energy-Guided Conditional Diffusion ModelJiwen Yu, Yinhuai Wang, Chen Zhao, Bernard Ghanem, Jian Zhang. 23117-23127 [doi]

CLNeRF: Continual Learning Meets NeRFZhipeng Cai, Matthias Müller 0001. 23128-23137 [doi]

Rethinking Fast Fourier Convolution in Image InpaintingTianyi Chu, Jiafu Chen, Jiakai Sun, Shuobin Lian, Zhizhong Wang, Zhiwen Zuo, Lei Zhao, Wei Xing, Dongming Lu. 23138-23148 [doi]

Pix2Video: Video Editing using Image DiffusionDuygu Ceylan, Chun-Hao Paul Huang, Niloy J. Mitra. 23149-23160 [doi]

Multi-view Spectral Polarization Propagation for Video Glass SegmentationYu Qiao, Bo Dong, Ao Jin, Yu Fu, Seung-Hwan Baek, Felix Heide, Pieter Peers, Xiaopeng Wei, Xin Yang. 23161-23171 [doi]

WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow PredictionGuillaume Le Moing, Jean Ponce, Cordelia Schmid. 23172-23184 [doi]

Ray Conditioning: Trading Photo-consistency for Photo-realism in Multi-view Image GenerationEric Ming Chen, Sidhanth Holalkere, Ruyu Yan, Kai Zhang, Abe Davis. 23185-23194 [doi]

Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative ModelsJaewoong Lee, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Yunji Kim, Jin-Hwa Kim, Jung-Woo Ha 0001, Sung Ju Hwang. 23195-23205 [doi]

Efficient Video Prediction via Sparsely Conditioned Flow MatchingAram Davtyan, Sepehr Sameni, Paolo Favaro. 23206-23217 [doi]

Democratising 2D Sketch to 3D Shape Retrieval Through PivotingPinaki Nath Chowdhury, Ayan Kumar Bhunia, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Yi-Zhe Song. 23218-23229 [doi]

Towards Instance-adaptive Inference for Federated LearningChun-Mei Feng, Kai Yu 0009, Nian Liu, Xinxing Xu, Salman Khan 0001, Wangmeng Zuo. 23230-23239 [doi]

TransTIC: Transferring Transformer-based Image Compression from Human Perception to Machine PerceptionYi-Hsin Chen, Ying-Chieh Weng, Chia-Hao Kao, Cheng Chien, Wei-chen Chiu, Wen-Hsiao Peng. 23240-23250 [doi]

Counting Crowds in Bad WeatherZhi-Kai Huang, Wei-Ting Chen, Yuan-Chun Chiang, Sy-Yen Kuo, Ming-Hsuan Yang 0001. 23251-23262 [doi]

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object DetectionChenfeng Xu, Bichen Wu, Ji Hou, Sam S. Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka. 23263-23273 [doi]

MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video SegmentationNajmeh Sadoughi, Xinyu Li, Avijit Vajpayee, David Fan, Bing Shuai, Hector J. Santos-Villalobos, Vimal Bhat, Rohith MV. 23274-23283 [doi]

Bring Clipart to LifeNanxuan Zhao, Shengqi Dang, Hexun Lin, Yang Shi, Nan Cao. 23284-23293 [doi]

UpCycling: Semi-supervised 3D Object Detection without Sharing Raw-level Unlabeled ScenesSunwook Hwang, Youngseok Kim, Seongwon Kim, Saewoong Bahk, Hyung-Sin Kim. 23294-23304 [doi]

Graph Matching with Bi-level Noisy CorrespondenceYijie Lin 0001, Mouxing Yang, Jun Yu, Peng Hu, Changqing Zhang, Xi Peng 0001. 23305-23314 [doi]

Anomaly Detection using Score-based Perturbation ResilienceWoosang Shin, Jonghyeon Lee, Taehan Lee, Sangmoon Lee, Jong Pil Yun. 23315-23325 [doi]

Spatio-Temporal Domain Awareness for Multi-Agent Collaborative PerceptionKun Yang, Dingkang Yang, Jingyu Zhang, Mingcheng Li, Yang Liu, Jing Liu, Hanqi Wang, Peng Sun, Liang Song. 23326-23335 [doi]

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image EditingAlberto Baldrati, Davide Morelli, Giuseppe Cartella, Marcella Cornia, Marco Bertini 0001, Rita Cucchiara. 23336-23345 [doi]

Towards Unifying Medical Vision-and-Language Pre-training via Soft PromptsZhihong Chen, Shizhe Diao, Benyou Wang, Guanbin Li, Xiang Wan. 23346-23356 [doi]

MAS: Towards Resource-Efficient Federated Multiple-Task LearningWeiming Zhuang, Yonggang Wen 0001, Lingjuan Lyu, Shuai Zhang. 23357-23367 [doi]

Hierarchical Visual Categories Modeling: A Joint Representation Learning and Density Estimation Framework for Out-of-Distribution DetectionJinglun Li, Xinyu Zhou, Pinxue Guo, Yixuan Sun, Yiwen Huang, Weifeng Ge, Wenqiang Zhang. 23368-23378 [doi]

Improving Generalization in Visual Reinforcement Learning via Conflict-aware Gradient Agreement AugmentationSiao Liu, Zhaoyu Chen, Yang Liu, Yuzheng Wang, Dingkang Yang, Zhile Zhao, Ziqing Zhou, Xie Yi, Wei Li, Wenqiang Zhang, Zhongxue Gan. 23379-23389 [doi]

Tiny Updater: Towards Efficient Neural Network-Driven Software UpdatingLinfeng Zhang, Kaisheng Ma. 23390-23402 [doi]

Multiple Planar Object TrackingZhicheng Zhang, Shengzhe Liu, Jufeng Yang. 23403-23413 [doi]

OmnimatteRF: Robust Omnimatte with 3D Background ModelingGeng Lin, Chen Gao, Jia-Bin Huang 0001, Changil Kim 0001, Yipeng Wang 0018, Matthias Zwicker, Ayush Saraf. 23414-23423 [doi]

Ordinal Label Distribution LearningChangsong Wen, Xin Zhang, Xingxu Yao, Jufeng Yang. 23424-23434 [doi]

Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detectionYichao Cao, Qingfei Tang, Feng Yang, Xiu Su, Shan You, Xiaobo Lu, Chang Xu. 23435-23446 [doi]

MUVA: A New Large-Scale Benchmark for Multi-view Amodal Instance Segmentation in the Shopping ScenarioZhixuan Li, Weining Ye, Juan Terven, Zachary Bennett, Ying Zheng, Tingting Jiang, Tiejun Huang 0001. 23447-23456 [doi]

Editable Image Geometric Abstraction via Neural Primitive AssemblyYe Chen, Bingbing Ni, Xuanhong Chen, Zhangli Hu. 23457-23466 [doi]

One-shot recognition of any material anywhere using contrastive learning with physics-based renderingManuel S. Drehwald, Sagi Eppel, Jolina Li, Han Hao, Alán Aspuru-Guzik. 23467-23476 [doi]

Fast Full-frame Video Stabilization with Iterative OptimizationWeiyue Zhao, Xin Li, Zhan Peng, Xianrui Luo, Xinyi Ye, Hao Lu, Zhiguo Cao 0001. 23477-23487 [doi]

Two Birds, One Stone: A Unified Framework for Joint Learning of Image and Video Style TransfersBohai Gu, Heng Fan 0001, Libo Zhang. 23488-23497 [doi]

Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image FusionBing Cao, Yiming Sun, Pengfei Zhu, Qinghua Hu. 23498-23507 [doi]

SAFE: Sensitivity-Aware Features for Out-of-Distribution Object DetectionSamuel Wilson, Tobias Fischer 0001, Feras Dayoub, Dimity Miller, Niko Sünderhauf. 23508-23519 [doi]

GeT: Generative Target Structure Debiasing for Domain AdaptationCan Zhang, Gim Hee Lee. 23520-23531 [doi]

HairCLIPv2: Unifying Hair Editing via Proxy Feature BlendingTianyi Wei, Dongdong Chen 0001, Wenbo Zhou, Jing Liao 0001, Weiming Zhang 0001, Gang Hua 0001, Nenghai Yu. 23532-23542 [doi]

Deformer: Dynamic Fusion Transformer for Robust Hand Pose EstimationQichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani. 23543-23554 [doi]

Improving Continuous Sign Language Recognition with Cross-Lingual SignsFangyun Wei, Yutong Chen. 23555-23564 [doi]

A Parse-Then-Place Approach for Generating Graphic Layouts from Textual DescriptionsJiawei Lin, Jiaqi Guo, Shizhao Sun, Weijiang Xu, Ting Liu 0002, Jian-Guang Lou, Dongmei Zhang 0001. 23565-23574 [doi]

DISeR: Designing Imaging Systems with Reinforcement LearningTzofi Klinghoffer, Kushagra Tiwary, Nikhil Behari, Bhavya Agrawalla, Ramesh Raskar. 23575-23585 [doi]

Segmentation of Tubular Structures Using Iterative Training with Tailored SamplesWei Liao. 23586-23595 [doi]

Time-to-Contact Map by Joint Estimation of Up-to-Scale Inverse Depth and Global Motion using a Single Event CameraUrbano Miguel Nunes, Laurent Udo Perrinet, Sio-Hoi Ieng. 23596-23606 [doi]

runs on WebDSL