IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024, Seattle, WA, USA, June 16-22, 2024

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024, Seattle, WA, USA, June 16-22, 2024. IEEE, 2024. [doi]

Conference: cvpr2024

Abstract is missing.

Specularity Factorization for Low-Light EnhancementSaurabh Saini, P. J. Narayanan. 1-12 [doi]

A Category Agnostic Model for Visual RearrangmentYuyi Liu, Xinhang Song, Weijie Li, Xiaohan Wang, Shuqiang Jiang. 1-10 [doi]

FlowIE: Efficient Image Enhancement via Rectified FlowYixuan Zhu, Wenliang Zhao, Ao Li, Yansong Tang, Jie Zhou 0001, Jiwen Lu. 13-22 [doi]

Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel ApproachGuoqiang Liang, Kanghao Chen, Hangyu Li, Yunfan Lu, Lin Wang. 23-33 [doi]

Bilateral Event Mining and Complementary for Event Stream Super-ResolutionZhilin Huang, Quanmin Liang, Yijie Yu, Chujun Qin, Xiawu Zheng, Kai Huang 0001, Zikun Zhou, Wenming Yang. 34-43 [doi]

FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and DeblurringGeunhyuk Youk, Jihyong Oh, Munchurl Kim. 44-55 [doi]

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical PriorsYuan Dong, Qi Zuo, Xiaodong Gu 0004, Weihao Yuan, Zhengyi Zhao, Zilong Dong, Liefeng Bo, Qixing Huang. 56-66 [doi]

Retrieval-Augmented Layout Transformer for Content-Aware Layout GenerationDaichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa. 67-76 [doi]

Eclipse: Disambiguating Illumination and Materials Using Unintended ShadowsDor Verbin, Ben Mildenhall, Peter Hedman, Jonathan T. Barron, Todd E. Zickler, Pratul P. Srinivasan. 77-86 [doi]

Objects as Volumes: A Stochastic Geometry View of Opaque SolidsBailey Miller, Hanyu Chen 0002, Alice Lai, Ioannis Gkioulekas. 87-97 [doi]

DiffusionLight: Light Probes for Free by Painting a Chrome BallPakkapon Phongthawee, Worameth Chinchuthakun, Nontaphat Sinsunthithet, Varun Jampani, Amit Raj, Pramook Khungurn, Supasorn Suwajanakorn. 98-108 [doi]

MultiPly: Reconstruction of Multiple People from Monocular Video in the WildZeren Jiang, Chen Guo, Manuel Kaufmann, Tianjian Jiang, Julien Valentin, Otmar Hilliges, Jie Song 0006. 109-118 [doi]

URHand: Universal Relightable HandsZhaoxi Chen 0009, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn Mcphail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollhöfer, Yaser Sheikh, Ziwei Liu 0002, Shunsuke Saito. 119-129 [doi]

Relightable Gaussian Codec AvatarsShunsuke Saito, Gabriel Schwartz, Tomas Simon, Junxuan Li, Giljoo Nam. 130-141 [doi]

Semantic Human Mesh Reconstruction with TexturesXiaoyu Zhan, Jianxin Yang, Yuanqi Li, Jie Guo 0001, Yanwen Guo 0001, Wenping Wang. 142-152 [doi]

Stratified Avatar Generation from Sparse ObservationsHan Feng, Wenchao Ma, Quankai Gao, Xianwei Zheng, Nan Xue 0001, Huijuan Xu. 153-163 [doi]

SEAS: ShapE-Aligned Supervision for Person Re-IdentificationHaidong Zhu, Pranav Budhwant, Zhaoheng Zheng, Ram Nevatia. 164-174 [doi]

Test-Time Domain Generalization for Face Anti-SpoofingQianyu Zhou 0001, Ke-Yue Zhang, Taiping Yao, Xuequan Lu, Shouhong Ding, Lizhuang Ma. 175-187 [doi]

Gradient Alignment for Cross-Domain Face Anti-SpoofingBinh Minh Le, Simon S. Woo. 188-199 [doi]

BigGait: Learning Gait Representation You Want by Large Vision ModelsDingqiang Ye, Chao Fan 0001, Jingzhe Ma, Xiaoming Liu, Shiqi Yu 0001. 200-210 [doi]

Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-SpoofingXun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Wenzhong Tang, Zitong Yu, Alex C. Kot. 211-221 [doi]

CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-SpoofingAjian Liu, Shuai Xue, Jianwen Gan, Jun Wan 0001, Yanyan Liang, Jiankang deng, Sergio Escalera, Zhen Lei 0001. 222-232 [doi]

Psychometry: An Omnifit Model for Image Reconstruction from Human Brain ActivityRuijie Quan, Wenguan Wang, Zhibo Tian, Fan Ma, Yi Yang 0001. 233-243 [doi]

KeyPoint Relative Position Encoding for Face RecognitionMinchul Kim, Yiyang Su, Feng Liu 0037, Anil Jain, Xiaoming Liu 0002. 244-255 [doi]

Distilling CLIP with Dual Guidance for Learning Discriminative Human Body Shape RepresentationFeng Liu 0037, Minchul Kim, Zhiyuan Ren, Xiaoming Liu 0002. 256-266 [doi]

Flexible Biometrics Recognition: Bridging the Multimodality Gap Through Attention, Alignment and Prompt TuningLeslie Ching Ow Tiong, Dick Sigmund, Chen-Hui Chan, Andrew Beng Jin Teoh. 267-276 [doi]

One-Class Face Anti-Spoofing via Spoof Cue Map-Guided Feature LearningPei-Kai Huang, Cheng-Hsuan Chiang, Tzu-Hsien Chen, Jun-Xiong Chong, Tyng-Luh Liu, Chiou-Ting Hsu. 277-286 [doi]

Activity-Biometrics: Person Identification from Daily ActivitiesShehreen Azad, Yogesh Singh Rawat. 287-296 [doi]

Privacy-Preserving Face Recognition Using Trainable Feature SubtractionYuxi Mi, Zhizhou Zhong, Yuge Huang, Jiazhen Ji, Jianqing Xu, Jun Wang, Shaoming Wang, Shouhong Ding, Shuigeng Zhou. 297-307 [doi]

Molecular Data Programming: Towards Molecule Pseudo-labeling with Systematic Weak SupervisionXin Juan, Kaixiong Zhou, Ninghao Liu, Tianlong Chen, Xin Wang 0035. 308-318 [doi]

Clustering for Protein Representation LearningRuijie Quan, Wenguan Wang, Fan Ma, Hehe Fan, Yi Yang 0001. 319-329 [doi]

Fun with Flags: Robust Principal Directions via Flag ManifoldsNathan Mankovich, Gustau Camps-Valls, Tolga Birdal. 330-340 [doi]

CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization PerspectiveShunsuke Yasuki, Masato Taki. 341-351 [doi]

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3)Tsu-Ching Hsiao, Hao-Wei Chen, Hsuan-Kung Yang, Chun-Yi Lee. 352-362 [doi]

Quantifying Task Priority for Multi-Task OptimizationWooseong Jeong, Kuk-Jin Yoon. 363-372 [doi]

Unbiased Estimator for Distorted Conics in Camera CalibrationChaehyeon Song, Jaeho Shin, Myung-Hwan Jeon, Jongwoo Lim, Ayoung Kim. 373-381 [doi]

Multi-Object Tracking in the DarkXinzhe Wang, Kang Ma, Qiankun Liu, Yunhao Zou, Ying Fu 0001. 382-392 [doi]

Implicit Discriminative Knowledge Learning for Visible-Infrared Person Re-IdentificationKaijie Ren, Lei Zhang. 393-402 [doi]

From Correspondences to Pose: Non-Minimal Certifiably Optimal Relative Pose Without DisambiguationJavier Tirado-Garín, Javier Civera 0001. 403-412 [doi]

From Activation to Initialization: Scaling Insights for Optimizing Neural FieldsHemanth Saratchandran, Sameera Ramasinghe, Simon Lucey. 413-422 [doi]

PairDETR : Joint Detection and Association of Human Bodies and FacesAmmar Ali, Georgii Gaikov, Denis Rybalchenko, Alexander Chigorin, Ivan Laptev, Sergey Zagoruyko. 423-432 [doi]

Move as you Say, Interact as you can: Language-Guided Human Motion Generation with Scene AffordanceZan Wang, Yixin Chen 0003, Baoxiong Jia, Puhao Li, Jinlu Zhang, Jingze Zhang, Tengyu Liu, Yixin Zhu 0001, Wei Liang 0008, Siyuan Huang 0001. 433-444 [doi]

OakInk2 : A Dataset of Bimanual Hands-Object Manipulation in Complex Task CompletionXinyu Zhan 0001, Lixin Yang 0001, Yifei Zhao, Kangrui Mao, Hanlin Xu, Zenan Lin, Kailin Li 0001, Cewu Lu. 445-456 [doi]

Seamless Human Motion Composition with Blended Positional EncodingsGermán Barquero, Sergio Escalera, Cristina Palmero. 457-469 [doi]

VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video StreamsLiao Wang, Kaixin Yao, Chengcheng Guo, Zhirui Zhang, Qiang Hu, Jingyi Yu, Lan Xu, Minye Wu. 470-481 [doi]

OMG: Towards Open-vocabulary Motion Generation via Mixture of ControllersHan Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei Yang, Xin Chen 0059, Jingyi Yu, Lan Xu. 482-493 [doi]

HOLD: Category-Agnostic 3D Reconstruction of Interacting Hands and Objects from VideoZicong Fan, Maria Parelli, Maria Eleni Kadoglou, Xu Chen 0025, Muhammed Kocabas, Michael J. Black, Otmar Hilliges. 494-504 [doi]

HUGS: Human Gaussian SplatsMuhammed Kocabas, Jen-Hao Rick Chang, James Gabriel, Oncel Tuzel, Anurag Ranjan. 505-515 [doi]

3: Capture Multiple Humans and Objects Interaction within Contextual EnvironmentJuze Zhang, Jingyan Zhang, Zining Song, Zhanhe Shi, Chengfeng Zhao, Ye Shi 0001, Jingyi Yu, Lan Xu, Jingya Wang. 516-526 [doi]

InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse DiffusionJihyun Lee, Shunsuke Saito, Giljoo Nam, Minhyuk Sung, Tae-Kyun Kim 0001. 527-537 [doi]

SiTH: Single-view Textured Human Reconstruction with Image-Conditioned DiffusionHsuan-I Ho, Jie Song 0006, Otmar Hilliges. 538-549 [doi]

4D-DRESS: A 4D Dataset of Real-World Human Clothing with Semantic AnnotationsWenbo Wang 0007, Hsuan-I Ho, Chen Guo, Boxiang Rong, Artur Grigorev 0002, Jie Song 0006, Juan Jose Zarate, Otmar Hilliges. 550-560 [doi]

FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion ModelsJinglin Xu, Yijie Guo, Yuxin Peng. 561-570 [doi]

Real-Time Simulated Avatar from Head-Mounted SensorsZhengyi Luo 0002, Jinkun Cao, Rawal Khirodkar, Alexander Winkler, Jing Huang 0020, Kris Kitani, WeiPeng Xu. 571-581 [doi]

Digital Life Project: Autonomous 3D Characters with Social IntelligenceZhongang Cai, Jianping Jiang, Zhongfei Qing, Xinying Guo, Mingyuan Zhang, Zhengyu Lin, Haiyi Mei, Chen Wei, Ruisi Wang, Wanqi Yin, Liang Pan, Xiangyu Fan, Han Du, Peng Gao 0007, Zhitao Yang, Yang Gao, Jiaqi Li, Tianxiang Ren, Yukun Wei, Xiaogang Wang 0001, Chen Change Loy, Lei Yang 0059, Ziwei Liu 0002. 582-592 [doi]

Learning Visual Prompt for Gait RecognitionKang Ma, Ying Fu 0001, Chunshui Cao, Saihui Hou, Yongzhen Huang, Dezhi Zheng. 593-603 [doi]

Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose EstimationWenhao Li, Mengyuan Liu, Hong Liu 0008, Pichao Wang, Jialun Cai, Nicu Sebe. 604-613 [doi]

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language ModelDongkai Wang, Shiyu Xuan, Shiliang Zhang. 614-623 [doi]

Spatial-Aware Regression for Keypoint LocalizationDongkai Wang, Shiliang Zhang. 624-633 [doi]

GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D GaussiansLiangxiao Hu, Hongwen Zhang 0001, Yuxiang Zhang 0006, Boyao Zhou, Boning Liu, Shengping Zhang, Liqiang Nie. 634-644 [doi]

HHMR: Holistic Hand Mesh Recovery by Enhancing the Multimodal Controllability of Graph Diffusion ModelsMengcheng Li, Hongwen Zhang 0001, Yuxiang Zhang 0006, Ruizhi Shao, Tao Yu 0007, Yebin Liu. 645-654 [doi]

Capturing Closely Interacted Two-Person Motions with Reaction PriorsQi Fang, YingHui Fan, Yanjun Li, Junting Dong, Dingwei Wu, Weidong Zhang, Kang Chen. 655-665 [doi]

SyncTalk: The Devil is in the Synchronization for Talking Head SynthesisZiqiao Peng, Wentao Hu, Yue Shi, Xiangyu Zhu 0001, Xiaomei Zhang, Hao Zhao, Jun He 0008, Hongyan Liu 0002, Zhaoxin Fan. 666-676 [doi]

Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose EstimationRuicong Liu, Takehiko Ohkawa, Mingfang Zhang 0002, Yoichi Sato. 677-686 [doi]

Bidirectional Autoregressive Diffusion Model for Dance GenerationCanyu Zhang, Youbao Tang, Ning Zhang, Ruei-Sung Lin, Mei Han, Jing Xiao 0006, Song Wang 0002. 687-696 [doi]

High-Quality Facial Geometry and Appearance Capture at HomeYuxuan Han, Junfeng Lyu, Feng Xu 0005. 697-707 [doi]

Multiple View Geometry Transformers for 3D Human Pose EstimationZiwei Liao, Jialiang Zhu, Chunyu Wang, Han Hu 0001, Steven L. Waslander. 708-717 [doi]

PACER+: On-Demand Pedestrian Animation Controller in Driving ScenariosJingbo Wang 0003, Zhengyi Luo 0002, Ye Yuan 0007, Yixuan Li 0002, Bo Dai 0002. 718-728 [doi]

I'M HOI: Inertia-Aware Monocular Capture of 3D Human-Object InteractionsChengfeng Zhao, Juze Zhang, Jiashen Du, Ziwei Shan, Junye Wang, Jingyi Yu, Jingya Wang, Lan Xu. 729-741 [doi]

HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained ImagesXihe Yang, Xingyu Chen, Daiheng Gao, Shaohui Wang, Xiaoguang Han 0001, Baoyuan Wang. 742-752 [doi]

Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory PredictionInhwan Bae, Junoh Lee, Hae-Gon Jeon. 753-766 [doi]

3D Human Pose Perception from Egocentric Stereo VideosHiroyasu Akada, Jian Wang 0042, Vladislav Golyanik, Christian Theobalt. 767-776 [doi]

Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusion-Based Motion RefinementJian Wang 0042, Zhe Cao, Diogo C. Luvizon, Lingjie Liu, Kripasindhu Sarkar, Danhang Tang, Thabo Beeler, Christian Theobalt. 777-787 [doi]

Human Gaussian Splatting: Real-Time Rendering of Animatable AvatarsArthur Moreau, Jifei Song, Helisa Dhamo, Richard Shaw, Yiren Zhou, Eduardo Pérez-Pellitero. 788-798 [doi]

OHTA: One-shot Hand Avatar via Data-driven Implicit PriorsXiaozheng Zheng, Chao Wen, Zhuo Su 0006, Zeran Xu, Zhaohu Li, Yang Zhao, Zhou Xue. 799-810 [doi]

HOIAnimator: Generating Text-Prompt Human-Object Animations Using Novel Perceptive Diffusion ModelsWenfeng Song, Xinyu Zhang, Shuai Li 0001, Yang Gao 0032, Aimin Hao, Xia Hau, Chenglizhao Chen, Ning Li, Hong Qin 0001. 811-820 [doi]

Arbitrary Motion Style Transfer with Multi-Condition Motion Latent Diffusion ModelWenfeng Song, Xingliang Jin, Shuai Li 0001, Chenglizhao Chen, Aimin Hao, Xia Hou, Ning Li, Hong Qin 0001. 821-830 [doi]

Single-View Scene Point Cloud Human Grasp GenerationYan-Kang Wang, Chengyi Xing, Yi-Lin Wei, Xiao-Ming Wu 0002, Wei-Shi Zheng 0001. 831-841 [doi]

Attention-Propagation Network for Egocentric Heatmap to 3D Pose LiftingTaeho Kang, Youngki Lee. 842-851 [doi]

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive AgentsJieming Cui, Tengyu Liu, Nian Liu, Yaodong Yang 0001, Yixin Zhu 0001, Siyuan Huang 0001. 852-862 [doi]

From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera CalibrationZekun Qian, Ruize Han, Wei Feng 0005, Song Wang 0002. 863-873 [doi]

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse ObservationsPeng Dai, Yang Zhang, Tao Liu, Zhen Fan 0015, Tianyuan Du, Zhuo Su 0006, Xiaozheng Zheng, Zeming Li. 874-884 [doi]

Monocular Identity-Conditioned Facial Reflectance ReconstructionXingyu Ren, Jiankang deng, Yuhao Cheng, Jia Guo, Chao Ma 0004, Yichao Yan, Wenhan Zhu, Xiaokang Yang. 885-895 [doi]

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh LearningYe Yuan 0007, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal 0001. 896-905 [doi]

Score-Guided Diffusion for 3D Human RecoveryAnastasis Stathopoulos, Ligong Han, Dimitris N. Metaxas. 906-915 [doi]

3D-Aware Face Editing via Warping-Guided Latent Direction LearningYuhao Cheng, Zhuo Chen, Xingyu Ren, Wenhan Zhu, Zhengqin Xu, Di Xu, Changpeng Yang, Yichao Yan. 916-926 [doi]

WANDR: Intention-guided Human Motion GenerationMarkos Diomataris, Nikos Athanasiou, Omid Taheri, Xi Wang, Otmar Hilliges, Michael J. Black. 927-936 [doi]

Exploring Vision Transformers for 3D Human Motion-Language Models with Motion PatchesQing Yu, Mikihiro Tanaka, Kent Fujiwara. 937-946 [doi]

NIFTY: Neural Object Interaction Fields for Guided Human Motion SynthesisNilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson 0001, David Fouhey, Leonidas J. Guibas. 947-957 [doi]

DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion ModelsYukang Cao, Yan-Pei Cao, Kai Han 0001, Ying Shan, Kwan-Yee K. Wong. 958-968 [doi]

Person-in-WiFi 3D: End-to-End Multi-Person 3D Pose Estimation with Wi-FiKangwei Yan, Fei Wang 0037, Bo Qian, Han Ding 0002, Jinsong Han, Xing Wei. 969-978 [doi]

ScoreHypo: Probabilistic Human Mesh Estimation with Hypothesis ScoringYuan Xu, Xiaoxuan Ma, Jiajun Su, Wentao Zhu, Yu Qiao 0001, Yizhou Wang 0001. 979-989 [doi]

Relightable and Animatable Neural Avatar from Sparse-View VideoZhen Xu 0008, Sida Peng, Chen Geng 0001, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou. 990-1000 [doi]

From Audio to Photoreal Embodiment: Synthesizing Humans in ConversationsEvonne Ng, Javier Romero 0002, Timur M. Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard. 1001-1010 [doi]

Closely Interactive Human Reconstruction with Proxemics and Physics-Guided AdaptionBuzhen Huang, Chen Li 0038, Chongyang Xu, Liang Pan, Yangang Wang, Gim Hee Lee. 1011-1021 [doi]

Video-Based Human Pose Regression via Decoupled Space-Time AggregationJijie He, Wenwu Yang. 1022-1031 [doi]

Rethinking Generalizable Face Anti-Spoofing via Hierarchical Prototype-Guided Distribution Refinement in Hyperbolic SpaceChengyang Hu, Ke-Yue Zhang, Taiping Yao, Shouhong Ding, Lizhuang Ma. 1032-1041 [doi]

MoML: Online Meta Adaptation for 3D Human Motion PredictionXiaoning Sun, HuaiJiang Sun, Bin Li 0084, Dong Wei, Weiqing Li, Jianfeng Lu. 1042-1051 [doi]

KITRO: Refining Human Mesh by 2D Clues and Kinematic-tree RotationFengyuan Yang, Kerui Gu, Angela Yao. 1052-1061 [doi]

Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D GlimpsesInhee Lee, Byungjun Kim, Hanbyul Joo. 1062-1071 [doi]

PEGASUS: Personalized Generative 3D Avatars with Composable AttributesHyunSoo Cha, Byungjun Kim, Hanbyul Joo. 1072-1081 [doi]

SDPose: Tokenized Pose Estimation via Circulation-Guide Self-DistillationSichen Chen, Yingyi Zhang, Siming Huang, Ran Yi, Ke-fan, Ruixin Zhang, Peixian Chen, Jun Wang, Shouhong Ding, Lizhuang Ma. 1082-1090 [doi]

Mocap Everyone Everywhere: Lightweight Motion Capture with Smartwatches and a Head-Mounted CameraJiye Lee 0001, Hanbyul Joo. 1091-1100 [doi]

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh RecoveryYixuan Zhu, Ao Li, Yansong Tang, Wenliang Zhao, Jie Zhou 0001, Jiwen Lu. 1101-1110 [doi]

DPHMs: Diffusion Parametric Head Models for Depth-Based TrackingJiapeng Tang, Angela Dai, Yinyu Nie, Lev Markhasin, Justus Thies, Matthias Nießner. 1111-1122 [doi]

KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose EstimationJihua Peng, Yanghong Zhou, P. Y. Mok 0001. 1123-1132 [doi]

Exploiting Style Latent Flows for Generalizing Deepfake Video DetectionJongwook Choi, Taehoon Kim, Yonghyun Jeong, SeungRyul Baek, Jongwon Choi. 1133-1143 [doi]

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture ModelingHaiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black. 1144-1154 [doi]

A Unified Framework for Human-centric Point Cloud Video UnderstandingYiteng Xu, Kecheng Ye, Xiao Han, Yiming Ren, Xinge Zhu, Yuexin Ma. 1155-1164 [doi]

ASH: Animatable Gaussian Splats for Efficient and Photoreal Human RenderingHaokai Pang, Heming Zhu, Adam Kortylewski, Christian Theobalt, Marc Habermann. 1165-1175 [doi]

CLOAF: CoLlisiOn-Aware Human FlowAndrey Davydov, Martin Engilberge, Mathieu Salzmann, Pascal Fua. 1176-1185 [doi]

EventEgo3D: 3D Human Motion Capture from Egocentric Event StreamsChristen Millerdurai, Hiroyasu Akada, Jian Wang 0042, Diogo C. Luvizon, Christian Theobalt, Vladislav Golyanik. 1186-1195 [doi]

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified BenchmarkJakub Paplhám, Vojtech Franc. 1196-1205 [doi]

Holoported Characters: Real-Time Free-Viewpoint Rendering of Humans from Sparse RGB CamerasAshwath Shetty, Marc Habermann, Guoxing Sun, Diogo C. Luvizon, Vladislav Golyanik, Christian Theobalt. 1206-1215 [doi]

Synergistic Global-Space Camera and Human Reconstruction from VideosYizhou Zhao, Tuanfeng Yang Wang, Bhiksha Raj, Min Xu, Jimei Yang, Chun-Hao Paul Huang. 1216-1226 [doi]

3D Face Tracking from 2D Video through Iterative Dense UV to Image FlowFelix Taubner, Prashant Raina, Mathieu Tuli, Eu Wern Teh, Chul Lee, Jinmiao Huang. 1227-1237 [doi]

UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided TexturesMingyuan Zhou, Rakib Hyder, Ziwei Xuan, Guojun Qi. 1238-1248 [doi]

OmniMotionGPT: Animal Motion Generation with Limited DataZhangsihao Yang, Mingyuan Zhou, Mengyi Shan, Bingbing Wen, Ziwei Xuan, Mitch Hill, Junjie Bai, Guo-Jun Qi, Yalin Wang 0001. 1249-1259 [doi]

Text-Guided 3D Face Synthesis - From Generation to EditingYunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou 0001, Weiwei Xu, Xin Yu 0002. 1260-1269 [doi]

Multi-Scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units RecognitionZihan Wang 0005, Siyang Song, Cheng Luo, Songhe Deng, Weicheng Xie 0001, LinLin Shen. 1270-1280 [doi]

LiveHPS: LiDAR-Based Scene-Level Human Pose and Shape Estimation in Free EnvironmentYiming Ren, Xiao Han, Chengfeng Zhao, Jingya Wang, Lan Xu, Jingyi Yu, Yuexin Ma. 1281-1291 [doi]

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled AudioChao Xu, Yang Liu 0155, Jiazheng Xing, Weida Wang, Mingze Sun, Jun Dan, Tianxin Huang, Siyuan Li, Zhi-Qi Cheng, Ying Tai, Baigui Sun. 1292-1302 [doi]

OpticalDR: A Deep Optical Imaging Model for Privacy-Protective Depression RecognitionYuchen Pan, Junjun Jiang, Kui Jiang, Zhihao Wu, Keyuan Yu, Xianming Liu. 1303-1312 [doi]

SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark EstimationKejia Yin, Varshanth S. Rao, Ruowei Jiang, Xudong Liu, Parham Aarabi, David B. Lindell. 1313-1322 [doi]

TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose RepresentationSai Kumar Dwivedi, Yu Sun 0030, Priyanka Patel, Yao Feng, Michael J. Black. 1323-1333 [doi]

Optimizing Diffusion Noise Can Serve As Universal Motion PriorsKorrawe Karunratanakul, Konpat Preechakul, Emre Aksan, Thabo Beeler, Supasorn Suwajanakorn, Siyu Tang 0001. 1334-1345 [doi]

M&M VTO: Multi-Garment Virtual Try-On and EditingLuyang Zhu, Yingwei Li, Nan Liu, Hao Peng, Dawei Yang, Ira Kemelmacher-Shlizerman. 1346-1356 [doi]

AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and BeyondZixiang Zhou, Yu Wan, Baoyuan Wang. 1357-1366 [doi]

A Simple Baseline for Efficient Hand Mesh ReconstructionZhishan Zhou, Shihao Zhou, Zhi Lv, Minqiang Zou, Yao Tang, Jiajun Liang. 1367-1376 [doi]

VINECS: Video-based Neural Character SkinningZhouyingcheng Liao, Vladislav Golyanik, Marc Habermann, Christian Theobalt. 1377-1387 [doi]

ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture SynthesisMuhammad Hamza Mughal, Rishabh Dabral, Ikhsanul Habibie, Lucia Donatelli, Marc Habermann, Christian Theobalt. 1388-1398 [doi]

Programmable Motion Generation for Open-Set Motion Control TasksHanchao Liu, Xiaohang Zhan, Shaoli Huang, Tai-Jiang Mu, Ying Shan. 1399-1408 [doi]

From Feature to Gaze: A Generalizable Replacement of Linear Layer for Gaze EstimationYiwei Bao, Feng Lu 0005. 1409-1418 [doi]

Unsupervised Gaze Representation Learning from Multi-view Face ImagesYiwei Bao, Feng Lu 0005. 1419-1428 [doi]

Joint2Human: High-quality 3D Human Generation via Compact Spherical Embedding of 3D JointsMuxin Zhang, Qiao Feng, Zhuo Su 0006, Chao Wen, Zhou Xue, Kun Li 0001. 1429-1438 [doi]

DiffHuman: Probabilistic Photorealistic 3D Reconstruction of HumansAkash Sengupta, Thiemo Alldieck, Nikos Kolotouros, Enric Corona, Andrei Zanfir, Cristian Sminchisescu. 1439-1449 [doi]

Bi-Causal: Group Activity Recognition via Bidirectional CausalityYouliang Zhang, Wenxuan Liu, Danni Xu, Zhuo Zhou, Zheng Wang. 1450-1459 [doi]

HumanNeRF-SE: A Simple yet Effective Approach to Animate HumanNeRF with Diverse PosesCaoyuan Ma, Yu-Lun Liu 0001, Zhixiang Wang, Wu Liu, Xinchen Liu, Zheng Wang. 1460-1470 [doi]

LPSNet: End-to-End Human Pose and Shape Estimation with Lensless ImagingHaoyang Ge, Qiao Feng, Hailong Jia, Xiongzheng Li, Xiangjun Yin, You Zhou, Jingyu Yang 0002, Kun Li 0001. 1471-1480 [doi]

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion ModelZhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou. 1481-1490 [doi]

RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose EstimationPeng Lu, Tao Jiang, Yining Li, Xiangtai Li, Kai Chen 0026, Wenming Yang. 1491-1500 [doi]

Human Motion Prediction Under Unexpected PerturbationJiangbei Yue, Baiyi Li, Julien Pettré, Armin Seyfried, He Wang 0002. 1501-1511 [doi]

Cross-View and Cross-Pose Completion for 3D Human UnderstandingMatthieu Armando, Salma Galaaoui, Fabien Baradel, Thomas Lucas 0002, Vincent Leroy 0003, Romain Brégier, Philippe Weinzaepfel, Grégory Rogez. 1512-1523 [doi]

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance PrimitivesRonghui Li, Yuxiang Zhang 0006, Yachao Zhang 0001, Hongwen Zhang 0001, Jie Guo, Yan Zhang 0002, Yebin Liu, Xiu Li 0001. 1524-1534 [doi]

GALA: Generating Animatable Layered Assets from a Single ScanTaeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo. 1535-1545 [doi]

MMM: Generative Masked Motion ModelEkkasit Pinyoanuntapong, Pu Wang 0001, Minwoo Lee 0001, Chen Chen 0001. 1546-1555 [doi]

What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze EstimationYihua Cheng, Yaning Zhu, Zongji Wang, Hongquan Hao, Yongwei Liu, Shiqing Cheng, Xi Wang, Hyung Jin Chang. 1556-1565 [doi]

Towards Variable and Coordinated Holistic Co-Speech Motion GenerationYiFei Liu, Qiong Cao, YanDong Wen, Huaiguang Jiang, Changxing Ding. 1566-1576 [doi]

Text2HOI: Text-Guided 3D Motion Generation for Hand-Object InteractionJunuk Cha, Jihyeon Kim, Jae Shin Yoon, SeungRyul Baek. 1577-1585 [doi]

Garment Recovery with Shape and Deformation PriorsRen Li, Corentin Dumery, Benoît Guillard, Pascal Fua. 1586-1595 [doi]

Tri-Modal Motion Retrieval by Learning a Joint Embedding SpaceKangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian 0002. 1596-1605 [doi]

SplattingAvatar: Realistic Real-Time Human Avatars With Mesh-Embedded Gaussian SplattingZhijing Shao, Zhaolong Wang, Zhuang Li, Duotun Wang, Xiangru Lin, Yu Zhang 0166, Mingming Fan 0001, Zeyu Wang 0003. 1606-1616 [doi]

HardMo: A Large-Scale Hardcase Dataset for Motion CaptureJiaqi Liao, Chuanchen Luo, Yinuo Du, Yuxi Wang, XuCheng Yin, Man Zhang 0005, Zhaoxiang Zhang 0001, Junran Peng. 1629-1638 [doi]

LAFS: Landmark-Based Facial Self-Supervised Learning for Face RecognitionZhonglin Sun, Chen Feng, Ioannis Patras, Georgios Tzimiropoulos. 1639-1649 [doi]

Motion Diversification NetworksHee-Jae Kim, Eshed Ohn-Bar. 1650-1660 [doi]

NRDF: Neural Riemannian Distance Fields for Learning Articulated Pose PriorsYannan He, Garvita Tiwari, Tolga Birdal, Jan Eric Lenssen, Gerard Pons-Moll. 1661-1671 [doi]

3D Face Reconstruction with the Geometric Guidance of Facial Part SegmentationZidu Wang, Xiangyu Zhu 0001, Tianshuo Zhang, Baiqin Wang, Zhen Lei 0001. 1672-1682 [doi]

Unifying Top-Down and Bottom-Up Scanpath Prediction Using TransformersZhibo Yang 0002, Sounak Mondal, Seoyoung Ahn, Ruoyu Xue, Gregory J. Zelinsky, Minh Hoai, Dimitris Samaras. 1683-1693 [doi]

CLIB-FIQA: Face Image Quality Assessment with Confidence CalibrationFu-Zhao Ou, Chongyi Li, Shiqi Wang 0001, Sam Kwong. 1694-1704 [doi]

MoST: Motion Style Transformer Between Diverse Action ContentsBoeun Kim, Jungho Kim, Hyung Jin Chang, Jin Young Choi 0002. 1705-1714 [doi]

TexVocab: Texture Vocabulary-Conditioned Human AvatarsYuxiao Liu, Zhe Li, Yebin Liu, Haoqian Wang. 1715-1725 [doi]

Forecasting of 3D Whole-Body Human Poses with Grasping ObjectsHaitao Yan, Qiongjie Cui, Jiexin Xie, Shijie Guo. 1726-1736 [doi]

Scaling Up Dynamic Human-Scene Interaction ModelingNan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen 0003, Tengyu Liu, Yixin Zhu 0001, Siyuan Huang 0001. 1737-1747 [doi]

Design2Cloth: 3D Cloth Generation from 2D MasksJiali Zheng, Rolandos-Alexandros Potamias, Stefanos Zafeiriou. 1748-1758 [doi]

ReGenNet: Towards Human Action-Reaction SynthesisLiang Xu, Yizhou Zhou, Yichao Yan, Xin Jin 0014, Wenhan Zhu, Fengyun Rao, Xiaokang Yang, Wenjun Zeng. 1759-1769 [doi]

MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable ShadingAbdallah Dib, Luiz Gustavo Hafemann, Emeline Got, Trevor Anderson, Amin Fadaeinejad, Rafael M. O. Cruz, Marc-André Carbonneau. 1770-1780 [doi]

FaceLift: Semi-Supervised 3D Facial Landmark LocalizationDavid Ferman, Pablo Garrido 0001, Gaurav Bharaj. 1781-1791 [doi]

Fast Adaptation for Human Pose Estimation via Meta-OptimizationShengxiang Hu 0001, HuaiJiang Sun, Bin Li 0084, Dong Wei, Weiqing Li, Jianfeng Lu. 1792-1801 [doi]

FlashAvatar: High-Fidelity Head Avatar with Efficient Gaussian EmbeddingJun Xiang, Xuan Gao, Yudong Guo, Juyong Zhang. 1802-1812 [doi]

AAMDM: Accelerated Auto-Regressive Motion Diffusion ModelTianyu Li, Calvin Qiao, Guanqiao Ren, KangKang Yin, Sehoon Ha. 1813-1823 [doi]

SynSP: Synergy of Smoothness and Precision in Pose Sequences RefinementTao Wang 0011, Lei Jin 0003, Zheng Wang 0007, Jianshu Li, Liang Li, Fang Zhao 0006, Yu Cheng 0009, Li Yuan 0007, Li Zhou, Junliang Xing, Jian Zhao 0006. 1824-1833 [doi]

AiOS: All-in-One-Stage Expressive Human Pose and Shape EstimationQingping Sun, Yanjun Wang, Ailing Zeng, Wanqi Yin, Chen Wei, Wenjia Wang, Haiyi Mei, Chi-Sing Leung, Ziwei Liu 0002, Lei Yang 0059, Zhongang Cai. 1834-1843 [doi]

HumanRef: Single Image to 3D Human Generation via Reference-Guided DiffusionJingbo Zhang, Xiaoyu Li, Qi Zhang 0029, Yanpei Cao, Ying Shan, Jing Liao 0001. 1844-1854 [doi]

Generating Human Motion in 3D Scenes from Text DescriptionsZhi Cen, Huaijin Pi, Sida Peng, Zehong Shen, Minghui Yang, Shuai Zhu, Hujun Bao, Xiaowei Zhou. 1855-1866 [doi]

Locally Adaptive Neural 3D Morphable ModelsMichail Tarasiou, Rolandos-Alexandros Potamias, Eimear O' Sullivan, Stylianos Ploumpis, Stefanos Zafeiriou. 1867-1876 [doi]

IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray TracingShaofei Wang, Bozidar Antic, Andreas Geiger 0001, Siyu Tang 0001. 1877-1888 [doi]

Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial SensorsYu Zhang, Songpengcheng Xia, Lei Chu, Jiarui Yang, Qi Wu 0007, Ling Pei. 1889-1899 [doi]

MoMask: Generative Masked Modeling of 3D Human MotionsChuan Guo 0002, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang 0003, Li Cheng 0001. 1900-1910 [doi]

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp SynthesisYufei Ye, Abhinav Gupta 0001, Kris Kitani, Shubham Tulsiani. 1911-1920 [doi]

Dynamic Support Information Mining for Category-Agnostic Pose EstimationPengfei Ren, Yuanyuan Gao, Haifeng Sun 0001, Qi Qi 0001, Jingyu Wang 0001, Jianxin Liao. 1921-1930 [doi]

Gaussian Head Avatar: Ultra High-Fidelity Head Avatar via Dynamic GaussiansYuelang Xu, Bengwang Chen, Zhe Li, Hongwen Zhang 0001, Lizhen Wang 0002, Zerong Zheng, Yebin Liu. 1931-1941 [doi]

Emotional Speech-Driven 3D Body Animation via Disentangled Latent DiffusionKiran Chhatre, Radek Danecek, Nikos Athanasiou, Giorgio Becherini, Christopher E. Peters, Michael J. Black, Timo Bolkart. 1942-1953 [doi]

ProxyCap: Real-Time Monocular Full-Body Capture in World Space via Human-Centric Proxy-to-Motion LearningYuxiang Zhang 0006, Hongwen Zhang 0001, Liangxiao Hu, Jiajun Zhang, Hongwei Yi, Shengping Zhang, Yebin Liu. 1954-1964 [doi]

MAS: Multi-view Ancestral Sampling for 3D Motion Generation Using 2D DiffusionRoy Kapon, Guy Tevet, Daniel Cohen-Or, Amit H. Bermano. 1965-1974 [doi]

Efficient 3D Implicit Head Avatar With Mesh-Anchored Hash Table BlendshapesZiqian Bai, Feitong Tan, Sean Fanello, Rohit Pandey, Mingsong Dou, Shichen Liu, Ping Tan, Yinda Zhang 0001. 1975-1984 [doi]

Neural Sign Actors: A diffusion model for 3D sign language production from textVasileios Baltatzis, Rolandos-Alexandros Potamias, Evangelos Ververas, Guanxiong Sun, Jiankang deng, Stefanos Zafeiriou. 1985-1995 [doi]

RAM-Avatar: Real-time Photo-Realistic Avatar from Monocular Videos with Full-body ControlXiang Deng, Zerong Zheng, Yuxiang Zhang 0006, Jingxiang Sun, Chao Xu, Xiaodong Yang, Lizhen Wang 0002, Yebin Liu. 1996-2007 [doi]

Sharingan: A Transformer Architecture for Multi-Person Gaze FollowingSamy Tafasca, Anshul Gupta, Jean-Marc Odobez. 2008-2017 [doi]

Degrees of Freedom Matter: Inferring Dynamics from Point TrajectoriesYan Zhang 0054, Sergey Prokudin, Marko Mihajlovic, Qianli Ma, Siyu Tang 0001. 2018-2028 [doi]

Authentic Hand Avatar from a Phone Scan via Universal Hand ModelGyeongsik Moon, WeiPeng Xu, Rohan Joshi, Chenglei Wu, Takaaki Shiratori. 2029-2038 [doi]

UniHuman: A Unified Model For Editing Human Images in the WildNannan Li 0004, Qing Liu, Krishna Kumar Singh, Yilin Wang, Jianming Zhang 0001, Bryan A. Plummer, Zhe Lin 0001. 2039-2048 [doi]

BlockGCN: Redefine Topology Awareness for Skeleton-Based Action RecognitionYuxuan Zhou 0004, Xudong Yan, Zhi-Qi Cheng, Yan Yan 0001, Qi Dai, Xian-Sheng Hua 0001. 2049-2058 [doi]

GoMAvatar: Efficient Animatable Human Modeling from Monocular Video Using Gaussians-on-MeshJing Wen, Xiaoming Zhao 0001, Zhongzheng Ren, Alexander G. Schwing, Shenlong Wang. 2059-2069 [doi]

WHAM: Reconstructing World-Grounded Humans with Accurate 3D MotionSoyong Shin, Juyong Kim 0002, Eni Halilaj, Michael J. Black. 2070-2080 [doi]

Self-Supervised Facial Representation Learning with Facial Region AwarenessZheng Gao 0003, Ioannis Patras. 2081-2092 [doi]

ChatPose: Chatting about 3D Human PoseYao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun 0030, Priyanka Patel, Michael J. Black. 2093-2103 [doi]

AUEditNet: Dual-Branch Facial Action Unit Intensity Manipulation with Implicit DisentanglementShiwei Jin, Zhen Wang, Lei Wang, Peng Liu, Ning Bi, Truong Nguyen. 2104-2113 [doi]

Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face GenerationRenshuai Liu, Bowen Ma, Wei Zhang 0219, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding 0001, Xuan Cheng. 2114-2123 [doi]

PoseIRM: Enhance 3D Human Pose Estimation on Unseen Camera Settings via Invariant Risk MinimizationYanlu Cai, Weizhong Zhang, Yuan Wu 0004, Cheng Jin 0001. 2124-2133 [doi]

Rethinking Human Motion Prediction with Symplectic IntegralHaipeng Chen 0002, Kedi Lyu, Zhenguang Liu, Yifang Yin, Xun Yang, Yingda Lyu. 2134-2143 [doi]

Multimodal Sense-Informed Forecasting of 3D Human MotionsZhenyu Lou, Qiongjie Cui, Haofan Wang, Xu Tang, Hong Zhou. 2144-2154 [doi]

Semantics-Aware Motion Retargeting with Vision-Language ModelsHaodong Zhang, Zhike Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen Xu, Zhensong Zhang, Yue Wang 0020, Rong Xiong. 2155-2164 [doi]

Makeup Prior Models for 3D Facial Makeup Estimation and ApplicationsXingchao Yang, Takafumi Taketomi, Yuki Endo, Yoshihiro Kanamori. 2165-2175 [doi]

FaceCom: Towards High-fidelity 3D Facial Shape Completion via Optimization and Inpainting GuidanceYinglong Li, Hongyu Wu, Xiaogang Wang 0001, Qingzhao Qin, Yijiao Zhao, Yong Wang, Aimin Hao. 2177-2186 [doi]

When StyleGAN Meets Stable Diffusion: a $\mathcal{W}_{+}$ Adapter for Personalized Image GenerationXiaoming Li 0002, Xinyu Hou, Chen Change Loy. 2187-2196 [doi]

MANUS: Markerless Grasp Capture Using Articulated 3D GaussiansChandradeep Pokhariya, Ishaan Nikhil Shah, Angela Xing, Zekun Li, Kefan Chen, Avinash Sharma 0001, Srinath Sridhar 0002. 2197-2208 [doi]

Loose Inertial Poser: Motion Capture with IMU-attached Loose-Wear JacketChengxu Zuo, Yiming Wang, Lishuang Zhan, Shihui Guo, Xinyu Yi, Feng Xu, Yipeng Qin. 2209-2219 [doi]

Anatomically Constrained Implicit Face ModelsPrashanth Chandran, Gaspard Zoss. 2220-2229 [doi]

DiffusionRegPose: Enhancing Multi-Person Pose Estimation Using a Diffusion-Based End-to-End Regression ApproachDayi Tan, Hansheng Chen 0001, Wei Tian 0001, Lu Xiong. 2230-2239 [doi]

A Dual-Augmentor Framework for Domain Generalization in 3D Human Pose EstimationQucheng Peng, Ce Zheng, Chen Chen 0015. 2240-2249 [doi]

RELI11D: A Comprehensive Multimodal Human Motion Dataset and MethodMing Yan, Yan Zhang, Shuqiang Cai, Shuqi Fan, Xincheng Lin, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, Cheng Wang 0003. 2250-2262 [doi]

Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion ModelXu He, Qiaochu Huang, Zhensong Zhang, Zhiwei Lin, Zhiyong Wu 0001, Sicheng Yang, Minglei Li 0001, Zhiyi Chen, Songcen Xu, Xiaofei Wu. 2263-2273 [doi]

HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point CloudWencan Cheng, Hao Tang 0005, Luc Van Gool, Jong Hwan Ko. 2274-2284 [doi]

Normalizing Flows on the Product Space of SO(3) Manifolds for Probabilistic Human Pose ModelingOlaf Dünkel, Tim Salzmann, Florian Pfaff. 2285-2294 [doi]

Towards Robust 3D Pose Transfer with Adversarial LearningHaoyu Chen 0001, Hao Tang 0005, Ehsan Adeli 0001, Guoying Zhao 0001. 2295-2304 [doi]

PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics from Monocular VideosYufei Zhang, Jeffrey O. Kephart, Zijun Cui, Qiang Ji. 2305-2317 [doi]

HumMUSS: Human Motion Understanding Using State Space ModelsArnab Kumar Mondal, Stefano Alletto, Denis Tomè. 2318-2330 [doi]

MultiPhys: Multi-Person Physics-Aware 3D Motion EstimationNicolas Ugrinovic, Boxiao Pan, Georgios Pavlakos, Despoina Paschalidou, Bokui Shen, Jordi Sanchez-Riera, Francesc Moreno-Noguer, Leonidas J. Guibas. 2331-2340 [doi]

Physics-Aware Hand-Object Interaction DenoisingHaowen Luo, Yunze Liu, Li Yi. 2341-2350 [doi]

HOIST-Former: Hand-Held Objects Identification, Segmentation, and Tracking in the WildSupreeth Narasimhaswamy, Huy Anh Nguyen, Lihan Huang, Minh Hoai. 2351-2361 [doi]

SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human MeshesSoubhik Sanyal, Partha Ghosh, Jinlong Yang, Michael J. Black, Justus Thies, Timo Bolkart. 2362-2371 [doi]

PFStorer: Personalized Face Restoration and Super-ResolutionTuomas Varanka, Tapani Toivonen, Soumya Tripathy, Guoying Zhao 0001, Erman Acar. 2372-2381 [doi]

MS-MANO: Enabling Hand Pose Tracking with Biomechanical ConstraintsPengfei Xie, Wenqiang Xu, Tutian Tang, Zhenjun Yu, Cewu Lu. 2382-2392 [doi]

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body DynamicsWenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu. 2393-2404 [doi]

MeshPose: Unifying DensePose and 3D Body Mesh reconstructionEric-Tuan Le, Antonis Kakolyris, Petros Koutras, Himmy Tam, Efstratios Skordos, George Papandreou, Riza Alp Güler, Iasonas Kokkinos. 2405-2414 [doi]

CustomListener: Text-Guided Responsive Interaction for User-Friendly Listening Head GenerationXi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan. 2415-2424 [doi]

Generalizable Face Landmarking Guided by Conditional Face WarpingJiayi Liang, Haotian Liu, Hongteng Xu, Dixin Luo. 2425-2435 [doi]

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context LearningXinshun Wang, Zhongbin Fang, Xia Li 0005, Xiangtai Li, Chen Chen 0001, Mengyuan Liu. 2436-2446 [doi]

A Unified and Interpretable Emotion Representation and Expression GenerationReni Paskaleva, Mykyta Holubakha, Andela Ilic, Saman Motamed, Luc Van Gool, Danda Pani Paudel. 2447-2456 [doi]

Artist-Friendly Relightable and Animatable Neural HeadsYingyan Xu, Prashanth Chandran, Sebastian Weiss, Markus Gross 0001, Gaspard Zoss, Derek Bradley. 2457-2467 [doi]

HanDiffuser: Text-to-Image Generation with Realistic Hand AppearancesSupreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta 0002, Saayan Mitra, Minh Hoai. 2468-2479 [doi]

BodyMAP - Jointly Predicting Body Mesh and 3D Applied Pressure Map for People in BedAbhishek Tandon, Anujraaj Goyal, Henry M. Clever, Zackory Erickson. 2480-2489 [doi]

3D Facial Expressions through Analysis-by-Neural-SynthesisGeorge Retsinas, Panagiotis Paraskevas Filntisis, Radek Danecek, Victoria Fernández Abrevaya, Anastasios Roussos, Timo Bolkart, Petros Maragos. 2490-2501 [doi]

SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose EstimationVinkle Srivastav, Keqi Chen, Nicolas Padoy. 2502-2512 [doi]

DiffusionPoser: Real-Time Human Motion Reconstruction From Arbitrary Sparse Sensors Using Autoregressive DiffusionTom Van Wouwe, Seunghwan Lee, Antoine Falisse, Scott L. Delp, C. Karen Liu. 2513-2523 [doi]

Learning Diffusion Texture Priors for Image RestorationTian Ye 0001, Sixiang Chen, Wenhao Chai, Zhaohu Xing, Jing Qin 0001, Ge Lin, Lei Zhu 0003. 2524-2534 [doi]

Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-ResolutionShangchen Zhou, Peiqing Yang, Jianyi Wang, Yihang Luo, Chen Change Loy. 2535-2545 [doi]

Enhancing Video Super-Resolution via Implicit Resampling-based AlignmentKai Xu, Ziwei Yu, Xin Wang, Michael Bi Mi, Angela Yao. 2546-2555 [doi]

Boosting Neural Representations for Videos with a Conditional DecoderXinjie Zhang, Ren Yang, Dailan He, Xingtong Ge, Tongda Xu, Yan Wang, Hongwei Qin, Jun Zhang. 2556-2566 [doi]

Restoration by Generation with Constrained PriorsZheng-ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia. 2567-2577 [doi]

Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAMPingping Zhang, Tianyu Yan, Yang Liu 0346, Huchuan Lu. 2578-2587 [doi]

Estimating Extreme 3D Image Rotations using Cascaded AttentionShay Dekel, Yosi Keller, Martin Cadík. 2588-2598 [doi]

Learned Scanpaths Aid Blind Panoramic Video Quality AssessmentKanglong Fan, Wen Wen, Mu Li 0005, Yifan Peng, Kede Ma. 2599-2608 [doi]

Automatic Controllable Colorization via ImaginationXiaoyan Cong, Yue Wu 0012, Qifeng Chen, Chenyang Lei. 2609-2619 [doi]

Reconstruction-free Cascaded Adaptive Compressive SensingChenxi Qiu, Tao Yue 0003, Xuemei Hu. 2620-2630 [doi]

A Semi-Supervised Nighttime Dehazing Baseline with Spatial-Frequency Aware and Realistic Brightness ConstraintXiaofeng Cong, Jie Gui, Jing Zhang, Junming Hou, Hao Shen. 2631-2640 [doi]

AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-ResolutionCheeun Hong, Kyoung Mu Lee. 2641-2650 [doi]

Beyond Image Super-Resolution for Image Recognition with Task-Driven Perceptual LossJaeha Kim, Junghun Oh, Kyoung Mu Lee. 2651-2661 [doi]

Boosting Image Quality Assessment Through Efficient Transformer Adaptation with Local Feature EnhancementKangmin Xu, Liang Liao, Jing Xiao 0004, Chaofeng Chen, Haoning Wu 0001, Qiong Yan, Weisi Lin. 2662-2672 [doi]

XFeat: Accelerated Features for Lightweight Image MatchingGuilherme A. Potje, Felipe Cadar, André Araújo 0001, Renato Martins, Erickson R. Nascimento. 2682-2691 [doi]

RecDiffusion: Rectangling for Image Stitching with Diffusion ModelsTianhao Zhou, HaiPeng Li, Ziyi Wang, Ao Luo, Chen-Lin Zhang, Jiajun Li, Bing Zeng, Shuaicheng Liu. 2692-2701 [doi]

Unsupervised Salient Instance DetectionXin Tian, Ke Xu 0010, Rynson W. H. Lau. 2702-2712 [doi]

FINER: Flexible Spectral-Bias Tuning in Implicit NEural Representation by Variableperiodic Activation FunctionsZhen Liu, Hao Zhu 0005, Qi Zhang 0029, Jingde Fu, Weibing Deng, Zhan Ma, Yanwen Guo 0001, Xun Cao. 2713-2722 [doi]

Robust Image Denoising Through Adversarial Frequency MixupDonghun Ryou, Inju Ha, Hyewon Yoo, Dongwan Kim, Bohyung Han. 2723-2732 [doi]

Efficient Multi-Scale Network with Learnable Discrete Wavelet Transform for Blind Motion DeblurringXin Gao, Tianheng Qiu, Xinyu Zhang 0001, Hanlin Bai, Kang Liu, Xuan Huang, Hu Wei, Guoying Zhang, Huaping Liu 0001. 2733-2742 [doi]

Efficient Scene Recovery Using Luminous Flux PriorZhongyu Li, Lei Zhang. 2743-2752 [doi]

Perception-Oriented Video Frame Interpolation via Asymmetric BlendingGuangyang Wu, Xin Tao 0001, Changlin Li, Wenyi Wang 0005, Xiaohong Liu 0001, Qingqing Zheng. 2753-2762 [doi]

Modular Blind Video Quality AssessmentWen Wen, Mu Li 0005, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang, Kede Ma. 2763-2772 [doi]

Residual Denoising Diffusion ModelsJiawei Liu 0003, Qiang Wang 0015, Huijie Fan, Yinong Wang, Yandong Tang, Liangqiong Qu. 2773-2783 [doi]

JDEC: JPEG Decoding via Enhanced Continuous Cosine CoefficientsWoo Kyoung Han, Sunghoon Im, Jaedeok Kim, Kyong Hwan Jin. 2784-2793 [doi]

On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth EstimationAgneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang. 2794-2803 [doi]

Blur2Blur: Blur Conversion for Unsupervised Image Deblurring on Unknown DomainsBang-Dang Pham, Phong Tran, Anh Tuan Tran 0001, Cuong Pham 0001, Rang Nguyen, Minh Hoai. 2804-2813 [doi]

Exploring Efficient Asymmetric Blind-Spots for Self-Supervised Denoising in Real-World ScenariosShiyan Chen, Jiyuan Zhang, Zhaofei Yu, Tiejun Huang 0001. 2814-2823 [doi]

Deep Equilibrium Diffusion Restoration with Parallel SamplingJiezhang Cao, Yue Shi, Kai Zhang 0008, Yulun Zhang, Radu Timofte, Luc Van Gool. 2824-2834 [doi]

PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the WildKun Yuan, Hongbo Liu, Mading Li, Muyi Sun, Ming Sun, Jiachao Gong, Jinhua Hao, Chao Zhou, Yansong Tang. 2835-2845 [doi]

Depth Information Assisted Collaborative Mutual Promotion Network for Single Image DehazingYafei Zhang, Shen Zhou, Huafeng Li. 2846-2855 [doi]

Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token DictionaryLeheng Zhang, Yawei Li 0001, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu. 2856-2865 [doi]

Improving Image Restoration Through Removing Degradations in Textual RepresentationsJingbo Lin, Zhilu Zhang, Yuxiang Wei 0001, Dongwei Ren, Dongsheng Jiang, Qi Tian 0001, Wangmeng Zuo. 2866-2878 [doi]

Towards Real-World HDR Video Reconstruction: A Large-Scale Benchmark Dataset and A Two-Stage Alignment NetworkYong Shu, Liquan Shen, Xiangyu Hu 0003, Mengyao Li, Zihao Zhou. 2879-2888 [doi]

Spatio-Temporal Turbulence Mitigation: A Translational PerspectiveXingguang Zhang, Nicholas Chimitt, Yiheng Chi, Zhiyuan Mao, Stanley H. Chan. 2889-2899 [doi]

Boosting Image Restoration via Priors from Pre-Trained ModelsXiaogang Xu, Shu Kong, Tao Hu, Zhe Liu, Hujun Bao. 2900-2909 [doi]

Misalignment-Robust Frequency Distribution Loss for Image TransformationZhangkai Ni, Juncheng Wu, Zian Wang, Wenhan Yang, Hanli Wang, Lin Ma 0002. 2910-2919 [doi]

CoDe: An Explicit Content Decoupling Framework for Image RestorationEnxuan Gu, Hongwei Ge, Yong Guo. 2920-2930 [doi]

DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided TransformerWei-Ting Chen, Gurunandan Krishnan, Qiang Gao, Sy-Yen Kuo, Sizhuo Ma, Jian Wang 0111. 2931-2941 [doi]

CLIPtone: Unsupervised Learning for Text-Based Image Tone AdjustmentHyeongmin Lee, Kyoungkook Kang, Jungseul Ok, Sunghyun Cho. 2942-2951 [doi]

Adapt or Perish: Adaptive Sparse Transformer with Attentive Feature Refinement for Image RestorationShihao Zhou, Duosheng Chen, Jinshan Pan, Jinglei Shi, Jufeng Yang. 2952-2963 [doi]

CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality EnhancementQiang Zhu, Jinhua Hao, Yukang Ding, Yu Liu, Qiao Mo, Ming Sun, Chao Zhou, Shuyuan Zhu. 2964-2974 [doi]

Learning to Control Camera Exposure via Reinforcement LearningKyunghyun Lee 0004, Ukcheol Shin, Byeong-uk Lee. 2975-2983 [doi]

Real-Time Exposure Correction via Collaborative Transformations and Adaptive SamplingZiwen Li, Feng Zhang, Meng Cao, Jinpu Zhang, Yuanjie Shao, Yuehuan Wang, Nong Sang. 2984-2994 [doi]

Towards Progressive Multi-Frequency Representation for Image WarpingJun Xiao 0010, Zihang Lyu, Cong Zhang, Yakun Ju, Changjian Shui, Kin-Man Lam 0001. 2995-3004 [doi]

HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion ModelsLi Pang, Xiangyu Rui, Long Cui, Hongzhong Wang, Deyu Meng, Xiangyong Cao. 3005-3014 [doi]

ZERO-IG: Zero-Shot Illumination-Guided Joint Denoising and Adaptive Enhancement for Low-Light ImagesYiqi Shi, Duo Liu, Liguo Zhang, Ye Tian 0027, Xuezhi Xia, Xiaojing Fu. 3015-3024 [doi]

Masked and Shuffled Blind Spot Denoising for Real-World ImagesHamadi Chihaoui, Paolo Favaro. 3025-3034 [doi]

Continuous Optical Zooming: A Benchmark for Arbitrary-Scale Image Super-Resolution in Real WorldHuiyuan Fu, Fei Peng, Xianwei Li, Yejun Li, Xin Wang, Huadong Ma. 3035-3044 [doi]

Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated SynthesisAtefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Nasser M. Nasrabadi. 3045-3054 [doi]

SD2Event: Self-Supervised Learning of Dynamic Detectors and Contextual Descriptors for Event CamerasYuan Gao, Yuqing Zhu, Xinjun Li, Yimin Du, Tianzhu Zhang. 3055-3064 [doi]

LLaFS: When Large Language Models Meet Few-Shot SegmentationLanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu 0003. 3065-3075 [doi]

Telling Left from Right: Identifying Geometry-Aware Semantic CorrespondenceJunyi Zhang 0004, Charles Herrmann, Junhwa Hur, Eric Chen, Varun Jampani, Deqing Sun, Ming-Hsuan Yang 0001. 3076-3085 [doi]

One-Shot Open Affordance Learning with Foundation ModelsGen Li 0008, Deqing Sun, Laura Sevilla-Lara, Varun Jampani. 3086-3096 [doi]

CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic SegmentationBoyuan Sun, Yuqi Yang, Le Zhang 0001, Ming-Ming Cheng, Qibin Hou. 3097-3107 [doi]

Collaborating Foundation Models for Domain Generalized Semantic SegmentationYasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, Stéphane Lathuilière. 3108-3119 [doi]

FocSAM: Delving Deeply into Focused Objects in Segmenting AnythingYou Huang, Zongyu Lan, Liujuan Cao, Xianming Lin, Shengchuan Zhang, Guannan Jiang, Rongrong Ji. 3120-3130 [doi]

Finsler-Laplace-Beltrami Operators with Application to Shape AnalysisSimon Weber 0002, Thomas Dagès, Maolin Gao, Daniel Cremers. 3131-3140 [doi]

Neural Implicit Representation for Building Digital Twins of Unknown Articulated ObjectsYijia Weng, Bowen Wen, Jonathan Tremblay, Valts Blukis, Dieter Fox, Leonidas J. Guibas, Stan Birchfield. 3141-3150 [doi]

Putting the Object Back into Video Object SegmentationHo Kei Cheng, Seoung Wug Oh, Brian L. Price, Joon-Young Lee, Alexander G. Schwing. 3151-3161 [doi]

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything ModelYiran Song, Qianyu Zhou 0001, Xiangtai Li, Deng-Ping Fan, Xuequan Lu, Lizhuang Ma. 3162-3173 [doi]

Task-Aligned Part-Aware Panoptic Segmentation Through Joint Object-Part RepresentationsDaan de Geus, Gijs Dubbelman. 3174-3183 [doi]

Open-World Semantic Segmentation Including Class SimilarityMatteo Sodano, Federico Magistri, Lucas Nunes, Jens Behley, Cyrill Stachniss. 3184-3194 [doi]

Hierarchical Histogram Threshold Segmentation - Auto-terminating High-detail OversegmentationThomas V. Chang, Simon Seibt, Bartosz von Rymon-Lipinski. 3195-3204 [doi]

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement LearningDuojun Huang, Xinyu Xiong, Jie Ma, Jichang Li, Zequn Jie, Lin Ma 0002, Guanbin Li. 3205-3215 [doi]

SANeRF-HQ: Segment Anything for NeRF in High QualityYichen Liu, Benran Hu 0001, Chi-Keung Tang, Yu-Wing Tai. 3216-3226 [doi]

UniVS: Unified and Universal Video Segmentation with Prompts as QueriesMinghan Li, Shuai Li, Xindong Zhang, Lei Zhang. 3227-3238 [doi]

RankED: Addressing Imbalance and Uncertainty in Edge Detection Using Ranking-based LossesBedrettin Cetinkaya, Sinan Kalkan, Emre Akbas. 3239-3249 [doi]

Event-Assisted Low-Light Video Object SegmentationHebei Li, Jin Wang, Jiahui Yuan, Yue Li, Wenming Weng, Yansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun 0001. 3250-3259 [doi]

Density-Guided Semi-Supervised 3D Semantic Segmentation with Dual-Space Hardness SamplingJianan Li, Qiulei Dong. 3260-3269 [doi]

Exploring Regional Clues in CLIP for Zero-Shot Semantic SegmentationYi Zhang, Meng-Hao Guo, Miao Wang 0004, Shi-Min Hu 0001. 3270-3280 [doi]

Category-Level Multi-Part Multi-Joint 3D Shape AssemblyYichen Li 0004, Kaichun Mo, Yueqi Duan, He Wang 0010, Jiequan Zhang, Lin Shao 0002, Wojciech Matusik, Leonidas J. Guibas. 3281-3291 [doi]

SAI3D: Segment any Instance in 3D ScenesYingda Yin, Yuzheng Liu, Yang Xiao, Daniel Cohen-Or, Jingwei Huang 0001, Baoquan Chen. 3292-3302 [doi]

Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic SegmentationXiaoyang Wang, Huihui Bai 0001, Limin Yu, Yao Zhao 0001, Jimin Xiao. 3303-3312 [doi]

Hybrid Functional Maps for Crease-Aware Non-Isometric Shape MatchingLennart Bastian, Yizheng Xie, Nassir Navab, Zorah Lähner. 3313-3323 [doi]

Hunting Attributes: Context Prototype-Aware Learning for Weakly Supervised Semantic SegmentationFeilong Tang, Zhongxing Xu, Zhaojun Qu, Wei Feng, Xingjian Jiang, ZongYuan Ge. 3324-3334 [doi]

Self-Calibrating Vicinal Risk Minimisation for Model CalibrationJiawei Liu, Changkun Ye, Ruikai Cui, Nick Barnes. 3335-3345 [doi]

ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt TuningBeomyoung Kim, Joonsang Yu, Sung Ju Hwang. 3346-3356 [doi]

Clustering Propagation for Universal Medical Image SegmentationYuhang Ding, Liulei Li, Wenguan Wang, Yi Yang 0001. 3357-3369 [doi]

Addressing Background Context Bias in Few-Shot Segmentation Through Iterative ModulationLanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, Jun Liu. 3370-3379 [doi]

Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence MiningJiahao Nie 0002, Yun Xing 0001, Gongjie Zhang, Pei Yan, Aoran Xiao, Yap-Peng Tan, Alex C. Kot, Shijian Lu. 3380-3390 [doi]

RankMatch: Exploring the Better Consistency Regularization for Semi-Supervised Semantic SegmentationHuayu Mai, Rui Sun, Tianzhu Zhang, Feng Wu. 3391-3401 [doi]

QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic DecompositionXiang Li 0106, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu 0001, Bhiksha Raj. 3402-3413 [doi]

Frequency-Adaptive Dilated Convolution for Semantic SegmentationLinwei Chen, Lin Gu, Dezhi Zheng, Ying Fu. 3414-3425 [doi]

SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic SegmentationBin Xie, Jiale Cao, Jin Xie 0005, Fahad Shahbaz Khan, Yanwei Pang. 3426-3436 [doi]

PSDPM: Prototype-based Secondary Discriminative Pixels Mining for Weakly Supervised Semantic SegmentationXinqiao Zhao, Ziqian Yang, Tianhong Dai, Bingfeng Zhang, Jimin Xiao. 3437-3446 [doi]

Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud MatchingMatteo Bastico, Etienne Decencière, Laurent Corté, Yannick Tillier, David Ryckelynck. 3447-3458 [doi]

Universal Segmentation at Arbitrary Granularity with Language InstructionYong Liu, Cairong Zhang, Yitong Wang, Jiahao Wang, Yujiu Yang, Yansong Tang. 3459-3469 [doi]

PartDistill: 3D Shape Part Segmentation by Vision-Language Model DistillationArdian Umam, Cheng-Kun Yang, Min-Hung Chen, Jen-Hui Chuang, Yen-Yu Lin. 3470-3479 [doi]

HIT: Estimating Internal Human Implicit Tissues from the Body SurfaceMarilyn Keller, Vaibhav Arora, Abdelmouttaleb Dakri, Shivam Chandhok, Jürgen Machann, Andreas Fritsche, Michael J. Black, Sergi Pujades. 3480-3490 [doi]

Open-Vocabulary Segmentation with Semantic-Assisted CalibrationYong Liu, Sule Bai, Guanbin Li, Yitong Wang, Yansong Tang. 3491-3500 [doi]

GraCo: Granularity-Controllable Interactive SegmentationYian Zhao, Kehan Li 0002, Zesen Cheng, Pengchong Qiao, Xiawu Zheng, Rongrong Ji, Chang Liu 0030, Li Yuan 0007, Jie Chen 0001. 3501-3510 [doi]

Unleashing the Potential of SAM for Medical Adaptation via Hierarchical DecodingZhiheng Cheng, QingYue Wei, Hongru Zhu, Yan Wang 0033, Liangqiong Qu, Wei Shao 0008, Yuyin Zhou. 3511-3522 [doi]

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic SegmentationChanyoung Kim 0001, Woojung Han, Dayun Ju, Seong Jae Hwang. 3523-3533 [doi]

DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic SegmentationYuanchen Wu, Xichen Ye, Kequan Yang, Jide Li, Xiaoqiang Li. 3534-3543 [doi]

Vanishing-Point-Guided Video Semantic Segmentation of Driving ScenesDiandian Guo, Deng-Ping Fan, Tongyu Lu, Christos Sakaridis, Luc Van Gool. 3544-3553 [doi]

Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable DiffusionJunjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar González-Franco. 3554-3563 [doi]

ODIN: A Single Model for 2D and 3D SegmentationAyush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki. 3564-3574 [doi]

Infer from What You Have Seen Before: Temporally-dependent Classifier for Semi-supervised Video SegmentationJiafan Zhuang, Zilei Wang, Yixin Zhang, Zhun Fan. 3575-3584 [doi]

Semantic-aware SAM for Point-Prompted Instance SegmentationZhaoyang Wei, Pengfei Chen 0004, Xuehui Yu, Guorong Li, Jianbin Jiao, Zhenjun Han. 3585-3594 [doi]

Class Tokens Infusion for Weakly Supervised Semantic SegmentationSung Hoon Yoon, Hoyong Kwon, Hyeonseong Kim, Kuk-Jin Yoon. 3595-3605 [doi]

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic SegmentationZhiwei Yang, Kexue Fu, Minghong Duan, Linhao Qu, Shuo Wang, Zhijian Song. 3606-3615 [doi]

Blur-Aware Spatio-Temporal Sparse Transformer for Video DeblurringHuicong Zhang, Haozhe Xie, Hongxun Yao. 3616-3626 [doi]

Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive LearningWoo-Jin Ahn, Geun-Yeong Yang, Hyun Duck Choi, Myo-Taeg Lim. 3616-3626 [doi]

AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic SegmentationHaonan Wang, Qixiang Zhang, Yi Li, Xiaomeng Li. 3627-3636 [doi]

Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and SamplingLeon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski. 3637-3646 [doi]

PoNQ: A Neural QEM-Based Mesh RepresentationNissim Maruani, Maks Ovsjanikov, Pierre Alliez, Mathieu Desbrun. 3647-3657 [doi]

Spectral Meets Spatial: Harmonising 3D Shape Matching and InterpolationDongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard. 3658-3668 [doi]

Cosalpure: Learning Concept from Group Images for Robust Co-Saliency DetectionJiayi Zhu 0002, Qing Guo 0005, Felix Juefei-Xu, Yihao Huang 0001, Yang Liu 0003, Geguang Pu. 3669-3678 [doi]

ContextSeg: Sketch Semantic Segmentation by Querying the Context with AttentionJiawei Wang, Changjian Li. 3679-3688 [doi]

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype GenerationLuca Barsellotti, Roberto Amoroso, Marcella Cornia, Lorenzo Baraldi 0001, Rita Cucchiara. 3689-3698 [doi]

ASAM: Boosting Segment Anything Model with Adversarial TuningBo Li 0115, Haoke Xiao, Lv Tang. 3699-3710 [doi]

In-Context MattingHe Guo 0005, Zixuan Ye, Zhiguo Cao 0001, Hao Lu 0003. 3711-3720 [doi]

Weakly Supervised Point Cloud Semantic Segmentation via Artificial OracleHyeokjun Kweon, Jihun Kim, Kuk-Jin Yoon. 3721-3731 [doi]

Contextrast: Contextual Contrastive Learning for Semantic SegmentationChangki Sung, Wanhee Kim, Jungho An, Wooju Lee, Hyungtae Lim, Hyun Myung. 3732-3742 [doi]

Parameter Efficient Fine-Tuning via Cross Block Orchestration for Segment Anything ModelZelin Peng, Zhengqin Xu, Zhilin Zeng, Lingxi Xie, Qi Tian 0001, Wei Shen 0002. 3743-3752 [doi]

CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD ProgramsHaocheng Yuan, Jing Xu, Hao Pan 0001, Adrien Bousseau, Niloy J. Mitra, Changjian Li 0001. 3753-3762 [doi]

Point2CAD: Reverse Engineering CAD Models from 3D Point CloudsYujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler. 3763-3772 [doi]

Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse PromptsQin Liu 0008, Jaemin Cho 0001, Mohit Bansal, Marc Niethammer. 3773-3782 [doi]

General Object Foundation Model for Images and Videos at ScaleJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai. 3783-3795 [doi]

Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic SegmentationBingfeng Zhang, Siyue Yu, Yunchao Wei, Yao Zhao 0001, Jimin Xiao. 3796-3806 [doi]

Guided Slot Attention for Unsupervised Video Object SegmentationMinhyeok Lee, Suhwan Cho, Dogyoon Lee, Chaewon Park, Jungho Lee, Sangyoun Lee. 3807-3816 [doi]

Unlocking the Potential of Pre-Trained Vision Transformers for Few-Shot Semantic Segmentation through Relationship DescriptorsZiqin Zhou, Hai-ming Xu, Yangyang Shu, Lingqiao Liu. 3817-3827 [doi]

Grounding Everything: Emerging Localization Properties in Vision-Language TransformersWalid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne. 3828-3837 [doi]

No Time to Train: Empowering Non-Parametric Networks for Few-Shot 3D Scene SegmentationXiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Han Xiao, Chaoyou Fu, Hao Dong 0003, Peng Gao 0007. 3838-3847 [doi]

Continual Segmentation with Disentangled Objectness Learning and Class RecognitionYizheng Gong, Siyue Yu, Xiaoyang Wang, Jimin Xiao. 3848-3857 [doi]

GSVA: Generalized Segmentation via Multimodal Large Language ModelsZhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang. 3858-3869 [doi]

MaGGIe: Masked Guided Gradual Human Instance MattingChuong Huynh, Seoung Wug Oh, Abhinav Shrivastava, Joon-Young Lee. 3870-3879 [doi]

EFormer: Enhanced Transformer Towards Semantic-Contour Features of Foreground for Portraits MattingZitao Wang, Qiguang Miao, Yue Xi, Peipei Zhao. 3880-3889 [doi]

Segment Any Event Streams via Weighted Adaptation of Pivotal TokensZhiwen Chen 0002, Zhiyu Zhu, Yifan Zhang, Junhui Hou, Guangming Shi, Jinjian Wu. 3890-3900 [doi]

Polar Matte: Fully Computational Ground-Truth-Quality Alpha Matte Extraction for Images and Video using Polarized Screen MattingKenji Enomoto, TJ Rhodes, Brian Price, Gavin Miller. 3901-3909 [doi]

Segment Every Out-of-Distribution ObjectWenJie Zhao, Jia Li, Xin Dong, Yu Xiang 0001, Yunhui Guo. 3910-3920 [doi]

Multi-View Aggregation Network for Dichotomous Image SegmentationQian Yu, Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu. 3921-3930 [doi]

pix2gestalt: Amodal Segmentation by Synthesizing WholesEge Ozguroglu, Ruoshi Liu, Dídac Surís, Dian Chen 0005, Achal Dave, Pavel Tokmakov, Carl Vondrick. 3931-3940 [doi]

Rethinking Prior Information Generation with CLIP for Few-Shot SegmentationJin Wang, Bingfeng Zhang, Jian Pang, Honglong Chen, Weifeng Liu 0001. 3941-3951 [doi]

Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic SegmentationYuan Wang, Rui Sun, Naisong Luo, Yuwen Pan, Tianzhu Zhang. 3952-3963 [doi]

Domain Separation Graph Neural Networks for Saliency Object RankingZijian Wu, Jun Lu, Jing Han 0009, Lianfa Bai, Yi Zhang 0036, Zhuang Zhao, Siyang Song. 3964-3974 [doi]

DIOD: Self-Distillation Meets Object DiscoverySandra Kara, Hejer Ammar, Julien Denize, Florian Chabot, Quoc-Cuong Pham. 3975-3985 [doi]

DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative DataChengxiang Fan, Muzhi Zhu, Hao Chen 0041, Yang Liu, Weijia Wu, Huaqi Zhang, Chunhua Shen. 3986-3995 [doi]

Rethinking Few-shot 3D Point Cloud Semantic SegmentationZhaochong An, Guolei Sun, Yun Liu 0011, Fayao Liu, Zongwei Wu, Dan Wang, Luc Van Gool, Serge J. Belongie. 3996-4006 [doi]

Training Vision Transformers for Semi-Supervised Semantic SegmentationXinting Hu, Li Jiang 0009, Bernt Schiele. 4007-4017 [doi]

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask GuidancePhuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tuan Tran 0001, Cuong Pham 0001, Khoi Nguyen 0001. 4018-4028 [doi]

Emergent Open-Vocabulary Semantic Segmentation from Off-the-Shelf Vision-Language ModelsJiayun Luo, Siddhesh Khandelwal, Leonid Sigal, Boyang Li 0001. 4029-4040 [doi]

Memory-Scalable and Simplified Functional Map LearningRobin Magnet, Maks Ovsjanikov. 4041-4050 [doi]

MFP: Making Full Use of Probability Maps for Interactive Image SegmentationChaewon Lee, Seon-Ho Lee, Chang-Su Kim 0001. 4051-4059 [doi]

Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical RepresentationSangyun Shin, Kaichen Zhou, Madhu Vankadari, Andrew Markham, Niki Trigoni. 4060-4069 [doi]

Adaptive Bidirectional Displacement for Semi-Supervised Medical Image SegmentationHanyang Chi, Jian Pang, Bingfeng Zhang, Weifeng Liu. 4070-4080 [doi]

RobustSAM: Segment Anything Robustly on Degraded ImagesWei-Ting Chen, Yu-Jiet Vong, Sy-Yen Kuo, Sizhuo Ma, Jian Wang 0111. 4081-4091 [doi]

LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented DiffusionPancheng Zhao, Peng Xu 0005, Pengda Qin, Deng-Ping Fan, Zhicheng Zhang, Guoli Jia, Bowen Zhou, Jufeng Yang. 4092-4101 [doi]

Learn to Rectify the Bias of CLIP for Unsupervised Semantic SegmentationJingyun Wang, Guoliang Kang. 4102-4112 [doi]

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic SegmentationSeokju Cho, Heeseong Shin, Sunghwan Hong, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim. 4113-4123 [doi]

Prompt-Driven Referring Image Segmentation with Instance ContrastingChao Shang, Zichen Song, Heqian Qiu, Lanxiao Wang, Fanman Meng, Hongliang Li 0001. 4124-4134 [doi]

Kandinsky Conformal Prediction: Efficient Calibration of Image Segmentation AlgorithmsJoren Brunekreef, Eric Marcus, Ray Sheombarsing, Jan-Jakob Sonke, Jonas Teuwen. 4135-4143 [doi]

OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual RepresentationXiongwei Wu, Sicheng Yu, Ee-Peng Lim, Chong-Wah Ngo. 4144-4153 [doi]

Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D FeaturesThomas Wimmer 0001, Peter Wonka, Maks Ovsjanikov. 4154-4164 [doi]

Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural RepresentationsXiao Zhang, David Yunis, Michael Maire. 4165-4175 [doi]

Open Vocabulary Semantic Scene Sketch UnderstandingAhmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya. 4176-4186 [doi]

USE: Universal Segment Embeddings for Open-Vocabulary Image SegmentationXiaoqi Wang, Wenbin He, Xiwei Xuan, Clint Sebastian, Jorge Piazentin Ono, Xin Li, Sima Behpour, Thang Doan, Liang Gou, Han-Wei Shen, Liu Ren. 4187-4196 [doi]

Diff-Plugin: Revitalizing Details for Diffusion-Based Low-Level TasksYuhao Liu 0001, Zhanghan Ke, Fang Liu 0033, Nanxuan Zhao, Rynson W. H. Lau. 4197-4208 [doi]

XCube: Large-Scale 3D Generative Modeling using Sparse Voxel HierarchiesXuanchi Ren, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler, Francis Williams. 4209-4219 [doi]

SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic ScenesYi-Hua Huang, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi 0001. 4220-4230 [doi]

StyLitGAN: Image-Based Relighting via Latent ControlAnand Bhattad, James Soole, David A. Forsyth. 4231-4240 [doi]

Image Sculpting: Precise Object Editing with 3D Geometry ControlJiraphon Yenphraphai, Xichen Pan, Sainan Liu, Daniele Panozzo, Saining Xie. 4241-4251 [doi]

Paint3D: Paint Anything 3D With Lighting-Less Texture Diffusion ModelsXianfang Zeng, Xin Chen 0059, Zhongqi Qi, Wen Liu 0003, Zibo Zhao, Zhibin Wang, Bin Fu, Yong Liu, Gang Yu. 4252-4262 [doi]

Holo-Relighting: Controllable Volumetric Portrait Relighting from a Single ImageYiqun Mei, Yu Zeng 0001, He Zhang 0004, Zhixin Shu, Xuaner Zhang, Sai Bi, Jianming Zhang 0001, Hyunjoon Jung, Vishal M. Patel. 4263-4273 [doi]

Neural Fields as Distributions: Signal Processing Beyond Euclidean SpaceDaniel Rebain, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi. 4274-4283 [doi]

TexOct: Generating Textures of 3D Models with Octree-based DiffusionJialun Liu, Chenming Wu, Xinqi Liu, Xing Liu, Jinbo Wu, Haotian Peng, Chen Zhao 0011, Haocheng Feng, Jingtuo Liu, Errui Ding. 4284-4293 [doi]

Differentiable Micro-Mesh ConstructionYishun Dou, Zhong Zheng, Qiaoqiao Jin, Rui Shi, Yuhan Li, Bingbing Ni. 4294-4303 [doi]

TextureDreamer: Image-Guided Texture Synthesis through Geometry-Aware DiffusionYu-Ying Yeh, Jia-Bin Huang 0001, Changil Kim 0001, Lei Xiao, Thu Nguyen-Phuoc, Numair Khan, Cheng Zhang, Manmohan Chandraker, Carl S. Marshall, Zhao Dong 0001, Zhengqin Li. 4304-4314 [doi]

As-Plausible-As-Possible: Plausibility-Aware Mesh Deformation Using 2D Diffusion PriorsSeungwoo Yoo, Kunho Kim, Vladimir G. Kim, Minhyuk Sung. 4315-4324 [doi]

Breathing Life Into Sketches Using Text-to-Video PriorsRinon Gal, Yael Vinker, Yuval Alaluf, Amit Bermano, Daniel Cohen-Or, Ariel Shamir, Gal Chechik. 4325-4336 [doi]

Real-Time Neural BRDF with Spherically Distributed PrimitivesYishun Dou, Zhong Zheng, Qiaoqiao Jin, Bingbing Ni, Yugang Chen, Junxiang Ke. 4337-4346 [doi]

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based RenderingKim Youwang, Tae Hyun Oh, Gerard Pons-Moll. 4347-4356 [doi]

Neural Super-Resolution for Real-Time Rendering with Radiance DemodulationJia Li, Ziling Chen, Xiaolong Wu, Lu Wang 0007, Beibei Wang 0002, Lei Zhang 0006. 4357-4367 [doi]

DiffAvatar: Simulation-Ready Garment Optimization with Differentiable SimulationYifei Li 0002, Hsiao-yu Chen, Egor Larionov, Nikolaos Sarafianos, Wojciech Matusik, Tuur Stuyck. 4368-4378 [doi]

Material Palette: Extraction of Materials from a Single ImageIvan Lopes, Fabio Pizzati, Raoul de Charette. 4379-4388 [doi]

PhysGaussian: Physics-Integrated 3D Gaussians for Generative DynamicsTianyi Xie, Zeshun Zong, Yuxing Qiu, Xuan Li, Yutao Feng, Yin Yang 0002, Chenfanfu Jiang. 4389-4398 [doi]

Differentiable Point-Based Inverse RenderingHoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek. 4399-4408 [doi]

Towards a Perceptual Evaluation Framework for Lighting EstimationJustine Giroux, Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Javier Vazquez-Corral, Jean-François Lalonde. 4410-4419 [doi]

Vector Graphics Generation via Mutually Impulsed Dual-Domain DiffusionZhongyin Zhao, Ye Chen, Zhangli Hu, Xuanhong Chen, Bingbing Ni. 4420-4428 [doi]

MatFuse: Controllable Material Generation with Diffusion ModelsGiuseppe Vecchio, Renato Sortino, Simone Palazzo, Concetto Spampinato. 4429-4438 [doi]

TexTile: A Differentiable Metric for Texture TileabilityCarlos Rodríguez-Pardo, Dan Casas, Elena Garces 0001, Jorge Lopez-Moreno. 4439-4449 [doi]

PIE-NeRF: Physics-Based Interactive Elastodynamics with NeRFYutao Feng, Yintong Shang, Xuan Li, Tianjia Shao, Chenfanfu Jiang, Yin Yang 0002. 4450-4461 [doi]

HashPoint: Accelerated Point Searching and Sampling for Neural RenderingJiahao Ma, Miaomiao Liu 0001, David Ahmedt-Aristizabal, Chuong Nguyen. 4462-4472 [doi]

3D Paintbrush: Local Stylization of 3D Shapes with Cascaded Score DistillationDale Decatur, Itai Lang, Kfir Aberman, Rana Hanocka. 4473-4483 [doi]

DUDF: Differentiable Unsigned Distance Fields with Hyperbolic ScalingMiguel Fainstein, Viviana Siless, Emmanuel Iarussi. 4484-4493 [doi]

Diffusion 3D Features (Diff3F) Decorating Untextured Shapes with Distilled Semantic FeaturesNiladri Shekhar Dutt, Sanjeev Muralikrishnan, Niloy J. Mitra. 4494-4504 [doi]

LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One ExampleSoyeon Yoon, Kwan Yun, Kwanggyoon Seo, Sihun Cha, Jung Eun Yoo, Junyong Noh. 4505-4514 [doi]

Dr.Bokeh: DiffeRentiable Occlusion-Aware Bokeh RenderingYichen Sheng, Zixun Yu, Lu Ling, Zhiwen Cao, Xuaner Zhang, Xin Lu 0006, Ke Xian, Haiting Lin, Bedrich Benes. 4515-4525 [doi]

DiffInDScene: Diffusion-Based High-Quality 3D Indoor Scene GenerationXiaoliang Ju, Zhaoyang Huang, Yijiin Li, Guofeng Zhang 0001, Yu Qiao 0001, Hongsheng Li 0001. 4526-4535 [doi]

LightOctree: Lightweight 3D Spatially-Coherent Indoor Lighting EstimationXuecan Wang, Shibang Xiao, Xiaohui Liang. 4536-4545 [doi]

SVGDreamer: Text Guided SVG Generation with Diffusion ModelXiMing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu. 4546-4555 [doi]

Control4D: Efficient 4D Portrait Editing With TextRuizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang 0001, Yebin Liu. 4556-4567 [doi]

HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human GenerationXin Huang, Ruizhi Shao, Qi Zhang 0029, Hongwen Zhang 0001, Ying Feng, Yebin Liu, Qing Wang 0006. 4568-4577 [doi]

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single VideoHongchi Xia, Zhi-hao Lin, Wei-Chiu Ma, Shenlong Wang. 4578-4588 [doi]

NIVeL: Neural Implicit Vector Layers for Text-to-Vector GenerationVikas Thamizharasan, Difan Liu, Matthew Fisher, Nanxuan Zhao, Evangelos Kalogerakis, Michal Lukác. 4589-4597 [doi]

ESR-NeRF: Emissive Source Reconstruction Using LDR Multi-View ImagesJinseo Jeong, Junseo Koo, Qimeng Zhang, Gunhee Kim. 4598-4609 [doi]

DreamPropeller: Supercharge Text-to-3D Generation with Parallel SamplingLinqi Zhou, Andy Shih, Chenlin Meng, Stefano Ermon. 4610-4619 [doi]

GenesisTex: Adapting Image Denoising Diffusion to Texture SpaceChenjian Gao, Boyan Jiang, Xinghui Li, YingPeng Zhang, Qian Yu. 4620-4629 [doi]

Mosaic-SDF for 3D Generative ModelsLior Yariv, Omri Puny, Oran Gafni, Yaron Lipman. 4630-4639 [doi]

NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFsMichael Fischer, Zhengqin Li, Thu Nguyen-Phuoc, Aljaz Bozic, Zhao Dong 0001, Carl S. Marshall, Tobias Ritschel 0001. 4640-4650 [doi]

Hyper-MD: Mesh Denoising with Customized Parameters Aware of Noise Intensity and Geometric CharacteristicsXingtao Wang, Hongliang Wei, Xiaopeng Fan, Debin Zhao. 4651-4660 [doi]

QUADify: Extracting Meshes with Pixel-Level Details and Materials from ImagesMaximilian Frühauf, Hayko Riemenschneider, Markus Gross 0001, Christopher Schroers. 4661-4670 [doi]

SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling OperationsPu Li, Jianwei Guo, Huibin Li, Bedrich Benes, Dong-Ming Yan 0001. 4671-4680 [doi]

Self-Supervised Dual ContouringRamana Sundararaman, Roman Klokov, Maks Ovsjanikov. 4681-4691 [doi]

SVDTree: Semantic Voxel Diffusion for Single Image Tree ReconstructionYuan Li, Zhihao Liu, Bedrich Benes, Xiaopeng Zhang 0001, Jianwei Guo. 4692-4702 [doi]

Text-Conditioned Generative Model of 3D Strand-Based Human HairstylesVanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies. 4703-4712 [doi]

CAD-SIGNet: CAD Language Inference from Point Clouds Using Layer-Wise Sketch Instance Guided AttentionMohammad Sadil Khan, Elona Dupont, Sk Aziz Ali, Kseniya Cherenkova, Anis Kacem 0001, Djamila Aouada. 4713-4722 [doi]

Functional DiffusionBiao Zhang 0005, Peter Wonka. 4723-4732 [doi]

FreeU: Free Lunch in Diffusion U-NetChenyang Si, Ziqi Huang, Yuming Jiang 0003, Ziwei Liu 0002. 4733-4743 [doi]

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction FollowingYutong Feng, Biao Gong, Di Chen, Yujun Shen, Yu Liu 0063, Jingren Zhou. 4744-4753 [doi]

Instruct-Imagen: Image Generation with Multi-modal InstructionHexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William W. Cohen, Ming-Wei Chang, Xuhui Jia. 4754-4763 [doi]

Attention Calibration for Disentangled Text-to-Image PersonalizationYanbing Zhang, Mengping Yang, Qin Zhou, Zhe Wang 0002. 4764-4774 [doi]

Style Aligned Image Generation via Shared AttentionAmir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or. 4775-4785 [doi]

Neural Redshift: Random Networks are not Random FunctionsDamien Teney, Armand Mihai Nicolicioiu, Valentin Hartmann, Ehsan Abbasnejad. 4786-4796 [doi]

Neural LineageRunpeng Yu, Xinchao Wang. 4797-4807 [doi]

Learning Structure-From-Motion with Graph Attention NetworksLucas Brynte, José Pedro Iglesias, Carl Olsson, Fredrik Kahl. 4808-4817 [doi]

Florence-2: Advancing a Unified Representation for a Variety of Vision TasksBin Xiao 0004, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng 0001, Ce Liu 0001, Lu Yuan. 4818-4829 [doi]

In Search of a Data Transformation that Accelerates Neural Field TrainingJunwon Seo, Sangyoon Lee, Kwang In Kim, Jaeho Lee 0001. 4830-4839 [doi]

Point Transformer V3: Simpler, Faster, StrongerXiaoyang Wu 0002, Li Jiang 0009, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao 0001, Wanli Ouyang, Tong He 0001, Hengshuang Zhao. 4840-4851 [doi]

Matching 2D Images in 3D: Metric Relative Pose from Metric CorrespondencesAxel Barroso Laguna, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann. 4852-4863 [doi]

Seeing the World through Your EyesHadi AlZayer, Kevin Zhang 0003, Brandon Y. Feng, Christopher A. Metzler, Jia-Bin Huang 0001. 4864-4873 [doi]

Tri-Perspective view Decomposition for Geometry-Aware Depth CompletionZhiqiang Yan, Yuankai Lin, Kun Wang, Yupeng Zheng, Yufei Wang, Zhenyu Zhang 0005, Jun Li 0027, Jian Yang 0003. 4874-4884 [doi]

Steerers: A Framework for Rotation Equivariant Keypoint DescriptorsGeorg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl. 4885-4895 [doi]

VP3D: Unleashing 2D Visual Prompt for Text-to-3D GenerationYang Chen, Yingwei Pan, Haibo Yang 0002, Ting Yao, Tao Meit. 4896-4905 [doi]

Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance FieldsZhiyuan Min, Yawei Luo, Wei Yang 0011, Yuesong Wang 0001, Yi Yang 0001. 4906-4916 [doi]

GroupContrast: Semantic-Aware Self-Supervised Representation Learning for 3D UnderstandingChengyao Wang, Li Jiang 0009, Xiaoyang Wu 0002, Zhuotao Tian, Bohao Peng, Hengshuang Zhao, Jiaya Jia. 4917-4928 [doi]

iToF-Flow-Based High Frame Rate Depth ImagingYu Meng, Zhou Xue, Xu Chang, Xuemei Hu, Tao Yue 0003. 4929-4938 [doi]

Generalizable Novel-View Synthesis Using a Stereo CameraHaechan Lee, Wonjoon Jin, Seung-Hwan Baek, Sunghyun Cho. 4939-4948 [doi]

EfficientDreamer: High-Fidelity and Stable 3D Creation via Orthogonal-view Diffusion PriorsZhipeng Hu, Minda Zhao, Chaoyi Zhao, Xinyue Liang, Lincheng Li, Zeng Zhao, Changjie Fan, Xiaowei Zhou, Xin Yu 0002. 4949-4958 [doi]

Leveraging Camera Triplets for Efficient and Accurate Structure-from-MotionLalit Manam, Venu Madhav Govindu. 4959-4968 [doi]

LAENeRF: Local Appearance Editing for Neural Radiance FieldsLukas Radl, Michael Steiner 0011, Andreas Kurz, Markus Steinberger. 4969-4978 [doi]

SuperPrimitive: Scene Reconstruction at a Primitive LevelKirill Mazur, Gwangbin Bae, Andrew J. Davison. 4979-4989 [doi]

Revisiting Sampson Approximations for Geometric Estimation ProblemsFelix Rydell, Angélica Torres, Viktor Larsson. 4990-4998 [doi]

Interactive3D: Create What You Want by Interactive 3D GenerationShaocong Dong, Lihe Ding, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu. 4999-5008 [doi]

Multiplane Prior Guided Few-Shot Aerial Scene RenderingZihan Gao, Licheng Jiao, Lingling Li 0002, Xu Liu 0006, Fang Liu 0001, Puhua Chen, Yuwei Guo 0001. 5009-5019 [doi]

3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian SplattingZhiyin Qian, Shaofei Wang, Marko Mihajlovic, Andreas Geiger 0001, Siyu Tang 0001. 5020-5030 [doi]

DaReNeRF: Direction-aware Representation for Dynamic ScenesAnge Lou, Benjamin Planche, Zhongpai Gao, Yamin Li, Tianyu Luan, Hao Ding, Terrence Chen, Jack H. Noble, Ziyan Wu. 5031-5042 [doi]

ViewDiff: 3D-Consistent Image Generation with Text-to-Image ModelsLukas Höllein, Aljaz Bozic, Norman Müller, David Novotný, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner. 5043-5052 [doi]

LTM: Lightweight Textured Mesh Extraction and Refinement of Large Unbounded Scenes for Efficient Storage and Real-Time RenderingJaehoon Choi, Rajvi Shah, Qinbo Li, Yipeng Wang 0018, Ayush Saraf, Changil Kim 0001, Jia-Bin Huang 0001, Dinesh Manocha, Suhib Alsisan, Johannes Kopf 0001. 5053-5063 [doi]

Minimal Perspective AutocalibrationAndrea Porfiri Dal Cin, Timothy Duff, Luca Magri, Tomás Pajdla. 5064-5073 [doi]

X-3D: Explicit 3D Structure Modeling for Point Cloud RecognitionShuofeng Sun, Yongming Rao, Jiwen Lu, Haibin Yan. 5074-5083 [doi]

2S-UDF: A Novel Two-Stage UDF Learning Method for Robust Non-Watertight Model Reconstruction from Multi-View ImagesJunkai Deng, Fei Hou, Xuhui Chen, Wencheng Wang, Ying He 0001. 5084-5093 [doi]

UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and Unfavorable SetsYoungju Na, Woo-Jae Kim, Kyu Beom Han, Suhyeon Ha, Sung-Eui Yoon. 5094-5104 [doi]

GenN2N: Generative NeRF2NeRF TranslationXiangyue Liu, Han Xue, Kunming Luo, Ping Tan, Li Yi. 5105-5114 [doi]

Text-to-3D Generation with Bidirectional Diffusion Using Both 2D and 3D PriorsLihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue. 5115-5124 [doi]

Noisy One-Point Homographies are Surprisingly GoodYaqing Ding 0001, Jonathan Astermark, Magnus Oskarsson, Viktor Larsson. 5125-5134 [doi]

Adaptive Multi-Modal Cross-Entropy Loss for Stereo MatchingPeng Xu, Zhiyu Xiang, Chengyu Qiao, Jingyun Fu, Tianyu Pu. 5135-5144 [doi]

LiDAR4D: Dynamic Neural Fields for Novel Space-Time View LiDAR SynthesisZehan Zheng, Fan Lu 0001, Weiyi Xue, Guang Chen 0001, Changjun Jiang. 5145-5154 [doi]

NC-SDF: Enhancing Indoor Scene Reconstruction Using Neural SDFs with View-Dependent Normal CompensationZiyi Chen, Xiaolong Wu, Yu Zhang. 5155-5165 [doi]

VastGaussian: Vast 3D Gaussians for Large Scene ReconstructionJiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang. 5166-5175 [doi]

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset UpdatesKa-Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai Kit Yeung. 5176-5187 [doi]

SPU-PMD: Self-Supervised Point Cloud Upsampling via Progressive Mesh DeformationYanzhe Liu, Rong Chen, Yushi Li, Yixi Li, Xuehou Tan. 5188-5197 [doi]

Intrinsic Image Diffusion for Indoor Single-view Material EstimationPeter Kocsis 0001, Vincent Sitzmann, Matthias Nießner. 5198-5208 [doi]

Learning Dynamic Tetrahedra for High-Quality Talking Head SynthesisZicheng Zhang, Ruobing Zheng, Bonan Li, Congying Han, Tianqi Li, Meng Wang, Tiande Guo, Jingdong Chen, Ziwen Liu, Ming Yang 0007. 5209-5219 [doi]

Robust Self-Calibration of Focal Lengths from the Fundamental MatrixViktor Kocur, Daniel Kyselica, Zuzana Kukelova. 5220-5229 [doi]

RNb-NeuS: Reflectance and Normal-Based Multi-View 3D ReconstructionBaptiste Brument, Robin Bruneau, Yvain Quéau, Jean Mélou, François Bernard Lauze, Jean-Denis Durou, Lilian Calvet. 5230-5239 [doi]

Neural 3D Strokes: Creating Stylized 3D Scenes with Vectorized 3D StrokesHao-Bin Duan, Miao Wang 0004, Yan-Xun Li, Yong-Liang Yang. 5240-5249 [doi]

Unsupervised Template-assisted Point Cloud Shape Correspondence NetworkJiacheng Deng 0002, Jiahao Lu, Tianzhu Zhang. 5250-5259 [doi]

Efficient Detection of Long Consistent Cycles and its Application to Distributed SynchronizationShaohan Li, Yunpeng Shi, Gilad Lerman. 5260-5269 [doi]

AirPlanes: Accurate Plane Estimation via 3D-Consistent EmbeddingsJamie Watson, Filippo Aleotti, Mohamed Sayed, Zawar Qureshi, Oisin Mac Aodha, Gabriel J. Brostow, Michael Firman, Sara Vicente. 5270-5280 [doi]

Accurate Training Data for Occupancy Map Prediction in Automated Driving Using Evidence TheoryJonas Kälble, Sascha Wirges, Maxim Tatarchenko, Eddy Ilg. 5281-5290 [doi]

Continuous Pose for Monocular Cameras in Neural Implicit RepresentationQi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool. 5291-5301 [doi]

Towards 3D Vision with Low-Cost Single-Photon CamerasFangzhou Mu, Carter Sifferman, Sacha Jungerman, Yiquan Li, Mark Han, Michael Gleicher, Mohit Gupta 0001, Yin Li 0003. 5302-5311 [doi]

Inlier Confidence Calibration for Point Cloud RegistrationYongzhe Yuan, Yue Wu 0004, Xiaolong Fan, Maoguo Gong, Qiguang Miao, Wenping Ma 0001. 5312-5321 [doi]

GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective SurfacesYingwenqi Jiang, Jiadong Tu, Yuan Liu, Xifeng Gao, Xiaoxiao Long, Wenping Wang, Yuexin Ma. 5322-5332 [doi]

Language Embedded 3D Gaussians for Open-Vocabulary Scene UnderstandingJin-Chuan Shi, Miao Wang, Hao-Bin Duan, Shao-Hua Guan. 5333-5343 [doi]

MVIP-NeRF: Multi-View 3D Inpainting on NeRF Scenes via Diffusion PriorHonghua Chen, Chen Change Loy, Xingang Pan. 5344-5353 [doi]

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh RenderingAntoine Guédon, Vincent Lepetit. 5354-5363 [doi]

DreamControl: Control-Based Text-to-3D Generation with 3D Self-PriorTianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson W. H. Lau, Wangmeng Zuo. 5364-5373 [doi]

VAREN: Very Accurate and Realistic Equine NetworkSilvia Zuffi, Ylva Mellbin, Ci Li, Markus Höschle, Hedvig Kjellström, Senya Polikovsky, Elin Hernlund, Michael J. Black. 5374-5383 [doi]

REACTO: Reconstructing Articulated Objects from a Single VideoChaoyue Song, Jiacheng Wei, Chuan-Sheng Foo, Guosheng Lin, Fayao Liu. 5384-5395 [doi]

DITTO: Dual and Integrated Latent Topologies for Implicit 3D ReconstructionJaehyeok Shim, Kyungdon Joo. 5396-5405 [doi]

ICON: Incremental CONfidence for Joint Pose and Radiance Field OptimizationWeiyao Wang 0001, Pierre Gleize, Hao Tang, Xingyu Chen, Kevin J. Liang, Matt Feiszli. 5406-5417 [doi]

Local-consistent Transformation Learning for Rotation-invariant Point Cloud AnalysisYiyang Chen, Lunhao Duan, Shanshan Zhao 0001, Changxing Ding, Dacheng Tao. 5418-5427 [doi]

PaReNeRF: Toward Fast Large-Scale Dynamic NeRF with Patch-Based ReferenceXiao Tang, Min Yang, Penghui Sun, Hui Li, Yuchao Dai, Feng Zhu, Hojae Lee. 5428-5438 [doi]

Fitting Flats to FlatsGabriel Dogadov, Ugo Paavo Finnendahl, Marc Alexa. 5439-5447 [doi]

ANIM: Accurate Neural Implicit Model for Human Reconstruction from a Single RGB-D ImageMarco Pesavento, Yuanlu Xu, Nikolaos Sarafianos, Robert Maier, Ziyan Wang, Chun-Han Yao, Marco Volino, Edmond Boyer, Adrian Hilton 0001, Tony Tung. 5448-5458 [doi]

Neural Markov Random Field for Stereo MatchingTongfan Guan, Chen Wang, Yun-Hui Liu 0001. 5459-5469 [doi]

Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle OptimizationTakuhiro Kaneko. 5470-5480 [doi]

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head AvatarsTobias Kirschstein, Simon Giebenhain, Matthias Nießner. 5481-5492 [doi]

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense PredictionsChunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi. 5493-5502 [doi]

Pose-Transformed Equivariant Network for 3D Point Trajectory PredictionRuixuan Yu, Jian Sun. 5503-5512 [doi]

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image RecognitionXiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue 0001, Ying Shan. 5513-5524 [doi]

KPConvX: Modernizing Kernel Point Convolution with Kernel AttentionHugues Thomas, Yao-Hung Hubert Tsai, Timothy D. Barfoot, Jian Zhang 0050. 5525-5535 [doi]

Time-, Memory- and Parameter-Efficient Visual AdaptationOtniel-Bogdan Mercea, Alexey A. Gritsenko, Cordelia Schmid, Anurag Arnab. 5536-5545 [doi]

Affine Equivariant Networks Based on Differential InvariantsYikang Li, Yeqing Qiu, Yuxuan Chen, Lingshen He, Zhouchen Lin. 5546-5556 [doi]

PeLK: Parameter-Efficient Large Kernel ConvNets with Peripheral ConvolutionHonghao Chen, Xiangxiang Chu, Yongjian Ren, Xin Zhao 0012, Kaiqi Huang. 5557-5567 [doi]

Making Vision Transformers Truly Shift-EquivariantRenan A. Rojas-Gomez, Teck-Yian Lim, Minh N. Do, Raymond A. Yeh. 5568-5577 [doi]

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer CompressionHancheng Ye, Chong Yu, Peng Ye, Renqiu Xia, Yansong Tang, Jiwen Lu, Tao Chen 0003, Bo Zhang 0069. 5578-5588 [doi]

Data-Free Quantization via Pseudo-label FilteringChunxiao Fan 0002, Ziqi Wang, Dan Guo, Meng Wang 0001. 5589-5598 [doi]

2: Towards Hetero-Client Federated Multi-Task LearningYuxiang Lu, Suizhi Huang, Yuwen Yang, Shalayiding Sirejiding, Yue Ding 0001, Hongtao Lu. 5599-5609 [doi]

DetCLIPv3: Towards Versatile Generative Open-Vocabulary Object DetectionLewei Yao, Renjie Pi, Jianhua Han, Xiaodan Liang, Hang Xu, Wei Zhang, Zhenguo Li, Dan Xu. 5610-5619 [doi]

SpikingResformer: Bridging ResNet and Vision Transformer in Spiking Neural NetworksXinyu Shi, Zecheng Hao, Zhaofei Yu. 5610-5619 [doi]

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud AnalysisPavlo Melnyk, Andreas Robinson, Michael Felsberg, Mårten Wadenbäck. 5620-5630 [doi]

Friendly Sharpness-Aware MinimizationTao Li, Pan Zhou, Zhengbao He, Xinwen Cheng, Xiaolin Huang. 5631-5640 [doi]

RMT: Retentive Networks Meet Vision TransformersQihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He 0001. 5641-5651 [doi]

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision ApplicationsYuwen Xiong, Zhiqi Li, YunTao Chen, Feng Wang 0015, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li 0001, Yu Qiao 0001, Lewei Lu, Jie Zhou 0001, Jifeng Dai. 5652-5661 [doi]

Boosting Order-Preserving and Transferability for Neural Architecture Search: A Joint Architecture Refined Search and Fine-Tuning ApproachBeichen Zhang, Xiaoxing Wang, Xiaohan Qin, Junchi Yan. 5662-5671 [doi]

InceptionNeXt: When Inception Meets ConvNeXtWeihao Yu, Pan Zhou 0002, Shuicheng Yan, Xinchao Wang. 5672-5683 [doi]

BiPer: Binary Neural Networks Using a Periodic FunctionEdwin Vargas, Claudia V. Correa P., Carlos Hinojosa, Henry Arguello. 5684-5693 [doi]

Rewrite the StarsXu Ma 0005, Xiyang Dai, Yue Bai, Yizhou Wang 0006, Yun Fu 0001. 5694-5703 [doi]

A&B BNN: Add&Bit-Operation-Only Hardware-Friendly Binary Neural NetworkRuichen Ma, Guanchao Qiao, Yian Liu, Liwei Meng, Ning Ning 0002, Yang Liu 0062, Shaogang Hu. 5704-5713 [doi]

Neural Clustering Based Visual Representation LearningGuikun Chen, Xia Li, Yi Yang 0001, Wenguan Wang. 5714-5725 [doi]

Building Optimal Neural Architectures Using Interpretable KnowledgeKeith G. Mills, Fred X. Han, Mohammad Salameh, Shengyao Lu, ChunHua Zhou, Jiao He, Fengyu Sun, Di Niu. 5726-5735 [doi]

Towards More Accurate Diffusion Model Acceleration with a Timestep TunerMengfei Xia, Yujun Shen, Changsong Lei, Yu Zhou, Deli Zhao, Ran Yi, Wenping Wang, Yong-Jin Liu. 5736-5745 [doi]

UniPTS: A Unified Framework for Proficient Post-Training SparsityJingjing Xie, Yuxin Zhang 0002, Mingbao Lin, Zhihang Lin, Liujuan Cao, Rongrong Ji. 5746-5755 [doi]

SHViT: Single-Head Vision Transformer with Memory Efficient Macro DesignSeokju Yun, Youngmin Ro. 5756-5767 [doi]

Denoising Point Clouds in Latent Space via Graph Convolution and Invertible Neural NetworkAihua Mao, Biao Yan, Zijing Ma, Ying He 0001. 5768-5777 [doi]

JointSQ: Joint Sparsification-Quantization for Distributed LearningWeiying Xie, Haowei Li, Jitao Ma, Yunsong Li, Jie Lei 0001, Donglai Liu, Leyuan Fang. 5778-5787 [doi]

YolOOD: Utilizing Object Detection Concepts for Multi-Label Out-of-Distribution DetectionAlon Zolfi, Guy Amit, Amit Baras, Satoru Koda, Ikuya Morikawa, Yuval Elovici, Asaf Shabtai. 5788-5797 [doi]

RepAn: Enhanced Annealing through Re-parameterizationXiang Fei, Xiawu Zheng, Yan Wang 0059, Fei Chao 0001, Chenglin Wu, Liujuan Cao. 5798-5808 [doi]

4M: Dataset Distillation via Disentangled Diffusion ModelDuo Su, Junjie Hou, Weizhi Gao, Yingjie Tian 0001, Bowen Tang. 5809-5818 [doi]

State Space Models for Event CamerasNikola Zubic, Mathias Gehrig, Davide Scaramuzza 0001. 5819-5828 [doi]

GLACE: Global Local Accelerated Coordinate EncodingFangjinhua Wang, Xudong Jiang, Silvano Galliani, Christoph Vogel, Marc Pollefeys. 5819-5828 [doi]

Your Image Is My Video: Reshaping the Receptive Field via Image-to-Video Differentiable AutoAugmentation and FusionSofia Casarin, Cynthia Ifeyinwa Ugwu, Sergio Escalera, Oswald Lanz. 5829-5839 [doi]

Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object DetectionTahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Muhammad Zeshan Afzal. 5840-5850 [doi]

MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation Based on 3D Masked Autoencoding and Pseudo-LabelingXuzhe Zhang, Yuhao Wu, Elsa D. Angelini, Ang Li 0005, Jia Guo, Jerod M. Rasmussen, Thomas G. O'Connor, Pathik D. Wadhwa, Andrea Parolin Jackowski, Hai Li 0001, Jonathan Posner, Andrew F. Laine, Yun Wang. 5851-5862 [doi]

FedUV: Uniformity and Variance for Heterogeneous Federated LearningHa Min Son, Moon-Hyun Kim, Tai-Myoung Chung, Chao Huang, Xin Liu. 5863-5872 [doi]

Pick-or-Mix: Dynamic Channel Sampling for ConvNetsAshish Kumar 0006, Daneul Kim, Jaesik Park, Laxmidhar Behera. 5873-5882 [doi]

Sheared Backpropagation for Fine-Tuning Foundation ModelsZhiyuan Yu, Li Shen 0008, Liang Ding 0006, Xinmei Tian 0001, Yixin Chen 0001, Dacheng Tao. 5883-5892 [doi]

AZ-NAS: Assembling Zero-Cost Proxies for Network Architecture SearchJunghyup Lee, Bumsub Ham. 5893-5903 [doi]

MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature PerturbationSumanth Udupa, Prajwal Gurunath, Aniruddh Sikdar, Suresh Sundaram 0002. 5904-5914 [doi]

Training-Free Pretrained Model MergingZhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song. 5915-5925 [doi]

Training Generative Image Super-Resolution Models by Wavelet-Domain Losses Enables Better Control of ArtifactsCansu Korkmaz, A. Murat Tekalp, Zafer Dogan. 5926-5936 [doi]

IReNe: Instant Recoloring of Neural Radiance FieldsAlessio Mazzucchelli, Adrian Garcia-Garcia, Elena Garces 0001, Fernando Rivas-Manzaneque, Francesc Moreno-Noguer, Adrián Peñate Sánchez. 5937-5946 [doi]

AdaShift: Learning Discriminative Self-Gated Neural Feature Activation With an Adaptive Shift FactorSudong Cai. 5947-5956 [doi]

Kernel Adaptive Convolution for Scene Text Detection via Distance Map PredictionJinzhi Zheng, Heng Fan 0001, Libo Zhang 0001. 5957-5966 [doi]

Towards Accurate and Robust Architectures via Neural Architecture SearchYuwei Ou, Yuqi Feng, Yanan Sun 0001. 5967-5976 [doi]

PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic SegmentationJinfeng Xu, Siyuan Yang, Xianzhi Li, Yuan Tang, Yixue Hao, Long Hu, Min Chen 0003. 5977-5986 [doi]

Permutation Equivariance of Transformers and its ApplicationsHengyuan Xu, Liyao Xiang, Hangyu Ye, Dixi Yao, Pengzhi Chu, Baochun Li. 5987-5996 [doi]

MedBN: Robust Test-Time Adaptation against Malicious Test SamplesHyejin Park, Jeongyeon Hwang, Sunung Mun, Sangdon Park, Jungseul Ok. 5997-6007 [doi]

Small Scale Data-Free Knowledge DistillationHe Liu, Yikai Wang 0001, Huaping Liu 0001, Fuchun Sun 0001, Anbang Yao. 6008-6016 [doi]

Identifying Important Group of Pixels using InteractionsKosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera. 6017-6026 [doi]

Efficiently Assemble Normalization Layers and Regularization for Federated Domain GeneralizationKhiem Le, Long Ho, Cuong Do 0001, Danh Le Phuoc, Kok Seng Wong. 6027-6036 [doi]

OrthCaps: An Orthogonal CapsNet with Sparse Attention Routing and PruningXinyu Geng, Jiaming Wang, Jiawei Gong, Yuerong Xue, Jun Xu 0008, Fanglin Chen 0001, Xiaolin Huang. 6037-6046 [doi]

Mean-Shift Feature TransformerTakumi Kobayashi. 6047-6056 [doi]

You Only Need Less Attention at Each Stage in Vision TransformersShuoxi Zhang, Hanpeng Liu, Stephen Lin 0001, Kun He 0001. 6057-6066 [doi]

HEAL-SWIN: A Vision Transformer on the SphereOscar Carlsson, Jan E. Gerken, Hampus Linander, Heiner Spieß, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson. 6067-6077 [doi]

NC-TTT: A Noise Constrastive Approach for Test-Time TrainingDavid Osowiechi, Gustavo Adolfo Vargas Hakim, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers. 6078-6086 [doi]

Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated LearningWenlong Deng, Christos Thrampoulidis, Xiaoxiao Li. 6087-6097 [doi]

MR-VNet: Media Restoration using Volterra NetworksSiddharth Roheda, Amit Satish Unde, Loay Rashid. 6098-6107 [doi]

TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image EditingSherry X. Chen, Yaron Vaxman, Elad Ben Baruch, David Asulin, Aviad Moreshet, Kuo-Chin Lien, Misha Sra, Pradeep Sen. 6108-6117 [doi]

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other ModalitiesYiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue 0001. 6108-6117 [doi]

GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNsMustafa Munir, William Avery, Md Mostafijur Rahman, Radu Marculescu. 6118-6127 [doi]

FlowerFormer: Empowering Neural Architecture Encoding Using a Flow-Aware Graph TransformerDongyeong Hwang, Hyunju Kim, Sunwoo Kim, Kijung Shin. 6128-6137 [doi]

Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous DevicesHuancheng Chen, Haris Vikalo. 6138-6148 [doi]

Wired Perspectives: Multi-View Wire Art Embraces Generative AIZhiyu Qu, Lan Yang, Honggang Zhang 0002, Tao Xiang 0002, Kaiyue Pang, Yi-Zhe Song. 6149-6158 [doi]

DemoFusion: Democratising High-Resolution Image Generation With No $$$Ruoyi Du, Dongliang Chang, Timothy M. Hospedales, Yi-Zhe Song, Zhanyu Ma. 6159-6168 [doi]

DiffPerformer: Iterative Learning of Consistent Latent Guidance for Diffusion-Based Human Video GenerationChenyang Wang, Zerong Zheng, Tao Yu 0007, Xiaoqian Lv, Bineng Zhong, Shengping Zhang, Liqiang Nie. 6169-6179 [doi]

InteractDiffusion: Interaction Control in Text-to-Image Diffusion ModelsJiun Tian Hoe, Xudong Jiang, Chee Seng Chan, Yap-Peng Tan, Weipeng Hu. 6180-6189 [doi]

Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion ModelsChang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie. 6190-6200 [doi]

ControlRoom3D: Room Generation Using Semantic Proxy RoomsJonas Schult, Sam S. Tsai, Lukas Höllein, Bichen Wu, Jialiang Wang, Chih-Yao Ma, Kunpeng Li, Xiaofang Wang, Felix Wimbauer, Zijian He, Peizhao Zhang, Bastian Leibe, Peter Vajda, Ji Hou. 6201-6210 [doi]

Cache Me if You Can: Accelerating Diffusion Models through Block CachingFelix Wimbauer, Bichen Wu, Edgar Schönfeld, Xiaoliang Dai, Ji Hou, Zijian He, Artsiom Sanakoyeu, Peizhao Zhang, Sam S. Tsai, Jonas Kohler, Christian Rupprecht 0001, Daniel Cremers, Peter Vajda, Jialiang Wang. 6211-6220 [doi]

Real-Time 3D-Aware Portrait Video RelightingZiqi Cai, Kaiwen Jiang, Shu-Yu Chen, Yu-Kun Lai, Hongbo Fu 0001, Boxin Shi, Lin Gao 0004. 6221-6231 [doi]

InstanceDiffusion: Instance-Level Control for Image GenerationXudong Wang 0007, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra. 6232-6242 [doi]

Make-It-Vivid: Dressing Your Animatable Biped Cartoon Characters from TextJunshu Tang, Yanhong Zeng, Ke-fan, Xuheng Wang, Bo Dai 0002, Kai Chen 0026, Lizhuang Ma. 6243-6253 [doi]

ZONE: Zero-Shot Instruction-Guided Local EditingShanglin Li, Bohan Zeng, Yutang Feng, Sicheng Gao, Xiuhui Liu, Jiaming Liu, Lin Li, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang 0001. 6254-6263 [doi]

Don't Drop Your Samples! Coherence-Aware Training Benefits Conditional DiffusionNicolas Dufour, Victor Besnier, Vicky Kalogeiton, David Picard. 6264-6273 [doi]

Generating Illustrated InstructionsSachit Menon, Ishan Misra, Rohit Girdhar. 6274-6284 [doi]

SpikeNeRF: Learning Neural Radiance Fields from Continuous Spike StreamLin Zhu 0012, Kangmin Jia, Yifan Zhao 0002, Yunshan Qi, Lizhi Wang, Hua Huang 0001. 6285-6295 [doi]

Dancing with Still Images: Video Distillation via Static-Dynamic DisentanglementZiyu Wang 0010, Yue Xu, Cewu Lu, Yong-Lu Li 0001. 6296-6304 [doi]

UniGS: Unified Representation for Image Generation and SegmentationLu Qi, Lehan Yang, Weidong Guo, Yu Xu, Bo Du, Varun Jampani, Ming-Hsuan Yang 0001. 6305-6315 [doi]

Adversarial Text to Continuous Image GenerationKilichbek Haydarov, Aashiq Muhamed, Xiaoqian Shen, Jovana Lazarevic, Ivan Skorokhodov, Chamuditha Jayanga Galappaththige, Mohamed Elhoseiny. 6316-6326 [doi]

Self-Correcting LLM-Controlled Diffusion ModelsTsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell. 6327-6336 [doi]

Taming Stable Diffusion for Text to 360° Panorama Image GenerationCheng Zhang, Qianyi Wu, Camilo Cruz Gambardella, Xiaoshui Huang, Dinh Phung 0001, Wanli Ouyang, Jianfei Cai 0001. 6347-6357 [doi]

EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion ModelsJingyuan Yang 0002, Jiawei Feng, Hui Huang 0004. 6358-6368 [doi]

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL FinetuningDesai Xie, Jiahao Li, Hao Tan 0002, Xin Sun 0014, Zhixin Shu, Yi Zhou 0023, Sai Bi, Sören Pirk, Arie E. Kaufman. 6369-6379 [doi]

Move Anything with Layered Scene DiffusionJiawei Ren, Mengmeng Xu, Jui-Chieh Wu, Ziwei Liu 0002, Tao Xiang 0005, Antoine Toisoul. 6380-6389 [doi]

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language ModelLirui Zhao, Yue Yang, Kaipeng Zhang, Wenqi Shao, Yuxin Zhang 0002, Yu Qiao 0001, Ping Luo 0002, Rongrong Ji. 6390-6399 [doi]

CapHuman: Capture Your Moments in Parallel UniversesChao Liang, Fan Ma, Linchao Zhu, Yingying Deng, Yi Yang 0001. 6400-6409 [doi]

IQ-VFI: Implicit Quadratic Motion Estimation for Video Frame InterpolationMengshun Hu, Kui Jiang, Zhihang Zhong, Zheng Wang, Yinqiang Zheng. 6410-6419 [doi]

Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image SynthesisYanzuo Lu, Manlin Zhang, Andy J. Ma, Xiaohua Xie, Jianhuang Lai. 6420-6429 [doi]

MACE: Mass Concept Erasure in Diffusion ModelsShilin Lu, Zilan Wang, Leyang Li, Yanzhu Liu, Adams Wai-Kin Kong. 6430-6440 [doi]

GenTron: Diffusion Transformers for Image and Video GenerationShoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He 0001, Yanping Xie, Animesh Sinha, Ping Luo 0002, Tao Xiang 0002, Juan-Manuel Pérez-Rúa. 6441-6451 [doi]

Relightful Harmonization: Lighting-Aware Portrait Background ReplacementMengwei Ren, Wei Xiong 0008, Jae Shin Yoon, Zhixin Shu, Jianming Zhang 0001, Hyunjoon Jung, Guido Gerig, He Zhang 0004. 6452-6462 [doi]

InstructVideo: Instructing Video Diffusion Models with Human FeedbackHangjie Yuan, Shiwei Zhang, Xiang Wang 0012, Yujie Wei 0001, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu 0002, Samuel Albanie, Dong Ni 0002. 6463-6474 [doi]

TeTriRF: Temporal Tri-Plane Radiance Fields for Efficient Free-Viewpoint VideoMinye Wu, Zehao Wang, Georgios Kouros, Tinne Tuytelaars. 6487-6496 [doi]

SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout ControlJaskirat Singh, Jianming Zhang, Qing Liu, Cameron Smith, Zhe Lin, Liang Zheng 0001. 6497-6506 [doi]

RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion ModelsOzgur Kara, Bariscan Kurtkaya, Hidir Yesiltepe, James M. Rehg, Pinar Yanardag. 6507-6516 [doi]

LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score MatchingYixun Liang, Xin Yang 0020, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen. 6517-6526 [doi]

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image ModelsNataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman. 6527-6536 [doi]

Dream Video: Composing Your Dream Videos with Customized Subject and MotionYujie Wei 0001, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu 0063, Yingya Zhang, Jingren Zhou, Hongming Shan. 6537-6549 [doi]

SurMo: Surface-based 4D Motion Modeling for Dynamic Human RenderingTao Hu, Fangzhou Hong, Ziwei Liu. 6550-6560 [doi]

GenHowTo: Learning to Generate Actions and State Transformations from Instructional VideosTomás Soucek, Dima Damen, Michael Wray, Ivan Laptev, Josef Sivic. 6561-6571 [doi]

A Recipe for Scaling up Text-to-Video Generation with Text-free VideosXiang Wang 0012, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang. 6572-6582 [doi]

WaveFace: Authentic Face Restoration with Efficient Frequency RecoveryYunqi Miao, Jiankang deng, Jungong Han. 6583-6592 [doi]

AnyDoor: Zero-shot Object-level Image CustomizationXi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao. 6593-6602 [doi]

ElasticDiffusion: Training-Free Arbitrary Size Image Generation Through Global-Local Content SeparationMoayed Haji Ali, Guha Balakrishnan, Vicente Ordonez. 6603-6612 [doi]

One-Step Diffusion with Distribution Matching DistillationTianwei Yin, Michaël Gharbi, Richard Zhang 0001, Eli Shechtman, Frédo Durand, William T. Freeman, Taesung Park. 6613-6623 [doi]

Check, Locate, Rectify: A Training-Free Layout Calibration System for Text- to- Image GenerationBiao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu 0063. 6624-6634 [doi]

Hierarchical Spatio-temporal Decoupling for Text-to- Video GenerationZhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang 0012, Yujie Wei 0001, Yingya Zhang, Changxin Gao, Nong Sang. 6635-6645 [doi]

HumanGaussian: Text-Driven 3D Human Generation with Gaussian SplattingXian Liu, Xiaohang Zhan, Jiaxiang Tang, Ying Shan, Gang Zeng, Dahua Lin, Xihui Liu, Ziwei Liu 0002. 6646-6657 [doi]

WonderJourney: Going from Anywhere to EverywhereHong-Xing Yu, Haoyi Duan, Junhwa Hur, Kyle Sargent, Michael Rubinstein, William T. Freeman, Forrester Cole, Deqing Sun, Noah Snavely, Jiajun Wu 0001, Charles Herrmann. 6658-6667 [doi]

Balancing Act: Distribution-Guided Debiasing in Diffusion ModelsRishubh Parihar, Abhijnya Bhat, Abhipsa Basu, Saswat Mallick, Jogendra Nath Kundu, R. Venkatesh Babu. 6668-6678 [doi]

SIGNeRF: Scene Integrated Generation for Neural Radiance FieldsJan-Niklas Dihlmann, Andreas Engelhardt, Hendrik P. A. Lensch. 6679-6688 [doi]

VideoBooth: Diffusion-based Video Generation with Image PromptsYuming Jiang 0003, Tianxing Wu 0002, Shuai Yang 0001, Chenyang Si, Dahua Lin, Yu Qiao 0001, Chen Change Loy, Ziwei Liu 0002. 6689-6700 [doi]

Total Selfie: Generating Full-Body SelfiesBowei Chen 0003, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz. 6701-6711 [doi]

CCEdit: Creative and Controllable Video Editing via Diffusion ModelsRuoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen 0001, Baining Guo. 6712-6722 [doi]

Cinematic Behavior Transfer via NeRF-based Differentiable FilmingXuekun Jiang, Anyi Rao, Jingbo Wang 0003, Dahua Lin, Bo Dai 0002. 6723-6732 [doi]

Improving Subject-Driven Image Synthesis with Subject-Agnostic GuidanceKelvin C. K. Chan, Yang Zhao, Xuhui Jia, Ming-Hsuan Yang 0001, Huisheng Wang. 6733-6742 [doi]

Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic PropagationHaofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, Shengfeng He. 6743-6752 [doi]

Learning Continuous 3D Words for Text-to-Image GenerationTa Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomír Mech, Andrew Markham, Niki Trigoni. 6753-6762 [doi]

$\bigcirc\!\!\!\!\bigcirc$ CHAIN: Enhancing Generalization in Data-Efficient GANs via LipsCHitz Continuity ConstrAIned NormalizationYao Ni, Piotr Koniusz. 6763-6774 [doi]

ViVid-1-to-3: Novel View Synthesis with Video Diffusion ModelsJeong-gi Kwak, Erqun Dong, Yuhe Jin, Hanseok Ko, Shweta Mahajan, Kwang Moo Yi. 6775-6785 [doi]

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image GenerationYu Zeng 0001, Vishal M. Patel, Haochen Wang, Xun Huang, Ting-chun Wang, Ming-Yu Liu 0001, Yogesh Balaji. 6786-6795 [doi]

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion ModelsTaoran Yi, Jiemin Fang, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang 0008, Wenyu Liu 0001, Qi Tian 0001, Xinggang Wang. 6796-6807 [doi]

Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image Diffusion ModelsShweta Mahajan, Tanzila Rahman, Kwang Moo Yi, Leonid Sigal. 6808-6817 [doi]

MIGC: Multi-Instance Generation Controller for Text-to-Image SynthesisDewei Zhou, You Li, Fan Ma, Xiaoting Zhang, Yi Yang. 6818-6828 [doi]

Towards Text-guided 3D Scene CompositionQihang Zhang, Chaoyang Wang, Aliaksandr Siarohin, Peiye Zhuang, Yinghao Xu, Ceyuan Yang, Dahua Lin, Bolei Zhou, Sergey Tulyakov, Hsin-Ying Lee 0001. 6829-6838 [doi]

BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene GenerationQihang Zhang, Yinghao Xu, Yujun Shen, Bo Dai 0002, Bolei Zhou, Ceyuan Yang. 6839-6849 [doi]

Face2Diffusion for Fast and Editable Face PersonalizationKaede Shiohara, Toshihiko Yamasaki. 6850-6859 [doi]

FreeDrag: Feature Dragging for Reliable Point-Based Image EditingPengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin 0002, Jinjin Zheng. 6860-6870 [doi]

OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic VideosDongyoung Choi, Hyeonjoong Jang, Min H. Kim 0001. 6871-6880 [doi]

DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D DataQihao Liu, Yi Zhang 0099, Song Bai, Adam Kortylewski, Alan L. Yuille. 6881-6891 [doi]

Generate Like Experts: Multi-Stage Font Generation by Incorporating Font Transfer Process into Diffusion ModelsBin Fu, Fanghua Yu, Anran Liu, Zixuan Wang, Jie Wen, Junjun He, Yu Qiao. 6892-6901 [doi]

Panacea: Panoramic and Controllable Video Generation for Autonomous DrivingYuqing Wen, Yucheng Zhao, Yingfei Liu, Fan Jia, Yanhui Wang, Chong Luo, Chi Zhang 0026, Tiancai Wang, Xiaoyan Sun, Xiangyu Zhang 0005. 6902-6912 [doi]

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion ModelQian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang. 6913-6923 [doi]

CLiC: Concept Learning in ContextMehdi Safaee, Aryan Mikaeili, Or Patashnik, Daniel Cohen-Or, Ali Mahdavi-Amiri. 6924-6933 [doi]

Z*: Zero-shot Style Transfer via Attention ReweightingYingying Deng, Xiangyu He, Fan Tang, Weiming Dong. 6934-6944 [doi]

Tackling the Singularities at the Endpoints of Time Intervals in Diffusion ModelsPengze Zhang, Hubery Yin, Chen Li, Xiaohua Xie. 6945-6954 [doi]

CosmicMan: A Text-to-Image Foundation Model for HumansShikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu. 6955-6965 [doi]

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative TrainingRunze He, Shaofei Huang 0001, Xuecheng Nie, Tianrui Hui, Luoqi Liu, Jiao Dai, Jizhong Han, Guanbin Li, Si Liu 0001. 6966-6975 [doi]

PICTURE: PhotorealistIC Virtual Try-on from UnconstRained dEsignsShuliang Ning, Duomin Wang, Yipeng Qin, Zirong Jin, Baoyuan Wang, Xiaoguang Han 0001. 6976-6985 [doi]

Focus on Your Instruction: Fine-grained and Multi-instruction Image Editing by Attention ModulationQin Guo, Tianwei Lin. 6986-6996 [doi]

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation FrameworkZiyao Huang, Fan Tang, Yong Zhang 0034, Xiaodong Cun, Juan Cao 0001, Jintao Li 0001, Tong-Yee Lee. 6997-7006 [doi]

Revisiting Non-Autoregressive Transformers for Efficient Image SynthesisZanlin Ni, Yulin Wang, Renping Zhou, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Shiji Song, Yuan Yao, Gao Huang. 7007-7016 [doi]

Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-OnXu Yang, Changxing Ding, Zhibin Hong, Junhao Huang, Jin Tao, Xiangmin Xu. 7017-7026 [doi]

PromptCoT: Align Prompt Distribution via Adapted Chain-of-ThoughtJunyi Yao, Yijiang Liu, Zhen Dong, Mingfei Guo, Helan Hu, Kurt Keutzer, Li Du, Daquan Zhou, Shanghang Zhang. 7027-7037 [doi]

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video SynthesisWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci 0001, Jian Ren, Sergey Tulyakov. 7038-7048 [doi]

L-MAGIC: Language Model Assisted Generation of Images with CoherenceZhipeng Cai, Matthias Mueller, Reiner Birkl, Diana Wofk, Shao-Yen Tseng, Junda Cheng, Gabriela Ben Melech Stan, Vasudev Lal, Michael Paulitsch. 7049-7058 [doi]

Text-Driven Image Editing via Learnable RegionsYuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Lu Jiang 0004, Ming-Hsuan Yang 0001. 7059-7068 [doi]

On Exact Inversion of DPM-SolversSeongmin Hong, Kyeonghyun Lee, Suh Yoon Jeon, Hyewon Bae, Se Young Chun. 7069-7078 [doi]

ConsistNet: Enforcing 3D Consistency for Multi-View Images DiffusionJiayu Yang, Ziang Cheng, Yunfei Duan, Pan Ji, Hongdong Li. 7079-7088 [doi]

LAMP: Learn A Motion Pattern for Few-Shot Video GenerationRuiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang. 7089-7098 [doi]

Task-Customized Mixture of Adapters for General Image FusionPengfei Zhu, Yang Sun, Bing Cao, Qinghua Hu. 7099-7108 [doi]

Beyond Textual Constraints: Learning Novel Diffusion Conditions with Fewer ExamplesYuyang Yu, Bangzhen Liu, Chenxi Zheng, Xuemiao Xu, Shengfeng He, Huaidong Zhang. 7109-7118 [doi]

Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic DataYu Deng, Duomin Wang, Xiaohang Ren, Xingyu Chen, Baoyuan Wang. 7119-7130 [doi]

Animating General Image with Large Visual Motion ModelDengsheng Chen, Xiaoming Wei, Xiaolin Wei. 7131-7140 [doi]

Sat2Scene: 3D Urban Scene Generation from Satellite Images with DiffusionZuoyue Li, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, Martin R. Oswald. 7141-7150 [doi]

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent AlignersYazhou Xing, Yingqing He, Zeyue Tian, Xintao Wang, Qifeng Chen. 7151-7161 [doi]

AVID: Any-Length Video Inpainting with Diffusion ModelZhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris N. Metaxas, Licheng Yu. 7162-7172 [doi]

Generative Powers of TenXiaojuan Wang, Janne Kontkanen, Brian Curless, Steven M. Seitz, Ira Kemelmacher-Shlizerman, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski. 7173-7182 [doi]

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion ModelsMuyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Kai Li, Song Han 0003. 7183-7193 [doi]

Condition-Aware Neural Network for Controlled Image GenerationHan Cai, Muyang Li, Qinsheng Zhang, Ming-Yu Liu 0001, Song Han 0003. 7194-7203 [doi]

It's All About Your Sketch: Democratising Sketch Control in Diffusion ModelsSubhadeep Koley, Ayan Kumar Bhunia, Deeptanshu Sekhri, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang 0002, Yi-Zhe Song. 7204-7214 [doi]

FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-Shot Subject-Driven GenerationPengchong Qiao, Lei Shang, Chang Liu, Baigui Sun, Xiangyang Ji, Jie Chen. 7215-7224 [doi]

In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face EditingYiran Xu, Zhixin Shu, Cameron Smith, Seoung Wug Oh, Jia-Bin Huang 0001. 7225-7235 [doi]

Video Prediction by Modeling Videos as Continuous Multi-Dimensional ProcessesGaurav Shrivastava, Abhinav Shrivastava. 7236-7245 [doi]

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and PerceptionYibo Wang, Ruiyuan Gao 0001, Kai Chen 0023, Kaiqiang Zhou, Yingjie Cai, Lanqing Hong, Zhenguo Li, Lihui Jiang, Dit-Yan Yeung, Qiang Xu 0001, Kai Zhang 0008. 7246-7255 [doi]

Structure-Guided Adversarial Training of Diffusion ModelsLing Yang 0006, Haotian Qian, Zhilong Zhang, Jingwei Liu, Bin Cui 0001. 7256-7266 [doi]

Learning Adaptive Spatial Coherent Correlations for Speech-Preserving Facial Expression ManipulationTianshui Chen, Jianman Lin, Zhijing Yang, Chunmei Qing, Liang Lin. 7267-7276 [doi]

On the Content Bias in Fréchet Video DistanceSongwei Ge, Aniruddha Mahapatra, Gaurav Parmar, Jun-Yan Zhu, Jia-Bin Huang. 7277-7288 [doi]

Residual Learning in Diffusion ModelsJunyu Zhang, Daochang Liu, Eunbyung Park, Shichao Zhang 0001, Chang Xu 0002. 7289-7299 [doi]

A Unified Approach for Text-and Image-Guided 4D Scene GenerationYufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Otmar Hilliges, Shalini De Mello. 7300-7309 [doi]

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion ModelsHaoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan. 7310-7320 [doi]

Neural Implicit Morphing of Face ImagesGuilherme G. Schardong, Tiago Novello, Hallison Paz, Iurii Medvedev, Vinícius da Silva, Luiz Velho 0001, Nuno Gonçalves 0001. 7321-7330 [doi]

One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency ControlsMinghui Hut, Jianbin Zheng, Chuanxia Zheng, Chaoyue Wang, Dacheng Tao, Tat-Jen Cham. 7331-7340 [doi]

Video Interpolation with Diffusion ModelsSiddhant Jain, Daniel Watson, Eric Tabellion, Aleksander Holynski, Ben Poole, Janne Kontkanen. 7341-7351 [doi]

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-Driven Holistic 3D Expression and Gesture GenerationJunming Chen, Yunfei Liu 0001, Jianan Wang, Ailing Zeng, Yu Li 0003, Qifeng Chen. 7352-7361 [doi]

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion ModelsYushi Huang, Ruihao Gong, Jing Liu, Tianlong Chen, Xianglong Liu. 7362-7371 [doi]

Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder ArchitectureHuijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu 0001. 7372-7381 [doi]

Scaling Laws of Synthetic Images for Model Training ... for NowLijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian. 7382-7392 [doi]

BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion ModelsFengyuan Shi 0001, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang 0002. 7393-7402 [doi]

MaskINT: Video Editing via Interpolative Non-autoregressive Masked TransformersHaoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie. 7403-7412 [doi]

Pose Adapted Shape Learning for Large-Pose Face ReenactmentGee-Sern Jison Hsu, Jie-Ying Zhang, Huang Yu Hsiang, Wei-Jie Hong. 7413-7422 [doi]

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion ModelsFei Deng, Qifei Wang, Wei Wei, Tingbo Hou, Matthias Grundmann. 7423-7433 [doi]

Discriminative Probing and Tuning for Text-to-Image GenerationLeigang Qu, Wenjie Wang 0007, Yongqi Li 0001, Hanwang Zhang, Liqiang Nie, Tat-Seng Chua. 7434-7444 [doi]

Towards Automated Movie Trailer GenerationDawit Mureja Argaw, Mattia Soldan, Alejandro Pardo, Chen Zhao 0002, Fabian Caba Heilbron, Joon Son Chung, Bernard Ghanem. 7445-7454 [doi]

CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-ResolutionQingguo Liu, Chenyi Zhuang, Pan Gao, Jie Qin. 7455-7464 [doi]

FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any ConditionSicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li 0003, Bolei Zhou. 7465-7475 [doi]

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image CustomizationMengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang 0001. 7476-7485 [doi]

VidToMe: Video Token Merging for Zero-Shot Video EditingXirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang. 7486-7495 [doi]

Layout-Agnostic Scene Text Image Synthesis with Diffusion ModelsQilong Zhangli, Jindong Jiang, Di Liu 0003, Licheng Yu, Xiaoliang Dai, Ankit Ramchandani, Guan Pang, Dimitris N. Metaxas, Praveen Krishnan. 7496-7506 [doi]

3D Multi-frame Fusion for Video StabilizationZhan Peng, Xinyi Ye, Weiyue Zhao, Tianqi Liu 0003, Huiqiang Sun, Baopu Li, Zhiguo Cao 0001. 7507-7516 [doi]

DyBluRF: Dynamic Neural Radiance Fields from Blurry Monocular VideoHuiqiang Sun, Xingyi Li, Liao Shen, Xinyi Ye, Ke Xian, Zhiguo Cao 0001. 7517-7527 [doi]

A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video EditingMaomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, Dong Xu. 7528-7537 [doi]

StrokeFaceNeRF: Stroke-Based Facial Appearance Editing in Neural Radiance FieldXiao-juan Li, Dingxi Zhang, Shu-Yu Chen, Feng-Lin Liu. 7538-7547 [doi]

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion ModelsJiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang 0001, Humphrey Shi. 7548-7558 [doi]

One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing ApplicationsMengyao Lyu, Yuhong Yang 0008, Haiwen Hong, Hui Chen 0013, Xuan Jin, Yuan He 0011, Hui Xue 0001, Jungong Han, Guiguang Ding. 7559-7568 [doi]

Hierarchical Patch Diffusion Models for High-Resolution Video GenerationIvan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov. 7569-7579 [doi]

Taming the Tail in Class-Conditional GANs: Knowledge Sharing via Unconditional Training at Lower ResolutionsSaeed Khorram, MingQi Jiang, Mohamad Shahbazi, Mohamad H. Danesh, Fuxin Li. 7580-7590 [doi]

Don't Look into the Dark: Latent Codes for Pluralistic Image InpaintingHaiwei Chen, Yajie Zhao. 7591-7600 [doi]

Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground TruthZhaoyang Sun, Shengwu Xiong, Yaxiong Chen, Yi Rong. 7601-7610 [doi]

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion ModelsShengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein. 7611-7620 [doi]

VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point CorrespondenceYuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao 0001, Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang. 7621-7630 [doi]

Rethinking the Objectives of Vector-Quantized Tokenizers for Image SynthesisYuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Mike Zheng Shou. 7631-7640 [doi]

Dysen-VDM: Empowering Dynamics-Aware Text-to-Video Diffusion with LLMsHao Fei 0001, Shengqiong Wu, Wei Ji 0008, Hanwang Zhang, Tat-Seng Chua. 7641-7653 [doi]

Geometry-aware Reconstruction and Fusion-refined Rendering for Generalizable Neural Radiance FieldsTianqi Liu 0003, Xinyi Ye, Min Shi 0004, Zihao Huang 0001, Zhiyu Pan, Zhan Peng, Zhiguo Cao 0001. 7654-7663 [doi]

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video EditingJia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao 0001, Jussi Keppo, Ying Shan, Mike Zheng Shou. 7664-7674 [doi]

High-fidelity Person-centric Subject-to-Image SynthesisYibin Wang, Weizhong Zhang, Jianwei Zheng 0001, Cheng Jin 0001. 7675-7684 [doi]

Relation Rectification in Diffusion ModelYinwei Wu, Xingyi Yang, Xinchao Wang. 7685-7694 [doi]

Diffusion Handles Enabling 3D Edits for Diffusion Models by Lifting Activations to 3DKarran Pandey, Paul Guerrero 0001, Matheus Gadelha, Yannick Hold-Geoffroy, Karan Singh, Niloy J. Mitra. 7695-7704 [doi]

LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion ModelChenjie Cao, Yunuo Cai, Qiaole Dong, Yikai Wang 0002, Yanwei Fu 0001. 7705-7715 [doi]

FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-Pose, and Facial Expression FeaturesAndre Rochow, Max Schwarz, Sven Behnke. 7716-7726 [doi]

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt RewritingZijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan 0001, Zhenzhong Lan. 7727-7736 [doi]

MMA-Diffusion: MultiModal Attack on Diffusion ModelsYijun Yang, Ruiyuan Gao 0001, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu 0001. 7737-7746 [doi]

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image ModelsYiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen. 7747-7756 [doi]

Codebook Transfer with Part-of-Speech for Vector-Quantized Image ModelingBaoquan Zhang, Huaibin Wang, Chuyao Luo, Xutao Li, Guotao Liang, Yunming Ye, Xiaochen Qi, Yao He. 7757-7766 [doi]

Generating Non-Stationary Textures Using Self-RectificationYang Zhou 0007, Rongjun Xiao, Dani Lischinski, Daniel Cohen-Or, Hui Huang 0004. 7767-7776 [doi]

Fast ODE-based Sampling for Diffusion Models in Around 5 StepsZhenyu Zhou, Defang Chen 0001, Can Wang 0001, Chun Chen 0001. 7777-7786 [doi]

Deformable One-Shot Face Stylization via DINO Semantic GuidanceYang Zhou 0007, Zichong Chen, Hui Huang 0004. 7787-7796 [doi]

Learning Disentangled Identifiers for Action-Customized Text-to-Image GenerationSiteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang. 7797-7806 [doi]

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score DistillationThuan Hoang Nguyen, Anh Tran. 7807-7816 [doi]

Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image EditingBingyan Liu, Chengyu Wang 0001, Tingfeng Cao, Kui Jia, Jun Huang 0007. 7817-7826 [doi]

SimDA: Simple Diffusion Adapter for Efficient Video GenerationZhen Xing, Qi Dai, Han Hu 0001, Zuxuan Wu, Yu-Gang Jiang. 7827-7839 [doi]

Unlocking Pre-Trained Image Backbones for Semantic Image SynthesisTariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari. 7840-7849 [doi]

Shadow-Enlightened Image OutpaintingHang Yu 0006, Ruilin Li, Shaorong Xie, Jiayan Qiu. 7850-7860 [doi]

Exploiting Diffusion Prior for Generalizable Dense PredictionHsin-Ying Lee 0001, Hung-Yu Tseng, Hsin-Ying Lee 0001, Ming-Hsuan Yang 0001. 7861-7871 [doi]

StyleCineGAN: Landscape Cinemagraph Generation Using a Pre-trained StyleGANJongwoo Choi, Kwanggyoon Seo, Amirsaman Ashtari, Junyong Noh. 7872-7881 [doi]

MotionEditor: Editing Video Motion via Content-Aware DiffusionShuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu 0001, Xintong Han, Zuxuan Wu, Yu-Gang Jiang. 7882-7891 [doi]

DanceCamera3D: 3D Camera Movement Synthesis with Music and DanceZixuan Wang, Jia Jia 0001, Shikun Sun, Haozhe Wu, Rong Han, Zhenyu Li, Di Tang, Jiaqing Zhou, Jiebo Luo. 7892-7901 [doi]

Diversity-Aware Channel Pruning for StyleGAN CompressionJiwoo Chung, Sangeek Hyun, Sang-Heon Shim, Jae-Pil Heo. 7902-7911 [doi]

DiffMorpher: Unleashing the Capability of Diffusion Models for Image MorphingKaiwen Zhang, Yifan Zhou, Xudong Xu, Bo Dai 0002, Xingang Pan. 7912-7921 [doi]

StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image TranslationSidi Wu, Yizi Chen, Samuel Mermet, Lorenz Hurni, Konrad Schindler, Nicolas Gonthier, Loïc Landrieu. 7922-7931 [doi]

Grounded Text-to-Image Synthesis with Attention RefocusingQuynh Phung, Songwei Ge, Jia-Bin Huang. 7932-7942 [doi]

VecFusion: Vector Font Generation with DiffusionVikas Thamizharasan, Difan Liu, Shantanu Agarwal, Matthew Fisher, Michaël Gharbi, Oliver Wang, Alec Jacobson, Evangelos Kalogerakis. 7943-7952 [doi]

Single Mesh Diffusion Models with Field Latents for Texture GenerationThomas W. Mitchel, Carlos Esteves, Ameesh Makadia. 7953-7963 [doi]

Orthogonal Adaptation for Modular Customization of Diffusion ModelsRyan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein. 7964-7973 [doi]

Low-Latency Neural Stereo StreamingQiqi Hou, Farzad Farhadzadeh, Amir Said, Guillaume Sautière, Hoang Le. 7974-7984 [doi]

TextCraftor: Your Text Encoder can be Image Quality ControllerYanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren. 7985-7995 [doi]

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation SamplingSherwin Bahmani, Ivan Skorokhodov, Victor Rong, Gordon Wetzstein, Leonidas J. Guibas, Peter Wonka, Sergey Tulyakov, Jeong-Joon Park, Andrea Tagliasacchi, David B. Lindell. 7996-8006 [doi]

Image Neural Field Diffusion ModelsYinbo Chen, Oliver Wang, Richard Zhang 0001, Eli Shechtman, Xiaolong Wang 0004, Michaël Gharbi. 8007-8017 [doi]

Learning Multi-Dimensional Human Preference for Text-to-Image GenerationSixian Zhang, Bohan Wang, JunQiang Wu, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang 0006. 8018-8027 [doi]

Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide Image ClassificationTingting Zheng, Kui Jiang, Hongxun Yao. 8028-8037 [doi]

Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image InpaintingHaipeng Liu 0004, Yang Wang 0023, Biao Qian, Meng Wang 0001, Yong Rui. 8038-8047 [doi]

IMPRINT: Generative Object Compositing by Learning Identity-Preserving RepresentationYizhi Song, Zhifei Zhang, Zhe Lin 0001, Scott Cohen, Brian L. Price, Jianming Zhang 0001, Soo Ye Kim, He Zhang 0004, Wei Xiong 0008, Daniel G. Aliaga. 8048-8058 [doi]

Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion NetworkSizhe Zheng, Pan Gao, Peng Zhou, Jie Qin. 8059-8068 [doi]

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven GenerationYuxuan Zhang, Yiren Song, Jiaming Liu, Rui Wang, Jinpeng Yu 0002, Hao Tang, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing. 8069-8078 [doi]

Peekaboo: Interactive Video Generation via Masked-DiffusionYash Jain, Anshul Nasery, Vibhav Vineet, Harkirat S. Behl. 8079-8088 [doi]

CoDeF: Content Deformation Fields for Temporally Consistent Video ProcessingHao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Qifeng Chen. 8089-8099 [doi]

DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image PersonalizationJisu Nam, Heesu Kim, Dongjae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang. 8100-8110 [doi]

DreamComposer: Controllable 3D Object Generation via Multi-View ConditionsYunhan Yang, Yukun Huang, Xiaoyang Wu 0002, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He 0001, Xihui Liu. 8111-8120 [doi]

Shadow Generation for Composite Image Using Diffusion ModelQingyang Liu, Junqi You, Jianting Wang, Xinhao Tao, Bo Zhang, Li Niu. 8121-8130 [doi]

Adversarial Score Distillation: When Score Distillation Meets GANMin Wei, Jingkai Zhou, Junyao Sun, Xuesong Zhang. 8131-8141 [doi]

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation TransformerYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He 0001. 8142-8152 [doi]

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character AnimationLi Hu. 8153-8163 [doi]

Person in Place: Generating Associative Skeleton-Guidance Maps for Human-Object Interaction Image EditingChangHee Yang, Chanhee Kang, Kyeongbo Kong, Hanni Oh, Suk-Ju Kang. 8164-8175 [doi]

Stable VITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-OnJeongho Kim, Gyojung Gu, Minho Park 0003, Sunghyun Park 0005, Jaegul Choo. 8176-8185 [doi]

Personalized Residuals for Concept-Driven Text-to-Image GenerationCusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu 0002, Richard Zhang 0001, Tobias Hinz. 8186-8195 [doi]

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANsYanwu Xu 0003, Yang Zhao, Zhisheng Xiao, Tingbo Hou. 8196-8206 [doi]

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video SynthesisFeng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu. 8207-8216 [doi]

Readout Guidance: Learning Control from Diffusion FeaturesGrace Luo, Trevor Darrell, Oliver Wang, Dan B. Goldman, Aleksander Holynski. 8217-8227 [doi]

Diffusion Model Alignment Using Direct Preference OptimizationBram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik. 8228-8238 [doi]

Diffusion Models Without AttentionJing Nathan Yan, Jiatao Gu, Alexander M. Rush. 8239-8249 [doi]

Common Canvas: Open Diffusion Models Trained on Creative-Commons ImagesAaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov. 8250-8260 [doi]

Fairy: Fast Parallelized Instruction-Guided Video-to-Video SynthesisBichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda. 8261-8270 [doi]

Edit One for All: Interactive Batch Image EditingThao Nguyen, Utkarsh Ojha, Yuheng Li, Haotian Liu, Yong Jae Lee. 8271-8280 [doi]

Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image RestorationChen Zhao, Weiling Cai, Chenyu Dong, Chengwei Hu. 8281-8291 [doi]

Accelerating Diffusion Sampling with Optimized Time StepsShuchen Xue, Zhaoqiang Liu, Fei Chen, Shifeng Zhang, Tianyang Hu, Enze Xie, Zhenguo Li. 8292-8301 [doi]

One-Shot Structure-Aware Stylized Image SynthesisHansam Cho, Jonghyun Lee, Seunggyu Chang, Yonghyun Jeong. 8302-8311 [doi]

Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image PersonalizationJimyeong Kim, Jungwon Park, Wonjong Rhee. 8312-8322 [doi]

Observation-Guided Diffusion Probabilistic ModelsJunoh Kang, Jinyoung Choi, SungIk Choi, Bohyung Han. 8323-8331 [doi]

Scaling Up Video Summarization Pretraining with Large Language ModelsDawit Mureja Argaw, Seunghyun Yoon 0002, Fabian Caba Heilbron, Hanieh Deilamsalehy, Trung Bui, Zhaowen Wang, Franck Dernoncourt, Joon Son Chung. 8332-8341 [doi]

DREAM: Diffusion Rectification and Estimation-Adaptive ModelsJinxin Zhou, Tianyu Ding, Tianyi Chen, Jiachen Jiang, Ilya Zharkov, Zhihui Zhu, Luming Liang. 8342-8351 [doi]

Clockwork Diffusion: Efficient Generation With Model-Step DistillationAmirHossein Habibian, Amir Ghodrati, Noor Fathima, Guillaume Sautière, Risheek Garrepalli, Fatih Porikli, Jens Petersen. 8352-8361 [doi]

SmartEdit: Exploring Complex Instruction-Based Image Editing with Multimodal Large Language ModelsYuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou 0001, Chao Dong 0005, Rui Huang, Ruimao Zhang, Ying Shan. 8362-8371 [doi]

CAT-DM: Controllable Accelerated Virtual Try-On with Diffusion ModelJianhao Zeng, Dan Song 0006, Weizhi Nie, Hongshuo Tian, Tongtong Wang, An-An Liu. 8372-8382 [doi]

Exact Fusion via Feature Distribution Matching for Few-Shot Image GenerationYingbo Zhou, Yutong Ye, Pengyu Zhang, Xian Wei, Mingsong Chen. 8383-8392 [doi]

Cross Initialization for Face Personalization of Text-to-Image ModelsLianyu Pang, Jian Yin 0001, Haoran Xie 0001, Qiping Wang 0002, Qing Li 0001, Xudong Mao. 8393-8403 [doi]

EasyDrag: Efficient Point-Based Manipulation on Diffusion ModelsXingzhong Hou, Boxiao Liu, Yi Zhang, Jihao Liu, Yu Liu, Haihang You. 8404-8413 [doi]

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video GenerationYanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin, Tao Yang, Jingxu Zhang, Qi Dai, Zhiyuan Zhao, Chunyu Wang, Kai Qiu, Yuhui Yuan, Xiaoyan Sun, Chong Luo, Baining Guo. 8414-8424 [doi]

Towards Memorization-Free Diffusion ModelsChen Chen 0074, Daochang Liu, Chang Xu 0002. 8425-8434 [doi]

*Rui Zhu, Yingwei Pan, Yehao Li, Ting Yao, Zhenglong Sun 0001, Tao Mei 0001, Chang Wen Chen. 8435-8445 [doi]

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image GenerationJunyan Wang, Zhenhong Sun, Zhiyu Tan, Xuanbai Chen, Weihua Chen, Hao Li, Cheng Zhang, Yang Song. 8446-8455 [doi]

Text2QR: Harmonizing Aesthetic Customization and Scanning Robustness for Text-Guided QR Code GenerationGuangyang Wu, Xiaohong Liu 0001, Jun Jia, Xuehao Cui, Guangtao Zhai. 8456-8465 [doi]

Space-Time Diffusion Features for Zero-Shot Text-Driven Motion TransferDanah Yatim, Rafail Fridman, Omer Bar-Tal, Yoni Kasten, Tali Dekel. 8466-8476 [doi]

Video Frame Interpolation via Direct Synthesis with the Event-based ReferenceYuhan Liu, Yongjian Deng, Hao Chen 0034, Zhen Yang. 8477-8487 [doi]

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-Based Image EditingChong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang. 8488-8497 [doi]

EMOPortraits: Emotion-Enhanced Multimodal One-Shot Head AvatarsNikita Drobyshev, Antoni Bigata Casademunt, Konstantinos Vougioukas, Zoe Landgraf, Stavros Petridis, Maja Pantic. 8498-8507 [doi]

Spacetime Gaussian Feature Splatting for Real-Time Dynamic View SynthesisZhan Li, Zhang Chen, Zhong Li, Yi Xu. 8508-8520 [doi]

HOIDiffusion: Generating Realistic 3D Hand-Object Interaction DataMengqi Zhang, Yang Fu, Zheng-ding, Sifei Liu, Zhuowen Tu, Xiaolong Wang 0004. 8521-8531 [doi]

Learned Representation-Guided Diffusion Models for Large-Image GenerationAlexandros Graikos, Srikar Yellapragada, Minh-Quan Le, Saarthak Kapse, Prateek Prasanna, Joel H. Saltz, Dimitris Samaras. 8532-8542 [doi]

InstantBooth: Personalized Text-to-Image Generation without Test-Time FinetuningJing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung. 8543-8552 [doi]

TokenCompose: Text-to-Image Diffusion with Token-Level SupervisionZirui Wang, Zhizhou Sha, Zheng-ding, Yilin Wang, Zhuowen Tu. 8553-8564 [doi]

Geometry Transfer for Stylizing Radiance FieldsHyunyoung Jung 0001, Seonghyeon Nam, Nikolaos Sarafianos, Sungjoo Yoo, Alexander Sorkine-Hornung, Rakesh Ranjan. 8565-8575 [doi]

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion ModelsHuan Ling, Seung Wook Kim 0001, Antonio Torralba 0001, Sanja Fidler, Karsten Kreis. 8576-8588 [doi]

DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face GenerationHaonan Lin. 8589-8598 [doi]

Video-P2P: Video Editing with Cross-Attention ControlShaoteng Liu, Yuechen Zhang, Wenbo Li 0002, Zhe Lin 0001, Jiaya Jia. 8599-8608 [doi]

PAIR Diffusion: A Comprehensive Multimodal Object-Level Image EditorVidit Goel, Elia Peruzzo, Yifan Jiang 0001, Dejia Xu, Xingqian Xu, Nicu Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi. 8609-8618 [doi]

ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit AdaptationDar-Yen Chen, Hamish Tennent, Ching-Wen Hsu. 8619-8628 [doi]

DemoCaricature: Democratising Caricature Generation with a Rough SketchDar-Yen Chen, Ayan Kumar Bhunia, Subhadeep Koley, Aneeshan Sain, Pinaki Nath Chowdhury, Yi-Zhe Song. 8629-8639 [doi]

PhotoMaker: Customizing Realistic Human Photos via Stacked ID EmbeddingZhen Li 0031, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan. 8640-8650 [doi]

Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion ModelsKota Sueyoshi, Takashi Matsubara 0001. 8651-8660 [doi]

SNED: Superposition Network Architecture Search for Efficient Video Diffusion ModelZhengang Li, Yan Kang, Yuchen Liu, Difan Liu, Tobias Hinz, Feng Liu, Yanzhi Wang. 8661-8670 [doi]

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion ModelsZhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao, Yang Cao, Tao Mei 0001. 8671-8681 [doi]

Prompt-Free Diffusion: Taking "Text" Out of Text-to-Image Diffusion ModelsXingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang 0001, Irfan Essa, Humphrey Shi. 8682-8692 [doi]

DEADiff: An Efficient Stylization Diffusion Model with Disentangled RepresentationsTianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu 0001, Lang Chen, Qian He, Yongdong Zhang 0001. 8693-8702 [doi]

Fresco: Spatial-Temporal Correspondence for Zero-Shot Video TranslationShuai Yang 0001, Yifan Zhou, Ziwei Liu 0002, Chen Change Loy. 8703-8712 [doi]

Correcting Diffusion Generation Through ResamplingYujian Liu, Yang Zhang 0001, Tommi S. Jaakkola, Shiyu Chang. 8713-8723 [doi]

AnyScene: Customized Image Synthesis with Composited ForegroundRuidong Chen, Lanjun Wang, Weizhi Nie, Yongdong Zhang 0001, An-An Liu. 8724-8733 [doi]

Grid Diffusion Models for Text-to-Video GenerationTaegyeong Lee, Soyeong Kwon, Taehwan Kim. 8734-8743 [doi]

Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D DiffusionYuanxun Lu, Jingyang Zhang, Shiwei Li, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, Xun Cao, Yao Yao 0008. 8744-8753 [doi]

Anomaly Score: Evaluating Generative Models and Individual Generated Images Based on Complexity and VulnerabilityJaehui Hwang, Junghyuk Lee, Jong-Seok Lee. 8754-8763 [doi]

Zero-Painter: Training-Free Layout Control for Text-to-Image SynthesisMarianna Ohanyan, Hayk Manukyan 0001, Zhangyang Wang, Shant Navasardyan, Humphrey Shi. 8764-8774 [doi]

X- Adapter: Universal Compatibility of Plugins for Upgraded Diffusion ModelLingmin Ran, Xiaodong Cun, Jia-Wei Liu, Rui Zhao 0001, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou. 8775-8784 [doi]

Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance GenerationPhilipp Schröppel, Christopher Wewer, Jan Eric Lenssen, Eddy Ilg, Thomas Brox. 8785-8794 [doi]

Style Injection in Diffusion: A Training-Free Approach for Adapting Large-Scale Diffusion Models for Style TransferJiwoo Chung, Sangeek Hyun, Jae-Pil Heo. 8795-8805 [doi]

Vlogger: Make Your Dream A VlogShaobin Zhuang, Kunchang Li 0002, Xinyuan Chen, Yaohui Wang 0004, Ziwei Liu 0002, Yu Qiao 0001, Yali Wang 0001. 8806-8817 [doi]

Faces that Speak: Jointly Synthesising Talking Face and Speech from TextYoungjoon Jang, Ji-Hoon Kim, Junseok Ahn, Doyeop Kwak, Hongsun Yang, Yooncheol Ju, Ilhwan Kim, Byeong-Yeol Kim, Joon Son Chung. 8818-8828 [doi]

Prompt Augmentation for Self-supervised Text-guided Image ManipulationRumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim 0001. 8829-8838 [doi]

DragDiffusion: Harnessing Diffusion Models for Interactive Point-Based Image EditingYujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai. 8839-8849 [doi]

Make Pixels Dance: High-Dynamic Video GenerationYan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li. 8850-8860 [doi]

LEDITS++: Limitless Image Editing Using Text-to-Image ModelsManuel Brack, Felix Friedrich, Katharina Kornmeier, Linoy Tsaban, Patrick Schramowski, Kristian Kersting, Apolinário Passos. 8861-8870 [doi]

Emu Edit: Precise Image Editing via Recognition and Generation TasksShelly Sheynin, Adam Polyak, Uriel Singer, Yuval Kirstain, Amit Zohar, Oron Ashual, Devi Parikh, Yaniv Taigman. 8871-8879 [doi]

Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image ModelsGihyun Kwon, Simon Jenni, Dingzeyu Li, Joon-Young Lee, Jong Chul Ye, Fabian Caba Heilbron. 8880-8889 [doi]

ACT-Diffusion: Efficient Adversarial Consistency Training for One-Step Diffusion ModelsFei Kong, Jinhao Duan, Lichao Sun 0001, Hao Cheng, Renjing Xu, Hengtao Shen, Xiaofeng Zhu 0001, Xiaoshuang Shi, Kaidi Xu. 8890-8899 [doi]

3D Geometry-aware Deformable Gaussian Splatting for Dynamic View SynthesisZhicheng Lu, Xiang Guo, Le Hui, Tianrui Chen, Min Yang, Xiao Tang, Feng Zhu, Yuchao Dai. 8900-8910 [doi]

Boosting Diffusion Models with Moving Average Sampling in Frequency DomainYurui Qian, Qi Cai, Yingwei Pan, Yehao Li, Ting Yao, Qibin Sun, Tao Mei 0001. 8911-8920 [doi]

NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and MergingTakahiro Shirakawa, Seiichi Uchida. 8921-8930 [doi]

NeRF On-the-go: Exploiting Uncertainty for Distractor-free NeRFs in the WildWeining Ren, Zihan Zhu, Boyang Sun, Jiaqi Chen, Marc Pollefeys, Songyou Peng. 8931-8940 [doi]

Using Human Feedback to Fine-tune Diffusion Models without Any Reward ModelKai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Weihan Shen, Xiaolong Zhu, Xiu Li 0001. 8941-8951 [doi]

GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single ImageChong Bao, Yinda Zhang 0001, Yuan Li, Xiyu Zhang, Bangbang Yang, Hujun Bao, Marc Pollefeys, Guofeng Zhang 0001, Zhaopeng Cui. 8952-8963 [doi]

MaskPLAN: Masked Generative Layout Planning from Partial InputHang Zhang, Anton Savov, Benjamin Dillenburger. 8964-8973 [doi]

WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion ModelsChanghoon Kim, Kyle Min 0001, Maitreya Patel, Sheng Cheng, Yezhou Yang. 8974-8983 [doi]

Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake DetectionZhiyuan Yan 0002, Yuhao Luo, Siwei Lyu, Qingshan Liu, Baoyuan Wu. 8984-8994 [doi]

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection EditingZeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang. 8995-9004 [doi]

CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image Diffusion ModelsTuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag. 9005-9014 [doi]

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion ModelsHaomiao Ni, Bernhard Egger 0001, Suhas Lohit, Anoop Cherian, Ye Wang 0001, Toshiaki Koike-Akino, Sharon X. Huang, Tim K. Marks. 9015-9025 [doi]

HIVE: Harnessing Human Feedback for Instructional Visual EditingShu Zhang 0007, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang 0014, Silvio Savarese, Stefano Ermon, Caiming Xiong, Ran Xu. 9026-9036 [doi]

Taming Mode Collapse in Score Distillation for Text-to-3D GenerationPeihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest N. Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu 0001, Zhangyang Wang, Vikas Chandra. 9037-9047 [doi]

CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image GenerationKangfu Mei, Mauricio Delbracio, Hossein Talebi, Zhengzhong Tu, Vishal M. Patel, Peyman Milanfar. 9048-9058 [doi]

Universal Robustness via Median Randomized Smoothing for Real-World Super-ResolutionZakariya Chaouai, Mohamed Tamaazousti. 9059-9068 [doi]

ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image GenerationsMaitreya Patel, Changhoon Kim, Sheng Cheng, Chitta Baral, Yezhou Yang. 9069-9078 [doi]

CAMEL: CAusal Motion Enhancement Tailored for Lifting Text-Driven Video EditingGuiwei Zhang, Tianyu Zhang, Guanglin Niu, Zichang Tan, Yalong Bai, Qing Yang. 9079-9088 [doi]

FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept CompositionGanggui Ding, Canyu Zhao, Wen Wang, Zhen Yang 0009, Zide Liu, Hao Chen 0041, Chunhua Shen. 9089-9098 [doi]

Amodal Completion via Progressive Mixed Context DiffusionKatherine Xu, Lingzhi Zhang, Jianbo Shi. 9099-9109 [doi]

Named Entity Driven Zero-Shot Image ManipulationZhida Feng, Li Chen, Jing Tian, Jiaxiang Liu 0004, Shikun Feng. 9110-9119 [doi]

Learning Degradation-Unaware Representation with Prior-Based Latent Transformations for Blind Face RestorationLianxin Xie, Csbingbing Zheng, Wen Xue, Le Jiang, Cheng Liu 0001, Si Wu 0002, Hau-San Wong. 9120-9129 [doi]

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction ErrorJonas Ricker, Denis Lukovnikov, Asja Fischer. 9130-9140 [doi]

VRetouchEr: Learning Cross-Frame Feature Interdependence with Imperfection Flow for Face Retouching in VideosWen Xue, Le Jiang, Lianxin Xie, Si Wu 0002, Yong Xu 0007, Hau-San Wong. 9141-9150 [doi]

Generative Unlearning for Any IdentityJuwon Seo, Sung-Hoon Lee, Tae Young Lee, Seungjun Moon, Gyeong-Moon Park. 9151-9161 [doi]

Doubly Abductive Counterfactual Inference for Text-Based Image EditingXue-song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong, Yu-Gang Jiang. 9162-9171 [doi]

Text-Conditional Attribute Alignment Across Latent Spaces for 3D Controllable Face Image SynthesisFeifan Xu, Rui Li 0045, Si Wu 0002, Yong Xu 0007, Hau-San Wong. 9172-9181 [doi]

Customization Assistant for Text-to-image GenerationYufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun. 9182-9191 [doi]

Contrastive Denoising Score for Text-Guided Latent Diffusion Image EditingHyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye. 9192-9201 [doi]

Arbitrary-Scale Image Generation and Upsampling Using Latent Diffusion Model and Implicit Neural DecoderJinseok Kim, Tae-Kyun Kim 0001. 9202-9211 [doi]

VMC: Video Motion Customization Using Temporal Attention Adaption for Text-to-Video Diffusion ModelsHyeonho Jeong, Geon Yeong Park, Jong Chul Ye. 9212-9221 [doi]

Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout GenerationMohammad Amin Shabani, Zhaowen Wang, Difan Liu, Nanxuan Zhao, Jimei Yang, Yasutaka Furukawa. 9222-9231 [doi]

Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-ResolutionZhikai Chen, Fuchen Long, Zhaofan Qiu, Ting Yao, Wengang Zhou, Jiebo Luo, Tao Mei 0001. 9232-9241 [doi]

Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion ModelsPablo Marcos-Manchón, Roberto Alcover-Couso, Juan C. SanMiguel, Jose M. Martínez. 9242-9252 [doi]

Combining Frame and GOP Embeddings for Neural Video RepresentationJens Eirik Saethre, Roberto Azevedo, Christopher Schroers. 9253-9263 [doi]

PLACE: Adaptive Layout-Semantic Fusion for Semantic Image SynthesisZhengyao Lv, Yuxiang Wei 0001, Wangmeng Zuo, Kwan-Yee K. Wong. 9264-9274 [doi]

Your Student is Better than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion ModelsNikita Starodubcev, Dmitry Baranchuk, Artem Fedorov, Artem Babenko. 9275-9285 [doi]

Mitigating Motion Blur in Neural Radiance Fields with Events and FramesMarco Cannici, Davide Scaramuzza 0001. 9286-9296 [doi]

Unmixing Before Fusion: A Generalized Paradigm for Multi-Source-Based Hyperspectral Image SynthesisYang Yu 0045, Erting Pan, Xinya Wang, Yuheng Wu, Xiaoguang Mei, Jiayi Ma 0001. 9297-9306 [doi]

Rethinking FID: Towards a Better Evaluation Metric for Image GenerationSadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar. 9307-9315 [doi]

MarkovGen: Structured Prediction for Efficient Text-to-Image GenerationSadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar. 9316-9325 [doi]

Disco: Disentangled Control for Realistic Human Dance GenerationTan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai 0001, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu 0001, Lijuan Wang. 9326-9336 [doi]

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image EditingDenis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov. 9337-9346 [doi]

C3: High-Performance and Low-Complexity Neural Compression from a Single Image or VideoHyunjik Kim, Matthias Bauer 0001, Lucas Theis, Jonathan Richard Schwarz, Emilien Dupont. 9347-9358 [doi]

LightIt: Illumination Modeling and Control for Diffusion ModelsPeter Kocsis 0001, Julien Philip, Kalyan Sunkavalli, Matthias Nießner, Yannick Hold-Geoffroy. 9359-9369 [doi]

Rethinking the Spatial Inconsistency in Classifier-Free Diffusion GuidanceDazhong Shen, Guanglu Song, Zeyue Xue, Fu-Yun Wang, Yu Liu 0015. 9370-9379 [doi]

Initno: Boosting Text-to-Image Diffusion Models via Initial Noise OptimizationXiefan Guo, Jinlin Liu, Miaomiao Cui, Jiankai Li, Hongyu Yang, Di Huang 0001. 9380-9389 [doi]

On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation ParadigmPeng Sun, Bei Shi, Daiwei Yu, Tao Lin. 9390-9399 [doi]

On the Scalability of Diffusion-based Text-to-Image GenerationHao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto. 9400-9409 [doi]

Distilling ODE Solvers of Diffusion Models into Smaller StepsSanghwan Kim, Hao Tang, Fisher Yu 0001. 9410-9419 [doi]

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single ImageKyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei 0001, Deqing Sun, Jiajun Wu 0001. 9420-9429 [doi]

Fixed Point Diffusion ModelsXingjian Bai, Luke Melas-Kyriazi. 9430-9440 [doi]

Gaussian Shell Maps for Efficient 3D Human GenerationRameen Abdal, Yifan Wang 0011, Zifan Shi, Yinghao Xu, Ryan Po, Zhengfei Kuang, Qifeng Chen, Dit-Yan Yeung, Gordon Wetzstein. 9441-9451 [doi]

Inversion-Free Image Editing with Language-Guided Diffusion ModelsSihan Xu, Yidong Huang, Jiayi Pan 0002, Ziqiao Ma, Joyce Chai. 9454-9461 [doi]

TIGER: Time-Varying Denoising Model for 3D Point Cloud Generation with Diffusion ProcessZhiyuan Ren, Minchul Kim, Feng Liu, Xiaoming Liu. 9462-9471 [doi]

Beyond First-Order Tweedie: Solving Inverse Problems using Latent DiffusionLitu Rout, Yujia Chen, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu. 9472-9481 [doi]

U-VAP: User-specified Visual Appearance Personalization via Decoupled Self AugmentationYou Wu, Kean Liu, Xiaoyue Mi, Fan Tang, Juan Cao 0001, Jintao Li 0001. 9482-9491 [doi]

Repurposing Diffusion-Based Image Generators for Monocular Depth EstimationBingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler. 9492-9502 [doi]

EscherNet: A Generative Model for Scalable View SynthesisXin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi 0001, Andrew J. Davison. 9503-9513 [doi]

WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects Under OcclusionKhiem Vuong, N. Dinesh Reddy, Robert Tamburo, Srinivasa G. Narasimhan. 9514-9524 [doi]

Diffusion-FOF: Single-View Clothed Human Reconstruction via Diffusion-Based Fourier Occupancy FieldYuanzhen Li, Fei Luo 0004, Chunxia Xiao. 9525-9534 [doi]

Rethinking Inductive Biases for Surface Normal EstimationGwangbin Bae, Andrew J. Davison. 9535-9545 [doi]

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation MethodsMingQi Jiang, Saeed Khorram, Fuxin Li. 9546-9555 [doi]

MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGIXiang Yue, Yuansheng Ni, Tianyu Zheng, Kai Zhang 0033, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun 0001, Yu Su 0001, Wenhu Chen. 9556-9567 [doi]

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMsShengbang Tong, Zhuang Liu 0003, Yuexiang Zhai, Yi Ma 0001, Yann LeCun, Saining Xie. 9568-9578 [doi]

LISA: Reasoning Segmentation via Large Language ModelXin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu 0005, Jiaya Jia. 9579-9589 [doi]

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language ModelsYushi Hu, Otilia Stretcu, Chun-Ta Lu, Krishnamurthy Viswanathan, Kenji Hata, Enming Luo, Ranjay Krishna, Ariel Fuxman. 9590-9601 [doi]

EventPS: Real-Time Photometric Stereo Using an Event CameraBohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi. 9602-9611 [doi]

EvDiG: Event-guided Direct and Global Components SeparationXinyu Zhou, Peiqi Duan, Boyu Li, Chu Zhou, Chao Xu, Boxin Shi. 9612-9621 [doi]

MemSAM: Taming Segment Anything Model for Echocardiography Video SegmentationXiaolong Deng, Huisi Wu, Runhao Zeng, Jing Qin. 9622-9631 [doi]

Transcriptomics-Guided Slide Representation Learning in Computational PathologyGuillaume Jaume, Lukas Oldenburg, Anurag Vaidya, Richard J. Chen, Drew F. K. Williamson, Thomas Peeters, Andrew H. Song, Faisal Mahmood. 9632-9644 [doi]

Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image RegistrationMingyuan Meng, Dagan Feng 0001, Lei Bi 0001, Jinman Kim. 9645-9654 [doi]

G3DR: Generative 3D Reconstruction in ImageNetPradyumna Reddy, Ismail Elezi, Jiankang deng. 9655-9665 [doi]

CityDreamer: Compositional Generative Model of Unbounded 3D CitiesHaozhe Xie, Zhaoxi Chen 0009, Fangzhou Hong, Ziwei Liu 0002. 9666-9675 [doi]

6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose EstimationLi Xu, Haoxuan Qu, Yujun Cai, Jun Liu. 9676-9686 [doi]

Generative Proxemics: A Prior for 3D Social Interaction from ImagesLea Müller, Vickie Ye, Georgios Pavlakos, Michael J. Black, Angjoo Kanazawa. 9687-9697 [doi]

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view GenerationHanzhe Hu, Zhizhuo Zhou, Varun Jampani, Shubham Tulsiani. 9698-9707 [doi]

WorDepth: Variational Language Prior for Monocular Depth EstimationZiyao Zeng, Daniel Wang 0005, Fengyu Yang, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong 0001. 9708-9719 [doi]

Free3D: Consistent Novel View Synthesis Without 3D RepresentationChuanxia Zheng, Andrea Vedaldi. 9720-9731 [doi]

PostureHMR: Posture Transformation for 3D Human Mesh RecoveryYu-Pei Song, Xiao Wu 0001, Zhaoquan Yuanl, Jian-Jun Qiao, Qiang Peng. 9732-9741 [doi]

3DFIRES: Few Image 3D REconstruction for Scenes with Hidden SurfacesLinyi Jin, Nilesh Kulkarni, David F. Fouhey. 9742-9751 [doi]

Learning the 3D Fauna of the WebZizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht 0001, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu 0001. 9752-9762 [doi]

Bilateral Propagation Network for Depth CompletionJie Tang, Fei-Peng Tian, Boshi An, Jian Li, Ping Tan. 9763-9772 [doi]

Efficient Privacy-Preserving Visual Localization Using 3D Ray CloudsHeeJoon Moon, Chunghwan Lee, Je Hyeong Hong. 9773-9783 [doi]

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained DiffusionZehuan Huang, Hao Wen, Junting Dong, Yaohui Wang 0001, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao 0001, Bo Dai 0002, Lu Sheng. 9784-9794 [doi]

Doodle Your 3D: from Abstract Freehand Sketches to Precise 3D ShapesHmrishav Bandyopadhyay, Subhadeep Koley, Ayan Das 0003, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang 0002, Yi-Zhe Song. 9795-9805 [doi]

LowRankOcc: Tensor Decomposition and Low-Rank Recovery for Vision-Based 3D Semantic Occupancy PredictionLinqing Zhao, Xiuwei Xu, Ziwei Wang 0001, Yunpeng Zhang, Borui Zhang, Wenzhao Zheng, Dalong Du, Jie Zhou 0001, Jiwen Lu. 9806-9815 [doi]

CNC-Net: Self-Supervised Learning for CNC Machining OperationsMohsen Yavartanoo, Sangmin Hong, Reyhaneh Neshatavar, Kyoung Mu Lee. 9816-9825 [doi]

Reconstructing Hands in 3D with TransformersGeorgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik. 9826-9836 [doi]

Boosting Self-Supervision for Single-View Scene Completion via Knowledge DistillationKeonhee Han, Dominik Muhle, Felix Wimbauer, Daniel Cremers. 9837-9847 [doi]

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language ReasoningRui Li, Tobias Fischer 0004, Mattia Segù, Marc Pollefeys, Luc Van Gool, Federico Tombari. 9848-9858 [doi]

Depth Prompting for Sensor-Agnostic Depth EstimationJin-Hwi Park, Chanhwi Jeong, Junoh Lee, Hae-Gon Jeon. 9859-9869 [doi]

ViewFusion: Towards Multi-View Consistency via Interpolated DenoisingXianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel. 9870-9880 [doi]

Slice3D: Multi-Slice, Occlusion-Revealing, Single View 3D ReconstructionYizhi Wang, Wallace P. Lira, Wenqi Wang, Ali Mahdavi-Amiri, Hao Zhang 0002. 9881-9891 [doi]

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling PriorZike Wu, Pan Zhou 0002, Xuanyu Yi, Xiaoding Yuan, Hanwang Zhang. 9892-9902 [doi]

GigaPose: Fast and Robust Novel Object Pose Estimation via One CorrespondenceVan Nguyen Nguyen, Thibault Groueix, Mathieu Salzmann, Vincent Lepetit. 9903-9913 [doi]

RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3DLingteng Qiu, Guanying Chen, Xiaodong Gu 0004, Qi Zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, Xiaoguang Han 0001. 9914-9925 [doi]

Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection FusionHao Ai, Lin Wang. 9926-9935 [doi]

SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human ReconstructionZechuan Zhang, Zongxin Yang, Yi Yang. 9936-9947 [doi]

Diffusion Time-step Curriculum for One Image to 3D GenerationXuanyu Yi, Zike Wu, Qingshan Xu, Pan Zhou 0002, Joo-Hwee Lim, Hanwang Zhang. 9948-9958 [doi]

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose EstimationYamei Chen, Yan Di, Guangyao Zhai, Fabian Manhardt, Chenyangguang Zhang, Ruida Zhang, Federico Tombari, Nassir Navab, Benjamin Busam. 9959-9969 [doi]

Wonder3D: Single Image to 3D Using Cross-Domain DiffusionXiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu 0025, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang. 9970-9980 [doi]

En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic DataYifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie. 9981-9991 [doi]

MOHO: Learning Single-View Hand-Held Object Reconstruction with Multi-View Occlusion-Aware SupervisionChenyangguang Zhang, Guanlong Jiao, Yan Di, Gu Wang 0001, Ziqin Huang, Ruida Zhang, Fabian Manhardt, Bowen Fu, Federico Tombari, Xiangyang Ji. 9992-10002 [doi]

Template Free Reconstruction of Human-object Interaction with Procedural Interaction GenerationXianghui Xie, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-Moll. 10003-10015 [doi]

PatchFusion: An End-to-End Tile-Based Framework for High-Resolution Monocular Metric Depth EstimationZhenyu Li, Shariq Farooq Bhat, Peter Wonka. 10016-10025 [doi]

SPAD: Spatially Aware Multi-View DiffusersYash Kant, Aliaksandr Siarohin, Ziyi Wu, Michael Vasilkovsky, Guocheng Qian, Jian Ren, Riza Alp Güler, Bernard Ghanem, Sergey Tulyakov, Igor Gilitschenski. 10026-10038 [doi]

GenFlow: Generalizable Recurrent Flow for 6D Pose Refinement of Novel ObjectsSungphill Moon, Hyeontae Son, Dongcheol Hur, Sangwook Kim. 10039-10049 [doi]

PointInfinity: Resolution-Invariant Point Diffusion ModelsZixuan Huang 0001, Justin Johnson 0001, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu. 10050-10060 [doi]

ZeroShape: Regression-Based Zero-Shot Shape ReconstructionZixuan Huang 0001, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg. 10061-10071 [doi]

One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D DiffusionMinghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu 0016, Xinyue Wei, Hansheng Chen 0001, Chong Zeng 0001, Jiayuan Gu, Hao Su 0001. 10072-10083 [doi]

ConTex-Human: Free-View Rendering of Human from a Single Image with Texture-Consistent SynthesisXiangjun Gao, Xiaoyu Li, Chaopeng Zhang, Qi Zhang, Yanpei Cao, Ying Shan, Long Quan. 10084-10094 [doi]

MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D ImagesJunwen Huang, Hao Yu 0010, Kuan-Ting Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam. 10095-10105 [doi]

UniDepth: Universal Monocular Metric Depth EstimationLuigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segù, Siyuan Li, Luc Van Gool, Fisher Yu 0001. 10106-10116 [doi]

G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View ImagesZixiong Huang, Qi Chen 0014, Libo Sun, Yifan Yang, Naizhou Wang, Qi Wu 0001, Mingkui Tan. 10117-10126 [doi]

3DToonify: Creating Your High-Fidelity 3D Stylized Avatar Easily from 2D Portrait ImagesYifang Men, Hanxi Liu, Yuan Yao, Miaomiao Cui, Xuansong Xie, Zhouhui Lian. 10127-10137 [doi]

Adaptive Fusion of Single-View and Multi-View Depth for Autonomous DrivingJunda Cheng, Wei Yin, Kaixuan Wang, Xiaozhi Chen, Shijie Wang, Xin Yang 0008. 10138-10147 [doi]

HiPose: Hierarchical Binary Surface Encoding and Correspondence Pruning for RGB-D 6DoF Object Pose EstimationYongliang Lin, Yongzhi Su, Praveen Nathan, Sandeep Inuganti, Yan Di, Martin Sundermeyer, Fabian Manhardt, Didier Stricker, Jason R. Rambach, Yu Zhang 0018. 10148-10158 [doi]

HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object InteractionsHao Xu, HaiPeng Li, Yinqiao Wang, Shuaicheng Liu, Chi-Wing Fu. 10159-10169 [doi]

3D-SceneDreamer: Text-Driven 3D-Consistent Scene GenerationSongchun Zhang, Yibo Zhang, Quan Zheng 0004, Rui Ma 0011, Wei Hua, Hujun Bao, Weiwei Xu, Changqing Zou. 10170-10180 [doi]

NViST: In the Wild New View Synthesis from a Single Image with TransformersWonbong Jang, Lourdes Agapito. 10181-10193 [doi]

CAD : Photorealistic 3D Generation via Adversarial DistillationZiyu Wan, Despoina Paschalidou, Ian Huang, Hongyu Liu, Bokui Shen, Xiaoyu Xiang, Jing Liao 0001, Leonidas J. Guibas. 10194-10207 [doi]

Splatter Image: Ultra-Fast Single-View 3D ReconstructionStanislaw Szymanowicz, Christian Rupprecht 0001, Andrea Vedaldi. 10208-10217 [doi]

Joint Reconstruction of 3D Human and Object via Contact-Based Refinement TransformerHyeongjin Nam, Daniel Sungho Jung, Gyeongsik Moon, Kyoung Mu Lee. 10218-10227 [doi]

Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D PriorCheng Chen, Xiaofeng Yang, Fan Yang, Chengzeng Feng, Zhoujie Fu, Chuan-Sheng Foo, Guosheng Lin, Fayao Liu. 10228-10237 [doi]

Object Pose Estimation via the Aggregation of Diffusion FeaturesTianfu Wang 0003, Guosheng Hu, Hongguang Wang. 10238-10247 [doi]

MonoCD: Monocular 3D Object Detection with Complementary DepthsLongfei Yan, Pei Yan, Shengzhou Xiong, Xuanyu Xiang, Yihua Tan. 10248-10257 [doi]

MultiDiff: Consistent Novel View Synthesis from a Single ImageNorman Müller, Katja Schwarz, Barbara Rössle, Lorenzo Porzi, Samuel Rota Bulò, Matthias Nießner, Peter Kontschieder. 10258-10268 [doi]

SeaBird: Segmentation in Bird's View with Dice Loss Improves Monocular 3D Detection of Large ObjectsAbhinav Kumar 0004, Yuliang Guo, Xinyu Huang 0001, Liu Ren, Xiaoming Liu 0002. 10269-10280 [doi]

Learning Occupancy for Monocular 3D Object DetectionLiang Peng, Junkai Xu, Haoran Cheng, Zheng Yang, Xiaopei Wu, Wei Qian 0003, Wenxiao Wang 0001, Boxi Wu, Deng Cai 0001. 10281-10292 [doi]

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene FlowsZhenggang Tang, Zhongzheng Ren, Xiaoming Zhao 0001, Bowen Wen, Jonathan Tremblay, Stan Birchfield, Alexander G. Schwing. 10293-10303 [doi]

R-Cyclic Diffuser: Reductive and Cyclic Latent Diffusion for 3D Clothed Human DigitalizationKennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan-Sheng Foo, Weisi Lin. 10304-10313 [doi]

Unleashing Network Potentials for Semantic Scene CompletionFengyun Wang, Qianru Sun, Dong Zhang, Jinhui Tang 0001. 10314-10323 [doi]

Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with TransformersZi-Xin Zou, ZhiPeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao, Song-Hai Zhang. 10324-10335 [doi]

VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head ReenactmentPhong Tran, Egor Zakharov, Long-Nhat Ho, Anh-Tuan Tran, Liwen Hu, Hao Li. 10336-10348 [doi]

Compressed 3D Gaussian Splatting for Accelerated Novel View SynthesisSimon Niedermayr, Josef Stumpfegger, Rüdiger Westermann. 10349-10358 [doi]

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar CreationXiyi Chen, Marko Mihajlovic, Shaofei Wang, Sergey Prokudin, Siyu Tang 0001. 10359-10370 [doi]

Depth Anything: Unleashing the Power of Large-Scale Unlabeled DataLihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao. 10371-10381 [doi]

SAOR: Single-View Articulated Object ReconstructionMehmet Aygün, Oisin Mac Aodha. 10382-10391 [doi]

HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed Distance FieldsHaozhe Qi, Chen Zhao, Mathieu Salzmann, Alexander Mathis. 10392-10402 [doi]

Diffusion-Driven GAN Inversion for Multi-Modal Face Image GenerationJihyun Kim, Changjae Oh, Hoseok Do, Soohyun Kim, Kwanghoon Sohn. 10403-10412 [doi]

Novel View Synthesis with View-Dependent Effects from a Single ImageJuan Luis Gonzalez Bello, Munchurl Kim. 10413-10423 [doi]

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-Speech Gesture GenerationXingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo. 10424-10434 [doi]

Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout ReconstructionCheng Sun 0004, Wei-En Tai, Yu-Lin Shih, Kuan-Wei Chen, Yong-Jing Syu, Kent Selwyn The, Yu-Chiang Frank Wang, Hwann-Tzong Chen. 10435-10445 [doi]

Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth EstimationHoang Chuong Nguyen, Tianyu Wang, José M. Álvarez 0004, Miaomiao Liu 0001. 10446-10455 [doi]

DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View SynthesisYuming Gu, Hongyi Xu, You Xie, Guoxian Song, Yichun Shi, Di Chang, Jing Yang, Linjie Luo. 10456-10465 [doi]

3D-LFM: Lifting Foundation ModelMosam Dabhi, László A. Jeni, Simon Lucey. 10466-10475 [doi]

MRC-Net: 6-DoF Pose Estimation with MultiScale Residual CorrelationYuelong Li, Yafei Mao, Raja Bala, Sunil Hadap. 10476-10486 [doi]

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion PriorsBiwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie. 10487-10497 [doi]

VS: Reconstructing Clothed 3D Human from Single Image via Vertex ShiftLeyuan Liu 0001, Yuhan Li, Yunqi Gao, Changxin Gao, Yuanyuan Liu, Jingying Chen. 10498-10507 [doi]

Weakly Supervised Monocular 3D Detection with a Single-View ImageXueying Jiang, Sheng Jin 0002, Lewei Lu, Xiaoqin Zhang 0002, Shijian Lu. 10508-10518 [doi]

From-Ground-To-Objects: Coarse-to-Fine Self-supervised Monocular Depth Estimation of Dynamic Objects with Ground Contact PriorJaeho Moon, Juan Luis Gonzalez Bello, Byeongjun Kwon, Munchurl Kim. 10519-10529 [doi]

Gated Fields: Learning Scene Reconstruction from Gated VideosAndrea Ramazzina, Stefanie Walz, Pragyan Dahal, Mario Bijelic, Felix Heide. 10530-10541 [doi]

SCINeRF: Neural Radiance Fields from a Snapshot Compressive ImageYunhao Li, Xiaodong Wang, Ping Wang, Xin Yuan, Peidong Liu. 10542-10552 [doi]

Instance-Aware Contrastive Learning for Occluded Human Mesh ReconstructionMi-Gyeong Gwon, Gi Mun Um, Won-Sik Cheong, Wonjun Kim 0001. 10553-10562 [doi]

IBD-SLAM: Learning Image-Based Depth Fusion for Generalizable SLAMMinghao Yin, Shangzhe Wu, Kai Han. 10563-10573 [doi]

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3DSangmin Woo, Byeongjun Park, Hyojun Go, Jin Young Kim, Changick Kim. 10574-10584 [doi]

UV-IDM: Identity-Conditioned Latent Diffusion Model for Face UV-Texture GenerationHong Li, Yutang Feng, Song Xue, Xuhui Liu, Bohan Zeng, Shanglin Li, Boyu Liu, Jianzhuang Liu, Shumin Han, Baochang Zhang 0001. 10585-10595 [doi]

AttriHuman-3D: Editable 3D Human Avatar Generation with Attribute Decomposition and IndexingFan Yang, Tianyi Chen, Xiaosheng He, Zhongang Cai, Lei Yang 0045, Si Wu 0002, Guosheng Lin. 10596-10605 [doi]

Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth EstimationLior Talker, Aviad Cohen 0004, Erez Yosef, Alexandra Dana, Michael Dinerstein. 10606-10616 [doi]

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion FeaturesChenfeng Xu, Huan Ling, Sanja Fidler, Or Litany. 10617-10627 [doi]

Bayesian Diffusion Models for 3D Shape ReconstructionHaiyang Xu, Yu Lei, Zeyuan Chen, Xiang Zhang 0015, Yue Zhao 0006, Yilin Wang, Zhuowen Tu. 10628-10638 [doi]

LaneCPP: Continuous 3D Lane Detection Using Physical PriorsMaximilian Pittner, Joel Janai, Alexandru Paul Condurache. 10639-10648 [doi]

Enhancing 3D Fidelity of Text-to-3D using Cross-View CorrespondencesSeungwook Kim, Kejie Li, Xueqing Deng, Yichun Shi, Minsu Cho, Peng Wang. 10649-10658 [doi]

MonoDiff: Monocular 3D Object Detection and Pose Estimation with Diffusion ModelsYasiru Ranasinghe, Deepti Hegde, Vishal M. Patel. 10659-10670 [doi]

HiLo: Detailed and Robust 3D Clothed Human Reconstruction with High-and Low-Frequency Information of Parametric ModelsYifan Yang, Dong Liu 0002, Shuhai Zhang, Zeshuai Deng, Zixiong Huang, Mingkui Tan. 10671-10681 [doi]

MPOD123: One Image to 3D Content Generation Using Mask-Enhanced Progressive Outline-to-Detail OptimizationJimin Xu, Tianbao Wang, Tao Jin 0004, Shengyu Zhang 0001, Dongjie Fu, Zhe Wang, Jiangjing Lyu, Chengfei Lv, Chaoyue Niu, Zhou Yu 0001, Zhou Zhao, Fei Wu 0001. 10682-10692 [doi]

GeoReF: Geometric Alignment Across Shape Variation for Category-level Object Pose RefinementLinfang Zheng, Tze Ho Elden Tse, Chen Wang, Yinghan Sun, Hua Chen 0007, Ales Leonardis, Wei Zhang 0013, Hyung Jin Chang. 10693-10703 [doi]

Unsupervised 3D Structure Inference from Category-Specific Image CollectionsWeikang Wang, Dongliang Cao, Florian Bernard. 10704-10714 [doi]

Neural Parametric Gaussians for Monocular Non-Rigid Object ReconstructionDevikalyan Das, Christopher Wewer, Raza Yunus, Eddy Ilg, Jan Eric Lenssen. 10715-10725 [doi]

BiTT: Bi-Directional Texture Reconstruction of Interacting Two Hands from a Single ImageMinje Kim, Tae-Kyun Kim 0001. 10726-10735 [doi]

DeCoTR: Enhancing Depth Completion with 2D and 3D AttentionsYunxiao Shi, Manish Kumar Singh 0002, Hong Cai, Fatih Porikli. 10736-10746 [doi]

MonoNPHM: Dynamic Head Reconstruction from Monocular VideosSimon Giebenhain, Tobias Kirschstein, Markos Georgopoulos, Martin Rünz, Lourdes Agapito, Matthias Nießner. 10747-10758 [doi]

FakeInversion: Learning to Detect Images from Unseen Text-to-Image Models by Inverting Stable DiffusionGeorge Cazenavette, Avneesh Sud, Thomas Leung, Ben Usman. 10759-10769 [doi]

Forgery-aware Adaptive Transformer for Generalizable Synthetic Image DetectionHuan Liu, Zichang Tan, Chuangchuang Tan, Yunchao Wei, Jingdong Wang 0001, Yao Zhao 0001. 10770-10780 [doi]

Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel MethodsChenfan Qu, Yiwu Zhong, Chongyu Liu, Guitao Xu, Dezhi Peng, Fengjun Guo, Lianwen Jin. 10781-10790 [doi]

ProMark: Proactive Diffusion Watermarking for Causal AttributionVishal Asnani, John P. Collomosse, Tu Bui, Xiaoming Liu 0002, Shruti Agarwal. 10802-10811 [doi]

CGI-DM: Digital Copyright Authentication for Diffusion Models via Contrasting Gradient InversionXiaoyu Wu, Yang Hua, Chumeng Liang, Jiaru Zhang, Hao Wang 0022, Tao Song, Haibing Guan. 10812-10821 [doi]

SCoFT: Self-Contrastive Fine-Tuning for Equitable Image GenerationZhixuan Liu, Peter Schaldenbrand, Beverley-Claire Okogwu, Wenxuan Peng, Wenxuan Peng, Youngsik Yun, Andrew Hundt, Jihie Kim, Jean Oh. 10822-10832 [doi]

Would Deep Generative Models Amplify Bias in Future Models?Tianwei Chen, Yusuke Hirota, Mayu Otani, Noa Garcia, Yuta Nakashima. 10833-10843 [doi]

Training Diffusion Models Towards Diverse Image Generation with Reinforcement LearningZichen Miao, Jiang Wang 0012, Ze Wang 0008, Zhengyuan Yang, Lijuan Wang, Qiang Qiu, Zicheng Liu 0001. 10844-10853 [doi]

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question AnsweringZaid Khan 0001, Yun Fu 0001. 10854-10863 [doi]

Visual Objectification in Films: Towards a New AI Task for Video InterpretationJulie Tores, Lucile Sassatelli, Hui-Yin Wu, Clement Bergman, Lea Andolfi, Victor Ecrement, Frédéric Precioso, Thierry Devars, Magali Guaresi, Virginie Julliard, Sarah Lecossais. 10864-10874 [doi]

ToonerGAN: Reinforcing GANs for Obfuscating Automated Facial IndexingKartik Thakral, Shashikant Prasad, Stuti Aswani, Mayank Vatsa, Richa Singh 0001. 10875-10884 [doi]

MCPNet: An Interpretable Classifier via Multi-Level Concept PrototypesBor-Shiun Wang, Chien-Yi Wang, Wei-chen Chiu. 10885-10894 [doi]

Visual Concept Connectome (VCC): Open World Concept Discovery and Their Interlayer Connections in Deep ModelsMatthew Kowal, Richard P. Wildes, Konstantinos G. Derpanis. 10895-10905 [doi]

Discover and Mitigate Multiple Biased Subgroups in Image ClassifiersZeliang Zhang, Mingqian Feng, Zhiheng Li 0002, Chenliang Xu. 10906-10915 [doi]

CORES: Convolutional Response-based Score for Out-of-distribution DetectionKeke Tang, Chao Hou, Weilong Peng, Runnan Chen, Peican Zhu, Wenping Wang, Zhihong Tian. 10916-10925 [doi]

Token Transformation Matters: Towards Faithful Post-Hoc Explanation for Vision TransformerJunyi Wu, Bin Duan, Weitai Kang, Hao Tang 0005, Yan Yan 0002. 10926-10935 [doi]

On the Faithfulness of Vision Transformer ExplanationsJunyi Wu, Weitai Kang, Hao Tang 0005, Yuan Hong, Yan Yan 0002. 10936-10945 [doi]

Understanding Video Transformers via Universal Concept DiscoveryMatthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov. 10946-10956 [doi]

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing Their ContributionsNamitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R. Maiya, Max Ehrlich, Abhinav Shrivastava. 10957-10967 [doi]

WWW: A Unified Framework for Explaining what, Where and why of Neural Networks by Interpretation of Neuron ConceptsYong Hyun Ahn, Hyeon Bae Kim, Seong-Tae Kim. 10968-10977 [doi]

ManiFPT: Defining and Analyzing Fingerprints of Generative ModelsHae Jin Song, Mahyar Khayatkhoei, Wael AbdAlmageed. 10971-10981 [doi]

HDQMF: Holographic Feature Decomposition using Quantum AlgorithmsPrathyush Poduval, Zhuowen Zou, Mohsen Imani. 10978-10987 [doi]

SLICE: Stabilized LIME for Consistent Explanations for Image ClassificationRevoti Prasad Bora, Philipp Terhörst, Raymond N. J. Veldhuis, Raghavendra Ramachandra, Kiran B. Raja. 10988-10996 [doi]

What Sketch Explainability Really Means for Downstream Tasks?Hmrishav Bandyopadhyay, Pinaki Nath Chowdhury, Ayan Kumar Bhunia, Aneeshan Sain, Tao Xiang 0002, Yi-Zhe Song. 10997-11008 [doi]

Structured Gradient-Based Interpretations via Norm-Regularized Adversarial TrainingShizhan Gong, Qi Dou 0001, Farzan Farnia. 11009-11018 [doi]

Learning Triangular Distribution in Visual WorldPing Chen, Xingpeng Zhang, Chengtao Zhou, Dichao Fan, Peng Tu, Le Zhang 0001, Yanlin Qian. 11019-11029 [doi]

Incremental Residual Concept Bottleneck ModelsChenming Shang, Shiji Zhou, Hengyuan Zhang, Xinzhe Ni, Yujiu Yang, Yuwang Wang. 11030-11040 [doi]

Uncertainty Visualization via Low-Dimensional Posterior ProjectionsOmer Yair, Elias Nehme, Tomer Michaeli. 11041-11051 [doi]

Epistemic Uncertainty Quantification for Pretrained Neural NetworksHanjing Wang, Qiang Ji. 11052-11061 [doi]

Interpretable Measures of Conceptual Similarity by Complexity-Constrained Descriptive Auto-EncodingAlessandro Achille, Greg Ver Steeg, Tian-Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto. 11062-11071 [doi]

CAPE: CAM as a Probabilistic Ensemble for Enhanced DNN InterpretationTownim Faisal Chowdhury, Kewen Liao, Vu Minh Hieu Phan, Minh-Son To, Yutong Xie, Kevin Hung, David Ross, Anton van den Hengel, Johan W. Verjans, Zhibin Liao. 11072-11081 [doi]

Discovering and Mitigating Visual Biases Through Keyword ExplanationYounghyun Kim, Sangwoo Mo, Minkyu Kim 0004, Kyungmin Lee, Jaeho Lee 0001, Jinwoo Shin. 11082-11092 [doi]

DiG-IN: Diffusion Guidance for Investigating Networks - Uncovering Classifier Differences, Neuron Visualisations, and Visual Counterfactual ExplanationsMaximilian Augustin, Yannic Neuhaus, Matthias Hein 0001. 11093-11103 [doi]

Cross-dimension Affinity Distillation for 3D EM Neuron SegmentationXiaoyu Liu, MiaoMiao Cai, Yinda Chen, Yueyi Zhang, Te Shi 0003, Ruobing Zhang, Xuejin Chen, Zhiwei Xiong. 11104-11113 [doi]

Continual Self-Supervised Learning: Towards Universal Multi-Modal Medical Data Representation LearningYiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, Qi Wu 0001, Yong Xia 0001. 11114-11124 [doi]

A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive LearningYuelin Zhang, Pengyu Zheng, Wanquan Yan, Chengyu Fang, Shing Shin Cheng. 11125-11136 [doi]

CARZero: Cross-Attention Alignment for Radiology Zero-Shot ClassificationHaoran Lai, Qingsong Yao, Zihang Jiang, Rongsheng Wang, Zhiyang He, Xiaodong Tao, S. Kevin Zhou. 11137-11146 [doi]

Towards Generalizable Tumor SynthesisQi Chen, Xiaoxi Chen, Haorui Song, Zhiwei Xiong, Alan L. Yuille, Chen Wei 0002, Zongwei Zhou. 11147-11158 [doi]

Tyche: Stochastic in-Context Learning for Medical Image SegmentationMarianne Rakic, Hallee E. Wong, Jose Javier Gonzalez Ortiz, Beth A. Cimini, John V. Guttag, Adrian V. Dalca. 11159-11173 [doi]

Structure-Aware Sparse-View X-Ray 3D ReconstructionYuanhao Cai, Jiahao Wang, Alan L. Yuille, Zongwei Zhou, Angtian Wang. 11174-11183 [doi]

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image SegmentationZiyang Chen, Yongsheng Pan, Yiwen Ye, Mengkang Lu, Yong Xia. 11184-11193 [doi]

Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image SegmentationYunhe Gao. 11194-11204 [doi]

2RV: Cross-Regional and Cross-View Learning for Sparse-View CBCT ReconstructionYiqun Lin, Jiewen Yang, Hualiang Wang, Xinpeng Ding, Wei Zhao 0029, Xiaomeng Li 0001. 11205-11214 [doi]

Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image RegistrationTony C. W. Mok, Zi Li, Yunhao Bai, Jianpeng Zhang, Wei Liu 0127, Yan-Jie Zhou, Ke Yan 0006, Dakai Jin, Yu Shi, Xiaoli Yin, Le Lu 0009, Ling Zhang 0002. 11215-11225 [doi]

SI-MIL: Taming Deep MIL for Self-Interpretability in Gigapixel HistopathologySaarthak Kapse, Pushpak Pati, Srijan Das, Jingwei Zhang, Chao Chen 0012, Maria Vakalopoulou, Joel H. Saltz, Dimitris Samaras, Rajarsi R. Gupta, Prateek Prasanna. 11226-11237 [doi]

Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-Ray Expert ModelsWeiwei Cao, Jianpeng Zhang, Yingda Xia, Tony C. W. Mok, Zi Li, Xianghua Ye, Le Lu 0001, Jian Zheng, YuXing Tang, Ling Zhang 0002. 11238-11247 [doi]

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image ClassificationJiangbo Shi, Chen Li 0011, Tieliang Gong, Yefeng Zheng 0001, Huazhu Fu. 11248-11258 [doi]

Virtual Immunohistochemistry Staining for Histological Images Assisted by Weakly-supervised LearningJiahan Li, Jiuyang Dong, Shenjin Huang, Xi Li, Junjun Jiang, Xiaopeng Fan, Yongbing Zhang. 11259-11268 [doi]

Representing Part-Whole Hierarchies in Foundation Models by Learning Localizability, Composability, and Decomposability from Anatomy via Self-SupervisionMohammad Reza Hosseinzadeh Taher, Michael B. Gotway, Jianming Liang. 11269-11281 [doi]

XFibrosis: Explicit Vessel-Fiber Modeling for Fibrosis Staging from Liver Pathology ImagesChong Yin, Siqi Liu 0003, Fei Lyu 0004, Jiahao Lu, Sune Darkner, Vincent Wai-Sun Wong, Pong C. Yuen. 11282-11291 [doi]

Prompting Vision Foundation Models for Pathology Image AnalysisChong Yin, Siqi Liu 0003, Kaiyang Zhou, Vincent Wai-Sun Wong, Pong C. Yuen. 11292-11301 [doi]

One-Prompt to Segment All Medical ImagesJunDe Wu, Min Xu. 11302-11312 [doi]

Learning Large-Factor EM Image Super-Resolution with Generative PriorsJiateng Shou, Zeyu Xiao, Shiyu Deng, Wei Huang 0036, Peiyao Shi, Ruobing Zhang, Zhiwei Xiong, Feng Wu 0001. 11313-11322 [doi]

Dynamic Graph Representation with Knowledge-Aware Attention for Histopathology Whole Slide Image AnalysisJiawen Li, Yuxuan Chen, Hongbo Chu, Qiehe Sun, Tian Guan, Anjia Han, Yonghong He. 11323-11332 [doi]

MindBridge: A Cross-Subject Brain Decoding FrameworkShizun Wang, Songhua Liu, Zhenxiong Tan, Xinchao Wang. 11333-11342 [doi]

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational PathologyWenhao Tang, Fengtao Zhou, Sheng Huang 0001, Xiang Zhu, Yi Zhang, Bo Liu 0005. 11343-11352 [doi]

Data-Efficient Unsupervised Interpolation Without Any Intermediate Frame for 4D Medical ImagesJungeun Kim, Hangyul Yoon, Geondo Park, Kyungsu Kim, Eunho Yang. 11353-11364 [doi]

Rethinking Diffusion Model for Multi-Contrast MRI Super-ResolutionGuangyuan Li, Chen Rao, Juncheng Mo, Zhanjie Zhang, Wei Xing 0001, Lei Zhao 0011. 11365-11374 [doi]

Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical ImagesChaoqin Huang, Aofan Jiang, Jinghao Feng, Ya Zhang, Xinchao Wang, Yanfeng Wang. 11375-11385 [doi]

ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-PromptingYankai Jiang 0003, Zhongzhen Huang, Rongzhao Zhang, Xiaofan Zhang 0002, Shaoting Zhang 0001. 11386-11397 [doi]

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic InteractionHao Li, Ying Chen, Yifei Chen, Rongshan Yu, Wenxian Yang, Liansheng Wang, Bowen Ding, Yuchen Han. 11398-11407 [doi]

Incremental Nuclei Segmentation from Histopathological Images via Future-class Awareness and Compatibility-inspired DistillationHuyong Wang, Huisi Wu, Jing Qin. 11408-11417 [doi]

PH-Net: Semi-Supervised Breast Lesion Segmentation via Patch-Wise HardnessSiyao Jiang, Huisi Wu, Junyang Chen 0001, Qin Zhang 0011, Jing Qin. 11418-11427 [doi]

ToNNO: Tomographic Reconstruction of a Neural Network's Output for Weakly Supervised Segmentation of 3D Medical ImagesMarius Schmidt-Mengin, Alexis Benichoux, Shibeshih Mitiku Belachew, Nikos Komodakis, Nikos Paragios. 11428-11438 [doi]

Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain ShiftsJiayi Chen, Benteng Ma, Hengfei Cui, Yong Xia 0001. 11439-11449 [doi]

CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language AlignmentSajid Javed, Arif Mahmood, Iyyakutti Iyappan Ganapathi, Fayaz Ali Dharejo, Naoufel Werghi, Mohammed Bennamoun. 11450-11459 [doi]

MicroDiffusion: Implicit Representation-Guided Diffusion for 3D Reconstruction from Limited 2D Microscopy ProjectionsMude Hui, Zihao Wei, Hongru Zhu, Fei Xia, Yuyin Zhou. 11460-11469 [doi]

Diversified and Personalized Multi-Rater Medical Image SegmentationYicheng Wu 0001, Xiangde Luo, Zhe Xu, Xiaoqing Guo, Lie Ju, ZongYuan Ge, Wenjun Liao, Jianfei Cai 0001. 11470-11479 [doi]

Modality-Agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale AttentionJu-Hyeon Nam, Nur Suriza Syazwany, Su Jung Kim, Sang-Chul Lee. 11480-11491 [doi]

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-Training FrameworkVu Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang 0009, Zhibin Liao, Qi Wu 0001, Minh-Son To, Johan W. Verjans. 11492-11501 [doi]

MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual InvariantChenlu Zhan, Yu Lin, Gaoang Wang, Hongwei Wang, Jian Wu. 11502-11512 [doi]

H-ViT: A Hierarchical Vision Transformer for Deformable Image RegistrationMorteza Ghahremani, Mohammad Khateri, Bailiang Jian, Benedikt Wiestler, Ehsan Adeli, Christian Wachinger. 11513-11523 [doi]

Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic ModelingJianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, Weidong Cai 0001. 11524-11534 [doi]

Fully Convolutional Slice-to-Volume Reconstruction for Single-Stack MRISean I. Young, Yaël Balbastre, Bruce Fischl, Polina Golland, Juan Eugenio Iglesias. 11535-11545 [doi]

IIRP-Net: Iterative Inference Residual Pyramid Network for Enhanced Image RegistrationTai Ma, Suwei Zhang, Jiafeng Li, Ying Wen 0003. 11546-11555 [doi]

ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy ImageNicolas Bourriez, Ihab Bendidi, Ethan Cohen, Gabriel Watkinson, Maxime Sanchez, Guillaume Bollot, Auguste Genovesio. 11556-11565 [doi]

Morphological Prototyping for Unsupervised Slide Representation Learning in Computational PathologyAndrew H. Song, Richard J. Chen, Tong Ding, Drew F. K. Williamson, Guillaume Jaume, Faisal Mahmood. 11566-11578 [doi]

Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival PredictionGuillaume Jaume, Anurag Vaidya, Richard J. Chen, Drew F. K. Williamson, Paul Pu Liang, Faisal Mahmood. 11579-11590 [doi]

Accurate Spatial Gene Expression Prediction by Integrating Multi-Resolution FeaturesYoungmin Chung, Ji Hun Ha, Kyeong Chan Im, Joo Sang Lee. 11591-11600 [doi]

Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment Based on Multi-Scale Aggregation and Anthropic Prior KnowledgeBo Zou, Shaofeng Wang, Hao Liu, Gaoyue Sun, Yajie Wang, Feifei Zuo, Chengbin Quan, Youjian Zhao. 11601-11610 [doi]

Low-Rank Knowledge Decomposition for Medical Foundation ModelsYuhang Zhou, Haolin Li, Siyuan Du, Jiangchao Yao, Ya Zhang, Yanfeng Wang. 11611-11620 [doi]

3-UDA: A New Benchmark for Unsupervised Domain Adaptive Fetal Cardiac Structure DetectionBin Pu, Liwen Wang, Jiewen Yang, Guannan He, Xingbo Dong, Shengli Li 0001, Ying Tan, Ming Chen, Zhe Jin, Kenli Li 0001, Xiaomeng Li 0001. 11621-11630 [doi]

CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical DataWei Fang, YuXing Tang, Heng Guo, Mingze Yuan, Tony C. W. Mok, Ke Yan, Jiawen Yao, Xin Chen, Zaiyi Liu, Le Lu, Ling Zhang, Minfeng Xu. 11631-11641 [doi]

Constructing and Exploring Intermediate Domains in Mixed Domain Semi-supervised Medical Image SegmentationQinghe Ma, Jian Zhang 0002, Lei Qi 0001, Qian Yu, Yinghuan Shi, Yang Gao 0001. 11642-11651 [doi]

PairAug: What Can Augmented Image-Text Pairs Do for Radiology?Yutong Xie, Qi Chen 0014, Sinuo Wang, Minh-Son To, Iris Lee, Ee Win Khoo, Kerolos Hendy, Daniel Koh, Yong Xia, Qi Wu. 11652-11661 [doi]

Intraoperative 2D/3D Image Registration via Differentiable X-Ray RenderingVivek Gopalakrishnan, Neel Dey, Polina Golland. 11662-11672 [doi]

Mudslide: A Universal Nuclear Instance Segmentation MethodJun Wang. 11673-11682 [doi]

Rotation-Agnostic Image Representation Learning for Digital PathologySaghir Alfasly, Abubakr Shafique, Peyman Nejat, Jibran A. Khan, Areej Alsaafin, Ghazal Alabtah, Hamid R. Tizhoosh. 11683-11693 [doi]

Tumor Micro-Environment Interactions Guided Graph Learning for Survival Analysis of Human Cancers from Whole-Slide Pathological ImagesWei Shao 0005, Yangyang Shi, Daoqiang Zhang, Junjie Zhou, Peng Wan 0004. 11694-11703 [doi]

MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive LearningZhe Li, Laurence T. Yang, Bocheng Ren, Xin Nie, Zhangyang Gao, Cheng Tan 0012, Stan Z. Li. 11704-11714 [doi]

FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked AutoencodersSoumen Basu, Mayuna Gupta, Chetan Madan, Pankaj Gupta 0005, Chetan Arora 0001. 11715-11725 [doi]

Bi-level Learning of Task-Specific Decoders for Joint Registration and One-Shot Medical Image SegmentationXin Fan 0001, Xiaolin Wang, Jiaxin Gao, Jia Wang, Zhongxuan Luo, Risheng Liu. 11726-11735 [doi]

PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology SegmentationRuining Deng, Quan Liu, Can Cui 0006, Tianyuan Yao, Jialin Yue, Juming Xiong, Lining Yu, Yifei Wu, Mengmeng Yin, Yu Wang, Shilin Zhao, Yucheng Tang, Haichun Yang, Yuankai Huo. 11736-11746 [doi]

Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-DisambiguationXiaoyang Chen, Hao Zheng 0006, Yuemeng Li, Yuncong Ma, Liang Ma, Hongming Li, Yong Fan 0001. 11747-11756 [doi]

Masked Autoencoders for Microscopy are Scalable Learners of Cellular BiologyOren Kraus, Kian Kenyon-Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Dominique Beaini, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw. 11757-11768 [doi]

EMCAD: Efficient Multi-Scale Convolutional Attention Decoding for Medical Image SegmentationMd Mostafijur Rahman, Mustafa Munir, Radu Marculescu. 11769-11779 [doi]

Neural Underwater Scene RepresentationYunkai Tang, Chengxuan Zhu, Renjie Wan, Chao Xu, Boxin Shi. 11780-11789 [doi]

Hearing Anything AnywhereMason Long Wang, Ryosuke Sawata, Samuel Clarke, Ruohan Gao, Shangzhe Wu, Jiajun Wu 0001. 11790-11799 [doi]

VMINer: Versatile Multi-view Inverse Rendering with Near-and Far-field Light SourcesFan Fei, Jiajun Tang, Ping Tan, Boxin Shi. 11800-11809 [doi]

DiLiGenRT: A Photometric Stereo Dataset with Quantified Roughness and TranslucencyHeng Guo 0003, Jieji Ren, Feishi Wang, Boxin Shi, Mingjun Ren, Yasuyuki Matsushita. 11810-11820 [doi]

NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized ImagesYufei Han, Heng Guo 0003, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia. 11821-11830 [doi]

Differentiable Display Photometric StereoSeokjun Choi, Seungwoo Yoon, Giljoo Nam, Seungyong Lee 0001, Seung-Hwan Baek. 11831-11840 [doi]

Bayesian Differentiable Physics for Cloth DigitalizationDeshan Gong, Ningtao Mao, He Wang 0002. 11841-11851 [doi]

Atlantis: Enabling Underwater Depth Estimation with Stable DiffusionFan Zhang, Shaodi You, Yu Li, Ying Fu. 11852-11861 [doi]

Sparse Views, Near Light: A Practical Paradigm for Uncalibrated Point-Light Photometric StereoMohammed Brahimi 0002, Bjoern Haefner, Zhenzhang Ye, Bastian Goldluecke, Daniel Cremers. 11862-11872 [doi]

Diffusion Reflectance Map: Single-Image Stochastic Inverse Rendering of Illumination and ReflectanceYuto Enyo, Ko Nishino. 11873-11883 [doi]

Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under Manhattan World AssumptionNobuhiko Wakai, Satoshi Sato, Yasunori Ishii, Takayoshi Yamashita. 11884-11894 [doi]

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate ModelsDavid Stotko, Nils Wandel, Reinhard Klein. 11895-11904 [doi]

Spin-UP: Spin Light for Natural Light Uncalibrated Photometric StereoZongrui Li, Zhan Lu, Haojie Yan, Boxin Shi, Gang Pan 0001, Qian Zheng, Xudong Jiang 0001. 11905-11914 [doi]

Discontinuity-preserving Normal Integration with Auxiliary EdgesHyomin Kim, Yucheol Jung, Seungyong Lee 0001. 11915-11923 [doi]

A Theory of Joint Light and Heat Transport for Lambertian ScenesMani Ramanagopal, Sriram Narayanan, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan. 11924-11933 [doi]

IDGuard: Robust, General, Identity-Centric POI Proactive Defense Against Face Editing AbuseYunshu Dai, Jianwei Fei, Fangjun Huang. 11934-11943 [doi]

Ungeneralizable ExamplesJingwen Ye, Xinchao Wang. 11944-11953 [doi]

Distilled Datamodel with Reverse Gradient MatchingJingwen Ye, Ruonan Yu, Songhua Liu, Xinchao Wang. 11954-11963 [doi]

EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright ProtectionXuanyu Zhang, Runyi Li, Jiwen Yu, Youmin Xu, Weiqi Li, Jian Zhang. 11964-11974 [doi]

SocialCounterfactuals: Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual ExamplesPhillip Howard, Avinash Madasu, Tiep Le, Gustavo A. Lujan-Moreno, Anahita Bhiwandiwalla, Vasudev Lal. 11975-11985 [doi]

FedAS: Bridging Inconsistency in Personalized Federated LearningXiyuan Yang, Wenke Huang, Mang Ye. 11986-11995 [doi]

FairRAG: Fair Human Generation via Fair Retrieval AugmentationRobik Shrestha, Yang Zou, Qiuyu Chen, Zhiheng Li, Yusheng Xie, Siqi Deng. 11996-12005 [doi]

Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image GenerationHang Li 0010, Chengzhi Shen, Philip Torr 0001, Volker Tresp, Jindong Gu. 12006-12016 [doi]

ExMap: Leveraging Explainability Heatmaps for Unsupervised Group Robustness to Spurious CorrelationsRwiddhi Chakraborty, Adrian Sletten, Michael C. Kampffmeyer. 12017-12026 [doi]

Data Valuation and Detections in Federated LearningWenqian Li, Shuran Fu, Fengrui Zhang, Yan Pang. 12027-12036 [doi]

Utility-Fairness Trade-Offs and how to Find ThemSepehr Dehdashtian, Bashir Sadeghi, Vishnu Naresh Boddeti. 12038-12046 [doi]

SimAC: A Simple Anti-Customization Method for Protecting Face Privacy Against Text-to-Image Synthesis of Diffusion ModelsFeifei Wang, Zhentao Tan, Tianyi Wei, Yue Wu, Qidong Huang. 12047-12056 [doi]

GLOW: Global Layout Aware Attacks on Object DetectionJun Bao, Buyu Liu, Kui Ren 0001, Jun Yu 0002. 12057-12066 [doi]

FADES: Fair Disentanglement with Sensitive RelevanceTaeuk Jang, Xiaoqian Wang 0001. 12067-12076 [doi]

Fair Federated Learning Under Domain Skew with Local Consistency and Domain DiversityYuhang Chen, Wenke Huang, Mang Ye. 12077-12086 [doi]

WateRF: Robust Watermarks in Radiance Fields for Protection of CopyrightsYoungdong Jang, Dong-In Lee, MinHyuk Jang, Jong Wook Kim, Feng Yang, Sangpil Kim. 12087-12097 [doi]

FLHetBench: Benchmarking Device and State Heterogeneity in Federated LearningJunyuan Zhang, Shuang Zeng, Miao Zhang, Runxi Wang, Feifei Wang, Yuyin Zhou, Paul Pu Liang, Liangqiong Qu. 12098-12108 [doi]

An Upload-Efficient Scheme for Transferring Knowledge From a Server-Side Pre-trained Generator to Clients in Heterogeneous Federated LearningJianqing Zhang, Yang Liu, Yang Hua, Jian Cao. 12109-12119 [doi]

Privacy-Preserving Optics for Enhancing Protection in Face De-IdentificationJhon Lopez, Carlos Hinojosa, Henry Arguello, Bernard Ghanem. 12120-12129 [doi]

A Stealthy Wrongdoer: Feature-Oriented Reconstruction Attack Against Split LearningXiaoyang Xu, Mengda Yang, Wenzhe Yi, Ziang Li, Juan Wang 0006, Hongxin Hu, Yong Zhuang, Yaxin Liu. 12130-12139 [doi]

RCL: Reliable Continual Learning for Unified Failure DetectionFei Zhu, Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu 0001, Zhaoxiang Zhang 0001. 12140-12150 [doi]

Global and Local Prompts Cooperation via Optimal Transport for Federated LearningHongxia Li, Wei Huang, Jingya Wang, Ye Shi 0001. 12151-12161 [doi]

Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion ModelsZijin Yang, Kai Zeng, Kejiang Chen, Han Fang, Weiming Zhang 0001, Nenghai Yu. 12162-12171 [doi]

Explaining CLIP's Performance Disparities on Data from Blind/Low Vision UsersDaniela Massiceti, Camilla Longden, Agnieszka Slowik, Samuel Wills, Martin Grayson, Cecily Morrison. 12172-12182 [doi]

Model Inversion Robustness: Can Transfer Learning Help?Sy-Tuyen Ho, Koh Jun Hao, Keshigeyan Chandrasegaran, Ngoc-Bao Nguyen, Ngai-Man Cheung. 12183-12193 [doi]

Make Me a BNN: A Simple Strategy for Estimating Bayesian Uncertainty from Pre-trained ModelsGianni Franchi, Olivier Laurent 0002, Maxence Leguéry, Andrei Bursuc, Andrea Pilzer, Angela Yao. 12194-12204 [doi]

Validating Privacy-Preserving Face Recognition Under a Minimum AssumptionHui Zhang 0039, Xingbo Dong, Yen-Lung Lai, Ying Zhou, Xiaoyan Zhang, Xingguo Lv, Zhe Jin, Xuejun Li 0001. 12205-12214 [doi]

Re-Thinking Data Availability Attacks Against Deep Neural NetworksBin Fang, Bo Li, Shuang Wu, Shouhong Ding, Ran Yi, Lizhuang Ma. 12215-12224 [doi]

OpenBias: Open-Set Bias Detection in Text-to-Image Generative ModelsMoreno D'incà, Elia Peruzzo, Massimiliano Mancini, Dejia Xu, Vidit Goel, Xingqian Xu, Zhangyang Wang, Humphrey Shi, Nicu Sebe. 12225-12235 [doi]

In-Distribution Public Data Synthesis With Diffusion Models for Differentially Private Image ClassificationJinseong Park 0001, Yujin Choi, Jaewook Lee 0001. 12236-12246 [doi]

Leak and Learn: An Attacker's Cookbook to Train Using Leaked Data from Federated LearningJoshua C. Zhao, Ahaan Dabholkar, Atul Sharma, Saurabh Bagchi. 12247-12256 [doi]

Countering Personalized Text-to-Image Generation with Influence WatermarksHanwen Liu, Zhicheng Sun 0001, Yadong Mu. 12257-12267 [doi]

Fair-VPT: Fair Visual Prompt Tuning for Image ClassificationSungho Park, Hyeran Byun. 12268-12278 [doi]

Relaxed Contrastive Learning for Federated LearningSeonguk Seo, Jinkyu Kim, Geeho Kim, Bohyung Han. 12279-12288 [doi]

FairCLIP: Harnessing Fairness in Vision-Language LearningYan Luo, Min Shi 0001, Muhammad Osama Khan, Muhammad Muneeb Afzal, Hao Huang 0003, Shuaihang Yuan, Yu Tian 0001, Luo Song, Ava Kouhana, Tobias Elze, Yi Fang 0006, Mengyu Wang 0001. 12289-12301 [doi]

Steganographic Passport: An Owner and User Verifiable Credential for Deep Model IP Protection Without RetrainingQi Cui, Ruohan Meng, Chaohui Xu, Chip-Hong Chang. 12302-12311 [doi]

Adaptive Hyper-graph Aggregation for Modality-Agnostic Federated LearningQ. Fan, L. Shuai. 12312-12321 [doi]

Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural CollapseYining Wang, Junjie Sun, Chenyue Wang, Mi Zhang, Min Yang. 12322-12331 [doi]

Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive PairJeonghoon Park, Chaeyeon Chung, Jaegul Choo. 12332-12341 [doi]

Device-Wise Federated Network PruningShangqian Gao, Junyi Li, Zeyu Zhang, Yanfu Zhang, Weidong Cai 0001, Heng Huang. 12342-12352 [doi]

All Rivers Run to the Sea: Private Learning with Asymmetric FlowsYue Niu, Ramy E. Ali, Saurav Prakash, Salman Avestimehr. 12353-12362 [doi]

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative ModelsXiang Li, Qianli Shen, Kenji Kawaguchi. 12363-12373 [doi]

CPR: Retrieval Augmented Generation for Copyright ProtectionAditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang 0003, Ashwin Swaminathan, Stefano Soatto. 12374-12384 [doi]

Communication-Efficient Federated Learning with Accelerated Client GradientGeeho Kim, Jinkyu Kim, Bohyung Han. 12385-12394 [doi]

Self-Supervised Debiasing Using Low Rank RegularizationGeon Yeong Park, Chanyong Jung, Sangmin Lee 0017, Jong Chul Ye, Sang Wan Lee. 12395-12405 [doi]

Facial Identity Anonymization via Intrinsic and Extrinsic Attention DistractionZhenzhong Kuang, Xiaochen Yang, Yingjie Shen, Chao Hu, Jun Yu 0002. 12406-12415 [doi]

Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New BaselineAnas Al-Lahham, Muhammad Zaigham Zaheer, Nurbek Tastan, Karthik Nandakumar. 12416-12425 [doi]

Label-Efficient Group Robustness via Out-of-Distribution Concept CurationYiwei Yang 0009, Anthony Z. Liu, Robert Wolfe, Aylin Caliskan, Bill Howe. 12426-12434 [doi]

Long-Tailed Anomaly Detection with Learnable Class NamesChih-Hui Ho, Kuan-Chuan Peng, Nuno Vasconcelos. 12435-12446 [doi]

Robust Emotion Recognition in Context DebiasingDingkang Yang, Kun Yang 0010, Mingcheng Li, Shunli Wang 0001, Shuaibing Wang, Lihua Zhang. 12447-12457 [doi]

Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete ModalitiesMingcheng Li, Dingkang Yang, Xiao Zhao, Shuaibing Wang, Yan Wang 0068, Kun Yang 0010, Mingyang Sun, Dongliang Kou, Ziyun Qian, Lihua Zhang. 12458-12468 [doi]

An Edit Friendly DDPM Noise Space: Inversion and ManipulationsInbar Huberman-Spiegelglas, Vladimir Kulikov, Tomer Michaeli. 12469-12478 [doi]

SleepVST: Sleep Staging from Near-Infrared Video Signals using Pre-Trained TransformersJonathan F. Carter, João Jorge, Oliver Gibson, Lionel Tarassenko. 12479-12489 [doi]

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into OneMike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov 0001. 12490-12500 [doi]

Towards Language-Driven Video Inpainting via Multimodal Large Language ModelsJianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen 0026, Yunhai Tong, Ziwei Liu 0002, Chen Change Loy. 12501-12511 [doi]

FedSOL: Stabilized Orthogonal Learning with Proximal Restrictions in Federated LearningGihun Lee, Minchan Jeong, Sangmook Kim, Jaehoon Oh, Se-Young Yun. 12512-12522 [doi]

UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and LocalizationShuaibo Li, Wei Ma, Jianwei Guo, Shibiao Xu, Benchong Li, Xiaopeng Zhang 0001. 12523-12533 [doi]

Motion Blur Decomposition with Cross-shutter GuidanceXiang Ji 0005, Haiyang Jiang 0002, Yinqiang Zheng. 12534-12543 [doi]

SNIDA: Unlocking Few-Shot Object Detection with Non-Linear Semantic Decoupling AugmentationYanjie Wang, Xu Zou, Luxin Yan, Sheng Zhong 0001, Jiahuan Zhou. 12544-12553 [doi]

Rapid 3D Model Generation with Intuitive 3D InputTianrun Chen, Chaotao Ding, Shangzhan Zhang, Chunan Yu, Ying Zang, Zejian Li, Sida Peng, Lingyun Sun. 12554-12564 [doi]

SketchINR: A First Look into Sketches as Implicit Neural RepresentationsHmrishav Bandyopadhyay, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Tao Xiang 0002, Timothy M. Hospedales, Yi-Zhe Song. 12565-12574 [doi]

ERMVP: Communication-Efficient and Collaboration-Robust Multi-Vehicle Perception in Challenging EnvironmentsJingyu Zhang, Kun Yang, Yilei Wang, Hanqi Wang, Peng Sun, Liang Song. 12575-12584 [doi]

DiaLoc: An Iterative Approach to Embodied Dialog LocalizationChao Zhang, Mohan Li, Ignas Budvytis, Stephan Liwicki. 12585-12593 [doi]

WildlifeMapper: Aerial Image Analysis for Multi-Species Detection and IdentificationSatish Kumar, Bowen Zhang, Chandrakanth Gudavalli, Connor Levenson, Lacey Hughey, Jared A. Stabach, Irene Amoke, Gordon Ojwang, Joseph Mukeka, Stephen Mwiu, Joseph Ogutu, Howard Frederick, B. S. Manjunath. 12594-12604 [doi]

Harnessing Meta-Learning for Improving Full-Frame Video StabilizationMuhammad Kashif Ali, Eun Woo Im, Dongjin Kim, Tae Hyun Kim 0006. 12605-12614 [doi]

De-Confounded Data-Free Knowledge Distillation for Handling Distribution ShiftsYuzheng Wang, Dingkang Yang, Zhaoyu Chen, Yang Liu 0246, Siao Liu, Wenqiang Zhang, Lihua Zhang, Lizhe Qi. 12615-12625 [doi]

Day-Night Cross-domain Vehicle Re-identificationHongchao Li, Jingong Chen, Aihua Zheng, Yong Wu, Yonglong Luo. 12626-12635 [doi]

Brush2Prompt: Contextual Prompt Generator for Object InpaintingMang Tik Chiu, YuQian Zhou, Lingzhi Zhang, Zhe Lin, Connelly Barnes, Sohrab Amirghodsi, Eli Shechtman, Humphrey Shi. 12636-12645 [doi]

Cloud-Device Collaborative Learning for Multimodal Large Language ModelsGuanqun Wang, Jiaming Liu, Chenxuan Li, Yuan Zhang, Junpeng Ma, Xinyu Wei, Kevin Zhang, Maurice Chong, Renrui Zhang, Yijiang Liu, Shanghang Zhang. 12646-12655 [doi]

Making Visual Sense of Oracle Bones for You and MeRunqi Qiao, Lan Yang, Kaiyue Pang, Honggang Zhang. 12656-12665 [doi]

Boosting Object Detection with Zero-Shot Day-Night Domain AdaptationZhipeng Du, Miaojing Shi, Jiankang deng. 12666-12676 [doi]

InNeRF360: Text-Guided 3D-Consistent Object Inpainting on 360° Neural Radiance FieldsDongqing Wang, Tong Zhang 0023, Alaa Abboud, Sabine Süsstrunk. 12677-12686 [doi]

Language Models as Black-Box Optimizers for Vision-Language ModelsShihong Liu, Samuel Yu, Zhiqiu Lin, Deepak Pathak, Deva Ramanan. 12687-12697 [doi]

Mind marginal non-crack regions: Clustering-inspired representation learning for crack segmentationZhuangzhuang Chen, Zhuonan Lai, Jie Chen 0027, Jianqiang Li 0001. 12698-12708 [doi]

InstructDiffusion: A Generalist Modeling Interface for Vision TasksZigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang 0002, Jianmin Bao, Zheng Zhang 0022, Houqiang Li, Han Hu 0001, Dong Chen 0003, Baining Guo. 12709-12720 [doi]

Desigen: A Pipeline for Controllable Design Template GenerationHaohan Weng, Danqing Huang, Yu Qiao, Zheng Hu, Chin-Yew Lin, Tong Zhang 0015, C. L. Philip Chen. 12721-12732 [doi]

Physical Backdoor: Towards Temperature-Based Backdoor Attacks in the Physical WorldWen Yin, Jian Lou 0001, Pan Zhou 0001, Yulai Xie, Dan Feng 0001, Yuhua Sun, Tailai Zhang, Lichao Sun 0001. 12733-12743 [doi]

Behind the Veil: Enhanced Indoor 3D Scene Reconstruction with Occluded Surfaces CompletionSu Sun, Cheng Zhao, Yuliang Guo, Ruoyu Wang, Xinyu Huang 0001, Yingjie Victor Chen, Liu Ren. 12744-12753 [doi]

EarthLoc: Astronaut Photography Localization by Indexing Earth from SpaceGabriele Moreno Berton, Alex Stoken, Barbara Caputo, Carlo Masone. 12754-12764 [doi]

DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and LocalizationZeqin Yu, Jiangqun Ni, Yuzhen Lin, Haoyi Deng, Bin Li 0011. 12765-12774 [doi]

MuseChat: A Conversational Music Recommendation System for VideosZhikang Dong, Xiulong Liu, Bin Chen, Pawel Polak, Peng Zhang. 12775-12785 [doi]

The Unreasonable Effectiveness of Pre-Trained Features for Camera Pose RefinementGabriele Trivigno, Carlo Masone, Barbara Caputo, Torsten Sattler. 12786-12798 [doi]

Blind Image Quality Assessment Based on Geometric Order LearningNyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim 0001. 12799-12808 [doi]

CrowdDiff: Multi-Hypothesis Crowd Density Estimation Using Diffusion ModelsYasiru Ranasinghe, Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M. Patel. 12809-12819 [doi]

Towards Efficient Replay in Federated Incremental LearningYichen Li 0006, Qunwei Li, Haozhao Wang, Ruixuan Li 0001, Wenliang Zhong, Guannan Zhang. 12820-12829 [doi]

MART: Masked Affective RepresenTation Learning via Masked Temporal Distribution DistillationZhicheng Zhang, Pancheng Zhao, Eunil Park, Jufeng Yang. 12830-12840 [doi]

PolarRec: Improving Radio Interferometric Data Reconstruction Using Polar CoordinatesRuoqi Wang, Zhuoyang Chen, Jiayi Zhu, Qiong Luo 0001, Feng Wang. 12841-12850 [doi]

Constrained Layout Generation with Factor GraphsMohammed Haroon Dupty, Yanfei Dong, Sicong Leng, Guoji Fu, Yong Liang Goh, Wei Lu, Wee Sun Lee. 12851-12860 [doi]

Visual in-Context PromptingFeng Li 0040, Qing Jiang, Hao Zhang 0097, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Jianwei Yang, Chunyuan Li, Lei Zhang 0001, Jianfeng Gao 0001. 12861-12871 [doi]

Traceable Federated Continual LearningQiang Wang, Bingyan Liu, Yawen Li. 12872-12881 [doi]

Interactive Continual Learning: Fast and Slow ThinkingBiqing Qi, Xinquan Chen, Junqi Gao, Dong Li, Jianxing Liu, Ligang Wu, Bowen Zhou. 12882-12892 [doi]

PIGEON: Predicting Image GeolocationsLukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn. 12893-12902 [doi]

LQMFormer: Language-Aware Query Mask Transformer for Referring Image SegmentationNisarg A. Shah, Vibashan VS, Vishal M. Patel. 12903-12913 [doi]

ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual PromptsMu Cai, Haotian Liu, Siva Karthik Mustikovela, Gregory P. Meyer, Yuning Chai, Dennis Park, Yong Jae Lee. 12914-12923 [doi]

DePT: Decoupled Prompt TuningJi Zhang 0012, Shihan Wu 0001, Lianli Gao, Heng Tao Shen, Jingkuan Song. 12924-12933 [doi]

Grounded Question-Answering in Long Egocentric VideosShangzhe Di, Weidi Xie. 12934-12943 [doi]

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction DataQifan Yu, Juncheng Li 0006, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian 0001, Yueting Zhuang. 12944-12953 [doi]

ViTamin: Designing Scalable Vision Models in the Vision-Language EraJieneng Chen, Qihang Yu, Xiaohui Shen, Alan L. Yuille, Liang-Chieh Chen. 12954-12966 [doi]

The Manga Whisperer: Automatically Generating Transcriptions for ComicsRagav Sachdeva, Andrew Zisserman. 12967-12976 [doi]

Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMsKanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin. 12977-12987 [doi]

The Neglected Tails in Vision-Language ModelsShubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva Ramanan, James Caverlee, Shu Kong. 12988-12997 [doi]

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression SegmentationWenxuan Wang, Tongtian Yue, Yisi Zhang, Longteng Guo, Xingjian He, Xinlong Wang, Jing Liu. 12998-13008 [doi]

GLaMM: Pixel Grounding Large Multimodal ModelHanoona Abdul Rasheed, Muhammad Maaz 0001, Sahal Shaji Mullappilly, Abdelrahman M. Shaker, Salman H. Khan 0001, Hisham Cholakkal, Rao Muhammad Anwer, Eric P. Xing, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 13009-13018 [doi]

Alpha-CLIP: A CLIP Model Focusing on Wherever you WantZeyi Sun 0002, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang 0003. 13019-13029 [doi]

Pixel Aligned Language ModelsJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun 0002, Xiaolong Wang 0004, Cordelia Schmid. 13030-13039 [doi]

mPLUG-OwI2: Revolutionizing Multi-modal Large Language Model with Modality CollaborationQinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian 0001, Ji Zhang 0011, Fei Huang 0004. 13040-13051 [doi]

Sniffer: Multimodal Large Language Model for Explainable Out-of-Context Misinformation DetectionPeng Qi, Zehong Yan, Wynne Hsu, Mong-Li Lee. 13052-13062 [doi]

Towards CLIP-Driven Language-Free 3D Visual Grounding via 2D-3D Relational Enhancement and ConsistencyYuqi Zhang, Han Luo, Yinjie Lei. 13063-13072 [doi]

SC- Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language ModelsTongtian Yue, Jie Cheng, Longteng Guo, Xingyuan Dai, Zijia Zhao, Xingjian He, Gang Xiong 0001, Yisheng Lv, Jing Liu 0001. 13073-13083 [doi]

V*: Guided Visual Search as a Core Mechanism in Multimodal LLMsPenghao Wu, Saining Xie. 13084-13094 [doi]

Improved Visual Grounding through Self-Consistent ExplanationsRuozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez. 13095-13105 [doi]

Distilling Vision-Language Models on Millions of VideosYue Zhao 0006, Long Zhao 0003, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu 0005, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan. 13106-13116 [doi]

Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and LanguageMark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman. 13117-13127 [doi]

Referring Image Editing: Object-Level Image Editing via Referring ExpressionsChang Liu 0072, Xiangtai Li, Henghui Ding. 13128-13138 [doi]

Vision-and-Language Navigation via Causal LearningLiuyi Wang, Zongtao He, Ronghao Dang, Mengjiao Shen, Chengju Liu, Qijun Chen. 13139-13150 [doi]

Vista-llama: Reducing Hallucination in Video Language Models via Equal Distance to Visual TokensFan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang 0001. 13151-13160 [doi]

Ranking Distillation for Open-Ended Video Question Answering with Insufficient LabelsTianming Liang, Chaolei Tan, Beihao Xia, Wei-Shi Zheng 0001, Jian-Fang Hu. 13161-13170 [doi]

CLIP as RNN: Segment Countless Visual Concepts without Training EndeavorShuyang Sun, Runjia Li, Philip Torr 0001, Xiuye Gu, Siyang Li. 13171-13182 [doi]

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology VideosMehmet Saygin Seyfioglu, Wisdom Oluchi Ikezogwo, Fatemeh Ghezloo, Ranjay Krishna, Linda G. Shapiro. 13183-13192 [doi]

Aligning and Prompting Everything All at Once for Universal Visual PerceptionYunhang Shen, Chaoyou Fu, Peixian Chen, Mengdan Zhang, Ke Li 0015, Xing Sun, Yunsheng Wu, Shaohui Lin, Rongrong Ji. 13193-13203 [doi]

Can I Trust Your Answer? Visually Grounded Video Question AnsweringJunbin Xiao, Angela Yao, Yicong Li 0004, Tat-Seng Chua. 13204-13214 [doi]

Prompt Highlighter: Interactive Control for Multi-Modal LLMsYuechen Zhang, Shengju Qian, Bohao Peng, Shu Liu 0005, Jiaya Jia. 13215-13224 [doi]

Language-only Efficient Training of Zero-shot Composed Image RetrievalGeonmo Gu, Sanghyuk Chun, Wonjae Kim, Yoohoon Kang, Sangdoo Yun. 13225-13234 [doi]

MoReVQA: Exploring Modular Reasoning Models for Video Question AnsweringJuhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid. 13235-13245 [doi]

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor GenerationShanShan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou 0002. 13246-13257 [doi]

CLOVA: A Closed-LOop Visual Assistant with Tool Usage and UpdateZhi Gao, Yuntao Du 0005, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song Chun Zhu, Qing Li 0003. 13258-13268 [doi]

Naturally Supervised 3D Visual Grounding with Language-Regularized Concept LearnersChun Feng, Joy Hsu, Weiyu Liu, Jiajun Wu 0001. 13269-13278 [doi]

Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language UnderstandingWujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu. 13279-13288 [doi]

AssistGUI: Task-Oriented PC Graphical User Interface AutomationDifei Gao, Lei Ji 0001, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou. 13289-13298 [doi]

SEED-Bench: Benchmarking Multimodal Large Language ModelsBoHao Li, Yuying Ge, Yixiao Ge, Guangzhi Wang, Rui Wang, Ruimao Zhang, Ying Shan. 13299-13308 [doi]

Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain GeneralizationMainak Singha, Ankit Jha, Shirsha Bose, Ashwin Nair, Moloud Abdar, Biplab Banerjee. 13309-13319 [doi]

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality TeachersTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee 0001, Jian Ren, Ming-Hsuan Yang 0001, Sergey Tulyakov. 13320-13331 [doi]

Decoupling Static and Hierarchical Motion Perception for Referring Video SegmentationShuting He, Henghui Ding. 13332-13341 [doi]

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-Modal Language ModelsShitian Zhao, Zhuowan Li, Yadong Lu, Alan L. Yuille, Yan Wang 0033. 13342-13351 [doi]

Posterior Distillation SamplingJuil Koo, Chanho Park, Minhyuk Sung. 13352-13361 [doi]

Towards More Unified In-Context Visual UnderstandingDianmo Sheng, Dongdong Chen 0001, Zhentao Tan, Qiankun Liu, Qi Chu 0001, Jianmin Bao, Tao Gong, Bin Liu 0016, Shengwei Xu, Nenghai Yu. 13362-13372 [doi]

Mask4Align: Aligned Entity Prompting with Color Masks for Multi-Entity Localization ProblemsHaoquan Zhang, Ronggang Huang, Yi Xie, Huaidong Zhang. 13373-13383 [doi]

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World KnowledgeAndong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Chuang Gan. 13384-13394 [doi]

Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-AnsweringZhaohe Liao, Jiangtong Li, Li Niu 0002, Liqing Zhang 0001. 13395-13404 [doi]

Segment and Caption AnythingXiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang 0022, Han Hu 0001, Jiwen Lu, Lijuan Wang, Zicheng Liu 0001. 13405-13417 [doi]

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-AllocationQidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang 0065, Conghui He, Jiaqi Wang 0003, Dahua Lin, Weiming Zhang 0001, Nenghai Yu. 13418-13427 [doi]

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language ReasoningRongjie Li, Yu Wu 0014, Xuming He 0001. 13428-13437 [doi]

Revisiting Counterfactual Problems in Referring Expression ComprehensionZhihan Yu, Ruifan Li. 13438-13448 [doi]

ScanFormer: Referring Expression Comprehension by Iteratively ScanningWei Su 0009, Peihan Miao 0002, Huanzhang Dou, Xi Li 0001. 13449-13458 [doi]

See, Say, and Segment: Teaching LMMs to Overcome False PremisesTsung-Han Wu, Giscard Biamby, David M. Chan, Lisa Dunlap, Ritwik Gupta, Xudong Wang 0007, Joseph E. Gonzalez, Trevor Darrell. 13459-13469 [doi]

SignGraph: A Sign Sequence is Worth Graphs of NodesShiwei Gan, Yafeng Yin 0002, Zhiwei Jiang, Hongkai Wen 0001, Lei Xie 0004, Sanglu Lu. 13470-13479 [doi]

Enhancing Vision-Language Pre-Training with Rich SupervisionsYuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Zhuowen Tu, Vijay Mahadevan, Stefano Soatto. 13480-13491 [doi]

De-Diffusion Makes Text a Strong Cross-Modal InterfaceChen Wei 0005, Chenxi Liu 0001, Siyuan Qiao, Zhishuai Zhang, Alan L. Yuille, Jiahui Yu. 13492-13503 [doi]

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video UnderstandingBo He 0004, Hengduo Li, Young-Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim. 13504-13514 [doi]

Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object RecognitionKyle Buettner, Sina Malakouti, Xiang Lorraine Li, Adriana Kovashka. 13515-13524 [doi]

Retrieval-Augmented Egocentric Video CaptioningJilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie. 13525-13536 [doi]

Towards Better Vision-Inspired Vision-Language ModelsYun-Hao Cao, Kaixiang Ji, Ziyuan Huang, Chuanyang Zheng, Jiajia Liu, Jian Wang 0108, Jingdong Chen, Ming Yang 0007. 13537-13547 [doi]

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMsMichael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano. 13548-13558 [doi]

Polos: Multimodal Metric Learning from Human Feedback for Image CaptioningYuiga Wada, Kanta Kaneda, Daichi Saito, Komei Sugiura. 13559-13568 [doi]

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph GroundingChaolei Tan, Jianhuang Lai, Wei-Shi Zheng 0001, Jian-Fang Hu. 13569-13580 [doi]

Koala: Key Frame-Conditioned Long Video-LLMReuben Tan, Ximeng Sun, Ping Hu, Jui-Hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko. 13581-13591 [doi]

Generating Enhanced Negatives for Training Language-Based Object DetectorsShiyu Zhao, Long Zhao 0003, Vijay Kumar B. G, Yumin Suh, Dimitris N. Metaxas, Manmohan Chandraker, Samuel Schulter. 13592-13602 [doi]

Non-autoregressive Sequence-to-Sequence Vision-Language ModelsKunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto. 13603-13612 [doi]

Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQAZhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar. 13613-13623 [doi]

Towards Learning a Generalist Model for Embodied NavigationDuo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang 0009. 13624-13634 [doi]

"Previously on..." from Recaps to Story SummarizationAditya Kumar Singh, Dhruv Srivastava, Makarand Tapaswi. 13635-13646 [doi]

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context LearningChaoyi Zhang, Kevin Lin, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Chung-Ching Lin, Zicheng Liu 0001, Lijuan Wang. 13647-13657 [doi]

BT-Adapter: Video Conversation is Feasible Without Video Instruction TuningRuyang Liu, Chen Li, Yixiao Ge, Thomas H. Li, Ying Shan, Ge Li 0002. 13658-13667 [doi]

Holistic Autonomous Driving Understanding by Bird'View Injected Multi-Modal Large ModelsXinpeng Ding, Jianhua Han, Hang Xu, Xiaodan Liang, Wei Zhang 0010, Xiaomeng Li 0001. 13668-13677 [doi]

Situational Awareness Matters in 3D Vision Language ReasoningYunze Man, Liang-Yan Gui, Yu-Xiong Wang. 13678-13688 [doi]

SRTube: Video-Language Pre-Training with Action-Centric Video Tube Features and Semantic Role LabelingJu-Hee Lee, Je-Won Kang. 13689-13699 [doi]

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video UnderstandingPeng Jin 0001, Ryuichi Takanobu, Wancai Zhang, Xiaochun Cao, Li Yuan 0007. 13700-13710 [doi]

Curriculum Point Prompting for Weakly-Supervised Referring Image SegmentationQiyuan Dai, Sibei Yang. 13711-13722 [doi]

Tune-an-Ellipse: CLIP Has Potential to Find what you WantJinheng Xie, Songhe Deng, Bing Li 0024, Haozhe Liu, Yawen Huang, Yefeng Zheng 0001, Jürgen Schmidhuber, Bernard Ghanem, LinLin Shen, Mike Zheng Shou. 13723-13732 [doi]

Evcap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World ComprehensionJiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama. 13733-13742 [doi]

Plug-and-Play Diffusion DistillationYi-Ting Hsiao, Siavash Khodadadeh, Kevin Duarte, Wei-An Lin, Hui Qu, Mingi Kwon, Ratheesh Kalarot. 13743-13752 [doi]

Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language NavigationZihan Wang, Xiangyang Li 0002, Jiahao Yang, Yeqi Liu, Junjie Hu, Ming Jiang, Shuqiang Jiang. 13753-13762 [doi]

Low-Rank Approximation for Sparse Attention in Multi-Modal LLMsLin Song, Yukang Chen, Shuai Yang, Xiaohan Ding, Yixiao Ge, Ying-Cong Chen, Ying Shan. 13763-13773 [doi]

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional UnderstandingLe Zhang, Rabiul Awal, Aishwarya Agrawal. 13774-13784 [doi]

Iterated Learning Improves Compositionality in Large Vision-Language ModelsChenhao Zheng, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna. 13785-13795 [doi]

RegionGPT: Towards Region Understanding Vision Language ModelQiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka-Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu. 13796-13806 [doi]

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-Grained Correctional Human FeedbackTianyu Yu, Yuan Yao 0013, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu 0001, Hai-Tao Zheng 0002, Maosong Sun 0001. 13807-13816 [doi]

Honeybee: Locality-Enhanced Projector for Multimodal LLMJunbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh. 13817-13827 [doi]

E-GPS: Explainable Geometry Problem Solving via Top-Down Solver and Bottom-Up GeneratorWenjun Wu, Lingling Zhang, Jun Liu, Xi Tang, Yaxian Wang, Shaowei Wang, QianYing Wang. 13828-13837 [doi]

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMsShiyu Xuan, Qingpei Guo, Ming Yang 0007, Shiliang Zhang. 13838-13848 [doi]

Any-Shift Prompting for Generalization Over DistributionsZehao Xiao, Jiayi Shen, Mohammad Mahdi Derakhshani, ShengCai Liao, Cees G. M. Snoek. 13849-13860 [doi]

Question Aware Vision Transformer for Multimodal ReasoningRoy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben-Avraham, Oren Nuriel, Shai Mazor, Ron Litman. 13861-13871 [doi]

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive DecodingSicong Leng, Hang Zhang, Guanzheng Chen, Xin Li 0056, Shijian Lu, Chunyan Miao, Lidong Bing. 13872-13882 [doi]

Text-Image Alignment for Diffusion-Based PerceptionNeehar Kondapaneni, Markus Marks, Manuel Knott 0001, Rogério Guimarães, Pietro Perona. 13883-13893 [doi]

Do You Remember? Dense Video Captioning with Cross-Modal Memory RetrievalMinkuk Kim, Hyeon Bae Kim, Jinyoung Moon, Jinwoo Choi 0001, Seong Tae Kim 0001. 13894-13904 [doi]

FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset DeduplicationEric Slyman, Stefan Lee, Scott Cohen, Kushal Kafle. 13905-13916 [doi]

3-LQ: Marrying Hyperbolic Alignment with Explicit Semantic-Geometric Modeling for 3D Visual GroundingYuan Wang, Yali Li 0001, Shengjin Wang. 13917-13926 [doi]

VideoCon: Robust Video-Language Alignment via Contrast CaptionsHritik Bansal, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang, Aditya Grover. 13927-13937 [doi]

Taming Self-Training for Open-Vocabulary Object DetectionShiyu Zhao, Samuel Schulter, Long Zhao 0003, Zhixing Zhang, B. G. Vijay Kumar, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas. 13938-13947 [doi]

SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language PretrainingChull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong Hyeon Gu. 13948-13957 [doi]

Generative Region-Language Pretraining for Open-Ended Object DetectionChuang Lin 0003, Yi Jiang 0004, Lizhen Qu, Zehuan Yuan, Jianfei Cai 0001. 13958-13968 [doi]

CoG-DQA: Chain-of-Guiding Learning with Large Language Models for Diagram Question AnsweringShaowei Wang, Lingling Zhang, Longji Zhu, Tao Qin, Kim-Hui Yap, Xinyu Zhang, Jun Liu. 13969-13979 [doi]

Multi-Modal Instruction Tuned LLMs with Fine-Grained Visual PerceptionJunwen He, Yifan Wang 0004, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo 0008, Xuansong Xie. 13980-13990 [doi]

Generate Subgoal Images Before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal PromptsFei Ni, Jianye Hao, Shiguang Wu 0001, Longxin Kou, Jiashun Liu, Yan Zheng 0002, Bin Wang 0034, Yuzheng Zhuang. 13991-14000 [doi]

LoSh: Long-Short Text Joint Prediction Network for Referring Video Object SegmentationLinfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen. 14001-14010 [doi]

MICap: A Unified Model for Identity-Aware Movie DescriptionsHaran Raajesh, Naveen Reddy Desanur, Zeeshan Khan, Makarand Tapaswi. 14011-14021 [doi]

CapsFusion: Rethinking Image-Text Data at ScaleQiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, Jingjing Liu. 14022-14032 [doi]

Visual Fact Checker: Enabling High-Fidelity Detailed Caption GenerationYunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu 0001, Yin Cui. 14033-14042 [doi]

VidLA: Video-Language Alignment at ScaleMamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi. 14043-14055 [doi]

Viewpoint-Aware Visual Grounding in 3D ScenesXiangxi Shi, Zhonghua Wu, Stefan Lee. 14056-14065 [doi]

Multi-Modal Proxy Learning Towards Personalized Visual Multiple ClusteringJiawei Yao, Qi Qian 0001, Juhua Hu. 14066-14075 [doi]

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language ModelShraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi. 14076-14088 [doi]

LLaMA-Excitor: General Instruction Tuning via Indirect Feature InteractionBo Zou, Chao Yang 0026, Yu Qiao 0001, Chengbin Quan, Youjian Zhao. 14089-14099 [doi]

MeaCap: Memory-Augmented Zero-shot Image CaptioningZequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Bo Chen, Zhengjue Wang. 14100-14110 [doi]

The STVchrono Dataset: Towards Continuous Change Recognition in TimeYanjun Sun, Yue Qiu 0001, Mariia Khan, Fumiya Matsuzawa, Kenji Iwata. 14111-14120 [doi]

InstaGen: Enhancing Object Detection by Training on Synthetic DatasetChengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma 0002. 14121-14130 [doi]

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual GroundingChun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker. 14131-14140 [doi]

Investigating Compositional Challenges in Vision-Language Models for Visual GroundingYunan Zeng, Yan Huang, Jinjin Zhang, Zequn Jie, Zhenhua Chai, Liang Wang. 14141-14151 [doi]

Masked AutoDecoder is Effective Multi-Task Vision GeneralistHan Qiu 0008, Jiaxing Huang 0001, Peng Gao, Lewei Lu, Xiaoqin Zhang 0002, Shijian Lu. 14152-14161 [doi]

Efficient Test-Time Adaptation of Vision-Language ModelsAdilbek Karmanov, Dayan Guan, Shijian Lu, Abdulmotaleb El-Saddik, Eric P. Xing. 14162-14171 [doi]

FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language modelsAdrian Bulat, Yassine Ouali, Georgios Tzimiropoulos. 14172-14182 [doi]

Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set RelationshipsSebastian Koch, Narunas Vaskevicius, Mirco Colosi, Pedro Hermosilla, Timo Ropinski. 14183-14193 [doi]

Instance-level Expert Knowledge and Aggregate Discriminative Attention for Radiology Report GenerationShenshen Bu, Taiji Li, Yuedong Yang, Zhiming Dai. 14194-14204 [doi]

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-Rank ExpertsJialin Wu, Xia Hu, Yaqing Wang, Bo Pang 0001, Radu Soricut. 14205-14215 [doi]

Building Vision-Language Models on Solid Foundations with Masked DistillationSepehr Sameni, Kushal Kafle, Hao Tan, Simon Jenni. 14216-14226 [doi]

Groundhog Grounding Large Language Models to Holistic SegmentationYichi Zhang 0001, Ziqiao Ma, Xiaofeng Gao 0002, Suhaila Shakiah, Qiaozi Gao, Joyce Chai. 14227-14238 [doi]

DRESS : Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language FeedbackYangyi Chen, Karan Sikka, Michael Cogswell, Heng Ji, Ajay Divakaran. 14239-14250 [doi]

LASO: Language-Guided Affordance Segmentation on 3D ObjectYicong Li 0004, Na Zhao, Junbin Xiao, Chun Feng, Xiang Wang 0010, Tat-Seng Chua. 14251-14260 [doi]

Omni-Q: Omni-Directional Scene Understanding for Unsupervised Visual GroundingSai Wang, Yutian Lin, Yu Wu 0011. 14261-14270 [doi]

VTimeLLM: Empower LLM to Grasp Video MomentsBin Huang, Xin Wang 0019, Hong Chen, Zihan Song, Wenwu Zhu 0001. 14271-14280 [doi]

CogAgent: A Visual Language Model for GUI AgentsWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding 0004, Jie Tang 0001. 14281-14290 [doi]

EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language ModelsSijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li 0030, Huaping Liu 0001, Yang Liu 0005. 14291-14302 [doi]

Multi-Modal Hallucination Control by Visual Information GroundingAlessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto. 14303-14312 [doi]

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video UnderstandingShuhuai Ren, Linli Yao, Shicheng Li, Xu Sun 0001, Lu Hou. 14313-14323 [doi]

AHIVE: Anatomy-Aware Hierarchical Vision Encoding for Interactive Radiology Report RetrievalSixing Yan, William K. Cheung, Ivor W. Tsang, Keith Chin, Terence M. Tong, Ka-Chun Cheung, Simon See. 14324-14333 [doi]

Do Vision and Language Encoders Represent the World Similarly?Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Mohamed-El-Amine Seddik, Sanath Narayan, Karttikeya Mangalam, Noel E. O'Connor. 14334-14343 [doi]

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual ReinforcementZaid Khan 0001, Vijay Kumar B. G, Samuel Schulter, Yun Fu 0001, Manmohan Chandraker. 14344-14353 [doi]

Composing Object Relations and Attributes for Image-Text MatchingKhoi Pham, Chuong Huynh, Ser-Nam Lim, Abhinav Shrivastava. 14354-14363 [doi]

Zero-Shot Referring Expression Comprehension via Structural Similarity Between Images and CaptionsZeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang. 14364-14375 [doi]

Hallusionbench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language ModelsTianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu 0003, Xijun Wang 0002, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou 0001. 14375-14385 [doi]

A Simple Recipe for Contrastively Pre-Training Video-First Encoders Beyond 16 FramesPinelopi Papalampidi, Skanda Koppula, Shreya Pathak, Justin Chiu, Joe Heyward, Viorica Patraucean, Jiajun Shen, Antoine Miech, Andrew Zisserman, Aida Nematzadeh. 14386-14397 [doi]

Generative Multimodal Models are In-Context LearnersQuan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang 0003, Xinlong Wang. 14398-14409 [doi]

A Vision Check-up for Language ModelsPratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Adrián Rodríuez-Muñoz, Shivam Duggal, Phillip Isola, Antonio Torralba 0001, Stephanie Fu. 14410-14419 [doi]

Compositional Chain-of-Thought Prompting for Large Multimodal ModelsChancharik Mitra, Brandon Huang, Trevor Darrell, Roei Herzig. 14420-14431 [doi]

On Scaling Up a Multilingual Vision and Language ModelXi Chen 0071, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang 0038, Yi Tay, Siamak Shakeri, Mostafa Dehghani 0001, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang 0001, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, A. J. Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li 0021, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li 0058, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov 0003, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut. 14432-14444 [doi]

Dual-View Visual Contextualization for Web NavigationJihyung Kil, Chan Hee Song, Boyuan Zheng, Xiang Deng 0001, Yu Su 0001, Wei-Lun Chao. 14445-14454 [doi]

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning CapabilitiesBoyuan Chen 0003, Zhuo Xu, Sean Kirmani, Brian Ichter, Dorsa Sadigh, Leonidas J. Guibas, Fei Xia. 14455-14465 [doi]

Beyond Seen Primitive Concepts and Attribute-Object Compositional LearningNirat Saini, Khoi Pham, Abhinav Shrivastava. 14466-14476 [doi]

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object DetectionGang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li 0001, Si Liu 0001, Xiaolin Hu 0001. 14477-14486 [doi]

UnO: Unsupervised Occupancy Fields for Perception and ForecastingBen Agro, Quinlan Sykora, Sergio Casas 0002, Thomas Gilles, Raquel Urtasun. 14487-14496 [doi]

EgoGen: An Egocentric Synthetic Data GeneratorGen Li, Kaifeng Zhao 0004, Siwei Zhang, Xiaozhong Lyu, Mihai Dusmanu, Yan Zhang 0054, Marc Pollefeys, Siyu Tang 0001. 14497-14509 [doi]

Learning to Segment Referred Objects from Narrated Egocentric VideosYuhan Shen, Huiyu Wang, Xitong Yang, Matt Feiszli, Ehsan Elhamifar, Lorenzo Torresani, Effrosyni Mavroudi. 14510-14520 [doi]

Producing and Leveraging Online Map Uncertainty in Trajectory PredictionXunjiang Gu, Guanyu Song, Igor Gilitschenski, Marco Pavone 0001, Boris Ivanovic. 14521-14530 [doi]

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D ScenesAlexandros Delitzas, Ayça Takmaz, Federico Tombari, Robert W. Sumner, Marc Pollefeys, Francis Engelmann. 14531-14542 [doi]

SpiderMatch: 3D Shape Matching with Global Optimality and Geometric ConsistencyPaul Roetzer, Florian Bernard. 14543-14553 [doi]

PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty AwarenessAnh-Quan Cao, Angela Dai, Raoul de Charette. 14554-14564 [doi]

PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce LidarTzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram, Yuchen Fan, Christian Richardt, Ramesh Raskar, Rakesh Ranjan. 14565-14574 [doi]

A Subspace-Constrained Tyler's Estimator and its Applications to Structure from MotionFeng Yu, Teng Zhang 0002, Gilad Lerman. 14575-14584 [doi]

Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned RepresentationsSangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg. 14585-14595 [doi]

An N-Point Linear Solver for Line and Motion Estimation with Event CamerasLing Gao, Daniel Gehrig, Hang Su, Davide Scaramuzza 0001, Laurent Kneip. 14596-14605 [doi]

RoHM: Robust Human Motion Reconstruction via DiffusionSiwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr Kadlecek, Siyu Tang 0001, Federica Bogo. 14606-14617 [doi]

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action SegmentationMing Xu, Stephen Gould. 14618-14627 [doi]

FineParser: A Fine-Grained Spatio-Temporal Action Parser for Human-Centric Action Quality AssessmentJinglin Xu, Sibo Yin, Guohao Zhao, Zishuo Wang, Yuxin Peng. 14628-14637 [doi]

Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency RegularizationsKewei Wang, Yizheng Wu, Jun Cen, Zhiyu Pan, Xingyi Li, Zhe Wang, Zhiguo Cao 0001, Guosheng Lin. 14638-14647 [doi]

Multi-Space Alignments Towards Universal LiDAR SegmentationYouquan Liu, Lingdong Kong, Xiaoyang Wu 0002, Runnan Chen, Xin Li 0110, Liang Pan, Ziwei Liu 0002, Yuexin Ma. 14648-14661 [doi]

Generalized Predictive Model for Autonomous DrivingJiazhi Yang, Shenyuan Gao, Yihang Qiu, Li Chen 0008, Tianyu Li, Bo Dai 0002, Kashyap Chitta, Penghao Wu, Jia Zeng, Ping Luo 0002, Jun Zhang, Andreas Geiger 0001, Yu Qiao 0001, Hongyang Li 0001. 14662-14672 [doi]

Visual Point Cloud Forecasting Enables Scalable Autonomous DrivingZetong Yang, Li Chen, Yanan Sun, Hongyang Li. 14673-14684 [doi]

SeMoLi: What Moves Together Belongs TogetherJenny Seidenschwarz, Aljosa Osep, Francesco Ferroni, Simon Lucey, Laura Leal-Taixé. 14685-14694 [doi]

AIDE: An Automatic Data Engine for Object Detection in Autonomous DrivingMingfu Liang, Jong-Chyi Su, Samuel Schulter, Sparsh Garg, Shiyu Zhao, Ying Wu 0001, Manmohan Chandraker. 14695-14706 [doi]

Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud AnalysisXin Zhou 0013, Dingkang Liang, Wei Xu 0017, Xingkui Zhu, Yihan Xu, Zhikang Zou, Xiang Bai. 14707-14717 [doi]

BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-Based Roadside 3D Object DetectionWenjie Wang, Yehao Lu, Guangcong Zheng, Shuigen Zhan, Xiaoqing Ye, Zichang Tan, Jingdong Wang 0001, Gaoang Wang, Xi Li 0001. 14718-14727 [doi]

Dualad: Disentangling the Dynamic and Static World for End-to-End DrivingSimon Doll, Niklas Hanselmann, Lukas Schneider, Richard Schulz, Marius Cordts, Markus Enzweiler, Hendrik P. A. Lensch. 14728-14737 [doi]

Towards Realistic Scene Generation with LiDAR Diffusion ModelsHaoxi Ran, Vitor Guizilini, Yue Wang 0041. 14738-14748 [doi]

Driving Into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous DrivingYuqi Wang 0001, Jiawei He 0002, Lue Fan, Hongxin Li, YunTao Chen, Zhaoxiang Zhang 0001. 14749-14759 [doi]

VLP: Vision Language Planning for Autonomous DrivingChenbin Pan, Burhaneddin Yaman, Tommaso Nesti, Abhirup Mallik, Alessandro Gabriele Allievi, Senem Velipasalar, Liu Ren. 14760-14769 [doi]

Scaling Diffusion Models to Real-World 3D LiDAR Scene CompletionLucas Nunes, Rodrigo Marcuzzi, Benedikt Mersch, Jens Behley, Cyrill Stachniss. 14770-14780 [doi]

UniMix: Towards Domain Adaptive and Generalizable LiDAR Semantic Segmentation in Adverse WeatherHaimei Zhao, Jing Zhang 0037, Zhuo Chen, Shanshan Zhao 0001, Dacheng Tao. 14781-14791 [doi]

Not All Voxels are Equal: Hardness-Aware Semantic Scene Completion with Self-DistillationSong Wang, Jiawei Yu, Wentong Li, Wenyu Liu 0005, Xiaolu Liu, Junbo Chen, Jianke Zhu. 14792-14801 [doi]

OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning DenoisingHaichao Zhang 0002, Yi Xu 0005, Hongsheng Lu, Takayuki Shimizu, Yun Fu 0001. 14802-14811 [doi]

MGMap: Mask-Guided Learning for Online Vectorized HD Map ConstructionXiaolu Liu, Song Wang, Wentong Li, Ruizi Yang, Junbo Chen, Jianke Zhu. 14812-14821 [doi]

Density-Adaptive Model Based on Motif Matrix for Multi-Agent Trajectory PredictionDi Wen 0005, Haoran Xu, Zhaocheng He, Zhe Wu, Guang Tan, Peixi Peng. 14822-14832 [doi]

StreamingFlow: Streaming Occupancy Forecasting with Asynchronous Multi-modal Data Streams via Neural Ordinary Differential EquationYining Shi 0002, Kun Jiang 0002, Ke Wang 0002, Jiusi Li, Yunlong Wang 0009, Mengmeng Yang 0001, Diange Yang. 14833-14842 [doi]

View from Above: Orthogonal-View Aware Cross-View LocalizationShan Wang, Chuong Nguyen, Jiawei Liu 0005, Yanhao Zhang 0003, Sundaram Muthu, Fahira Afzal Maken, Kaihao Zhang, Hongdong Li. 14843-14852 [doi]

Improving Distant 3D Object Detection Using 2D Box SupervisionZetong Yang, Zhiding Yu, Christopher B. Choy, Renhao Wang, Anima Anandkumar, José M. Álvarez 0004. 14853-14863 [doi]

Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, José M. Álvarez 0004. 14864-14873 [doi]

CaDeT: A Causal Disentanglement Approach for Robust Trajectory Prediction in Autonomous DrivingMozhgan PourKeshavarz, Junrui Zhang, Amir Rasouli. 14874-14884 [doi]

Adversarial Backdoor Attack by Naturalistic Data Poisoning on Trajectory Prediction in Autonomous DrivingMozhgan PourKeshavarz, Mohammad Sabokrou, Amir Rasouli. 14885-14894 [doi]

NeuRAD: Neural Rendering for Autonomous DrivingAdam Tonderski, Carl Lindström, Georg Hess, William Ljungbergh, Lennart Svensson, Christoffer Petersson. 14895-14904 [doi]

IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object DetectionJunbo Yin, Jianbing Shen, Runnan Chen, Wei Li 0111, Ruigang Yang, Pascal Frossard, Wenguan Wang. 14905-14915 [doi]

LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse KernelsTuo Feng 0001, Wenguan Wang, Fan Ma, Yi Yang 0001. 14916-14927 [doi]

RCBEVDet: Radar-Camera Fusion in Bird's Eye View for 3D Object DetectionZhiwei Lin, Zhe Liu, Zhongyu Xia, Xinhao Wang, Yongtao Wang, Shengxiang Qi, Yang Dong, Nan Dong, Le Zhang, Ce Zhu. 14928-14937 [doi]

PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object DetectionKuan-Chih Huang, Weijie Lyu, Ming-Hsuan Yang 0001, Yi-Hsuan Tsai. 14938-14947 [doi]

Driving Everywhere with Large Language Model Policy AdaptationBoyi Li, Yue Wang 0036, Jiageng Mao, Boris Ivanovic, Sushant Veer, Karen Leung, Marco Pavone 0001. 14948-14957 [doi]

Text2Loc: 3D Point Cloud Localization from Natural LanguageYan Xia 0003, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers. 14958-14967 [doi]

Commonsense Prototype for Outdoor Unsupervised 3D Object DetectionHai Wu, Shijia Zhao, Xun Huang, Chenglu Wen, Xin Li 0003, Cheng Wang 0003. 14968-14977 [doi]

A-Teacher: Asymmetric Network for 3D Semi-Supervised Object DetectionHanshi Wang, Zhipeng Zhang, Jin Gao, Weiming Hu. 14978-14987 [doi]

MoST: Multi-modality Scene Tokenization for Motion PredictionNorman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang, Kan Chen, Charles R. Qi, Runzhou Ge, Kratarth Goel, Zoey Yang, Scott Ettinger, Rami Al-Rfou, Dragomir Anguelov, Yin Zhou. 14988-14999 [doi]

Feedback-Guided Autonomous DrivingJimuyang Zhang, Zanming Huang, Arijit Ray, Eshed Ohn-Bar. 15000-15011 [doi]

Bootstrapping Autonomous Driving Radars with Self-Supervised LearningYiduo Hao, Sohrab Madani, Junfeng Guan, Mohammed Alloulah, Saurabh Gupta 0001, Haitham Hassanieh. 15012-15023 [doi]

SIRA: Scalable Inter-Frame Relation and Association for Radar PerceptionRyoma Yataka, Pu Wang 0004, Petros Boufounos, Ryuhei Takahashi. 15024-15034 [doi]

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy PredictionPin Tang, Zhongdao Wang, Guoqing Wang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma 0004. 15035-15044 [doi]

DiffLoc: Diffusion Model for Outdoor LiDAR LocalizationWen Li 0005, Yuyang Yang, Shangshu Yu, Guosheng Hu, Chenglu Wen, Ming Cheng 0002, Cheng Wang 0003. 15045-15054 [doi]

Weak-to-Strong 3D Object Detection with X-Ray DistillationAlexander Gambashidze, Aleksandr Dadukin, Maksim Golyadkin, Maria Razzhivina, Ilya Makarov. 15055-15064 [doi]

T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-Specific Token MemoryDaehee Park, Jaeseok Jeong, Sung Hoon Yoon, Jaewoo Jeong, Kuk-Jin Yoon. 15065-15076 [doi]

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-AgentsYuxi Wei, Zi Wang, Yifan Lu, Chenxin Xu, Changxing Liu, Hao Zhao, Siheng Chen, Yanfeng Wang. 15077-15087 [doi]

Uncertainty-Guided Never-Ending Learning to DriveLei Lai, Eshed Ohn-Bar, Sanjay Arora, John Seon Keun Yi. 15088-15098 [doi]

On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous DrivingKaituo Feng, Changsheng Li, Dongchun Ren, Ye Yuan 0001, Guoren Wang. 15099-15108 [doi]

DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based RefinementJiuming Liu, Guangming Wang 0001, Weicai Ye, Chaokang Jiang, Jinru Han, Zhe Liu 0022, Guofeng Zhang 0001, Dalong Du, Hesheng Wang 0001. 15109-15119 [doi]

LMDrive: Closed-Loop End-to-End Driving with Large Language ModelsHao Shao, Yuxuan Hu, Letian Wang, Guanglu Song, Steven L. Waslander, Yu Liu 0015, Hongsheng Li 0001. 15120-15130 [doi]

SOAC: Spatio-Temporal Overlap-Aware Multi-Sensor Calibration using Neural Radiance FieldsQuentin Herau, Nathan Piasco, Moussâb Bennehar, Luis Roldao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur, Cédric Demonceaux. 15131-15140 [doi]

LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model ProgramsYunsheng Ma, Can Cui, Xu Cao, Wenqian Ye, Peiran Liu, Juanwu Lu, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Aniket Bera, James M. Rehg, Ziran Wang. 15141-15151 [doi]

GLiDR: Topologically Regularized Graph Generative Network for Sparse LiDAR Point CloudsPrashant Kumar, Kshitij Madhav Bhat, Vedang Bhupesh Shenvi Nadkarni, Prem Kalra. 15152-15161 [doi]

Towards Robust 3D Object Detection with LiDAR and 4D Radar Fusion in Various Weather ConditionsYujeong Chae, Hyeonseong Kim, Kuk-Jin Yoon. 15162-15172 [doi]

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-LabellingChaokang Jiang, Guangming Wang 0001, Jiuming Liu, Hesheng Wang 0001, Zhuang Ma, Zhenqiang Liu, Zhujin Liang, Yi Shan, Dalong Du. 15173-15183 [doi]

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and AssociationShuxiao Ding, Lukas Schneider, Marius Cordts, Juergen Gall. 15184-15194 [doi]

PointBeV: A Sparse Approach to BeV PredictionsLoïck Chambon, Éloi Zablocki, Mickaël Chen, Florent Bartoccioni, Patrick Pérez, Matthieu Cord. 15195-15204 [doi]

Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous DrivingJinlong Li, Baolu Li, Zhengzhong Tu, Xinyu Liu 0009, Qing Guo 0005, Felix Juefei-Xu, Runsheng Xu, Hongkai Yu. 15205-15215 [doi]

CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth FlowChenbin Pan, Burhaneddin Yaman, Senem Velipasalar, Liu Ren. 15216-15225 [doi]

Adapting to Length Shift: FlexiLength Network for Trajectory PredictionYi Xu 0005, Yun Fu 0001. 15226-15237 [doi]

UniPAD: A Universal Pre-Training Paradigm for Autonomous DrivingHonghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu 0002, Haoyi Zhu, Tong He 0001, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He 0001, Wanli Ouyang. 15238-15250 [doi]

Higher-order Relational Reasoning for Pedestrian Trajectory PredictionSungjune Kim, Hyung-Gun Chi, Hyerin Lim, Karthik Ramani, Jinkyu Kim, Sangpil Kim. 15251-15260 [doi]

HPNet: Dynamic Trajectory Forecasting with Historical Prediction AttentionXiaolong Tang, Meina Kan, Shiguang Shan, Zhilong Ji, Jinfeng Bai, Xilin Chen 0001. 15261-15270 [doi]

LiSA: LiDAR Localization with Semantic AwarenessBochun Yang, Zijun Li 0006, Wen Li 0005, Zhipeng Cai, Chenglu Wen, Yu Zang, Matthias Müller 0011, Cheng Wang 0003. 15271-15280 [doi]

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion PredictionYang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li 0001, Yu Liu 0015. 15281-15290 [doi]

Pseudo Label Refinery for Unsupervised Domain Adaptation on Cross-Dataset 3D Object DetectionZhanwei Zhang, Minghao Chen 0001, Shuai Xiao, Liang Peng, Hengjia Li, Binbin Lin, Ping Li 0006, Wenxiao Wang 0001, Boxi Wu, Deng Cai 0001. 15291-15300 [doi]

Multi-Agent Collaborative Perception via Motion-Aware Robust Communication NetworkShixin Hong, Yu Liu, Zhi Li, Shaohui Li, You He. 15301-15310 [doi]

TASeg: Temporal Aggregation Network for LiDAR Semantic SegmentationXiaopei Wu, Yuenan Hou, Xiaoshui Huang, Binbin Lin, Tong He 0001, Xinge Zhu, Yuexin Ma, Boxi Wu, Haifeng Liu 0001, Deng Cai 0001, Wanli Ouyang. 15311-15320 [doi]

HINTED: Hard Instance Enhanced Detector with Mixed-Density Feature Fusion for Sparsely-Supervised 3D Object DetectionQiming Xia, Wei Ye, Hai Wu, Shijia Zhao, Leyuan Xing, Xun Huang, Jinhao Deng, Xin Li 0003, Chenglu Wen, Cheng Wang 0003. 15321-15330 [doi]

CaKDP: Category-Aware Knowledge Distillation and Pruning Framework for Lightweight 3D Object DetectionHaonan Zhang, Longjun Liu, Yuqi Huang, Zhao Yang, Xinyu Lei, Bihan Wen. 15331-15341 [doi]

Diffusion-ES: Gradient-Free Planning with Diffusion for Autonomous and Instruction-Guided DrivingBrian Yang, Huangyuan Su, Nikolaos Gkanatsios, Tsung-Wei Ke, Ayush Jain, Jeff G. Schneider, Katerina Fragkiadaki. 15342-15353 [doi]

TULIP: Transformer for Upsampling of LiDAR Point CloudsBin Yang, Patrick Pfreundschuh, Roland Siegwart, Marco Hutter 0001, Peyman Moghadam, Vaishakh Patil. 15354-15364 [doi]

Bézier Everywhere All at Once: Learning Drivable Lanes as Bézier GraphsHugh Blayney, Hanlin Tian, Hamish Scott, Nils Goldbeck, Chess Stetson, Panagiotis Angeloudis. 15365-15374 [doi]

Flow-Guided Online Stereo Rectification for Wide Baseline StereoAnush Kumar, Fahim Mannan, Omid Hosseini Jafari, Shile Li, Felix Heide. 15375-15385 [doi]

LASIL: Learner-Aware Supervised Imitation Learning For Long-Term Microscopic Traffic SimulationKe Guo, Zhenwei Miao, Wei Jing, Weiwei Liu, Weizi Li, Dayang Hao, Jia Pan. 15386-15395 [doi]

HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map ConstructionYi Zhou 0020, Hui Zhang 0093, Jiaqian Yu, Yifan Yang, Sangil Jung, Seung In Park, ByungIn Yoo. 15396-15406 [doi]

RadSimReal: Bridging the Gap Between Synthetic and Real Data in Radar Object Detection With SimulationOded Bialer, Yuval Haitman. 15407-15416 [doi]

3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural RepresentationXingguang Zhong, Yue Pan, Cyrill Stachniss, Jens Behley. 15417-15427 [doi]

Quantifying Uncertainty in Motion Prediction with Variational Bayesian MixtureJuanwu Lu, Can Cui, Yunsheng Ma, Aniket Bera, Ziran Wang. 15428-15437 [doi]

Continual Learning for Motion Prediction Model via Meta-Representation Learning and Optimal Memory Buffer Retention StrategyDaejun Kang, Dongsuk Kum, Sanmin Kim. 15438-15448 [doi]

PARA-Drive: Parallelized Architecture for Real-Time Autonomous DrivingXinshuo Weng, Boris Ivanovic, Yan Wang 0051, Yue Wang 0041, Marco Pavone 0001. 15449-15458 [doi]

ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous VehiclesJiawei Zhang, Chejian Xu, Bo Li. 15459-15469 [doi]

CRKD: Enhanced Camera-Radar Object Detection with Cross-Modality Knowledge DistillationLingjun Zhao, Jingyu Song, Katherine A. Skinner. 15470-15480 [doi]

Communication-Efficient Collaborative Perception via Information Filling with CodebookYue Hu, Juntong Peng, Sifei Liu, Junhao Ge, Si Liu, Siheng Chen. 15481-15490 [doi]

RadarDistill: Boosting Radar-Based Object Detection Performance via Knowledge Distillation from LiDAR FeaturesGeonho Bang, Kwangjin Choi, Jisong Kim, Dongsuk Kum, Jun Won Choi. 15491-15500 [doi]

ICP-Flow: LiDAR Scene Flow Estimation with ICPYancong Lin, Holger Caesar. 15501-15511 [doi]

Improving Bird's Eye View Semantic Segmentation by Task DecompositionTianhao Zhao, Yongcan Chen, Yu Wu 0011, Tianyang Liu, Bo Du 0001, Peilun Xiao, Shi Qiu, Hongda Yang, Guozhen Li, Yi Yang 0001, Yutian Lin. 15512-15521 [doi]

DriveWorld: 4D Pre-Trained Scene Understanding via World Models for Autonomous DrivingChen Min, Dawei Zhao, Liang Xiao 0007, Jian Zhao 0006, Xinli Xu, Zheng Zhu, Lei Jin 0003, Jianshu Li, Yulan Guo, Junliang Xing, Liping Jing, Yiming Nie, Bin Dai 0001. 15522-15533 [doi]

HRVDA: High-Resolution Visual Document AssistantChaohu Liu, Kun Yin, Haoyu Cao, Xinghua Jiang, Xin Li 0016, Yinsong Liu, Deqiang Jiang, Xing Sun, Linli Xu. 15534-15545 [doi]

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language ModelsXin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun. 15546-15555 [doi]

RoDLA: Benchmarking the Robustness of Document Layout Analysis ModelsYufan Chen, Jiaming Zhang 0001, Kunyu Peng, Junwei Zheng, Ruiping Liu, Philip Torr 0001, Rainer Stiefelhagen. 15556-15566 [doi]

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text RecognizerZhen Zhao, Jingqun Tang, Chunhui Lin, Binghong Wu, Can Huang, Hao Liu 0003, Xin Tan, Zhizhong Zhang, Yuan Xie 0006. 15567-15576 [doi]

CMA: A Chromaticity Map Adapter for Robust Detection of Screen-Recapture Document ImagesChangsheng Chen, Liangwei Lin, Yongqi Chen, Bin Li 0011, Jishen Zeng, Jiwu Huang. 15577-15586 [doi]

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and SpottingChen Duan, Pei Fu, Shan Guo, Qianyi Jiang, Xiaoming Wei. 15587-15597 [doi]

GRAM: Global Reasoning for Multi-Page VQATsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Shahar Tsiper, Elad Ben-Avraham, Aviad Aberdam, Roy Ganz, Ron Litman. 15598-15607 [doi]

Bridging the Gap Between End-to-End and Two-Step Text SpottingMingxin Huang, Hongliang Li, Yuliang Liu, Xiang Bai, Lianwen Jin. 15608-15618 [doi]

An Empirical Study of Scaling Law for Scene Text RecognitionMiao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang 0001, Kai Han 0002. 15619-15629 [doi]

LayoutLLM: Layout Instruction Tuning with Large Language Models for Document UnderstandingChuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao. 15630-15640 [doi]

OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table RecognitionJianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang 0004, Xiang Bai, Cong Yao, Zhibo Yang 0003. 15641-15653 [doi]

DocRes: A Generalist Model Toward Unifying Document Image Restoration TasksJiaxin Zhang 0003, Dezhi Peng, Chongyu Liu, Peirong Zhang, Lianwen Jin. 15654-15664 [doi]

LayoutFormer: Hierarchical Text Detection Towards Scene Text UnderstandingMin Liang, Jia-Wei Ma, Xiaobin Zhu 0001, Jingyan Qin, Xu-Cheng Yin. 15665-15674 [doi]

Generating Handwritten Mathematical Expressions From Symbol Graphs: An End-to-End PipelineYu Chen 0003, Fei Gao 0006, Yanguang Zhang, Maoying Qiao, Nannan Wang 0001. 15675-15685 [doi]

OpenESS: Event-Based Semantic Scene Understanding with Open VocabulariesLingdong Kong, Youquan Liu, Lai Xing Ng, Benoit R. Cottereau, Wei Tsang Ooi. 15686-15698 [doi]

PELA: Learning Parameter-Efficient Models with Low-Rank ApproximationYangyang Guo, Guangzhi Wang, Mohan S. Kankanhalli. 15699-15709 [doi]

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language TransformerJianjian Cao, Peng Ye, Shengze Li, Chong Yu, Yansong Tang, Jiwen Lu, Tao Chen 0003. 15710-15719 [doi]

$V_{k}D$: Improving Knowledge Distillation Using Orthogonal ProjectionsRoy Miles, Ismail Elezi, Jiankang deng. 15720-15730 [doi]

Logit Standardization in Knowledge DistillationShangquan Sun, Wenqi Ren, Jingzhi Li 0002, Rui Wang 0032, Xiaochun Cao. 15731-15740 [doi]

Multi-Criteria Token Fusion with One-Step-Ahead Attention for Efficient Vision TransformersSanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim. 15741-15750 [doi]

ParameterNet: Parameters are All You Need for Large-Scale Visual Pretraining of Mobile NetworksKai Han 0002, Yunhe Wang 0001, Jianyuan Guo, Enhua Wu. 15751-15761 [doi]

DeepCache: Accelerating Diffusion Models for FreeXinyin Ma, Gongfan Fang, Xinchao Wang. 15762-15772 [doi]

ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision TransformersNarges Norouzi, Svetlana Orlova, Daan de Geus, Gijs Dubbelman. 15773-15782 [doi]

A General and Efficient Training for Transformer via Token ExpansionWenxuan Huang, Yunhang Shen, Jiao Xie, Baochang Zhang 0001, Gaoqi He, Ke Li 0015, Xing Sun, Shaohui Lin. 15783-15792 [doi]

Efficient Dataset Distillation via Minimax DiffusionJianyang Gu, Saeed Vahidian, Vyacheslav Kungurtsev, Haonan Wang, Wei Jiang 0009, Yang You 0001, Yiran Chen 0001. 15793-15803 [doi]

PEM: Prototype-Based Efficient MaskFormer for Image SegmentationNiccolò Cavagnero, Gabriele Rosi, Claudia Cuttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli. 15804-15813 [doi]

Transferable and Principled Efficiency for Open-Vocabulary SegmentationJingxuan Xu, Wuyang Chen, Yao Zhao 0001, Yunchao Wei. 15814-15824 [doi]

Dense Vision Transformer Compression with Few SamplesHanxiao Zhang, Yifan Zhou, Guo-Hua Wang. 15825-15834 [doi]

2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient FinetuningChen Zhao 0002, Shuming Liu, Karttikeya Mangalam, Guocheng Qian, Fatimah Zohra, Abdulmohsen Alghannam, Jitendra Malik, Bernard Ghanem. 15835-15844 [doi]

MaxQ: Multi-Axis Query for N: m Sparsity NetworkJingyang Xiang, Siqi Li, Junhao Chen, Zhuangzhi Chen, Tianxin Huang, Linpeng Peng, Yong Liu 0007. 15845-15854 [doi]

Retraining-free Model Quantization via One-Shot Weight-Coupling LearningChen Tang, Yuan Meng, Jiacheng Jiang, Shuzhao Xie, Rongwei Lu, Xinzhu Ma, Zhi Wang 0001, Wenwu Zhu 0001. 15855-15865 [doi]

LORS: Low-Rank Residual Structure for Parameter-Efficient Network StackingJialin Li, Qiang Nie, Weifu Fu, Yuhuan Lin, Guangpin Tao, Yong Liu, Chengjie Wang. 15866-15876 [doi]

Towards High-fidelity Artistic Image Vectorization via Texture-Encapsulated Shape ParameterizationYe Chen, Bingbing Ni, Jinfan Liu, Xiaoyang Huang, Xuanhong Chen. 15877-15886 [doi]

Learning Vision from Models Rivals Learning Vision from DataYonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola. 15887-15898 [doi]

Efficient Multitask Dense Predictor via BinarizationYuzhang Shang, Dan Xu 0002, Gaowen Liu, Ramana Rao Kompella, Yan Yan 0002. 15899-15908 [doi]

Rep ViT: Revisiting Mobile CNN From ViT PerspectiveAo Wang, Hui Chen 0013, Zijia Lin, Jungong Han, Guiguang Ding. 15909-15920 [doi]

Enhancing Post-Training Quantization Calibration Through Contrastive LearningYuzhang Shang, Gaowen Liu, Ramana Rao Kompella, Yan Yan 0002. 15921-15930 [doi]

FreeKD: Knowledge Distillation via Semantic Frequency PromptYuan Zhang, Tao Huang, Jiaming Liu, Tao Jiang, Kuan Cheng, Shanghang Zhang. 15931-15940 [doi]

PTQ4SAM: Post-Training Quantization for Segment AnythingChengtao Lv, Hong Chen 0004, Jinyang Guo, Jinyang Guo, Jinyang Guo, Yifu Ding, Xianglong Liu 0001. 15941-15951 [doi]

CLIP-KD: An Empirical Study of CLIP Model DistillationChuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han Yang, Boyu Diao, Yongjun Xu. 15952-15962 [doi]

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced TrainingPavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel. 15963-15974 [doi]

Scale Decoupled DistillationShicai Wei, Chunbo Luo, Yang Luo. 15975-15983 [doi]

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly DetectorsNicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu-Tudor Ionescu, Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah. 15984-15995 [doi]

PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural NetworksMarina Neseem, Conor McCullough, Randy Hsin, Chas Leichner, Shan Li 0001, In Suk Chong, Andrew G. Howard, Lukasz Lew, Sherief Reda, Ville-Mikko Rautio, Daniele Moro. 15996-16005 [doi]

2KD: Bridging the Modality Gap for Cross-Modal Knowledge DistillationFushuo Huo, Wenchao Xu 0001, Jingcai Guo, Haozhao Wang, Song Guo 0001. 16006-16015 [doi]

KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillation Points SamplingYu Wang, Xin Li, Shengzhao Weng, Gang Zhang, Haixiao Yue, Haocheng Feng, Junyu Han, Errui Ding. 16016-16025 [doi]

Towards Accurate Post-Training Quantization for Diffusion ModelsChangYuan Wang, Ziwei Wang 0001, Xiuwei Xu, Yansong Tang, Jie Zhou 0001, Jiwen Lu. 16026-16035 [doi]

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR DecompositionQixuan Zheng, Ming Zhang, Hong Yan. 16036-16045 [doi]

Frozen Feature Augmentation for Few-Shot Image ClassificationAndreas Bär, Neil Houlsby, Mostafa Dehghani 0001, Manoj Kumar. 16046-16057 [doi]

Jointly Training and Pruning CNNs via Learnable Agent Guidance and AlignmentAlireza Ganjdanesh, Shangqian Gao, Heng Huang. 16058-16069 [doi]

Zero-TPrune: Zero-Shot Token Pruning Through Leveraging of the Attention Graph in Pre-Trained TransformersHongjie Wang, Bhishma Dedhia, Niraj K. Jha. 16070-16079 [doi]

Attention-Driven Training-Free Efficiency Enhancement of Diffusion ModelsHongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu. 16080-16089 [doi]

BilevelPruning: Unified Dynamic and Static Channel Pruning for Convolutional Neural NetworksShangqian Gao, Yanfu Zhang, Feihu Huang, Heng Huang. 16090-16100 [doi]

Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design ApproachWei Dong, Xing Zhang, Bihui Chen, Dawei Yan, Zhijun Lin, Qingsen Yan, Peng Wang, Yang Yang. 16101-16110 [doi]

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment AnythingYunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest N. Iandola, Raghuraman Krishnamoorthi, Vikas Chandra. 16111-16121 [doi]

FlashEval: Towards Fast and Accurate Evaluation of Text-to-Image Diffusion Generative ModelsLin Zhao, Tianchen Zhao, Zinan Lin 0001, Xuefei Ning, Guohao Dai, Huazhong Yang, Yu Wang 0002. 16122-16131 [doi]

Instance-Aware Group Quantization for Vision TransformersJaehyeon Moon, Dohyung Kim 0006, Junyong Cheon, Bumsub Ham. 16132-16141 [doi]

Finding Lottery Tickets in Vision Models via Data-Driven Spectral Foresight PruningLeonardo Iurada, Marco Ciccone, Tatiana Tommasi. 16142-16151 [doi]

Joint-Task Regularization for Partially Labeled Multi-Task LearningKento Nishi, Junsik Kim 0001, Wanhua Li 0001, Hanspeter Pfister. 16152-16162 [doi]

Auto- Train-Once: Controller Network Guided Automatic Network Pruning from ScratchXidong Wu, Shangqian Gao, Zeyu Zhang, Zhenzhen Li, Runxue Bao, Yanfu Zhang, Xiaoqian Wang 0001, Heng Huang. 16163-16173 [doi]

Reg-PTQ: Regression-specialized Post-training Quantization for Fully Quantized Object DetectorYifu Ding, Weilun Feng, Chuyan Chen, Jinyang Guo, Xianglong Liu. 16174-16184 [doi]

MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language PruningMatteo Farina, Massimiliano Mancini, Elia Cunegatti, Elia Cunegatti, Giovanni Iacca, Elisa Ricci 0001. 16185-16195 [doi]

MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task LearningAhmed Agiza, Marina Neseem, Sherief Reda. 16196-16205 [doi]

Resource- Efficient Transformer Pruning for Finetuning of Large ModelsFatih Ilhan, Gong Su, Selim Furkan Tekin, Tiansheng Huang, Sihao Hu, Ling Liu 0001. 16206-16215 [doi]

Promptable Behaviors: Personalizing Multi-Objective Rewards from Human PreferencesMinyoung Hwang, Luca Weihs, Chanwoo Park, Kimin Lee, Aniruddha Kembhavi, Kiana Ehsani. 16216-16226 [doi]

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real WorldKiana Ehsani, Tanmay Gupta, Rose Hendrix, Jordi Salvador, Luca Weihs, Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti, Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi. 16238-16250 [doi]

RILA: Reflective and Imaginative Language Agent for Zero-Shot Semantic Audio-Visual NavigationZeyuan Yang, Jiageng Lin, Peihao Chen, Anoop Cherian, Tim K. Marks, Jonathan Le Roux, Chuang Gan. 16251-16261 [doi]

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AIYandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang. 16262-16272 [doi]

Seeing the Unseen: Visual Common Sense for Semantic PlacementRam Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo-Hao Zeng, Luca Weihs. 16273-16283 [doi]

Holodeck: Language Guided Generation of 3D Embodied AI EnvironmentsYue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu 0001, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark. 16277-16287 [doi]

LEMON: Learning 3D Human-Object Interaction Relation from 2D ImagesYuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao 0010, Zheng-Jun Zha. 16284-16295 [doi]

OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd RepresentationGanlong Zhao, Guanbin Li, Weikai Chen 0001, Yizhou Yu. 16296-16306 [doi]

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active PerceptionYiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao 0001, Jing Shao. 16307-16316 [doi]

Volumetric Environment Representation for Vision-Language NavigationRui Liu, Wenguan Wang, Yi Yang 0001. 16317-16328 [doi]

Instance-Aware Exploration-Verification-Exploitation for Instance ImageGoal NavigationXiaohan Lei, Min Wang 0019, Wengang Zhou, Li Li 0040, Houqiang Li. 16329-16339 [doi]

UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual CorrespondenceRuihai Wu, Haoran Lu, Yiyan Wang, Yubo Wang, Hao Dong. 16340-16350 [doi]

Evidential Active Recognition: Intelligent and Prudent Open-World Embodied PerceptionLei Fan, Mingfu Liang, Yunxuan Li, Gang Hua 0001, Ying Wu 0001. 16351-16361 [doi]

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and ImitationZifan Wang, Junyu Chen, Ziqing Chen, Pengwei Xie, Rui Chen, Li Yi. 16362-16372 [doi]

GOAT-Bench: A Benchmark for Multi-Modal Lifelong NavigationMukul Khanna, Ram Ramrakhya, Gunjan Chhablani, Sriram Yenamandra, Théophile Gervet, Matthew Chang, Zsolt Kira, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi. 16373-16383 [doi]

Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal NavigationMukul Khanna, Yongsen Mao, Hanxiao Jiang 0001, Sanjay Haresh, Brennan Shacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X. Chang, Manolis Savva. 16384-16393 [doi]

Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP LimitationsLei Fan, JianXiong Zhou, Xiaoying Xing, Ying Wu 0001. 16394-16403 [doi]

Rapid Motor Adaptation for Robotic Manipulator ArmsYichao Liang, Kevin Ellis, João Henriques. 16404-16413 [doi]

Imagine Before Go: Self-Supervised Generative Map for Object Goal NavigationSixian Zhang, Xinyao Yu, Xinhang Song, Xiaohan Wang, Shuqiang Jiang. 16414-16425 [doi]

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for MinecraftHao Li 0069, Xue Yang 0005, Zhaokai Wang, Xizhou Zhu, Jie Zhou 0001, Yu Qiao 0001, Xiaogang Wang 0001, Hongsheng Li 0001, Lewei Lu, Jifeng Dai. 16426-16435 [doi]

GenNBV: Generalizable Next-Best-View Policy for Active 3D ReconstructionXiao Chen, Quanyi Li, Tai Wang, Tianfan Xue, Jiangmiao Pang. 16436-16445 [doi]

An Interactive Navigation Method with Effect-oriented AffordanceXiaohan Wang, Yuehu Liu, Xinhang Song, Yuyi Liu, Sixian Zhang, Shuqiang Jiang. 16446-16456 [doi]

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task ExecutionZhixuan Liang, Yao Mu 0001, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo 0002. 16467-16476 [doi]

Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person ViewsZiwei Zhao 0003, Yuchen Wang, Chuhua Wang. 16477-16487 [doi]

OpenEQA: Embodied Question Answering in the Era of Foundation ModelsArjun Majumdar, Anurag Ajay, Xiaohan Zhang 0002, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul McVay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma 0001, Vincent-Pierre Berges, Shiqi Zhang 0001, Pulkit Agrawal 0001, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Alexander Sax, Aravind Rajeswaran. 16488-16498 [doi]

Model Adaptation for Time Constrained Embodied ControlJaehyun Song, Minjong Yoo, Honguk Woo. 16499-16508 [doi]

You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image RetrievalSubhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang 0002, Yi-Zhe Song. 16509-16519 [doi]

CrossKD: Cross-Head Knowledge Distillation for Object DetectionJiabao Wang, Yuming Chen, Zhaohui Zheng, Xiang Li 0041, Ming-Ming Cheng, Qibin Hou. 16520-16530 [doi]

ProTeCt: Prompt Tuning for Taxonomic Open Set ClassificationTz-Ying Wu, Chih-Hui Ho, Nuno Vasconcelos. 16531-16540 [doi]

CAT: Exploiting Inter-Class Dynamics for Domain Adaptive Object DetectionMikhail Kennerley, Jian-Gang Wang, Bharadwaj Veeravalli, Robby T. Tan. 16541-16550 [doi]

Text Is MASS: Modeling as Stochastic Embedding for Text-Video RetrievalJiamian Wang, Pichao Wang, Guohao Sun, Dongfang Liu, Sohail A. Dianat, Raghuveer Rao, Majid Rabbani, Zhiqiang Tao. 16551-16560 [doi]

UniMODE: Unified Monocular 3D Object DetectionZhuoling Li, Xiaogang Xu, Ser-Nam Lim, Hengshuang Zhao. 16561-16570 [doi]

OVMR: Open-Vocabulary Recognition with Multi-Modal ReferencesZehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian 0001. 16571-16581 [doi]

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action UnderstandingYong-Lu Li 0001, Xiaoqian Wu, Xinpeng Liu, Zehao Wang, Yiming Dou, Yikun Ji, Junyi Zhang 0004, Yixing Li, Xudong Lu, Jingru Tan, Cewu Lu. 16582-16592 [doi]

Language-Conditioned Detection TransformerJang Hyun Cho, Philipp Krähenbühl. 16593-16603 [doi]

Distribution-Aware Knowledge Prototyping for Non-Exemplar Lifelong Person Re-IdentificationKunlun Xu, Xu Zou, Yuxin Peng, Jiahuan Zhou. 16604-16613 [doi]

Learning Continual Compatible Representation for Re-indexing Free Lifelong Person Re-identificationZhenyu Cui, Jiahuan Zhou, Xun Wang, Manyu Zhu, Yuxin Peng. 16614-16623 [doi]

Active Object Detection with Knowledge Aggregation and Distillation from Large ModelsDejie Yang, Yang Liu. 16624-16633 [doi]

SHiNe: Semantic Hierarchy Nexus for Open-Vocabulary Object DetectionMingxuan Liu, Tyler L. Hayes, Elisa Ricci 0001, Gabriela Csurka, Riccardo Volpi. 16634-16644 [doi]

Object Recognition as Next Token PredictionKaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim. 16645-16656 [doi]

Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI DetectionTing Lei, Shaofeng Yin, Yang Liu. 16657-16667 [doi]

Gradient Reweighting: Towards Imbalanced Class-Incremental LearningJiangpeng He. 16668-16677 [doi]

Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object DetectionJiaming Li, Jiacheng Zhang, Jichang Li, Ge Li, Si Liu 0001, Liang Lin, Guanbin Li. 16678-16687 [doi]

Multi-View Attentive Contextualization for Multi-View 3D Object DetectionXianpeng Liu, Ce Zheng, Ming Qian, Nan Xue 0001, Chen Chen 0001, Zhebin Zhang, Chen Li, Tianfu Wu 0001. 16688-16698 [doi]

RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly DetectionXimiao Zhang, Min Xu 0003, Xiuzhuang Zhou. 16699-16708 [doi]

Generalized Large-Scale Data Condensation via Various Backbone and Statistical MatchingShitong Shao, Zeyuan Yin, Muxin Zhou, Xindong Zhang, Zhiqiang Shen. 16709-16718 [doi]

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-LocalizationGuopeng Li, Ming Qian, Gui-Song Xia. 16719-16729 [doi]

PointOBB: Learning Oriented Object Detection via Single Point SupervisionJunwei Luo, Xue Yang 0005, Yi Yu 0010, Qingyun Li, Junchi Yan, Yansheng Li 0001. 16730-16740 [doi]

Scene-adaptive and Region-aware Multi-modal Prompt for Open Vocabulary Object DetectionXiaowei Zhao, Xianglong Liu 0001, Duorui Wang, Yajun Gao, Zhide Liu. 16741-16750 [doi]

Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain TransferWenqiao Zhang, Zheqi Lv. 16751-16761 [doi]

Hyperbolic Learning with Synthetic Captions for Open-World DetectionFanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo. 16762-16771 [doi]

CricaVPR: Cross-Image Correlation-Aware Representation Learning for Visual Place RecognitionFeng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang 0001, Chun Yuan. 16772-16782 [doi]

Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-End Oriented Object Detection with Single Point SupervisionYi Yu 0010, Xue Yang 0005, Qingyun Li, Feipeng Da, Jifeng Dai, Yu Qiao 0001, Junchi Yan. 16783-16793 [doi]

Scene Adaptive Sparse Transformer for Event-based Object DetectionYansong Peng, Hebei Li, Yueyi Zhang, Xiaoyan Sun 0001, Feng Wu 0005. 16794-16804 [doi]

Visual Delta Generator with Large Multi-Modal Models for Semi-Supervised Composed Image RetrievalYoung-Kyun Jang, Donghyun Kim, Zihang Meng, Dat Huynh, Ser-Nam Lim. 16805-16814 [doi]

Preserving Fairness Generalization in Deepfake DetectionLi Lin, Xinan He, Yan Ju, Xin Wang, Feng Ding 0007, Shu Hu 0001. 16815-16825 [doi]

Text-to-Image Diffusion Models are Great Sketch-Photo MatchmakersSubhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang 0002, Yi-Zhe Song. 16826-16837 [doi]

Structured Model Probing: Empowering Efficient Transfer Learning by Structured RegularizationZhi-Fan Wu, Chaojie Mao, Xue Wang, Jianwen Jiang, Yiliang Lv, Rong Jin 0001. 16838-16847 [doi]

PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly DetectionXiaofan Li, Zhizhong Zhang, Xin Tan, Chengwei Chen, Yanyun Qu, Yuan Xie 0001, Lizhuang Ma. 16848-16858 [doi]

How to Handle Sketch-Abstraction in Sketch-Based Image Retrieval?Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang 0002, Yi-Zhe Song. 16859-16869 [doi]

Shallow-Deep Collaborative Learning for Unsupervised Visible-Infrared Person Re-IdentificationBin Yang 0026, Jun Chen 0001, Mang Ye. 16870-16879 [doi]

Solving the Catastrophic Forgetting Problem in Generalized Category DiscoveryXinzi Cao, Xiawu Zheng, Guanhong Wang, Weijiang Yu, Yunhang Shen, Ke Li 0015, Yutong Lu, Yonghong Tian 0001. 16880-16889 [doi]

Active Generalized Category DiscoveryShijie Ma, Fei Zhu, Zhun Zhong, Xu-Yao Zhang, Cheng-Lin Liu 0001. 16890-16900 [doi]

YOLO-World: Real-Time Open-Vocabulary Object DetectionTianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu 0001, Xinggang Wang, Ying Shan. 16901-16911 [doi]

Theoretically Achieving Continuous Representation of Oriented Bounding BoxesZi-Kai Xiao, Guo-Ye Yang, Xue Yang 0005, Tai-Jiang Mu, Junchi Yan, Shi-Min Hui 0001. 16912-16922 [doi]

Decoupled Pseudo-Labeling for Semi-Supervised Monocular 3D Object DetectionJiacheng Zhang, Jiaming Li, Xiangru Lin, Wei Zhang 0197, Xiao Tan 0001, Junyu Han, Errui Ding, Jingdong Wang 0001, Guanbin Li. 16923-16932 [doi]

LEOD: Label-Efficient Object Detection for Event CamerasZiyi Wu, Mathias Gehrig, Qing Lyu 0008, Xudong Liu, Igor Gilitschenski. 16933-16942 [doi]

Lane2Seq: Towards Unified Lane Detection via Sequence GenerationKunyang Zhou. 16944-16953 [doi]

Open-World Human-Object Interaction Detection via Multi-Modal PromptsJie Yang, Bingliang Li, Ailing Zeng, Lei Zhang, Ruimao Zhang. 16954-16964 [doi]

DETRs Beat YOLOs on Real-time Object DetectionYian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen. 16965-16974 [doi]

Exploring Region-Word Alignment in Built-in Detector for Open-Vocabulary Object DetectionHeng Zhang, Qiuyu Zhao, Linyu Zheng, Hao Zeng, Zhiwei Ge, Tianhao Li, Sulong Xu. 16975-16984 [doi]

Multi-Agent Long-Term 3D Human Pose Forecasting via Interaction-Aware Trajectory ConditioningJaewoo Jeong, Daehee Park, Kuk-Jin Yoon. 16975-16984 [doi]

Referring Expression CountingSiyang Dai, Jun Liu, Ngai-Man Cheung. 16985-16995 [doi]

ActiveDC: Distribution Calibration for Active FinetuningWenshuai Xu, Zhenghui Hu, Yu Lu, Jinzhou Meng, Qingjie Liu, Yunhong Wang. 16996-17005 [doi]

2: Latent Reconstruction Error Based Method for Diffusion-Generated Image DetectionYunpeng Luo, Junlong Du, Ke Yan, Shouhong Ding. 17006-17015 [doi]

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal RetrievalFan Zhang, Xian-Sheng Hua 0001, Chong Chen 0002, Xiao Luo 0001. 17016-17026 [doi]

MS-DETR: Efficient DETR Training with Mixed SupervisionChuyang Zhao, Yifan Sun 0003, Wenhao Wang, Qiang Chen 0007, Errui Ding, Yi Yang 0001, Jingdong Wang 0001. 17027-17036 [doi]

Context-Based and Diversity-Driven Specificity in Compositional Zero-Shot LearningYun Li, Zhe Liu 0023, Hang Chen, Lina Yao 0001. 17037-17046 [doi]

Pixel-Level Semantic Correspondence Through Layout-Aware Representation Learning and Multi-Scale Matching IntegrationYixuan Sun, Zhangyue Yin, Haibo Wang, Yan Wang, Xipeng Qiu, Weifeng Ge, Wenqiang Zhang. 17047-17056 [doi]

Exploiting Inter-sample and Inter-feature Relations in Dataset DistillationWenxiao Deng, Wenbin Li, Tianyu Ding, Lei Wang, Hongguang Zhang, Kuihua Huang, Jing Huo, Yang Gao. 17057-17066 [doi]

Point, Segment and Count: A Generalized Framework for Object CountingZhizhong Huang, Mingliang Dai, Yi Zhang 0018, Junping Zhang, Hongming Shan. 17067-17076 [doi]

Dual Pose-invariant Embeddings: Learning Category and Object-specific Discriminative Representations for Recognition and RetrievalRohan Sarkar, Avinash C. Kak. 17077-17085 [doi]

Riemannian Multinomial Logistics Regression for SPD Neural NetworksZiheng Chen, Yue Song, Gaowen Liu, Ramana Rao Kompella, Xiao-Jun Wu 0001, Nicu Sebe. 17086-17096 [doi]

Learning for Transductive Threshold Calibration in Open-World RecognitionQin Zhang, Dongsheng An, Tianjun Xiao, Tong He 0002, Qingming Tang, Ying Nian Wu, Joseph Tighe, Yifan Xing. 17097-17106 [doi]

Region-Based Representations RevisitedMichal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman TV, Heyi Tao, Jae-Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem. 17107-17116 [doi]

Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-IdentificationPingping Zhang, Yuhao Wang, Yang Liu, Zhengzheng Tu, Huchuan Lu. 17117-17126 [doi]

Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReIDWentao Tan, Changxing Ding, Jiayu Jiang, Fei Wang 0032, Yibing Zhan, Dapeng Tao. 17127-17137 [doi]

Holistic Features are Almost Sufficient for Text-to-Video RetrievalKaibin Tian, Ruixiang Zhao, Zijie Xin, Bangxiang Lan, Xirong Li 0001. 17138-17147 [doi]

Enhancing the Power of OOD Detection via Sample-Aware Model SelectionFeng Xue, Zi He, Yuan Zhang, Chuanlong Xie, Zhenguo Li, Falong Tan. 17148-17157 [doi]

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic SegmentationYuqi Wang 0001, YunTao Chen, Xingyu Liao, Lue Fan, Zhaoxiang Zhang 0001. 17158-17168 [doi]

VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt LearningZiyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Khan, Junwei Han. 17169-17180 [doi]

D3still: Decoupled Differential Distillation for Asymmetric Image RetrievalYi Xie, Yihong Lin, Wenjie Cai, Xuemiao Xu, Huaidong Zhang, Yong Du 0003, Shengfeng He. 17181-17190 [doi]

SFOD: Spiking Fusion Object DetectorYimeng Fan, Wei Zhang, Changsong Liu, Mingyang Li, Wenrui Lu. 17191-17200 [doi]

Depth-Aware Concealed Crop Detection in Dense Agricultural ScenesLiqiong Wang, Jinyu Yang, Yanfu Zhang, Fangyi Wang, Feng Zheng. 17201-17211 [doi]

Extreme Point Supervised Instance SegmentationHyeonjun Lee, Sehyun Hwang, Suha Kwak. 17212-17222 [doi]

Enhance Image Classification via Inter-Class Image Mixup with Diffusion ModelZhicai Wang, Longhui Wei, Tan Wang, Heyu Chen, Yanbin Hao, Xiang Wang 0010, Xiangnan He 0001, Qi Tian 0001. 17223-17233 [doi]

Multimodal Industrial Anomaly Detection by Crossmodal Feature MappingAlex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi di Stefano. 17234-17243 [doi]

Effective Video Mirror Detection with Inconsistent Motion CuesAlex Warren, Ke Xu 0010, Jiaying Lin, Gary K. L. Tam, Rynson W. H. Lau, Rynson W. H. Lau. 17244-17252 [doi]

Multi-Attribute Interactions Matter for 3D Visual GroundingCan Xu, Yuehui Han, Rui Xu 0021, Le Hui, Jin Xie 0001, Jian Yang 0003. 17253-17262 [doi]

Looking 3D: Anomaly Detection with 2D-3D AlignmentAnkan Bhunia, Changjian Li, Hakan Bilen. 17263-17272 [doi]

Characteristics Matching Based Hash Codes Generation for Efficient Fine-Grained Image RetrievalZhen-Duo Chen, Li-jun Zhao, Zi-Chao Zhang 0002, Xin Luo 0006, Xin-Shun Xu. 17273-17281 [doi]

EASE-DETR: Easing the Competition among Object QueriesYuLu Gao, Yifan Sun 0003, Xudong Ding, Chuyang Zhao, Si Liu 0001. 17282-17291 [doi]

ProS: Prompting-to-Simulate Generalized Knowledge for Universal Cross-Domain RetrievalKaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng, Xiyao Li, Heng Tao Shen. 17292-17301 [doi]

Exploring Orthogonality in Open World Object DetectionZhicheng Sun 0001, Jinghan Li, Yadong Mu. 17302-17312 [doi]

A Generative Approach for Wikipedia-Scale Visual Entity RecognitionMathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid. 17313-17322 [doi]

Unleashing Channel Potential: Space-Frequency Selection Convolution for SAR Object DetectionKe Li, Di Wang 0011, Zhangyuan Hu, Wenxuan Zhu, Shaofeng Li, Quan Wang 0006. 17323-17332 [doi]

Hyperspherical Classification with Dynamic Label-to-Prototype AssignmentMohammad Saeed Ebrahimi Saadabadi, Ali Dabouei, Sahar Rahimi Malakshan, Nasser M. Nasrabadi. 17333-17342 [doi]

A Pedestrian is Worth One Prompt: Towards Language Guidance Person Re- IdentificationZexian Yang, Dayan Wu, Chenming Wu, Zheng Lin 0001, Jingzi Gu, Weiping Wang 0005. 17343-17353 [doi]

VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object DetectionZihua Liu, Hiroki Sakuma, Masatoshi Okutomi. 17354-17363 [doi]

Improving Visual Recognition with Hyperbolical Visual Hierarchy MappingHyeongjun Kwon, Jinhyun Jang, Jin Kim, Kwonyoung Kim, Kwanghoon Sohn, Kwanghoon Sohn. 17364-17374 [doi]

On Train-Test Class Overlap and Detection for Image RetrievalChull Hwan Song, Jooyoung Yoon, Taebaek Hwang, Shunghyun Choi, Yeong Hyeon Gu, Yannis Avrithis. 17375-17384 [doi]

Multi-Scale Video Anomaly Detection by Multi-Grained Spatio-Temporal Representation LearningMenghao Zhang, Jingyu Wang 0001, Qi Qi 0001, Haifeng Sun 0001, Zirui Zhuang, Pengfei Ren, Ruilong Ma, Jianxin Liao. 17385-17394 [doi]

LAA-Net: Localized Artifact Attention Network for Quality-Agnostic and Generalizable Deepfake DetectionDat Nguyen, Nesryne Mejri, Inder Pal Singh, Polina Kuleshova, Marcella Astrid, Anis Kacem 0001, Enjie Ghorbel, Djamila Aouada. 17395-17405 [doi]

Rethinking Boundary Discontinuity Problem for Oriented Object DetectionHang Xu, Xinyuan Liu 0003, Haonan Xu, Yike Ma, Zunjie Zhu, Chenggang Yan 0001, Feng Dai. 17406-17415 [doi]

Hybrid Proposal Refiner: Revisiting DETR Series from the Faster R-CNN PerspectiveJinjing Zhao, Fangyun Wei, Chang Xu. 17416-17426 [doi]

Retrieval-Augmented Open-Vocabulary Object DetectionJooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim. 17427-17436 [doi]

LiDAR-Based Person Re-IdentificationWenxuan Guo, Zhiyu Pan, Yingping Liang, Ziheng Xi, Zhicheng Zhong 0001, Jianjiang Feng, Jie Zhou 0001. 17437-17447 [doi]

EventDance: Unsupervised Source-Free Cross-Modal Adaptation for Event-Based Object RecognitionXu Zheng, Lin Wang. 17448-17458 [doi]

All in One Framework for Multimodal Re-Identification in the WildHe Li, Mang Ye, Ming Zhang 0019, Bo Du 0001. 17459-17469 [doi]

A Bayesian Approach to OOD Robustness in Image ClassificationPrakhar Kaushik, Adam Kortylewski, Alan L. Yuille. 17459-17469 [doi]

Logarithmic Lenses: Exploring Log RGB Data for Image ClassificationBruce A. Maxwell, Sumegha Singhania, Avnish Patel, Rahul Kumar, Heather Fryling, Sihan Li, Haonan Sun, Ping He, Zewen Li. 17470-17479 [doi]

ID-like Prompt Learning for Few-Shot Out-of-Distribution DetectionYichen Bai, Zongbo Han, Bing Cao, Xiaoheng Jiang, Qinghua Hu, Changqing Zhang. 17480-17489 [doi]

Infrared Small Target Detection with Scale and Location SensitivityQiankun Liu, Rui Liu, Bolun Zheng, Hongkui Wang, Ying Fu 0001. 17490-17499 [doi]

SURE: SUrvey REcipes for Building Reliable and Robust Deep NetworksYuting Li, Yingyi Chen, Xuanlong Yu, Dexiong Chen, Xi Shen 0001. 17500-17510 [doi]

Hyperbolic Anomaly DetectionHuimin Li, Zhentao Chen, Yunhao Xu, Junlin Hu 0001. 17511-17520 [doi]

Instruct-ReID: A Multi-Purpose Person Re-Identification Task with InstructionsWeizhen He, Yiheng Deng, Shixiang Tang, Qihao Chen, Qingsong Xie, Yizhou Wang 0007, Lei Bai 0001, Feng Zhu 0006, Rui Zhao 0001, Wanli Ouyang, Donglian Qi, Yunfeng Yan. 17521-17531 [doi]

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identificationYiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu. 17532-17541 [doi]

Improved Zero-Shot Classification by Adapting VLMs with Text DescriptionsOindrila Saha, Grant Van Horn, Subhransu Maji. 17542-17552 [doi]

Modeling Collaborator: Enabling Subjective Vision Classification with Minimal Human Effort via LLM Tool-UseImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig. 17553-17563 [doi]

Neural Exposure Fusion for High-Dynamic Range Object DetectionEmmanuel Onzon, Maximilian Bömer, Fahim Mannan, Felix Heide. 17564-17573 [doi]

Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering RefinementXiuquan Hou, Meiqin Liu, Senlin Zhang, Ping Wei 0001, Badong Chen. 17574-17583 [doi]

Learning Transferable Negative Prompts for Out-of-Distribution DetectionTianqi Li, Guansong Pang, Xiao Bai 0001, Wenjun Miao, Jin Zheng. 17584-17594 [doi]

TransLoc4D: Transformer-Based 4D Radar Place RecognitionGuohao Peng, Heshan Li, Yangyang Zhao, Jun Zhang 0042, Zhenyu Wu 0001, Pengyu Zheng, Danwei Wang. 17595-17605 [doi]

Prompt-Driven Dynamic Object-Centric Learning for Single Domain GeneralizationDeng Li, Aming Wu, Yaowei Wang 0001, Yahong Han. 17606-17615 [doi]

Anomaly Heterogeneity Learning for Open-Set Supervised Anomaly DetectionJiawen Zhu, Choubo Ding, Yu Tian 0001, Guansong Pang. 17616-17626 [doi]

Contrastive Learning for DeepFake Classification and Localization via Multi-Label RankingCheng-Yao Hong, Yen-Chi Hsu, Tyng-Luh Liu. 17627-17637 [doi]

Adaptive Softassign via Hadamard-Equipped SinkhornBinrui Shen, Qiang Niu, Shengxin Zhu. 17638-17647 [doi]

An Asymmetric Augmented Self-Supervised Learning Method for Unsupervised Fine-Grained Image HashingFeiran Hu, Chen-Lin Zhang, Jiangliang Guo, Xiu-Shen Wei, Lin Zhao, Anqi Xu, Lingyan Gao. 17648-17657 [doi]

Optimal Transport Aggregation for Visual Place RecognitionSergio Izquierdo, Javier Civera 0001. 17658-17668 [doi]

Atom-Level Optical Chemical Structure Recognition with Limited SupervisionMartijn Oldenhof, Edward De Brouwer, Adam Arany, Yves Moreau. 17669-17678 [doi]

Novel Class Discovery for Ultra-Fine-Grained Visual CategorizationYu Liu 0012, Yaqi Cai, Qi Jia 0001, Binglin Qiu, Weimin Wang 0007, Nan Pu. 17679-17688 [doi]

Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute VariabilityYan Huang, Zhang Zhang, Qiang Wu, Yi Zhong, Liang Wang. 17689-17699 [doi]

Robust Noisy Correspondence Learning with Equivariant Similarity ConsistencyYuchen Yang, Likai Wang, Erkun Yang, Cheng Deng. 17700-17709 [doi]

Bootstrapping SparseFormers from Vision Foundation ModelsZiteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou. 17710-17721 [doi]

Not All Classes Stand on Same Embeddings: Calibrating a Semantic Distance with Metric TensorJae-Hyeon Park, Gyoomin Lee, Seunggi Park, Sung In Cho. 17722-17731 [doi]

Improving Single Domain-Generalized Object Detection: A Focus on Diversification and AlignmentMuhammad Sohail Danish, Muhammad Haris Khan, Muhammad Akhtar Munir, M. Saquib Sarfraz, Mohsen Ali. 17732-17742 [doi]

On the Estimation of Image-Matching Uncertainty in Visual Place RecognitionMubariz Zaffar, Liangliang Nan, Julian F. P. Kooij. 17743-17753 [doi]

Supervised Anomaly Detection for Complex Industrial ImagesAimira Baitieva, David Hurych, Victor Besnier, Olivier Bernard. 17754-17762 [doi]

Fourier-Basis Functions to Bridge Augmentation Gap: Rethinking Frequency Augmentation in Image ClassificationPuru Vaish, Shunxin Wang, Nicola Strisciuglio. 17763-17772 [doi]

TransNeXt: Robust Foveal Visual Perception for Vision TransformersDai Shi. 17773-17783 [doi]

Plug and Play Active Learning for Object DetectionChenhongyi Yang, Lichao Huang, Elliot J. Crowley. 17784-17793 [doi]

BoQ: A Place is Worth a Bag of Learnable QueriesAmar Ali-bey, Brahim Chaib-draa, Philippe Giguère. 17794-17803 [doi]

From Coarse to Fine-Grained Open-Set RecognitionNico Lang, Vésteinn Snæbjarnarson, Elijah Cole, Oisin Mac Aodha, Christian Igel, Serge J. Belongie. 17804-17814 [doi]

Exploring Pose-Aware Human-Object Interaction via Hybrid LearningEastman Z. Y. Wu, Yali Li, Yuan Wang, Shengjin Wang. 17815-17825 [doi]

Toward Generalist Anomaly Detection via In-Context Residual Learning with Few-Shot Sample PromptsJiawen Zhu, Guansong Pang. 17826-17836 [doi]

Learning to Navigate Efficiently and Precisely in Real EnvironmentsGuillaume Bono, Hervé Poirier, Leonid Antsfeld, Gianluca Monaci, Boris Chidlovskii, Christian Wolf 0001. 17837-17846 [doi]

Task-Conditioned Adaptation of Visual Features in Multi-Task Policy LearningPierre Marza, Laëtitia Matignon, Olivier Simonin 0001, Christian Wolf 0001. 17847-17856 [doi]

FastMAC: Stochastic Spectral Sampling of Correspondence GraphYifei Zhang, Hao Zhao, Hongyang Li, Siheng Chen. 17857-17867 [doi]

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel ObjectsBowen Wen, Wei Yang 0019, Jan Kautz, Stan Birchfield. 17868-17879 [doi]

CAGE: Controllable Articulation GEnerationJiayi Liu, Hou In Ivan Tam, Ali Mahdavi-Amiri, Manolis Savva. 17880-17889 [doi]

SingularTrajectory: Universal Trajectory Predictor Using Diffusion ModelInhwan Bae, Young Jae Park, Hae-Gon Jeon. 17890-17901 [doi]

Language-driven Grasp DetectionVuong Dinh An, Minh Nhat Vu, Baoru Huang, Nghia Nguyen, Hieu Le, Thieu Vo, Anh Nguyen 0003. 17902-17912 [doi]

MemoNav: Working Memory Model for Visual NavigationHongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang 0001. 17913-17922 [doi]

NOPE: Novel Object Pose Estimation from a Single ImageVan Nguyen Nguyen, Thibault Groueix, Georgy Ponimatkin, Yinlin Hu, Renaud Marlet, Mathieu Salzmann, Vincent Lepetit. 17923-17932 [doi]

Dexterous Grasp TransformerGuo-Hao Xu, Yi-Lin Wei, Dian Zheng, Xiao-Ming Wu 0002, Wei-Shi Zheng 0001. 17933-17942 [doi]

Versatile Navigation Under Partial Observability via Value-Guided Diffusion PolicyGengyu Zhang, Hao Tang 0005, Yan Yan 0002. 17943-17951 [doi]

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous ManipulationJun Wang, Yuzhe Qin, Kaiming Kuang, Yigit Korkmaz, Akhilan Gurumoorthy, Hao Su 0001, Xiaolong Wang 0004. 17952-17963 [doi]

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation SystemYunfei Fan, Tianyu Zhao, Guidong Wang. 17964-17973 [doi]

READ: Retrieval-Enhanced Asymmetric Diffusion for Motion PlanningTakeru Oba, Matthew R. Walter, Norimichi Ukita. 17974-17984 [doi]

Retrieval-Augmented Embodied AgentsYichen Zhu, Zhicai Ou, Xiaofeng Mou, Jian Tang 0008. 17985-17995 [doi]

Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated VehiclesRui Song 0007, Chenwei Liang, Hu Cao, Zhiran Yan, Walter Zimmer, Markus Gross, Andreas Festag, Alois Knoll. 17996-18006 [doi]

Diffusion-EDFs: Bi-Equivariant Denoising Generative Modeling on SE(3) for Visual Robotic ManipulationHyunwoo Ryu, Jiwoo Kim, Hyunseok An, Junwoo Chang, Joohwan Seo, Taehan Kim, Yubin Kim, Chaewon Hwang, Jongeun Choi, Roberto Horowitz. 18007-18018 [doi]

Adaptive VIO: Deep Visual-Inertial Odometry with Online Continual LearningYouqi Pan, Wugen Zhou, Yingdian Cao, Hongbin Zha. 18019-18028 [doi]

3Loc: Fusion and Filtering for Floorplan LocalizationChangan Chen, Rui Wang, Christoph Vogel, Marc Pollefeys. 18029-18038 [doi]

Gaussian Splatting SLAMHidenobu Matsuki, Riku Murai, Paul H. J. Kelly, Andrew J. Davison. 18039-18048 [doi]

SUGAR : Pre-training 3D Visual Representations for RoboticsShizhe Chen, Ricardo Garcia Pinel, Ivan Laptev, Cordelia Schmid. 18049-18060 [doi]

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic ManipulationXiaoqi Li 0020, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen 0035, Renrui Zhang, Jiaming Liu, Hao Dong 0003. 18061-18070 [doi]

Open-vocabulary object 6D pose estimationJaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi. 18071-18080 [doi]

Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic ManipulationXiao Ma 0006, Sumit Patidar, Iain Haughton, Stephen James. 18081-18090 [doi]

Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in HouseholdsZhihao Cao, Zidong Wang, Siwen Xie, Anji Liu, Lifeng Fan. 18091-18101 [doi]

Generalizing 6-DoF Grasp Detection via Domain Prior KnowledgeHaoxiang Ma, Modi Shi, Boyang Gao, Di Huang 0001. 18102-18111 [doi]

A Simple and Effective Point-Based Network for Event Camera 6-DOFs Pose RelocalizationHongwei Ren, Jiadong Zhu, Yue Zhou, Haotian Fu, Yulong Huang, Bojun Cheng. 18112-18121 [doi]

Neural Visibility Field for Uncertainty-Driven Active MappingShangjie Xue, Jesse Dill, Pranay Mathur, Frank Dellaert, Panagiotis Tsiotras, Danfei Xu. 18122-18132 [doi]

SPIN: Simultaneous Perception, Interaction and NavigationShagun Uppal, Ananye Agarwal, Haoyu Xiong, Kenneth Shaw, Deepak Pathak. 18133-18142 [doi]

PredToken: Predicting Unknown Tokens and Beyond with Coarse-to-Fine Iterative DecodingXuesong Nie, Haoyuan Jin, Yunfeng Yan, Xi Chen, Zhihang Zhu, Donglian Qi. 18143-18152 [doi]

TIM: A Time Interval Machine for Audio-Visual Action RecognitionJacob Chalk, Jaesung Huh, Evangelos Kazakos, Andrew Zisserman, Dima Damen. 18153-18163 [doi]

AutoAD III: The Prequel - Back to the PixelsTengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman. 18164-18174 [doi]

FACT: Frame-Action Cross-Attention Temporal Modeling for Efficient Action SegmentationZijia Lu, Ehsan Elhamifar. 18175-18185 [doi]

Progress-Aware Online Action Segmentation for Egocentric Procedural Task VideosYuhan Shen, Ehsan Elhamifar. 18186-18197 [doi]

Video ReCap: Recursive Captioning of Hour-Long VideosMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius. 18198-18208 [doi]

OmniViD: A Generative Framework for Universal Video UnderstandingJunke Wang, Dongdong Chen 0001, Chong Luo, Bo He 0004, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang. 18209-18220 [doi]

MovieChat: From Dense Token to Sparse Memory for Long Video UnderstandingEnxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye 0001, Yanting Zhang 0001, Yan Lu, Jenq-Neng Hwang, Gaoang Wang. 18221-18232 [doi]

Learning Group Activity Features Through Person Attribute PredictionChihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita. 18233-18242 [doi]

Streaming Dense Video CaptioningXingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid. 18243-18252 [doi]

Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary AlignmentAngchi Xu, Wei-Shi Zheng 0001. 18253-18262 [doi]

Benchmarking the Robustness of Temporal Action Detection Models Against Temporal CorruptionsRunhao Zeng, Xiaoyong Chen, Jiaming Liang, Huisi Wu, Guangzhong Cao, Yong Guo. 18263-18274 [doi]

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task PerspectivesSimone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Giuseppe Averta. 18275-18285 [doi]

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction AnticipationRazvan-George Pasca, Alexey Gavryushin, Muhammad Hamza, Yen-ling Kuo, Kaichun Mo, Luc Van Gool, Otmar Hilliges, Xi Wang. 18286-18296 [doi]

Open-Vocabulary Video Anomaly DetectionPeng Wu, Xuerong Zhou, Guansong Pang, Yujia Sun, Jing Liu 0006, Peng Wang, Yanning Zhang. 18297-18307 [doi]

Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight DetectionJin Yang, Ping Wei, Huan Li, Ziyang Ren. 18308-18318 [doi]

Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly DetectionJunxi Chen, Liang Li 0003, Li Su 0003, Zheng-Jun Zha, Qingming Huang. 18319-18329 [doi]

Context-Guided Spatio-Temporal Video GroundingXin Gu, Heng Fan 0001, Yan Huang 0002, Tiejian Luo, Libo Zhang 0001. 18330-18339 [doi]

Just Add π! Pose Induced Video Transformers for Understanding Activities of Daily LivingDominick Reilly, Srijan Das. 18340-18350 [doi]

Action Detection via an Image Diffusion ProcessLin Geng Foo, Tianjiao Li, Hossein Rahmani, Jun Liu. 18351-18361 [doi]

LLMs are Good Sign Language TranslatorsJia Gong, Lin Geng Foo, Yixuan He, Hossein Rahmani, Jun Liu. 18362-18372 [doi]

End-to-End Spatio-Temporal Action Localisation with Video TransformersAlexey A. Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani 0001, Chen Sun 0002, Mario Lucic, Cordelia Schmid, Anurag Arnab. 18373-18383 [doi]

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video UnderstandingTrong Thuan Nguyen, Pha A. Nguyen, Khoa Luu. 18384-18394 [doi]

LLMs are Good Action RecognizersHaoxuan Qu, Yujun Cai, Jun Liu. 18395-18406 [doi]

VideoLLM-online: Online Video Large Language Model for Streaming VideoJoya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou. 18407-18418 [doi]

What, When, and Where? Self-Supervised Spatio- Temporal Grounding in Untrimmed Multi-Action Videos from Narrated InstructionsBrian Chen 0001, Nina Shvetsova, Andrew Rouditchenko, Daniel Kondermann, Samuel Thomas 0001, Shih-Fu Chang, Rogério Feris, James R. Glass, Hilde Kuehne. 18419-18429 [doi]

Narrative Action Evaluation with Prompt-Guided Multimodal InteractionShiyi ZHANG, Sule Bai, Guangyi Chen 0002, Lei Chen 0069, Jiwen Lu, Junle Wang, Yansong Tang. 18430-18439 [doi]

Realigning Confidence with Temporal Saliency Information for Point-Level Weakly-Supervised Temporal Action LocalizationZiying Xia, Jian Cheng 0003, Siyu Liul, Yongxiang Hu, ShiGuang Wang, Yijie Zhang, Liwan Dang. 18440-18450 [doi]

Action-Slot: Visual Action-Centric Representations for Multi-Label Atomic Activity Recognition in Traffic ScenesChi-Hsi Kung, Shu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen 0001. 18451-18461 [doi]

LoCoNet: Long-Short Context Network for Active Speaker DetectionXizi Wang, Feng Cheng, Gedas Bertasius. 18462-18472 [doi]

Neighbor Relations Matter in Video Scene DetectionJiawei Tan, Hongxing Wang, Jiaxin Li, Zhilong Ou, Zhangbin Qian. 18473-18482 [doi]

PREGO: Online Mistake Detection in PRocedural EGOcentric VideosAlessandro Flaborea, Guido Maria D'Amely di Melendugno, Leonardo Plini, Luca Scofano, Edoardo De Matteis, Antonino Furnari, Giovanni Maria Farinella, Fabio Galasso. 18483-18492 [doi]

Learning Object State Changes in Videos: An Open-World PerspectiveZihui Xue, Kumar Ashutosh, Kristen Grauman. 18493-18503 [doi]

Enhanced Motion-Text Alignment for Image-to-Video Transfer LearningWei Zhang, Chaoqun Wan, Tongliang Liu, Xinmei Tian 0001, Xu Shen, Jieping Ye. 18504-18515 [doi]

Asymmetric Masked Distillation for Pre-Training Small Foundation ModelsZhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao 0001, Limin Wang 0002. 18516-18526 [doi]

Harnessing Large Language Models for Training-Free Video Anomaly DetectionLuca Zanella, Willi Menapace, Massimiliano Mancini, Yiming Wang 0002, Elisa Ricci 0001. 18527-18536 [doi]

SportsHHI: A Dataset for Human-Human Interaction Detection in Sports VideosTao Wu, Runyu He, Gangshan Wu, Limin Wang 0002. 18537-18546 [doi]

VicTR: Video-conditioned Text Representations for Activity RecognitionKumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo. 18547-18558 [doi]

Dual DETRs for Multi-Label Temporal Action DetectionYuhan Zhu, Guozhen Zhang, Jing Tan 0002, Gangshan Wu, Limin Wang 0002. 18559-18569 [doi]

Adapting Short-Term Transformers for Action Detection in Untrimmed VideosMin Yang, Huan Gao, Ping Guo, Limin Wang 0002. 18570-18579 [doi]

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language ModelsHimangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee. 18580-18590 [doi]

End-to-End Temporal Action Detection with 1B Parameters Across 1000 FramesShuming Liu, Chen-Lin Zhang, Chen Zhao 0002, Bernard Ghanem. 18591-18601 [doi]

RMem: Restricted Memory Banks Improve Video Object SegmentationJunbao Zhou, Ziqi Pang, Yu-Xiong Wang. 18602-18611 [doi]

Low-power, Continuous Remote Behavioral Localization with Event CamerasFriedhelm Hamann, Suman Ghosh, Ignacio Juarez Martinez, Tom Hart, Alex Kacelnik, Guillermo Gallego 0002. 18612-18621 [doi]

Action Scene Graphs for Long-Form Understanding of Egocentric VideosIvan Rodin, Antonino Furnari, Kyle Min 0001, Subarna Tripathi, Giovanni Maria Farinella. 18622-18632 [doi]

ExACT: Language-Guided Conceptual Reasoning and Uncertainty Estimation for Event-Based Action Recognition and MoreJiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang. 18633-18643 [doi]

Uncertainty-aware Action Decoupling Transformer for Action AnticipationHongji Guo, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee, Qiang Ji. 18644-18654 [doi]

Error Detection in Egocentric Procedural Task VideosShih-Po Lee, Zijia Lu, Zekun Zhang, Minh Hoai, Ehsan Elhamifar. 18655-18666 [doi]

Learning to Predict Activity Progress by Self-Supervised Video AlignmentGerard Donahue, Ehsan Elhamifar. 18667-18677 [doi]

MaskCLR: Attention-Guided Contrastive Learning for Robust Action Representation LearningMohamed Abdelfattah, Mariam Hassan, Alexandre Alahi. 18678-18687 [doi]

Align Before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action RecognitionYifei Chen, Dapeng Chen, Ruijin Liu, Sai Zhou, Wenyuan Xue, Wei Peng 0011. 18688-18698 [doi]

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online RefinementHao Wu, Huabin Liu 0001, Yu Qiao, Xiao Sun. 18699-18708 [doi]

Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight DetectionYicheng Xiao, Zhuoyan Luo, Yong Liu, Yue Ma, Hengwei Bian, Yatai Ji, Yujiu Yang, Xiu Li 0001. 18709-18719 [doi]

Test-Time Zero-Shot Temporal Action LocalizationBenedetta Liberatori, Alessandro Conti, Paolo Rota, Yiming Wang 0002, Elisa Ricci 0001. 18720-18729 [doi]

Selective, Interpretable and Motion Consistent Privacy Attribute Obfuscation for Action RecognitionFilip Ilic, He Zhao 0004, Thomas Pock, Richard P. Wildes. 18730-18739 [doi]

Step Differences in Instructional VideoTushar Nagarajan, Lorenzo Torresani. 18740-18750 [doi]

Compositional Video Understanding with Spatiotemporal Structure-based TransformersHoyeoung Yun, Jinwoo Ahn, Minseo Kim, Eun-Sol Kim. 18751-18760 [doi]

Part-Aware Unified Representation of Language and Skeleton for Zero-Shot Action RecognitionAnqi Zhu, Qiuhong Ke, Mingming Gong, James Bailey 0001. 18761-18770 [doi]

vid-TLDR: Training Free Token merging for Light-Weight Video TransformerJoonmyung Choi, Sanghyeok Lee, Jaewon Chu, Minhyuk Choi, Hyunwoo J. Kim. 18771-18781 [doi]

CPR-Coach: Recognizing Composite Error Actions Based on Single-Class TrainingShunli Wang 0001, Shuaibing Wang, Dingkang Yang, Mingcheng Li, Haopeng Kuang, Xiao Zhao, Liuzhen Su, Peng Zhai, Lihua Zhang. 18782-18792 [doi]

Uncovering what, why and How: A Comprehensive Benchmark for Causation Understanding of Video AnomalyHang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan, Jiayang Zhang, Junrui Xu, Hangyu Liu, Sicong Leng, Jiangming Liu, Hehe Fan, Dajiu Huang, Jing Feng, Linli Chen, Can Zhang, Xuhuan Li, Hao Zhang, Jianhang Chen, Qimei Cui, Xiaofeng Tao. 18793-18803 [doi]

Detours for Navigating Instructional VideosKumar Ashutosh, Zihui Xue, Tushar Nagarajan, Kristen Grauman. 18804-18815 [doi]

Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional VideosKumaranage Ravindu Yasas Nagasinghe, Honglu Zhou, Malitha Gunawardhana, Martin Renqiang Min, Daniel Harari, Muhammad Haris Khan. 18816-18826 [doi]

Multiscale Vision Transformers Meet Bipartite Matching for Efficient Single-Stage Action LocalizationIoanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos. 18827-18836 [doi]

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate ExpressionHo Joong Kim, Jung-Ho Hong, Heejo Kong, Seong-Whan Lee. 18837-18846 [doi]

CSTA: CNN-based Spatiotemporal Attention for Video SummarizationJaewon Son, Jaehun Park, Kwangsu Kim. 18847-18856 [doi]

PeVL: Pose-Enhanced Vision-Language Model for Fine-Grained Human Action RecognitionHaosong Zhang 0001, Mei Chee Leong, Liyuan Li, Weisi Lin. 18857-18867 [doi]

MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly DetectionJakub Micorek, Horst Possegger, Dominik Narnhofer, Horst Bischof, Mateusz Kozinski. 18868-18877 [doi]

Language Model Guided Interpretable Video Action ReasoningNing Wang, Guangming Zhu 0001, HS Li, Liang Zhang 0010, Syed Afaq Ali Shah, Mohammed Bennamoun. 18878-18887 [doi]

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video RecognitionTom Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun 0028, Chen Chen 0001. 18888-18898 [doi]

Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly DetectionZhiwei Yang, Jing Liu, Peng Wu. 18899-18908 [doi]

VideoGrounding-DINO: Towards Open-Vocabulary Spatio- Temporal Video GroundingSyed Talal Wasim, Muzammal Naseer, Salman H. Khan 0001, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 18909-18918 [doi]

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-TrainingArun V. Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa. 18919-18929 [doi]

SnAG: Scalable and Accurate Video GroundingFangzhou Mu, Sicheng Mo, Yin Li 0003. 18930-18940 [doi]

Learning Correlation Structures for Vision TransformersManjin Kim, Paul Hongsuck Seo, Cordelia Schmid, Minsu Cho. 18941-18951 [doi]

Weakly-Supervised Audio-Visual Video Parsing with Prototype-Based Pseudo-LabelingKranthi Kumar Rachavarapu, Kalyan Ramakrishnan, A. N. Rajagopalan. 18952-18962 [doi]

Matching Anything by Segmenting AnythingSiyuan Li, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segù, Luc Van Gool, Fisher Yu 0001. 18963-18973 [doi]

3D Feature Tracking via Event CameraSiqi Li 0001, Zhikuan Zhou, Zhou Xue, Yipeng Li, Shaoyi Du, Yue Gao 0002. 18974-18983 [doi]

Frequency Decoupling for Motion Magnification Via Multi-Level Isomorphic ArchitectureFei Wang 0032, Dan Guo, Kun Li 0008, Zhun Zhong, Meng Wang 0001. 18984-18994 [doi]

Towards Generalizable Multi-Object TrackingZheng Qin, Le Wang 0003, Sanping Zhou, Panpan Fu, Gang Hua 0001, Wei Tang 0016. 18995-19004 [doi]

SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory PredictionConghao Wong, Beihao Xia, Ziqian Zou, Yulong Wang, Xinge You. 19005-19015 [doi]

Self-Supervised Multi-Object Tracking with Path ConsistencyZijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo. 19016-19026 [doi]

UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything ModelShuai Yuan, Lei Luo, Zhuo Hui, Can Pu, Xiaoyu Xiang, Rakesh Ranjan, Denis Demandolx. 19027-19037 [doi]

RTracker: Recoverable Tracking via PN Tree Structured MemoryYuqing Huang, Xin Li 0034, Zikun Zhou, Yaowei Wang 0001, Zhenyu He 0001, Ming-Hsuan Yang 0001. 19038-19047 [doi]

ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to DescribeYifan Bai 0001, Zeyang Zhao, Yihong Gong, Xing Wei 0001. 19048-19057 [doi]

Endow SAM with Keen Eyes: Temporal-Spatial Prompt Learning for Video Camouflaged Object DetectionWenjun Hui, Zhenfeng Zhu, Shuai Zheng 0005, Yao Zhao 0001. 19058-19067 [doi]

MemFlow: Optical Flow Estimation and Prediction with MemoryQiaole Dong, Yanwei Fu 0001. 19068-19078 [doi]

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient TuningLingyi Hong, Shilin Yan, Renrui Zhang, Wanyun Li, Xinyu Zhou, Pinxue Guo, Kaixun Jiang, Yiting Chen, Jinglun Li, Zhaoyu Chen, Wenqiang Zhang. 19079-19091 [doi]

Learned Trajectory Embedding for Subspace ClusteringYaroslava Lochman, Carl Olsson, Christopher Zach. 19092-19102 [doi]

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for VideosQi Zhao, M. Salman Asif, Zhan Ma. 19103-19112 [doi]

DiffusionTrack: Point Set Diffusion Model for Visual Object TrackingFei Xie, Zhongdao Wang, Chao Ma 0004. 19113-19124 [doi]

Sparse Global Matching for Video Frame Interpolation with Large MotionChunxu Liu, Guozhen Zhang, Rui Zhao, Limin Wang 0002. 19125-19134 [doi]

iKUN: Speak to Trackers Without RetrainingYunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su. 19135-19144 [doi]

NetTrack: Tracking Highly Dynamic Objects with a NetGuangze Zheng 0001, Shijie Lin, Haobo Zuo, Changhong Fu 0001, Jia Pan. 19145-19155 [doi]

Single-Model and Any-Modality for Video Object TrackingZongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma 0004, Danda Pani Paudel, Luc Van Gool, Radu Timofte. 19156-19166 [doi]

FlowDiffuser: Advancing Optical Flow Estimation with Diffusion ModelsAo Luo, Xin Li, Fan Yang 0054, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu. 19167-19176 [doi]

Video Harmonization with Triplet Spatio-Temporal Variation PatternsZonghui Guo, Xinyu Han, Jie Zhang 0071, Shiguang Shan, Haiyong Zheng. 19177-19186 [doi]

Dense Optical Tracking: Connecting the DotsGuillaume Le Moing, Jean Ponce, Cordelia Schmid. 19187-19197 [doi]

Efficient Meshflow and Optical Flow Estimation from Event CamerasXinglong Luo, Ao Luo, Zhengning Wang, Chunyu Lin, Bing Zeng, Shuaicheng Liu. 19198-19207 [doi]

Context-Aware Integration of Language and Visual References for Natural Language TrackingYanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen 0001. 19208-19217 [doi]

Depth-Aware Test-Time Training for Zero-Shot Video Object SegmentationWeihuang Liu, Xi Shen, Haolun Li, Xiuli Bi, Bo Liu 0047, Chi-Man Pun, Xiaodong Cun. 19218-19227 [doi]

Weakly Supervised Video Individual CountingXinyan Liu, Guorong Li, Yuankai Qi, Ziheng Yan, Zhenjun Han, Anton van den Hengel, Ming-Hsuan Yang 0001, Qingming Huang. 19228-19237 [doi]

Dual Prototype Attention for Unsupervised Video Object SegmentationSuhwan Cho, Minhyeok Lee, Seunghoon Lee, Dogyoon Lee, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee. 19238-19247 [doi]

Event Stream-Based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel BaselineXiao Wang 0014, Shiao Wang, Chuanming Tang, Lin Zhu 0012, Bo Jiang 0002, Yonghong Tian 0001, Jin Tang 0001. 19248-19257 [doi]

HIPTrack: Visual Tracking with Historical PromptsWenrui Cai, Qingjie Liu, Yunhong Wang. 19258-19267 [doi]

FlowTrack: Revisiting Optical Flow for Long-Range Dense TrackingSeokju Cho, Jiahui Huang, Seungryong Kim, Joon-Young Lee. 19268-19277 [doi]

Implicit Motion FunctionYue Gao, Jiahao Li, Lei Chu, Yan Lu. 19278-19289 [doi]

DeconfuseTrack: Dealing with Confusion for Multi-Object TrackingCheng Huang, Shoudong Han, Mengyu He, Wenbo Zheng, Yuhao Wei. 19290-19299 [doi]

Autoregressive Queries for Adaptive Tracking with Spatio-Temporal TransformersJinxia Xie, Bineng Zhong, Zhiyi Mo, Shengping Zhang, Liangtao Shi, Shuxiang Song, Rongrong Ji. 19300-19309 [doi]

ExtDM: Distribution Extrapolation Diffusion Model for Video PredictionZhicheng Zhang, Junyao Hu, Wentao Cheng, Danda Paudel, Jufeng Yang. 19310-19320 [doi]

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear PredictionWeiyi Lv, Yuhang Huang, Ning Zhang 0023, Ruei-Sung Lin, Mei Han, Dan Zeng 0001. 19321-19330 [doi]

GigaTraj: Predicting Long-term Trajectories of Hundreds of Pedestrians in Gigapixel Complex ScenesHaozhe Lin, Chunyu Wei, Li He, Yuchen Guo, Yunqi Zhao, Shanglong Li, Lu Fang 0001. 19331-19340 [doi]

Delving into the Trajectory Long-tail Distribution for Muti-object TrackingSijia Chen, En Yu, Jinyang Li, Wenbing Tao. 19341-19351 [doi]

OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware InterpolationJisoo Jeong, Hong Cai, Risheek Garrepalli, Jamie Menjay Lin, Munawar Hayat, Fatih Porikli. 19352-19362 [doi]

Deep Generative Model based Rate-Distortion for Image Downscaling AssessmentYuanbang Liang, Bhavesh Garg, Paul L. Rosin, Yipeng Qin. 19363-19372 [doi]

360+x: A Panoptic Multi-modal Scene Understanding DatasetHao Chen, Yuqi Hou, Chenyuan Qu, Irene Testini, Xiaohan Hong, Jianbo Jiao. 19373-19382 [doi]

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person PerspectivesKristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zachary Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, María Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang 0020, Md Mohaiminul Islam, Suyog Dutt Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J. Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina González, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo 0002, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao 0002, Ziwei Zhao 0003, Zhifan Zhu 0001, Jeff Zhuo, Pablo Arbeláez, Gedas Bertasius, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard A. Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shout, Michael Wray. 19383-19400 [doi]

Rich Human Feedback for Text-to-Image GenerationYouwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam. 19401-19411 [doi]

BioCLIP: A Vision Foundation Model for the Tree of LifeSamuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles V. Stewart, Tanya Y. Berger-Wolf, Wei-Lun Chao, Yu Su 0001. 19412-19424 [doi]

Grounding and Enhancing Grid-based Models for Neural FieldsZelin Zhao, Fenglei Fan, Wenlong Liao, Junchi Yan. 19425-19435 [doi]

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided SegmentationJiahao Chen, Yipeng Qin, Lingjie Liu, Jiangbo Lu, Guanbin Li. 19436-19446 [doi]

Mip-Splatting: Alias-Free 3D Gaussian SplattingZehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger 0001. 19447-19456 [doi]

PixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D ReconstructionDavid Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann. 19457-19467 [doi]

Learning to Produce Semi-Dense Correspondences for Visual LocalizationKhang Truong Giang, Soohwan Song, Sungho Jo. 19468-19478 [doi]

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label LearningShiyu Tian, Hongxin Wei, Yiqun Wang 0001, Lei Feng 0006. 19479-19488 [doi]

MLP Can Be a Good Transformer LearnerSihao Lin, Pumeng Lyu, Dongrui Liu, Tao Tang, Xiaodan Liang, Andy Song, Xiaojun Chang. 19489-19498 [doi]

From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic SegmentationHyeokjun Kweon, Kuk-Jin Yoon. 19499-19509 [doi]

LTGC: Long-Tail Recognition via Leveraging LLMs-Driven Generated ContentQiHao Zhao, Yalun Dai, Hao Li 0075, Wei Hu 0004, Fan Zhang 0007, Jun Liu 0036. 19510-19520 [doi]

Improving Semantic Correspondence with Viewpoint-Guided Spherical MapsOctave Mariotti, Oisin Mac Aodha, Hakan Bilen. 19521-19530 [doi]

TeMO: Towards Text-Driven 3D Stylization for Multi-Object MeshesXuying Zhang, Bowen Yin, Yuming Chen, Zheng Lin 0005, Yunheng Li, Qibin Hou, Ming-Ming Cheng. 19531-19540 [doi]

Event-based Structure-from-OrbitEthan Elms, Yasir Latif, Tae Ha Park, Tat-Jun Chin. 19541-19550 [doi]

Towards Large-Scale 3D Representation Learning with Multi-Dataset Point Prompt TrainingXiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao. 19551-19562 [doi]

LidaRF: Delving into Lidar for Neural Radiance Field on Street ScenesShanlin Sun, Bingbing Zhuang, Ziyu Jiang, Buyu Liu, Xiaohui Xie, Manmohan Chandraker. 19563-19572 [doi]

Instantaneous Perception of Moving Objects in 3DDi Liu 0003, Bingbing Zhuang, Dimitris N. Metaxas, Manmohan Chandraker. 19573-19583 [doi]

Implicit Event-RGBD Neural SLAMDelin Qu, Chi Yan, Dong Wang, Jie Yin, Qizhi Chen, Dan Xu, Yiting Zhang, Bin Zhao 0001, Xuelong Li 0001. 19584-19594 [doi]

GS-SLAM: Dense Visual SLAM with 3D Gaussian SplattingChi Yan, Delin Qu, Dan Xu, Bin Zhao 0001, Zhigang Wang 0002, Dong Wang, Xuelong Li 0001. 19595-19604 [doi]

Learning Instance-Aware Correspondences for Robust Multi-Instance Point Cloud Registration in Cluttered ScenesZhiyuan Yu, Zheng Qin 0002, Lintao Zheng, Kai Xu 0004. 19605-19614 [doi]

MeshGPT: Generating Triangle Meshes with Decoder-Only TransformersYawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner. 19615-19625 [doi]

Multi-Session SLAM with Differentiable Wide-Baseline Pose OptimizationLahav Lipson, Jia Deng 0001. 19626-19635 [doi]

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wildAndreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin-Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani. 19636-19646 [doi]

HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric SurfacesHaithem Turki, Vasu Agrawal, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Deva Ramanan, Michael Zollhöfer, Christian Richardt. 19647-19656 [doi]

PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle AdjustmentTianchen Deng, Guole Shen, Tong Qin, Jianyu Wang, Wentao Zhao, Jingchuan Wang, Danwei Wang, Weidong Chen 0001. 19657-19666 [doi]

Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-Aware Spatio-Temporal SamplingXinhang Liu, Yu-Wing Tai, Chi-Keung Tang, Pedro Miraldo, Suhas Lohit, Moitreya Chatterjee. 19667-19679 [doi]

GPS-Gaussian: Generalizable Pixel-Wise 3D Gaussian Splatting for Real-Time Human Novel View SynthesisShunyuan Zheng, Boyao Zhou, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu. 19680-19690 [doi]

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape GenerationZhiying Leng, Tolga Birdal, Xiaohui Liang, Federico Tombari. 19691-19700 [doi]

Selective-Stereo: Adaptive Frequency Information Selection for Stereo MatchingXianqi Wang, Gangwei Xu, Hao Jia, Xin Yang 0008. 19701-19710 [doi]

Animatable Gaussians: Learning Pose-Dependent Gaussian Maps for High-Fidelity Human Avatar ModelingZhe Li, Zerong Zheng, Lizhen Wang 0002, Yebin Liu. 19711-19722 [doi]

Global Latent Neural RenderingThomas Tanay, Matteo Maggioni. 19723-19733 [doi]

HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian SplattingYuheng Jiang, Zhehao Shen, PengHao Wang, Zhuo Su 0006, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu. 19734-19745 [doi]

LoS: Local Structure-Guided Stereo MatchingKunhong Li 0001, Longguang Wang, Ye Zhang, Kaiwen Xue, Shunbo Zhou, Yulan Guo. 19746-19756 [doi]

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AITai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen 0026, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua Lin, Jiangmiao Pang. 19757-19767 [doi]

Masked Spatial Propagation Network for Sparsity-Adaptive Depth RefinementJinyoung Jun, Jae-Han Lee, Chang-Su Kim 0001. 19768-19778 [doi]

CausalPC: Improving the Robustness of Point Cloud Classification by Causal Effect IdentificationYuanmin Huang 0001, Mi Zhang 0001, Daizong Ding, Erling Jiang, Zhaoxiang Wang, Min Yang 0002. 19779-19789 [doi]

RoMa: Robust Dense Feature MatchingJohan Edstedt, Qiyu Sun, Georg Bökman, Mårten Wadenbäck, Michael Felsberg. 19790-19800 [doi]

MVHumanNet: A Large-Scale Dataset of Multi-View Daily Dressing Human CapturesZhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu 0010, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han 0001. 19801-19811 [doi]

GES: Generalized Exponential Splatting for Efficient Radiance Field RenderingAbdullah Hamdi, Luke Melas-Kyriazi, Jinjie Mai, Guocheng Qian, Ruoshi Liu, Carl Vondrick, Bernard Ghanem, Andrea Vedaldi. 19812-19822 [doi]

RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene UnderstandingJihan Yang, Runyu Ding, Weipeng Deng, Zhe Wang 0006, Xiaojuan Qi 0001. 19823-19832 [doi]

NeLF-Pro: Neural Light Field Probes for Multi-Scale Novel View SynthesisZinuo You, Andreas Geiger 0001, Anpei Chen. 19833-19843 [doi]

LEAP-VO: Long-term Effective Any Point Tracking for Visual OdometryWeirong Chen, Le Chen, Rui Wang, Marc Pollefeys. 19844-19853 [doi]

FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose EstimationChris Rockwell 0001, Nilesh Kulkarni, Linyi Jin, Jeong-Joon Park, Justin Johnson 0001, David F. Fouhey. 19854-19864 [doi]

OmniGlue: Generalizable Feature Matching with Foundation Model GuidanceHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, André Araújo 0001. 19865-19875 [doi]

GART: Gaussian Articulated Template ModelsJiahui Lei, Yufu Wang, Georgios Pavlakos, Lingjie Liu, Kostas Daniilidis. 19876-19887 [doi]

CG-HOI: Contact-Guided 3D Human-Object Interaction GenerationChristian Diller, Angela Dai. 19888-19901 [doi]

FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video ObservationsChristian Diller, Thomas A. Funkhouser, Angela Dai. 19902-19914 [doi]

PI3D: Efficient Text-to-3D Generation with Pseudo-Image DiffusionYing-Tian Liu, Yuan-Chen Guo, Guan Luo, Heyi Sun, Wei Yin, Song-Hai Zhang. 19915-19924 [doi]

Building a Strong Pre-Training Baseline for Universal 3D Large-Scale PerceptionHaoming Chen, Zhizhong Zhang, Yanyun Qu, Ruixin Zhang, Xin Tan, Yuan Xie 0001. 19925-19935 [doi]

COTR: Compact Occupancy TRansformer for Vision-Based 3D Occupancy PredictionQihang Ma, Xin Tan, Yanyun Qu, Lizhuang Ma, Zhizhong Zhang, Yuan Xie 0006. 19936-19945 [doi]

SelfOcc: Self-Supervised Vision-Based 3D Occupancy PredictionYuanhui Huang, Wenzhao Zheng, Borui Zhang, Jie Zhou 0001, Jiwen Lu. 19946-19956 [doi]

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor ScenesDávid Rozenberszki, Or Litany, Angela Dai. 19957-19967 [doi]

NEAT: Distilling 3D Wireframes from Neural Attraction FieldsNan Xue 0001, Bin Tan, Yuxi Xiao, Liang Dong, Gui-Song Xia, Tianfu Wu 0001, Yujun Shen. 19968-19977 [doi]

3DInAction: Understanding Human Actions in 3D Point CloudsYizhak Ben-Shabat, Oren Shrout, Stephen Gould. 19978-19987 [doi]

Dynamic LiDAR Re-Simulation Using Compositional Neural FieldsHanfeng Wu, Xingxing Zuo, Stefan Leutenegger, Or Litany, Konrad Schindler, Shengyu Huang. 19988-19998 [doi]

Inverse Rendering of Glossy Objects via the Neural Plenoptic Function and Radiance FieldsHaoyuan Wang, Wenbo Hu, Lei Zhu, Rynson W. H. Lau. 19999-20008 [doi]

PanoPose: Self-supervised Relative Pose Estimation for Panoramic ImagesDiantao Tu, Hainan Cui, Xianwei Zheng, Shuhan Shen. 20009-20018 [doi]

GeoAuxNet: Towards Universal 3D Representation Learning for Multi-Sensor Point CloudsShengjun Zhang, Xin Fei, Yueqi Duan. 20019-20028 [doi]

4K4D: Real-Time 4D View Synthesis at 4K ResolutionZhen Xu 0008, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou. 20029-20040 [doi]

MuRF: Multi-Baseline Radiance FieldsHaofei Xu, Anpei Chen, Yuedong Chen, Christos Sakaridis, Yulun Zhang, Marc Pollefeys, Andreas Geiger 0001, Fisher Yu 0001. 20041-20050 [doi]

LangSplat: 3D Language Gaussian SplattingMinghan Qin, Wanhua Li 0001, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister. 20051-20060 [doi]

Bayes' Rays: Uncertainty Quantification for Neural Radiance FieldsLily Goli, Cody Reading, Silvia Sellán, Alec Jacobson, Andrea Tagliasacchi. 20061-20070 [doi]

Accelerating Neural Field Training via Soft MiningShakiba Kheradmand, Daniel Rebain, Gopal Sharma, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi. 20071-20080 [doi]

CORE-MPI: Consistency Object Removal with Embedding MultiPlane ImageDonggeun Yoon, Donghyeon Cho. 20081-20090 [doi]

NECA: Neural Customizable Human AvatarJunjin Xiao, Qing Zhang 0006, Zhan Xu, Wei-Shi Zheng 0001. 20091-20101 [doi]

S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic ScenesXingyi Li, Zhiguo Cao 0001, Yizheng Wu, Kewei Wang, Ke Xian, Zhe Wang, Guosheng Lin. 20102-20112 [doi]

BEVNeXt: Reviving Dense BEV Frameworks for 3D Object DetectionZhenxin Li, Shiyi Lan, José M. Álvarez 0004, Zuxuan Wu. 20113-20123 [doi]

Bi-SSC: Geometric-Semantic Bidirectional Fusion for Camera-Based 3D Semantic Scene CompletionYujie Xue, Ruihui Li, Fan Wu, Zhuo Tang, Kenli Li 0001, Mingxing Duan. 20124-20134 [doi]

Learning to Select Views for Efficient Multi-View UnderstandingYunzhong Hou, Stephen Gould, Liang Zheng 0001. 20135-20144 [doi]

Outdoor Scene Extrapolation with Hierarchical Generative Cellular AutomataDongsu Zhang, Francis Williams, Zan Gojcic, Karsten Kreis, Sanja Fidler, Young Min Kim 0001, Amlan Kar. 20145-20154 [doi]

Spectrum AUC Difference (SAUCD): Human-Aligned 3D Shape EvaluationTianyu Luan, Zhong Li, Lele Chen, Xuan Gong, Lichang Chen, Yi Xu 0002, Junsong Yuan 0001. 20155-20164 [doi]

Federated Online Adaptation for Deep StereoMatteo Poggi, Fabio Tosi. 20165-20175 [doi]

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D DiffusionLinzhan Mou, Jun-Kun Chen, Yu-Xiong Wang. 20176-20185 [doi]

Real-Time Acquisition and Reconstruction of Dynamic Volumes with Neural Structured IlluminationYixin Zeng, Zoubin Bi, Mingrui Yin, Xiang Feng, Kun Zhou 0001, Hongzhi Wu. 20186-20195 [doi]

Unifying Correspondence, Pose and NeRF for Generalized Pose-Free Novel View SynthesisSunghwan Hong, Jaewoo Jung, Heeseong Shin, Jiaolong Yang, Seungryong Kim, Chong Luo. 20196-20206 [doi]

GoMVS: Geometrically Consistent Cost Aggregation for Multi-View StereoJiang Wu, Rui Li 0013, Haofei Xu, Wenxun Zhao, Yu Zhu 0004, Jinqiu Sun, Yanning Zhang. 20207-20216 [doi]

MESA: Matching Everything by Segmenting AnythingYesheng Zhang, Xu Zhao. 20217-20226 [doi]

OmniSDF: Scene Reconstruction Using Omnidirectional Signed Distance Functions and Adaptive BinoctreesHakyeong Kim, Andreas Meuleman, Hyeonjoong Jang, James Tompkin 0001, Min H. Kim 0001. 20227-20236 [doi]

MirageRoom: 3D Scene Segmentation with 2D Pre-Trained Models by Mirage ProjectionHaowen Sun, Yueqi Duan, Juncheng Yan, Yifan Liu, Jiwen Lu. 20237-20246 [doi]

Robust Synthetic-to-Real Transfer for Stereo MatchingJiawei Zhang, Jiahe Li 0007, Lei Huang, Xiaohan Yu 0001, Lin Gu 0003, Jin Zheng, Xiao Bai 0001. 20247-20257 [doi]

Symphonize 3D Semantic Scene Completion with Contextual Instance QueriesHaoyi Jiang, Tianheng Cheng, Naiyu Gao, Haoyang Zhang, Tianwei Lin, Wenyu Liu 0001, Xinggang Wang. 20258-20267 [doi]

Differentiable Neural Surface Refinement for Modeling Transparent ObjectsWeijian Deng, Dylan Campbell, Chunyi Sun, Shubham Kanitkar, Matthew E. Shaffer, Stephen Gould. 20268-20277 [doi]

DeMatch: Deep Decomposition of Motion Field for Two-View Correspondence LearningShihua Zhang, Zizhuo Li, Yuan Gao 0015, Jiayi Ma 0001. 20278-20287 [doi]

Is Vanilla MLP in Neural Radiance Field Enough for Few-Shot View Synthesis?Hanxin Zhu, Tianyu He, Xin Li 0082, Bingchen Li, Zhibo Chen 0001. 20288-20298 [doi]

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D GaussiansShenhan Qian, Tobias Kirschstein, Liam Schoneveld, Davide Davoli 0002, Simon Giebenhain, Matthias Nießner. 20299-20309 [doi]

4D Gaussian Splatting for Real-Time Dynamic Scene RenderingGuanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang 0008, Wei Wei 0006, Wenyu Liu 0001, Qi Tian 0001, Xinggang Wang. 20310-20320 [doi]

How Far can we Compress Instant-NGP-Based NeRF?Yihang Chen, Qianyi Wu, Mehrtash Harandi, Jianfei Cai 0001. 20321-20330 [doi]

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene ReconstructionZiyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang 0005, Xiaogang Jin 0001. 20331-20341 [doi]

Learning with Unreliability: Fast Few-Shot Voxel Radiance Fields with Relative Geometric ConsistencyYingjie Xu, Bangzhen Liu, Hao Tang 0007, BaiLin Deng, Shengfeng He. 20342-20351 [doi]

NTO3D: Neural Target Object 3D Reconstruction with Segment AnythingXiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang. 20352-20362 [doi]

Loopy-SLAM: Dense Neural SLAM with Loop ClosuresLorenzo Liso, Erik Sandström, Vladimir Yugay, Luc Van Gool, Martin R. Oswald. 20363-20373 [doi]

BSNet: Box-Supervised Simulation-Assisted Mean Teacher for 3D Instance SegmentationJiahao Lu, Jiacheng Deng 0002, Tianzhu Zhang. 20374-20384 [doi]

ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion ModelsMeng-Li Shih, Wei-Chiu Ma, Lorenzo Boyice, Aleksander Holynski, Forrester Cole, Brian Curless, Janne Kontkanen. 20385-20395 [doi]

Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance FieldsJoshua Ahn, Haochen Wang, Raymond A. Yeh, Greg Shakhnarovich. 20396-20405 [doi]

SpatialTracker: Tracking Any 2D Pixels in 3D SpaceYuxi Xiao, Qianqian Wang 0002, Shangzhan Zhang, Nan Xue 0006, Sida Peng, Yujun Shen, Xiaowei Zhou. 20406-20417 [doi]

GauHuman: Articulated Gaussian Splatting from Monocular Human VideosShoukang Hu, Tao Hu, Ziwei Liu. 20418-20431 [doi]

IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D ImagesYushuang Wu, Luyue Shi, Junhao Cai, Weihao Yuan, Lingteng Qiu, Zilong Dong, Liefeng Bo, Shuguang Cui, Xiaoguang Han 0001. 20432-20442 [doi]

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic FieldsYunsong Wang, Hanlin Chen, Gim Hee Lee. 20443-20453 [doi]

LASA: Instance Reconstruction from Real Scans using A Large-scale Aligned Shape Annotation DatasetHaolin Liu, Chongjie Ye, Yinyu Nie, Yingfan He, Xiaoguang Han 0001. 20454-20464 [doi]

GenZI: Zero-Shot 3D Human-Scene Interaction GenerationLei Li, Angela Dai. 20465-20474 [doi]

MVCPS-NeuS: Multi-View Constrained Photometric Stereo for Neural Surface ReconstructionHiroaki Santo, Fumio Okura, Yasuyuki Matsushita. 20475-20484 [doi]

DVMNet: Computing Relative Pose for Unseen Objects Beyond HypothesesChen Zhao, Tong Zhang 0023, Zheng Dang, Mathieu Salzmann. 20485-20495 [doi]

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-Rigid Shape Reconstruction and TrackingWei Cao, Chang Luo, Biao Zhang 0005, Matthias Nießner, Jiapeng Tang. 20496-20506 [doi]

DiffuScene: Denoising Diffusion Models for Generative Indoor Scene SynthesisJiapeng Tang, Yinyu Nie, Lev Markhasin, Angela Dai, Justus Thies, Matthias Nießner. 20507-20518 [doi]

Test- Time Adaptation for Depth CompletionHyoungseob Park, Anjali Gupta, Alex Wong 0001. 20519-20529 [doi]

Global and Hierarchical Geometry Consistency Priors for Few-Shot NeRFs in Indoor ScenesXiaotian Sun, Qingshan Xu, Xinjie Yang, Yu Zang, Cheng Wang. 20530-20539 [doi]

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and DeformationRuida Zhang, Chenyangguang Zhang, Yan Di, Fabian Manhardt, Xingyu Liu, Federico Tombari, Xiangyang Ji. 20540-20550 [doi]

Unsigned Orthogonal Distance Fields: An Accurate Neural Implicit Representation for Diverse 3D ShapesYujie Lu, Long Wan, Nayu Ding, Yulong Wang, Shuhan Shen, Shen Cai, Lin Gao. 20551-20560 [doi]

DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRFJie Long Lee, Chen Li 0038, Gim Hee Lee. 20561-20570 [doi]

BANF: Band-Limited Neural Fields for Levels of Detail ReconstructionAkhmedkhan Ahan Shabanov, Shrisudhan Govindarajan, Cody Reading, Lily Goli, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi. 20571-20580 [doi]

SuperNormal: Neural Surface Reconstruction via Multi-View Normal IntegrationXu Cao, Takafumi Taketomi. 20581-20590 [doi]

ADFactory: An Effective Framework for Generalizing Optical Flow With NeRFHan Ling, Quansen Sun, Yinghui Sun, Xian Xu, Xingfeng Li 0004. 20591-20600 [doi]

Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-Training via Differentiable Rendering of Line SegmentsYusuke Takimoto, Hikari Takehara, Hiroyuki Sato, Zihao Zhu, Bo Zheng. 20601-20611 [doi]

OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive LearningHaiyang Ying, Yixuan Yin 0001, Jinzhi Zhang, Fan Wang, Tao Yu 0007, Ruqi Huang, Lu Fang 0001. 20612-20622 [doi]

Visual Programming for Zero-Shot Open-Vocabulary 3D Visual GroundingZhihao Yuan, Jinke Ren, Chun-Mei Feng, Hengshuang Zhao, Shuguang Cui, Zhen Li 0026. 20623-20633 [doi]

GEARS: Local Geometry-Aware Hand-Object Interaction SynthesisKeyang Zhou, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-Moll. 20634-20643 [doi]

Edge-Aware 3D Instance Segmentation Network with Intelligent Semantic PriorWonseok Roh, Hwanhee Jung, Giljoo Nam, Jinseop Yeom, Hyunje Park, Sang Ho Yoon, Sangpil Kim. 20644-20653 [doi]

Scaffold-GS: Structured 3D Gaussians for View-Adaptive RenderingTao Lu 0005, Mulin Yu, Linning Xu, Yuanbo Xiangli, Limin Wang 0002, Dahua Lin, Bo Dai 0002. 20654-20664 [doi]

Map-Relative Pose Regression for Visual Re-LocalizationShuai Chen, Tommaso Cavallari, Victor Adrian Prisacariu, Eric Brachmann. 20665-20674 [doi]

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint VideosJiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing. 20675-20685 [doi]

Revisiting Global Translation Estimation with Feature TracksPeilin Tao, Hainan Cui, Mengqi Rong, Shuhan Shen. 20686-20696 [doi]

DUSt3R: Geometric 3D Vision Made EasyShuzhe Wang, Vincent Leroy 0003, Yohann Cabon, Boris Chidlovskii, Jérôme Revaud. 20697-20709 [doi]

Robust Depth Enhancement via Polarization Prompt Fusion TuningKei Ikemura, Yiming Huang, Felix Heide, Zhaoxiang Zhang, Qifeng Chen, Chenyang Lei. 20710-20720 [doi]

StraightPCF: Straight Point Cloud FilteringDasith de Silva Edirimuni, Xuequan Lu, Gang Li 0009, Lei Wei 0002, Antonio Robles-Kelly, Hongdong Li. 20721-20730 [doi]

NeRFiller: Completing Scenes via Generative 3D InpaintingEthan Weber, Aleksander Holynski, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa. 20731-20741 [doi]

NeRF Director: Revisiting View Selection in Neural Volume RenderingWenhui Xiao, Rodrigo Santa Cruz, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Léo Lebrat. 20742-20751 [doi]

Learning Intra-View and Cross-View Geometric Knowledge for Stereo MatchingRui Gong, Weide Liu, Zaiwang Gu, XuLei Yang, Jun Cheng 0003. 20752-20762 [doi]

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D PriorFangfu Liu, Diankun Wu, Yi Wei 0003, Yongming Rao, Yueqi Duan. 20763-20774 [doi]

DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth NormalizationJiahe Li 0007, Jiawei Zhang, Xiao Bai 0001, Jin Zheng, Xin-ning, Jun Zhou 0001, Lin Gu 0003. 20775-20785 [doi]

A Conditional Denoising Diffusion Probabilistic Model for Point Cloud UpsamplingWentao Qu, Yuantian Shao, Lingwu Meng, Xiaoshui Huang, Liang Xiao 0001. 20786-20795 [doi]

COLMAP-Free 3D Gaussian SplattingYang Fu, Xiaolong Wang 0004, Sifei Liu, Amey Kulkarni, Jan Kautz, Alexei A. Efros. 20796-20805 [doi]

GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene UnderstandingZi-Ting Chou, Sheng-Yu Huang, I-Jieh Liu, Yu-Chiang Frank Wang. 20806-20815 [doi]

Extend Your Own Correspondences: Unsupervised Distant Point Cloud Registration by Progressive Distance ExtensionQuan Liu, Hongzi Zhu, Zhenxi Wang, Yunsong Zhou, Shan Chang, Minyi Guo. 20816-20826 [doi]

Fully Geometric Panoramic LocalizationJunho Kim, Jiwon Jeong, Young Min Kim 0001. 20827-20837 [doi]

Multiway Point Cloud Mosaicking with Diffusion and Global OptimizationShengze Jin, Iro Armeni, Marc Pollefeys, Dániel Baráth. 20838-20849 [doi]

Generative 3D Part Assembly via Part-Whole-Hierarchy Message PassingBi'an Du, Xiang Gao, Wei Hu, Renjie Liao. 20850-20859 [doi]

Total-Decom: Decomposed 3D Scene Reconstruction with Minimal InteractionXiaoyang Lyu, Chirui Chang, Peng Dai 0003, Yang-Tian Sun, Xiaojuan Qi 0001. 20860-20869 [doi]

Absolute Pose from One or Two Scaled and Oriented FeaturesJonathan Ventura, Zuzana Kukelova, Torsten Sattler, Dániel Baráth. 20870-20880 [doi]

DGC-GNN: Leveraging Geometry and Color Cues for Visual Descriptor-Free 2D-3D MatchingShuzhe Wang, Juho Kannala, Daniel Barath. 20881-20891 [doi]

Entity-NeRF: Detecting and Removing Moving Entities in Urban ScenesTakashi Otonari, Satoshi Ikehata, Kiyoharu Aizawa. 20892-20901 [doi]

GaussianEditor: Editing 3D Gaussians Delicately with Text InstructionsJunjie Wang, Jiemin Fang, Xiaopeng Zhang 0008, Lingxi Xie, Qi Tian 0001. 20902-20911 [doi]

The More You See in 2D, the More You Perceive in 3DXinyang Han, Zelin Gao, Angjoo Kanazawa, Shubham Goel 0001, Yossi Gandelsman. 20912-20922 [doi]

Multi-Scale 3D Gaussian Splatting for Anti-Aliased RenderingZhiwen Yan, Weng Fei Low, Yu Chen, Gim Hee Lee. 20923-20931 [doi]

Practical Measurements of Translucent Materials with Inter-Pixel Translucency PriorZhenyu Chen 0001, Jie Guo 0001, Shuichang Lai, Ruoyu Fu, Mengxun Kong, Chen Wang, Hongyu Sun, Zhebin Zhang, Chen Li, Yanwen Guo 0001. 20932-20942 [doi]

OneFormer3D: One Transformer for Unified Point Cloud SegmentationMaxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich. 20943-20953 [doi]

General Point Model Pretraining with Autoencoding and AutoregressiveZhe Li, Zhangyang Gao, Cheng Tan 0012, Bocheng Ren, Laurence T. Yang, Stan Z. Li. 20954-20964 [doi]

MorpheuS: Neural Dynamic $360^{\circ}$ Surface Reconstruction from Monocular RGB-D VideoHengyi Wang, Jingwen Wang, Lourdes Agapito. 20965-20976 [doi]

Object Dynamics Modeling with Hierarchical Point Cloud-Based RepresentationsChanho Kim, Fuxin Li. 20977-20986 [doi]

Neural Refinement for Absolute Pose Regression with Feature SynthesisShuai Chen, Yash Bhalgat, Xinghui Li, Jia-Wang Bian, Kejie Li, Zirui Wang, Victor Adrian Prisacariu. 20987-20996 [doi]

Gaussian Shadow Casting for Neural CharactersLuis Bolanos, Shih-Yang Su, Helge Rhodin. 20997-21006 [doi]

PAPR in Motion: Seamless Point-level 3D Scene InterpolationShichong Peng, Yanshu Zhang, Ke Li 0011. 21007-21016 [doi]

ShapeMatcher: Self-Supervised Joint Shape Canonicalization, Segmentation, Retrieval and DeformationYan Di, Chenyangguang Zhang, Chaowei Wang, Ruida Zhang, Guangyao Zhai, Yanyan Li, Bowen Fu, Xiangyang Ji, Shan Gao 0003. 21017-21028 [doi]

XScale- NVS: Cross-Scale Novel View Synthesis with Hash Featurized ManifoldGuangyu Wang, Jinzhi Zhang, Fan Wang, Ruqi Huang, Lu Fang. 21029-21039 [doi]

Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose EstimationXiao Lin, Wenfei Yang, Yuan Gao, Tianzhu Zhang. 21040-21049 [doi]

RepKPU: Point Cloud Upsampling with Kernel Point Representation and DeformationYi Rong, Haoran Zhou, Kang Xia, Cheng Mei, Jiahao Wang, Tong Lu. 21050-21060 [doi]

ColorPCR: Color Point Cloud Registration with Multi-Stage Geometric-Color FusionJuncheng Mu, Lin Bie, Shaoyi Du, Yue Gao 0002. 21061-21070 [doi]

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene EditingJun-Kun Chen, Samuel Rota Bulò, Norman Müller, Lorenzo Porzi, Peter Kontschieder, Yu-Xiong Wang. 21071-21080 [doi]

SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion PriorsDave Zhenyu Chen, Haoxuan Li, Hsin-Ying Lee 0001, Sergey Tulyakov, Matthias Nießner. 21081-21091 [doi]

Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial ImageryYuqi Zhang, Guanying Chen, Jiaxing Chen, Shuguang Cui. 21092-21103 [doi]

Improving Depth Completion via Depth Feature UpsamplingYufei Wang, Ge Zhang, Shaoqian Wang, Bo Li 0090, Qi Liu 0054, Le Hui, Yuchao Dai. 21104-21113 [doi]

ZeroRF: Fast Sparse View 360° Reconstruction with Zero PretrainingRuoxi Shi, Xinyue Wei, Cheng Wang, Hao Su. 21114-21124 [doi]

Multi-Level Neural Scene Graphs for Dynamic Urban EnvironmentsTobias Fischer 0004, Lorenzo Porzi, Samuel Rota Bulò, Marc Pollefeys, Peter Kontschieder. 21125-21135 [doi]

Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian ParticleYoutian Lin, Zuozhuo Dai, Siyu Zhu 0001, Yao Yao 0008. 21136-21145 [doi]

L4D-Track: Language-to-4D Modeling Towards 6-DoF Tracking and Shape Reconstruction in 3D Point Cloud StreamJingtao Sun, Yaonan Wang 0001, Mingtao Feng, Yulan Guo, Ajmal Mian, Mike Zheng Shou. 21146-21156 [doi]

Neural Directional Encoding for Efficient and Accurate View-Dependent Appearance ModelingLiwen Wu, Sai Bi, Zexiang Xu, Fujun Luan, Kai Zhang 0045, Iliyan Georgiev, Kalyan Sunkavalli, Ravi Ramamoorthi. 21157-21166 [doi]

SNI-SLAM: Semantic Neural Implicit SLAMSiting Zhu, Guangming Wang 0001, Hermann Blum, Jiuming Liu, Liang Song, Marc Pollefeys, Hesheng Wang 0001. 21167-21177 [doi]

Enhancing 3D Object Detection with 2D Detection-Guided Query AnchorsHaoxuanye Ji, Pengpeng Liang, Erkang Cheng. 21178-21187 [doi]

SpecNeRF: Gaussian Directional Encoding for Specular ReflectionsLi Ma, Vasu Agrawal, Haithem Turki, Changil Kim 0001, Chen Gao 0003, Pedro V. Sander, Michael Zollhöfer, Christian Richardt. 21188-21198 [doi]

Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering AnalysisMingyang Zhao, Jingen Jiang, Lei Ma 0008, Shiqing Xin, Gaofeng Meng, Dong-Ming Yan 0001. 21199-21208 [doi]

GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object DetectionXiaotian Li, Baojie Fan, Jiandong Tian, Huijie Fan. 21209-21218 [doi]

3D Neural Edge ReconstructionLei Li, Songyou Peng, Zehao Yu, Shaohui Liu, Rémi Pautrat, Xiaochuan Yin, Marc Pollefeys. 21219-21229 [doi]

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint SynthesisTang Tao, Guangrun Wang, Yixing Lao, Peng Chen, Jie Liu, Liang Lin, Kaicheng Yu, Xiaodan Liang. 21230-21240 [doi]

Polarization Wavefront Lidar: Learning Large Scene Reconstruction from Polarized WavefrontsDominik Scheuble, Chenyang Lei, Seung-Hwan Baek, Mario Bijelic, Felix Heide. 21241-21250 [doi]

A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse SignalsJiangnan Tang, Jingya Wang, Kaiyang Ji, Lan Xu, Jingyi Yu, Ye Shi 0001. 21251-21262 [doi]

FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head ModelsShivangi Aneja, Justus Thies, Angela Dai, Matthias Niebetaner. 21263-21273 [doi]

NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene RepresentationSicheng Li, Hao Li, Yiyi Liao, Lu Yu. 21274-21283 [doi]

Open-Vocabulary 3D Semantic Segmentation with Foundation ModelsLi Jiang 0009, Shaoshuai Shi, Bernt Schiele. 21284-21294 [doi]

GraphDreamer: Compositional 3D Scene Synthesis from Scene GraphsGege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger 0001, Bernhard Schölkopf. 21295-21304 [doi]

OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic SegmentationBohao Peng, Xiaoyang Wu 0002, Li Jiang 0009, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia. 21305-21315 [doi]

Efficient Solution of Point-Line Absolute PosePetr Hruby, Timothy Duff, Marc Pollefeys. 21316-21325 [doi]

CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoor Object Detection from Multi-View ImagesGuanlin Shen, Jingwei Huang, Zhihua Hu, Bin Wang. 21326-21335 [doi]

HUGS: Holistic Urban 3D Scene Understanding via Gaussian SplattingHongyu Zhou, Jiahao Shao, Lu Xu, Dongfeng Bai, Weichao Qiu, Bingbing Liu, Yue Wang 0020, Andreas Geiger 0001, Yiyi Liao. 21336-21345 [doi]

Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAMTongyan Hua, Lin Wang. 21346-21356 [doi]

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAMNikhil Varma Keetha, Jay Karhade, Krishna Murthy Jatavallabhula, Gengshan Yang, Sebastian Scherer, Deva Ramanan, Jonathon Luiten. 21357-21366 [doi]

Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3DMukund Varma T., Peihao Wang, Zhiwen Fan, Zhangyang Wang, Hao Su 0001, Ravi Ramamoorthi. 21367-21377 [doi]

TutteNet: Injective 3D Deformations by Composition of 2D Mesh DeformationsBo Sun, Thibault Groueix, Chen Song, Qixing Huang, Noam Aigerman. 21378-21389 [doi]

L0-Sampler: An L0Model Guided Volume Sampling for NeRFLiangchen Li, Juyong Zhang. 21390-21400 [doi]

Text-to-3D using Gaussian SplattingZilong Chen, Feng Wang 0034, Yikai Wang 0001, Huaping Liu 0001. 21401-21412 [doi]

TAMM: TriAdapter Multi-Modal Learning for 3D Shape UnderstandingZhihao Zhang, Shengcao Cao, Yu-Xiong Wang. 21413-21423 [doi]

FreGS: 3D Gaussian Splatting with Progressive Frequency RegularizationJiahui Zhang, Fangneng Zhan, Muyu Xu, Shijian Lu, Eric P. Xing. 21424-21433 [doi]

NeISF: Neural Incident Stokes Field for Geometry and Material EstimationChenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara, Yusuke Moriuchi. 21434-21445 [doi]

Non-rigid Structure-from-Motion: Temporally-smooth Procrustean Alignment and Spatially-variant Deformation ModelingJiawei Shi, Hui Deng, Yuchao Dai. 21446-21455 [doi]

Small Steps and Level Sets: Fitting Neural Surface Models with Point GuidanceChamin Hewa Koneputugodage, Yizhak Ben-Shabat, Dylan Campbell, Stephen Gould. 21456-21465 [doi]

CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse InputsYingji Zhong, Lanqing Hong, Zhenguo Li, Dan Xu. 21466-21475 [doi]

GaussianEditor: Swift and Controllable 3D Editing with Gaussian SplattingYiwen Chen, Zilong Chen, Chi Zhang, Feng Wang 0034, Xiaofeng Yang, Yikai Wang 0001, Zhongang Cai, Lei Yang, Huaping Liu 0001, Guosheng Lin. 21476-21485 [doi]

Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving ApplicationsJunyi Ma, Xieyuanli Chen, Jiawei Huang, Jingyi Xu, Zhen Luo, Jintao Xu, Weihao Gu, Rui Ai 0001, Hesheng Wang 0001. 21486-21495 [doi]

UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet DiffusionJunsheng Zhou, Weiqi Zhang, Baorui Ma, Kanle Shi, Yu-Shen Liu, Zhizhong Han. 21496-21506 [doi]

PanoRecon: Real-Time Panoptic 3D Reconstruction from Monocular VideoDong Wu, Zike Yan, Hongbin Zha. 21507-21518 [doi]

Three Pillars Improving Vision Foundation Model Distillation for LidarGilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Siméoni, Corentin Sautier, Patrick Pérez, Andrei Bursuc, Renaud Marlet. 21519-21529 [doi]

GARField: Group Anything with Radiance FieldsChung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa. 21530-21539 [doi]

Flexible Depth Completion for Sparse and Varying Point DensitiesJinhyung Park, Yu-Jhe Li, Kris Kitani. 21540-21550 [doi]

ReconFusion: 3D Reconstruction with Diffusion PriorsRundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, RuiQi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski. 21551-21561 [doi]

NARUTO: Neural Active Reconstruction from Uncertain Target ObservationsZiyue Feng, Huangying Zhan, Zheng Chen, Qingan Yan, Xiangyu Xu, Changjiang Cai, Bing Li, Qilun Zhu, Yi Xu. 21572-21583 [doi]

Photo-SLAM: Real-Time Simultaneous Localization and Photorealistic Mapping for Monocular, Stereo, and RGB-D CamerasHuajian Huang, Longwei Li, Hui Cheng, Sai Kit Yeung. 21584-21593 [doi]

Detector-Free Structure from MotionXingyi He, Jiaming Sun, Yifan Wang, Sida Peng, Qixing Huang, Hujun Bao, Xiaowei Zhou. 21594-21603 [doi]

Memory-based Adapters for Online 3D Scene PerceptionXiuwei Xu, Chong Xia, Ziwei Wang 0001, Linqing Zhao, Yueqi Duan, Jie Zhou 0001, Jiwen Lu. 21604-21613 [doi]

SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance FieldLizhe Liu, Bohua Wang, Hongwei Xie, Daqi Liu, Li Liu, Zhiqiang Tian, Kuiyuan Yang, Bing Wang. 21614-21623 [doi]

CoGS: Controllable Gaussian SplattingHeng Yu, Joel Julin, Zoltán Ádám Milacski, Koichiro Niinuma, László A. Jeni. 21624-21633 [doi]

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving ScenesXiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang 0001. 21634-21643 [doi]

GS-IR: 3D Gaussian Splatting for Inverse RenderingZhihao Liang, Qi Zhang, Ying Feng, Ying Shan, Kui Jia. 21644-21653 [doi]

Cross-spectral Gated-RGB Stereo Depth EstimationSamuel Brucker, Stefanie Walz, Mario Bijelic, Felix Heide. 21654-21665 [doi]

Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like SpeedYifan Wang, Xingyi He, Sida Peng, Dongli Tan, Xiaowei Zhou. 21666-21675 [doi]

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature FieldsShijie Zhou, Haoran Chang, Sicheng Jiang, Zhiwen Fan, Zehao Zhu, Dejia Xu, Pradyumna Chari, Suya You, Zhangyang Wang, Achuta Kadambi. 21676-21685 [doi]

VGGSfM: Visual Geometry Grounded Deep Structure from MotionJianyuan Wang, Nikita Karaev, Christian Rupprecht 0001, David Novotný. 21686-21697 [doi]

Dynamic Cues-Assisted Transformer for Robust Point Cloud RegistrationHong Chen, Pei Yan, Sihe Xiang, Yihua Tan. 21698-21707 [doi]

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene UnderstandingHao Li, Dingwen Zhang, Yalun Dai, Nian Liu, Lechao Cheng, JingFeng Li, Jingdong Wang 0001, Junwei Han. 21708-21718 [doi]

Compact 3D Gaussian Representation for Radiance FieldJoo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park. 21719-21728 [doi]

Unsupervised Occupancy Learning from Sparse Point CloudAmine Ouasfi, Adnane Boukhayma. 21729-21739 [doi]

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object UnderstandingYun Liu 0018, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang 0006, Yebin Liu, Li Yi. 21740-21751 [doi]

ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic ObjectChenshuang Zhang, Fei Pan, Junmo Kim 0002, In-So Kweon, Chengzhi Mao. 21752-21762 [doi]

SynFog: A Photorealistic Synthetic Fog Dataset Based on End-to-End Imaging Simulation for Advancing Real-World Defogging in Autonomous DrivingYiming Xie, Henglu Wei, Zhenyi Liu, Xiaoyu Wang, Xiangyang Ji. 21763-21772 [doi]

FineSports: A Multi-Person Hierarchical Sports Video Dataset for Fine-Grained Action UnderstandingJinglin Xu, Guohao Zhao, Sibo Yin, Wenhao Zhou, Yuxin Peng. 21773-21782 [doi]

Infinigen Indoors: Photorealistic Indoor Scenes using Procedural GenerationAlexander Raistrick, Lingjie Mei, Karhan Kayan, David Yan, Yiming Zuo 0001, Beining Han, Hongyu Wen, Meenal Parakh, Stamatis Alexandropoulos, Lahav Lipson, Zeyu Ma, Jia Deng 0001. 21783-21794 [doi]

Probing the 3D Awareness of Visual Foundation ModelsMohamed El Banani, Amit Raj, Kevis-Kokitsi Maninis, Abhishek Kar, Yuanzhen Li, Michael Rubinstein, Deqing Sun, Leonidas J. Guibas, Justin Johnson 0001, Varun Jampani. 21795-21806 [doi]

VBench: Comprehensive Benchmark Suite for Video Generative ModelsZiqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang 0003, Yuanhan Zhang, Tianxing Wu 0002, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang 0004, Xinyuan Chen, Limin Wang 0002, Dahua Lin, Yu Qiao 0001, Ziwei Liu 0002. 21807-21818 [doi]

MAPLM: A Real-World Large-Scale Vision-Language Benchmark for Map and Traffic Scene UnderstandingXu Cao, Tong Zhou, Yunsheng Ma, Wenqian Ye, Can Cui, Kun Tang, Zhipeng Cao, Kaizhao Liang, Ziran Wang, James M. Rehg, Chao Zheng. 21819-21830 [doi]

Video Recognition in Portrait ModeMingfei Han 0002, Linjie Yang, Xiaojie Jin, Jiashi Feng, Xiaojun Chang, Heng Wang. 21831-21841 [doi]

MMVP: A Multimodal MoCap Dataset with Vision and Pressure SensorsHe Zhang, Shenghao Ren, Haolei Yuan, Jianhui Zhao 0002, Fan Li, Shuangpeng Sun, Zhenghao Liang, Tao Yu 0007, Qiu Shen, Xun Cao. 21842-21852 [doi]

What If the TV was off? Examining Counterfactual Reasoning Abilities of Multi-modal Language ModelsLetian Zhang, Xiaotong Zhai, Zhongkai Zhao, Yongshuo Zong, Xin Wen, Bingchen Zhao. 21853-21862 [doi]

COCONut: Modernizing COCO SegmentationXueqing Deng, Qihang Yu, Peng Wang, Xiaohui Shen, Liang-Chieh Chen. 21863-21873 [doi]

Traffic Scene Parsing Through the TSP6K DatasetPeng-Tao Jiang, Yuqi Yang, Yang Cao 0017, Qibin Hou, Ming-Ming Cheng, Chunhua Shen. 21874-21885 [doi]

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and BenchmarkZiyang Chen, Israel D. Gebru, Christian Richardt, Anurag Kumar 0003, William Laney, Andrew Owens, Alexander Richard. 21886-21896 [doi]

Rethinking the Evaluation Protocol of Domain GeneralizationHan Yu 0009, Xingxuan Zhang, Renzhe Xu, Jiashuo Liu, Yue He 0001, Peng Cui 0001. 21897-21908 [doi]

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of VideosJielin Qiu, Jiacheng Zhu, William Han, Aditesh Kumar, Karthik Mittal, Claire Jin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Ding Zhao, Bo Li 0026, Lijuan Wang. 21909-21921 [doi]

Learning from Synthetic Human Group ActivitiesChe-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic 0001, Mubbasir Kapadia. 21922-21932 [doi]

Instance Tracking in 3D Scenes from Egocentric VideosYunhan Zhao, Haoyu Ma, Shu Kong, Charless C. Fowlkes. 21933-21944 [doi]

Insect-Foundation: A Foundation Model and Large-Scale 1M Dataset for Visual Insect UnderstandingHoang-Quan Nguyen, Thanh-Dat Truong, Xuan-Bac Nguyen, Ashley Dowling, Xin Li 0005, Khoa Luu. 21945-21955 [doi]

Low-Resource Vision Challenges for Foundation ModelsYunhua Zhang, Hazel Doughty, Cees G. M. Snoek. 21956-21966 [doi]

OpenStreetView-5M: The Many Roads to Global Visual GeolocationGuillaume Astruc, Nicolas Dufour, Ioannis Siglidis, Constantin Aronssohn, Nacim Bouia, Stephanie Fu, Romain Loiseau, Van Nguyen Nguyen, Charles Raude, Elliot Vincent, Lintao Xu, Hongyu Zhou, Loïc Landrieu. 21967-21977 [doi]

FreeMan: Towards Benchmarking 3D Human Pose Estimation Under Real-World ConditionsJiong Wang, Fengyu Yang, Bingliang Li, Wenbo Gou, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Yanqing Jing, Ruimao Zhang. 21978-21988 [doi]

LiDAR-Net: A Real-Scanned 3D Point Cloud Dataset for Indoor ScenesYanwen Guo 0001, Yuanqi Li, Dayong Ren, Xiaohong Zhang, Jiawei Li, Liang Pu, Changfeng Ma, Xiaoyu Zhan, Jie Guo 0001, Mingqiang Wei, Yan Zhang 0057, Piaopiao Yu, Shuangyu Yang, Donghao Ji, Huisheng Ye, Hao Sun, Yansong Liu, Yinuo Chen, Jiaqi Zhu, Hongyu Liu. 21989-21999 [doi]

View-decoupled Transformer for Person Re-identification under Aerial-ground Camera NetworkQuan Zhang, Lei Wang, Vishal M. Patel, Xiaohua Xie, Jianhuang Lai. 22000-22009 [doi]

UFineBench: Towards Text-based Person Retrieval with Ultra-fine GranularityJialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo 0001, Nong Sang, Yunhe Wang 0001, Changxin Gao. 22010-22019 [doi]

Towards Automatic Power Battery Detection: New Challenge, Benchmark Dataset and BaselineXiaoqi Zhao, Youwei Pang, Zhenyu Chen 0001, Qian Yu, Lihe Zhang, Hanqi Liu, Jiaming Zuo, Huchuan Lu. 22020-22029 [doi]

Abductive Ego-View Accident Video Understanding for Safe Driving PerceptionJianwu Fang, Lei-Lei Li, Junfei Zhou, Junbin Xiao, Hongkai Yu, Chen Lv, Jianru Xue, Tat-Seng Chua. 22030-22040 [doi]

Multiagent Multitraversal Multimodal Self-Driving: Open MARS DatasetYiming Li 0003, Zhiheng Li, Nuo Chen 0003, Moonjun Gong, Zonglin Lyu, Zehong Wang, Peili Jiang, Chen Feng 0002. 22041-22051 [doi]

Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and ChallengesTongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Chen Chen, Jian Jin, Zhenzhen Jiao. 22052-22061 [doi]

Pre-Training Vision Models with Mandelbulb VariationsBenjamin Naoto Chiche, Yuto Horikawa, Ryo Fujita. 22062-22071 [doi]

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real WorldYifei Huang, Guo Chen 0006, Jilan Xu, Mingfang Zhang 0002, Lijin Yang, Baoqi Pei, Hongjie Zhang 0002, Lu Dong, Yali Wang 0001, Limin Wang 0002, Yu Qiao 0001. 22072-22086 [doi]

JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social GroupsSimindokht Jahangard, Zhixi Cai, Shiki Wen, Hamid Rezatofighi. 22087-22097 [doi]

Spectral and Polarization Vision: Spectro-polarimetric Real-world DatasetYujin Jeon, Eunsue Choi, Youngchan Kim, Yunseong Moon, Khalid Omer, Felix Heide, Seung-Hwan Baek. 22098-22108 [doi]

MatSynth: A Modern PBR Materials DatasetGiuseppe Vecchio, Valentin Deschaintre. 22109-22118 [doi]

When Visual Grounding Meets Gigapixel-Level Large-Scale Scenes: Benchmark and ApproachM. Tao, Bing Bai, Haozhe Lin, Heyuan Wang, Yu Wang, Lin Luo, Lu Fang. 22119-22128 [doi]

HoloVic: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure CooperativeCong Ma, Lei Qiao, Chengkai Zhu, Kai Liu, Zelong Kong, Qing Li, Xueqi Zhou, Yuheng Kan, Wei Wu 0021. 22129-22138 [doi]

EvalCrafter: Benchmarking and Evaluating Large Video Generation ModelsYaofang Liu, Xiaodong Cun, Xuebo Liu 0002, Xintao Wang, Yong Zhang 0034, Haoxin Chen, Yang Liu 0005, Tieyong Zeng, Raymond H. Chan, Ying Shan. 22139-22149 [doi]

Localization is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix itAdam Lilja, Junsheng Fu, Erik Stenborg, Lars Hammarstrand. 22150-22159 [doi]

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D VisionLu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua 0001, Tianyi Zhang, Bedrich Benes, Aniket Bera. 22160-22169 [doi]

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLMYutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao, Ping Luo. 22170-22183 [doi]

Can Biases in ImageNet Models Explain Generalization?Paul Gavrikov, Janis Keuper. 22184-22194 [doi]

MVBench: A Comprehensive Multi-modal Video Understanding BenchmarkKunchang Li 0002, Yali Wang 0001, Yinan He, Yizhuo Li 0001, Yi Wang 0003, Yi Liu, Zun Wang, Jilan Xu, Guo Chen 0006, Ping Lou, Limin Wang 0002, Yu Qiao 0001. 22195-22206 [doi]

Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning NetworkWenqiao Li, Xiaohao Xu, Yao Gu, Bozhong Zheng, Shenghua Gao, Yingna Wu. 22207-22216 [doi]

Point-VOS: Pointing Up Video Object SegmentationSabarinath Mahadevan, Idil Esen Zulfikar, Paul Voigtlaender, Bastian Leibe. 22217-22226 [doi]

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D GenerationTong Wu, Guandao Yang, Zhibing Li, Kai Zhang 0045, Ziwei Liu 0002, Leonidas J. Guibas, Dahua Lin, Gordon Wetzstein. 22227-22238 [doi]

ConCon-Chi: Concept-Context Chimera Benchmark for Personalized Vision-Language TasksAndrea Rosasco, Stefano Berti, Giulia Pasquale, Damiano Malafronte, Shogo Sato, Hiroyuki Segawa, Tetsugo Inada, Lorenzo Natale. 22239-22248 [doi]

FISBe: A Real-World Benchmark Dataset for Instance Segmentation of Long-Range thin Filamentous StructuresLisa Mais, Peter Hirsch 0001, Claire Managan, Ramya Kandarpa, Josef Lorenz Rumberger, Annika Reinke, Lena Maier-Hein, Gudrun Ihrke, Dagmar Kainmueller. 22249-22259 [doi]

Inter-X: Towards Versatile Human-Human Interaction AnalysisLiang Xu, Xintao Lv, Yichao Yan, Xin Jin 0014, Shuwen Wu, Congsheng Xu, Yifan Liu, Yizhou Zhou, Fengyun Rao, Xingdong Sheng, Yunhui Liu, Wenjun Zeng, Xiaokang Yang. 22260-22271 [doi]

TextNeRF: A Novel Scene-Text Image Synthesis Method Based on Neural Radiance FieldsJialei Cui, Jianwei Du, Wenzhuo Liu, Zhouhui Lian. 22272-22281 [doi]

Systematic comparison of semi-supervised and self-supervised learning for medical image classificationZhe Huang, Ruijie Jiang, Shuchin Aeron, Michael C. Hughes. 22282-22293 [doi]

Unexplored Faces of Robustness and Out-of-Distribution: Covariate Shifts in Environment and Sensor DomainsEunsu Baek, Keondo Park, Jiyoon Kim, Hyung-Sin Kim. 22294-22303 [doi]

MCD: Diverse Large-Scale Multi-Campus Dataset for Robot PerceptionThien Minh Nguyen, Shenghai Yuan, Thien Hoang Nguyen, Pengyu Yin, Haozhi Cao, Lihua Xie, Maciej K. Wozniak, Patric Jensfelt, Marko Thiel 0002, Justin Ziegenbein, Noel Blunder. 22304-22313 [doi]

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-Device QueriesHuajian Huang, Changkun Liu 0001, Yipeng Zhu, Hui Cheng, Tristan Braud, Sai Kit Yeung. 22314-22324 [doi]

JRDB-PanoTrack: An Open-World Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human EnvironmentsDuy-Tho Le, Chenhui Gou, Stavya Datta, Hengcan Shi, Ian D. Reid 0001, Jianfei Cai 0001, Hamid Rezatofighi. 22325-22334 [doi]

MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking BenchmarkSanghyun Woo, KwanYong Park, Inkyu Shin, Myungchul Kim 0002, In-So Kweon. 22335-22346 [doi]

RCooper: A Real-world Large-scale Dataset for Roadside Cooperative PerceptionRuiyang Hao, Siqi Fan 0002, Yingru Dai, Zhenlin Zhang, Chenxi Li, Yuntian Wang, Haibao Yu, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie. 22347-22357 [doi]

UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video EnhancementYaofeng Xie, Lingwei Kong, Kai Chen, Ziqiang Zheng, Xiao Yu, Zhibin Yu 0002, Bing Zheng. 22358-22367 [doi]

Real-World Mobile Image Denoising Dataset with Efficient BaselinesRoman Flepp, Andrey Ignatov, Radu Timofte, Luc Van Gool. 22368-22377 [doi]

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D VideosHongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang 0004. 22378-22389 [doi]

Evaluating Transferability in Retrieval Tasks: An Approach Using MMD and Kernel MethodsMengyu Dai, Amir Hossein Raffiee, Aashish Jain, Joshua Correa. 22390-22400 [doi]

BEHAVIOR Vision Suite: Customizable Dataset Generation via SimulationYunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li 0001, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K. Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei 0001, Jiajun Wu 0001. 22401-22412 [doi]

SVDinsTN: A Tensor Network Paradigm for Efficient Structure Search from Regularized Modeling PerspectiveYu-Bang Zheng, Xi-Le Zhao, Junhua Zeng, Chao Li 0013, Qibin Zhao, Heng-Chao Li, Ting-Zhu Huang. 22413-22422 [doi]

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image GenerationPetru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Fei Chen, Steven McDonagh, Gerasimos Lampouras, Ignacio Iacobacci, Sarah Parisot. 22413-22422 [doi]

Sieve: Multimodal Dataset Pruning Using Image Captioning ModelsAnas Mahmoud 0002, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani, Hugh Leather, Ari S. Morcos. 22423-22432 [doi]

Perceptual Assessment and Optimization of HDR Image RenderingPeibei Cao, Rafal K. Mantiuk, Kede Ma. 22433-22443 [doi]

GlitchBench: Can Large Multimodal Models Detect Video Game Glitches?Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen 0002. 22444-22455 [doi]

WinSyn: A High Resolution Testbed for Synthetic DataTom Kelly, John Femiani 0001, Peter Wonka. 22456-22465 [doi]

DiVa-360: The Dynamic Visual Dataset for Immersive Neural FieldsCheng-You Lu, Peisen Zhou, Angela Xing, Chandradeep Pokhariya, Arnab Dey, Ishaan Nikhil Shah, Rugved Mavidipalli, Dylan Hu, Andrew I. Comport, Kefan Chen, Srinath Sridhar 0002. 22466-22476 [doi]

Learning Discriminative Dynamics with Label Corruption for Noisy Label DetectionSuyeon Kim, Dongha Lee, SeongKu Kang, Sukang Chae, Sanghwan Jang, Hwanjo Yu. 22477-22487 [doi]

DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World VideosArjun Balasingam, Joseph Chandler, Chenning Li, Zhoutong Zhang, Hari Balakrishnan. 22488-22497 [doi]

HouseCat6D - A Large-Scale Multi-Modal Category Level 6D Object Perception Dataset with Household Objects in Realistic ScenariosHyunjun Jung, Shun-Cheng Wu, Patrick Ruhkamp, Guangyao Zhai, Hannah Schieber, Giulia Rizzoli, Pengyuan Wang 0002, Hongcheng Zhao, Lorenzo Garattoni, Daniel Roth 0001, Sven Meier, Nassir Navab, Benjamin Busam. 22498-22508 [doi]

Benchmarking Segmentation Models with Mask-Preserved Attribute EditingZijin Yin, Kongming Liang, Bing Li 0015, Zhanyu Ma, Jun Guo 0002. 22509-22519 [doi]

The Devil is in the Fine-Grained Details: Evaluating open-Vocabulary Object Detectors for Fine-Grained UnderstandingLorenzo Bianchi, Fabio Carrara, Nicola Messina, Claudio Gennaro, Fabrizio Falchi. 22520-22529 [doi]

PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human ModelingXiaoyun Zheng, Liwei Liao, Xufeng Li, Jianbo Jiao, Rongjie Wang, Feng Gao 0014, Shiqi Wang 0001, Ronggang Wang. 22530-22540 [doi]

Insights from the Use of Previously Unseen Neural Architecture Search DatasetsRob Geada, David Towers, Matthew Forshaw, Amir Atapour Abarghouei, A. Stephen McGough. 22541-22550 [doi]

TULIP: Multi-Camera 3D Precision Assessment of Parkinson's DiseaseKyungdo Kim, Sihan Lyu, Sneha Mantri, Timothy W. Dunn. 22551-22562 [doi]

LUWA Dataset: Learning Lithic Use-Wear Analysis on Microscopic ImagesJing Zhang, Irving Fang, Hao Wu, Akshat Kaushik, Alice Rodriguez, Hanwen Zhao, Juexiao Zhang, Zhuo Zheng, Radu Iovita, Chen Feng. 22563-22573 [doi]

ShapeWalk: Compositional Shape Editing Through Language-Guided ChainsHabib Slim, Mohamed Elhoseiny. 22574-22583 [doi]

TRINS: Towards Multimodal Language Models that Can ReadRuiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun. 22584-22594 [doi]

MAGICK: A Large-Scale Captioned Dataset from Matting Generated Images Using Chroma KeyingRyan D. Burgert, Brian L. Price, Jason Kuen, Yijun Li, Michael S. Ryoo. 22595-22604 [doi]

EFHQ: Multi-Purpose ExtremePose-Face-HQ DatasetTrung Tuan Dao, Duc Hong Vu, Cuong Pham 0001, Anh Tuan Tran 0001. 22605-22615 [doi]

How to Train Neural Field Representations: A Comprehensive Study and BenchmarkSamuele Papa, Riccardo Valperga, David M. Knigge, Miltiadis Kofinas, Phillip Lippe, Jan-Jakob Sonke, Efstratios Gavves. 22616-22625 [doi]

A Noisy Elephant in the Room: Is Your out-of-Distribution Detector Robust to Label Noise?Galadrielle Humblot-Renaux, Sergio Escalera, Thomas B. Moeslund. 22626-22636 [doi]

eTraM: Event-Based Traffic Monitoring DatasetAayush Atul Verma, Bharatesh Chakravarthi, Arpitsinh Vaghela, Hua Wei 0001, Yezhou Yang. 22637-22646 [doi]

SubT-MRS Dataset: Pushing SLAM Towards All-weather EnvironmentsShibo Zhao, Yuanjun Gao, Tianhao Wu, Damanpreet Singh, Rushan Jiang, Haoxiang Sun, Mansi Sarawata, Yuheng Qiu, Warren Whittaker, Ian Higgins, Yi Du 0001, Shaoshu Su, Can Xu, John Keller, Jay Karhade, Lucas Nogueira, Sourojit Saha, Ji Zhang 0003, Wenshan Wang, Chen Wang 0033, Sebastian A. Scherer. 22647-22657 [doi]

MSU-4S - The Michigan State University Four Seasons DatasetDaniel Kent 0001, Mohammed Alyaqoub, Xiaohu Lu, Hamed Khatounabadi, Kookjin Sung, Cole Scheller, Alexander Dalat, Xinwei Guo, Asma bin Thabit, Roberto Whitley, Hayder Radha. 22658-22667 [doi]

TUMTraf V2X Cooperative Perception DatasetWalter Zimmer, Gerhard Arya Wardana, Suren Sritharan, Xingcheng Zhou, Rui Song 0007, Alois C. Knoll. 22668-22677 [doi]

Multiview Aerial Visual Recognition (MAVREC): Can Multi-View Improve Aerial Visual Perception?Aritra Dutta, Srijan Das, Jacob Nielsen, Rajatsubhra Chakraborty, Mubarak Shah. 22678-22690 [doi]

Towards Co-Evaluation of Cameras, HDR, and Algorithms for Industrial-Grade 6DoF Pose EstimationAgastya Kalra, Guy Stoppi, Dmitrii Marin, Vage Taamazyan, Aarrushi Shandilya, Rishav Agarwal, Anton Boykov, Tze Hao Chong, Michael Stark. 22691-22701 [doi]

Scaling Laws for Data Filtering - Data Curation Cannot be Compute AgnosticSachin Goyal, Pratyush Maini, Zachary C. Lipton, Aditi Raghunathan, J. Zico Kolter. 22702-22711 [doi]

Benchmarking Audio Visual Segmentation for Long-Untrimmed VideosChen Liu 0028, Peike Patrick Li, Qingtao Yu, Hongwei Sheng, Dadong Wang, Lincheng Li, Xin Yu 0002. 22712-22722 [doi]

Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time AdaptationYeonguk Yu, Sungho Shin, Seunghyeok Back, Minhwan Ko, Sangjun Noh, Kyoobin Lee. 22723-22732 [doi]

VideoMAC: Video Masked Autoencoders Meet ConvNetsGensheng Pei, Tao Chen 0012, Xiruo Jiang, Huafeng Liu 0004, Zeren Sun, Yazhou Yao. 22733-22743 [doi]

Unsupervised Universal Image SegmentationDantong Niu, Xudong Wang 0007, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell. 22744-22754 [doi]

VideoCutLER: Surprisingly Simple Unsupervised Video Instance SegmentationXudong Wang 0007, Ishan Misra, Ziyun Zeng, Rohit Girdhar, Trevor Darrell. 22755-22764 [doi]

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANsAlex Trevithick, Matthew A. Chan 0001, Towaki Takikawa, Umar Iqbal 0001, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano. 22765-22775 [doi]

SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive TransformersIoannis Kakogeorgiou, Spyros Gidaris, Konstantinos Karantzalos, Nikos Komodakis. 22776-22786 [doi]

Unsupervised Learning of Category-Level 3D Pose from Object-Centric VideosLeonhard Sommer, Artur Jesslen, Eddy Ilg, Adam Kortylewski. 22787-22796 [doi]

Distributionally Generative Augmentation for Fair Facial Attribute ClassificationFengda Zhang, Qianpei He, Kun Kuang, Jiashuo Liu, Long Chen 0016, Chao Wu 0001, Jun Xiao 0001, Hanwang Zhang. 22797-22808 [doi]

Estimating Noisy Class Posterior with Part-level Labels for Noisy Label LearningRui Zhao 0028, Bin Shi, Jianfei Ruan, Tianze Pan, Bo Dong 0001. 22809-22819 [doi]

Unsupervised Keypoints from Pretrained Diffusion ModelsEric Hedlin, Gopal Sharma, Shweta Mahajan, Xingzhe He, Hossam Isack, Abhishek Kar, Helge Rhodin, Andrea Tagliasacchi, Kwang Moo Yi. 22820-22830 [doi]

Learning to Rank Patches for Unbiased Image Redundancy ReductionYang Luo, Zhineng Chen, Peng Zhou 0009, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang. 22831-22840 [doi]

Rethinking the Representation in Federated Unsupervised Learning with Non-IID DataXinting Liao, Weiming Liu 0005, Chaochao Chen 0001, Pengyang Zhou, Fengyuan Yu, Huabin Zhu, Binhui Yao, Tao Wang, Xiaolin Zheng, Yanchao Tan. 22841-22850 [doi]

GLID: Pre-training a Generalist Encoder-Decoder Vision ModelJihao Liu, Jinliang Zheng, Yu Liu 0015, Hongsheng Li 0001. 22851-22860 [doi]

Sequential Modeling Enables Scalable Learning for Large Vision ModelsYutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan L. Yuille, Trevor Darrell, Jitendra Malik, Alexei A. Efros. 22861-22872 [doi]

VoCo: A Simple-Yet-Effective Volume Contrastive Learning Framework for 3D Medical Image AnalysisLinshan Wu, Jiaxin Zhuang, Hao Chen. 22873-22882 [doi]

Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly DetectionChengjie Wang, Wenbing Zhu, Bin-Bin Gao, Zhenye Gan, Jiangning Zhang, Zhihao Gu, Shuguang Qian, Mingang Chen, Lizhuang Ma. 22883-22892 [doi]

BEM: Balanced and Entropy-Based Mix for Long-Tailed Semi-Supervised LearningHongwei Zheng 0006, Linyuan Zhou, Han Li, Jinming Su, Xiaoming Wei, Xiaoming Xu. 22893-22903 [doi]

ReCoRe: Regularized Contrastive Representation Learning of World ModelRudra P. K. Poudel, Harit Pandya, Stephan Liwicki, Roberto Cipolla. 22904-22913 [doi]

Universal Novelty Detection Through Adaptive Contrastive LearningHossein Mirzaei, Mojtaba Nafez, Mohammad Jafari, Mohammad Bagher Soltani, Mohammad Azizmalayeri, Jafar Habibi, Mohammad Sabokrou, Mohammad Hossein Rohban. 22914-22923 [doi]

Learning to Count Without AnnotationsLukas Knobel, Tengda Han, Yuki M. Asano. 22924-22934 [doi]

Point Cloud Pre-Training with Diffusion ModelsXiao Zheng, Xiaoshui Huang, Guofeng Mei, Yuenan Hou, Zhaoyang Lyu, Bo Dai 0002, Wanli Ouyang, Yongshun Gong. 22935-22945 [doi]

Improving Unsupervised Hierarchical Representation With Reinforcement LearningRuyi An, Yewen Li, Xu He, Pengjie Gu, Mengchen Zhao, Dong Li 0016, Jianye Hao, Chaojie Wang 0001, Bo An 0001, Mingyuan Zhou. 22946-22956 [doi]

Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View ScenariosJie Xu 0044, Yazhou Ren 0001, Xiaolong Wang, Lei Feng 0006, Zheng Zhang 0006, Gang Niu 0001, Xiaofeng Zhu 0001. 22957-22966 [doi]

Self-Supervised Representation Learning from Arbitrary ScenariosZhaowen Li, Yousong Zhu, Zhiyang Chen, Zongxin Gao, Rui Zhao 0018, Chaoyang Zhao, Ming Tang 0001, Jinqiao Wang. 22967-22977 [doi]

Learning SO(3)-Invariant Semantic Correspondence via Local Shape TransformChunghyun Park, Seungwook Kim, Jaesik Park, Minsu Cho. 22978-22987 [doi]

Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-TrainingYipeng Gao, Zeyu Wang 0008, Wei-Shi Zheng 0001, Cihang Xie, Yuyin Zhou. 22998-23008 [doi]

Solving Masked Jigsaw Puzzles with Diffusion Vision TransformersJinyang Liu, Wondmgezahu Teshome, Sandesh Ghimire, Mario Sznaier, Octavia I. Camps. 23009-23018 [doi]

DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic CodesHao Yan, Zhihui Ke, Xiaobo Zhou 0003, Tie Qiu 0001, Xidong Shi, Dadong Jiang. 23019-23029 [doi]

Brain Decodes Deep NetsHuzheng Yang, James Gee, Jianbo Shi. 23030-23040 [doi]

Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark DiscoverySiddharth Tourani, Ahmed Alwheibi, Arif Mahmood, Muhammad Haris Khan. 23041-23051 [doi]

Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning Through Object ExchangeYanhao Wu, Tong Zhang 0023, Wei Ke 0003, Congpei Qiu, Sabine Süsstrunk, Mathieu Salzmann. 23052-23061 [doi]

Adaptive Slot Attention: Object Discovery with Dynamic Slot NumberKe-fan, Zechen Bai, Tianjun Xiao, Tong He 0002, Max Horn, Yanwei Fu 0001, Francesco Locatello, Zheng Zhang 0001. 23062-23071 [doi]

Targeted Representation Alignment for Open-World Semi-Supervised LearningRuixuan Xiao, Lei Feng, Kai Tang, Junbo Zhao, Yixuan Li, Gang Chen, Haobo Wang. 23072-23082 [doi]

Hierarchical Correlation Clustering and Tree Preserving EmbeddingMorteza Haghir Chehreghani, Mostafa Haghir Chehreghani. 23083-23093 [doi]

Contrastive Mean-Shift Learning for Generalized Category DiscoverySua Choi, Dahyun Kang, Minsu Cho. 23094-23104 [doi]

CuVLER: Enhanced Unsupervised Object Discoveries through Exhaustive Self-Supervised TransformersShahaf Arica, Or Rubin, Sapir Gershov, Shlomi Laufer. 23105-23114 [doi]

SODA: Bottleneck Diffusion Models for Representation LearningDrew A. Hudson, Daniel Zoran, Mateusz Malinowski, Andrew K. Lampinen, Andrew Jaegle, James L. McClelland, Loic Matthey, Felix Hill, Alexander Lerchner. 23115-23127 [doi]

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic SegmentationLinglin Jing, Yiming Ding, Yunpeng Gao, Zhigang Wang 0002, Xu Yan, Dong Wang 0028, Gerald Schaefer, Hui Fang 0003, Bin Zhao 0001, Xuelong Li 0001. 23128-23137 [doi]

Positive-Unlabeled Learning by Latent Group-Aware Meta DisambiguationLin Long, Haobo Wang, Zhijie Jiang, Lei Feng, Chang Yao, Gang Chen, Junbo Zhao. 23138-23147 [doi]

Aligning Logits Generatively for Principled Black-Box Knowledge DistillationJing Ma, Xiang Xiang 0001, Ke Wang, Yuchuan Wu, Yongbin Li. 23148-23157 [doi]

Neural Modes: Self-supervised Learning of Nonlinear Modal SubspacesJiahong Wang, Yinwei Du, Stelian Coros, Bernhard Thomaszewski. 23158-23167 [doi]

Decentralized Directed Collaboration for Personalized Federated LearningYingqi Liu, Yifan Shi, Baoyuan Wu, Qinglun Li, Xueqian Wang 0001, Li Shen 0008. 23168-23178 [doi]

Improving Graph Contrastive Learning via Adaptive Positive SamplingJiaming Zhuo, Feiyang Qin, Can Cui 0005, Kun Fu, Bingxin Niu, Mengzhu Wang, Yuanfang Guo, Chuan Wang 0002, Zhen Wang 0004, Xiaochun Cao, Liang Yang 0002. 23179-23187 [doi]

Integrating Efficient Optimal Transport and Functional Maps for Unsupervised Shape Correspondence LearningTung Le, Khai Nguyen, Shanlin Sun, Nhat Ho, Xiaohui Xie. 23188-23198 [doi]

Unsupervised Feature Learning with Emergent Data-Driven PrototypicalityYunhui Guo, Youren Zhang, Yubei Chen, Stella X. Yu. 23199-23208 [doi]

Label Propagation for Zero-shot Classification with Vision-Language ModelsVladan Stojnic, Yannis Kalantidis, Giorgos Tolias. 23209-23218 [doi]

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts AdaptersJiazuo Yu, Yunzhi Zhuge, Lu Zhang 0053, Ping Hu, Dong Wang 0004, Huchuan Lu, You He. 23219-23230 [doi]

Backpropagation-free Network for 3D Test-time AdaptationYanshuo Wang, Ali Cheraghian, Zeeshan Hayder, Jie Hong, Sameera Ramasinghe, Shafin Rahman, David Ahmedt-Aristizabal, Xuesong Li, Lars Petersson, Mehrtash Harandi. 23231-23241 [doi]

GDA: Generalized Diffusion for Robust Test-Time AdaptationYun-Yun Tsai, Fu-Chen Chen, Albert Y. C. Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo. 23242-23251 [doi]

Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformerYuwen Tan, Qinhao Zhou, Xiang Xiang 0001, Ke Wang, Yuchuan Wu, Yongbin Li. 23252-23262 [doi]

Few-Shot Learner Parameterization by Diffusion Time-StepsZhongqi Yue, Pan Zhou 0002, Richang Hong, Hanwang Zhang, Qianru Sun. 23263-23272 [doi]

Free: Faster and Better Data-Free Meta-LearningYongxian Wei, Zixuan Hu, Zhenyi Wang, Li Shen 0008, Chun Yuan, Dacheng Tao. 23273-23282 [doi]

Classes Are Not Equal: An Empirical Study on Image Recognition FairnessJiequan Cui, Beier Zhu, Xin Wen, Xiaojuan Qi 0001, Bei Yu 0001, Hanwang Zhang. 23283-23292 [doi]

DAVE - A Detect-and-Verify Paradigm for Low-Shot CountingJer Pelhan, Alan Lukezic, Vitjan Zavrtanik, Matej Kristan. 23293-23302 [doi]

Density-guided Translator Boosts Synthetic-to-Real Unsupervised Domain Adaptive Segmentation of 3D Point CloudsZhimin Yuan, Wankang Zeng, Yanfei Su, Weiquan Liu, Ming Cheng 0002, Yulan Guo, Cheng Wang 0003. 23303-23312 [doi]

D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object DetectionDinh Phat Do, Taehoon Kim, Jaemin Na, Jiwon Kim, Keonho Lee, Kyunghwan Cho, Wonjun Hwang. 23313-23322 [doi]

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot LearningYuwei Tang, Zhenyi Lin, Qilong Wang, Pengfei Zhu 0001, Qinghua Hu. 23323-23333 [doi]

LEAD: Learning Decomposition for Source-free Universal Domain AdaptationSanqing Qu, Tianpei Zou, Lianghua He, Florian Röhrbein, Alois Knoll, Guang Chen 0001, Changjun Jiang. 23334-23343 [doi]

Improving Generalized Zero-Shot Learning by Exploring the Diverse Semantics from External Class NamesYapeng Li, Yong Luo 0002, Zengmao Wang, Bo Du 0001. 23344-23353 [doi]

What, How, and When Should Object Detectors Update in Continually Changing Test Domains?Jayeon Yoo, Dongkwan Lee, Inseop Chung, Donghyun Kim, Nojun Kwak. 23354-23363 [doi]

Split to Merge: Unifying Separated Modalities for Unsupervised Domain AdaptationXinyao Li, Yuke Li, Zhekai Du, Fengling Li, Ke Lu 0001, Jingjing Li 0001. 23364-23374 [doi]

Domain-Agnostic Mutual Prompting for Unsupervised Domain AdaptationZhekai Du, Xinyao Li, Fengling Li, Ke Lu 0001, Lei Zhu 0002, Jingjing Li 0001. 23375-23384 [doi]

Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised AdaptationHaojie Zhang, Yongyi Su, Xun Xu 0002, Kui Jia. 23385-23395 [doi]

DeiT-LT: Distillation Strikes Back for Vision Transformer Training on Long-Tailed DatasetsHarsh Rangwani, Pradipto Mondal, Pradipto Mondal, Mayank Mishra, Ashish Ramayee Asokan, R. Venkatesh Babu. 23396-23406 [doi]

Unified Language-Driven Zero-Shot Domain AdaptationSenqiao Yang, Zhuotao Tian, Li Jiang 0009, Jiaya Jia. 23407-23415 [doi]

Stable Neighbor Denoising for Source-free Domain Adaptive SegmentationDong Zhao, Shuang Wang 0001, Qi Zang, Licheng Jiao, Nicu Sebe, Zhun Zhong. 23416-23427 [doi]

A Simple Recipe for Language-Guided Domain Generalized SegmentationMohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette. 23428-23437 [doi]

TCP: Textual-Based Class-Aware Prompt Tuning for Visual-Language ModelHantao Yao, Rui Zhang 0040, Changsheng Xu. 23438-23448 [doi]

Adapters Strike BackJan-Martin O. Steitz, Stefan Roth 0001. 23449-23459 [doi]

Improving Plasticity in Online Continual Learning via Collaborative LearningMaorong Wang, Nicolas Michel, Ling Xiao 0001, Toshihiko Yamasaki. 23460-23469 [doi]

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale ApproachMir Rayat Imtiaz Hossain, Mennatullah Siam, Leonid Sigal, James J. Little. 23470-23480 [doi]

Adaptive Random Feature Regularization on Fine-tuning Deep Neural NetworksShin'ya Yamaguchi, Sekitoshi Kanai, Kazuki Adachi, Daiki Chijiwa. 23481-23490 [doi]

ESCAPE: Encoding Super-keypoints for Category-Agnostic Pose EstimationKhoi Duc Nguyen, Chen Li, Gim Hee Lee. 23491-23500 [doi]

PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain GeneralizationZining Chen, Weiqiu Wang, Zhicheng Zhao, Fei Su, Aidong Men, Hongying Meng. 23501-23511 [doi]

Rethinking Multi-Domain Generalization with A General Learning ObjectiveZhaorui Tan, Xi Yang 0008, Kaizhu Huang. 23512-23522 [doi]

L2B: Learning to Bootstrap Robust Models for Combating Label NoiseYuyin Zhou, Xianhang Li, Fengze Liu, QingYue Wei, Xuxi Chen, Lequan Yu, Cihang Xie, Matthew P. Lungren, Lei Xing 0001. 23523-23533 [doi]

Meta-Point Learning and Refining for Category-Agnostic Pose EstimationJunjie Chen, Jiebin Yan, Yuming Fang, Li Niu 0002. 23534-23543 [doi]

A2XP: Towards Private Domain GeneralizationGeunhyeok Yu, Hyoseok Hwang. 23544-23553 [doi]

Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental LearningDa-Wei Zhou 0001, Hai-Long Sun, Han-Jia Ye, De-Chuan Zhan. 23554-23564 [doi]

VRP-SAM: SAM with Visual Reference PromptYanpeng Sun, Jiahui Chen, Shan Zhang, Xinyu Zhang 0017, Qiang Chen 0007, Gang Zhang, Errui Ding, Jingdong Wang 0001, Zechao Li. 23565-23574 [doi]

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot LearningYixiong Zou, Yicong Liu, Yiman Hu, Yuhua Li 0003, Ruixuan Li 0001. 23575-23584 [doi]

MAP: MAsk-Pruning for Source-Free Model Intellectual Property ProtectionBoyang Peng, Sanqing Qu, Yong Wu, Tianpei Zou, Lianghua He, Alois Knoll, Guang Chen 0001, Changjun Jiang. 23585-23594 [doi]

Disentangled Prompt Representation for Domain GeneralizationDe Cheng, Zhipeng Xu, Xinyang Jiang, Nannan Wang 0001, Dongsheng Li, Xinbo Gao 0001. 23595-23604 [doi]

Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot SegmentationJonas Herzog. 23605-23615 [doi]

Convolutional Prompting meets Language Models for Continual LearningAnurag Roy, Riddhiman Moulick, Vinay Kumar Verma, Saptarshi Ghosh 0001, Abir Das. 23616-23626 [doi]

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot LearningWenjin Hou, Shiming Chen 0002, Shuhuang Chen, Ziming Hong, Yan Wang, Xuetao Feng, Salman H. Khan 0001, Fahad Shahbaz Khan, Xinge You. 23627-23637 [doi]

InfLoRA: Interference-Free Low-Rank Adaptation for Continual LearningYan-Shuo Liang, Wu-Jun Li. 23638-23647 [doi]

Discriminative Pattern Calibration Mechanism for Source-Free Domain AdaptationHaifeng Xia, Siyu Xia, Zhengming Ding. 23648-23658 [doi]

NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental LearningMustafa Burak Gurbuz, Jean Michael Moorman, Constantine Dovrolis. 23659-23669 [doi]

Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision and Reverse Self-DistillationHongwei Yan, Liyuan Wang, Kaisheng Ma, Yi Zhong. 23670-23680 [doi]

A Closer Look at the Few-Shot Adaptation of Large Vision-Language ModelsJulio Silva-Rodríguez, Sina Hajimiri, Ismail Ben Ayed, Jose Dolz. 23681-23690 [doi]

Towards Generalizing to Unseen Domains with Few LabelsChamuditha Jayanga Galappaththige, Sanoojan Baliah, Malitha Gunawardhana, Muhammad Haris Khan. 23691-23700 [doi]

Improved Self-Training for Test-Time AdaptationJing Ma. 23701-23710 [doi]

Source-Free Domain Adaptation with Frozen Multimodal Foundation ModelSong Tang 0001, Wenxin Su, Mao Ye 0001, Xiatian Zhu. 23711-23720 [doi]

Deep Imbalanced Regression via Hierarchical Classification AdjustmentHaipeng Xiong, Angela Yao. 23721-23730 [doi]

A Versatile Framework for Continual Test-Time Domain Adaptation: Balancing Discriminability and GeneralizabilityXu Yang, Xuan Chen, Moqi Li, Kun Wei, Cheng Deng. 23731-23740 [doi]

DYSON: Dynamic Feature Space Self-Organization for Online Task-Free Class Incremental LearningYuhang He, Yingjie Chen, Yuhan Jin, Songlin Dong, Xing Wei 0001, Yihong Gong. 23741-23751 [doi]

Test-Time Linear Out-of-Distribution DetectionKe-fan, Tong Liu, Xingyu Qiu, Yikai Wang 0002, Lian Huai, Zeyu Shangguan, Shuang Gou, Fengjian Liu, Yuqian Fu, Yanwei Fu 0001, Xingqun Jiang. 23752-23761 [doi]

APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic SegmentationWeizhao He, Yang Zhang 0012, Wei Zhuo, LinLin Shen, Jiaqi Yang, Songhe Deng, Liang Sun. 23762-23772 [doi]

LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIPYunshi Huang, Fereshteh Shakeri, Jose Dolz, Malik Boudiaf, Houda Bahig, Ismail Ben Ayed. 23773-23782 [doi]

On the Test-Time Zero-Shot Generalization of Vision-Language Models: Do we Really need Prompt Learning?Maxime Zanella, Ismail Ben Ayed. 23783-23793 [doi]

Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot LearningRashindrie Perera, Saman K. Halgamuge. 23794-23804 [doi]

Regularized Parameter Uncertainty for Improving Generalization in Reinforcement LearningPehuen Moure, Longbiao Cheng, Joachim Ott, Zuowen Wang, Shih-Chii Liu. 23805-23814 [doi]

An Empirical Study of the Generalization Ability of Lidar 3D Object Detectors to Unseen DomainsGeorge Eskandar. 23815-23825 [doi]

MMA: Multi-Modal Adapter for Vision-Language ModelsLingxiao Yang, Ru-Yuan Zhang, Yanchen Wang, Xiaohua Xie. 23826-23837 [doi]

Perada: Parameter-Efficient Federated Learning Personalization with Generalization GuaranteesChulin Xie, De-An Huang, Wenda Chu, Daguang Xu, Chaowei Xiao, Bo Li 0026, Anima Anandkumar. 23838-23848 [doi]

Bayesian Exploration of Pre-Trained Models for Low-Shot Image ClassificationYibo Miao, Yu Lei, Feng Zhou, Zhijie Deng. 23849-23859 [doi]

NAYER: Noisy Layer Data Generation for Efficient and Effective Data-free Knowledge DistillationMinh Tuan Tran, Trung Le, Xuan-May Thi Le, Mehrtash Harandi, Quan Hung Tran, Dinh Q. Phung. 23860-23869 [doi]

Text-Enhanced Data-Free Approach for Federated Class-Incremental LearningMinh Tuan Tran, Trung Le, Xuan-May Le, Mehrtash Harandi, Dinh Phung 0001. 23870-23880 [doi]

Pre-trained Vision and Language Transformers are Few-Shot Incremental LearnersKeon Hee Park, Kyungwoo Song, Gyeong-Moon Park. 23881-23890 [doi]

CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised LearningHyuck Lee, Heeyoung Kim. 23891-23900 [doi]

TEA: Test-Time Energy AdaptationYige Yuan, Bingbing Xu, Liang Hou, Fei Sun 0001, Huawei Shen, Xueqi Cheng. 23901-23911 [doi]

Universal Semi-Supervised Domain Adaptation by Mitigating Common-Class BiasWenyu Zhang 0003, Qingmu Liu, Felix Ong Wei Cong, Mohamed Ragab 0002, Chuan-Sheng Foo. 23912-23921 [doi]

Leveraging Vision-Language Models for Improving Domain Generalization in Image ClassificationSravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu. 23922-23932 [doi]

Learning Equi-Angular Representations for Online Continual LearningMinhyuk Seo, Hyunseo Koh, Wonje Jeung, MinJae Lee, San Kim, Hankook Lee, Sungjun Cho, SungIk Choi, Hyunwoo Kim, Jonghyun Choi. 23933-23942 [doi]

Open-Set Domain Adaptation for Semantic SegmentationSeun-An Choe, Ah-Hyung Shin, Keon Hee Park, Jinwoo Choi 0001, Gyeong-Moon Park. 23943-23953 [doi]

Task-Adaptive Saliency Guidance for Exemplar-Free Class Incremental LearningXialei Liu, Jiang-Tian Zhai, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng. 23954-23963 [doi]

Progressive Semantic-Guided Vision Transformer for Zero-Shot LearningShiming Chen 0002, Wenjin Hou, Salman H. Khan 0001, Fahad Shahbaz Khan. 23964-23974 [doi]

Unified Entropy Optimization for Open-Set Test-Time AdaptationZhengqing Gao, Xu-Yao Zhang, Cheng-Lin Liu 0001. 23975-23984 [doi]

FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-TuningRishub Tamirisa, Chulin Xie, Wenxuan Bao, Andy Zhou, Ron Arel, Aviv Shamsian. 23985-23994 [doi]

Dual-Enhanced Coreset Selection with Class-Wise Collaboration for Online Blurry Class Incremental LearningYutian Luo, Shiqi Zhao, Haoran Wu, Zhiwu Lu 0001. 23995-24004 [doi]

Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot LearningSiteng Huang, Biao Gong, Yutong Feng, Min Zhang, Yiliang Lv, Donglin Wang. 24005-24014 [doi]

Unveiling the Unknown: Unleashing the Power of Unknown to Known in Open-Set Source-Free Domain AdaptationFuli Wan, Han Zhao, Xu Yang, Cheng Deng. 24015-24024 [doi]

Dual-Consistency Model Inversion for Non-Exemplar Class Incremental LearningZihuan Qiu, Yi Xu, Fanman Meng, Hongliang Li 0001, Linfeng Xu 0001, Qingbo Wu 0001. 24025-24035 [doi]

Domain-Rectifying Adapter for Cross-Domain Few-Shot SegmentationJiapeng Su, Qi Fan, Wenjie Pei, Guangming Lu, Fanglin Chen 0001. 24036-24045 [doi]

Overcoming Generic Knowledge Loss with Selective Parameter UpdateWenxuan Zhang, Paul Janson, Rahaf Aljundi, Mohamed Elhoseiny. 24046-24056 [doi]

BrainWash: A Poisoning Attack to Forget in Continual LearningAli Abbasi, Parsa Nooralinejad, Hamed Pirsiavash, Soheil Kolouri. 24057-24066 [doi]

Enhancing Visual Continual Learning with Language-Guided SupervisionBolin Ni, Hongbo Zhao 0006, Chenghao Zhang, Ke Hu, Gaofeng Meng, Zhaoxiang Zhang 0001, Shiming Xiang. 24068-24077 [doi]

LDP: Language-driven Dual-Pixel Image Defocus Deblurring NetworkHao Yang, Liyuan Pan, Yan Yang, Richard I. Hartley, Miaomiao Liu 0001. 24078-24087 [doi]

2MVTC: A Simple Yet Efficient Scalable Multi-View Tensor ClusteringZhen Long, Qiyuan Wang, Yazhou Ren 0001, Yipeng Liu 0001, Ce Zhu. 24088-24097 [doi]

Task-Driven Wavelets Using Constrained Empirical Risk MinimizationEric Marcus, Ray Sheombarsing, Jan-Jakob Sonke, Jonas Teuwen. 24098-24107 [doi]

Image Processing GNN: Breaking Rigidity in Super-ResolutionYuchuan Tian, Hanting Chen, Chao Xu 0006, Yunhe Wang 0001. 24108-24117 [doi]

DART: Implicit Doppler Tomography for Radar Novel View SynthesisTianshu Huang, John Miller 0002, Akarsh Prabhakara, Tao Jin, Tarana Laroia, Zico Kolter, Anthony Rowe 0001. 24118-24129 [doi]

Alchemist: Parametric Control of Material Properties with Diffusion ModelsPrafull Sharma, Varun Jampani, Yuanzhen Li, Xuhui Jia, Dmitry Lagun, Frédo Durand, Bill Freeman, Mark J. Matthews. 24130-24141 [doi]

Generative Image DynamicsZhengqi Li, Richard Tucker 0001, Noah Snavely, Aleksander Holynski. 24142-24153 [doi]

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion ModelsDaniel Geng, Inbum Park, Andrew Owens. 24154-24163 [doi]

MonoHair: High-Fidelity Hair Modeling from a Monocular VideoKeyu Wu, Lingchen Yang, Zhiyi Kuang, Yao Feng, Xutao Han, Yuefan Shen, Hongbo Fu 0001, Kun Zhou 0001, Youyi Zheng. 24164-24173 [doi]

Analyzing and Improving the Training Dynamics of Diffusion ModelsTero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine. 24174-24184 [doi]

Intern VL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic TasksZhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su 0002, Guo Chen 0006, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li 0025, Ping Luo 0002, Tong Lu, Yu Qiao 0001, Jifeng Dai. 24185-24198 [doi]

Describing Differences in Image Sets with Natural LanguageLisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy. 24199-24208 [doi]

NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion ModelsYusuf Dalva, Pinar Yanardag. 24209-24218 [doi]

MetaCloak: Preventing Unauthorized Subject-Driven Text-to-Image Diffusion-Based Synthesis via Meta-LearningYixin Liu 0002, Chenrui Fan, Yutong Dai 0002, Xun Chen, Pan Zhou 0001, Lichao Sun 0001. 24219-24228 [doi]

EGTR: Extracting Graph from Transformer for Scene Graph GenerationJinbae Im, JeongYeon Nam, Nokyung Park, Hyungmin Lee, Seunghyun Park. 24229-24238 [doi]

BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIPJiawang Bai, Kuofeng Gao, Shaobo Min, Shu-Tao Xia, Zhifeng Li 0001, Wei Liu 0005. 24239-24250 [doi]

Semantic-Aware Multi-Label Adversarial AttacksHassan Mahmood, Ehsan Elhamifar. 24251-24262 [doi]

Defense without Forgetting: Continual Adversarial Defense with Anisotropic & Isotropic Pseudo ReplayYuhang Zhou, Zhongyun Hua. 24263-24272 [doi]

Learning to Transform Dynamically for Better Adversarial TransferabilityRongyi Zhu, Zeliang Zhang, Zhuo Liu, Chenliang Xu, Susan Liang. 24273-24283 [doi]

Infrared Adversarial Car StickersXiaopei Zhu, Yuqiu Liu, Zhanhao Hu, Jianmin Li 0001, Xiaolin Hu 0001. 24284-24293 [doi]

Unsegment Anything by Simulating DeformationJiahao Lu, Xingyi Yang, Xinchao Wang. 24294-24304 [doi]

Efficient Model Stealing Defense with Noise Transition MatrixDong-Dong Wu, Chilin Fu, Weichang Wu, Wenwen Xia, Xiaolu Zhang, Jun Zhou 0011, Min-Ling Zhang. 24305-24315 [doi]

Fully Exploiting Every Real Sample: SuperPixel Sample Gradient Model StealingYunlong Zhao, Xiaoheng Deng, Yijing Liu, Xinjun Pei, Jiazhi Xia, Wei Chen 0001. 24316-24325 [doi]

Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point CloudsTianrui Lou, Xiaojun Jia, Jindong Gu, Li Liu 0002, Siyuan Liang, Bangyan He, Xiaochun Cao. 24326-24335 [doi]

Boosting Adversarial Transferability by Block Shuffle and RotationKunyu Wang, Xuanran He, Wenxuan Wang, Xiaosen Wang. 24336-24346 [doi]

Robust Overfitting Does Matter: Test-Time Adversarial Purification with FGSMLinyu Tang, Lei Zhang. 24347-24356 [doi]

Data Poisoning Based Backdoor Attacks to Contrastive LearningJinghuai Zhang, Hongbin Liu 0005, Jinyuan Jia 0001, Neil Zhenqiang Gong. 24357-24366 [doi]

NAPGuard: Towards Detecting Naturalistic Adversarial PatchesSiyang Wu, Jiakai Wang, Jiejie Zhao, Yazhe Wang, Xianglong Liu 0001. 24367-24376 [doi]

Ensemble Diversity Facilitates Adversarial TransferabilityBowen Tang, Zheng Wang 0044, Yi Bin, Qi Dou 0001, Yang Yang, Heng Tao Shen. 24377-24386 [doi]

Revamping Federated Learning Security from a Defender's Perspective: A Unified Defense with Homomorphic Encrypted Data SpaceK. Naveen Kumar, Reshmi Mitra, C. Krishna Mohan. 24387-24397 [doi]

Can Protective Perturbation Safeguard Personal Data from Being Exploited by Stable Diffusion?Zhengyue Zhao, Jinhao Duan, Kaidi Xu, Chenan Wang, Rui Zhang 0040, Zidong Du, Qi Guo 0001, Xing Hu 0001. 24398-24407 [doi]

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-Trained Vision-Language ModelsLin Li, Haoyan Guan, Jianing Qiu, Michael W. Spratling. 24408-24419 [doi]

Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion ModelsPeifei Zhu, Tsubasa Takahashi 0001, Hirokatsu Kataoka. 24420-24430 [doi]

Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision TransfomersSheng Yang, Jiawang Bai, Kuofeng Gao, Yong Yang 0001, Yiming Li 0004, Shu-Tao Xia. 24431-24441 [doi]

Focus on Hiders: Exploring Hidden Threats for Enhancing Adversarial TrainingQian Li, Yuxiao Hu 0003, Yinpeng Dong, Dongxiao Zhang, Yuntian Chen. 24442-24451 [doi]

Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous DrivingJunhao Zheng, Chenhao Lin, Jiahao Sun, Zhengyu Zhao 0001, Qian Li 0024, Chao Shen 0001. 24452-24461 [doi]

Distraction is All You Need: Memory-Efficient Image Immunization against Diffusion-Based Image EditingLing Lo, Cheng Yu Yeo, Hong-Han Shuai, Wen-Huang Cheng. 24462-24471 [doi]

PAD: Patch-Agnostic Defense against Adversarial Patch AttacksLihua Jing, Rui Wang 0032, Wenqi Ren, Xin Dong, Cong Zou. 24472-24481 [doi]

PeerAiD: Improving Adversarial Distillation from a Specialized Peer TutorJaewon Jung 0001, Hongsun Jang, Jaeyong Song, Jinho Lee. 24482-24491 [doi]

Revisiting Adversarial Training Under Long-Tailed DistributionsXinli Yue, Ningping Mou, Qian Wang, Lingchen Zhao. 24492-24501 [doi]

Pre-Trained Model Guided Fine-Tuning for Zero-Shot Adversarial RobustnessSibo Wang 0012, Jie Zhang 0071, Zheng Yuan 0005, Shiguang Shan. 24502-24511 [doi]

Towards Transferable Targeted 3D Adversarial Attack in the Physical WorldYao Huang, Yinpeng Dong, Shouwei Ruan, Xiao Yang, Hang Su, Xingxing Wei. 24512-24522 [doi]

Nearest is Not Dearest: Towards Practical Defense Against Quantization-Conditioned Backdoor AttacksBoheng Li, Yishuo Cai, Haowei Li, Feng Xue, Zhifeng Li, Yiming Li. 24523-24533 [doi]

Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion ModelsJingyao Xu, Yuetong Lu, Yandong Li, Siyang Lu, Dongdong Wang, Xiang Wei 0007. 24534-24543 [doi]

Boosting Adversarial Training via Fisher-Rao Norm-Based RegularizationXiangyu Yin, Wenjie Ruan. 24544-24553 [doi]

Random Entangled Tokens for Adversarially Robust Vision TransformerHuihui Gong, Minjing Dong, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu 0002. 24554-24563 [doi]

Backdoor Defense via Test-Time Detecting and RepairingJiyang Guan, Jian Liang, Ran He 0001. 24564-24573 [doi]

1-Lipschitz Layers Compared: Memory, Speed, and Certifiable RobustnessBernd Prach, Fabio Brau, Giorgio C. Buttazzo, Christoph H. Lampert. 24574-24583 [doi]

DiffAM: Diffusion-Based Adversarial Makeup Transfer for Facial Privacy ProtectionYuhao Sun, Lingyun Yu 0002, Hongtao Xie, Jiaming Li, Yongdong Zhang 0001. 24584-24594 [doi]

DAP: A Dynamic Adversarial Patch for Evading Person DetectorsAmira Guesmi, Ruitian Ding, Muhammad Abdullah Hanif, Ihsen Alouani, Muhammad Shafique 0001. 24595-24604 [doi]

Adversarial Distillation Based on Slack Matching and Attribution Region AlignmentShenglin Yin, Zhen Xiao, Mingxuan Song, Jieyi Long. 24605-24614 [doi]

Improving Transferable Targeted Adversarial Attacks with Model Self-EnhancementHan Wu, Guanyan Ou, Weibin Wu 0002, Zibin Zheng. 24615-24624 [doi]

On the Robustness of Large Multimodal Models Against Image Adversarial AttacksXuanming Cui, Alejandro Aparcedo, Young-Kyun Jang, Ser-Nam Lim. 24625-24634 [doi]

Intriguing Properties of Diffusion Models: An Empirical Study of the Natural Attack Capability in Text-to-Image Generative ModelsTakami Sato, Justin Yue, Nanze Chen, Ningfei Wang, Qi Alfred Chen. 24635-24644 [doi]

BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive LearningSiyuan Liang, Mingli Zhu, Aishan Liu, Baoyuan Wu, Xiaochun Cao, Ee-Chien Chang. 24645-24654 [doi]

MMCert: Provable Defense Against Adversarial Attacks to Multi-Modal ModelsYanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia 0001. 24655-24664 [doi]

MimicDiffusion: Purifying Adversarial Perturbation via Mimicking Clean Diffusion ModelKaiyu Song, Hanjiang Lai, Yan Pan, Jian Yin 0001. 24665-24674 [doi]

Revisiting Adversarial Training at ScaleZeyu Wang 0008, Xianhang Li, Hongru Zhu, Cihang Xie. 24675-24685 [doi]

Language-Driven Anchors for Zero-Shot Adversarial RobustnessXiao Li 0028, Wei Zhang, Yining Liu, Zhanhao Hu, Bo Zhang 0010, Xiaolin Hu 0001. 24686-24695 [doi]

Transferable Structural Sparse Adversarial Attack Via Exact Group Sparsity TrainingDi Ming, Peng Ren, Yunlong Wang, Xin Feng. 24696-24705 [doi]

Fooling Polarization-Based Vision Using Locally Controllable Polarizing ProjectionZhuoxiao Li, Zhihang Zhong, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng. 24706-24715 [doi]

Overload: Latency Attacks on Object Detection for Edge DevicesErh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-Rung Lee. 24716-24725 [doi]

Attack To Defend: Exploiting Adversarial Attacks for Detecting Poisoned ModelsSamar Fares, Karthik Nandakumar. 24726-24735 [doi]

Towards Understanding and Improving Adversarial Robustness of Vision TransformersSamyak Jain, Tanima Dutta. 24736-24745 [doi]

Towards Fairness-Aware Adversarial LearningYanghao Zhang, Tianle Zhang, Ronghui Mu, Xiaowei Huang 0001, Wenjie Ruan. 24746-24755 [doi]

Byzantine-robust Decentralized Federated Learning via Dual-domain Clustering and Trust BootstrappingPeng Sun, Xinyang Liu, Zhibo Wang, Bo Liu. 24756-24765 [doi]

Towards General Robustness Verification of MaxPool-Based Convolutional Neural Networks via Tightening Linear ApproximationYuan Xiao 0003, ShiQing Ma, Juan Zhai, Chunrong Fang, Jinyuan Jia 0001, Zhenyu Chen 0001. 24766-24775 [doi]

Soften to Defend: Towards Adversarial Robustness via Self-Guided Label RefinementZhuorong Li, Daiwei Yu, Lina Wei, Canghong Jin, Yun Zhang, Sixian Chan. 24776-24785 [doi]

SlowFormer: Adversarial Attack on Compute and Energy Consumption of Efficient Vision TransformersK. L. Navaneet, Soroush Abbasi Koohpayegani, Essam Sleiman, Hamed Pirsiavash. 24786-24797 [doi]

Lotus: Evasive and Resilient Backdoor Attacks through Sub-PartitioningSiyuan Cheng 0005, Guanhong Tao 0001, Yingqi Liu, Guangyu Shen, Shengwei An, Shiwei Feng 0002, Xiangzhe Xu, Kaiyuan Zhang 0002, ShiQing Ma, Xiangyu Zhang 0001. 24798-24809 [doi]

Deep-TROJ: An Inference Stage Trojan Insertion Algorithm Through Efficient Weight Replacement AttackSabbir Ahmed, Ranyang Zhou, Shaahin Angizi, Adnan Siraj Rakin. 24810-24819 [doi]

Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-Grained Knowledge AlignmentAlvi Md. Ishmam, Christopher Thomas 0004. 24820-24830 [doi]

Initialization Matters for Adversarial Transfer LearningAndong Hua, Jindong Gu, Zhiyu Xue, Nicholas Carlini, Eric Wong 0001, Yao Qin 0001. 24831-24840 [doi]

Strong Transferable Adversarial Attacks via Ensembled Asymptotically Normal Distribution LearningZhengwei Fang, Rui Wang, Tao Huang, Liping Jing. 24841-24850 [doi]

HDRFlow: Real-Time HDR Video Reconstruction with Large MotionsGangwei Xu, Yujin Wang, Jinwei Gu, Tianfan Xue, Xin Yang. 24851-24860 [doi]

A Physics-Informed Low-Rank Deep Neural Network for Blind and Universal Lens Aberration CorrectionJin Gong, Runzhao Yang, Weihang Zhang, Jinli Suo, Qionghai Dai. 24861-24870 [doi]

Super-Resolution Reconstruction from Bayer-Pattern Spike StreamsYanchen Dong 0001, Ruiqin Xiong, Jian Zhang 0018, Zhaofei Yu, Xiaopeng Fan, Shuyuan Zhu, Tiejun Huang 0001. 24871-24880 [doi]

In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral ImagingXin Wang, Lizhi Wang, Xiangtian Ma, Maoqing Zhang, Lin Zhu, Hua Huang. 24881-24891 [doi]

SuperSVG: Superpixel-Based Scalable Vector Graphics SynthesisTeng Hu, Ran Yi, Baihong Qian, Jiangning Zhang, Paul L. Rosin, Yu-Kun Lai. 24892-24901 [doi]

Language-driven All-in-one Adverse Weather RemovalHao Yang, Liyuan Pan, Yan Yang, Wei Liang. 24902-24912 [doi]

Language-guided Image Reflection SeparationHaofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi. 24913-24922 [doi]

Time-Efficient Light-Field Acquisition Using Coded Aperture and EventsShuji Habuchi, Keita Takahashi 0001, Chihiro Tsutake, Toshiaki Fujii, Hajime Nagahara. 24923-24933 [doi]

NB-GTR: Narrow-Band Guided Turbulence RemovalYifei Xia, Chu Zhou, Chengxuan Zhu, Minggui Teng, Chao Xu, Boxin Shi. 24934-24943 [doi]

Complementing Event Streams and RGB Frames for Hand Mesh ReconstructionJianping Jiang, Xinyu Zhou, Bingxuan Wang, Xiaoming Deng 0001, Chao Xu, Boxin Shi. 24944-24954 [doi]

Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike FluctuationsRui Zhao 0010, Ruiqin Xiong, Jing Zhao 0011, Jian Zhang 0018, Xiaopeng Fan, Zhaofei Yu, Tiejun Huang 0001. 24955-24965 [doi]

Frequency-Aware Event-Based Video Deblurring for Real-World Motion BlurTaewoo Kim 0003, Hoonhee Cho, Kuk-Jin Yoon. 24966-24976 [doi]

Latency Correction for Event-Guided Deblurring and Frame InterpolationYixin Yang, Jinxiu Liang, Bohan Yu, Yan Chen, Jimmy S. Ren, Boxin Shi. 24977-24986 [doi]

Learning to Remove Wrinkled Transparent Film with Polarized PriorJiaqi Tang 0005, Ruizheng Wu, Xiaogang Xu, Sixing Hu, Ying-Cong Chen. 24987-24996 [doi]

Dispersed Structured Light for Hyperspectral 3D ImagingSuhyun Shin, Seokjun Choi, Felix Heide, Seung-Hwan Baek. 24997-25006 [doi]

Generalized Event CamerasVarun Sundar, Matthew Dutson, Andrei Ardelean, Claudio Bruschini, Edoardo Charbon, Mohit Gupta 0001. 25007-25017 [doi]

Intensity-Robust Autofocus for Spike CameraChangqing Su, Zhiyuan Ye, Yongsheng Xiao, You Zhou, Zhen Cheng, Bo Xiong, Zhaofei Yu, Tiejun Huang 0001. 25018-25027 [doi]

Selective Nonlinearities Removal from Digital SignalsKrzysztof A. Maliszewski, Magdalena A. Urbanska, Varvara Vetrova, Sylwia M. Kolenderska. 25028-25036 [doi]

Close Imitation of Expert Retouching for Black-and-White PhotographySeungHyun Shin, Jihwan Bae, Jisu Shin, Inwook Shim, Hae-Gon Jeon. 25037-25046 [doi]

Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal AlignmentJiyuan Zhang, Shiyan Chen, Yajing Zheng, Zhaofei Yu, Tiejun Huang 0001. 25047-25057 [doi]

Coherence as Texture - Passive Textureless 3D Reconstruction by Self-InterferenceWei-Yu Chen, Aswin C. Sankaranarayanan, Anat Levin, Matthew O'Toole. 25058-25066 [doi]

TurboSL: Dense, Accurate and Fast 3D by Neural Inverse Structured LightParsa Mirdehghan, Maxx Wu, Wenzheng Chen, David B. Lindell, Kiriakos N. Kutulakos. 25067-25076 [doi]

SPIDeRS: Structured Polarization for Invisible Depth and Reflectance SensingTomoki Ichikawa, Shohei Nobuhara, Ko Nishino. 25077-25085 [doi]

CPP-Net: Embracing Multi-Scale Feature Fusion into Deep Unfolding CP-PPA Network for Compressive SensingZhen Guo, Hongping Gan. 25086-25095 [doi]

SwitchLight: Co-Design of Physics-Driven Architecture and Pre-training Framework for Human Portrait RelightingHoon Kim, Minje Jang, Wonjun Yoon, Jisoo Lee, Donghyun Na, Sanghyun Woo. 25096-25106 [doi]

Diffeomorphic Template Registration for Atmospheric Turbulence MitigationDong Lao, Congli Wang, Alex Wong 0001, Stefano Soatto. 25107-25116 [doi]

Towards HDR and HFR Video from Rolling-Mixed-Bit SpikingsYakun Chang, Yeliduosi Xiaokaiti, Yujia Liu, Bin Fan, Zhaojun Huang, Tiejun Huang 0001, Boxin Shi. 25117-25127 [doi]

Progressive Divide-and-Conquer via Subsampling Decomposition for Accelerated MRIChong Wang, Lanqing Guo, Yufei Wang, Hao Cheng, Yi Yu, Bihan Wen. 25128-25137 [doi]

Generative Quanta Color ImagingVishal Purohit, Junjie Luo 0009, Yiheng Chi, Qi Guo, Stanley H. Chan, Qiang Qiu. 25138-25148 [doi]

UFC-Net: Unrolling Fixed-point Continuous Network for Deep Compressive SensingXiaoyang Wang, Hongping Gan. 25149-25159 [doi]

Batch Normalization Alleviates the Spectral Bias in Coordinate NetworksZhicheng Cai, Hao Zhu 0004, Qiu Shen, Xinran Wang, Xun Cao. 25160-25171 [doi]

EVS-Assisted Joint Deblurring, Rolling-Shutter Correction and Video Frame Interpolation Through Sensor Inverse ModelingRui Jiang, Fangwen Tu, Yixuan Long, Aabhaas Vaish, Bowen Zhou, Qinyi Wang, Wei Zhang, Yuntan Fang, Luis Eduardo Garcia Capel, Bo Mu, Tiejun Dai, Andreas Suess. 25172-25181 [doi]

Unsupervised Deep Unrolling Networks for Phase UnwrappingZhile Chen, Yuhui Quan, Hui Ji. 25182-25192 [doi]

LAN: Learning to Adapt Noise for Image DenoisingChangjin Kim, Tae Hyun Kim 0006, Sungyong Baik. 25193-25202 [doi]

Snapshot Lidar: Fourier Embedding of Amplitude and Phase for Single-Image Depth ReconstructionSarah Friday, Yunzi Shi, Yaswanth Cherivirala, Vishwanath Saragadam, Adithya Pediredla. 25203-25212 [doi]

FC-GNN: Recovering Reliable and Accurate Correspondences from InterferencesHaobo Xu, Jun Zhou, Hua Yang, Renjie Pan, Cunyan Li. 25213-25222 [doi]

Projecting Trackable Thermal Patterns for Dynamic Computer VisionMark Sheinin, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan. 25223-25232 [doi]

PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized Perception with Neural SensorsHaley M. So, Laurie Bose, Piotr Dudek, Gordon Wetzstein. 25233-25244 [doi]

Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned GuidanceTomer Garber, Tom Tirer. 25245-25254 [doi]

Equivariant Plug-and-Play Image ReconstructionMatthieu Terris, Thomas Moreau 0001, Nelly Pustelnik, Julián Tachella. 25255-25264 [doi]

CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event CamerasSachin Shah, Matthew A. Chan 0002, Haoming Cai, Jingxi Chen, Sakshum Kulshrestha, Chahat Deep Singh, Yiannis Aloimonos, Christopher A. Metzler. 25265-25275 [doi]

WaveMo: Learning Wavefront Modulations to See Through ScatteringMingyang Xie, Haiyun Guo, Brandon Y. Feng, Lingbo Jin, Ashok Veeraraghavan, Christopher A. Metzler. 25276-25285 [doi]

Turb-Seg-Res: A Segment-then-Restore Pipeline for Dynamic Videos with Atmospheric TurbulenceRipon Kumar Saha, Dehao Qin, Nianyi Li, Jinwei Ye, Suren Jayasuriya. 25286-25296 [doi]

DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral Diffusion ModelZhenghao Pan, Haijin Zeng, Jiezhang Cao, Kai Zhang 0008, Yongyong Chen. 25297-25306 [doi]

Resolution Limit of Single-Photon LiDARStanley H. Chan, Hashan K. Weerasooriya, Weijian Zhang, Pamela Abshire, István Gyöngy, Robert K. Henderson. 25307-25316 [doi]

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT ReconstructionIshak Ayad, Nicolas Larue, Maï K. Nguyen. 25317-25326 [doi]

Dual-Scale Transformer for Large-Scale Single-Pixel ImagingGang Qu, Ping Wang, Xin Yuan. 25327-25337 [doi]

Rolling Shutter Correction with Intermediate Distortion Flow EstimationMingdeng Cao, Sidi Yang, Yujiu Yang, Yinqiang Zheng. 25338-25347 [doi]

Passive Snapshot Coded Aperture Dual-Pixel RGB-D ImagingBhargav Ghanekar, Salman Siddique Khan, Pranav Sharma, Shreyas Singh, Vivek Boominathan, Kaushik Mitra, Ashok Veeraraghavan. 25348-25357 [doi]

Single View Refractive Index Tomography with Neural FieldsBrandon Zhao, Aviad Levis, Liam Connor, Pratul P. Srinivasan, Katherine L. Bouman. 25358-25367 [doi]

SPECAT: SPatial-spEctral Cumulative-Attention Transformer for High-Resolution Hyperspectral Image ReconstructionZhiyang Yao, Shuyang Liu, Xiaoyun Yuan, Lu Fang 0001. 25368-25377 [doi]

Fourier Priors-Guided Diffusion for Zero-Shot Joint Low-Light Enhancement and DeblurringXiaoqian Lv, Shengping Zhang, Chenyang Wang, Yichen Zheng, Bineng Zhong, Chongyi Li, Liqiang Nie. 25378-25388 [doi]

Color Shift Estimation-and-Correction for Image EnhancementYiyu Li, Ke Xu 0010, Gerhard Petrus Hancke, Rynson W. H. Lau. 25389-25398 [doi]

Video Super-Resolution Transformer with Masked Inter&Intra-Frame AttentionXingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu. 25399-25408 [doi]

Distilling Semantic Priors from SAM to Efficient Image Restoration ModelsQuan Zhang, Xiaoyu Liu, Wei Li 0002, Hanting Chen, Junchao Liu, Jie Hu 0021, Zhiwei Xiong, Chun Yuan, Yunhe Wang 0001. 25409-25419 [doi]

Beyond Average: Individualized Visual Scanpath PredictionXianyu Chen, Ming Jiang 0019, Qi Zhao 0001. 25420-25431 [doi]

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image RestorationYuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He 0001. 25432-25444 [doi]

Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion ModelDian Zheng, Xiao-Ming Wu 0002, Shuzhou Yang, Jian Zhang, Jian-Fang Hu, Wei-Shi Zheng 0001. 25445-25455 [doi]

SeeSR: Towards Semantics-Aware Real-World Image Super-ResolutionRongyuan Wu, Tao Yang, Lingchen Sun, Zhengqiang Zhang, Shuai Li 0014, Lei Zhang 0006. 25456-25467 [doi]

Revisiting Single Image Reflection Removal in the WildYurui Zhu, Xueyang Fu, Peng-Tao Jiang, Hao Zhang, Qibin Sun, Jinwei Chen, Zheng-Jun Zha, Bo Li. 25468-25478 [doi]

ODCR: Orthogonal Decoupling Contrastive Regularization for Unpaired Image DehazingZhongze Wang, Haitao Zhao 0002, Jingchao Peng, Lujian Yao, Kaijie Zhao. 25479-25489 [doi]

Q-Instruct: Improving Low-Level Visual Abilities for Multi-Modality Foundation ModelsHaoning Wu 0001, Zicheng Zhang, Erli Zhang 0001, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin. 25490-25500 [doi]

Enhancing Quality of Compressed Images by Mitigating Enhancement Bias Towards Compression DomainQunliang Xing, Mai Xu, Shengxi Li, Xin Deng 0002, Meisong Zheng, Huaida Liu, Ying Chen. 25501-25511 [doi]

Attentive Illumination Decomposition Model for Multi-Illuminant White BalancingDongyoung Kim, Jinwoo Kim, Junsang Yu, Seon Joo Kim. 25512-25521 [doi]

NightCC: Nighttime Color Constancy via Adaptive Channel MaskingShuwei Li, Robby T. Tan. 25522-25531 [doi]

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super ResolutionHongjun Wang 0007, Jiyuan Chen, Yinqiang Zheng, Tieyong Zeng. 25532-25543 [doi]

Learning Inclusion Matching for Animation Paint Bucket ColorizationYuekun Dai, Shangchen Zhou, Qinyue Li, Chongyi Li, Chen Change Loy. 25544-25553 [doi]

Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm RegularizationYujia Liu, Chenxi Yang, Dingquan Li, Jianhao Ding, Tingting Jiang 0001. 25554-25563 [doi]

Towards Backward-Compatible Continual Learning of Image CompressionZhihao Duan, Ming Lu, Justin Yang, Jiangpeng He, Zhan Ma, Fengqing Zhu 0001. 25564-25573 [doi]

APISR: Anime Production Inspired Real-World Anime Super-ResolutionBoyang Wang, Fengyu Yang, Xihang Yu, Chao Zhang, Hanbin Zhao. 25574-25584 [doi]

Unifying Automatic and Interactive Matting with Pretrained ViTsZixuan Ye, Wenze Liu, He Guo 0005, Yujia Liang, Chaoyi Hong, Hao Lu 0003, Zhiguo Cao 0001. 25585-25594 [doi]

Motion-Adaptive Separable Collaborative Filters for Blind Motion DeblurringChengxu Liu, Xuan Wang, Xiangyu Xu, Ruhao Tian, Shuai Li, Xueming Qian, Ming-Hsuan Yang 0001. 25595-25605 [doi]

Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for Video Adverse Weather RemovalYijun Yang, Hongtao Wu, Angelica I. Avilés-Rivero, Yulun Zhang, Jing Qin 0001, Lei Zhu 0003. 25606-25616 [doi]

HomoFormer: Homogenized Transformer for Image Shadow RemovalJie Xiao 0002, Xueyang Fu, Yurui Zhu, Dong Li, Jie Huang 0017, Kai Zhu 0004, Zheng-Jun Zha. 25617-25626 [doi]

Bidirectional Multi-Scale Implicit Neural Representations for Image DerainingXiang Chen 0015, Jinshan Pan, Jiangxin Dong. 25627-25636 [doi]

LED: A Large-scale Real-world Paired Dataset for Event Camera DenoisingYuxing Duan. 25637-25647 [doi]

Seeing Motion at Nighttime with an Event CameraHaoyue Liu, Shihan Peng, Lin Zhu 0012, Yi Chang 0002, Hanyu Zhou, Luxin Yan. 25648-25658 [doi]

Leveraging Frame Affinity for sRGB-to-RAWVideo De-RenderingChen Zhang, Wencheng Han, Yang Zhou, Jianbing Shen, Cheng-Zhong Xu 0001, WenTao Liu. 25659-25668 [doi]

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the WildFanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao 0001, Chao Dong 0005. 25669-25680 [doi]

AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image DeblurringXintian Mao, Qingli Li, Yan Wang 0033. 25681-25690 [doi]

Unsupervised Blind Image Deblurring Based on Self-EnhancementLufei Chen, Xiangpeng Tian, Shuhua Xiong, Yinjie Lei, Chao Ren 0002. 25691-25700 [doi]

TTA-EVF: Test-Time Adaptation for Event-based Video Frame Interpolation via Reliable Pixel and Sample EstimationHoonhee Cho, Taewoo Kim 0003, Yuhwan Jeong, Kuk-Jin Yoon. 25701-25711 [doi]

Learning Coupled Dictionaries from Unpaired Data for Image Super-ResolutionLongguang Wang, Juncheng Li 0003, Yingqian Wang 0002, Qingyong Hu, Yulan Guo. 25712-25721 [doi]

Empowering Resampling Operation for Ultra-High-Definition Image Enhancement with Model-Aware GuidanceWei Yu, Jie Huang, Bing Li, Kaiwen Zheng, Qi Zhu, Man Zhou, Feng Zhao. 25722-25731 [doi]

Generating Content for HDR Deghosting from Frequency ViewTao Hu, Qingsen Yan, Yuankai Qi, Yanning Zhang. 25732-25741 [doi]

Dual Prior Unfolding for Snapshot Compressive ImagingJiancheng Zhang, Haijin Zeng, Jiezhang Cao, Yongyong Chen, Dengxiu Yu, Yin-Ping Zhao. 25742-25752 [doi]

Binarized Low-Light Raw Video EnhancementGengchen Zhang, Yulun Zhang, Xin Yuan, Ying Fu. 25753-25762 [doi]

Neural Spline Fields for Burst Image Fusion and Layer SeparationIlya Chugunov, David Shustin, Ruyu Yan, Chenyang Lei, Felix Heide. 25763-25773 [doi]

Learning Degradation-Independent Representations for Camera ISP PipelinesYanhui Guo, Fangzhou Luo, Xiaolin Wu. 25774-25783 [doi]

SeD: Semantic-Aware Discriminator for Image Super-ResolutionBingchen Li, Xin Li 0082, Hanxin Zhu, Yeying Jin, Ruoyu Feng, Zhizheng Zhang 0004, Zhibo Chen 0001. 25784-25795 [doi]

SinSR: Diffusion-Based Image Super-Resolution in a Single StepYufei Wang, Wenhan Yang, Xinyuan Chen, Yaohui Wang 0004, Lanqing Guo, Lap-Pui Chau, Ziwei Liu 0002, Yu Qiao 0001, Alex C. Kot, Bihan Wen. 25796-25805 [doi]

Self-Adaptive Reality-Guided Diffusion for Artifact-Free Super-ResolutionQingping Zheng, Ling Zheng, Yuanfan Guo, Ying Li 0017, Songcen Xu, Jiankang deng, Hang Xu. 25806-25816 [doi]

Improving Spectral Snapshot Reconstruction with Spectral-Spatial RectificationJiancheng Zhang, Haijin Zeng, Yongyong Chen, Dengxiu Yu, Yin-Ping Zhao. 25817-25826 [doi]

Diffusion-based Blind Text Image Super-ResolutionYuzhe Zhang, Jiawei Zhang, Hao Li, Zhouxia Wang, Luwei Hou, Dongqing Zou, Liheng Bian. 25827-25836 [doi]

CAMixerSR: Only Details Need More "Attention"Yan Wang, Yi Liu, Shijie Zhao, Junlin Li, Li Zhang. 25837-25846 [doi]

ID-Blau: Image Deblurring by Implicit Diffusion-Based reBLurring AUgmentationJia Hao Wu, Fu-Jen Tsai, Yan-Tsung Peng, Chung-Chi Tsai, Chia-Wen Lin, Yen-Yu Lin. 25847-25856 [doi]

Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised LearningHaoyu Chen 0003, Wenbo Li 0002, Jinjin Gu, Jingjing Ren, Haoze Sun, Xueyi Zou, Zhensong Zhang, Youliang Yan, Lei Zhu 0003. 25857-25867 [doi]

CoSeR: Bridging Image and Language for Cognitive Super-ResolutionHaoze Sun, Wenbo Li 0002, Jianzhuang Liu, Haoyu Chen 0003, Renjing Pei, Xueyi Zou, Youliang Yan, Yujiu Yang. 25868-25878 [doi]

Real-World Efficient Blind Motion Deblurring via Blur Pixel DiscretizationInsoo Kim, Jaeseok Choi, Geonseok Seo, Kinam Kwon, Jinwoo Shin, Hyong-Euk Lee. 25879-25888 [doi]

SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational AutoencoderDihan Zheng, Yihang Zou, Xiaowen Zhang, Chenglong Bao. 25889-25899 [doi]

Text-Guided Explorable Image Super-ResolutionKanchana Vaishnavi Gandikota, Paramanand Chandramouli. 25900-25911 [doi]

Equivariant Multi-Modality Image FusionZixiang Zhao, Haowen Bai, Jiangshe Zhang 0001, Yulun Zhang, Kai Zhang 0008, Shuang Xu, Dongdong Chen, Radu Timofte, Luc Van Gool. 25912-25921 [doi]

Revisiting Spatial-Frequency Information Integration from a Hierarchical Perspective for Panchromatic and Multi-Spectral Image FusionJiangtong Tan, Jie Huang 0017, Naishan Zheng, Man Zhou, Keyu Yan, Danfeng Hong, Feng Zhao 0004. 25922-25931 [doi]

MCNet: Rethinking the Core Ingredients for Accurate and Efficient Homography EstimationHaokai Zhu, Si-Yuan Cao, Jianxin Hu, Sitong Zuo, Beinan Yu, Jiacheng Ying, Junwei Li, Hui-Liang Shen. 25932-25941 [doi]

Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality AssessmentZiyu Shan, Yujie Zhang, Qi Yang 0003, Haichen Yang, Yiling Xu, Jenq-Neng Hwang, Xiaozhong Xu, Shan Liu 0001. 25942-25951 [doi]

MuGE: Multiple Granularity Edge DetectionCaixia Zhou, Yaping Huang, Mengyang Pu, Qingji Guan, Ruoxi Deng, Haibin Ling. 25952-25962 [doi]

KVQ: Kwai Video Quality Assessment for Short-form VideosYiting Lu, Xin Li 0082, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, Zhibo Chen 0001. 25963-25973 [doi]

Transfer CLIP for Generalizable Image DenoisingJun Cheng, Dong Liang, Shan Tan. 25974-25984 [doi]

Improved Implicit Neural Representation with Fourier Reparameterized TrainingKexuan Shi, Xingyu Zhou, Shuhang Gu. 25985-25994 [doi]

Deep Video Inverse Tone Mapping Based on Temporal CluesYuyao Ye, Ning Zhang, Yang Zhao, Hongbin Cao, Ronggang Wang. 25995-26004 [doi]

Boosting Flow-based Generative Super-Resolution Models via Learned PriorLi-Yuan Tsao, Yi-Chen Lo, Chia-Che Chang, Hao-Wei Chen, Roy Tseng, Chien Feng, Chun-Yi Lee. 26005-26015 [doi]

Look-Up Table Compression for Efficient Image RestorationYinglong Li, Jiacheng Li 0004, Zhiwei Xiong. 26016-26025 [doi]

Latent Modulated Function for Computational Optimal Continuous Image RepresentationZongyao He, Zhi Jin. 26026-26035 [doi]

Task-Aware Encoder Control for Deep Video CompressionXingtong Ge, Jixiang Luo, Xinjie Zhang, Tongda Xu, Guo Lu, Dailan He, Jing Geng, Yan Wang, Jun Zhang, Hongwei Qin. 26036-26045 [doi]

A Dynamic Kernel Prior Model for Unsupervised Blind Image Super-ResolutionZhiXiong Yang, Jingyuan Xia, Shengxi Li, Xinghua Huang, Shuanghui Zhang, Zhen Liu 0004, Yaowen Fu, Yongxiang Liu. 26046-26056 [doi]

Zero-Reference Low-Light Enhancement via Physical Quadruple PriorsWenjing Wang 0001, Huan Yang 0005, Jianlong Fu, Jiaying Liu 0001. 26057-26066 [doi]

ParamISP: Learned Forward and Inverse ISPs Using Camera ParametersWoohyeok Kim, Geonu Kim, Junyong Lee, Seungyong Lee 0001, Seung-Hwan Baek, Sunghyun Cho. 26067-26076 [doi]

FSC: Few-Point Shape CompletionXianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan 0001. 26077-26087 [doi]

Generative Latent Coding for Ultra-Low Bitrate Image CompressionZhaoyang Jia, Jiahao Li, Bin Li, Houqiang Li, Yan Lu 0001. 26088-26098 [doi]

Neural Video Compression with Feature ModulationJiahao Li, Bin Li, Yan Lu. 26099-26108 [doi]

Driving-Video Dehazing with Non-Aligned Regularization for Safety AssistanceJunkai Fan, Jiangwei Weng, Kun Wang, Yijun Yang, Jianjun Qian, Jun Li 0027, Jian Yang 0003. 26109-26119 [doi]

CFAT: Unleashing Triangular Windows for Image Super-resolutionAbhisek Ray, Gaurav Kumar, Maheshkumar H. Kolekar. 26120-26129 [doi]

Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone MappingRuoxi Zhu, Shusong Xu, Peiye Liu, Sicheng Li, YanHeng Lu, Dimin Niu, Zihao Liu, Zihao Meng, Zhiyong Li, Xinhua Chen, Yibo Fan. 26130-26139 [doi]

Learn from View Correlation: An Anchor Enhancement Strategy for Multi-View ClusteringSuyuan Liu, Ke Liang 0006, Zhibin Dong, Siwei Wang 0001, Xihong Yang, Sihang Zhou 0001, En Zhu, Xinwang Liu 0002. 26151-26161 [doi]

Circuit Design and Efficient Simulation of Quantum Inner Product and Empirical Studies of Its Effect on Near-Term Hybrid Quantum-Classic Machine LearningHao Xiong 0003, Yehui Tang, Xinyu Ye, Junchi Yan. 26162-26170 [doi]

Discriminability-Driven Channel Selection for Out-of-Distribution DetectionYue Yuan, Rundong He, Yicong Dong, Zhongyi Han, Yilong Yin. 26171-26180 [doi]

Efficient Hyperparameter Optimization with Adaptive Fidelity IdentificationJiantong Jiang, Zeyi Wen, Atif Bin Mansoor, Ajmal Mian. 26181-26190 [doi]

Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum ComputingJan-Nico Zaech, Martin Danelljan, Tolga Birdal, Luc Van Gool. 26191-26201 [doi]

Online Task-Free Continual Generative and Discriminative Learning via Dynamic Cluster MemoryFei Ye 0004, Adrian G. Bors. 26202-26212 [doi]

Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset PruningXin Zhang, Jiawei Du, Yunsong Li, Weiying Xie, Joey Tianyi Zhou. 26213-26222 [doi]

An Aggregation-Free Federated Learning for Tackling Data HeterogeneityYuan Wang, Huazhu Fu, Renuga Kanagavelu, Qingsong Wei, Yong Liu, Rick Siow Mong Goh. 26223-26232 [doi]

POCE: Primal Policy Optimization with Conservative Estimation for Multi-constraint Offline Reinforcement LearningJiayi Guan, Li Shen, Ao Zhou, Lusong Li, Han Hu, Xiaodong He 0001, Guang Chen, Changjun Jiang. 26233-26243 [doi]

Fine-Grained Bipartite Concept Factorization for ClusteringChong Peng, Pengfei Zhang, Yongyong Chen, Zhao Kang 0001, Chenglizhao Chen, Qiang Shawn Cheng. 26254-26264 [doi]

Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorldYijun Yang, Tianyi Zhou 0001, Kanxue Li, Dapeng Tao, Lusong Li, Li Shen, Xiaodong He 0001, Jing Jiang 0002, Yuhui Shi. 26265-26275 [doi]

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward PassesMyeongseob Ko, Feiyang Kang, Weiyan Shi, Ming Jin 0002, Zhou Yu, Ruoxi Jia 0001. 26276-26285 [doi]

Improved Baselines with Visual Instruction TuningHaotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee. 26286-26296 [doi]

Linguistic-Aware Patch Slimming Framework for Fine-Grained Cross-Modal AlignmentZheren Fu, Lei Zhang 0119, Hou Xia, Zhendong Mao. 26297-26306 [doi]

FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and QuantizationShuai Tan, bin Ji, Ye Pan. 26307-26317 [doi]

Audio-Visual Segmentation via Unlabeled Frame ExploitationJinxiang Liu, Yikun Liu, Fei Zhang, Chen Ju, Ya Zhang 0002, Yanfeng Wang. 26318-26329 [doi]

Binding Touch to Everything: Learning Unified Multimodal Tactile RepresentationsFengyu Yang, Chao Feng, Ziyang Chen, Hyoungseob Park, Daniel Wang 0005, Yiming Dou, Ziyao Zeng, Xien Chen, Rit Gangopadhyay, Andrew Owens, Alex Wong 0001. 26330-26343 [doi]

MoDE: CLIP Data Experts via ClusteringJiawei Ma, Po-Yao Huang 0001, Saining Xie, Shang-wen Li 0001, Luke Zettlemoyer, Shih-Fu Chang, Wen-tau Yih, Hu Xu 0001. 26344-26353 [doi]

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action GeneralizationAnna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser, Bernt Schiele, Shugao Ma. 26354-26363 [doi]

PixelLM: Pixel Reasoning with Large Multimodal ModelZhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao 0001, Dongmei Fu, Jiashi Feng, Xiaojie Jin. 26364-26373 [doi]

Probing Synergistic High-Order Interaction in Infrared and Visible Image FusionNaishan Zheng, Man Zhou, Jie Huang, Junming Hou, Haoying Li, Yuan Xu, Feng Zhao. 26374-26385 [doi]

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric PerspectiveWenqi Jia, Miao Liu, Hao Jiang 0007, Ishwarya Ananthabhotla, James M. Rehg, Vamsi Krishna Ithapu, Ruohan Gao. 26386-26395 [doi]

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D WorldYining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan. 26396-26406 [doi]

GPT4Point: A Unified Framework for Point-Language Understanding and GenerationZhangyang Qi, Ye Fang, Zeyi Sun 0002, Xiaoyang Wu, Tong Wu, Jiaqi Wang 0003, Dahua Lin, Hengshuang Zhao. 26407-26417 [doi]

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and PlanningSijin Chen, Xin Chen, Chi Zhang, MingSheng Li, Gang Yu, Hao Fei 0001, Hongyuan Zhu, Jiayuan Fan 0001, Tao Chen 0003. 26418-26428 [doi]

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and ActionJiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang 0016, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi. 26429-26445 [doi]

Shap-Editor: Instruction-guided Latent 3D Editing in SecondsMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi. 26446-26456 [doi]

Learning to Visually Localize Sound Sources from Mixtures without Prior Source KnowledgeDongjin Kim, Sung Jin Um, Sangmin Lee 0001, Jung-Uk Kim. 26457-26466 [doi]

Bring Event into RGB and LiDAR: Hierarchical Visual-Motion Fusion for Scene FlowHanyu Zhou, Yi Chang 0002, Zhiwei Shi. 26467-26476 [doi]

Dispel Darkness for Better Fusion: A Controllable Visual Enhancer Based on Cross-Modal Conditional Adversarial LearningHao Zhang, Linfeng Tang, Xinyu Xiang, Xuhui Zuo, Jiayi Ma 0001. 26477-26486 [doi]

Unraveling Instance Associations: A Closer Look for Audio-Visual SegmentationYuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Helen Frazer, Gustavo Carneiro 0001. 26487-26497 [doi]

DMR: Decomposed Multi-Modality Representations for Frames and Events Fusion in Visual Reinforcement LearningHaoran Xu, Peixi Peng, Guang Tan, Yuan Li, Xinhai Xu, Yonghong Tian 0001. 26498-26508 [doi]

Text-Guided Variational Image Generation for Industrial Anomaly Detection and SegmentationMingyu Lee, Jongwon Choi. 26509-26518 [doi]

Tactile-Augmented Radiance FieldsYiming Dou, Fengyu Yang, Yi Liu, Antonio Loquercio, Andrew Owens. 26519-26529 [doi]

LION : Empowering Multimodal Large Language Model with Dual-Level Visual KnowledgeGongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie. 26530-26540 [doi]

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object TrackingXiaojun Hou, Jiazheng Xing, Yijie Qian, Yaowei Guo, Shuo Xin, Junhao Chen, Kai Tang, Mengmeng Wang, Zhengkai Jiang 0001, Liang Liu, Yong Liu. 26541-26551 [doi]

Exploring the Transferability of Visual Prompting for Multimodal Large Language ModelsYichi Zhang, Yinpeng Dong, Siyuan Zhang, Tianzan Min, Hang Su, Jun Zhu 0001. 26552-26562 [doi]

Mask Grounding for Referring Image SegmentationYong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang 0001. 26563-26573 [doi]

OneLLM: One Framework to Align All Modalities with LanguageJiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang 0003, Kaipeng Zhang, Dahua Lin, Yu Qiao 0001, Peng Gao 0007, Xiangyu Yue 0001. 26574-26585 [doi]

EmoVIT: Revolutionizing Emotion Insights with Visual Instruction TuningHongxia Xie, Chu-Jun Peng, Yu-Wen Tseng, Hung-Jen Chen, Chan-Feng Hsu, Hong-Han Shuai, Wen-Huang Cheng. 26586-26595 [doi]

ModaVerse: Efficiently Transforming Modalities with LLMsXinyu Wang, Bohan Zhuang, Qi Wu. 26596-26606 [doi]

PromptKD: Unsupervised Prompt Distillation for Vision-Language ModelsZheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang. 26607-26616 [doi]

Dynamic Prompt Optimizing for Text-to-Image GenerationWenyi Mo, Tianyu Zhang, Yalong Bai, Bing Su 0001, Ji-Rong Wen, Qing Yang. 26617-26626 [doi]

Domain Prompt Learning with Quaternion NetworksQinglong Cao, Zhengqin Xu, Yuntian Chen, M. Chao, Xiaokang Yang. 26627-26636 [doi]

VIT-LENS: Towards Omni-modal RepresentationsWeixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou. 26637-26647 [doi]

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image SegmentationSihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang 0001, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji. 26648-26658 [doi]

Cyclic Learning for Binaural Audio Generation and LocalizationZhaojian Li, Bin Zhao, Yuan Yuan 0001. 26659-26668 [doi]

Learning to Rematch Mismatched Pairs for Robust Cross-Modal RetrievalHaochen Han, Qinghua Zheng, Guang Dai, Minnan Luo, Jingdong Wang 0001. 26669-26678 [doi]

VILA: On Pre-training for Visual Language ModelsJi Lin, Hongxu Yin, Wei Ping, Pavlo Molchanov 0001, Mohammad Shoeybi, Song Han. 26679-26689 [doi]

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense CaptionsJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano. 26690-26699 [doi]

How to Configure Good In-Context Sequence for Visual Question AnsweringLi Li, Jiawei Peng, Huiyi Chen, Chongyang Gao, Xu Yang. 26700-26710 [doi]

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-TrainingYuxin Guo, Siyang Sun, Shuailei Ma, Kecheng Zheng, Xiaoyi Bao, Shijie Ma, Wei Zou, Yun Zheng. 26711-26721 [doi]

Modality-Collaborative Test-Time Adaptation for Action RecognitionBaochen Xiong, Xiaoshan Yang, Yaguang Song, Yaowei Wang 0001, Changsheng Xu. 26722-26731 [doi]

T-VSL: Text-Guided Visual Sound Source Localization in MixturesTanvir Mahmud, Yapeng Tian, Diana Marculescu. 26732-26741 [doi]

UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them AllYuanhuiyi Lyu, Xu Zheng, Jiazhou Zhou, Lin Wang. 26742-26752 [doi]

Monkey: Image Resolution and Text Label are Important Things for Large Multi-Modal ModelsZhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai. 26753-26763 [doi]

Rethinking Multi-View Representation Learning via Distilled DisentanglingGuanzhou Ke, Bo Wang, Xiaoli Wang, Shengfeng He. 26764-26773 [doi]

Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian DetectionTaeheon Kim, Sebin Shin, Youngjoon Yu, Hak Gu Kim, Yong Man Ro. 26774-26783 [doi]

Image-Text Co-Decomposition for Text-Supervised Semantic SegmentationJi-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang, Chun-Pei Chen, Yu-Lun Liu 0001, Min-Hung Chen, Hou-Ning Hu, Yung-Yu Chuang, Yen-Yu Lin. 26784-26793 [doi]

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual ModalitiesA. J. Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova. 26794-26804 [doi]

Efficient Vision-Language Pre-Training by Cluster MaskingZihao Wei, Zixuan Pan, Andrew Owens. 26805-26815 [doi]

MELFuSION: Synthesizing Music from Image and Language Cues Using Diffusion ModelsSanjoy Chowdhury, Sayan Nag, K. J. Joseph, Balaji Vasan Srinivasan, Dinesh Manocha. 26816-26825 [doi]

Weakly Misalignment-Free Adaptive Feature Alignment for UAVs-Based Multimodal Object DetectionChen Chen, Jiahao Qi, Xingyue Liu, Kangcheng Bin, Ruigang Fu, Xikun Hu, Ping Zhong. 26826-26835 [doi]

DiVAS: Video and Audio Synchronization with Dynamic Frame RatesClara Fernandez-Labrador, Mertcan Akçay, Eitan Abecassis, Joan Massich, Christopher Schroers. 26836-26844 [doi]

Querying as Prompt: Parameter-Efficient Learning for Multimodal Language ModelTian Liang, Jing Huang, Ming Kong, Luyuan Chen, Qiang Zhu. 26845-26855 [doi]

Sonic VisionLM: Playing Sound with Vision Language ModelsZhifeng Xie, Shengye Yu, Qile He, Mengtian Li. 26856-26865 [doi]

Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal FusionZixian Gao, Xun Jiang 0001, Xing Xu 0001, Fumin Shen, Yujie Li 0001, Heng Tao Shen. 26866-26875 [doi]

C3Net: Compound Conditioned ControlNet for Multimodal Content GenerationJuntao Zhang, Yuehuai Liu, Yu-Wing Tai, Chi-Keung Tang. 26876-26885 [doi]

Composed Video Retrieval via Enriched Context and Discriminative EmbeddingsOmkar Thawakar, Muzammal Naseer, Rao Muhammad Anwer, Salman H. Khan, Michael Felsberg, Mubarak Shah, Fahad Shahbaz Khan. 26886-26896 [doi]

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation LearningNikhil Singh 0003, Chih-Wei Wu, Iroro Orife, Mahdi M. Kalayeh. 26897-26908 [doi]

Anchor-based Robust Finetuning of Vision-Language ModelsJinwei Han, Zhiwen Lin, Zhongyisun Sun, Yingguo Gao, Ke Yan, Shouhong Ding, Yuan Gao 0015, Gui-Song Xia. 26909-26918 [doi]

Event-Based Visible and Infrared Fusion via Multi-Task CollaborationMengyue Geng, Lin Zhu, Lizhi Wang, Wei Zhang, Ruiqin Xiong, YongHong Tian. 26919-26929 [doi]

Prompt Learning via Meta-RegularizationJinyoung Park, Juyeon Ko, Hyunwoo J. Kim. 26930-26940 [doi]

Knowledge-Enhanced Dual-Stream Zero-Shot Composed Image RetrievalYucheng Suo, Fan Ma, Linchao Zhu, Yi Yang. 26941-26952 [doi]

Contextual Augmented Global Contrast for Multimodal Intent RecognitionKaili Sun, Zhiwen Xie, Mang Ye, Huyin Zhang. 26953-26963 [doi]

MRFS: Mutually Reinforcing Image Fusion and SegmentationHao Zhang 0073, Xuhui Zuo, Jie Jiang, Chunchao Guo, Jiayi Ma 0001. 26964-26973 [doi]

POPDG: Popular 3D Dance Generation with PopDanceSetZhenye Luo, Min Ren, Xuecai Hu, Yongzhen Huang, Li Yao. 26974-26983 [doi]

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Bing Li 0001, Junfu Pu, Ying Shan, Xiaojuan Qi 0001, Weiming Hu. 26984-26993 [doi]

Active Prompt Learning in Vision Language ModelsJihwan Bang, Sumyeong Ahn, Jae-Gil Lee 0001. 26994-27004 [doi]

Descriptor and Word Soups Q: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot LearningChristopher Liao, Theodoros Tsiligkaridis, Brian Kulis. 27005-27015 [doi]

Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image FusionXunpeng Yi, Han Xu, Hao Zhang, Linfeng Tang, Jiayi Ma 0001. 27016-27025 [doi]

Hallucination Augmented Contrastive Learning for Multimodal Large Language ModelChaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang. 27026-27036 [doi]

Beyond Text: Frozen Large Language Models in Visual Signal ComprehensionLei Zhu, Fangyun Wei, Yanye Lu. 27037-27047 [doi]

Learning Spatial Features from Audio-Visual Correspondence in Egocentric VideosSagnik Majumder, Ziad Al-Halah, Kristen Grauman. 27048-27058 [doi]

3: Evolving Self-Supervised Learning of Robust Audio-Visual Speech RepresentationsYuanhang Zhang, Shuang Yang, Shiguang Shan, Xilin Chen 0001. 27059-27069 [doi]

PortraitBooth: A Versatile Portrait Model for Fast Identity-Preserved PersonalizationXu Peng, Junwei Zhu, Boyuan Jiang, Ying Tai, Donghao Luo, Jiangning Zhang, Wei Lin, Taisong Jin, Chengjie Wang, Rongrong Ji. 27070-27080 [doi]

ULIP-2: Towards Scalable Multimodal Pre-Training for 3D UnderstandingLe Xue, Ning Yu, Shu Zhang 0007, Artemis Panagopoulou, Junnan Li 0001, Roberto Martín-Martín, Jiajun Wu 0001, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese. 27081-27091 [doi]

AVFF: Audio-Visual Feature Fusion for Video Deepfake DetectionTrevine Oorloff, Surya Koppisetti, Nicolò Bonettini, Divyaraj Solanki, Ben Colman, Yaser Yacoob, Ali Shahriyari, Gaurav Bharaj. 27092-27102 [doi]

Language-aware Visual Semantic Distillation for Video Question AnsweringBo Zou, Chao Yang 0026, Yu Qiao 0001, Chengbin Quan, Youjian Zhao. 27103-27113 [doi]

PerceptionGPT: Effectively Fusing Visual Perception Into LLMRenjie Pi, Lewei Yao, Jiahui Gao, Jipeng Zhang, Tong Zhang. 27114-27123 [doi]

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual SegmentationQi Yang, Xing Nie, Tong Li, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang. 27124-27133 [doi]

MV-Adapter: Multimodal Video Transfer Learning for Video Text RetrievalXiaojie Jin, Bowen Zhang, Weibo Gong, Kai Xu, Xueqing Deng, Peng Wang, Zhao Zhang, Xiaohui Shen, Jiashi Feng. 27134-27143 [doi]

Draw Step by Step: Reconstructing CAD Construction Sequences from Point Clouds via Multimodal DiffusionWeijian Ma, Shuaiqi Chen, Yunzhong Lou, Xueyang Li, Xiangdong Zhou. 27144-27153 [doi]

AV-RIR: Audio-Visual Room Impulse Response EstimationAnton Ratnarajah, Sreyan Ghosh, Sonal Kumar, Purva Chiniya, Dinesh Manocha. 27154-27165 [doi]

Link-Context Learning for Multimodal LLMsYan Tai, Weichen Fan, Zhao Zhang, Ziwei Liu. 27166-27175 [doi]

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions Through Masked ModelingShentong Mo, Pedro Morgado 0001. 27176-27186 [doi]

Noisy-Correspondence Learning for Text-to-Image Person Re-IdentificationYang Qin, Yingke Chen, Dezhong Peng, Xi Peng 0001, Joey Tianyi Zhou, Peng Hu 0002. 27187-27196 [doi]

Mind Artist: Creating Artistic Snapshots with Human ThoughtJiaxuan Chen 0007, Yu Qi, Yueming Wang, Gang Pan 0001. 27197-27207 [doi]

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media ReasoningKang Chen, Xiangqian Wu 0002. 27208-27217 [doi]

THRONE: An Object-Based Hallucination Benchmark for the Free-Form Generations of Large Vision-Language ModelsPrannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto. 27218-27228 [doi]

Data-Efficient Multimodal Fusion on a Single GPUNoël Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs. 27229-27241 [doi]

SoundingActions: Learning How Actions Sound from Narrated Egocentric VideosChangan Chen, Kumar Ashutosh, Rohit Girdhar, David Harwath, Kristen Grauman. 27242-27252 [doi]

Accept the Modality Gap: An Exploration in the Hyperbolic SpaceSameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Thalaiyasingam Ajanthan. 27253-27262 [doi]

DiffSal: Joint Audio and Video Learning for Diffusion Saliency PredictionJunwen Xiong, Peng Zhang, Tao You, Chuanyue Li, Wei Huang, Yufei Zha. 27263-27273 [doi]

DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain Generalization in Federated LearningSikai Bai, Jie Zhang, Song Guo, Shuaicheng Li, Jingcai Guo, Jun Hou, Tao Han, Xiaocheng Lu. 27274-27283 [doi]

Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks, Methods, and ApplicationsKarren D. Yang, Anurag Ranjan, Jen-Hao Rick Chang, Raviteja Vemulapalli, Oncel Tuzel. 27284-27293 [doi]

DIEM: Decomposition-Integration Enhancing Multimodal InsightsXinyi Jiang, Guoming Wang, Junhao Guo, Juncheng Li 0006, Wenqiao Zhang, Rongxing Lu, Siliang Tang. 27294-27303 [doi]

MAFA: Managing False Negatives for Vision-Language Pre-TrainingJaeseok Byun, Dohoon Kim, Taesup Moon. 27304-27314 [doi]

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech RepresentationJeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro. 27315-27327 [doi]

Enhancing Multimodal Cooperation via Sample-Level Modality ValuationYake Wei, Ruoxuan Feng, Zihe Wang 0001, Di Hu 0001. 27328-27337 [doi]

Diff-BGM: A Diffusion Model for Video Background Music GenerationSizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu. 27338-27347 [doi]

SaCo Loss: Sample-Wise Affinity Consistency for Vision-Language Pre-TrainingSitong Wu, Haoru Tan, Zhuotao Tian, Yukang Chen, Xiaojuan Qi 0001, Jiaya Jia. 27348-27359 [doi]

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-Wise Pruning Error MetricHaokun Lin, Haoli Bai, Zhili Liu, Lu Hou, Muyi Sun, Linqi Song, Ying Wei 0001, Zhenan Surr. 27360-27370 [doi]

Mitigating Noisy Correspondence by Geometrical Structure Consistency LearningZihua Zhao, Mengxi Chen, Tianjie Dai, Jiangchao Yao, Bo Han 0003, Ya Zhang, Yanfeng Wang. 27371-27380 [doi]

Leveraging Cross-Modal Neighbor Representation for Improved CLIP ClassificationChao Yi, Lu Ren, De-Chuan Zhan, Han-Jia Ye. 27392-27401 [doi]

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any GenerationZineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal. 27415-27424 [doi]

Differentiable Information Bottleneck for Deterministic Multi-View ClusteringXiaoqiang Yan, Zhixiang Jin, Fengshou Han, Yangdong Ye. 27425-27434 [doi]

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech RecognitionYusheng Dai, Hang Chen, Jun Du, Ruoyu Wang, Shihao Chen, Haotian Wang, Chin-Hui Lee 0001. 27435-27445 [doi]

Multimodal Representation Learning by Alternating Unimodal AdaptationXiaohui Zhang 0006, Jaehong Yoon, Mohit Bansal, Huaxiu Yao. 27446-27456 [doi]

View-Category Interactive Sharing Transformer for Incomplete Multi-View Multi-Label LearningShilong Ou, Zhe Xue, Yawen Li, MeiYu Liang, Yuanqiang Cai, Junjiang Wu. 27457-27466 [doi]

Scalable 3D Registration via Truncated Entry-Wise Absolute ResidualsTianyu Huang, Liangzu Peng, René Vidal, Yun-Hui Liu 0001. 27467-27477 [doi]

Partial-to-Partial Shape Matching with Geometric ConsistencyViktoria Ehm, Maolin Gao, Paul Roetzer, Marvin Eisenberger, Daniel Cremers, Florian Bernard. 27478-27487 [doi]

Towards Robust Learning to Optimize with Theoretical GuaranteesQingyu Song, Wei Lin, Juncheng Wang, Hong Xu 0001. 27488-27496 [doi]

From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment LayersSwaminathan Gurumurthy, Karnik Ram, Bingqing Chen, Zachary Manchester, Zico Kolter. 27497-27506 [doi]

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning ModelsNastaran Saadati, Minh Pham 0005, Nasla Saleem, Joshua R. Waite, Aditya Balu, Zhanhong Jiang, Chinmay Hegde, Soumik Sarkar. 27507-27517 [doi]

Ink Dot-Oriented Differentiable Optimization for Neural Image HalftoningHao Jiang, Bingfeng Zhou, Yadong Mu. 27518-27527 [doi]

Are Conventional SNNs Really Efficient? A Perspective from Network QuantizationGuobin Shen, Dongcheng Zhao, Tenglong Li, Jindong Li, Yi Zeng 0001. 27528-27537 [doi]

FedMef: Towards Memory-Efficient Federated Dynamic PruningHong Huang, Weiming Zhuang, Chen Chen 0043, Lingjuan Lyu. 27538-27547 [doi]

SD4Match: Learning to Prompt Stable Diffusion Model for Semantic MatchingXinghui Li, Jingyi Lu, Kai Han 0001, Victor Adrian Prisacariu. 27548-27558 [doi]

Purified and Unified Steganographic NetworkGuobiao Li, Sheng Li 0006, Zicong Luo, Zhenxing Qian, Xinpeng Zhang 0001. 27559-27568 [doi]

Learned Lossless Image Compression Based on Bit Plane SlicingZhe Zhang, Huairui Wang, Zhenzhong Chen, Shan Liu 0001. 27569-27578 [doi]

Towards Calibrated Multi-Label Deep Neural NetworksJiacheng Cheng, Nuno Vasconcelos. 27579-27589 [doi]

Improving Generalization via Meta-Learning on Hard SamplesNishant Jain, Arun S. Suggala, Pradeep Shenoy. 27590-27599 [doi]

Learning with Structural Labels for Learning with Noisy LabelsNoo-ri Kim, Jin-Seop Lee, Jee-Hyong Lee 0001. 27600-27610 [doi]

Diffusemix: Label-Preserving Data Augmentation with Diffusion ModelsKhawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood, Karthik Nandakumar. 27611-27620 [doi]

Improving Out-of-Distribution Generalization in Graphs via Hierarchical Semantic EnvironmentsYinhua Piao, Sangseon Lee, Yijingxiu Lu, Sun Kim. 27621-27630 [doi]

Patch2Self2: Self-Supervised Denoising on Coresets via Matrix SketchingShreyas Fadnavis, Agniva Chowdhury, Joshua Batson, Petros Drineas, Eleftherios Garyfallidis. 27631-27641 [doi]

G-FARS: Gradient-Field-Based Auto-Regressive Sampling for 3D Part GroupingJunfeng Cheng, Tania Stathaki. 27642-27651 [doi]

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious CorrelationFahimeh Hosseini Noohdani, Parsa Hosseini, Aryan Yazdan Parast, HamidReza Yaghoubi Araghi, Mahdieh Soleymani Baghshah. 27652-27661 [doi]

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation ImageryXin Guo, Jiangwei Lao, Bo Dang 0002, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang 0002, Yansheng Li 0001. 27662-27673 [doi]

Building Bridges Across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion ModelRunmin Dong, Shuai Yuan 0005, Bin Luo, Mengxuan Chen, Jinxiao Zhang, Lixian Zhang, Weijia Li, Juepeng Zheng, Haohuan Fu. 27674-27684 [doi]

SatSynth: Augmenting Image-Mask Pairs Through Diffusion Models for Aerial Semantic SegmentationAysim Toker, Marvin Eisenberger, Daniel Cremers, Laura Leal-Taixé. 27685-27695 [doi]

S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing DataXuyang Li, Danfeng Hong, Jocelyn Chanussot. 27696-27705 [doi]

Poly Kernel Inception Network for Remote Sensing DetectionXinhao Cai, Qiuxia Lai, Yuwei Wang, Wenguan Wang, Zeren Sun, Yazhou Yao. 27706-27716 [doi]

Learning without Exact Guidance: Updating Large-Scale High-Resolution Land Cover Maps from Low-Resolution Historical LabelsZhuohong Li, Wei He 0003, Jiepan Li, Fangxiao Lu, Hongyan Zhang 0001. 27717-27727 [doi]

3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level SupervisionsWeijia Li, Haote Yang, Zhenghao Hu, Juepeng Zheng, Gui-Song Xia, Conghui He. 27728-27737 [doi]

Content-Adaptive Non-Local Convolution for Remote Sensing PansharpeningYule Duan, Xiao Wu, Haoyu Deng, Liang-Jian Deng. 27738-27747 [doi]

SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic SegmentationJunyan Ye, Qiyan Luo, Jinhua Yu, Huaping Zhong, Zhimeng Zheng, Conghui He, Weijia Li. 27748-27757 [doi]

DiffCast: A Unified Framework via Residual Diffusion for Precipitation NowcastingDemin Yu, Xutao Li, Yunming Ye, Baoquan Zhang, Chuyao Luo, Kuai Dai, Rui Wang, Xunlai Chen. 27758-27767 [doi]

MoCha-Stereo: Motif Channel Attention Network for Stereo MatchingZiyang Chen, Wei Long, He Yao, Yongjun Zhang, Bingshu Wang, Yongbin Qin, Jia Wu. 27768-27777 [doi]

PBWR: Parametric-Building-Wireframe Reconstruction from Aerial LiDAR Point CloudsShangfeng Huang, Ruisheng Wang, Bo Guo, Hongxin Yang. 27778-27787 [doi]

Multi-Modal Learning for Geospatial Vegetation ForecastingVitus Benson, Claire Robin, Christian Requena-Mesa, Lázaro Alonso, Nuno Carvalhais, José Cortés, Zhihan Gao 0001, Nora Linscheid, Mélanie Weynants, Markus Reichstein. 27788-27799 [doi]

Relational Matching for Weakly Semi-Supervised Oriented Object DetectionWenhao Wu, Hau-San Wong, Si Wu 0002, Tianyou Zhang. 27800-27810 [doi]

Rethinking Transformers Pre-training for Multi-Spectral Satellite ImageryMubashir Noman, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwer, Salman H. Khan 0001, Fahad Shahbaz Khan. 27811-27819 [doi]

Unmixing Diffusion for Self-Supervised Hyperspectral Image DenoisingHaijin Zeng, Jiezhang Cao, Kai Zhang, Yongyong Chen, Hiep Luong 0001, Wilfried Philips. 27820-27830 [doi]

GeoChat: Grounded Large Vision-Language Model for Remote SensingKartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, Fahad Shahbaz Khan. 27831-27840 [doi]

Parameter Efficient Self-Supervised Geospatial Domain AdaptationLinus Scheibenreif, Michael Mommert, Damian Borth. 27841-27851 [doi]

Bridging Remote Sensors with Multisensor Geospatial Foundation ModelsBoran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein. 27852-27862 [doi]

CLIP-Driven Open-Vocabulary 3D Scene Graph Generation via Cross-Modality Contrastive LearningLianggangxu Chen, Xuejiao Wang, Jiale Lu, Shaohui Lin, Changbo Wang, Gaoqi He. 27863-27873 [doi]

Learnable Earth Parser: Discovering 3D Prototypes in Aerial ScansRomain Loiseau, Elliot Vincent, Mathieu Aubry, Loïc Landrieu. 27874-27884 [doi]

Semantics, Distortion, and Style Matter: Towards Source-Free UDA for Panoramic SegmentationXu Zheng, Pengyuan Zhou, Athanasios V. Vasilakos, Lin Wang. 27885-27895 [doi]

Geometrically-Driven Aggregation for Zero-Shot 3D Point Cloud UnderstandingGuofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi. 27896-27905 [doi]

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose EstimationJiehong Lin, Lihua Liu, Dekun Lu, Kui Jia. 27906-27916 [doi]

Construct to Associate: Cooperative Context Learning for Domain Adaptive Point Cloud SegmentationGuangrui Li 0005. 27917-27926 [doi]

Multi-Task Dense Prediction via Mixture of Low-Rank ExpertsYuqi Yang, Peng-Tao Jiang, Qibin Hou, Hao Zhang, Jinwei Chen, Bo Li. 27927-27937 [doi]

OED: Towards One-stage End-to-End Dynamic Scene Graph GenerationGuan Wang, Zhimin Li, Qingchao Chen, Yang Liu. 27938-27947 [doi]

OMG-Seg: Is One Model Good Enough for all Segmentation?Xiangtai Li, Haobo Yuan, Wei Li 0044, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy. 27948-27959 [doi]

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated DataHanrong Ye, Dan Xu. 27960-27969 [doi]

Bilateral Adaptation for Human-Object Interaction Detection with Occlusion-RobustnessGuangzhi Wang, Yangyang Guo, Ziwei Xu 0001, Mohan S. Kankanhalli. 27970-27980 [doi]

CurveCloudNet: Processing Point Clouds with 1D StructureColton Stearns, Alex Fu, Jiateng Liu, Jeong-Joon Park, Davis Rempe, Despoina Paschalidou, Leonidas J. Guibas. 27981-27991 [doi]

VCoder: Versatile Vision Encoders for Multimodal Large Language ModelsJitesh Jain, Jianwei Yang, Humphrey Shi. 27992-28002 [doi]

Amodal Ground Truth and Completion in the WildGuanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman. 28003-28013 [doi]

Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D EnvironmentsLiyuan Zhu, Shengyu Huang, Konrad Schindler, Iro Armeni. 28014-28024 [doi]

Single Domain Generalization for Crowd CountingZhuoxuan Peng, S.-H. Gary Chan. 28025-28034 [doi]

LTA-PCS: Learnable Task-Agnostic Point Cloud SamplingJiaheng Liu, Jianhao Li, Kaisiyuan Wang, Hongcheng Guo, Jian Yang, Junran Peng, Ke Xu, Xianglong Liu, Jinyang Guo. 28035-28045 [doi]

Prompt3D: Random Prompt Assisted Weakly-Supervised 3D Object DetectionXiaohong Zhang, Huisheng Ye, Jingwen Li, Qinyu Tang, Yuanqi Li, Yanwen Guo 0001, Jie Guo 0001. 28046-28055 [doi]

No More Ambiguity in 360° Room Layout via Bi-Layout EstimationYu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Y. C. Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan Yang 0001. 28056-28065 [doi]

Semantic Line Combination DetectorJinwon Ko, Dongkwon Jin, Chang-Su Kim 0001. 28066-28075 [doi]

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language ModelsRongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He 0001. 28076-28086 [doi]

PanoContext-Former: Panoramic Total Scene Understanding with a TransformerYuan Dong, Chuan Fang, Liefeng Bo, Zilong Dong, Ping Tan. 28087-28097 [doi]

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D ReassemblyGianluca Scarpellini, Stefano Fiorini, Francesco Giuliari, Pietro Morerio, Alessio Del Bue. 28098-28108 [doi]

ProMotion: Prototypes as Motion LearnersYawen Lu, Dongfang Liu, Qifan Wang, Cheng Han, Yiming Cui, Zhiwen Cao, Xueling Zhang, Yingjie Victor Chen, Heng Fan. 28109-28119 [doi]

HUNTER: Unsupervised Human-Centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real ScenesYichen Yao, Zimo Jiang, Yujing Sun, Zhencai Zhu, Xinge Zhu, Runnan Chen, Yuexin Ma. 28120-28129 [doi]

Rethinking the Up-Sampling Operations in CNN-Based Generative Network for Generalizable Deepfake DetectionChuangchuang Tan, Huan Liu, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei. 28130-28139 [doi]

Shadows Don't Lie and Lines Can't Bend! Generative Models Don't know Projective Geometry...for NowAyush Sarkar, Hanlin Mai, Amitabh Mahapatra, Svetlana Lazebnik, David A. Forsyth, Anand Bhattad. 28140-28149 [doi]

Text Grouping Adapter: Adapting Pre-Trained Text Detector for Layout AnalysisTianci Bi, Xiaoyi Zhang, Zhizheng Zhang 0004, Wenxuan Xie, Cuiling Lan, Yan Lu, Nanning Zheng 0001. 28150-28159 [doi]

Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-Based Visual Relationship DetectionJongha Kim, Jihwan Park, Jinyoung Park, Jinyoung Kim, Sehyung Kim, Hyunwoo J. Kim. 28160-28169 [doi]

CoralSCOP: Segment any COral Image on this PlanetZiqiang Zheng, Haixin Liang, Binh-Son Hua, Yue Him Wong, Put Ang, Apple Pui Yi Chui, Sai Kit Yeung. 28170-28180 [doi]

Going Beyond Multi-Task Dense Prediction with Synergy Embedding ModelsHuimin Huang, Yawen Huang, Lanfen Lin, Ruofeng Tong 0001, Yen-Wei Chen 0001, Hao Zheng 0008, Yuexiang Li, Yefeng Zheng 0001. 28181-28190 [doi]

Disentangled Pre-Training for Human-Object Interaction DetectionZhuolong Li, Xingao Li, Changxing Ding, Xiangmin Xu. 28191-28201 [doi]

Osprey: Pixel Understanding with Visual Instruction TuningYuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu. 28202-28211 [doi]

Discovering Syntactic Interaction Clues for Human-Object Interaction DetectionJinguo Luo, Weihong Ren, Weibo Jiang, Xi'ai Chen, Qiang Wang, Zhi Han, Honghai Liu 0001. 28212-28222 [doi]

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré BallSimon Weber 0002, Baris Zöngür, Nikita Araslanov, Daniel Cremers. 28223-28232 [doi]

HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph GenerationCe Zhang 0009, Simon Stepputtis, Joseph Campbell, Katia P. Sycara, Yaqi Xie. 28233-28243 [doi]

Hierarchical Intra-Modal Correlation Learning for Label-Free 3D Semantic SegmentationXin Kang, Lei Chu, Jiahao Li, Xuejin Chen, Yan Lu. 28244-28253 [doi]

FreePoint: Unsupervised Point Cloud Instance SegmentationZhikai Zhang, Jian Ding, Li Jiang 0009, Dengxin Dai, Guisong Xia. 28254-28263 [doi]

GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-Aware Panoramic Semantic SegmentationWeiming Zhang, Yexin Liu, Xu Zheng, Lin Wang. 28264-28273 [doi]

MaskClustering: View Consensus Based Mask Graph Clustering for Open-Vocabulary 3D Instance SegmentationMi Yan, Jiazhao Zhang, Yan Zhu, He Wang. 28274-28284 [doi]

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth EstimationSuraj Patni, Aradhye Agarwal, Chetan Arora 0002. 28285-28295 [doi]

Physical Property Understanding from Language-Embedded Feature FieldsAlbert J. Zhai, Yuan Shen, Emily Y. Chen, Gloria X. Wang, Xinlei Wang, Sheng Wang, Kaiyu Guan, Shenlong Wang. 28296-28305 [doi]

LLM4SGG: Large Language Models for Weakly Supervised Scene Graph GenerationKibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim 0007, Chanyoung Park. 28306-28316 [doi]

DSGG: Dense Relation Transformer for an End-to-End Scene Graph GenerationZeeshan Hayder, Xuming He 0001. 28317-28326 [doi]

OTE: Exploring Accurate Scene Text Recognition Using One TokenJianjun Xu, Yuxin Wang 0002, Hongtao Xie, Yongdong Zhang 0001. 28327-28336 [doi]

SemCity: Semantic Scene Generation with Triplane DiffusionJumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui Yoon. 28337-28347 [doi]

Advancing Saliency Ranking with Human Fixations: Dataset, Models and BenchmarksBowen Deng, Siyang Song, Andrew P. French, Denis Schluppeck, Michael P. Pound. 28348-28357 [doi]

Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and EditingBoqiang Zhang, Hongtao Xie, Zuan Gao, Yuxin Wang. 28358-28368 [doi]

Leveraging Predicate and Triplet Learning for Scene Graph GenerationJiankai Li, Yunhong Wang, Xiefan Guo, Ruijie Yang, Weixin Li 0001. 28369-28379 [doi]

Regressor-Segmenter Mutual Prompt Learning for Crowd CountingMingyue Guo, Li Yuan, Zhaoyi Yan, Binghui Chen, Yaowei Wang, Qixiang Ye. 28380-28389 [doi]

Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction RecognitionYuchen Zhou, Linkai Liu, Chao Gou. 28390-28400 [doi]

SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and its Downstream TasksYaxu Xie, Alain Pagani, Didier Stricker. 28401-28411 [doi]

Open-Vocabulary Semantic Segmentation with Image Embedding BalancingXiangheng Shan, Dongyue Wu, Guilin Zhu, Yuanjie Shao, Nong Sang, Changxin Gao. 28412-28421 [doi]

Bridging the Synthetic-to-Authentic Gap: Distortion-Guided Unsupervised Domain Adaptation for Blind Image Quality AssessmentAobo Li, Jinjian Wu, Yongxu Liu 0001, Leida Li. 28422-28431 [doi]

Robust Distillation via Untargeted and Targeted Intermediate Adversarial SamplesJunhao Dong, Piotr Koniusz, Junxi Chen, Z. Jane Wang, Yew-Soon Ong. 28432-28442 [doi]

Class Incremental Learning with Multi-Teacher DistillationHaitao Wen, Lili Pan 0001, Yu Dai, Heqian Qiu, Lanxiao Wang, Qingbo Wu 0001, Hongliang Li 0001. 28443-28452 [doi]

Large Language Models are Good Prompt Learners for Low-Shot Image ClassificationZhaoheng Zheng, Jingmin Wei, Xuefeng Hu, Haidong Zhu, Ram Nevatia. 28453-28462 [doi]

Consistent Prompting for Rehearsal-Free Continual LearningZhanxin Gao, Jun Cen, Xiaobin Chang. 28463-28473 [doi]

Tuning Stable Rank Shrinkage: Aiming at the Overlooked Structural Risk in Fine-tuningSicong Shen, Yang Zhou, Bingzheng Wei, Eric I-Chao Chang, Yan Xu. 28474-28484 [doi]

Coherent Temporal Synthesis for Incremental Action SegmentationGuodong Ding, Hans Golong, Angela Yao. 28485-28494 [doi]

FCS: Feature Calibration and Separation for Non-Exemplar Class Incremental LearningQiwei Li, Yuxin Peng, Jiahuan Zhou. 28495-28504 [doi]

DeIL: Direct-and-Inverse CLIP for Open-World Few-Shot LearningShuai Shao 0006, Yu Bai, Yan Wang, Baodi Liu, Yicong Zhou. 28505-28514 [doi]

Understanding and Improving Source-Free Domain Adaptation from a Theoretical PerspectiveYu Mitsuzumi, Akisato Kimura, Hisashi Kashima. 28515-28524 [doi]

Resurrecting Old Classes with New Data for Exemplar-Free Continual LearningDipam Goswami, Albin Soutif-Cormerais, Yuyang Liu, Sandesh Kamath, Bartlomiej Twardowski, Joost van de Weijer 0001. 28525-28534 [doi]

Adversarially Robust Few-shot Learning via Parameter Co-distillation of Similarity and Class Concept LearnersJunhao Dong, Piotr Koniusz, Junxi Chen, Xiaohua Xie, Yew-Soon Ong. 28535-28544 [doi]

Learning CNN on ViT: A Hybrid Model to Explicitly Class-Specific Boundaries for Domain AdaptationBa-Hung Ngo, Nhat-Tuong Do-Tran, Tuan Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi. 28545-28554 [doi]

Efficient Stitchable Task AdaptationHaoyu He, Zizheng Pan, Jing Liu, Jianfei Cai 0001, Bohan Zhuang. 28555-28565 [doi]

Gradient-based Parameter Selection for Efficient Fine-TuningZhi Zhang, Qizhe Zhang, Zijun Gao, Renrui Zhang, Ekaterina Shutova, Shiji Zhou, Shanghang Zhang. 28566-28577 [doi]

ArGue: Attribute-Guided Prompt Tuning for Vision-Language ModelsXinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang. 28578-28587 [doi]

Simple Semantic-Aided Few-Shot LearningHai Zhang, Junzhe Xu 0002, Shanlin Jiang, Zhenan He 0001. 28588-28597 [doi]

Long-Tail Class Incremental Learning via Independent SUb-Prototype ConstructionXi Wang, Xu Yang, Jie Yin, Kun Wei, Cheng Deng. 28598-28607 [doi]

Few-Shot Object Detection with Foundation ModelsGuangxing Han, Ser-Nam Lim. 28608-28618 [doi]

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic SegmentationZhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma 0006, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng. 28619-28630 [doi]

Continual Forgetting for Pre-Trained Vision ModelsHongbo Zhao 0006, Bolin Ni, Junsong Fan, Yuxi Wang, YunTao Chen, Gaofeng Meng, Zhaoxiang Zhang 0001. 28631-28642 [doi]

AETTA: Label-Free Accuracy Estimation for Test-Time AdaptationTaeckyung Lee, Sorn Chottananurak, Taesik Gong, Sung-Ju Lee. 28643-28652 [doi]

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time AdaptationJiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang. 28653-28663 [doi]

LEAD: Exploring Logit Space Evolution for Model SelectionZixuan Hu, Xiaotong Li, Shixiang Tang, Jun Liu 0036, Yichun Hu, Ling-Yu Duan. 28664-28673 [doi]

Instance-based Max-margin for Practical Few-shot RecognitionMinghao Fu, Ke Zhu. 28674-28683 [doi]

Domain Gap Embeddings for Generative Dataset AugmentationYinong Oliver Wang, Younjoon Chung, Chen Henry Wu, Fernando De la Torre. 28684-28694 [doi]

JoAPR: Cleaning the Lens of Prompt Learning for Vision-Language ModelsYuncheng Guo, Xiaodong Gu. 28695-28705 [doi]

Generative Multi-modal Models are Good Class-Incremental LearnersXusheng Cao, Haori Lu, Linlan Huang, Xialei Liu, Ming-Ming Cheng. 28706-28717 [doi]

Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language ModelsYabin Zhang 0001, Wenjie Zhu, Hui Tang, Zhiyuan Ma 0002, Kaiyang Zhou, Lei Zhang. 28718-28728 [doi]

UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and MemoryHaiwen Diao, Bo Wan, Ying Zhang, Xu Jia, Huchuan Lu, Long Chen. 28729-28740 [doi]

Federated Generalized Category DiscoveryNan Pu, Wenjing Li 0005, Xingyuan Ji, Yalan Qin, Nicu Sebe, Zhun Zhong. 28741-28750 [doi]

Learning from One Continuous Video StreamJoão Carreira 0001, Michael King, Viorica Patraucean, Dilara Gokay, Catalin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman. 28751-28761 [doi]

OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental LearningNoor Ahmed, Anna Kukleva, Bernt Schiele. 28762-28771 [doi]

SDDGR: Stable Diffusion-Based Deep Generative Replay for Class Incremental Object DetectionJunsu Kim, Hoseong Cho, Jihyeon Kim, Yihalem Yimolal Tiruneh, SeungRyul Baek. 28772-28781 [doi]

Active Domain Adaptation with False Negative Prediction for Object DetectionYuzuru Nakamura, Yasunori Ishii, Takayoshi Yamashita. 28782-28792 [doi]

Stationary Representations: Optimally Approximating Compatibility and Implications for Improved Model ReplacementsNiccolo Biondi, Federico Pernici, Simone Ricci, Alberto Del Bimbo. 28793-28804 [doi]

Your Transferability Barrier is Fragile: Free-Lunch for Transferring the Non-Transferable LearningZiming Hong, Li Shen 0008, Tongliang Liu. 28805-28815 [doi]

Transductive Zero-Shot and Few-Shot CLIPSégolène Martin, Yunshi Huang, Fereshteh Shakeri, Jean-Christophe Pesquet, Ismail Ben Ayed. 28816-28826 [doi]

Task2Box: Box Embeddings for Modeling Asymmetric Task RelationshipsRangel Daroya, Aaron Sun, Subhransu Maji. 28827-28837 [doi]

Unbiased Faster R-CNN for Single-source Domain Generalized Object DetectionYajing Liu, Shijun Zhou, Xiyao Liu 0006, Chunhui Hao, Baojie Fan, Jiandong Tian. 28838-28847 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024, Seattle, WA, USA, June 16-22, 2024

Abstract

Table of Contents