IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025, Nashville, TN, USA, June 11-15, 2025

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025, Nashville, TN, USA, June 11-15, 2025. Computer Vision Foundation / IEEE, 2025. [doi]

Conference: cvpr2025

Abstract is missing.

Motion Prompting: Controlling Video Generation with Motion TrajectoriesDaniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Yusuf Aytar, Michael Rubinstein, Chen Sun 0002, Oliver Wang, Andrew Owens, Deqing Sun. 1-12 [doi]

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped NoiseRyan D. Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael S. Ryoo, Paul E. Debevec, Ning Yu. 13-23 [doi]

LookingGlass: Generative Anamorphoses via Laplacian Pyramid WarpingPascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross 0001, Vinicius C. Azevedo. 24-33 [doi]

Alias-Free Latent Diffusion Models: Improving Fractional Shift Equivariance of Diffusion Latent SpaceYifan Zhou 0001, Zeqi Xiao, Shuai Yang 0001, Xingang Pan. 34-44 [doi]

RandAR: Decoder-only Autoregressive Visual Generation in Random OrdersZiqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan 0002, Kai Zhang 0045, William T. Freeman, Yu-Xiong Wang. 45-55 [doi]

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text GenerationPengfei Zhou, Xiaopeng Peng 0001, Jiajun Song, Chuanhao Li 0001, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang. 56-66 [doi]

LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer AttributionsFaridoun Mehri, Mahdieh Soleymani Baghshah, Mohammad Taher Pilehvar. 67-78 [doi]

Do We Always Need the Simplicity Bias? Looking for Optimal Inductive Biases in the WildDamien Teney, Liangze Jiang, Florin Gogianu, Ehsan Abbasnejad. 79-90 [doi]

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language ModelsMatt Deitke, Christopher Clark, Sangho Lee 0001, Rohun Tripathi, Yue Yang 0006, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, Yen-Sung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert 0001, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz 0002, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross B. Girshick, Ali Farhadi, Aniruddha Kembhavi. 91-104 [doi]

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face DetectorXiao Guo, Xiufeng Song, Yue Zhang, Xiaohong Liu, Xiaoming Liu. 105-116 [doi]

CleanDIFT: Diffusion Features without NoiseNick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer. 117-127 [doi]

OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic KernelsMeng Lou, Yizhou Yu. 128-138 [doi]

Towards Explicit Geometry-Reflectance Collaboration for Generalized LiDAR Segmentation in Adverse WeatherLongyu Yang, Ping Hu, Shangbo Yuan, Lu Zhang 0053, Jun Liu 0036, Hengtao Shen, Xiaofeng Zhu 0001. 139-149 [doi]

DiffFNO: Diffusion Fourier Neural OperatorXiaoyi Liu, Hao Tang. 150-160 [doi]

Removing Reflections from RAW PhotosEric Kee, Adam Pikielny, Kevin Blackburn-Matzen, Marc Levoy. 161-171 [doi]

Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie DubbingZhedong Zhang, Liang Li 0003, Chenggang Yan 0001, Chunshan Liu, Anton van den Hengel, Yuankai Qi. 172-182 [doi]

Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial AnimationHao Li, Ju Dai, Xin Zhao, Feng Zhou 0007, JunJun Pan, Lei Li 0050. 183-192 [doi]

Sonic: Shifting Focus to Global Audio Perception in Portrait AnimationXiaozhong Ji, Xiaobin Hu, Zhihong Xu, Junwei Zhu, Chuming Lin, Qingdong He, Jiangning Zhang, Donghao Luo 0001, Yi Chen, Qin Lin, Qinglin Lu, Chengjie Wang. 193-203 [doi]

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic TextureXuanchen Li, Jianyu Wang, Yuhao Cheng, Yikun Zeng, Xingyu Ren, Wenhan Zhu, Weiming Zhao, Yichao Yan. 204-214 [doi]

Electromyography-Informed Facial Expression Reconstruction for Physiological-Based Synthesis and AnalysisTim Büchner, Christoph Anders 0001, Orlando Guntinas-Lichius, Joachim Denzler. 215-227 [doi]

High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion ModelMingtao Guo, Guanyu Xing, Yanli Liu 0002. 228-238 [doi]

Quaffure: Real-Time Quasi-Static Neural Hair SimulationTuur Stuyck, Gene Wei-Chin Lin, Egor Larionov, Hsiao-yu Chen, Aljaz Bozic, Nikolaos Sarafianos, Doug Roble. 239-249 [doi]

GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian ProjectionsWei-Qi Feng, Dong Han, Ze-Kang Zhou, Shunkai Li, Xiaoqiang Liu, Pengfei Wan, Di Zhang, Miao Wang. 250-259 [doi]

HERA: Hybrid Explicit Representation for Ultra-Realistic Head AvatarsHongrui Cai, Yuting Xiao, Xuan Wang, Jiafei Li, Yudong Guo, Yanbo Fan, Shenghua Gao, Juyong Zhang. 260-270 [doi]

GASP: Gaussian Avatars with Synthetic PriorsJack R. Saunders, Charlie Hewitt, Yanan Jian, Marek Kowalski, Tadas Baltrusaitis, Yiye Chen, Darren Cosker, Virginia Estellers, Nicholas Gyde, Vinay P. Namboodiri, Benjamin E. Lundell. 271-280 [doi]

FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few ImagesRong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin 0003, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero 0002, Rohan Joshi, Hongdong Li, Jason M. Saragih, Yaser Sheikh. 281-291 [doi]

DAGSM: Disentangled Avatar Generation with GS-enhanced MeshJingyu Zhuang, Di Kang, Linchao Bao, Liang Lin, Guanbin Li. 292-303 [doi]

HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale DatasetZedong Chu, Feng Xiong, Meiduo Liu, Jinzhi Zhang, Mingqi Shao, Zhaoxu Sun, Di Wang, Mu Xu. 304-313 [doi]

SKDream: Controllable Multi-view and 3D Generation with Arbitrary SkeletonsYuanyou Xu, Zongxin Yang, Yi Yang 0001. 314-325 [doi]

FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference StrategyXingchao Yang, Takafumi Taketomi, Yuki Endo, Yoshihiro Kanamori. 326-337 [doi]

MultiGO: Towards Multi-level Geometry Learning for Monocular 3D Textured Human ReconstructionGangjian Zhang, Nanjie Yao, Shunsi Zhang, Hanfeng Zhao, Guoliang Pang, Jian Shu 0001, Hao Wang. 338-347 [doi]

GaussianIP: Identity-Preserving Realistic 3D Human Generation via Human-Centric Diffusion PriorZichen Tang, Yuan Yao, Miaomiao Cui, Liefeng Bo, Hongyu Yang. 348-358 [doi]

Shining Yourself: High-Fidelity Ornaments Virtual Try-on with Diffusion ModelYingmao Miao, Zhanpeng Huang, Rui Han, Zibin Wang, Chenhao Lin, Chao Shen 0001. 359-368 [doi]

SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic FacesSumit Chaturvedi, Mengwei Ren, Yannick Hold-Geoffroy, Jingyuan Liu, Julie Dorsey, Zhixin Shu. 369-379 [doi]

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and HarmonizationJunying Wang, Jingyuan Liu, Xin Sun 0014, Krishna Kumar Singh, Zhixin Shu, He Zhang 0004, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon. 380-390 [doi]

Polarized Color Screen MattingKenji Enomoto, Scott Cohen, Brian L. Price, T. J. Rhodes. 391-399 [doi]

SLVR: Super-Light Visual Reconstruction via Blueprint Controllable Convolutions and Exploring Feature Diversity RepresentationNing Ni, Libao Zhang. 400-410 [doi]

Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel ImagingPing Wang, Lishun Wang, Gang Qu 0005, Xiaodong Wang, Yulun Zhang 0001, Xin Yuan 0002. 411-421 [doi]

Glossy Object Reconstruction with Cost-effective Polarized AcquisitionBojian Wu, Yifan Peng 0001, Ruizhen Hu, Xiaowei Zhou 0001. 422-431 [doi]

Blurry-Edges: Photon-Limited Depth Estimation from Defocused BoundariesWei Xu, Charles James Wagner, Junjie Luo 0009, Qi Guo. 432-441 [doi]

LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene RelightingXiaoyan Xing, Konrad Groh, Sezer Karaoglu, Theo Gevers, Anand Bhattad. 442-452 [doi]

LEDiff: Latent Exposure Diffusion for HDR GenerationChao Wang, Zhihao Xia, Thomas Leimkühler, Karol Myszkowski, Xuaner Zhang. 453-464 [doi]

IRIS: Inverse Rendering of Indoor Scenes from Low Dynamic Range ImagesChih-Hao Lin, Jia-Bin Huang, Zhengqin Li, Zhao Dong 0001, Christian Richardt, Tuotuo Li, Michael Zollhöfer, Johannes Kopf 0001, Shenlong Wang, Changil Kim 0001. 465-474 [doi]

Differentiable Inverse Rendering with Interpretable Basis BRDFsHoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek. 475-484 [doi]

Hardware-Rasterized Ray-Based Gaussian SplattingSamuel Rota Bulò, Nemanja Bartolovic, Lorenzo Porzi, Peter Kontschieder. 485-494 [doi]

TensoFlow: Tensorial Flow-based Sampler for Inverse RenderingChun Gu, Xiaofei Wei, Li Zhang 0040, Xiatian Zhu. 495-504 [doi]

LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance FieldsZhengqin Li, Dilin Wang, Ka Chen, Zhaoyang Lv, Thu Nguyen-Phuoc, Milim Lee, Jia-Bin Huang, Lei Xiao, Yufeng Zhu, Carl S. Marshall, Yuheng Ren, Richard A. Newcombe, Zhao Dong. 505-517 [doi]

Gaussian Splashing: Unified Particles for Versatile Motion Synthesis and RenderingYutao Feng, Xiang Feng, Yintong Shang, Ying Jiang, Chang Yu 0005, Zeshun Zong, Tianjia Shao, Hongzhi Wu, Kun Zhou 0001, Chenfanfu Jiang, Yin Yang 0002. 518-529 [doi]

Accurate Differential Operators for Hybrid Neural FieldsAditya Chetan, Guandao Yang, Zichen Wang, Steve Marschner, Bharath Hariharan. 530-539 [doi]

Learning Extremely High Density Crowds as Active MattersFeixiang He, Jiangbei Yue, Jialin Zhu, Armin Seyfried, Dan Casas, Julien Pettré, He Wang 0002. 540-550 [doi]

TexGaussian: Generating High-quality PBR Material via Octree-based 3D Gaussian SplattingBojun Xiong, Jialun Liu, Jiakui Hu, Chenming Wu, Jinbo Wu, Xing Liu, Chen Zhao, Errui Ding, Zhouhui Lian. 551-561 [doi]

Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected TexturesGuoxing Sun 0001, Rishabh Dabral, Heming Zhu, Pascal Fua, Christian Theobalt, Marc Habermann. 562-573 [doi]

RoomPainter: View-Integrated Diffusion for Consistent Indoor Scene TexturingZhipeng Huang 0001, Wangbo Yu, Xinhua Cheng, ChengShu Zhao, Yunyang Ge, Mingyi Guo, Li Yuan 0007, Yonghong Tian 0001. 574-584 [doi]

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3DWei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu 0002, Ziwei Liu 0002, Liang Pan. 585-594 [doi]

Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play DeformationQiao Yu, Xianzhi Li, Yuan Tang, Xu Han, Long Hu, Yixue Hao, Min Chen. 595-604 [doi]

ShapeShifter: 3D Variations Using Multiscale and Sparse Point-Voxel DiffusionNissim Maruani, Wang Yifan 0001, Matthew Fisher, Pierre Alliez, Mathieu Desbrun. 605-617 [doi]

MeshArt: Generating Articulated Meshes with Structure-Guided TransformersDaoyi Gao, Yawar Siddiqui, Lei Li, Angela Dai. 618-627 [doi]

SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene GenerationAleksei Bokhovkin, Quan Meng, Shubham Tulsiani, Angela Dai. 628-639 [doi]

PrEditor3D: Fast and Precise 3D Shape EditingZiya Erkoç, Can Gümeli, Chaoyang Wang 0001, Matthias Nießner, Angela Dai, Peter Wonka, Hsin-Ying Lee 0001, Peiye Zhuang. 640-649 [doi]

LT3SD: Latent Trees for 3D Scene DiffusionQuan Meng, Lei Li 0038, Matthias Nießner, Angela Dai. 650-660 [doi]

iSegMan: Interactive Segment-and-Manipulate 3D GaussiansYian Zhao, Wanshi Xu, Ruochong Zheng, Pengchong Qiao, Chang Liu, Jie Chen. 661-670 [doi]

LOD-GS: Achieving Levels of Detail using Scalable Gaussian SoupJianxiong Shen, Yue Qian, Xiaohang Zhan. 671-680 [doi]

MaskGaussian: Adaptive 3D Gaussian Representation from Probabilistic MasksYiFei Liu, Zhihang Zhong, Yifan Zhan, Sheng Xu, Xiao Sun 0001. 681-690 [doi]

NTR-Gaussian: Nighttime Dynamic Thermal Reconstruction with 4D Gaussian Splatting Based on ThermodynamicsKun Yang, Yuxiang Liu, Zeyu Cui, Yu Liu 0008, Maojun Zhang, Shen Yan, Qing Wang. 691-700 [doi]

DropoutGS: Dropping Out Gaussians for Better Sparse-view RenderingYexing Xu, Longguang Wang, Minglin Chen, Sheng Ao, Li Li 0100, Yulan Guo. 701-710 [doi]

S2Gaussian: Sparse-View Super-Resolution 3D Gaussian SplattingYecong Wan, Mingwen Shao, Yuanshuo Cheng, Wangmeng Zuo. 711-721 [doi]

DeSplat: Decomposed Gaussian Splatting for Distractor-Free RenderingYihao Wang, Marcus Klasson, Matias Turkulainen, Shuzhe Wang, Juho Kannala, Arno Solin. 722-732 [doi]

Neural Hierarchical Decomposition for Single Image Plant ModelingZhihao Liu, Zhanglin Cheng, Naoto Yokoya. 733-742 [doi]

Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D GenerationXiang Li, Zixuan Huang 0001, Anh Thai, James M. Rehg. 743-752 [doi]

Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin DatasetZhao Dong, Ka Chen, Zhaoyang Lv, Hong-Xing Yu, Yunzhi Zhang, Cheng Zhang, Yufeng Zhu, Stephen Tian, Zhengqin Li, Geordie Moffatt, Sean Christofferson, James Fort, Xiaqing Pan, Mingfei Yan, Jiajun Wu, Carl Yuheng Ren, Richard A. Newcombe. 753-763 [doi]

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric DiffusionVitor Guizilini, Muhammad Zubair Irshad, Dian Chen 0005, Greg Shakhnarovich, Rares Ambrus. 764-776 [doi]

NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed ImagesLingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Wenbo Hu 0002, Xiaoyu Li 0002, Weihao Cheng 0002, Jinwei Gu, Tianfan Xue, Ying Shan. 777-787 [doi]

HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian SplattingJingyu Lin, Jiaqi Gu 0004, Lubin Fan, Bojian Wu, Yujing Lou, Renjie Chen 0001, Ligang Liu, Jieping Ye. 788-797 [doi]

Wonderland: Navigating 3D Scenes from a Single ImageHanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren 0005. 798-810 [doi]

SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular InputZhen Lv, Yangqi Long, Congzhentao Huang, Cao Li, Chengfei Lv, Hao Ren, Dian Zheng. 811-821 [doi]

StreetCrafter: Street View Synthesis with Controllable Video Diffusion ModelsYunzhi Yan, Zhen Xu 0008, Haotong Lin, Haian Jin, Haoyu Guo, Yida Wang, Kun Zhan, Xianpeng Lang, Hujun Bao, Xiaowei Zhou 0001, Sida Peng. 822-832 [doi]

DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone ImageryJiadong Tang, Yu Gao, Dianyi Yang, Liqi Yan, Yufeng Yue, Yi Yang 0009. 833-843 [doi]

IndoorGS: Geometric Cues Guided Gaussian Splatting for Indoor Scene ReconstructionCong Ruan, Yuesong Wang 0001, Tao Guan, Bin Zhang, Lili Ju. 844-853 [doi]

MAC-Ego3D: Multi-Agent Gaussian Consensus for Real-Time Collaborative Ego-Motion and Photorealistic 3D ReconstructionXiaohao Xu, Feng Xue, Shibo Zhao, Yike Pan, Sebastian Scherer, Xiaonan Huang. 854-863 [doi]

ShowMak3r: Compositional TV Show ReconstructionSangmin Kim, Seunguk Do, Jaesik Park. 864-874 [doi]

4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint VideoQiang Hu, Zihan Zheng, Houqiang Zhong, Sihua Fu, Li Song 0001, Xiaoyun Zhang 0001, Guangtao Zhai, Yanfeng Wang 0001. 875-885 [doi]

HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion RepresentationYiming Liang, Tianhan Xu, Yuta Kikuchi. 886-895 [doi]

EnliveningGS: Active Locomotion of 3DGSSiyuan Shen, Tianjia Shao, Kun Zhou 0001, Chenfanfu Jiang, Yin Yang 0002. 896-905 [doi]

HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture GenerationHongye Cheng, Tianyu Wang, Guangsi Shi, Zexing Zhao, Yanwei Fu 0001. 906-916 [doi]

Stable-SCore: A Stable Registration-based Framework for 3D Shape CorrespondenceHaolin Liu, Xiaohang Zhan, Zizheng Yan, Zhongjin Luo, Yuxin Wen, Xiaoguang Han 0001. 917-928 [doi]

Active Hyperspectral Imaging Using an Event CameraBohan Yu, Jinxiu Liang, Zhuofeng Wang, Bin Fan 0002, Art Subpa-asa, Boxin Shi, Imari Sato. 929-939 [doi]

SphereUFormer: A U-Shaped Transformer for Spherical 360 PerceptionYaniv Benny, Lior Wolf. 940-950 [doi]

Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-ResolutionHuan Zheng, Wencheng Han, Jianbing Shen. 951-960 [doi]

A Unified Image-Dense Annotation Generation Model for Underwater ScenesHongkai Lin, Dingkang Liang, Zhenghao Qi, Xiang Bai. 961-970 [doi]

Active Event-based Stereo VisionJianing Li, Yunjian Zhang, Haiqian Han, Xiangyang Ji. 971-981 [doi]

PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial AugmentationZidong Cao, Jinjing Zhu, Weiming Zhang 0001, Hao Ai, Haotian Bai, Hengshuang Zhao, Lin Wang 0025. 982-992 [doi]

Flow-NeRF: Joint Learning of Geometry, Poses, and Dense Flow within Unified Neural RepresentationsXunzhi Zheng, Dan Xu. 993-1002 [doi]

OmniStereo: Real-time Omnidireactional Depth Estimation with Multiview Fisheye CamerasJiaxi Deng, Yushen Wang, Haitao Meng, Zuoxun Hou, Yi Chang, Gang Chen 0023. 1003-1012 [doi]

Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono FailLuca Bartolomei 0001, Fabio Tosi, Matteo Poggi, Stefano Mattoccia. 1013-1027 [doi]

UniK3D: Universal Camera Monocular 3D EstimationLuigi Piccinelli, Christos Sakaridis, Mattia Segù, Yung-Hsu Yang, Siyuan Li 0008, Wim Abbeloos, Luc Van Gool. 1028-1039 [doi]

Structure-from-Motion with a Non-Parametric Camera ModelYihan Wang, Linfei Pan, Marc Pollefeys, Viktor Larsson. 1040-1049 [doi]

MUSt3R: Multi-view Network for Stereo 3D ReconstructionYohann Cabon, Lucas Stoffl, Leonid Antsfeld, Gabriela Csurka, Boris Chidlovskii, Jérôme Revaud, Vincent Leroy 0003. 1050-1060 [doi]

Extreme Rotation Estimation in the WildHana Bezalel, Dotan Ankri, Ruojin Cai, Hadar Averbuch-Elor. 1061-1070 [doi]

Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene PriorsWonbong Jang, Philippe Weinzaepfel, Vincent Leroy 0003, Lourdes Agapito, Jérôme Revaud. 1071-1081 [doi]

Gaussian Splatting Feature Fields for (Privacy-Preserving) Visual LocalizationMaxime Pietrantoni, Gabriela Csurka, Torsten Sattler. 1082-1092 [doi]

Dense Match Summarization for Faster Two-view EstimationJonathan Astermark, Anders Heyden, Viktor Larsson. 1093-1102 [doi]

Cross-View Completion Models are Zero-shot Correspondence EstimatorsHonggyu An, Jin-Hyeon Kim, Seonghoon Park 0002, Jaewoo Jung, Jisang Han, Sunghwan Hong, Seungryong Kim. 1103-1115 [doi]

Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single VideoDavid Yifan Yao, Albert J. Zhai, Shenlong Wang. 1116-1126 [doi]

EquiPose: Exploiting Permutation Equivariance for Relative Camera Pose EstimationYuzhen Liu, Qiulei Dong. 1127-1137 [doi]

SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class RepresentationsKrispin Wandel, Hesheng Wang 0001. 1138-1147 [doi]

PromptHMR: Promptable Human Mesh RecoveryYufu Wang, Yu Sun 0030, Priyanka Patel, Kostas Daniilidis, Michael J. Black, Muhammed Kocabas. 1148-1159 [doi]

DynPose: Largely Improving the Efficiency of Human Pose Estimation by a Simple Dynamic FrameworkYalong Xu, Lin Zhao 0003, Chen Gong 0002, Guangyu Li, Di Wang, Nannan Wang 0001. 1160-1169 [doi]

Rethinking Correspondence-based Category-Level Object Pose EstimationHuan Ren, Wenfei Yang, Shifeng Zhang, Tianzhu Zhang. 1170-1179 [doi]

UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial ReferencesMing-Feng Li, Xin Yang, Fu-En Wang, Hritam Basak, Yuyin Sun, Shreekant Gayaka, Min Sun 0001, Cheng-Hao Kuo. 1180-1189 [doi]

PlanarSplatting: Accurate Planar Surface Reconstruction in 3 MinutesBin Tan, Rui Yu, Yujun Shen, Nan Xue 0001. 1190-1199 [doi]

Prior-free 3D Object TrackingXiuqiang Song, Li Jin, Zhengxian Zhang, Jiachen Li, Fan Zhong, Guofeng Zhang 0001, Xueying Qin. 1200-1209 [doi]

Progressive Correspondence Regenerator for Robust 3D RegistrationGuiyu Zhao, Sheng Ao, Ye Zhang, Kai Xu, Yulan Guo. 1210-1219 [doi]

CaMuViD: Calibration-Free Multi-View DetectionAmir Etefaghi Daryani, M. Usman Maqbool Bhutta, Byron Hernandez, Henry Medeiros 0001. 1220-1229 [doi]

A New Statistical Model of Star Speckles for Learning to Detect and Characterize Exoplanets in Direct Imaging ObservationsThéo Bodrito, Olivier Flasseur, Julien Mairal, Jean Ponce, Maud Langlois, Anne-Marie Lagrange. 1230-1240 [doi]

AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-IdentificationHuy Nguyen, Kien Nguyen, Akila Pemasiri, Feng Liu 0037, Sridha Sridharan, Clinton Fookes. 1241-1251 [doi]

MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training SmoothingShuo Wang, Wanting Li, Yongcai Wang, Zhaoxin Fan, Zhe Huang, Xudong Cai, Jian Zhao, Deying Li 0001. 1252-1262 [doi]

Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud AnalysisHongyu Sun 0006, Qiuhong Ke, Ming Cheng, Yongcai Wang, Deying Li 0001, Chenhui Gou, Jianfei Cai 0001. 1263-1275 [doi]

HotSpot: Signed Distance Function Optimization with an Asymptotically Sufficient ConditionZimo Wang, Cheng Wang, Taiki Yoshino, Sirui Tao, Ziyang Fu, Tzu-Mao Li. 1276-1286 [doi]

High-quality Point Cloud Oriented Normal Estimation via Hybrid Angular and Euclidean Distance EncodingYuanqi Li, Jingcheng Huang, Hongshen Wang, Peiyuan Lv, Yansong Liu, Jiuming Zheng, Jie Guo, Yanwen Guo 0001. 1287-1296 [doi]

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape FunctionsJiangbei Hu, Yanggeng Li, Fei Hou, Junhui Hou, Zhebin Zhang, Shengfa Wang, Na Lei, Ying He 0001. 1297-1307 [doi]

GenPC: Zero-shot Point Cloud Completion via 3D Generative PriorsAn Li, Zhe Zhu, Mingqiang Wei. 1308-1318 [doi]

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian SplattingZiyi Wang 0007, Yanran Zhang, Jie Zhou 0001, Jiwen Lu. 1319-1329 [doi]

DeepLA-Net: Very Deep Local Aggregation Networks for Point Cloud AnalysisZiyin Zeng, Mingyue Dong, Jian Zhou, Huan Qiu, Zhen Dong 0005, Man Luo, Bijun Li. 1330-1341 [doi]

SAMBLE: Shape-Specific Point Cloud Sampling for an Optimal Trade-Off Between Local Detail and Global UniformityChengzhi Wu, Yuxin Wan, Hao Fu, Julius Pfrommer, Zeyun Zhong, Junwei Zheng, Jiaming Zhang, Jürgen Beyerer. 1342-1352 [doi]

PO3AD: Predicting Point Offsets toward Better 3D Point Cloud Anomaly DetectionJianan Ye, Weiguang Zhao, Xi Yang 0008, Guangliang Cheng, Kaizhu Huang. 1353-1362 [doi]

HeMoRa: Unsupervised Heuristic Consensus Sampling for Robust Point Cloud RegistrationShaocheng Yan, Yiming Wang, Kaiyan Zhao, Pengcheng Shi, Zhenjun Zhao, Yongjun Zhang 0002, Jiayuan Li. 1363-1373 [doi]

LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point CloudsZihui Zhang, Weisheng Dai, Hongtao Wen 0001, Bo Yang 0027. 1374-1384 [doi]

AirRoom: Objects Matter in Room ReidentificationRunmao Yao, Yi Du, Zhuoqun Chen, Haoze Zheng, Chen Wang. 1385-1394 [doi]

Open-Canopy: Towards Very High Resolution Forest MonitoringFajwel Fogel, Yohann Perron, Nikola Besic, Laurent Saint-André, Agnès Pellissier-Tanon, Martin Schwartz, Thomas Boudras, Ibrahim Fayad, Alexandre d'Aspremont, Loïc Landrieu, Philippe Ciais. 1395-1406 [doi]

UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object DetectionXin Jin 0014, Haisheng Su, Kai Liu, Cong Ma, Wei Wu, Fei Hui, Junchi Yan. 1407-1417 [doi]

Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual LabelsQiming Xia, Wenkai Lin, Haoen Xiang, Xun Huang, Siheng Chen, Zhen Dong 0005, Cheng Wang 0003, Chenglu Wen. 1418-1428 [doi]

HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous DrivingR. D. Lin, Pengcheng Weng, Yinqiao Wang, Han Ding 0002, Jinsong Han, Fei Wang 0037. 1429-1438 [doi]

A Dataset for Semantic Segmentation in the Presence of UnknownsZakaria Laskar, Tomas Vojir, Matej Grcic, Iaroslav Melekhov, Shankar Gangisetty, Juho Kannala, Jiri Matas, Giorgos Tolias, C. V. Jawahar. 1439-1448 [doi]

MAD: Memory-Augmented Detection of 3D ObjectsBen Agro, Sergio Casas 0002, Patrick Wang, Thomas Gilles, Raquel Urtasun. 1449-1460 [doi]

High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous FlightCédric Vincent, Taehyoung Kim, Henri Meeß. 1461-1471 [doi]

EventFly: Event Camera Perception from Ground to the SkyLingdong Kong, Dongyue Lu, Xiang Xu 0009, Lai Xing Ng, Wei Tsang Ooi, Benoit R. Cottereau. 1472-1484 [doi]

MNE-SLAM: Multi-Agent Neural SLAM for Mobile RobotsTianchen Deng, Guole Shen, Chen Xun, Shenghai Yuan, Tongxin Jin, Hongming Shen, Yanbo Wang, Jingchuan Wang, Hesheng Wang 0001, Danwei Wang, Weidong Chen. 1485-1494 [doi]

BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth GuidanceXin Ye, Burhaneddin Yaman, Sheng Cheng, Feng Tao, Abhirup Mallik, Liu Ren. 1495-1504 [doi]

Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy PredictionDubing Chen, Huan Zheng, Jin Fang, Xingping Dong, Xianfei Li, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen. 1505-1515 [doi]

STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow PredictionZhimin Liao, Ping Wei 0001, Shuaijia Chen, Haoxuan Wang, Ziyang Ren. 1516-1526 [doi]

Towards Satellite Image Road Graph Extraction: A Global-Scale Dataset and A Novel MethodPan Yin, Kaiyu Li, Xiangyong Cao, Jing Yao, Lei Liu, Xueru Bai, Feng Zhou 0001, Deyu Meng. 1527-1537 [doi]

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulationChenxu Zhou, Lvchang Fu, Sida Peng, Yunzhi Yan, Zhanhua Zhang, Yong Chen, Jiazhi Xia, Xiaowei Zhou. 1538-1548 [doi]

FlexDrive: Toward Trajectory Flexibility in Driving Scene Gaussian Splatting Reconstruction and RenderingJingqiu Zhou, Lue Fan, Linjiang Huang, Xiaoyu Shi 0002, Si Liu 0001, Zhaoxiang Zhang 0001, Hongsheng Li 0001. 1549-1558 [doi]

ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online RestorationChaojun Ni, Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Wenkang Qin, Guan Huang 0003, Chen Liu, Yuyin Chen, Yida Wang, Xueyang Zhang, Yifei Zhan, Kun Zhan, Peng Jia, Xianpeng Lang, Xingang Wang, Wenjun Mei. 1559-1569 [doi]

SceneDiffuser++: City-Scale Traffic Simulation via a Generative World ModelShuhan Tan, John Lambert, Hong Jeon, Sakshum Kulshrestha, Yijing Bai, Jing Luo, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang. 1570-1580 [doi]

Vid2Sim: Realistic and Interactive Simulation from Video for Urban NavigationZiyang Xie, Zhizheng Liu, Zhenghao Peng, Wayne Wu, Bolei Zhou. 1581-1591 [doi]

One is Plenty: A Polymorphic Feature Interpreter for Immutable Heterogeneous Collaborative PerceptionYuchen Xia, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Yang Li, Xuanhan Zhu, Tianyou Luo, Siheng Chen, Jinglin Li. 1592-1601 [doi]

GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous DrivingZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin. 1602-1611 [doi]

ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode ModelingZikang Zhou, Hengjian Zhou, Haibo Hu, Zihao Wen, Jianping Wang, Yung-hui Li, Yu-Kai Huang. 1612-1621 [doi]

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual RepresentationYichen Xie 0002, Runsheng Xu, Tong He, Jyh-Jing Hwang, Katie Luo, Jingwei Ji, Hubert Lin, Letian Chen, Yiren Lu 0001, Zhaoqi Leng, Dragomir Anguelov, Mingxing Tan. 1622-1632 [doi]

JTD-UAV: MLLM-Enhanced Joint Tracking and Description Framework for Anti-UAV SystemsYifan Wang, Jian Zhao, Zhaoxin Fan, Xin Zhang, Xuecheng Wu, Yudian Zhang, Lei Jin, Xinyue Li, Gang Wang, Mengxi Jia, Ping Hu, Zheng Zhu, Xuelong Li. 1633-1644 [doi]

Adapting to Observation Length of Trajectory Prediction via Contrastive LearningRuiqi Qiu, Jun Gong, Xinyu Zhang, Siqi Luo, Bowen Zhang, Yi Cen. 1645-1654 [doi]

Asynchronous Collaborative Graph Representation for Frames and EventsDianze Li, Jianing Li, Xu Liu, Xiaopeng Fan, Yonghong Tian 0001. 1655-1666 [doi]

METASCENES: Towards Automated Replica Creation for Real-world 3D ScansHuangyue Yu, Baoxiong Jia, Yixin Chen, Yandan Yang, Puhao Li, Rongpeng Su, Jiaxin Li, Qing Li, Wei Liang, Song Chun Zhu, Tengyu Liu, Siyuan Huang. 1667-1679 [doi]

GEAL: Generalizable 3D Affordance Learning with Cross-Modal ConsistencyDongyue Lu, Lingdong Kong, Tianxin Huang, Gim Hee Lee. 1680-1690 [doi]

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language ModelChunlin Yu, Hanqing Wang 0007, Ye Shi 0001, Haoyang Luo, Sibei Yang, Jingyi Yu, Jingya Wang. 1691-1701 [doi]

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action ModelsQingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Tsung-Yi Lin, Gordon Wetzstein, Ming-Yu Liu 0001, Donglai Xiang. 1702-1713 [doi]

MoManipVLA: Transferring Vision-language-action Models for General Mobile ManipulationZhenyu Wu, Yuheng Zhou, Xiuwei Xu, Ziwei Wang 0001, Haibin Yan. 1714-1723 [doi]

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to ConcreteYuheng Ji, Huajie Tan, Jiayu Shi, Xiaoshuai Hao, Yuan Zhang, Hengyuan Zhang, Pengwei Wang, Mengdi Zhao, Yao Mu 0001, Pengju An, Xinda Xue, Qinghang Su, Huaihai Lyu, Xiaolong Zheng 0001, Jiaming Liu 0003, Zhongyuan Wang, Shanghang Zhang. 1724-1734 [doi]

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object ManipulationTianxing Chen, Yao Mu, Zhixuan Liang, Zanxin Chen, Shijia Peng, Qiangyu Chen, Mingkun Xu, Ruizhen Hu, Hongyuan Zhang 0001, Xuelong Li 0001, Ping Luo 0002. 1735-1744 [doi]

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous ManipulationZhixuan Liang, Yao Mu, Yixiao Wang, Tianxing Chen, Wenqi Shao, Wei Zhan, Masayoshi Tomizuka, Ping Luo, Mingyu Ding. 1745-1755 [doi]

GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy LearningGuangyan Chen, Te Cui, Meiling Wang 0002, Chengcai Yang, Mengxiao Hu, Haoyang Lu, Yao Mu 0001, Zicai Peng, Tianxing Zhou, Xinran Jiang, Yi Yang 0009, Yufeng Yue. 1756-1768 [doi]

CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangementYun Liu, Chengwen Zhang, Ruofan Xing, Bingda Tang, Bowen Yang, Li Yi. 1769-1782 [doi]

PICO: Reconstructing 3D People In Contact with ObjectsAlpár Cseke, Shashank Tripathi, Sai Kumar Dwivedi, Arjun S. Lakshmipathy, Agniv Chatterjee, Michael J. Black, Dimitrios Tzionas. 1783-1794 [doi]

Hearing Hands: Generating Sounds from Physical Interactions in 3D ScenesYiming Dou, Wonseok Oh, Yuqing Luo, Antonio Loquercio, Andrew Owens. 1795-1804 [doi]

HaWoR: World-Space Hand Motion Reconstruction from Egocentric VideosJinglei Zhang, Jiankang deng, Chao Ma 0004, Rolandos-Alexandros Potamias. 1805-1815 [doi]

ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object InteractionsJeonghwan Kim, Jisoo Kim, Jeonghyeon Na, Hanbyul Joo. 1816-1828 [doi]

DiSRT-In-Bed: Diffusion-Based Sim-to-Real Transfer Framework for In-Bed Human Mesh RecoveryJing Gao, Ce Zheng, László A. Jeni, Zackory Erickson. 1829-1838 [doi]

EnvPoser: Environment-aware Realistic Human Motion Estimation from Sparse Observations with Uncertainty ModelingSongpengcheng Xia, Yu Zhang, Zhuo Su 0006, Xiaozheng Zheng, Zheng Lv, Guidong Wang, Yongjie Zhang, Qi Wu 0007, Lei Chu, Ling Pei. 1839-1849 [doi]

From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction ModelsGermán Barquero, Nadine Bertsch, Manojkumar Marramreddy, Carlos Chacón, Filippo Arcadu, Ferran Rigual, Nicky Sijia He, Cristina Palmero, Sergio Escalera, Yuting Ye, Robin Kips. 1850-1860 [doi]

ALIEN: Implicit Neural Representations for Human Motion Prediction under Arbitrary LatencyDong Wei 0007, Xiaoning Sun, Xizhan Gao, Shengxiang Hu 0001, HuaiJiang Sun. 1861-1870 [doi]

Nonisotropic Gaussian Diffusion for Realistic 3D Human Motion PredictionCecilia Curreli, Dominik Muhle, Abhishek Saroha, Zhenzhang Ye, Riccardo Marin, Daniel Cremers. 1871-1882 [doi]

Stochastic Human Motion Prediction with Memory of Action Transition and Action CharacteristicJianwei Tang, Hong Yang, Tengyue Chen, Jianfang Hu. 1883-1893 [doi]

ArtFormer: Controllable Generation of Diverse 3D Articulated ObjectsJiayi Su, Youhe Feng, Zheng Li, Jinhua Song, Yangfan He, Botao Ren, Botian Xu. 1894-1904 [doi]

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal GuidanceDian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang. 1905-1916 [doi]

Shape My Moves: Text-Driven Shape-Aware Synthesis of Human MotionsTing-Hsuan Liao, Yi Zhou, Yu Shen, Chun-Hao Paul Huang, Saayan Mitra, Jia-Bin Huang, Uttaran Bhattacharya. 1917-1928 [doi]

AniMo: Species-Aware Model for Text-Driven Animal Motion GenerationXuan Wang, Kai Ruan, Xing Zhang, Gaoang Wang. 1929-1939 [doi]

Exploring Timeline Control for Facial Motion GenerationYifeng Ma 0001, Jinwei Qi, Chaonan Ji, Peng Zhang, Bang Zhang, Zhidong Deng, Liefeng Bo. 1940-1950 [doi]

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video GenerationRuineng Li, Daitao Xing, Huiming Sun, Yuanzhou Ha, Jinglin Shen, Chiuman Ho. 1951-1961 [doi]

Exploring Temporally-Aware Features for Point TrackingInès Hyeonsu Kim, Seokju Cho, Jiahui Huang, Jung Yi, Joon-Young Lee, Seungryong Kim. 1962-1972 [doi]

HumanMM: Global Human Motion Recovery from Multi-shot VideosYuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao (Frank) Yang, Haoqian Wang, Lei Zhang. 1973-1983 [doi]

EDCFlow: Exploring Temporally Dense Difference Maps for Event-based Optical Flow EstimationDaikun Liu, Lei Cheng, Teng Wang, Changyin Sun. 1984-1993 [doi]

Explicit Depth-Aware Blurry Video Frame Interpolation Guided by Differential CurvesZaoming Yan, Pengcheng Lei, Tingting Wang, Faming Fang, Junkang Zhang, Yaomin Huang, Haichuan Song. 1994-2004 [doi]

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world VideosWenbo Hu 0002, Xiangjun Gao, Xiaoyu Li 0002, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan. 2005-2015 [doi]

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at ScaleBaorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang 0003, Lulu Tang, Xinlong Wang. 2016-2029 [doi]

Motion Modes: What Could Happen Next?Karran Pandey, Yannick Hold-Geoffroy, Matheus Gadelha, Niloy J. Mitra, Karan Singh, Paul Guerrero 0001. 2030-2039 [doi]

FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video SynthesisWonjoon Jin, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho. 2040-2049 [doi]

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-TuningDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz. 2050-2062 [doi]

Tora: Trajectory-oriented Diffusion Transformer for Video GenerationZhenghao Zhang, Junchao Liao, Menghao Li, Zuozhuo Dai, Bingxue Qiu, Siyu Zhu 0001, Long Qin, Weizhi Wang. 2063-2073 [doi]

Align-A-Video: Deterministic Reward Tuning of Image Diffusion Models for Consistent Video EditingShengzhi Wang, Yingkang Zhong, Jiangchuan Mu, Kai Wu, Mingliang Xiong, Wen Fang 0001, Mingqing Liu, Hao Deng 0001, Bin He 0003, Gang Li, Qingwen Liu 0001. 2074-2083 [doi]

Classic Video Denoising in a Machine Learning World: Robust, Fast, and ControllableXin Jin 0005, Simon Niklaus, Zhoutong Zhang, Zhihao Xia, Chunle Guo, Yuting Yang, Jiawen Chen 0001, Chongyi Li. 2084-2093 [doi]

Augmented Deep Contexts for Spatially Embedded Video CodingYifan Bian, Chuanbo Tang, Li Li 0040, Dong Liu 0002. 2094-2104 [doi]

EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame InterpolationZihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu 0001, Hang Xu 0004, Zuxuan Wu. 2105-2115 [doi]

Continuous Space-Time Video Resampling with Invertible Motion SteganographyYuantong Zhang, Zhenzhong Chen. 2116-2126 [doi]

Learning Phase Distortion with Selective State Space Models for Video Turbulence MitigationXingguang Zhang, Nicholas Chimitt, Xijun Wang, Yu Yuan, Stanley H. Chan. 2127-2138 [doi]

VideoGigaGAN: Towards Detail-rich Video Super-ResolutionYiran Xu, Taesung Park, Richard Zhang 0001, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang 0001, Difan Liu. 2139-2149 [doi]

KVQ: Boosting Video Quality Assessment via Saliency-guided Local PerceptionYunpeng Qu, Kun Yuan 0003, Qizhi Xie, Ming Sun 0008, Chao Zhou 0003, Jian Wang. 2150-2160 [doi]

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video RestorationJianyi Wang, Zhijie Lin 0001, Meng Wei 0007, Yang Zhao 0003, Ceyuan Yang, Chen Change Loy, Lu Jiang. 2161-2172 [doi]

Multi-Modal Synergistic Implicit Image Enhancement for Efficient Optical Flow EstimationWeichen Dai 0001, Hexing Wu, Xiaoyang Weng, Yuxin Zheng, Yuhang Ming 0001, Wanzeng Kong. 2173-2182 [doi]

Efficient Video Face Enhancement with Enhanced Spatial-Temporal ConsistencyYutong Wang, Jiajie Teng, Jiajiong Cao, Yuming Li, Chenguang Ma, Hongteng Xu, Dixin Luo. 2183-2193 [doi]

Diffusion-based Event Generation for High-Quality Image DeblurringXinan Xie, Qing Zhang 0006, Wei-Shi Zheng 0001. 2194-2203 [doi]

The Change You Want To Detect: Semantic Change Detection In Earth Observation With Hybrid Data GenerationfYanis Benidir, Nicolas Gonthier, Clément Mallet. 2204-2214 [doi]

Illumination Spectrum Estimation for Multispectral Images via Surface Reflectance Modeling and Spatial-Spectral Feature GenerationHyejin Oh, Woo-Shik Kim, Sangyoon Lee, YungKyung Park, Je-Won Kang. 2215-2225 [doi]

DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image FusionJinyuan Liu, Bowei Zhang, Qingyun Mei, Xingyuan Li, Yang Zou, Zhiying Jiang, Long Ma, Risheng Liu, Xin Fan 0001. 2226-2235 [doi]

Binarized Neural Network for Multi-spectral Image FusionJunming Hou, Xiaoyu Chen, Ran Ran, Xiaofeng Cong, Xinyang Liu, Jian Wei You, Liang-Jian Deng. 2236-2245 [doi]

Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur PriorHaitao Wu, Qing Li, Changqing Zhang, Zhen He, Xiaomin Ying. 2246-2257 [doi]

Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large ImagesJiuchen Chen, Xinyu Yan 0002, Qizhi Xu, Kaiqi Li. 2258-2268 [doi]

Towards Lossless Implicit Neural Representation via Bit Plane DecompositionWoo Kyoung Han, Byeonghun Lee, Hyunmin Cho, Sunghoon Im, Kyong Hwan Jin. 2269-2278 [doi]

Progressive Focused Transformer for Single Image Super-ResolutionWei Long, Xingyu Zhou, Leheng Zhang, Shuhang Gu. 2279-2288 [doi]

HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolutionYuxuan Jiang, Ho Man Kwan, Tianhao Peng 0004, Ge Gao, Fan Zhang, Xiaoqing Zhu, Joel Sole, David Bull 0001. 2289-2299 [doi]

A Regularization-Guided Equivariant Approach for Image RestorationYulu Bai, Jiahong Fu, Qi Xie, Deyu Meng. 2300-2310 [doi]

Augmenting Perceptual Super-Resolution via Image Quality PredictorsFengjia Zhang, Samrudhdhi B. Rangrej, Tristan Aumentado-Armstrong, Afsaneh Fazly, Alex Levinshtein. 2311-2322 [doi]

Rethinking Reconstruction and Denoising in the Dark: New Perspective, General Architecture and BeyondTengyu Ma 0004, Long Ma 0002, Ziye Li, Yuetong Wang, Jinyuan Liu 0001, Chengpei Xu, Risheng Liu. 2323-2332 [doi]

Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA ApproachLingchen Sun, Rongyuan Wu, Zhiyuan Ma 0002, Shuaizheng Liu, Qiaosi Yi, Lei Zhang 0006. 2333-2343 [doi]

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality AssessmentXudong Li, Wenjie Nie, Yan Zhang, Runze Hu, Ke Li, Xiawu Zheng, Liujuan Cao. 2344-2354 [doi]

Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion ModelsJinho Jeong 0003, Sangmin Han, Jinwoo Kim, Seon Joo Kim. 2355-2365 [doi]

Segment Any-Quality Images with Generative Latent Space EnhancementGuangqian Guo, Yong Guo, Xuehui Yu, Wenbo Li, Yaoxing Wang, Shan Gao. 2366-2376 [doi]

Traversing Distortion-Perception Tradeoff using a Single Score-Based Generative ModelYuhan Wang, Suzhi Bi, Ying Jun Angela Zhang, Xiaojun Yuan 0002. 2377-2386 [doi]

Sampling Innovation-Based Adaptive Compressive SensingZhifu Tian, Tao Hu, Chaoyang Niu, Di Wu, Shu Wang. 2387-2397 [doi]

Zero-Shot Image Restoration Using Few-Step Guidance of Consistency Models (and Beyond)Tomer Garber, Tom Tirer. 2398-2407 [doi]

Hierarchical Adaptive Filtering Network for Text Image Specular Highlight RemovalZhi Jiang, Jingbo Hu, Ling Zhang, Gang Fu, Chunxia Xiao. 2408-2417 [doi]

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion PathwaysYi Liu, Hao Zhou, Benlei Cui, Wenxiang Shang, Ran Lin. 2418-2427 [doi]

Balanced Rate-Distortion Optimization in Learned Image CompressionYichi Zhang, Zhihao Duan, Yuning Huang, Fengqing Zhu 0001. 2428-2438 [doi]

RAD: Region-Aware Diffusion Models for Image InpaintingSora Kim, Sungho Suh, Minsik Lee 0001. 2439-2448 [doi]

Bridging the Gap between Gaussian Diffusion Models and Universal Quantization for Image CompressionLucas Relic, Roberto Azevedo, Yang Zhang, Markus Gross, Christopher Schroers. 2449-2458 [doi]

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable DiffusionHaosen Yang 0003, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Braís Martinez. 2459-2468 [doi]

DiC: Rethinking Conv3x3 Designs in Diffusion ModelsYuchuan Tian, Jing Han, Chengcheng Wang, Yuchen Liang, Chao Xu 0006, Hanting Chen. 2469-2478 [doi]

SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile DeviceYushu Wu, Zhixing Zhang, Yanyu Li, Yanwu Xu 0003, Anil Kag, Yang Sui, Huseyin Coskun, Ke Ma, Aleksei Lebedev, Ju Hu, Dimitris N. Metaxas, Yanzhi Wang, Sergey Tulyakov, Jian Ren 0005. 2479-2490 [doi]

Learning Flow Fields in Attention for Controllable Person Image GenerationZijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie 0003, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang 0002, Miaojing Shi, Sen He 0001. 2491-2501 [doi]

Nested Diffusion Models Using Hierarchical Latent PriorsXiao Zhang, Ruoxi Jiang, Rebecca Willett, Michael Maire. 2502-2512 [doi]

Adaptive Non-Uniform Timestep Sampling for Accelerating Diffusion Model TrainingMyunsoo Kim, Donghyeon Ki, Seong-Woong Shim, Byung-Jun Lee 0001. 2513-2522 [doi]

Scaling Inference Time Compute for Diffusion ModelsNanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi S. Jaakkola, Xuhui Jia, Saining Xie. 2523-2534 [doi]

HMAR: Efficient Hierarchical Masked Auto-Regressive Image GenerationHermann Kumbong, Xian Liu, Tsung-Yi Lin, Ming-Yu Liu, Xihui Liu, Ziwei Liu, Daniel Y. Fu, Christopher Ré, David W. Romero. 2535-2544 [doi]

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and GenerationLiao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu. 2545-2555 [doi]

SketchFusion: Learning Universal Sketch Features through Fusing Foundation ModelsSubhadeep Koley, Tapas Kumar Dutta, Aneeshan Sain, Pinaki Nath Chowdhury, Ayan Kumar Bhunia, Yi-Zhe Song. 2556-2567 [doi]

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from TextRoberto Henschel, Levon Khachatryan, Hayk Poghosyan, Daniil Hayrapetyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi. 2568-2577 [doi]

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational ComplexityHongjie Wang 0002, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai. 2578-2588 [doi]

VideoDirector: Precise Video Editing via Text-to-Video ModelsYukun Wang, Longguang Wang, Zhiyuan Ma, Qibin Hu, Kai Xu, Yulan Guo. 2589-2598 [doi]

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's GuideDohun Lee, Bryan Sangwoo Kim, Geon Yeong Park, Jong Chul Ye. 2599-2608 [doi]

AKiRa: Augmentation Kit on Rays for Optical Video GenerationXi Wang, Robin Courant, Marc Christie, Vicky Kalogeiton. 2609-2619 [doi]

TCFG: Tangential Damping Classifier-free GuidanceMingi Kwon, Shin seong Kim, Jaeseok Jeong 0001, Yi-Ting Hsiao, Youngjung Uh. 2620-2629 [doi]

StyleMaster: Stylize Your Video with Artistic Generation and TranslationZixuan Ye, Huijuan Huang, Xintao Wang 0004, Pengfei Wan 0001, Di Zhang, Wenhan Luo. 2630-2640 [doi]

Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image GenerationNadav Z. Cohen, Oron Nir, Ariel Shamir. 2641-2650 [doi]

FDS: Frequency-Aware Denoising Score for Text-Guided Latent Diffusion Image EditingYufan Ren, Zicong Jiang, Tong Zhang, Søren Forchhammer, Sabine Süsstrunk. 2651-2660 [doi]

FeedEdit: Text-Based Image Editing with Dynamic Feedback RegulationFengyi Fu, Lei Zhang, Mengqi Huang, Zhendong Mao 0001. 2661-2670 [doi]

One Diffusion to Generate Them AllDuong H. Le 0001, Tuan Pham, Sangho Lee 0001, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu. 2671-2682 [doi]

MoEdit: On Learning Quantity Perception for Multi-object Image EditingYanfeng Li, Ka Hou Chan, Yue Sun, Chan-Tong Lam, Tong Tong 0001, Zitong Yu, Keren Fu, Xiaohong Liu, Tao Tan. 2683-2693 [doi]

InsightEdit: Towards Better Instruction Following for Image EditingYingjing Xu, Jie Kong, Jiazhi Wang, Xiao Pan, Bo Lin, Qiang Liu. 2694-2703 [doi]

Instruction-based Image Manipulation by Watching How Things MoveMingdeng Cao, Xuaner Zhang, Yinqiang Zheng, Zhihao Xia. 2704-2713 [doi]

TFCustom: Customized Image Generation with Time-Aware Frequency Feature GuidanceMushui Liu, Dong She, Jingxuan Pang, Qihan Huang, Jiacheng Ying, Wanggui He, Yuanlei Hou, Siming FU. 2714-2723 [doi]

PreciseCam: Precise Camera Control for Text-to-Image GenerationEdurne Bernal-Berdun, Ana Serrano, Belén Masiá, Matheus Gadelha, Yannick Hold-Geoffroy, Xin Sun 0014, Diego Gutierrez. 2724-2733 [doi]

Science-T2I: Addressing Scientific Illusions in Image SynthesisJialuo Li, Wenhao Chai, Xingyu Fu, Haiyang Xu 0002, Saining Xie. 2734-2744 [doi]

Type-R: Automatically Retouching Typos for Text-to-Image GenerationWataru Shimoda, Naoto Inoue, Daichi Haraguchi, Hayato Mitani, Seiichi Uchida, Kota Yamaguchi. 2745-2754 [doi]

Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality EvolutionQihao Liu, Xi Yin 0001, Alan L. Yuille, Andrew Brown, Mannat Singh. 2755-2765 [doi]

GPS as a Control Signal for Image GenerationChao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens. 2766-2778 [doi]

Dual Diffusion for Unified Image Generation and UnderstandingZijie Li, Henry Li, Yichun Shi, Amir Barati Farimani, Yuval Kluger, Linjie Yang, Peng Wang. 2779-2790 [doi]

Compass Control: Multi Object Orientation Control for Text-to-Image GenerationRishubh Parihar, Vaibhav Agrawal, Sachidanand VS, Venkatesh Babu Radhakrishnan. 2791-2801 [doi]

MC^2: Multi-concept Guidance for Customized Multi-concept GenerationJiaxiu Jiang, Yabo Zhang, Kailai Feng, Xiaohe Wu, Wenbo Li, Renjing Pei, Fan Li, Wangmeng Zuo. 2802-2812 [doi]

Synthetic Data is an Elegant GIFT for Continual Vision-Language ModelsBin Wu, Wuxuan Shi, Jinqiao Wang, Mang Ye. 2813-2823 [doi]

Curriculum Direct Preference Optimization for Diffusion and Consistency ModelsFlorinel-Alin Croitoru, Vlad Hondru, Radu-Tudor Ionescu, Nicu Sebe, Mubarak Shah. 2824-2834 [doi]

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal CyclesRui Zhao 0001, Weijia Mao, Mike Zheng Shou. 2835-2846 [doi]

SerialGen: Personalized Image Generation by First Standardization Then PersonalizationCong Xie, Han Zou, Ruiqi Yu, Yan Zhang, Zhenpeng Zhan. 2847-2856 [doi]

Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene GenerationYuanbo Yang, Jiahao Shao, Xinyang Li, Yujun Shen, Andreas Geiger 0001, Yiyi Liao. 2857-2869 [doi]

VinaBench: Benchmark for Faithful and Consistent Visual NarrativesSilin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut. 2870-2879 [doi]

CoSER: Towards Consistent Dense Multiview Text-to-Image Generator for 3D CreationBonan Li, Zicheng Zhang, Xingyi Yang, Xinchao Wang. 2880-2890 [doi]

ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image IntermediaryZeqi Gu, Yin Cui, Zhaoshuo Li, Fangyin Wei, Yunhao Ge, Jinwei Gu, Ming-Yu Liu, Abe Davis, Yifan Ding. 2891-2901 [doi]

AutoPresent: Designing Structured Visuals from ScratchJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell. 2902-2911 [doi]

LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion ModelXi Wang, Hongzhen Li, Heng Fang, Yichen Peng, Haoran Xie 0002, Xi Yang, Chuntao Li. 2912-2923 [doi]

ChatGarment: Garment Estimation, Generation and Editing via Large Language ModelsSiyuan Bian, Chenghao Xu, Yuliang Xiu, Artur Grigorev 0002, Zhen Liu 0019, Cewu Lu, Michael J. Black, Yao Feng 0001. 2924-2934 [doi]

Rethinking Personalized Aesthetics Assessment: Employing Physique Aesthetics Assessment as An ExemplificationHaobin Zhong, Shuai He, Anlong Ming, Huadong Ma. 2935-2944 [doi]

ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion MitigationZirun Guo, Tao Jin 0004. 2945-2954 [doi]

DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any ArchitectureQianlong Xiang, Miao Zhang, Yuzhang Shang, Jianlong Wu, Yan Yan 0002, Liqiang Nie. 2955-2965 [doi]

Memories of Forgotten ConceptsMatan Rusanovsky, Shimon Malnick, Amir Jevnisek, Ohad Fried, Shai Avidan. 2966-2975 [doi]

Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept ControlBasim Azam, Naveed Akhtar. 2976-2985 [doi]

ID-Patch: Robust ID Association for Group Photo PersonalizationYimeng Zhang, Tiancheng Zhi, Jing Liu, Shen Sang, Liming Jiang 0001, Qing Yan, Sijia Liu, Linjie Luo. 2986-2996 [doi]

Not Just Text: Uncovering Vision Modality Typographic Threats in Image Generation ModelsHao Cheng, Erjia Xiao, Jiayan Yang, Jiahang Cao, Qiang Zhang, Jize Zhang, Kaidi Xu, Jindong Gu, Renjing Xu. 2997-3007 [doi]

OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image WatermarkingXuanyu Zhang, Zecheng Tang, Zhipei Xu, Runyi Li, Youmin Xu, Bin Chen 0006, Feng Gao, Jian Zhang 0018. 3008-3018 [doi]

IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image GenerationYiren Song, Pei Yang 0005, Hai Ci, Mike Zheng Shou. 3019-3028 [doi]

Image Generation Diversity Issues and How to Tame ThemMischa Dombrowski, Weitong Zhang, Sarah Cechnicka, Hadrien Reynaud, Bernhard Kainz. 3029-3039 [doi]

Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated ImagesTai D. Nguyen, Aref Azizpour, Matthew C. Stamm. 3040-3050 [doi]

ORIDa: Object-centric Real-world Image Composition DatasetJinwoo Kim, Sangmin Han, Jinho Jeong 0003, Jiwoo Choi, Dongyeoung Kim, Seon Joo Kim. 3051-3060 [doi]

SINR: Sparsity Driven Compressed Implicit Neural RepresentationsDhananjaya Jayasundara, Sudarshan Rajagopalan, Yasiru Ranasinghe, Trac D. Tran, Vishal M. Patel. 3061-3070 [doi]

Tuning the Frequencies: Robust Training for Sinusoidal Neural NetworksTiago Novello, Diana Aldana, Andre Araujo, Luiz Velho 0001. 3071-3080 [doi]

GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context EncodingYuki Kawana, Shintaro Shiba, Quan Kong, Norimasa Kobori. 3081-3090 [doi]

De^2Gaze: Deformable and Decoupled Representation Learning for 3D Gaze EstimationYunfeng Xiao, Xiaowei Bai, Baojun Chen, Hao Su, Hao He, Liang Xie 0012, Erwei Yin. 3091-3100 [doi]

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG DistillationTianyun Zhong, Chao Liang, Jianwen Jiang, Gaojie Lin, Jiaqi Yang 0008, Zhou Zhao 0001. 3101-3110 [doi]

Synchronized Video-to-Audio Generation via Mel Quantization-Continuum DecompositionJuncheng Wang, Chao Xu, Cheng Yu, Lei Shang, Zhe Hu, Shujun Wang, Liefeng Bo. 3111-3120 [doi]

Improving Sound Source Localization with Joint Slot Attention on Image and AudioInho Kim, Youngkil Song, Jicheol Park, Won Hwa Kim, Suha Kwak. 3121-3130 [doi]

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio SemanticsChen Liu, Liying Yang, Peike Li, Dadong Wang, Lincheng Li, Xin Yu 0002. 3131-3141 [doi]

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic ThresholdsEitan Shaar, Ariel Shaulov, Gal Chechik, Lior Wolf. 3142-3151 [doi]

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal SynchronizationZitang Zhou, Ke Mei, Yu Lu, Tianyi Wang, Fengyun Rao. 3152-3162 [doi]

Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class ImbalanceSanchayan Santra, Vishal M. Chudasama, Pankaj Wasnik, Vineeth N. Balasubramanian. 3163-3172 [doi]

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video GenerationBingjie Gao, Xinyu Gao, Xiaoxue Wu, Yujie Zhou, Yu Qiao 0001, Li Niu, Xinyuan Chen, Yaohui Wang 0001. 3173-3183 [doi]

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data CurationXin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang. 3184-3194 [doi]

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM AgentsZhengrong Yue, Shaobin Zhuang, Kunchang Li 0002, Yanbo Ding, Yali Wang 0001. 3195-3205 [doi]

FineVQ: Fine-Grained User Generated Content Video Quality AssessmentHuiyu Duan, Qiang Hu, Jiarui Wang, Liu Yang, Zitong Xu, Lu Liu, Xiongkuo Min, Chunlei Cai, Tianxiao Ye, Xiaoyun Zhang, Guangtao Zhai. 3206-3217 [doi]

VLog: Video-Language Models by Generative Retrieval of Narration VocabularyKevin Qinghong Lin, Mike Zheng Shou. 3218-3228 [doi]

Q-Bench-Video: Benchmark the Video Quality Understanding of LMMsZicheng Zhang, Ziheng Jia, Haoning Wu 0001, Chunyi Li, Zijian Chen 0001, Yingjie Zhou, Wei Sun, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai. 3229-3239 [doi]

LION-FS: Fast & Slow Video-Language Thinker as Online Video AssistantWei Li, Bing Hu, Rui Shao 0001, Leyang Shen, Liqiang Nie. 3240-3251 [doi]

AVQACL: A Novel Benchmark for Audio-Visual Question Answering Continual LearningKaixuan Wu, Xinde Li, Xinling Li, Chuanfei Hu, Guoliang Wu. 3252-3261 [doi]

Commonsense Video Question Answering through Video-Grounded Entailment Tree ReasoningHuabin Liu 0001, Filip Ilievski, Cees G. M. Snoek. 3262-3271 [doi]

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long VideosZiyang Wang, Shoubin Yu, Elias Stengel-Eskin, Jaehong Yoon, Feng Cheng, Gedas Bertasius, Mohit Bansal. 3272-3283 [doi]

STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-TrainingHaiyi Qiu, Minghe Gao, Long Qian, Kaihang Pan, Qifan Yu, Juncheng Li, Wenjie Wang 0007, Siliang Tang, Yueting Zhuang, Tat-Seng Chua. 3284-3294 [doi]

VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video UnderstandingKangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang. 3295-3305 [doi]

PAVE: Patching and Adapting Video Large Language ModelsZhuoming Liu 0001, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li 0003. 3306-3317 [doi]

BOLT: Boost Large Vision-Language Model Without Training for Long-form Video UnderstandingShuming Liu 0001, Chen Zhao 0002, Tianqi Xu, Bernard Ghanem. 3318-3327 [doi]

Online Video Understanding: OVBench and VideoChat-OnlineZhenpeng Huang, Xinhao Li, Jiaqi Li, Jing Wang, Xiangyu Zeng, Cheng Liang, Tao Wu, Xi Chen, Liang Li, Limin Wang 0002. 3328-3338 [doi]

Localizing Events in Videos with Multimodal QueriesGengyuan Zhang, Mang Ling Ada Fok, Jialu Ma, Yan Xia 0003, Daniel Cremers, Philip Torr 0001, Volker Tresp, Jindong Gu. 3339-3351 [doi]

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video AnalysisJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro. 3352-3362 [doi]

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question AnsweringSheng Zhou, Junbin Xiao, Qingyun Li, Yicong Li 0004, Xun Yang 0001, Dan Guo 0001, Meng Wang 0001, Tat-Seng Chua, Angela Yao. 3363-3373 [doi]

VideoGEM: Training-free Action Grounding in VideosFelix Vogel, Walid Bousselham, Anna Kukleva, Nina Shvetsova, Hilde Kuehne. 3374-3383 [doi]

STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal GroundingAaryan Garg, Akash Kumar 0016, Yogesh S. Rawat. 3384-3394 [doi]

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video SegmentationClaudia Cuttano, Gabriele Trivigno, Gabriele Rosi, Carlo Masone, Giuseppe Averta. 3395-3405 [doi]

Segment Any Motion in VideosNan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang. 3406-3416 [doi]

SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training CostHaiyang Mei, Pengyu Zhang, Mike Zheng Shou. 3417-3426 [doi]

RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and SafetyAndrei Dumitriu, Florin Tatui, Florin Miron, Aakash Ralhan, Radu-Tudor Ionescu, Radu Timofte. 3427-3437 [doi]

MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Action AnticipationOlga Zatsarynna, Emad Bahrami, Yazan Abu Farha, Gianpiero Francesca, Juergen Gall. 3438-3448 [doi]

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action RecognitionYilong Wang, Zilin Gao, Qilong Wang 0001, Zhaofeng Chen, Peihua Li, Qinghua Hu. 3449-3459 [doi]

Bridging Gait Recognition and Large Language Models Sequence ModelingShaopeng Yang, Jilong Wang 0010, Saihui Hou, Xu Liu 0008, Chunshui Cao, Liang Wang 0001, Yongzhen Huang. 3460-3469 [doi]

DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric VideosLorenzo Mur-Labadia, Josechu Guerrero, Ruben Martinez-Cantin. 3470-3480 [doi]

Discrete to Continuous: Generating Smooth Transition Poses from Sign Language ObservationsShengeng Tang, Jiayi He, Lechao Cheng, Jingjing Wu 0001, Dan Guo 0001, Richang Hong. 3481-3491 [doi]

NoPain: No-box Point Cloud Attack via Optimal Transport Singular BoundaryZezeng Li, Xiaoyu Du, Na Lei, Liming Chen, Weimin Wang. 3492-3502 [doi]

AI-Face: A Million-Scale Demographically Annotated AI-Generated Face Dataset and Fairness BenchmarkLi Lin, Santosh Santosh, Mingyang Wu, Xin Wang, Shu Hu. 3503-3515 [doi]

Improving the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters AugmentationFengfan Zhou, Bangjie Yin, Hefei Ling, Qianyu Zhou 0001, Wenxuan Wang. 3516-3527 [doi]

GIF: Generative Inspiration for Face Recognition at ScaleSaeed Ebrahimi, Sahar Rahimi Malakshan, Ali Dabouei, Srinjoy Das, Jeremy M. Dawson, Nasser M. Nasrabadi. 3528-3539 [doi]

Towards Effective and Sparse Adversarial Attack on Spiking Neural Networks via Breaking Invisible Surrogate GradientsLi Lun, Kunyu Feng, Qinglong Ni, Ling Liang, Yuan Wang 0001, Ying Li, Dunshan Yu, Xiaoxin Cui. 3540-3551 [doi]

Brain-Inspired Spiking Neural Networks for Energy-Efficient Object DetectionZiqi Li, Tao Gao 0001, Yisheng An, Ting Chen 0003, Jing Zhang, Yuanbo Wen, Mengkun Liu, Qianxi Zhang. 3552-3562 [doi]

BHViT: Binarized Hybrid Vision TransformerTian Gao, Yu Zhang, Zhiyuan Zhang, Huajun Liu, Kaijie Yin, Chengzhong Xu 0001, Hui Kong 0001. 3563-3572 [doi]

DKC: Differentiated Knowledge Consolidation for Cloth-Hybrid Lifelong Person Re-identificationZhenyu Cui, Jiahuan Zhou, Yuxin Peng. 3573-3582 [doi]

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image ClassificationJingwei Zhang, Anh Tien Nguyen, Xi Han, Vincent Quoc-Huy Trinh, Hong Qin 0001, Dimitris Samaras, Mahdi S. Hosseini. 3583-3592 [doi]

GauCho: Gaussian Distributions with Cholesky Decomposition for Oriented Object DetectionJose Henrique Lima Marques, Jeffri Murrugarra-Llerena, Cláudio R. Jung. 3593-3602 [doi]

Camouflage Anything: Learning to Hide using Controlled Out-painting and Representation EngineeringBiplab Chandra Das, Viswanath Gopalakrishnan. 3603-3613 [doi]

AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data GenerationDatao Tang, Xiangyong Cao, Xuan Wu, Jialin Li, Jing Yao, Xueru Bai, Dongsheng Jiang, Yin Li, Deyu Meng. 3614-3624 [doi]

ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving ObjectZhe Shan, Yang Liu, Lei Zhou, Cheng Yan, Heng Wang, Xia Xie. 3625-3635 [doi]

Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask TrackingPhuc Nguyen, Minh Luu, Anh Tuan Tran 0001, Cuong Pham 0001, Khoi Nguyen 0001. 3636-3645 [doi]

POp-GS: Next Best View in 3D-Gaussian Splatting with P-OptimalityJoey Wilson, Marcelino Almeida, Sachit Mahajan, Martin Labrie, Maani Ghaffari, Omid Ghasemalizadeh, Min Sun, Cheng-Hao Kuo, Arnab Sen. 3646-3655 [doi]

Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian SplattingRunsong Zhu, Shi Qiu, Zhengzhe Liu, Ka-Hei Hui, Qianyi Wu, Pheng-Ann Heng, Chi-Wing Fu. 3656-3665 [doi]

Text-guided Sparse Voxel Pruning for Efficient 3D Visual GroundingWenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu. 3666-3675 [doi]

OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask MergingYijie Tang, Jiazhao Zhang, Yuqing Lan, Yulan Guo, Dezun Dong, Chenyang Zhu 0002, Kai Xu. 3676-3685 [doi]

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator TrajectoriesMuzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen. 3686-3696 [doi]

RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based RepresentationsSavya Khosla, Sethuraman TV, Alexander G. Schwing, Derek Hoiem. 3697-3706 [doi]

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual GroundingRong Li, Shijie Li, Lingdong Kong, XuLei Yang, Junwei Liang 0001. 3707-3717 [doi]

ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and ReasoningZhenyang Liu, Yikai Wang 0002, Sixiao Zheng, Tongying Pan, Longfei Liang, Yanwei Fu 0001, Xiangyang Xue 0001. 3718-3727 [doi]

Cross-Modal 3D Representation with Multi-View Images and Point CloudsZiyang Zhou 0003, Pinghui Wang, Zi Liang, Haitao Bai, Ruofei Zhang. 3728-3739 [doi]

Learning Visual Composition through Improved Semantic GuidanceAustin Stone, Hagen Soltau, Robert Geirhos, Xi Yi, Ye Xia, Bingyi Cao, Kaifeng Chen, Abhijit Ogale, Jonathon Shlens. 3740-3750 [doi]

Beyond Human Perception: Understanding Multi-Object World from Monocular ViewKeyu Guo, Yongle Huang, Shijie Sun 0001, Xiangyu Song, Mingtao Feng, Zedong Liu, Huansheng Song, Tiantian Wang, Jianxin Li 0001, Naveed Akhtar, Ajmal Saeed Mian. 3751-3760 [doi]

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual PreferencesHongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan. 3761-3771 [doi]

3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint TransformerJiajun Deng, Tianyu He, Li Jiang, Tianyu Wang, Feras Dayoub, Ian D. Reid. 3772-3782 [doi]

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language ModelBenlin Liu, Yuhao Dong, Yiqin Wang, Zixian Ma, Yansong Tang, Luming Tang, Yongming Rao, Wei-Chiu Ma, Ranjay Krishna. 3783-3792 [doi]

Advancing Semantic Future Prediction through Multimodal Visual Sequence TransformersEfstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis. 3793-3803 [doi]

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal AugmentationWeiming Ren, Huan Yang, Jie Min, Cong Wei 0001, Wenhu Chen. 3804-3814 [doi]

GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow NetworksHaoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee. 3815-3825 [doi]

Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context LearningCheng Chen, Yunpeng Zhai, Yifan Zhao, Jinyang Gao, Bolin Ding, Jia Li. 3826-3835 [doi]

Perception Tokens Enhance Visual Reasoning in Multimodal Language ModelsMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna. 3836-3845 [doi]

Do Visual Imaginations Improve Vision-and-Language Navigation Agents?Akhil Perincherry, Jacob Krantz, Stefan Lee. 3846-3855 [doi]

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility EvaluatorFan Yang, Ru Zhen, Jianing Wang, Yanhao Zhang, Haoxiang Chen, Haonan Lu, Sicheng Zhao, Guiguang Ding. 3856-3866 [doi]

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi. 3867-3876 [doi]

VisionArena: 230k Real World User-VLM Conversations with Preference LabelsChristopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang. 3877-3887 [doi]

Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion RecognitionWen Yin, Yong Wang, Guiduo Duan, Dongyang Zhang, Xin Hu, Yuan-Fang Li, Tao He. 3888-3898 [doi]

PEACE: Empowering Geologic Map Holistic Understanding with MLLMsYangyu Huang, Tianyi Gao, Haoran Xu, QiHao Zhao, Yang Song, Zhipeng Gui, Tengchao Lv, Hao Chen, Lei Cui, Scarlett Li, Furu Wei. 3899-3908 [doi]

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question AnsweringChengyue Huang, Brisa Maneechotesuwan, Shivang Chopra, Zsolt Kira. 3909-3918 [doi]

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token MarksMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma. 3919-3930 [doi]

Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual GroundingWenbo Chen, Zhen Xu, Ruotao Xu, Si Wu 0002, Hau-San Wong. 3931-3941 [doi]

GroundingFace: Fine-grained Face Understanding via Pixel Grounding Multimodal Large Language ModelYue Han, Jiangning Zhang, Junwei Zhu, Runze Hou, Xiaozhong Ji, Chuming Lin, Xiaobin Hu, Zhucun Xue, Yong Liu 0007. 3942-3951 [doi]

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal AlignmentYang Bai, Yucheng Ji, Min Cao, Jinqiao Wang, Mang Ye. 3952-3962 [doi]

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local PerceptionRuotian Peng, Haiying He, Yake Wei, YanDong Wen, Di Hu. 3963-3973 [doi]

CCIN: Compositional Conflict Identification and Neutralization for Composed Image RetrievalLikai Tian, Jian Zhao, Zechao Hu 0003, Zhengwei Yang, Hao Li, Lei Jin, Zheng Wang, Xuelong Li 0001. 3974-3983 [doi]

Imagine and Seek: Improving Composed Image Retrieval with an Imagined ProxyYou Li, Fan Ma, Yi Yang. 3984-3993 [doi]

CoLLM: A Large Language Model for Composed Image RetrievalChuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava. 3994-4004 [doi]

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and GroundingZhenxing Zhang, Yaxiong Wang, Lechao Cheng, Zhun Zhong, Dan Guo, Meng Wang. 4005-4014 [doi]

LamRA: Large Multimodal Model as Your Advanced Retrieval AssistantYikun Liu, Yajie Zhang, Jiayin Cai, Xiaolong Jiang, Yao Hu 0002, Jiangchao Yao, Yanfeng Wang, Weidi Xie. 4015-4025 [doi]

Docopilot: Improving Multimodal Models for Document-Level UnderstandingYuchen Duan, Zhe Chen, Yusong Hu, Weiyun Wang, Shenglong Ye, Botian Shi, Lewei Lu, Qibin Hou, Tong Lu, Hongsheng Li, Jifeng Dai, Wenhai Wang. 4026-4037 [doi]

DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document UnderstandingWenhui Liao, Jiapeng Wang, Hongliang Li, Chengyu Wang 0001, Jun Huang 0007, Lianwen Jin. 4038-4049 [doi]

Diffusion Bridge: Leveraging Diffusion Model to Reduce the Modality Gap Between Text and Vision for Zero-Shot Image CaptioningJeong Ryong Lee, Yejee Shin, Geonhui Son, Dosik Hwang. 4050-4059 [doi]

Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long TextGuotao Liang, Baoquan Zhang, Zhiyuan Wen, Junteng Zhao, Yunming Ye, Kola Ye, Yao He. 4060-4069 [doi]

GOAL: Global-local Object Alignment LearningHyungyu Choi, Young-Kyun Jang, Chanho Eom. 4070-4079 [doi]

FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-trainingAnjia Cao, Xing Wei 0001, Zhiheng Ma. 4080-4090 [doi]

Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable ScalesShuokai Pan, Gerti Tuzi, Sudarshan Sreeram, Dibakar Gope. 4091-4100 [doi]

VladVA: Discriminative Fine-tuning of LVLMsYassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Brais Martínez, Georgios Tzimiropoulos. 4101-4111 [doi]

Galaxy Walker: Geometry-aware VLMs For Galaxy-scale UnderstandingTianyu Chen, Xingcheng Fu, Yisen Gao, Haodong Qian, Yuecen Wei, Kun Yan, Haoyi Zhou, Jianxin Li 0002. 4112-4121 [doi]

NVILA: Efficient Frontier Visual Language ModelsZhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Haotian Tang, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Jinyi Hu, Sifei Liu, Ranjay Krishna, Pavlo Molchanov 0001, Jan Kautz, Hongxu Yin, Song Han 0003, Yao Lu 0006. 4122-4134 [doi]

Unveiling Visual Perception in Language Models: An Attention Head Analysis ApproachJing Bi 0002, Junjia Guo, Yunlong Tang 0002, Lianggong Bruce Wen, Zhang Liu, Bingjie Wang, Chenliang Xu. 4135-4144 [doi]

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile DevicesXudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen 0001, Shuai Ren, Hongsheng Li. 4145-4155 [doi]

Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best PracticesJunyan Lin, Haoran Chen, Yue Fan, Yingqi Fan, Xin Jin, Hui Su, JinLan Fu, Xiaoyu Shen. 4156-4166 [doi]

MBQ: Modality-Balanced Quantization for Large Vision-Language ModelsShiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, Xiaotao Jia, Xiuhong Li, Yaqi Yan, Pei Ran, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang 0002. 4167-4177 [doi]

Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Large Model EnhancementQianhan Feng, Wenshuo Li, Tong Lin 0002, Xinghao Chen 0001. 4178-4188 [doi]

VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token SparsificationXianwei Zhuang, Zhihong Zhu, Yuxin Xie 0004, Liming Liang, Yuexian Zou. 4189-4199 [doi]

Stop Learning it all to Mitigate Visual Hallucination, Focus on the Hallucination TargetDokyoon Yoon, Youngsook Song, Woomyoung Park. 4200-4208 [doi]

ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language ModelsJunzhe Chen 0001, Tianshu Zhang 0002, Shiyu Huang 0001, Yuwei Niu, Linfeng Zhang 0001, Lijie Wen 0001, Xuming Hu. 4209-4221 [doi]

Hyperbolic Safety-Aware Vision-Language ModelsTobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi 0002, Rita Cucchiara. 4222-4232 [doi]

Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language ModelsJin Wang, Chenghui Lv, Xian Li, Shichao Dong 0001, Huadong Li, Kelu Yao, Chao Li, Wenqi Shao, Ping Luo. 4233-4245 [doi]

Joint Vision-Language Social Bias Removal for CLIPHaoyu Zhang, Yangyang Guo, Mohan S. Kankanhalli. 4246-4255 [doi]

Post-pre-training for Modality Alignment in Vision-Language Foundation ModelsShin'ya Yamaguchi, Dewei Feng, Sekitoshi Kanai, Kazuki Adachi, Daiki Chijiwa. 4256-4266 [doi]

Context-Aware Multimodal PretrainingKarsten Roth, Zeynep Akata, Dima Damen, Ivana Balazevic, Olivier J. Hénaff. 4267-4279 [doi]

Adaptive Parameter Selection for Tuning Vision-Language ModelsYi Zhang, Yi-Xuan Deng, Meng-Hao Guo, Shi-Min Hu 0001. 4280-4290 [doi]

OpenSDI: Spotting Diffusion-Generated Images in the Open WorldYabin Wang, Zhiwu Huang, Xiaopeng Hong. 4291-4301 [doi]

SnowMaster: Comprehensive Real-world Image Desnowing via MLLM with Multi-Model Feedback OptimizationJianyu Lai, Sixiang Chen, Yunlong Lin, Tian Ye 0001, Yun Liu 0002, Song Fei, Zhaohu Xing, Hongtao Wu, Weiming Wang, Lei Zhu. 4302-4312 [doi]

SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language ModelsKevin Miller, Aditya Gangrade, Samarth Mishra, Kate Saenko, Venkatesh Saligrama. 4313-4321 [doi]

Query Efficient Black-Box Visual Prompting with Subspace LearningZhaogeng Liu, Haozhen Zhang, Hualin Zhang, Xingchen Li, Wanli Shi, Bin Gu 0001, Yi Chang 0001. 4322-4331 [doi]

Plug-and-Play PPO: An Adaptive Point Prompt Optimizer Making SAM GreaterXueyu Liu, Rui Wang, Yexin Lai, Guangze Shi, Feixue Shao, Fang Hao, Jianan Zhang, Jia Shen, Yongfei Wu, Wen Zheng. 4332-4342 [doi]

Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant LearningXueyi Ke, Satoshi Tsutsui, Yayun Zhang, Bihan Wen. 4343-4352 [doi]

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision TransformersLi Ren, Chen Chen 0001, Liqiang Wang, Kien Hua. 4353-4363 [doi]

CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity QuantificationWenlong Yu, Qilong Wang, Chuang Liu, Dong Li, Qinghua Hu. 4364-4374 [doi]

Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained AnalysisArpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel I. Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Y. Berger-Wolf, Yu Su 0001, Wei-Lun Chao. 4375-4385 [doi]

Attention IoU: Examining Biases in CelebA using Attention MapsAaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy. 4386-4397 [doi]

ARKit LabelMaker: A New Scale for Indoor 3D Scene UnderstandingGuangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum. 4398-4407 [doi]

Seeing More with Less: Human-like Representations in Vision ModelsAndrey Gizdov, Shimon Ullman, Daniel Harari. 4408-4417 [doi]

Argus: A Compact and Versatile Foundation Model for VisionWeiming Zhuang, Chen Chen 0043, Zhizhong Li, Sina Sajadmanesh, Jingtao Li, Jiabo Huang, Vikash Sehwag, Vivek Sharma 0001, Hirotaka Shinozaki, Felan Carlo Garcia, Yihao Zhan, Naohiro Adachi, Ryoji Eki, Michael Spranger, Peter Stone 0001, Lingjuan Lyu. 4418-4429 [doi]

Test-Time Fine-Tuning of Image Compression Models for Multi-Task AdaptabilityUnki Park, Seongmoon Jeong, Youngchan Jang, Gyeong-Moon Park, Jong Hwan Ko. 4430-4440 [doi]

L-SWAG: Layer-Sample Wise Activation with Gradients Information for Zero-Shot NAS on Vision TransformersSofia Casarin, Sergio Escalera, Oswald Lanz. 4441-4451 [doi]

NADER: Neural Architecture Design via Multi-Agent CollaborationZekang Yang, Wang Zeng, Sheng Jin 0007, Chen Qian 0006, Ping Luo 0002, Wentao Liu 0002. 4452-4461 [doi]

Quantization without TearsMinghao Fu 0001, Hao Yu, Jie Shao 0001, Junjie Zhou, Ke Zhu, Jianxin Wu 0001. 4462-4472 [doi]

Parallel Sequence Modeling via Generalized Spatial Propagation NetworkHongjun Wang, Wonmin Byeon, Jiarui Xu, Jinwei Gu, Ka-Chun Cheung, Xiaolong Wang 0004, Kai Han, Jan Kautz, Sifei Liu. 4473-4483 [doi]

MambaOut: Do We Really Need Mamba for Vision?Weihao Yu 0001, Xinchao Wang. 4484-4496 [doi]

MobileMamba: Lightweight Multi-Receptive Visual Mamba NetworkHaoyang He, Jiangning Zhang, Yuxuan Cai, Hongxu Chen, Xiaobin Hu, Zhenye Gan, Yabiao Wang, Chengjie Wang, Yunsheng Wu, Lei Xie 0007. 4497-4507 [doi]

ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle MatricesHao Yu, Tangyu Jiang, Shuning Jia, Shannan Yan, Shunning Liu, Haolong Qian, Guanghao Li, Shuting Dong, Chun Yuan. 4508-4517 [doi]

Associative TransformerYuwei Sun, Hideya Ochiai, Zhirong Wu, Stephen Lin 0001, Ryota Kanai. 4518-4527 [doi]

Rashomon Sets for Prototypical-Part Networks: Editing Interpretable Models in Real-TimeJon Donnelly, Zhicheng Guo, Alina Jade Barnett, Hayden McTavish, Chaofan Chen, Cynthia Rudin. 4528-4538 [doi]

SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI DetectionXin Lin, Chong Shi, Zuopeng Yang, Haojin Tang, Zhili Zhou. 4539-4549 [doi]

CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language ModelsKiet A. Nguyen, Adheesh Juvekar, Tianjiao Yu, Muntasir Wahed, Ismini Lourentzou. 4550-4561 [doi]

Understanding Fine-tuning CLIP for Open-vocabulary Semantic Segmentation in Hyperbolic SpaceZelin Peng, Zhengqin Xu, Zhilin Zeng, Changsong Wen, Yu Huang, Menglin Yang 0001, Feilong Tang, Wei Shen 0002. 4562-4572 [doi]

Scaling up Image Segmentation across Data and TasksPei Wang, Zhaowei Cai, Hao Yang, Ashwin Swaminathan, R. Manmatha, Stefano Soatto. 4573-4583 [doi]

DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot SegmentationAmin Karimi, Charalambos Poullis. 4584-4594 [doi]

Rethinking Query-based Transformer for Continual Image SegmentationYuchen Zhu, Cheng Shi, Dingyou Wang, Jiajin Tang, Zhengxuan Wei, Yu Wu 0014, Guanbin Li, Sibei Yang. 4595-4606 [doi]

Universal Domain Adaptation for Semantic SegmentationSeun-An Choe, Keon Hee Park, Jinwoo Choi 0001, Gyeong-Moon Park. 4607-4617 [doi]

The Devil is in Low-Level Features for Cross-Domain Few-Shot SegmentationYuhan Liu, Yixiong Zou, Yuhua Li 0003, Ruixuan Li 0001. 4618-4627 [doi]

EZSR: Event-based Zero-Shot RecognitionYan Yang 0011, Liyuan Pan, Dongxu Li, Liu Liu 0009. 4628-4638 [doi]

Single Domain Generalization for Few-Shot Counting via Universal Representation MatchingXianing Chen, Si Huo, Borui Jiang, Hailin Hu 0002, Xinghao Chen 0001. 4639-4649 [doi]

Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal TransportHao Tan, Zichang Tan, Jun Li, Ajian Liu 0001, Jun Wan 0001, Zhen Lei. 4650-4660 [doi]

Classifier-guided CLIP Distillation for Unsupervised Multi-label ClassificationDongseob Kim, Hyunjung Shim. 4661-4671 [doi]

SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object DetectionPhi Vu Tran. 4672-4681 [doi]

Percept, Memory, and Imagine: World Feature Simulating for Open-Domain Unknown Object DetectionAming Wu, Cheng Deng. 4682-4691 [doi]

Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object DetectionMarc-Antoine Lavoie, Anas Mahmoud 0002, Steven L. Waslander. 4692-4702 [doi]

MI-DETR: An Object Detection Model with Multi-time Inquiries MechanismZhixiong Nan, Xianghong Li, Jifeng Dai, Tao Xiang 0001. 4703-4712 [doi]

SET: Spectral Enhancement for Tiny Object DetectionHuixin Sun, Runqi Wang, Yanjing Li, Linlin Yang, Shaohui Lin, Xianbin Cao 0001, Baochang Zhang 0001. 4713-4723 [doi]

Leveraging Perturbation Robustness to Enhance Out-of-Distribution DetectionWenxi Chen, Raymond A. Yeh, Shaoshuai Mou, Yan Gu. 4724-4733 [doi]

PIAD: Pose and Illumination agnostic Anomaly DetectionKaichen Yang, Junjie Cao 0001, Zeyu Bai, Zhixun Su, Andrea Tagliasacchi. 4734-4743 [doi]

AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIPWenxin Ma, Xu Zhang, Qingsong Yao, Fenghe Tang, Chenxu Wu, Yingtai Li, Rui Yan 0009, Zihang Jiang, S. Kevin Zhou. 4744-4754 [doi]

AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial ScenariosZiming Huang, Xurui Li, Haotian Liu, Feng Xue 0001, Yuzhe Wang, Yu Zhou. 4755-4765 [doi]

One-for-More: Continual Diffusion Model for Anomaly DetectionXiaofan Li 0008, Xin Tan 0002, Zhuo Chen, Zhizhong Zhang 0001, Ruixin Zhang, Rizen Guo, Guannan Jiang, Yulong Chen, Yanyun Qu, Lizhuang Ma, Yuan Xie 0006. 4766-4775 [doi]

GeoMM: On Geodesic Perspective for Multi-modal LearningShibin Mei, Hang Wang, Bingbing Ni. 4776-4786 [doi]

HOT: Hadamard-based Optimized TrainingSeonggon Kim, Juncheol Shin, Seung-taek Woo, Eunhyeok Park. 4787-4796 [doi]

DELT: A Simple Diversity-driven EarlyLate Training for Dataset DistillationZhiqiang Shen, Ammar Sherif, Zeyuan Yin 0001, Shitong Shao. 4797-4806 [doi]

Flexible Group Count Enables Hassle-Free Structured PruningJiamu Zhang, Shaochen Zhong, Andrew Ye, Zirui Liu 0001, Sebastian Zhao, Kaixiong Zhou, Li Li 0035, Soo Hyun Choi, Rui Chen, Xia Hu, Shuai Xu, Vipin Chaudhary. 4807-4818 [doi]

WAVE: Weight Templates for Adaptive Initialization of Variable-sized ModelsFu Feng, Yucheng Xie, Jing Wang, Xin Geng 0001. 4819-4828 [doi]

IterIS: Iterative Inference-Solving Alignment for LoRA MergingHongxu Chen 0002, Zhen Wang, Runshi Li, Bowei Zhu, Long Chen. 4829-4838 [doi]

Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You NeedQiang Wang, Xiang Song 0005, Yuhang He, Jizhou Han, Chenhao Ding, Xinyuan Gao, Yihong Gong. 4839-4849 [doi]

Ferret: An Efficient Online Continual Learning Framework under Varying Memory ConstraintsYuhao Zhou, Yuxin Tian, Jindi Lv, Mingjia Shi, Yuanxi Li, Qing Ye, Shuhao Zhang, Jiancheng Lv 0001. 4850-4861 [doi]

Learning Conditional Space-Time Prompt Distributions for Video Class-Incremental LearningXiaohan Zou, Wenchao Ma, Shu Zhao. 4862-4873 [doi]

Handling Spatial-Temporal Data Heterogeneity for Federated Continual Learning via Tail AnchorHao Yu, Xin Yang, Le Zhang, Hanlin Gu, Tianrui Li 0001, Lixin Fan, Qiang Yang 0001. 4874-4883 [doi]

Adapter Merging with Centroid Prototype Mapping for Scalable Class-Incremental LearningTakuma Fukuda, Hiroshi Kera, Kazuhiko Kawamoto. 4884-4893 [doi]

Order-Robust Class Incremental Learning: Graph-Driven Dynamic Similarity GroupingGuannan Lai, Yujie Li 0007, Xiangkun Wang, Junbo Zhang, Tianrui Li, Xin Yang. 4894-4904 [doi]

When Domain Generalization meets Generalized Category Discovery: An Adaptive Task-Arithmetic Driven ApproachVaibhav Rathore, Shubhranil B, Saikat Dutta, Sarthak Mehrotra, Zsolt Kira, Biplab Banerjee. 4905-4915 [doi]

Link-based Contrastive Learning for One-Shot Unsupervised Domain AdaptationYue Zhang, Mingyue Bin, Yuyang Zhang, Zhongyuan Wang 0001, Zhen Han, Chao Liang. 4916-4926 [doi]

Distinguish Then Exploit: Source-free Open Set Domain Adaptation via Weight Barcode Estimation and Sparse Label AssignmentWeiming Liu, Jun Dan, Fan Wang, Xinting Liao, Junhao Dong, Hua Yu 0006, Shunjie Dong, Lianyong Qi. 4927-4938 [doi]

Instance-wise Supervision-level Optimization in Active LearningShinnosuke Matsuo, Riku Togashi, Ryoma Bise, Seiichi Uchida, Masahiro Nomura. 4939-4947 [doi]

Towards Source-Free Machine UnlearningSk Miraj Ahmed, Umit Yigit Basaran, Dripta S. Raychaudhuri, Arindam Dutta, Rohit Kundu, Fahim Faisal Niloy, Basak Guler, Amit K. Roy Chowdhury. 4948-4957 [doi]

Sufficient Invariant Learning for Distribution ShiftTaero Kim, Subeen Park, Sungjun Lim 0002, Yonghan Jung, Krikamol Muandet, Kyungwoo Song. 4958-4967 [doi]

CADRef: Robust Out-of-Distribution Detection via Class-Aware Decoupled Relative Feature LeveragingZhiwei Ling, Yachen Chang, Hailiang Zhao, Xinkui Zhao, Kingsum Chow, ShuiGuang Deng. 4968-4977 [doi]

Federated Learning with Domain Shift EraserZheng Wang 0077, Zihui Wang, Zheng Wang, Xiaoliang Fan, Cheng Wang 0003. 4978-4987 [doi]

AFL: A Single-Round Analytic Approach for Federated Learning with Pre-trained ModelsRun He, Kai Tong, Di Fang 0004, Han Sun, Ziqian Zeng, Haoran Li, Tianyi Chen, Huiping Zhuang. 4988-4998 [doi]

Fortifying Federated Learning Towards Trustworthiness via Auditable Data Valuation and Verifiable Client ContributionK. Naveen Kumar, Ranjeet Ranjan Jha, C. Krishna Mohan, Ravindra Babu Tallamraju. 4999-5009 [doi]

ESC: Erasing Space Concept for Knowledge DeletionTae Young Lee, Sundong Park, Minwoo Jeon, Hyoseok Hwang, Gyeong-Moon Park. 5010-5019 [doi]

Deterministic Certification of Graph Neural Networks against Graph Poisoning Attacks with Arbitrary PerturbationsJiate Li, Meng Pang, Yun Dong, Binghui Wang. 5020-5029 [doi]

Simplification Is All You Need against Out-of-Distribution OverconfidenceKeke Tang, Chao Hou, Weilong Peng, Xiang Fang, Zhize Wu, Yongwei Nie, Wenping Wang, Zhihong Tian. 5030-5040 [doi]

MOS-Attack: A Scalable Multi-objective Adversarial Attack FrameworkPing Guo 0007, Cheng Gong, Xi Lin, Fei Liu 0044, Zhichao Lu, Qingfu Zhang 0001, Zhenkun Wang 0001. 5041-5051 [doi]

Automated Proof of Polynomial Inequalities via Reinforcement LearningBanglong Liu, Niuniu Qi, Xia Zeng, Lydia Dehbi, Zhengfeng Yang. 5052-5060 [doi]

Deep Fair Multi-View Clustering with Attention KANHaiming Xu, Qianqian Wang 0001, Boyue Wang, Quanxue Gao. 5061-5070 [doi]

Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic LearningYuzhuo Dai, Jiaqi Jin, Zhibin Dong, Siwei Wang 0001, Xinwang Liu 0002, En Zhu, Xihong Yang, Xinbiao Gan, Yu Feng. 5071-5081 [doi]

Improve Representation for Imbalanced Regression through Geometric ConstraintsZijian Dong 0001, Yilei Wu, Chongyao Chen, Yingtian Zou, Yichi Zhang, Juan Helen Zhou. 5082-5091 [doi]

MODfinity: Unsupervised Domain Adaptation with Multimodal Information Flow IntertwiningShanglin Liu, Jianming Lv, Jingdan Kang, Huaidong Zhang, Zequan Liang, Shengfeng He. 5092-5101 [doi]

Distilled Prompt Learning for Incomplete Multimodal Survival PredictionYingxue Xu, Fengtao Zhou, Chenyu Zhao, Yihui Wang 0002, Can Yang, Hao Chen 0011. 5102-5111 [doi]

LMO: Linear Mamba Operator for MRI ReconstructionWei Li, Jiawei Jiang 0002, Jie Wu, Kaihao Yu, Jianwei Zheng 0001. 5112-5122 [doi]

CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus DatasetXiao Wang, Fuling Wang, Yuehang Li, Qingchuan Ma, Shiao Wang, Bo Jiang 0002, Jin Tang 0001. 5123-5133 [doi]

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image UnderstandingYing Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye 0002, Tianbin Li, Ming Hu, Rongshan Yu, Yu Qiao 0001, Junjun He. 5134-5143 [doi]

Learning Heterogeneous Tissues with Mixture of Experts for Gigapixel Whole Slide ImagesJunxian Wu 0002, Minheng Chen, Xinyi Ke, Tianwang Xun, Xiaoming Jiang, Hongyu Zhou, Lizhi Shao, Youyong Kong. 5144-5153 [doi]

Patient-Level Anatomy Meets Scanning-Level Physics: Personalized Federated Low-Dose CT Denoising Empowered by Large Language ModelZiyuan Yang 0001, Yingyu Chen, Zhiwen Wang 0002, Hongming Shan, Yang Chen, Yi Zhang 0018. 5154-5163 [doi]

Multi-modal Vision Pre-training for Medical Image AnalysisShaohao Rui, Lingzhi Chen, Zhenyu Tang 0005, Lilong Wang, Mianxin Liu, Shaoting Zhang 0001, Xiaosong Wang 0001. 5164-5174 [doi]

Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image SegmentationQinghe Ma, Jian Zhang 0002, Zekun Li 0010, Lei Qi 0001, Qian Yu, Yinghuan Shi. 5175-5185 [doi]

Revisiting MAE Pre-training for 3D Medical Image SegmentationTassilo Wald, Constantin Ulrich, Stanislav Lukyanenko, Andrei Goncharov, Alberto Paderno, Maximilian Miller, Leander Maerkisch, Paul F. Jaeger, Klaus H. Maier-Hein. 5186-5196 [doi]

SuperLightNet: Lightweight Parameter Aggregation Network for Multimodal Brain Tumor SegmentationFeng Yu 0017, Jiacheng Cao, Li Liu, Minghua Jiang. 5197-5206 [doi]

EchoONE: Segmenting Multiple Echocardiography Planes in One ModelJiongtong Hu, Wufeng Xue, Jun Cheng 0006, Yingying Liu, Wei Zhuo, Dong Ni 0001. 5207-5216 [doi]

AeSPa : Attention-guided Self-supervised Parallel Imaging for MRI ReconstructionJinho Joo, Hyeseong Kim, HyeYeon Won, Deukhee Lee, Taejoon Eo, Dosik Hwang. 5217-5226 [doi]

SACB-Net: Spatial-awareness Convolutions for Medical Image RegistrationXinxing Cheng, Tianyang Zhang 0003, Wenqi Lu 0001, Qingjie Meng, Alejandro F. Frangi, Jinming Duan 0001. 5227-5237 [doi]

Segmenting Maxillofacial Structures in CBCT VolumesFederico Bolelli, Kevin Marchesini, Niels van Nistelrooij, Luca Lumetti, Vittorio Pipoli, Elisa Ficarra, Shankeeth Vinayahalingam, Costantino Grana. 5238-5248 [doi]

FoundationStereo: Zero-Shot Stereo MatchingBowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield. 5249-5260 [doi]

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training SupervisionRuicheng Wang, Sicheng Xu, Cassie Dai, Jianfeng Xiang, Yu Deng 0006, Xin Tong 0001, Jiaolong Yang. 5261-5271 [doi]

Multi-view Reconstruction via SfM-guided Monocular Depth EstimationHaoyu Guo, He Zhu, Sida Peng, Haotong Lin, Yunzhi Yan, Tao Xie, Wenguan Wang, Xiaowei Zhou, Hujun Bao. 5272-5282 [doi]

MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 SecondsZhenggang Tang, Yuchen Fan, Dilin Wang, Hongyu Xu, Rakesh Ranjan, Alexander G. Schwing, Zhicheng Yan 0001. 5283-5293 [doi]

VGGT: Visual Geometry Grounded TransformerJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht 0001, David Novotný. 5294-5306 [doi]

CraftsMan3D: High-fidelity Mesh Generation with 3D Native Diffusion and Interactive Geometry RefinerWeiyu Li, Jiarui Liu, Hongyu Yan, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long. 5307-5317 [doi]

CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion ModelsFelix Taubner, Ruihang Zhang, Mathieu Tuli, David B. Lindell. 5318-5330 [doi]

Reanimating Images using Neural Representations of Dynamic StimuliJacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr. 5331-5343 [doi]

EgoLM: Multi-Modal Language Model of Egocentric MotionsFangzhou Hong, Vladimir Guzov, Hyo-Jin Kim, Yuting Ye, Richard A. Newcombe, Ziwei Liu, Lingni Ma. 5344-5354 [doi]

Reconstructing Humans with a Biomechanically Accurate SkeletonYan Xia, Xiaowei Zhou 0001, Etienne Vouga, Qixing Huang, Georgios Pavlakos. 5355-5365 [doi]

MEGA: Masked Generative Autoencoder for Human Mesh RecoveryGuénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer. 5366-5378 [doi]

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task TokenizationLiang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai 0002, Taku Komura, Jingbo Wang 0003. 5379-5391 [doi]

Descriptor-In-Pixel : Point-Feature Tracking For Pixel Processor ArraysLaurie Bose, Jianing Chen, Piotr Dudek. 5392-5400 [doi]

Temporally Consistent Object-Centric Learning by Contrasting SlotsAnna Manasyan, Maximilian Seitzer, Filip Radovic, Georg Martius, Andrii Zadaianchuk. 5401-5411 [doi]

Temporal Alignment-Free Video Matching for Few-shot Action RecognitionSubeen Lee, WonJun Moon, Hyun Seok Seong, Jae-Pil Heo. 5412-5421 [doi]

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic ModelsZhejun Zhang, Péter Karkus, Maximilian Igl, Wenhao Ding, Yuxiao Chen 0008, Boris Ivanovic, Marco Pavone 0001. 5422-5432 [doi]

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour RecognitionOtto Brookes, Maksim Kukushkin, Majid Mirmehdi, Colleen Stephens, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Maureen S. McCarthy, Amelia Meier, Emmanuelle Normand, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Klaus Zuberbühler, Lukas Boesch, Thomas Schmid 0003, Mimi Arandjelovic, Hjalmar S. Kühl, Tilo Burghardt. 5433-5443 [doi]

Rethinking Spiking Self-Attention Mechanism: Implementing a-XNOR Similarity Calculation in Spiking TransformersYichen Xiao, Shuai Wang, Dehao Zhang, Wenjie Wei, Yimeng Shan, Xiaoli Liu, Yulin Jiang, Malu Zhang. 5444-5454 [doi]

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid EmotionsKai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu 0001, Lanqing Hong, Lu Hou, Hang Xu. 5455-5466 [doi]

Let's Chorus: Partner-aware Hybrid Song-Driven 3D Head AnimationXiumei Xie, Zikai Huang, Wenhao Xu, Peng Xiao, Xuemiao Xu, Huaidong Zhang. 5467-5476 [doi]

KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame InterpolationAntoni Bigata Casademunt, Michal Stypulkowski, Rodrigo Mira, Stella Bounareli, Konstantinos Vougioukas, Zoe Landgraf, Nikita Drobyshev, Maciej Zieba, Stavros Petridis, Maja Pantic. 5477-5488 [doi]

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human AnimationRang Meng, Xingyu Zhang, Yuming Li, Chenguang Ma. 5489-5498 [doi]

X-Dyna: Expressive Dynamic Human Image AnimationDi Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang 0088, Yichun Shi, Zeyuan Chen, Shijie Zhou 0003, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani 0001. 5499-5509 [doi]

Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid DatasetYiqun Mei, Mingming He, Li Ma, Julien Philip, Wenqi Xian, David M. George, Xueming Yu, Gabriel Dedic, Ahmet Levent Tasel, Ning Yu, Vishal M. Patel, Paul E. Debevec. 5510-5522 [doi]

Monocular and Generalizable Gaussian Talking Head AnimationShengjie Gong, Haojie Li, Jiapeng Tang, Dongming Hu, Shuangping Huang, Hao Chen, Tianshui Chen, Zhuoman Liu. 5523-5534 [doi]

FATE: Full-head Gaussian Avatar with Textural Editing from Monocular VideoJiawei Zhang, Zijian Wu, Zhiyang Liang 0002, Yicheng Gong, Dongfang Hu, Yao Yao 0008, Xun Cao, Hao Zhu 0004. 5535-5545 [doi]

GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view DiffusionJiapeng Tang, Davide Davoli 0002, Tobias Kirschstein, Liam Schoneveld, Matthias Nießner. 5546-5558 [doi]

Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal PriorChen Guo, Junxuan Li, Yash Kant, Yaser Sheikh, Shunsuke Saito, Chen Cao. 5559-5570 [doi]

SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic PriorsYufan Wu, Xuanhong Chen, Wen Li, Shunran Jia, Hualiang Wei, Kairui Feng, Jialiang Chen, Yuhan Li, Ang He, Weimin Zhang, Bingbing Ni, Wenjun Zhang. 5571-5580 [doi]

EasyCraft: A Robust and Efficient Framework for Automatic Avatar CraftingSuzhen Wang, Weijie Chen, Wei Zhang 0219, Minda Zhao, Lincheng Li, Rongsheng Zhang, Zhipeng Hu, Xin Yu. 5581-5591 [doi]

RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in VideosYuxin Yao, Zhi Deng, Junhui Hou. 5592-5601 [doi]

Learning Person-Specific Animatable Face Models from In-the-Wild Images via a Shared Base ModelYuxiang Mao, Zhenfeng Fan, Zhijie Zhang, Zhiheng Zhang, Shihong Xia. 5602-5613 [doi]

ControlFace: Harnessing Facial Parametric Control for Face RiggingWooseok Jang, Youngjun Hong, Geonho Cha, Seungryong Kim. 5614-5624 [doi]

HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face FusionYifang Xu, Benxiang Zhai, Yunzhuo Sun, Ming Li, Yang Li, Sidan Du. 5625-5635 [doi]

DeClotH: Decomposable 3D Cloth and Human Body Reconstruction from a Single ImageHyeongjin Nam, Donghwan Kim, Jeongtaek Oh, Kyoung Mu Lee. 5636-5645 [doi]

Disentangled Pose and Appearance Guidance for Multi-Pose GenerationTengfei Xiao, Yue Wu 0004, Yuelong Li, Can Qin, Maoguo Gong, Qiguang Miao, Wenping Ma 0001. 5646-5655 [doi]

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and ReconstructionYuanbo Wang, Zhaoxuan Zhang, Jiajin Qiu, Dilong Sun, Zhengyu Meng, Xiaopeng Wei, Xin Yang. 5656-5665 [doi]

MangaNinja: Line Art Colorization with Precise Reference FollowingZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao 0002, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo. 5666-5677 [doi]

HVI: A New Color Space for Low-light Image EnhancementQingsen Yan, Yixu Feng, Cheng Zhang, Guansong Pang, Kangbiao Shi, Peng Wu, Wei Dong, Jinqiu Sun, Yanning Zhang 0001. 5678-5687 [doi]

Flash-Split: 2D Reflection Removal with Flash Cues and Latent Diffusion SeparationTianfu Wang 0007, Mingyang Xie, Haoming Cai, Sachin Shah, Christopher A. Metzler. 5688-5698 [doi]

Noise Modeling in One Hour: Minimizing Preparation Efforts for Self-supervised Low-Light RAW Image DenoisingFeiran Li, Haiyang Jiang, Daisuke Iso. 5699-5708 [doi]

Quad-Pixel Image Defocus Deblurring: A New Benchmark and ModelHang Chen, Yin Xie, Xiaoxiu Peng, Lihu Sun, Wenkai Su, Xiaodong Yang, Chengming Liu. 5709-5719 [doi]

ScribbleLight: Single Image Indoor Relighting with ScribblesJun Myeong Choi, Annie Wang, Pieter Peers, Anand Bhattad, Roni Sengupta. 5720-5731 [doi]

Hearing Anywhere in Any EnvironmentXiulong Liu, Anurag Kumar 0003, Paul Calamia, Sebastià Vicenc Amengual Garí, Calvin Murdock, Ishwarya Ananthabhotla, Philip W. Robinson, Eli Shlizerman, Vamsi Krishna Ithapu, Ruohan Gao. 5732-5741 [doi]

EnvGS: Modeling View-Dependent Appearance with Environment GaussianTao Xie, Xi Chen, Zhen Xu, Yiman Xie, Yudong Jin, Yujun Shen, Sida Peng, Hujun Bao, Xiaowei Zhou. 5742-5751 [doi]

Geometry Field Splatting with Gaussian SurfelsKaiwen Jiang, Venkataram Sivaram, Cheng Peng, Ravi Ramamoorthi. 5752-5762 [doi]

Locally Orderless Images for Optimization in Differentiable RenderingIshit Mehta, Manmohan Chandraker, Ravi Ramamoorthi. 5763-5772 [doi]

Channel-wise Noise Scheduled Diffusion for Inverse Rendering in Indoor ScenesJunyong Choi, Min-Cheol Sagong, SeokYeong Lee, Seung-Won Jung, Ig-Jae Kim, Junghyun Cho. 5773-5782 [doi]

Feature-Preserving Mesh Decimation for Normal IntegrationMoritz Heep, Sven Behnke, Eduard Zell. 5783-5792 [doi]

SGCR: Spherical Gaussians for Efficient 3D Curve ReconstructionXinran Yang, Donghao Ji, Yuanqi Li, Jie Guo 0001, Yanwen Guo 0001, Junyuan Xie. 5793-5803 [doi]

AMR-Transformer: Enabling Efficient Long-range Interaction for Complex Neural Fluid SimulationZeyi Xu, Jinfan Liu, Kuangxu Chen, Ye Chen, Zhangli Hu, Bingbing Ni. 5804-5813 [doi]

MaRI: Material Retrieval Integration across DomainsJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang. 5814-5823 [doi]

Spherical Manifold Guided Diffusion Model for Panoramic Image GenerationXiancheng Sun, Mai Xu, Shengxi Li, Senmao Ma, Xin Deng 0002, Lai Jiang, Gang Shen. 5824-5834 [doi]

MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data AugmentationZilong Chen, Yikai Wang, Wenqiang Sun, Feng Wang, Yiwen Chen, Huaping Liu 0001. 5835-5848 [doi]

RASP: Revisiting 3D Anamorphic Art for Shadow-Guided Packing of Irregular ObjectsSoumyaratna Debnath, Ashish Tiwari 0005, Kaustubh Sadekar, Shanmuganathan Raman. 5849-5858 [doi]

Twinner: Shining Light on Digital Twins in a Few SnapsJesus Zarzar, Tom Monnier, Roman Shapovalov, Andrea Vedaldi, David Novotný. 5859-5869 [doi]

Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset GenerationJiantao Lin, Xin Yang 0020, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie Xu, Shunsi Zhang, Ying-Cong Chen. 5870-5880 [doi]

PartGen: Part-level 3D Generation and Reconstruction with Multi-view Diffusion ModelsMinghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotný, Andrea Vedaldi. 5881-5892 [doi]

FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free PromptsTongyuan Bai, Wangyuanfan Bai, Dong Chen, Tieru Wu, Manyi Li, Rui Ma. 5893-5903 [doi]

Reference-Based 3D-Aware Image Editing with TriplanesBahri Batuhan Bilecen, Yigit Yalin, Ning Yu 0006, Aysegul Dundar. 5904-5915 [doi]

WonderWorld: Interactive 3D Scene Generation from a Single ImageHong-Xing Yu, Haoyi Duan, Charles Herrmann, William T. Freeman, Jiajun Wu 0001. 5916-5926 [doi]

UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV MappingAashish Rai, Dilin Wang, Mihir Jain, Nikolaos Sarafianos, Kefan Chen, Srinath Sridhar 0002, Aayush Prakash. 5927-5937 [doi]

3D-GSW: 3D Gaussian Splatting for Robust WatermarkingYoungdong Jang, Hyunje Park, Feng Yang, Heeju Ko, Euijin Choo, Sangpil Kim. 5938-5948 [doi]

PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian SplattingAlex Hanson 0002, Allen Tu, Vasu Singla, Mayuka Jayawardhana, Matthias Zwicker, Tom Goldstein. 5949-5958 [doi]

Gaussian Splatting for Efficient Satellite Image PhotogrammetryLuca Savant Aira, Gabriele Facciolo, Thibaud Ehret. 5959-5969 [doi]

HyperGS: Hyperspectral 3D Gaussian SplattingChristopher Thomas Thirgood, Oscar Mendez, Erin Chao Ling, Jon Storey, Simon Hadfield. 5970-5979 [doi]

RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View ImagesJunjin Xiao, Qing Zhang 0006, Yonewei Nie, Lei Zhu 0003, Wei-Shi Zheng 0001. 5980-5990 [doi]

GaussHDR: High Dynamic Range Gaussian Splatting via Learning Unified 3D and 2D Local Tone MappingJinfeng Liu, Lingtong Kong, Bo Li, Dan Xu. 5991-6000 [doi]

MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse ViewsAntoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino. 6001-6011 [doi]

Exploiting Deblurring Networks for Radiance FieldsHaeyun Choi, Heemin Yang, Janghyeok Han, Sunghyun Cho. 6012-6021 [doi]

Decompositional Neural Scene Reconstruction with Generative Diffusion PriorJunfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song Chun Zhu, Yixin Chen 0003, Siyuan Huang 0001. 6022-6033 [doi]

MET3R: Measuring Multi-View Consistency in Generated ImagesMohammad Asim, Christopher Wewer, Thomas Wimmer 0001, Bernt Schiele, Jan Eric Lenssen. 6034-6044 [doi]

MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion ModelChenjie Cao, Chaohui Yu, Shang Liu, Fan Wang 0019, Xiangyang Xue, Yanwei Fu 0001. 6045-6056 [doi]

ERUPT: Efficient Rendering with Unposed Patch TransformerMaxim V. Shugaev, Vincent Chen, Maxim Karrenbach, Kyle Ashley, Bridget Kennedy, Naresh P. Cuntoor. 6057-6067 [doi]

Satellite to GroundScape - Large-scale Consistent Ground View Generation from Satellite ViewsNingli Xu, Rongjun Qin. 6068-6077 [doi]

GenFusion: Closing the Loop between Reconstruction and Generation via VideosSibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger 0001, Anpei Chen. 6078-6088 [doi]

Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion ModelShengjun Zhang, Jinzhao Li, Xin Fei, Hao Liu, Yueqi Duan. 6089-6098 [doi]

Multi-subject Open-set Personalization in Video GenerationTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang 0001, Sergey Tulyakov. 6099-6110 [doi]

Generative Gaussian Splatting for Unbounded 3D City GenerationHaozhe Xie, Zhaoxi Chen 0009, Fangzhou Hong, Ziwei Liu 0002. 6111-6120 [doi]

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera ControlXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller 0013, Alexander Keller 0001, Sanja Fidler, Jun Gao 0004. 6121-6132 [doi]

Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse InputsYingji Zhong, Zhihao Li 0002, Dave Zhenyu Chen, Lanqing Hong, Dan Xu 0002. 6133-6143 [doi]

DynamicScaler: Seamless and Scalable Video Generation for Panoramic ScenesJinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang 0001. 6144-6153 [doi]

LIM: Large Interpolator Model for Dynamic ReconstructionRemy Sabathier, Niloy J. Mitra, David Novotný. 6154-6164 [doi]

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion ScaffoldsJiahui Lei, Yijia Weng, Adam W. Harley, Leonidas J. Guibas, Kostas Daniilidis. 6165-6177 [doi]

PhysGen3D: Crafting a Miniature Interactive World from a Single ImageBoyuan Chen, Hanxiao Jiang 0001, Shaowei Liu, Saurabh Gupta, Yunzhu Li, Hao Zhao, Shenlong Wang. 6178-6189 [doi]

Link to the Past: Temporal Propagation for Fast 3D Human Reconstruction from Monocular VideoMatthew Marchellus, Nadhira Noor, In Kyu Park. 6190-6199 [doi]

The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human MotionChangan Chen, Juze Zhang, Shrinidhi K. Lakshmikanth, Yusu Fang, Ruizhi Shao, Gordon Wetzstein, Li Fei-Fei 0001, Ehsan Adeli 0001. 6200-6211 [doi]

Towards Explainable and Unprecedented Accuracy in Matching Challenging Finger Crease PatternsZhenyu Zhou, Chengdong Dong, Ajay Kumar. 6212-6221 [doi]

One-Step Event-Driven High-Speed AutofocusYuhan Bao, Shaohua Gao, Wenyong Li, Kaiwei Wang. 6222-6230 [doi]

Self-Supervised Learning for Color Spike Camera ReconstructionYanchen Dong 0001, Ruiqin Xiong, Xiaopeng Fan, Zhaofei Yu, Yonghong Tian 0001, Tiejun Huang 0001. 6231-6240 [doi]

PS-EIP: Robust Photometric Stereo Based on Event Interval ProfileKazuma Kitazawa, Takahito Aoto 0002, Satoshi Ikehata, Tsuyoshi Takatani. 6241-6251 [doi]

Efficient Depth Estimation for Unstable Stereo Camera Systems on AR GlassesYongfan Liu, Hyoukjun Kwon. 6252-6261 [doi]

Scalable Autoregressive Monocular Depth EstimationJinhong Wang, Jian Liu, Dongqi Tang, Weiqiang Wang, Wentong Li, Danny Chen, Jintai Chen, Jian Wu. 6262-6272 [doi]

MonSter: Marry Monodepth to Stereo Unleashes PowerJunda Cheng, Longliang Liu, Gangwei Xu, Xianqi Wang 0001, Zhaoxing Zhang, Yong Deng, Jinliang Zang, Yurui Chen, Zhipeng Cai, Xin Yang. 6273-6282 [doi]

Dual Exposure Stereo for Extended Dynamic Range 3D ImagingJuhyung Choi, Jinnyeong Kim, Seokjun Choi, Jinwoo Lee, Samuel Brucker, Mario Bijelic, Felix Heide, Seung-Hwan Baek. 6283-6293 [doi]

Adapting Dense Matching for Homography Estimation with Grid-based AccelerationKaining Zhang, Yuxin Deng, Jiayi Ma 0001, Paolo Favaro. 6294-6303 [doi]

ProtoDepth: Unsupervised Continual Depth Completion with PrototypesPatrick Rim, Hyoungseob Park, Suchisrit Gangopadhyay, Ziyao Zeng, Younjoon Chung, Alex Wong 0001. 6304-6316 [doi]

DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint DiffusionQitao Zhao, Amy Lin, Jeff Tan, Jason Y. Zhang 0001, Deva Ramanan, Shubham Tulsiani. 6317-6326 [doi]

ScaleLSD: Scalable Deep Line Segment Detection StreamlinedZeran Ke, Bin Tan, Xianwei Zheng, Yujun Shen, Tianfu Wu 0001, Nan Xue 0001. 6327-6336 [doi]

EDM: Equirectangular Projection-Oriented Dense Kernelized Feature MatchingDongki Jung, Jaehoon Choi, Yonghan Lee 0001, Somi Jeong, Taejae Lee, Dinesh Manocha, Suyong Yeon. 6337-6347 [doi]

Feat2GS: Probing Visual Foundation Models with Gaussian SplattingYue Chen, Xingyu Chen, Anpei Chen, Gerard Pons-Moll, Yuliang Xiu. 6348-6361 [doi]

FG^2: Fine-Grained Cross-View Localization by Fine-Grained Feature MatchingZimin Xia, Alexandre Alahi. 6362-6372 [doi]

Stop Walking in Circles! Bailing Out Early in Projected Gradient DescentPhilip Doldo, Derek Everett, Amol Khanna, André T. Nguyen, Edward Raff. 6373-6382 [doi]

Self-Supervised Spatial Correspondence Across ModalitiesAyush Shrivastava, Andrew Owens. 6383-6393 [doi]

RDD: Robust Feature Detector and Descriptor using Deformable TransformerGonglin Chen, Tianwen Fu, Haiwei Chen, Wenbin Teng, Hanyuan Xiao, Yajie Zhao. 6394-6403 [doi]

Dense-SfM: Structure from Motion with Dense Consistent MatchingJongmin Lee, Sungjoo Yoo. 6404-6414 [doi]

HeatFormer: A Neural Optimizer for Multiview Human Mesh RecoveryYuto Matsubara, Ko Nishino. 6415-6424 [doi]

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose ReconstructionBen Kaye, Tomas Jakab, Shangzhe Wu, Christian Ruprecht, Andrea Vedaldi. 6425-6435 [doi]

iG-6DoF: Model-free 6DoF Pose Estimation for Unseen Object via Iterative 3D Gaussian SplattingTuo Cao, Fei Luo 0004, Jiongming Qin, Yu Jiang, Yusen Wang, Chunxia Xiao. 6436-6446 [doi]

RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen ObjectsJaeguk Kim, Jaewoo Park, Keuntek Lee, Nam Ik Cho. 6447-6456 [doi]

One2Any: One-Reference 6D Pose Estimation for Any ObjectMengya Liu, Siyuan Li 0008, Ajad Chhatkuli, Prune Truong, Luc Van Gool, Federico Tombari. 6457-6467 [doi]

Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature SpaceLeonhard Sommer, Olaf Dünkel, Christian Theobalt, Adam Kortylewski. 6468-6479 [doi]

ESCAPE: Equivariant Shape Completion via Anchor Point EncodingBurak Bekci, Nassir Navab, Federico Tombari, Mahdi Saleh. 6480-6489 [doi]

Open-World Amodal Appearance CompletionJiayang Ao, Yanbei Jiang, Qiuhong Ke, Krista A. Ehinger. 6490-6499 [doi]

Exploring Historical Information for RGBE Visual Tracking with MambaChuanyu Sun, Jiqing Zhang, Yang Wang, Huilin Ge, Qianchen Xia, Baocai Yin, Xin Yang. 6500-6509 [doi]

EBS-EKF: Accurate and High Frequency Event-based Star TrackingAlbert W. Reed, Connor Hashemi, Dennis Melamed, Nitesh Menon, Keigo Hirakawa, Scott McCloskey. 6510-6519 [doi]

MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error PriorsFanqi Pu, Yifan Wang, Jiru Deng, Wenming Yang. 6520-6530 [doi]

MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular DetectionRishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Nath Kundu, R. Venkatesh Babu. 6531-6541 [doi]

4Deform: Neural Surface Deformation for Robust Shape InterpolationLu Sang, Zehranaz Canfes, Dongliang Cao, Riccardo Marin, Florian Bernard, Daniel Cremers. 6542-6551 [doi]

Toward Robust Neural Reconstruction from Sparse Point SetsAmine Ouasfi, Shubhendu Jena, Eric Marchand, Adnane Boukhayma. 6552-6562 [doi]

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse PointsQirui Huang, Runze Zhang, Kangjun Liu, Minglun Gong, Hao Zhang, Hui Huang 0004. 6563-6572 [doi]

ColabSfM: Collaborative Structure-from-Motion by Point Cloud RegistrationJohan Edstedt, André Mateus 0001, Alberto Jaenal. 6573-6583 [doi]

MoST: Efficient Monarch Sparse Tuning for 3D Representation LearningXu Han, Yuan Tang, Jinfeng Xu 0002, Xianzhi Li. 6584-6594 [doi]

Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry LocalityLiyan Chen, Gregory P. Meyer, Zaiwei Zhang, Eric M. Wolff, Paul Vernaza. 6595-6604 [doi]

PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud LearningSong Wang, Xiaolu Liu, Lingdong Kong, Jianyun Xu, Chunyong Hu, Gongfan Fang, Wentong Li, Jianke Zhu, Xinchao Wang. 6605-6615 [doi]

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud ProcessingFeifei Shao, Ping Liu, Zhao Wang, Yawei Luo, Hongwei Wang, Jun Xiao 0001. 6616-6626 [doi]

LidarGait++: Learning Local Features and Size Awareness from LiDAR Point Clouds for 3D Gait RecognitionChuanfu Shen, Rui Wang, Lixin Duan, Shiqi Yu 0001. 6627-6636 [doi]

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based FrameworkYanlong Xu, Haoxuan Qu, Jun Liu, Wenxiao Zhang, Xun Yang. 6637-6647 [doi]

HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial ViewsEthan Griffiths, Maryam Haghighat, Simon Denman, Clinton Fookes, Milad Ramezani. 6648-6658 [doi]

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density ImagesYanqing Shen, Turcan Tuna, Marco Hutter 0001, César Cadena 0001, Nanning Zheng 0001. 6659-6669 [doi]

PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point CloudsBarza Nisar, Steven L. Waslander. 6670-6679 [doi]

LightLoc: Learning Outdoor LiDAR Localization at Light SpeedWen Li 0005, Chen Liu, Shangshu Yu, Dunqiang Liu, Yin Zhou, Siqi Shen, Chenglu Wen, Cheng Wang 0003. 6680-6689 [doi]

No Thing, Nothing: Highlighting Safety-Critical Classes for Robust LiDAR Semantic Segmentation in Adverse WeatherJunsung Park, Hwijeong Lee, Inha Kang, Hyunjung Shim. 6690-6699 [doi]

RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration NetworkVan-Tin Luu, Yon-Lin Cai, Vu-Hoang Tran, Wei-chen Chiu, Yi-Ting Chen, Ching-Chun Huang. 6700-6709 [doi]

Pseudo Visible Feature Fine-Grained Fusion for Thermal Object DetectionTing Li, Mao Ye 0001, Tianwen Wu, Nianxin Li, Shuaifeng Li, Song Tang 0001, Luping Ji. 6710-6719 [doi]

Resilient Sensor Fusion Under Adverse Sensor Failures via Multi-Modal Expert FusionKonyul Park, Yecheol Kim, Daehun Kim, Jun Won Choi. 6720-6729 [doi]

Similarity-Guided Layer-Adaptive Vision Transformer for UAV TrackingChaocan Xue, Bineng Zhong, Qihua Liang, Yaozong Zheng, Ning Li, Yuanliang Xue, Shuxiang Song 0001. 6730-6740 [doi]

MAGiC-SLAM: Multi-Agent Gaussian Globally Consistent SLAMVladimir Yugay, Theo Gevers, Martin R. Oswald. 6741-6750 [doi]

SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy PredictionZaipeng Duan, Chenxu Dang, Xuzhong Hu, Pei-an, Junfeng Ding, Jie Zhan, Yunbiao Xu, Jie Ma 0003. 6751-6760 [doi]

VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow PredictionZiyue Zhu, Shenlong Wang, Jin Xie, Jiang-jiang Liu, Jingdong Wang, Jian Yang. 6761-6771 [doi]

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy PredictionSicheng Zuo, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu. 6772-6781 [doi]

DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving ScenesChensheng Peng, Chengwei Zhang, Yixiao Wang, Chenfeng Xu, Yichen Xie, Wenzhao Zheng, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan. 6782-6791 [doi]

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World DataRunjian Chen, Wenqi Shao, Bo Zhang 0069, Shaoshuai Shi, Li Jiang, Ping Luo. 6792-6801 [doi]

Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane DetectionYifan Chang, Junjie Huang, Xiaofeng Wang, Yun Ye, Zhujin Liang, Yi Shan, Dalong Du, Xingang Wang. 6802-6811 [doi]

SceneCrafter: Controllable Multi-View Driving Scene EditingZehao Zhu, Yuliang Zou, Chiyu Max Jiang, Bo Sun, Vincent Casser, Xiukun Huang, Jiahao Wang, Zhenpei Yang, RuiQi Gao, Leonidas J. Guibas, Mingxing Tan, Dragomir Anguelov. 6812-6822 [doi]

Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD MapXinyuan Chang, Maixuan Xue, Xinran Liu, Zheng Pan, Xing Wei. 6823-6833 [doi]

CoSDH: Communication-Efficient Collaborative Perception via Supply-Demand Awareness and Intermediate-Late HybridizationJunhao Xu, Yanan Zhang 0005, Zhi Cai, Di Huang 0001. 6834-6843 [doi]

Generating Multimodal Driving Scenes via Next-Scene PredictionYanhao Wu, Haoyang Zhang, Tianwei Lin, Lichao Huang, Shujie Luo, Rui Wu, Congpei Qiu, Wei Ke, Tong Zhang. 6844-6853 [doi]

Bridging Past and Future: End-to-End Autonomous Driving with Historical Prediction and PlanningBozhou Zhang, Nan Song, Xin Jin, Li Zhang. 6854-6863 [doi]

MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving PerceptionWenzhuo Liu, Wenshuo Wang, Yicheng Qiao, Qiannan Guo, Jiayin Zhu, Pengfei Li, Zilong Chen, Huiming Yang, Zhiwei Li, Lening Wang, Tiao Tan, Huaping Liu. 6864-6874 [doi]

CityWalker: Learning Embodied Urban Navigation from Web-Scale VideosXinhao Liu 0003, Jintong Li, Yicheng Jiang, Niranjan Sujay, Zhicheng Yang, Juexiao Zhang, John Abanes, Jing Zhang, Chen Feng. 6875-6885 [doi]

Evaluating Vision-Language Models as Evaluators in Path PlanningMohamed Aghzal, Xiang Yue, Erion Plaku, Ziyu Yao 0002. 6886-6897 [doi]

Scene Map-based Prompt Tuning for Navigation Instruction GenerationSheng Fan, Rui Liu, Wenguan Wang, Yi Yang. 6898-6908 [doi]

Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based VisionManon Dampfhoffer, Thomas Mesquida, Damien Joubert, Thomas Dalgaty, Pascal Vivet, Christoph Posch. 6909-6918 [doi]

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure DetectionEnshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang 0011, Zhongyuan Wang, Tiejun Huang 0001, Lu Sheng, He Wang 0010. 6919-6929 [doi]

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-TrainingRaktim Gautam Goswami, Prashanth Krishnamurthy, Yann LeCun, Farshad Khorrami. 6930-6939 [doi]

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical ReachabilityWeijie Zhou, Manli Tao, Chaoyang Zhao, Haiyun Guo, Honghui Dong, Ming Tang 0001, Jinqiao Wang. 6940-6949 [doi]

GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments ManipulationRuihai Wu, Ziyu Zhu, Yuran Wang, Yue Chen, Jiarui Wang, Hao Dong 0003. 6950-6959 [doi]

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy ConditioningJiange Yang, Haoyi Zhu, Yating Wang, Gangshan Wu, Tong He 0001, Limin Wang 0002. 6960-6970 [doi]

AffordDP: Generalizable Diffusion Policy with Transferable AffordanceShijie Wu, Yihang Zhu, Yunao Huang, Kaizhen Zhu, Jiayuan Gu, Jingyi Yu, Ye Shi 0001, Jingya Wang. 6971-6980 [doi]

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action CorrectionWenke Xia, Ruoxuan Feng, Dong Wang 0028, Di Hu 0001. 6981-6990 [doi]

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual LearningKailin Li 0006, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang 0001. 6991-7003 [doi]

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction ModelMingju Gao, Yike Pan, Huan-ang Gao, Zongzheng Zhang, Wenyi Li, Hao Dong, Hao Tang, Li Yi 0001, Hao Zhao 0002. 7004-7014 [doi]

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance ParsingJinlu Zhang, Yixin Chen, Zan Wang, Jie Yang, Yizhou Wang, Siyuan Huang. 7015-7025 [doi]

How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday InteractionsAditya Prakash, Benjamin Lundell, Dmitry Andreychuk, David Forsyth, Saurabh Gupta 0001, Harpreet Sawhney. 7026-7036 [doi]

EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the WildYumeng Liu, Xiaoxiao Long, Zemin Yang, Yuan Liu 0025, Marc Habermann, Christian Theobalt, Yuexin Ma, Wenping Wang. 7037-7047 [doi]

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction GenerationSirui Xu 0002, Dongting Li, Yucheng Zhang, Xiyan Xu, Qi Long, Ziyin Wang, Yunzhi Lu, Shuchang Dong, Hezi Jiang, Akshat Gupta, Yu-Xiong Wang, Liang-Yan Gui. 7048-7060 [doi]

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View VideosPrithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Shangchen Han, Fan Zhang, Linguang Zhang, Jade Fountain, Edward Miller 0001, Selen Basol, Richard A. Newcombe, Robert Wang 0002, Jakob Julian Engel, Tomas Hodan. 7061-7071 [doi]

Estimating Body and Hand Motion in an Ego-sensed WorldBrent Yi, Vickie Ye, Maya Zheng, Yunqi Li, Lea Müller, Georgios Pavlakos, Yi Ma, Jitendra Malik, Angjoo Kanazawa. 7072-7084 [doi]

UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband UnitsHuakun Liu, Hiroki Ota, Xin Wei, Yutaro Hirao, Monica Perusquía-Hernández, Hideaki Uchiyama, Kiyoshi Kiyokawa. 7085-7094 [doi]

REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity ConditioningJihyun Lee, WeiPeng Xu, Alexander Richard, Shih-En Wei, Shunsuke Saito, Shaojie Bai, Te-Li Wang, Minhyuk Sung, Tae-Kyun Kim 0001, Jason M. Saragih. 7095-7104 [doi]

LAL: Enhancing 3D Human Motion Prediction with Latency-aware Auxiliary LearningXiaoning Sun, Dong Wei 0007, HuaiJiang Sun, Shengxiang Hu 0001. 7105-7114 [doi]

LATTE-MV: Learning to Anticipate Table Tennis Hits from Monocular VideosDaniel Etaat, Dvij Kalaria, Nima Rahmanian, S. Shankar Sastry. 7115-7124 [doi]

Pose Priors from Language ModelsSanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein 0001, Shiry Ginosar, Trevor Darrell. 7125-7135 [doi]

HOIGPT: Learning Long-Sequence Hand-Object Interaction with Language ModelsMingzhen Huang, Fu-Jen Chu, Bugra Tekin, Kevin J. Liang, Haoyu Ma, Weiyao Wang, Xingyu Chen, Pierre Gleize, Hongfei Xue, Siwei Lyu, Kris Kitani, Matt Feiszli, Hao Tang. 7136-7146 [doi]

HSI-GPT: A General-Purpose Large Scene-Motion-Language Model for Human Scene InteractionYuan Wang, Yali Li 0001, Xiang Li, Shengjin Wang. 7147-7157 [doi]

SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and EditingSeokhyeon Hong, Chaelin Kim, Serin Yoon, Junghyun Nam, Sihun Cha, Junyong Noh. 7158-7168 [doi]

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion GenerationYabiao Wang, Shuo Wang, Jiangning Zhang, Ke-fan, Jiafu Wu, Zhucun Xue, Yong Liu. 7169-7178 [doi]

HuMoCon: Concept Discovery for Human Motion UnderstandingQihang Fang, Chengcheng Tang, Bugra Tekin, Shugao Ma, Yanchao Yang. 7179-7190 [doi]

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion TransferJiayi Gao, Zijin Yin, Changcheng Hua, Yuxin Peng, Kongming Liang, Zhanyu Ma, Jun Guo, Yang Liu. 7191-7200 [doi]

DreamTrack: Dreaming the Future for Multimodal Visual Object TrackingMingzhe Guo, Weiping Tan, Wenyu Ran, Liping Jing, Zhipeng Zhang. 7201-7210 [doi]

Seurat: From Moving Points to DepthSeokju Cho, Jiahui Huang, Seungryong Kim, Joon-Young Lee. 7211-7221 [doi]

CH3Depth: Efficient and Flexible Depth Foundation Model with Flow MatchingJiaqi Li 0007, Yiran Wang, Jinghong Zheng 0002, Junrui Zhang 0003, Liao Shen, Tianqi Liu 0003, Zhiguo Cao 0001. 7222-7232 [doi]

Video Depth without Video ModelsBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler. 7233-7243 [doi]

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform MotionsWonyong Seo, Jihyong Oh, Munchurl Kim. 7244-7253 [doi]

Autoregressive Sequential Pretraining for Visual TrackingShiyi Liang, Yifan Bai 0001, Yihong Gong, Xing Wei 0001. 7254-7264 [doi]

IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot MannerYuyang Huang, Yabo Chen, Li Ding, Xiaopeng Zhang 0008, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian 0001. 7265-7275 [doi]

Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video GenerationHyeonho Jeong, Chun-Hao P. Huang, Jong Chul Ye, Niloy J. Mitra, Duygu Ceylan. 7276-7287 [doi]

Consistent and Controllable Image Animation with Motion Diffusion ModelsXin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Tien-Tsin Wong, Yuan-Fang Li, Cunjian Chen. 7288-7298 [doi]

MatAnyone: Stable Video Matting with Consistent Memory PropagationPeiqing Yang 0001, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy. 7299-7308 [doi]

Unboxed: Geometrically and Temporally Consistent Video OutpaintingZhongrui Yu, Martina Megaro-Boldini, Robert W. Sumner, Abdelaziz Djelouah. 7309-7319 [doi]

High Dynamic Range Video Compression: A Large-Scale Benchmark Dataset and A Learned Bit-depth Scalable Compression AlgorithmZhaoyi Tian, Feifeng Wang, Shiwei Wang 0005, Zihao Zhou, Yao Zhu, Liquan Shen. 7320-7330 [doi]

ECVC: Exploiting Non-Local Correlations in Multiple Frames for Contextual Video CompressionWei Jiang 0031, Junru Li, Kai Zhang, Li Zhang. 7331-7341 [doi]

RivuletMLP: An MLP-based Architecture for Efficient Compressed Video Quality EnhancementGang He 0002, Weiran Wang, Guancheng Quan, Shihao Wang, Dajiang Zhou, Yunsong Li. 7342-7352 [doi]

Timestep Embedding Tells: It's Time to Cache for Video Diffusion ModelFeng Liu, Shiwei Zhang 0001, Xiaofeng Wang, Yujie Wei 0001, Haonan Qiu, YuZhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan 0001. 7353-7363 [doi]

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive DiffusionMingzhen Sun, Weining Wang 0001, Gen Li, Jiawei Liu 0001, Jiahui Sun, Wanquan Feng, Shanshan Lao, SiYu Zhou 0002, Qian He, Jing Liu. 7364-7373 [doi]

Taming Teacher Forcing for Masked Autoregressive Video GenerationDeyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang 0005. 7374-7384 [doi]

Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolutionShijun Shi, Jing Xu, Lijing Lu, Zhihang Li, Kai Hu. 7385-7395 [doi]

Face Forgery Video Detection via Temporal Forgery Cue UnravelingZonghui Guo, Yingjie Liu, Jie Zhang, Haiyong Zheng, Shiguang Shan. 7396-7405 [doi]

SVFR: A Unified Framework for Generalized Video Face RestorationZhiyao Wang, Xu Chen, Chengming Xu 0001, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Chengjie Wang, Yuqi Liu, Yiyi Zhou, Rongrong Ji. 7406-7415 [doi]

RSAR: Restricted State Angle Resolver and Rotated SAR BenchmarkXin Zhang, Xue Yang, Yuxuan Li, Jian Yang, Ming-Ming Cheng, Xiang Li. 7416-7426 [doi]

RobSense: A Robust Multi-modal Foundation Model for Remote Sensing with Static, Temporal, and Incomplete Data AdaptabilityMinh Kha Do, Kang Han, Phu Lai, Khoa T. Phan, Wei Xiang 0001. 7427-7436 [doi]

A Selective Re-learning Mechanism for Hyperspectral Fusion ImagingYuanye Liu, Jinyang Liu 0004, Renwei Dian, Shutao Li. 7437-7446 [doi]

A General Adaptive Dual-level Weighting Mechanism for Remote Sensing PansharpeningJie Huang, Haorui Chen, Jiaxuan Ren, Siran Peng, Liangjian Deng. 7447-7456 [doi]

Task-driven Image Fusion with Learnable Fusion LossHaowen Bai, Jiangshe Zhang 0001, Zixiang Zhao, Yichen Wu, Lilun Deng, Yukun Cui, Tao Feng, Shuang Xu. 7457-7468 [doi]

Channel Consistency Prior and Self-Reconstruction Strategy Based Unsupervised Image DerainingGuanglu Dong, Tianheng Zheng, Yuanzhouhan Cao, Linbo Qing, Chao Ren 0002. 7469-7479 [doi]

OSMamba: Omnidirectional Spectral Mamba with Dual-Domain Prior Generator for Exposure CorrectionGehui Li, Bin Chen, Chen Zhao, Lei Zhang, Jian Zhang. 7480-7490 [doi]

MaIR: A Locality- and Continuity-Preserving Mamba for Image RestorationBoyun Li, Haiyu Zhao, Wenxin Wang, Peng Hu, Yuanbiao Gou, Xi Peng. 7491-7501 [doi]

Zero-Shot Blind-spot Image Denoising via Implicit Neural SamplingYuhui Quan, Tianxiang Zheng, Zhiyuan Ma, Hui Ji. 7502-7512 [doi]

Adaptive Dropout: Unleashing Dropout across Layers for Generalizable Image Super-ResolutionHang Xu, Jie Huang, Wei Yu, Jiangtong Tan, Zhen Zou, Feng Zhao. 7513-7523 [doi]

Vision-Language Gradient Descent-driven All-in-One Deep Unfolding NetworksHaijin Zeng, Xiangming Wang, Yongyong Chen, Jingyong Su, Jie Liu. 7524-7533 [doi]

DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-ResolutionXingyuan Li, Zirui Wang, Yang Zou, Zhixin Chen, Jun Ma, Zhiying Jiang, Long Ma, Jinyuan Liu. 7534-7544 [doi]

Reversing Flow for Image RestorationHaina Qin, Wenyang Luo, Libin Wang, Dandan Zheng, Jingdong Chen, Ming Yang, Bing Li 0001, Weiming Hu. 7545-7558 [doi]

Navigating Image Restoration with VAR's Distribution Alignment PriorSiyang Wang, Naishan Zheng, Jie Huang, Feng Zhao. 7559-7569 [doi]

Image Quality Assessment: From Human to Machine PreferenceChunyi Li, Yuan Tian, Xiaoyue Ling, Zicheng Zhang, Haodong Duan, Haoning Wu, Ziheng Jia, Xiaohong Liu, Xiongkuo Min, Guo Lu, Weisi Lin, Guangtao Zhai. 7570-7581 [doi]

DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup TablesSidi Yang, Binxiao Huang, Yulun Zhang, Dahai Yu, Yujiu Yang, Ngai Wong. 7582-7591 [doi]

Detail-Preserving Latent Diffusion for Stable Shadow RemovalJiamin Xu, Yuxin Zheng, Zelong Li, Chi Wang, Renshu Gu, Weiwei Xu, Gang Xu. 7592-7602 [doi]

Shadow Generation Using Diffusion Model with Geometry PriorHaonan Zhao, Qingyang Liu, Xinhao Tao, Li Niu, Guangtao Zhai. 7603-7612 [doi]

TurboFill: Adapting Few-step Text-to-image Model for Fast Image InpaintingLiangbin Xie, Daniil Pakhomov, Zhonghao Wang, Zongze Wu, Ziyan Chen, YuQian Zhou, Haitian Zheng, Zhifei Zhang, Zhe Lin, Jiantao Zhou 0001, Chao Dong 0005. 7613-7622 [doi]

Linear Attention Modeling for Learned Image CompressionDonghui Feng 0003, Zhengxue Cheng, Shen Wang, Ronghua Wu, Hongwei Hu, Guo Lu, Li Song. 7623-7632 [doi]

Multirate Neural Image Compression with Adaptive Lattice Vector QuantizationHao Xu, Xiaolin Wu, Xi Zhang. 7633-7642 [doi]

Generative Image Layer Decomposition with Visual EffectsJinrui Yang, Qing Liu 0017, Yijun Li, Soo Ye Kim, Daniil Pakhomov, Mengwei Ren, Jianming Zhang, Zhe Lin, Cihang Xie, Yuyin Zhou. 7643-7653 [doi]

NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial TrainingDar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song. 7654-7663 [doi]

DiG: Scalable and Efficient Diffusion Models with Gated Linear AttentionLianghui Zhu, Zilong Huang, Bencheng Liao, Jun Hao Liew, Hanshu Yan, Jiashi Feng, Xinggang Wang. 7664-7674 [doi]

Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient TrainingLexington Whalen, Zhenbang Du, Haoran You, Chaojian Li, Sixu Li, Yingyan Lin. 7675-7684 [doi]

Latent Drifting in Diffusion Models for Counterfactual Medical Image SynthesisYousef Yeganeh, Azade Farshad, Ioannis Charisiadis, Marta Hasny, Martin Hartenberger, Björn Ommer, Nassir Navab, Ehsan Adeli 0001. 7685-7695 [doi]

Style Quantization for Data-Efficient GAN TrainingJian Wang, Xin Lan, Jizhe Zhou, Yuxin Tian, Jiancheng Lv. 7696-7706 [doi]

Temporal Score Analysis for Understanding and Correcting Diffusion ArtifactsYu Cao, Zengqun Zhao, Ioannis Patras, Shaogang Gong. 7707-7716 [doi]

Efficient Personalization of Quantized Diffusion Model without BackpropagationHoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun. 7717-7727 [doi]

Layered Image Vectorization via Semantic SimplificationZhenyu Wang, Jianxi Huang, Zhida Sun, Yuanhao Gong, Daniel Cohen-Or, Min Lu 0002. 7728-7738 [doi]

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and GenerationYiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai Yu, Liang Zhao, Yisong Wang, Jiaying Liu 0001, Chong Ruan. 7739-7751 [doi]

OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video GenerationHui Li, Mingwang Xu, Yun Zhan, Shan Mu, Jiaye Li, Kaihui Cheng, Yuxuan Chen, Tan Chen, Mao Ye, Jingdong Wang, Siyu Zhu. 7752-7762 [doi]

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video GenerationMinghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue. 7763-7772 [doi]

MotiF: Making Text Count in Image Animation with Motion Focal LossShijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun 0002, Xi Yin 0001. 7773-7783 [doi]

Visual Prompting for One-shot Controllable Video Editing without InversionZhengbo Zhang, Yuxi Zhou, Duo Peng, Joo-Hwee Lim, Zhigang Tu 0001, De Wen Soh, Lin Geng Foo. 7784-7794 [doi]

Tiled DiffusionOr Madar, Ohad Fried. 7795-7804 [doi]

Evaluating Model Perception of Color Illusions in Photorealistic ScenesLingjun Mao, Zineng Tang, Alane Suhr. 7805-7814 [doi]

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic AssessmentFatemeh Behrad, Tinne Tuytelaars, Johan Wagemans. 7815-7824 [doi]

Morpheus: Text-Driven 3D Gaussian Splat Shape and Color StylizationJamie Wynn, Zawar Qureshi, Jakub Powierza, Jamie Watson, Mohamed Sayed. 7825-7836 [doi]

Optical-Flow Guided Prompt Optimization for Coherent Video GenerationHyelin Nam, Jaemin Kim, Dohun Lee, Jong Chul Ye. 7837-7846 [doi]

OmniStyle: Filtering High Quality Style Transfer Data at ScaleYe Wang, Ruiqi Liu, Jiang Lin, Fei Liu, Zili Yi, Yilin Wang, Rui Ma. 7847-7856 [doi]

Pathways on the Image Manifold: Image Editing via Video GenerationNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel. 7857-7866 [doi]

PhyS-EdiT: Physics-aware Semantic Image Editing with Text DescriptionZiqi Cai, Shuchen Weng, Yifei Xia, Boxin Shi. 7867-7876 [doi]

Stable Flow: Vital Layers for Training-Free Image EditingOmri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or. 7877-7888 [doi]

Improving Editability in Image Generation with Layer-wise MemoryDaneul Kim, Jaeah Lee, Jaesik Park. 7889-7898 [doi]

EditAR: Unified Conditional Generation with Autoregressive ModelsJiteng Mu, Nuno Vasconcelos, Xiaolong Wang 0004. 7899-7909 [doi]

Zero-Shot Styled Text Image Generation, but Make It AutoregressiveVittorio Pippi, Fabio Quattrini, Silvia Cascianelli, Alessio Tonioni, Rita Cucchiara. 7910-7919 [doi]

Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image SynthesisYu Yuan, Xijun Wang, Yichen Sheng, Prateek Chennuri, Xingguang Zhang, Stanley Chan. 7920-7930 [doi]

Generative PhotomontageSean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu. 7931-7941 [doi]

Multi-party Collaborative Attention Control for Image CustomizationHan Yang, Chuanguang Yang, Qiuli Wang 0001, Zhulin An, Weilun Feng, Libo Huang, Yongjun Xu 0001. 7942-7951 [doi]

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image GenerationYifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang 0001, Baining Guo. 7952-7962 [doi]

UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image GenerationLunhao Duan, Shanshan Zhao, Wenjun Yan, Yinglun Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Mingming Gong, Gui-Song Xia. 7963-7973 [doi]

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic ModelingJian Yang, Dacheng Yin, Yizhou Zhou, Fengyun Rao, Wei Zhai, Yang Cao 0010, Zheng-Jun Zha. 7974-7985 [doi]

Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image GeneratorChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon. 7986-7996 [doi]

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and TrainingJierun Chen, Dongting Hu, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S.-H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu 0003, Jian Ren 0005. 7997-8008 [doi]

VideoDPO: Omni-Preference Alignment for Video Diffusion GenerationRuntao Liu, Haoyu Wu, Ziqiang Zheng, Chen Wei, Yingqing He, Renjie Pi, Qifeng Chen. 8009-8019 [doi]

Personalized Preference Fine-tuning of Diffusion ModelsMeihua Dang, Anikait Singh, Linqi Zhou, Stefano Ermon, Jiaming Song. 8020-8030 [doi]

Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention MapsJeeyung Kim, Erfan Esmaeili, Qiang Qiu 0001. 8031-8040 [doi]

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction AwarenessSeungJu Cha 0001, Kwanyoung Lee, Ye Chan Kim, Hyunwoo Oh, Dong Jin Kim. 8041-8050 [doi]

Learning Visual Generative Priors without TextShuailei Ma, Kecheng Zheng, Ying Wei, Wei Wu, Fan Lu, Yifei Zhang, Chen-Wei Xie, Biao Gong, Jiapeng Zhu 0001, Yujun Shen. 8051-8061 [doi]

Towards Understanding and Quantifying Uncertainty for Text-to-Image GenerationGianni Franchi, Nacim Belkhir, Dat Nguyen Trong, Guoxuan Xia, Andrea Pilzer. 8062-8072 [doi]

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and GenerationWei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen. 8073-8082 [doi]

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text RenderingYiFan Gao, Zihang Lin, Chuanbin Liu 0001, Min Zhou, Tiezheng Ge, Bo Zheng 0007, Hongtao Xie. 8083-8093 [doi]

Multitwine: Multi-Object Compositing with Text and Layout ControlGemma Canet Tarres, Zhe Lin 0001, Zhifei Zhang, He Zhang 0004, Andrew Gilbert, John P. Collomosse, Soo Ye Kim. 8094-8104 [doi]

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content CreationSankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal. 8105-8116 [doi]

PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout GenerationHsiaoYuan Hsu, Yuxin Peng. 8117-8127 [doi]

From Elements to Design: A Layered Approach for Automatic Graphic Design CompositionJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian. 8128-8137 [doi]

AIpparel: A Multimodal Foundation Model for Digital GarmentsKiyohiro Nakayama, Jan Ackermann, Timur Levent Kesdogan, Yang Zheng, Maria Korosteleva, Olga Sorkine-Hornung, Leonidas J. Guibas, Guandao Yang, Gordon Wetzstein. 8138-8149 [doi]

ChatHuman: Chatting about 3D Humans with ToolsJing Lin, Yao Feng 0001, Weiyang Liu, Michael J. Black. 8150-8161 [doi]

Interpretable Generative Models through Post-hoc Concept BottlenecksAkshay R. Kulkarni, Ge Yan, Chung-En Sun, Tuomas P. Oikarinen, Tsui-Wei Weng. 8162-8171 [doi]

Concept Replacer: Replacing Sensitive Concepts in Diffusion Models via Precision LocalizationLingyun Zhang, Yu Xie, Yanwei Fu 0001, Ping Chen. 8172-8181 [doi]

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion ModelsChen Chen 0074, Daochang Liu, Mubarak Shah, Chang Xu 0002. 8182-8191 [doi]

Dissecting and Mitigating Diffusion Bias via Mechanistic InterpretabilityYingdong Shi, Changming Li, Yifan Wang, Yongxiang Zhao, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren. 8192-8202 [doi]

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion ModelsSangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang. 8203-8212 [doi]

SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion ModelsZilan Wang, Junfeng Guo, Jiacheng Zhu, Yiming Li 0004, Heng Huang, Muhao Chen 0001, Zhengzhong Tu. 8213-8224 [doi]

Watermarking One for All: A Robust Watermarking Scheme Against Partial Image TheftGaozhi Liu, Silu Cao, Zhenxing Qian, Xinpeng Zhang 0001, Sheng Li 0006, Wanli Peng. 8225-8234 [doi]

Enhancing Facial Privacy Protection via Weakening Diffusion PurificationAli Salar, Qing Liu 0003, Yingli Tian, Guoying Zhao 0001. 8235-8244 [doi]

Community Forensics: Using Thousands of Generators to Train Fake Image DetectorsJeongsoo Park, Andrew Owens. 8245-8257 [doi]

Beyond Generation: A Diffusion-based Low-level Feature Extractor for Detecting AI-generated ImagesNan Zhong, Haoyu Chen, Yiran Xu, Zhenxing Qian, Xinpeng Zhang 0001. 8258-8268 [doi]

Unveiling Differences in Generative Models: A Scalable Differential Clustering ApproachJingwei Zhang, Mohammad Jalali, Cheuk Ting Li, Farzan Farnia. 8269-8278 [doi]

MIRE: Matched Implicit Neural RepresentationsDhananjaya Jayasundara, Heng Zhao 0003, Demetrio Labate, Vishal M. Patel. 8279-8288 [doi]

Learning to Normalize on the SPD Manifold under Bures-Wasserstein GeometryRui Wang, Shaocheng Jin, Ziheng Chen, Xiaoqing Luo, Xiao-jun Wu. 8289-8298 [doi]

Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite ImagerySara A. Al-Emadi, Yin Yang, Ferda Ofli. 8299-8309 [doi]

Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human ActivitiesMichele Mazzamuto, Antonino Furnari, Yoichi Sato, Giovanni Maria Farinella. 8310-8320 [doi]

Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion ModelChangchang Sun, Gaowen Liu, Charles Fleming, Yan Yan 0002. 8321-8330 [doi]

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic BindingMingfei Chen, Israel D. Gebru, Ishwarya Ananthabhotla, Christian Richardt, Dejan Markovic, Jake Sandakly, Steven Krenn, Todd Keebler, Eli Shlizerman, Alexander Richard. 8331-8341 [doi]

Object-aware Sound Source Localization via Audio-Visual Scene UnderstandingSung Jin Um, Dongjin Kim, Sangmin Lee 0001, Jung-Uk Kim. 8342-8351 [doi]

Revisiting Audio-Visual Segmentation with Vision-Centric TransformerShaofei Huang 0001, Rui Ling, Tianrui Hui, HongYu Li, Xu Zhou, Shifeng Zhang, Si Liu 0001, Richang Hong, Meng Wang. 8352-8361 [doi]

Towards Open-Vocabulary Audio-Visual Event LocalizationJinxing Zhou, Dan Guo, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang. 8362-8371 [doi]

Contextual AD Narration with Interleaved Multimodal SequenceHanlin Wang, Zhan Tong, Kecheng Zheng, Yujun Shen, Limin Wang. 8372-8383 [doi]

Towards Universal Soccer Video UnderstandingJiayuan Rao, Haoning Wu 0002, Hao Jiang, Ya Zhang, Yanfeng Wang 0001, Weidi Xie. 8384-8394 [doi]

Neuro-Symbolic Evaluation of Text-to-Video Models using Formal VerificationS. P. Sharan, Minkyu Choi 0001, Sahil Shah, Harsh Goel, Mohammad Omama, Sandeep Chinchali. 8395-8405 [doi]

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video GenerationKaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu 0002, Zihan Xu, Zhenguo Li, Xihui Liu. 8406-8416 [doi]

Event-Equalized Dense Video CaptioningKangyi Wu, Pengna Li, Jingwen Fu, Yizhe Li, Yang Wu, Yuhan Liu, Jinjun Wang, Sanping Zhou. 8417-8427 [doi]

Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video ContentQiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang. 8428-8437 [doi]

SMILE: Infusing Spatial and Motion Semantics in Masked Video LearningFida Mohammad Thoker, Letian Jiang, Chen Zhao 0002, Bernard Ghanem. 8438-8449 [doi]

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language ModelsWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang 0001, Yuxiao Dong, Jie Tang 0001. 8450-8460 [doi]

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User SimulationZiyang Luo, Haoning Wu, Dongxu Li, Jing Ma 0004, Mohan S. Kankanhalli, Junnan Li 0001. 8461-8474 [doi]

MMVU: Measuring Expert-Level Multi-Discipline Video UnderstandingYilun Zhao 0001, Haowei Zhang 0002, Lujing Xie, Tongyan Hu, Guo Gan, Yitao Long, Zhiyuan Hu, Weiyuan Chen, Chuhan Li, Zhijian Xu, Chengye Wang, Ziyao Shangguan, Zhenwen Liang, Yixin Liu 0003, Chen Zhao, Arman Cohan. 8475-8489 [doi]

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?Yunlong Tang 0002, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao 0017, Chao Huang 0008, Jing Bi 0002, Zeliang Zhang, Pooyan Fazli, Chenliang Xu. 8490-8500 [doi]

VITED: Video Temporal Evidence DistillationYujie Lu, Yale Song, William Wang, Lorenzo Torresani, Tushar Nagarajan. 8501-8511 [doi]

DynFocus: Dynamic Cooperative Network Empowers LLMs with Video UnderstandingYudong Han, Qingpei Guo, Liyuan Pan, Liu Liu, Yu Guan, Ming Yang. 8512-8522 [doi]

Enhancing Video-LLM Reasoning via Agent-of-Thoughts DistillationYudi Shi, Shangzhe Di, Qirui Chen, Weidi Xie. 8523-8533 [doi]

AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory ReductionYuanbin Man, Ying Huang, Chengming Zhang 0006, Bingzhe Li, Wei Niu 0002, Miao Yin. 8534-8544 [doi]

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video UnderstandingShehreen Azad, Vibhav Vineet, Yogesh Singh Rawat. 8545-8556 [doi]

Video Language Model Pretraining with Spatio-temporal MaskingYue Wu, Zhaobo Qi, Junshu Sun, Yaowei Wang 0001, Qingming Huang, Shuhui Wang. 8557-8567 [doi]

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language ModelsZhihang Liu, Chen-Wei Xie, Pandeng Li, Liming Zhao, Longxiang Tang, Yun Zheng, Chuanbin Liu 0001, Hongtao Xie. 8568-8578 [doi]

Re-thinking Temporal Search for Long-Form Video UnderstandingJinhui Ye, Zihan Wang, Haosen Sun, Keshigeyan Chandrasegaran, Zane Durante, Cristóbal Eyzaguirre, Yonatan Bisk, Juan Carlos Niebles, Ehsan Adeli 0001, Li Fei-Fei, Jiajun Wu, Manling Li. 8579-8591 [doi]

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal UnderstandingHongYu Li, Jinyu Chen, Ziyu Wei, Shaofei Huang, Tianrui Hui, Jialin Gao, Xiaoming Wei, Si Liu. 8592-8603 [doi]

Scalable Video-to-Dataset Generation for Cross-Platform Mobile AgentsYunseok Jang 0001, Yeda Song, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo, Dong Ki Kim, Kyunghoon Bae, Honglak Lee. 8604-8614 [doi]

PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric VideosXun Jiang 0001, Zhiyi Huang, Xing Xu, Jingkuan Song, Fumin Shen, Heng Tao Shen. 8615-8624 [doi]

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel LevelAndong Deng, Tongjia Chen, Shoubin Yu, Taojiannan Yang, Lincoln Spencer, Yapeng Tian, Ajmal Saeed Mian, Mohit Bansal, Chen Chen. 8625-8636 [doi]

V^2Dial: Unification of Video and Visual Dialog via Multimodal ExpertsAdnen Abdessaied, Anna Rohrbach, Marcus Rohrbach, Andreas Bulling. 8637-8647 [doi]

Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and AnticipationRohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate. 8648-8657 [doi]

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video SegmentationLang Lin, Xueyang Yu, Ziqi Pang, Yu-Xiong Wang. 8658-8667 [doi]

LiVOS: Light Video Object Segmentation with Gated Linear MatchingQin Liu 0008, Jianfeng Wang, Zhengyuan Yang, Linjie Li, Kevin Lin, Marc Niethammer, Lijuan Wang. 8668-8678 [doi]

VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language ModelsMuchao Ye, Weiyang Liu, Pan He. 8679-8688 [doi]

Track Any Anomalous Object: A Granular Video Anomaly Detection PipelineYuzhi Huang, Chenxin Li, Haitao Zhang, Zixu Lin, Yunlong Lin, Hengyu Liu 0007, Wuyang Li, Xinyu Liu 0001, Jiechao Gao, Yue Huang 0001, Xinghao Ding, Yixuan Yuan. 8689-8699 [doi]

Context-Enhanced Memory-Refined Transformer for Online Action DetectionZhanzhong Pang, Fadime Sener, Angela Yao. 8700-8710 [doi]

Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormerZiyi Liu, Yangcen Liu. 8711-8720 [doi]

Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action RecognitionYang Chen, Jingcai Guo, Song Guo 0001, Dacheng Tao. 8721-8730 [doi]

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language TrackingXinqi Liu, Li Zhou 0017, Zikun Zhou, Jianqiu Chen, Zhenyu He 0001. 8731-8741 [doi]

Lost in Translation, Found in Context: Sign Language Translation with Contextual CuesYoungjoon Jang 0001, Haran Raajesh, Liliane Momeni, Gül Varol, Andrew Zisserman. 8742-8752 [doi]

Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference SystemsSong Xia, Yi Yu, Wenhan Yang, Meiwen Ding, Zhuo Chen, Ling-Yu Duan, Alex C. Kot, Xudong Jiang 0001. 8753-8763 [doi]

Where the Devil Hides: Deepfake Detectors Can No Longer Be TrustedShuaiwei Yuan, Junyu Dong, Yuezun Li. 8764-8774 [doi]

FreqDebias: Towards Generalizable Deepfake Detection via Consistency-Driven Frequency DebiasingHossein Kashiani, Niloufar Alipour Talemi, Fatemeh Afghah. 8775-8785 [doi]

Omni-ID: Holistic Identity Representation Designed for Generative TasksGuocheng Qian, Kuan-Chieh Wang, Or Patashnik, Negin Heravi, Daniil Ostashev, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman. 8786-8795 [doi]

VISTREAM: Improving Computation Efficiency of Visual Streaming Perception via Law-of-Charge-Conservation Inspired Spiking Neural NetworkKang You, Ziling Wei, Jing Yan, Boning Zhang, Qinghai Guo, Yaoyu Zhang, Zhezhi He. 8796-8805 [doi]

Temporal Separation with Entropy Regularization for Knowledge Distillation in Spiking Neural NetworksKairong Yu, Chengting Yu, Tianqing Zhang, Xiaochen Zhao, Shu Yang, Hongwei Wang, Qiang Zhang, Qi Xu. 8806-8816 [doi]

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS DemosaicingShiyang Zhou, Haijin Zeng, Yunfan Lu, Tong Shao, Ke Tang, Yongyong Chen, Jie Liu, Jingyong Su. 8817-8827 [doi]

From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-IdentificationYan Jiang, Hao Yu, Xu Cheng, Haoyu Chen, Zhaodong Sun, Guoying Zhao 0001. 8828-8837 [doi]

DefMamba: Deformable Visual State Space ModelLeiye Liu, Miao Zhang, Jihao Yin, Tingwei Liu, Wei Ji, Yongri Piao, Huchuan Lu. 8838-8847 [doi]

ABBSPO: Adaptive Bounding Box Scaling and Symmetric Prior based Orientation Prediction for Detecting Aerial Image ObjectsWoojin Lee, Hyugjae Chang, Jaeho Moon, Jaehyup Lee, Munchurl Kim. 8848-8858 [doi]

Towards RAW Object Detection in Diverse ConditionsZhong-Yu Li, Xin Jin, Bo-Yuan Sun, Chun-Le Guo, Ming-Ming Cheng. 8859-8868 [doi]

Advancing Manga Analysis: Comprehensive Segmentation Annotations for the Manga109 DatasetMinshan Xie, Jian Lin, Hanyuan Liu, Chengze Li, Tien-Tsin Wong. 8869-8878 [doi]

Sketchy Bounding-box Supervision for 3D Instance SegmentationQian Deng, Le Hui, Jin Xie, Jian Yang. 8879-8888 [doi]

Relation3D : Enhancing Relation Modeling for Point Cloud Instance SegmentationJiahao Lu, Jiacheng Deng 0002. 8889-8899 [doi]

FSHNet: Fully Sparse Hybrid Network for 3D Object DetectionShuai Liu, Mingyue Cui, Boyang Li, Quanmin Liang, Tinghe Hong, Kai Huang, Yunxiao Shan, Kai Huang. 8900-8909 [doi]

3D-AVS: LiDAR-based 3D Auto-Vocabulary SegmentationWeijie Wei 0001, Osman Ülger, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald. 8910-8920 [doi]

NTClick: Achieving Precise Interactive Segmentation With Noise-tolerant ClicksChenyi Zhang 0004, Ting Liu 0018, Xiaochao Qu, Luoqi Liu, Yao Zhao 0001, Yunchao Wei. 8921-8930 [doi]

HyperSeg: Hybrid Segmentation Assistant with Fine-grained Visual PerceiverCong Wei, Yujie Zhong, Haoxian Tan, Yong Liu, Jie Hu, Dengjie Li, Zheng Zhao, Yujiu Yang. 8931-8941 [doi]

CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical ToolsChinedu Innocent Nwoye, Kareem Elgohary, Anvita Srinivas, Fauzan Zaid, Joël L. Lavanchy, Nicolas Padoy. 8942-8952 [doi]

Hybrid Reciprocal Transformer with Triplet Feature Alignment for Scene Graph GenerationJiawei Fu, Tiantian Zhang, Kai Chen, Qi Dou 0001. 8953-8963 [doi]

Textured Gaussians for Enhanced 3D Scene Appearance ModelingBrian Chao, Hung-Yu Tseng, Lorenzo Porzi, Chen Gao 0003, Tuotuo Li, Qinbo Li, Ayush Saraf, Jia-Bin Huang, Johannes Kopf 0001, Gordon Wetzstein, Changil Kim 0001. 8964-8974 [doi]

Global-Local Tree Search in VLMs for 3D Indoor Scene GenerationWei Deng, Mengshi Qi, Huadong Ma. 8975-8984 [doi]

CrossOver: 3D Scene Cross-Modal AlignmentSayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni. 8985-8994 [doi]

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene UnderstandingDuo Zheng, Shijia Huang, Liwei Wang 0009. 8995-9006 [doi]

BIP3D: Bridging 2D Images and 3D Perception for Embodied IntelligenceXuewu Lin, Tianwei Lin, Lichao Huang, Hongyu Xie, Zhizhong Su. 9007-9016 [doi]

Ges3ViG : Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference UnderstandingAtharv Mahesh Mane, Dulanga Weerakoon, Vigneshwaran Subbaraju, Sougata Sen, Sanjay E. Sarma, Archan Misra. 9017-9026 [doi]

ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric InteractionYuejiao Su, Yi Wang 0068, Qiongyang Hu, Chuang Yang 0068, Lap-Pui Chau. 9027-9038 [doi]

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned PolicyZaijing Li, Yuquan Xie, Rui Shao 0001, Gongwei Chen, Dongmei Jiang, Liqiang Nie. 9039-9049 [doi]

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal ReasoningDi Zhang, Jingdi Lei, Junxian Li 0001, Xunzhi Wang, Yujie Liu, Zonglin Yang 0001, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye 0006, Wanli Ouyang, Dongzhan Zhou. 9050-9061 [doi]

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language ModelsYuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu. 9062-9072 [doi]

Synthetic Visual GenomeJae Sung Park, Zixian Ma, Linjie Li, Chenhao Zheng, Cheng-Yu Hsieh, Ximing Lu, Khyathi Raghavi Chandu, Quan Kong, Norimasa Kobori, Ali Farhadi, Yejin Choi 0001, Ranjay Krishna. 9073-9086 [doi]

Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering IncorrectlyYexin Liu, Zhengyang Liang, Yueze Wang, Xianfeng Wu, Feilong Tang, Muyang He, Jian Li, Zheng Liu 0011, Harry Yang, Sernam Lim, Bo Zhao. 9087-9097 [doi]

DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual UnderstandingGeng Li, Jinglin Xu, Yunzhen Zhao, Yuxin Peng. 9098-9108 [doi]

Taxonomy-Aware Evaluation of Vision-Language ModelsVésteinn Snæbjarnarson, Kevin Du, Niklas Stoehr, Serge J. Belongie, Ryan Cotterell, Nico Lang, Stella Frank. 9109-9120 [doi]

Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation ModelsKartik Thakral, Tamar Glaser, Tal Hassner, Mayank Vatsa, Richa Singh 0001. 9121-9130 [doi]

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human PreferencesZhikai Li, Xuewen Liu, Dongrong Joe Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong 0003. 9131-9141 [doi]

AVF-MAE++: Scaling Affective Video Facial Masked Autoencoders via Efficient Audio-Visual Self-Supervised LearningXuecheng Wu, Heli Sun, Yifan Wang, Jiayu Nie, Jie Zhang, Yabing Wang, Junxiao Xue, Liang He. 9142-9153 [doi]

FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMsXiaoqin Wang, Xusen Ma, Xianxu Hou, Meidan Ding, Yudong Li, Junliang Chen, Wenting Chen, Xiaoyang Peng, LinLin Shen. 9154-9164 [doi]

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model EvaluationQihui Zhang, Munan Ning, Zheyuan Liu 0012, Yue Huang 0001, Shuo Yang, Yanbo Wang 0005, Jiayi Ye, Xiao Chen, Yibing Song, Li Yuan. 9165-9174 [doi]

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and SegmentationSilin Cheng, Yang Liu, Xinwei He, Sebastien Ourselin, Lei Tan, Gen Luo. 9175-9185 [doi]

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution ShiftsJiansheng Li, Xingxuan Zhang, Hao Zou 0001, Yige Guo, Renzhe Xu, Yilong Liu, Chuzhao Zhu, Yue He 0001, Peng Cui 0001. 9186-9198 [doi]

Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question AnsweringFederico Cocchi, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi 0002, Rita Cucchiara. 9199-9209 [doi]

Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning ModelsDaniel Samira, Edan Habler, Yuval Elovici, Asaf Shabtai. 9210-9219 [doi]

Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identificationJiayu Jiang, Changxing Ding, Wentao Tan, Junhong Wang, Jin Tao, Xiangmin Xu. 9220-9230 [doi]

Rethinking Noisy Video-Text Retrieval via Relation-aware AlignmentHuakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu, Tianzhu Zhang. 9231-9241 [doi]

Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media ManipulationYiheng Li, Yang Yang 0062, Zichang Tan, Huan Liu, Weihua Chen, Xu Zhou, Zhen Lei. 9242-9252 [doi]

Seeing the Abstract: Translating the Abstract Language for Vision Language ModelsDavide Talon, Federico Girella, Ziyue Liu, Marco Cristani, Yiming Wang. 9253-9262 [doi]

NeighborRetr: Balancing Hub Centrality in Cross-Modal RetrievalZengrong Lin, Zheng Wang, Tianwen Qian, Pan Mu, Sixian Chan, Cong Bai. 9263-9273 [doi]

Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language ModelsXin Zhang, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, Min Zhang. 9274-9285 [doi]

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document RetrievalDavide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi 0002, Rita Cucchiara. 9286-9295 [doi]

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language ModelsQirui Jiao, Daoyuan Chen, Yilun Huang 0004, Bolin Ding, Yaliang Li, Ying Shen 0001. 9296-9307 [doi]

CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object RepresentationReza Abbasi, Ali Nazari, Aminreza Sefid, Mohammadali Banayeeanzade, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah. 9308-9317 [doi]

Linguistics-aware Masked Image Modeling for Self-supervised Scene Text RecognitionYifei Zhang 0005, Chang Liu, Jin Wei, Xiaomeng Yang, Yu Zhou, Can Ma, Xiangyang Ji. 9318-9328 [doi]

SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text SpottingDongliang Luo, Hanshen Zhu, Ziyang Zhang, Dingkang Liang, Xudong Xie, Yuliang Liu, Xiang Bai. 9329-9338 [doi]

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual GroundingSeil Kang, Jinyeong Kim, Junhyeok Kim 0002, Seong Jae Hwang. 9339-9350 [doi]

Improving Autoregressive Visual Generation with Cluster-Oriented Token PredictionTeng Hu, Jiangning Zhang, Ran Yi, Jieyu Weng, Yabiao Wang, Xianfang Zeng, Zhucun Xue, Lizhuang Ma. 9351-9360 [doi]

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference OptimizationHongrui Jia, Chaoya Jiang, Haiyang Xu 0001, Wei Ye 0004, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang. 9361-9371 [doi]

CASP: Compression of Large Multimodal Models Based on Attention SparsityMohsen Gholami, Mohammad Akbari, Kevin Cannons, Yong Zhang. 9372-9381 [doi]

Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster InferenceHao Yin, Guangzong Si, Zilei Wang. 9382-9391 [doi]

DivPrune: Diversity-based Visual Token Pruning for Large Multimodal ModelsSaeed Ranjbar Alvar, Gursimran Singh, Mohammad Akbari, Yong Zhang. 9392-9401 [doi]

Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language ModelLongrong Yang, Dong Shen, Chaoxiang Cai, Kaibing Chen, Fan Yang, Tingting Gao, Di Zhang, Xi Li. 9402-9412 [doi]

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient OptimizationYiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun 0001, Yang Liu. 9413-9422 [doi]

Debiasing Multimodal Large Language Models via Noise-Aware Preference OptimizationZefeng Zhang, Hengzhu Tang, Jiawei Sheng, Zhenyu Zhang, Yiming Ren, Zhenyang Li, Dawei Yin, Duohe Ma, Tingwen Liu. 9423-9433 [doi]

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data CalibrationMingYang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng. 9434-9444 [doi]

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language ModelsYinan Liang, Ziwei Wang, Xiuwei Xu, Jie Zhou, Jiwen Lu. 9445-9454 [doi]

Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-ExpertsQizhou Chen, Chengyu Wang 0001, Dakan Wang, Taolin Zhang 0005, Wangyue Li, Xiaofeng He. 9455-9466 [doi]

Distraction is All You Need for Multimodal Large Language Model JailbreakingZuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong. 9467-9476 [doi]

Revisiting Backdoor Attacks against Large Vision-Language Models from Domain ShiftSiyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Mingli Zhu, Xiaochun Cao, Dacheng Tao. 9477-9486 [doi]

ICP: Immediate Compensation Pruning for Mid-to-high SparsityXin Luo, Xueming Fu, Zihang Jiang, S. Kevin Zhou. 9487-9496 [doi]

Vision-Language Model IP Protection via Prompt-based LearningLianyu Wang, Meng Wang, Huazhu Fu, Daoqiang Zhang. 9497-9506 [doi]

A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature AlignmentXuan Wang, Xitong Gao, Dongping Liao, Tianrui Qin, Yu-liang Lu, Cheng-Zhong Xu 0001. 9507-9516 [doi]

Explaining Domain Shifts in Language: Concept Erasing for Interpretable Image ClassificationZequn Zeng, Yudi Su, Jianqiao Sun, Tiansheng Wen, Hao Zhang, Zhengjue Wang, Bo Chen 0001, Hongwei Liu, Jiawei Ma. 9517-9526 [doi]

VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual ReasoningXueqing Wu 0001, Yuheng Ding, Bingxuan Li, Pan Lu, Da Yin, Kai-Wei Chang, Nanyun Peng 0001. 9527-9537 [doi]

Free on the Fly: Enhancing Flexibility in Test-Time Adaptation with Online EMQiyuan Dai, Sibei Yang. 9538-9548 [doi]

SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-Image PretrainingMingjin Zhang, Xiaolong Li, Fei Gao, Jie Guo, Xinbo Gao 0001, Jing Zhang. 9549-9558 [doi]

Domain Generalization in CLIP via Learning with Diverse Text PromptsChangsong Wen, Zelin Peng, Yu Huang, Xiaokang Yang 0001, Wei Shen 0002. 9559-9569 [doi]

Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute RecognitionJunyi Wu, Yan Huang, Min Gao, Yuzhen Niu, Yuzhong Chen, Qiang Wu. 9570-9579 [doi]

LOCORE: Image Re-ranking with Long-Context Sequence ModelingZilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez. 9580-9590 [doi]

Visual Consensus Prompting for Co-Salient Object DetectionJie Wang, Nana Yu, Zihao Zhang, Yahong Han. 9591-9600 [doi]

Explainable Saliency: Articulating Reasoning with Contextual PrioritizationNuo Chen, Ming Jiang, Qi Zhao. 9601-9610 [doi]

Finer-CAM: Spotting the Difference Reveals Finer Details for Visual ExplanationZiheng Zhang, Jianyang Gu, Arpita Chowdhury, Zheda Mai, David Carlyn, Tanya Y. Berger-Wolf, Yu Su 0001, Wei-Lun Chao. 9611-9620 [doi]

Perceptual Inductive Bias Is What You Need Before Contrastive LearningJunru Zhao, Tianqin Li, Dunhan Jiang, Shenghao Wu, Alan Ramirez, Tai Sing Lee. 9621-9630 [doi]

Scaling Vision Pre-Training to 4K ResolutionBaifeng Shi, Boyi Li, Han Cai, Yao Lu 0006, Sifei Liu, Marco Pavone 0001, Jan Kautz, Song Han 0003, Trevor Darrell, Pavlo Molchanov 0001, Hongxu Yin. 9631-9640 [doi]

Multimodal Autoregressive Pre-training of Large Vision EncodersEnrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor G. Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby. 9641-9654 [doi]

Sensitivity-Aware Efficient Fine-Tuning via Compact Dynamic-Rank AdaptationTianran Chen, Jiarui Chen, Baoquan Zhang, Zhehao Yu, Shidong Chen, Rui Ye, Xutao Li, Yunming Ye. 9655-9664 [doi]

UNEM: UNrolled Generalized EM for Transductive Few-Shot LearningLong Zhou, Fereshteh Shakeri, Aymen Sadraoui, Mounir Kaaniche, Jean-Christophe Pesquet, Ismail Ben Ayed. 9665-9675 [doi]

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive PretrainingYunze Liu, Li Yi 0001. 9676-9685 [doi]

APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision TransformersZhuguanyu Wu, Jiayi Zhang, Jiaxin Chen 0002, Jinyang Guo, Di Huang 0001, Yunhong Wang 0001. 9686-9695 [doi]

Two is Better than One: Efficient Ensemble Defense for Robust and Compact ModelsYoojin Jung, Byung Cheol Song. 9696-9706 [doi]

Building Vision Models upon Heat ConductionZhaozhi Wang, Yue Liu, Yunjie Tian, Yunfan Liu 0001, Yaowei Wang, Qixiang Ye. 9707-9717 [doi]

LSNet: See Large, Focus SmallAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding. 9718-9729 [doi]

SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision TransformersNick Nikzad, Yi Liao, Yongsheng Gao 0001, Jun Zhou 0001. 9730-9739 [doi]

Token Cropr: Faster ViTs for Quite a Few TasksBenjamin Bergner, Christoph Lippert, Aravindh Mahendran. 9740-9750 [doi]

Hypergraph Vision Transformers: Images are More than Nodes, More than EdgesJoshua Fixelle. 9751-9761 [doi]

Interpretable Image Classification via Non-parametric Part Prototype LearningZhijie Zhu, Lei Fan 0007, Maurice Pagnucco, Yang Song 0001. 9762-9771 [doi]

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time AdaptationFanding Huang, Jingyan Jiang, Qinting Jiang, Hebei Li, Faisal Nadeem Khan, Zhi Wang. 9772-9781 [doi]

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part SegmentationJiho Choi, Seonho Lee, Minhyun Lee, Seungho Lee, Hyunjung Shim. 9782-9793 [doi]

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic SegmentationVladan Stojnic, Yannis Kalantidis, Jirí Matas, Giorgos Tolias. 9794-9803 [doi]

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic SegmentationReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segù, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi. 9804-9815 [doi]

SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic SegmentationHritam Basak, Zhaozheng Yin. 9816-9828 [doi]

Weakly Supervised Semantic Segmentation via Progressive Confidence Region ExpansionXiangfeng Xu, Pinyi Zhang, Wenxuan Huang 0001, Yunhang Shen, Haosheng Chen, Jingzhong Lin, Wei Li 0002, Gaoqi He, Jiao Xie, Shaohui Lin. 9829-9838 [doi]

Beyond Background Shift: Rethinking Instance Replay in Continual Semantic SegmentationHongmei Yin, Tingliang Feng, Fan Lyu, Fanhua Shang, Hongying Liu, Wei Feng 0005, Liang Wan. 9839-9848 [doi]

Dual-Agent Optimization framework for Cross-Domain Few-Shot SegmentationZhaoyang Li, Yuan Wang, Wangkai Li, Tianzhu Zhang, Xiang Liu. 9849-9859 [doi]

Beyond Image Classification: A Video Benchmark and Dual-Branch Hybrid Discrimination Framework for Compositional Zero-Shot LearningDongyao Jiang, Haodong Jing, Yongqiang Ma, Nanning Zheng 0001. 9860-9869 [doi]

Targeted Forgetting of Image Subgroups in CLIP ModelsZeliang Zhang, Gaowen Liu, Charles Fleming, Ramana Rao Kompella, Chenliang Xu. 9870-9880 [doi]

Enhancing Few-Shot Class-Incremental Learning via Training-Free Bi-Level Modality CalibrationYiyang Chen, Tianyu Ding, Lei Wang, Jing Huo, Yang Gao, Wenbin Li. 9881-9890 [doi]

Hyperbolic Category DiscoveryYuanpei Liu, Zhenqi He, Kai Han 0001. 9891-9900 [doi]

Solving Instance Detection from an Open-World PerspectiveQianqian Shen, Yunhan Zhao, Nahyun Kwon, Jeeun Kim, Yanan Li, Shu Kong. 9901-9910 [doi]

Learning Class Prototypes for Unified Sparse-Supervised 3D Object DetectionYun Zhu, Le Hui, Hang Yang, Jianjun Qian, Jin Xie, Jian Yang. 9911-9920 [doi]

Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized DetectionBoyong He, Yuxiang Ji, Qianwen Ye, Zhuoyue Tan, Liaoni Wu. 9921-9932 [doi]

Mr. DETR: Instructive Multi-Route Training for Detection TransformersChang-Bin Zhang, Yujie Zhong, Kai Han. 9933-9943 [doi]

PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial PatchesDennis Jacob, Chong Xiang 0001, Prateek Mittal. 9944-9953 [doi]

Disentangling Safe and Unsafe Image Corruptions via Anisotropy and LocalityRamchandran Muthukumar, Ambar Pal, Jeremias Sulam, René Vidal. 9954-9963 [doi]

Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype and HarmonizationKai Mao, Ping Wei 0001, Yiyang Lian, Yangyang Wang, Nanning Zheng 0001. 9964-9973 [doi]

Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly DetectionWei Luo, Yunkang Cao, Haiming Yao, Xiaotian Zhang, Jianan Lou, Yuqi Cheng, Weiming Shen 0001, Wenyong Yu. 9974-9983 [doi]

Multi-Sensor Object Anomaly Detection: Unifying Appearance, Geometry, and Internal PropertiesWenqiao Li, Bozhong Zheng, Xiaohao Xu, Jinye Gan, Fading Lu, Xiang Li, Na Ni, Zheng Tian, Xiaonan Huang, Shenghua Gao, Yingna Wu. 9984-9993 [doi]

UniNet: A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly DetectionShun Wei, Jielin Jiang, Xiaolong Xu 0001. 9994-10003 [doi]

NN-Former: Rethinking Graph Structure in Neural Architecture RepresentationRuihan Xu 0002, Haokui Zhang, Yaowei Wang 0001, Wei Zeng 0006, Shiliang Zhang. 10004-10014 [doi]

Enhancing Dataset Distillation via Non-Critical Region RefinementMinh Tuan Tran, Trung Le 0001, Xuan-May Le, Thanh-Toan Do, Dinh Q. Phung. 10015-10024 [doi]

Efficient ANN-Guided Distillation: Aligning Rate-based Features of Spiking Neural Networks through Hybrid Block-wise ReplacementShu Yang, Chengting Yu, Lei Liu, Hanzhi Ma, Aili Wang 0002, Erping Li 0001. 10025-10035 [doi]

Breaking the Memory Barrier of Contrastive Loss via Tile-Based StrategyZesen Cheng, Hang Zhang, Kehan Li, Sicong Leng, Zhiqiang Hu, Fei Wu, Deli Zhao, Xin Li, Lidong Bing. 10036-10045 [doi]

LoTUS: Large-Scale Machine Unlearning with a Taste of UncertaintyChristoforos N. Spartalis, Theodoros Semertzidis, Efstratios Gavves, Petros Daras. 10046-10055 [doi]

DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts ModelsYongqi Huang, Peng Ye, Chenyu Huang, Jianjian Cao, Lin Zhang, Baopu Li, Gang Yu, Tao Chen 0003. 10056-10066 [doi]

Towards Consistent Multi-Task Learning: Unlocking the Potential of Task-Specific ParametersXiaohan Qin, Xiaoxing Wang, Junchi Yan. 10067-10076 [doi]

Do Your Best and Get Enough Rest for Continual LearningHankyul Kang, Gregor Seifer, Donghyun Lee, Jongbin Ryu. 10077-10086 [doi]

Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual LearningHuiyi Wang 0001, Haodong Lu 0002, Lina Yao 0001, Dong Gong. 10087-10098 [doi]

Task-Agnostic Guided Feature Expansion for Class-Incremental LearningBowen Zheng, Da-Wei Zhou 0001, Han-Jia Ye, De-Chuan Zhan. 10099-10109 [doi]

OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIPMohamad Hassan N C, Divyam Gupta, Mainak Singha, Sai Bhargav Rongali, Ankit Jha, Muhammad Haris Khan, Biplab Banerjee. 10110-10120 [doi]

Reducing Class-wise Confusion for Incremental Learning with Disentangled ManifoldsHuitong Chen, Yu Wang 0106, Yan Fan, Guosong Jiang, Qinghua Hu. 10121-10130 [doi]

Unsupervised Continual Domain Shift Learning with Multi-Prototype ModelingHaopeng Sun, Yingwei Zhang 0002, Lumin Xu, Sheng Jin 0007, Ping Luo 0002, Chen Qian, WenTao Liu, Yiqiang Chen 0001. 10131-10141 [doi]

A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying DomainsDexuan Zhang, Thomas Westfechtel, Tatsuya Harada. 10142-10152 [doi]

Rethinking Epistemic and Aleatoric Uncertainty for Active Open-Set Annotation: An Energy-Based ApproachChen-Chen Zong, Sheng-Jun Huang. 10153-10162 [doi]

Towards Cost-Effective Learning: A Synergy of Semi-Supervised and Active LearningTianxiang Yin, Ningzhong Liu, Han Sun. 10163-10172 [doi]

Mind the Gap: Confidence Discrepancy Can Guide Federated Semi-Supervised Learning Across Pseudo-MismatchYijie Liu, Xinyi Shang, Yiqun Zhang, Yang Lu 0009, Chen Gong, Jing-Hao Xue, Hanzi Wang. 10173-10182 [doi]

Beyond Clean Training Data: A Versatile and Model-Agnostic Framework for Out-of-Distribution Detection with Contaminated Training DataYuchuan Li, Jae-Mo Kang, Il-Min Kim 0001. 10183-10192 [doi]

DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution DetectionShawn Li, Huixian Gong, Hao Dong, Tiankai Yang 0001, Zhengzhong Tu, Yue Zhao 0016. 10193-10202 [doi]

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data AnalysisLuyuan Xie, Tianyu Luan, Wenyuan Cai, Guochen Yan, Zhaoyu Chen, Nan Xi, Yuejian Fang, Qingni Shen, Zhonghai Wu, Junsong Yuan 0001. 10203-10213 [doi]

Population Normalization for Federated LearningZhuoyao Wang, Fan Yi, Peizhu Gong, Caitou He, Cheng Jin 0001, Weizhong Zhang. 10214-10223 [doi]

Gradient Inversion Attacks on Parameter-Efficient Fine-TuningHasin Us Sami, Swapneel Sen, Amit K. Roy Chowdhury, Srikanth V. Krishnamurthy, Basak Guler. 10224-10234 [doi]

Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update AnalysisJeonghwan Park 0002, Niall McLaughlin, Ihsen Alouani. 10235-10243 [doi]

Doppelgangers and Adversarial VulnerabilityGeorge I. Kamberov. 10244-10254 [doi]

PSBD: Prediction Shift Uncertainty Unlocks Backdoor DetectionWei Li, Pin-Yu Chen, Sijia Liu, Ren Wang 0008. 10255-10264 [doi]

Rethinking the Adversarial Robustness of Multi-Exit Neural Networks in an Attack-Defense GameKeyizhi Xu, Chi Zhang, Zhan Chen, Zhongyuan Wang, Chunxia Xiao, Chao Liang 0001. 10265-10274 [doi]

Learning-enabled Polynomial Lyapunov Function Synthesis via High-Accuracy Counterexample-Guided FrameworkHanrui Zhao, Niuniu Qi, Mengxin Ren, Banglong Liu, Shuming Shi, Zhengfeng Yang. 10275-10284 [doi]

AdaptCMVC: Robust Adaption to Incremental Views in Continual Multi-view ClusteringJing Wang, Songhe Feng, Kristoffer Knutsen Wickstrøm, Michael C. Kampffmeyer. 10285-10294 [doi]

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View ClusteringLiang Chen, Zhe Xue, Yawen Li, MeiYu Liang, Yan Wang, Anton van den Hengel, Yuankai Qi. 10295-10304 [doi]

A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced DatasetsDavid Mildenberger, Paul Hager, Daniel Rueckert, Martin J. Menten. 10305-10314 [doi]

On the Out-Of-Distribution Generalization of Large Multimodal ModelsXingxuan Zhang, Jiansheng Li, Wenjing Chu, Junjia Hai, Renzhe Xu, YuQing Yang, Shikai Guan, Jiazheng Xu, Liping Jing, Peng Cui 0001. 10315-10326 [doi]

DiffCAM: Data-Driven Saliency Maps by Capturing Feature DifferencesXingjian Li, Qiming Zhao, Neelesh Bisht, Mostofa Rafid Uddin, Jin Yu Kim, Bryan Zhang, Min Xu. 10327-10337 [doi]

Dual-view X-ray Detection: Can AI Detect Prohibited Items from Dual-view X-ray Images like Humans?Renshuai Tao, Haoyu Wang, Yuzhe Guo, Hairong Chen, Li Zhang, Xianglong Liu, Yunchao Wei, Yao Zhao. 10338-10347 [doi]

Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report GenerationKang Liu, Zhuoqi Ma, Xiaolu Kang, Yunan Li 0001, Kun Xie, Zhicheng Jiao, Qiguang Miao. 10348-10359 [doi]

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational PathologyYuxuan Sun 0002, Yixuan Si, Chenglu Zhu, Xuan Gong, Kai Zhang, Pingyi Chen, Ye Zhang, Zhongyi Shui, Tao Lin, Lin Yang. 10360-10371 [doi]

BioX-CPath: Biologically-driven Explainable Diagnostics for Multistain IHC Computational PathologyAmaya Gallagher-Syed, Henry Senior, Omnia Alwazzan, Elena Pontarini, Michele Bombardieri, Costantino Pitzalis, Myles J. Lewis, Michael R. Barnes, Luca Rossi 0011, Gregory G. Slabaugh. 10372-10383 [doi]

Robust Multimodal Survival Prediction with Conditional Latent Differentiation Variational AutoEncoderJunjie Zhou, Jiao Tang, Yingli Zuo, Peng Wan 0004, Daoqiang Zhang, Wei Shao 0005. 10384-10393 [doi]

Boost the Inference with Co-training: A Depth-guided Mutual Learning Framework for Semi-supervised Medical Polyp SegmentationYuxin Li, Zihao Zhu, Yuxiang Zhang, Yifan Chen, Zhibin Yu. 10394-10403 [doi]

Annotation Ambiguity Aware Semi-Supervised Medical Image SegmentationSuruchi Kumari, Pravendra Singh. 10404-10413 [doi]

Unified Medical Lesion Segmentation via Self-referring IndicatorShijie Chang, Xiaoqi Zhao, Lihe Zhang, Tiancheng Wang. 10414-10424 [doi]

Minding Fuzzy Regions: A Data-driven Alternating Learning Paradigm for Stable Lesion SegmentationLexin Fang, Yunyang Xu, Xiang Ma, Xuemei Li, Caiming Zhang 0001. 10425-10434 [doi]

EffiDec3D: An Optimized Decoder for High-Performance and Efficient 3D Medical Image SegmentationMd Mostafijur Rahman, Radu Marculescu. 10435-10444 [doi]

Learning Dynamic Collaborative Network for Semi-supervised 3D Vessel SegmentationJiao Xu, Xin Chen, Lihe Zhang. 10445-10454 [doi]

Unraveling Normal Anatomy via Fluid-Driven Anomaly RandomizationPeirong Liu, Ana Lawry Aguila, Juan Eugenio Iglesias. 10455-10465 [doi]

Blood Flow Speed Estimation with Optical Coherence Tomography Angiography ImagesWensheng Cheng, Zhenghong Li, Jiaxiang Ren 0002, Hyomin Jeong, Congwu Du, Yingtian Pan, Haibin Ling. 10466-10475 [doi]

3D Dental Model Segmentation with Geometrical Boundary PreservingShufan Xi, Zexian Liu, JunLin Chang, Hongyu Wu, Xiaogang Wang, Aimin Hao. 10476-10485 [doi]

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic VideosZhengqi Li, Richard Tucker 0001, Forrester Cole, Qianqian Wang 0002, Linyi Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely. 10486-10496 [doi]

Stereo4D: Learning How Things Move in 3D from Internet Stereo VideosLinyi Jin, Richard Tucker 0001, Zhengqi Li, David Fouhey, Noah Snavely, Aleksander Holynski. 10497-10509 [doi]

Continuous 3D Perception Model with Persistent StateQianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa. 10510-10522 [doi]

TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage FusionYiran Wang 0005, Jiaqi Li 0007, Chaoyi Hong, Ruibo Li, Liusheng Sun, Xiao Song 0002, Zhe Wang, Zhiguo Cao 0001, Guosheng Lin. 10523-10533 [doi]

Neural Inverse Rendering from Propagating LightAnagh Malik, Benjamin Attal, Andrew Xie, Matthew O'Toole, David B. Lindell. 10534-10544 [doi]

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing ImagesKaiyu Li, Ruixun Liu, Xiangyong Cao, Xueru Bai, Feng Zhou, Deyu Meng, Zhi Wang 0002. 10545-10556 [doi]

Towards Universal Dataset Distillation via Task-Driven DiffusionDing Qi, Jian Li, Junyao Gao 0002, Shuguang Dou, Ying Tai, Jianlong Hu, Bo Zhao 0015, Yabiao Wang, Chengjie Wang, Cairong Zhao. 10557-10566 [doi]

IceDiff: High Resolution and High-Quality Arctic Sea Ice Forecasting with Generative Diffusion PriorJingyi Xu, Siwei Tu, Weidong Yang, Ben Fei, Shuhao Li, Keyi Liu, Yeqi Luo, Lipeng Ma, Lei Bai 0001. 10567-10576 [doi]

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided PruningKunyu Wang, Xueyang Fu, Xin Lu 0006, Chengjie Ge, Chengzhi Cao, Wei Zhai, Zheng-Jun Zha. 10577-10586 [doi]

Keep the Balance: A Parameter-Efficient Symmetrical Framework for RGB+X Semantic SegmentationJiaxin Cai, Jingze Su, Qi Li, Wenjie Yang, Shu Wang, Tiesong Zhao, Shengfeng He, Wenxi Liu. 10587-10598 [doi]

Identifying and Mitigating Position Bias of Multi-image Vision-Language ModelsXinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang 0052. 10599-10609 [doi]

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the KeyZhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu, Dongsheng Li 0002. 10610-10620 [doi]

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision ContentZicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun 0029, Wei Wang 0213, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu 0001, Guangtao Zhai. 10621-10631 [doi]

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall SpacesJihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei 0001, Saining Xie. 10632-10643 [doi]

From Multimodal LLMs to Generalist Embodied Agents: Methods and LessonsAndrew Szot, Bogdan Mazoure, Omar Attia, Aleksei Timofeev, Harsh Agrawal, R. Devon Hjelm, Zhe Gan, Zsolt Kira, Alexander Toshev. 10644-10655 [doi]

LLM-driven Multimodal and Multi-Identity Listening Head GenerationPeiwen Lai, Weizhi Zhong, Yipeng Qin, Xiaohang Ren, Baoyuan Wang, Guanbin Li. 10656-10666 [doi]

INFP: Audio-Driven Interactive Head Generation in Dyadic ConversationsYongming Zhu, Longhao Zhang, Zhengkun Rong, Tianshu Hu, Shuang Liang, Zhipeng Ge. 10667-10677 [doi]

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion TransformersJiazhi Guan, Kaisiyuan Wang, Zhiliang Xu, Quanwei Yang, Yasheng Sun, Shengyi He, Borong Liang, Yukang Cao, Yingying Li, Haocheng Feng, Errui Ding, Jingdong Wang 0001, Youjian Zhao, Hang Zhou 0009, Ziwei Liu 0002. 10678-10689 [doi]

InsTaG: Learning Personalized 3D Talking Head from Few-Second VideoJiahe Li 0007, Jiawei Zhang, Xiao Bai 0001, Jin Zheng, Jun Zhou 0001, Lin Gu 0003. 10690-10700 [doi]

Dynamic Stereotype Theory Induced Micro-expression Recognition with Oriented DeformationBohao Zhang, Xuejiao Wang, Changbo Wang, Gaoqi He. 10701-10711 [doi]

Coherent 3D Portrait Video Reconstruction via Triplane FusionShengze Wang 0002, Xueting Li, Chao Liu 0064, Matthew A. Chan 0001, Michael Stengel, Henry Fuchs, Shalini De Mello, Koki Nagano. 10712-10722 [doi]

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian SplattingJianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang 0007, Tiansong Zhou, Zhiwen Chen 0002, Chengfei Lv. 10723-10734 [doi]

Synthetic Prior for Few-Shot Drivable Head Avatar InversionWojciech Zielonka, Stephan J. Garbin, Alexandros Lattas, George Kopanas, Paulo F. U. Gotardo, Thabo Beeler, Justus Thies, Timo Bolkart. 10735-10746 [doi]

RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head AvatarsLinzhou Li, Yumeng Li, Yanlin Weng, Youyi Zheng, Kun Zhou 0001. 10747-10757 [doi]

AvatarArtist: Open-Domain 4D AvatarizationHongyu Liu, Xuan Wang 0009, Ziyu Wan, Yue Ma, Jingye Chen, Yanbo Fan, Yujun Shen, Yibing Song, Qifeng Chen. 10758-10769 [doi]

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID GuidanceDimitrios Gerogiannis, Foivos Paraperas Papantoniou, Rolandos-Alexandros Potamias, Alexandros Lattas, Stefanos Zafeiriou. 10770-10782 [doi]

Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D CharactersZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou 0001, Houqiang Li, Ran Zhang. 10783-10792 [doi]

PhysAnimator: Physics-Guided Generative Cartoon AnimationTianyi Xie, Yiwei Zhao, Ying Jiang, Chenfanfu Jiang. 10793-10804 [doi]

Zero-Shot Head Swapping in Real-World ScenariosTaewoong Kang, Sohyun Jeong 0001, Hyojin Jang, Jaegul Choo. 10805-10814 [doi]

CaricatureBooth: Data-Free Interactive Caricature Generation in a Photo BoothZhiyu Qu, Yunqi Miao, Zhensong Zhang, Jifei Song, Jiankang deng, Yi-Zhe Song. 10815-10824 [doi]

FFaceNeRF: Few-shot Face Editing in Neural Radiance FieldsKwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh. 10825-10835 [doi]

D^3-Human: Dynamic Disentangled Digital Human from Monocular VideoHonghu Chen, Bo Peng, Yunfan Tao, Juyong Zhang. 10836-10846 [doi]

DiffLocks: Generating 3D Hair from a Single Image using Diffusion ModelsRadu Alexandru Rosu, Keyu Wu, Yao Feng 0001, Youyi Zheng, Michael J. Black. 10847-10857 [doi]

Remote Photoplethysmography in Real-World and Extreme Lighting ScenariosHang Shao 0001, Lei Luo 0001, Jianjun Qian, Mengkai Yan, Shuo Chen, Jian Yang. 10858-10867 [doi]

GCC: Generative Color Constancy via Diffusing a Color CheckerChen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu 0001. 10868-10878 [doi]

DarkIR: Robust Low-Light Image RestorationDaniel Feijoo, Juan C. Benito, Alvaro García, Marcos V. Conde. 10879-10889 [doi]

PolarFree: Polarization-based Reflection-Free ImagingMingde Yao, Menglu Wang, King-Man Tam, Lingen Li, Tianfan Xue, Jinwei Gu. 10890-10899 [doi]

OpticalNet: An Optical Imaging Dataset and Benchmark Beyond the Diffraction LimitBenquan Wang, Ruyi An, Jin-Kyu So, Sergei Kurdiumov, Eng Aik Chan, Giorgio Adamo, Yuhan Peng, Yewen Li, Bo An 0001. 10900-10912 [doi]

A Physics-Informed Blur Learning Framework for Imaging SystemsLiqun Chen, Yuxuan Li, Jun Dai, Jinwei Gu, Tianfan Xue. 10913-10922 [doi]

MaDCoW: Marginal Distortion Correction for Wide-Angle Photography with Arbitrary ObjectsKevin Zhang, Jia-Bin Huang, Jose Echevarria, Stephen DiVerdi, Aaron Hertzmann. 10923-10932 [doi]

Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination VariationHadi AlZayer, Philipp Henzler, Jonathan T. Barron, Jia-Bin Huang, Pratul P. Srinivasan, Dor Verbin. 10933-10942 [doi]

IRGS: Inter-Reflective Gaussian Splatting with 2D Gaussian Ray TracingChun Gu, Xiaofei Wei, Zixuan Zeng, Yuxuan Yao, Li Zhang 0040. 10943-10952 [doi]

Volumetrically Consistent 3D Gaussian RasterizationChinmay Talegaonkar, Yash Belhe, Ravi Ramamoorthi, Nicholas Antipa. 10953-10963 [doi]

MultimodalStudio: A Heterogeneous Sensor Dataset and Framework for Neural Rendering across Multiple Imaging ModalitiesFederico Lincetto, Gianluca Agresti, Mattia Rossi, Pietro Zanuttigh. 10964-10973 [doi]

PBR-NeRF: Inverse Rendering with Physics-Based Neural FieldsSean Wu, Shamik Basu, Tim Broedermann, Luc Van Gool, Christos Sakaridis. 10974-10984 [doi]

MAGE : Single Image to Material-Aware 3D via the Multi-View G-Buffer Estimation ModelHaoyuan Wang, Zhenwei Wang 0003, Xiaoxiao Long, Cheng Lin, Gerhard Hancke, Rynson W. H. Lau. 10985-10995 [doi]

3D-HGS: 3D Half-Gaussian SplattingHaolin Li, Jinyang Liu 0005, Mario Sznaier, Octavia I. Camps. 10996-11005 [doi]

Spatiotemporal Skip Guidance for Enhanced Video Diffusion SamplingJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim 0001, Jaegul Choo. 11006-11015 [doi]

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene SimulationZhuoman Liu, Weicai Ye, Yan Luximon, Pengfei Wan 0001, Di Zhang. 11016-11025 [doi]

ProbeSDF: Light Field Probes For Neural Surface ReconstructionBriac Toussaint, Diego Thomas, Jean-Sébastien Franco. 11026-11035 [doi]

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D DataZhiyuan Ma 0002, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu 0001, Zhen Lei 0001, Lei Zhang 0006. 11036-11050 [doi]

FruitNinja: 3D Object Interior Texture Generation with Gaussian SplattingFangyu Wu, Yuhao Chen. 11051-11060 [doi]

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset CreationWang Zhao, Yan-Pei Cao, Jiale Xu, Yuejiang Dong, Ying Shan. 11061-11072 [doi]

CADCrafter: Generating Computer-Aided Design Models from Unconstrained ImagesCheng Chen, Jiacheng Wei, Tianrun Chen, Chi Zhang 0007, Xiaofeng Yang, Shangzhan Zhang, Bingchen Yang, Chuan-Sheng Foo, Guosheng Lin, Qixing Huang, Fayao Liu. 11073-11082 [doi]

MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D GenerationJinnan Chen, Lingting Zhu, Zeyu Hu, Shengju Qian, Yugang Chen, Xin Wang, Gim Hee Lee. 11083-11092 [doi]

Scaling Mesh Generation via Compressive TokenizationHaohan Weng, Zibo Zhao, Biwen Lei, Xianghui Yang, Jian Liu, Zeqiang Lai, Zhuo Chen, Yuhong Liu, Jie Jiang, Chunchao Guo, Tong Zhang, Shenghua Gao, C. L. Philip Chen. 11093-11103 [doi]

Hierarchical Gaussian Mixture Model Splatting for Efficient and Part Controllable 3D GenerationQitong Yang, Mingtao Feng, Zijie Wu, Weisheng Dong, Fangfang Wu, Yaonan Wang 0001, Ajmal Mian. 11104-11114 [doi]

Identity-preserving Distillation Sampling by Fixed-Point IteratorSeonhwa Kim, Jiwon Kim, Soobin Park, Donghoon Ahn, Jiwon Kang, Seungryong Kim, Kyong Hwan Jin, Eunju Cha. 11115-11124 [doi]

PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?Martin Spitznagel, Jan Vaillant, Janis Keuper. 11125-11134 [doi]

EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian SplattingDong-In Lee, Hyeongcheol Park, JiYoung Seo, Eunbyung Park, Hyunje Park, Hadam Baek, Sangheon Shin, Sangmin Kim, Sangpil Kim. 11135-11145 [doi]

DashGaussian: Optimizing 3D Gaussian Splatting in 200 SecondsYouyu Chen, Junjun Jiang, Kui Jiang, Xiao Tang, Zhihao Li, Xianming Liu, Yinyu Nie. 11146-11155 [doi]

Efficient Decoupled Feature 3D Gaussian Splatting via Hierarchical CompressionZhenqi Dai, Ting Liu 0012, Yanning Zhang. 11156-11166 [doi]

SOGS: Second-Order Anchor for Advanced 3D Gaussian SplattingJiahui Zhang, Fangneng Zhan, Ling Shao 0005, Shijian Lu. 11167-11176 [doi]

RestorGS: Depth-aware Gaussian Splatting for Efficient 3D Scene RestorationYuanjian Qiao, Mingwen Shao, Lingzhuang Meng, Kai Xu. 11177-11186 [doi]

Seeing A 3D World in A Grain of SandYufan Zhang, Yu Ji 0001, Yu Guo, Jinwei Ye. 11187-11196 [doi]

CoA: Towards Real Image Dehazing via Compression-and-AdaptationLong Ma 0002, Yuxin Feng, Yan Zhang, Jinyuan Liu 0001, Weimin Wang, Guang-yong Chen, Chengpei Xu, Zhuo Su 0001. 11197-11206 [doi]

S2D-LFE: Sparse-to-Dense Light Field Event GenerationYutong Liu, Wenming Weng, Yueyi Zhang, Zhiwei Xiong. 11207-11216 [doi]

Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field ReconstructionLi Fang, Hao Zhu, Longlong Chen, Fei Hu, Long Ye, Zhan Ma. 11217-11226 [doi]

FrugalNeRF: Fast Convergence for Extreme Few-shot Novel View Synthesis without Learned PriorsChin-Yang Lin, Chung-Ho Wu, Chang-Han Yeh, Shih-Han Yen, Cheng Sun 0004, Yu-Lun Liu 0001. 11227-11238 [doi]

MirrorVerse: Pushing Diffusion Models to Realistically Reflect the WorldAnkit Dhiman, Manan Shah, R. Venkatesh Babu. 11239-11249 [doi]

Matrix3D: Large Photogrammetry Model All-in-OneYuanxun Lu, Jingyang Zhang, Tian Fang, Jean-Daniel Nahmias, Yanghai Tsin, Long Quan, Xun Cao, Yao Yao 0008, Shiwei Li 0001. 11250-11263 [doi]

SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse InputsGuibiao Liao, Qing Li 0029, Zhenyu Bao, Guoping Qiu, Kanglin Liu. 11264-11274 [doi]

Geometry-guided Online 3D Video Synthesis with Multi-View Temporal ConsistencyHyunho Ha, Lei Xiao, Christian Richardt, Thu Nguyen-Phuoc, Changil Kim 0001, Min H. Kim 0001, Douglas Lanman, Numair Khan. 11275-11285 [doi]

EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View SynthesisSheng Miao, Jiaxin Huang 0012, Dongfeng Bai, Xu Yan, Hongyu Zhou, Yue Wang 0020, Bingbing Liu, Andreas Geiger 0001, Yiyi Liao. 11286-11296 [doi]

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh AttentionYuhan Wang 0002, Fangzhou Hong, Shuai Yang 0001, Liming Jiang 0001, Wayne Wu, Chen Change Loy. 11297-11306 [doi]

Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse ViewsJiang Wu, Rui Li 0013, Yu Zhu, Rong Guo, Jinqiu Sun, Yanning Zhang. 11307-11316 [doi]

NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene ReconstructionWenyuan Zhang, Emily Yue-ting Jia, Junsheng Zhou, Baorui Ma, Kanle Shi, Yu-Shen Liu, Zhizhong Han. 11317-11327 [doi]

Efficient Video Super-Resolution for Real-time Rendering with Decoupled G-buffer GuidanceMingjun Zheng, Long Sun, Jiangxin Dong, Jinshan Pan. 11328-11337 [doi]

MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian SplattingSangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim. 11338-11348 [doi]

RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal ReperformanceYuheng Jiang, Zhehao Shen, Chengcheng Guo, Yu Hong, Zhuo Su 0006, Yingliang Zhang, Marc Habermann, Lan Xu. 11349-11360 [doi]

DecoupledGaussian: Object-Scene Decoupling for Physics-Based InteractionMiaowei Wang, Yibo Zhang, Weiwei Xu, Rui Ma 0011, Changqing Zou, Daniel D. Morris. 11361-11372 [doi]

Thin-Shell-SfT: Fine-Grained Monocular Non-rigid 3D Surface Tracking with Neural Deformation FieldsNavami Kairanda, Marc Habermann, Shanthika Naik, Christian Theobalt, Vladislav Golyanik. 11373-11383 [doi]

Co-Speech Gesture Video Generation with Implicit Motion-Audio EntanglementXinjie Li 0002, Ziyi Chen 0005, Xinlu Yu, Iek Heng Chu, Peng Chang 0002, Jing Xiao 0006. 11384-11394 [doi]

QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum AnnealersNatacha Kuete Meli, Vladislav Golyanik, Marcel Seelbach Benkner, Michael Moeller 0001. 11395-11405 [doi]

Image Reconstruction from Readout-Multiplexed Single-Photon Detector ArraysShashwath Bharadwaj, Ruangrawee Kitichotkul, Akshay Agarwal 0003, Vivek K. Goyal. 11406-11415 [doi]

Spk2SRImgNet: Super-Resolve Dynamic Scene from Spike Stream via Motion Aligned Collaborative FilteringYuanlin Wang, Yiyang Zhang, Ruiqin Xiong, Jing Zhao 0011, Jian Zhang 0018, Xiaopeng Fan, Tiejun Huang 0001. 11416-11426 [doi]

EventPSR: Surface Normal and Reflectance Estimation from Photometric Stereo Using an Event CameraBohan Yu, Jin Han 0001, Boxin Shi, Imari Sato. 11427-11436 [doi]

PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian SplattingCheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Q. Phung, Jianfei Cai 0001. 11437-11447 [doi]

QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the EdgeXuan Shen, Weize Ma, Jing Liu 0001, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu 0002, Yanzhi Wang, Pu Zhao 0001, Jun Lin, Jiuxiang Gu. 11448-11460 [doi]

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic EnvironmentsJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni. 11461-11471 [doi]

Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular VideoHoang Chuong Nguyen, Wei Mao 0001, José M. Álvarez, Miaomiao Liu 0001. 11472-11481 [doi]

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot VisionJinnyeong Kim, Seung-Hwan Baek. 11482-11492 [doi]

MVSAnywhere: Zero-Shot Multi-View StereoSergio Izquierdo, Mohamed Sayed, Michael Firman, Guillermo Garcia-Hernando, Daniyar Turmukhambetov, Javier Civera 0001, Oisin Mac Aodha, Gabriel J. Brostow, Jamie Watson. 11493-11504 [doi]

Three-view Focal Length Recovery From HomographiesYaqing Ding 0001, Viktor Kocur, Zuzana Berger Haladová, Qianliang Wu, Shen Cai, Jian Yang 0003, Zuzana Kukelova. 11505-11514 [doi]

Full-DoF Egomotion Estimation for Event Cameras Using Geometric SolversJi Zhao 0001, Banglei Guan, Zibin Liu, Laurent Kneip. 11515-11524 [doi]

GeoDepth: From Point-to-Depth to Plane-to-Depth Modeling for Self-Supervised Monocular Depth EstimationHaifeng Wu, Shuhang Gu, Lixin Duan, Wen Li 0001. 11525-11535 [doi]

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual LocalizationXudong Jiang, Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Marc Pollefeys. 11536-11546 [doi]

HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks DatasetRon Ferens, Yosi Keller. 11547-11557 [doi]

Learning to Filter Outlier Edges in Global SfMNicole Damblon, Marc Pollefeys, Daniel Barath. 11558-11568 [doi]

Towards Optimizing Large-Scale Multi-Graph Matching in BioimagingMax Kahl, Sebastian Stricker, Lisa Hutschenreiter, Florian Bernard, Carsten Rother, Bogdan Savchynskyy. 11569-11578 [doi]

Bridging Viewpoint Gaps: Geometric Reasoning Boosts Semantic CorrespondenceQiyang Qian, Hansheng Chen 0004, Masayoshi Tomizuka, Kurt Keutzer, Qianqian Wang, Chenfeng Xu. 11579-11589 [doi]

MV-SSM: Multi-View State Space Modeling for 3D Human Pose EstimationAviral Chharia, Wenbo Gou, Haoye Dong. 11590-11599 [doi]

Multi-View Pose-Agnostic Change Localization with Zero LabelsChamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim, Donald G. Dansereau, Niko Sünderhauf, Dimity Miller. 11600-11610 [doi]

Structure-Aware Correspondence Learning for Relative Pose EstimationYihan Chen, Wenfei Yang, Huan Ren, Shifeng Zhang, Tianzhu Zhang, Feng Wu 0001. 11611-11621 [doi]

Co-op: Correspondence-based Novel Object Pose EstimationSungphill Moon, Hyeontae Son, Dongcheol Hur, Sangwook Kim. 11622-11632 [doi]

Any6D: Model-free 6D Pose Estimation of Novel ObjectsTaeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In-So Kweon, Kuk-Jin Yoon. 11633-11643 [doi]

CRISP: Object Pose and Shape Estimation with Test-Time AdaptationJingnan Shi, Rajat Talak, Harry Zhang, David Jin, Luca Carlone. 11644-11653 [doi]

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D ImageJingshun Huang, Haitao Lin, Tianyu Wang, Yanwei Fu 0001, Xiangyang Xue 0001, Yi Zhu 0001. 11654-11664 [doi]

EchoMatch: Partial-to-Partial Shape Matching via Correspondence ReflectionYizheng Xie, Viktoria Ehm, Paul Roetzer, Nafie El Amrani, Maolin Gao, Florian Bernard, Daniel Cremers. 11665-11675 [doi]

Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph GenerationSayak Nag, Udita Ghosh, Calvin-Khang Ta, Sarosij Bose, Jiachen Li, Amit K. Roy Chowdhury. 11676-11686 [doi]

Focusing on Tracks for Online Multi-Object TrackingKyuJin Shim, Kangwook Ko, Yujin Yang, Changick Kim. 11687-11696 [doi]

GRAE-3DMOT: Geometry Relation-Aware Encoder for Online 3D Multi-Object TrackingHyunseop Kim, Hyo-jun Lee, Yonguk Lee, Jinu Lee, Hanul Kim 0001, Yeong Jun Koh. 11697-11706 [doi]

PointSR: Self-Regularized Point Supervision for Drone-View Object DetectionWeizhuo Li, Yue Xi, Wenjing Jia, Zehao Zhang, Fei Li, Xiangzeng Liu, Qiguang Miao. 11707-11716 [doi]

Multi-Modal Aerial-Ground Cross-View Place Recognition with Neural ODEsSijie Wang, Rui She 0001, Qiyu Kang, Siqi Li, Disheng Li, Tianyu Geng, Shangshu Yu, Wee-Peng Tay. 11717-11728 [doi]

OffsetOPT: Explicit Surface Reconstruction without NormalsHuan Lei. 11729-11738 [doi]

High-Fidelity Lightweight Mesh Reconstruction from Point CloudsChen Zhang, Wentao Wang, Ximeng Li 0007, Xinyao Liao, Wanjuan Su, Wenbing Tao. 11739-11748 [doi]

Parametric Point Cloud Completion for Polygonal Surface ReconstructionZhaiyu Chen, Yuqing Wang, Liangliang Nan, Xiaoxiang Zhu 0001. 11749-11758 [doi]

Self-Supervised Large Scale Point Cloud Completion for Archaeological Site RestorationAocheng Li, James Zimmer-Dauphinee, Rajesh Kalyanam, Ian Lindsay, Parker VanValkenburgh, Steven A. Wernke, Daniel G. Aliaga. 11759-11768 [doi]

Dual Focus-Attention Transformer for Robust Point Cloud RegistrationKexue Fu, Mingzhi Yuan, Changwei Wang 0001, Weiguang Pang, Jing Chi, Manning Wang, Longxiang Gao. 11769-11778 [doi]

Generalized Gaussian Entropy Model for Point Cloud Attribute Compression with Dynamic Likelihood IntervalsChanghao Peng. 11779-11788 [doi]

SeaLion: Semantic Part-Aware Latent Point Diffusion Models for 3D GenerationDekai Zhu, Yan Di, Stefan Gavranovic, Slobodan Ilic. 11789-11798 [doi]

Spectral Informed Mamba for Robust Point Cloud ProcessingAli Bahri, Moslem Yazdanpanah, Mehrdad Noori, Sahar Dastani, Milad Cheraghalikhani, Gustavo Adolfo Vargas Hakim, David Osowiechi, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers. 11799-11809 [doi]

Hyperbolic Uncertainty-Aware Few-Shot Incremental Point Cloud SegmentationTanuj Sur, Samrat Mukherjee, Kaizer Rahaman, Subhasis Chaudhuri, Muhammad Haris Khan, Biplab Banerjee. 11810-11821 [doi]

CamPoint: Boosting Point Cloud Segmentation with Virtual CameraJianhui Zhang, Yizhi Luo, Zicheng Zhang, Xuecheng Nie, Bonan Li. 11822-11832 [doi]

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the EdgeRadu Berdan, Beril Besbinar, Christoph Reinders, Junji Otsuka, Daisuke Iso. 11833-11843 [doi]

ViKIENet: Towards Efficient 3D Object Detection with Virtual Key Instance Enhanced NetworkZhuochen Yu, Bijie Qiu, Andy W. H. Khong. 11844-11853 [doi]

ViiNeuS: Volumetric Initialization for Implicit Neural Surface Reconstruction of Urban Scenes with Limited Image OverlapHala Djeghim, Nathan Piasco, Moussâb Bennehar, Luis Roldao, Dzmitry Tsishkou, Désiré Sidibé. 11854-11863 [doi]

D^3CTTA: Domain-Dependent Decorrelation for Continual Test-Time Adaption of 3D LiDAR SegmentationJichun Zhao, Haiyong Jiang, Haoxuan Song, Jun Xiao 0005, Dong Gong. 11864-11874 [doi]

Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous DrivingAlexey Nekrasov 0001, Malcolm Burdorf, Stewart Worrall 0002, Bastian Leibe, Julie Stephany Berrio Perez. 11875-11885 [doi]

Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene AttacksDaizong Liu, Wei Hu 0003. 11886-11897 [doi]

Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAV Target DetectionHouzhang Fang, Xiaolin Wang 0006, Zengyang Li, Lu Wang, Qingshan Li, Yi Chang 0002, Luxin Yan. 11898-11907 [doi]

RCP-Bench: Benchmarking Robustness for Collaborative Perception Under Diverse CorruptionsShihang Du, Sanqing Qu, Tianhang Wang, Xudong Zhang, Yunwei Zhu, Jian Mao, Fan Lu, Qiao Lin, Guang Chen 0001. 11908-11918 [doi]

Generative Map Priors for Collaborative BEV Semantic SegmentationJiahui Fu 0003, Yue Gong, Luting Wang 0001, Shifeng Zhang, Xu Zhou, Si Liu 0001. 11919-11928 [doi]

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene CompletionXiyue Guo, Jiarui Hu 0004, Junjie Hu 0003, Hujun Bao, Guofeng Zhang 0001. 11929-11938 [doi]

Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene CompletionJongseong Bae, Junwoo Ha, Ha-Young Kim. 11939-11948 [doi]

OccMamba: Semantic Occupancy Prediction with State Space ModelsHeng Li, Yuenan Hou, Xiaohan Xing, Yuexin Ma, Xiao Sun, Yanyong Zhang. 11949-11959 [doi]

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial UnderstandingHaoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu 0001, Xinggang Wang. 11960-11970 [doi]

UniScene: Unified Occupancy-centric Driving Scene GenerationBohan Li, Jiazhe Guo, Hongsi Liu, Yingshuang Zou, Yikang Ding, Xiwu Chen, Hu Zhu, Feiyang Tan, Chi Zhang, Tiancai Wang, Shuchang Zhou 0001, Li Zhang, Xiaojuan Qi 0001, Hao Zhao, Mu Yang, Wenjun Zeng 0001, Xin Jin 0014. 11971-11981 [doi]

SplatAD: Real-Time Lidar and Camera Rendering with 3D Gaussian Splatting for Autonomous DrivingGeorg Hess, Carl Lindström, Maryam Fatemi, Christoffer Petersson, Lennart Svensson. 11982-11992 [doi]

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action AlignmentKatrin Renz, Long Chen 0015, Elahe Arani, Oleg Sinavski. 11993-12003 [doi]

FreeSim: Toward Free-viewpoint Camera Simulation in Driving ScenesLue Fan, Hao Zhang, Qitai Wang, Hongsheng Li, Zhaoxiang Zhang. 12004-12014 [doi]

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene RepresentationGuosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Xueyang Zhang, Yida Wang, Guan Huang 0003, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang. 12015-12026 [doi]

Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving SceneTai-Yu Pan, Sooyoung Jeon, Mengdi Fan, Jinsu Yoo, Zhenyang Feng, Mark E. Campbell, Kilian Q. Weinberger, Bharath Hariharan, Wei-Lun Chao. 12027-12036 [doi]

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous DrivingBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang 0011, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang. 12037-12047 [doi]

TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent PerceptionZhiying Song, Lei Yang 0060, Fuxi Wen, Jun Li 0082. 12048-12057 [doi]

Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSMYizhou Huang, Yihua Cheng, Kezhi Wang. 12058-12067 [doi]

SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous DrivingXuesong Chen 0001, Linjiang Huang, Tao Ma 0002, Rongyao Fang, Shaoshuai Shi, Hongsheng Li 0001. 12068-12077 [doi]

Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and MethodXinshuai Song, Weixing Chen, Yang Liu, Weikai Chen 0001, Guanbin Li, Liang Lin. 12078-12088 [doi]

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous DrivingZhiyuan Zhang, Xiaofan Li, Zhihao Xu, Wenjie Peng, Zijian Zhou, Miaojing Shi, Shuangping Huang. 12089-12099 [doi]

Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge ModelsHao Ren, Yiming Zeng 0009, Zetong Bi, Zhaoliang Wan, Junlong Huang, Hui Cheng. 12100-12110 [doi]

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems ApproachSteeven Janny, Hervé Poirier, Leonid Antsfeld, Guillaume Bono, Gianluca Monaci, Boris Chidlovskii, Francesco Giuliari, Alessio Del Bue, Christian Wolf 0001. 12111-12121 [doi]

ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context PromptingShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma 0001, Anji Liu, Yitao Liang. 12122-12131 [doi]

IAAO: Interactive Affordance Learning for Articulated Objects in 3D EnvironmentsCan Zhang, Gim Hee Lee. 12132-12142 [doi]

A Data-Centric Revisit of Pre-Trained Vision Models for Robot LearningXin Wen 0004, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi 0001. 12143-12154 [doi]

Robotic Visual InstructionYanbang Li, Ziyang Gong, Haoyang Li, Xiaoqi Huang, Haolan Kang, Guangping Bai, Xianzheng Ma. 12155-12165 [doi]

DynScene: Scalable Generation of Dynamic Robotic Manipulation Scenes for Embodied AISangmin Lee, Sungyong Park, Heewon Kim. 12166-12175 [doi]

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic ManipulationSen Wang, Le Wang, Sanping Zhou, Jingyi Tian, Jiayi Li, Haowen Sun, Wei Tang. 12176-12186 [doi]

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following ManipulationNing Gao, Yilun Chen, Shuai Yang, Xinyi Chen, Yang Tian, Hao Li, Haifeng Huang, Hanqing Wang, Tai Wang, Jiangmiao Pang. 12187-12198 [doi]

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic GraspingWenbo Wang, Fangyun Wei, Lei Zhou, Xi Chen, Lin Luo, Xiaohan Yi, Yizhong Zhang, Yaobo Liang, Chang Xu, Yan Lu, Jiaolong Yang, Baining Guo. 12199-12208 [doi]

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable GraspingYouxin Pang, Ruizhi Shao, Jiajun Zhang, Hanzhang Tu, Yun Liu 0018, Boyao Zhou, Hongwen Zhang 0001, Yebin Liu. 12209-12219 [doi]

Hand-held Object Reconstruction from RGB Video with Dynamic InteractionShijian Jiang, Qi Ye, Rengan Xie, Yuchi Huo, Jiming Chen 0001. 12220-12230 [doi]

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose EstimationYinqiao Wang, Hao Xu, Pheng-Ann Heng, Chi-Wing Fu. 12231-12241 [doi]

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wildRolandos-Alexandros Potamias, Jinglei Zhang, Jiankang deng, Stefanos Zafeiriou. 12242-12254 [doi]

Analyzing the Synthetic-to-Real Domain Gap in 3D Hand Pose EstimationZhuoran Zhao 0003, Linlin Yang, Pengzhan Sun 0001, Pan Hui, Angela Yao. 12255-12265 [doi]

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object InteractionsSirui Xu 0002, Hung Yu Ling, Yu-Xiong Wang, Liang-Yan Gui. 12266-12277 [doi]

PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose EstimationUyoung Jeong, Jonathan Freer, SeungRyul Baek, Hyung Jin Chang, Kwang In Kim. 12278-12288 [doi]

M3GYM: A Large-Scale Multimodal Multi-view Multi-person Pose Dataset for Fitness Activity Understanding in Real-world SettingsQingzheng Xu, Ru Cao, Xin Shen, Heming Du, Sen Wang, Xin Yu 0002. 12289-12300 [doi]

Certified Human Trajectory PredictionMohammadhossein Bahari, Saeed Saadatnejad, Amirhossein Askari-Farsangi, Seyed-Mohsen Moosavi-Dezfooli, Alexandre Alahi. 12301-12311 [doi]

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World CoordinateMing Yan, Xincheng Lin, Yuhua Luo, Shuqi Fan, Yudi Dai, Qixin Zhong, Lincai Zhong, Yuexin Ma, Lan Xu, Chenglu Wen, Siqi Shen, Cheng Wang 0003. 12312-12323 [doi]

Physical Plausibility-aware Trajectory Prediction via Locomotion EmbodimentHiromu Taketsugu, Takeru Oba, Takahiro Maeda 0001, Shohei Nobuhara, Norimichi Ukita. 12324-12334 [doi]

Vision-Guided Action: Enhancing 3D Human Motion Prediction with Gaze-informed Affordance in 3D ScenesTing Yu, Yi Lin, Jun Yu, Zhenyu Lou, Qiongjie Cui. 12335-12346 [doi]

On Denoising Walking Videos for Gait RecognitionDongyang Jin, Chao Fan 0001, Jingzhe Ma, Jingkai Zhou, Weihua Chen, Shiqi Yu 0001. 12347-12357 [doi]

ChainHOI: Joint-based Kinematic Chain Modeling for Human-Object Interaction GenerationLing-An Zeng, Guohong Huang, Yi-Lin Wei, Shengbo Gu, Yu-Ming Tang, Jingke Meng, Wei-Shi Zheng 0001. 12358-12369 [doi]

StickMotion: Generating 3D Human Motions by Drawing a StickmanTao Wang, Zhihua Wu, Qiaozhi He, Jiaming Chu, Ling Qian, Yu Cheng 0009, Junliang Xing, Jian Zhao 0006, Lei Jin 0003. 12370-12379 [doi]

MixerMDM: Learnable Composition of Human Motion Diffusion ModelsPablo Ruiz-Ponce, Germán Barquero, Cristina Palmero, Sergio Escalera, José García Rodríguez 0001. 12380-12390 [doi]

HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled GenerationBoyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, Yukun Zhou, Xinze Chen, Guan Huang 0003, Lihong Liu, Xingang Wang. 12391-12401 [doi]

Poly-Autoregressive Prediction for Modeling InteractionsNeerja Thakkar, Tara Sadjadpour, Jathushan Rajasegeran, Shiry Ginosar, Jitendra Malik. 12402-12412 [doi]

Adapting Pre-trained 3D Models for Point Cloud Video Understanding via Cross-frame Spatio-temporal PerceptionBaixuan Lv, Yaohua Zha, Tao Dai 0001, Xue Yuerong, Ke Chen, Shu-Tao Xia. 12413-12422 [doi]

Recovering Dynamic 3D Sketches from VideosJaeah Lee, Changwoon Choi, Young-Min Kim, Jaesik Park. 12423-12432 [doi]

FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian VelocityJinxi Li, Ziyang Song, Siyuan Zhou, Bo Yang. 12433-12443 [doi]

Dynamic Camera Poses and Where to Find ThemChris Rockwell 0001, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu 0001, David F. Fouhey, Chen-Hsuan Lin 0001. 12444-12455 [doi]

Repurposing Pre-trained Video Diffusion Models for Event-based Video InterpolationJingxi Chen, Brandon Y. Feng, Haoming Cai, Tianfu Wang 0007, Levi Burner, Dehao Yuan, Cornelia Fermüller, Christopher A. Metzler, Yiannis Aloimonos. 12456-12466 [doi]

InterDyn: Controllable Interactive Dynamics with Video Diffusion ModelsRick Akkerman, Haiwen Feng, Michael J. Black, Dimitrios Tzionas, Victoria Fernández Abrevaya. 12467-12479 [doi]

DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature CachingEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli. 12480-12489 [doi]

LeviTor: 3D Trajectory Oriented Image-to-Video SynthesisHanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang. 12490-12500 [doi]

UniReal: Universal Image Generation and Editing via Learning Real-world DynamicsXi Chen, Zhifei Zhang, He Zhang, YuQian Zhou, Soo Ye Kim, Qing Liu, Yijun Li 0001, Jianming Zhang 0001, Nanxuan Zhao, Yilin Wang 0002, Hui Ding, Zhe Lin 0001, Hengshuang Zhao. 12501-12511 [doi]

Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You ThinkJie Tian, Xiaoye Qu, Zhenyi Lu, Wei Wei 0002, Sichen Liu, Yu Cheng. 12512-12521 [doi]

Generative Omnimatte: Learning to Decompose Video into LayersYao-Chih Lee, Erika Lu, Sarah Rumbley, Michal Geyer, Jia-Bin Huang, Tali Dekel, Forrester Cole. 12522-12532 [doi]

RL-RC-DoT: A Block-level RL agent for Task-Aware Video CompressionUri Gadot, Assaf Shocher, Shie Mannor, Gal Chechik, Assaf Hallak. 12533-12542 [doi]

Towards Practical Real-Time Neural Video CompressionZhaoyang Jia, Bin Li, Jiahao Li, Wenxuan Xie, Linfeng Qi, Houqiang Li, Yan Lu. 12543-12552 [doi]

Neural Video Compression with Context ModulationChuanbo Tang, Zhuoyuan Li, Yifan Bian, Li Li 0040, Dong Liu 0002. 12553-12563 [doi]

Event-based Video Super-Resolution via State Space ModelsZeyu Xiao, Xinchao Wang. 12564-12574 [doi]

STDD: Spatio-Temporal Dual Diffusion for Video GenerationShuaizhen Yao, Xiaoya Zhang, Xin Liu, Mengyi Liu, Zhen Cui 0001. 12575-12584 [doi]

OSV: One Step is Enough for High-Quality Image to Video GenerationXiaofeng Mao, Zhengkai Jiang 0001, Fu-Yun Wang, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang, Wenhan Luo. 12585-12594 [doi]

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video ModelsDongnan Gui, Xun Guo, Wengang Zhou 0001, Yan Lu. 12595-12604 [doi]

CASP: Consistency-aware Audio-induced Saliency Prediction Model for Omnidirectional VideoZhaolin Wan, Han Qin, Zhiyang Li 0001, Xiaopeng Fan, Wangmeng Zuo, Debin Zhao. 12605-12614 [doi]

Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter TuningZhiyuan Yan, Yandan Zhao, Shen Chen, Mingyi Guo, Xinghe Fu, Taiping Yao, Shouhong Ding, Yunsheng Wu, Li Yuan. 12615-12625 [doi]

OSDFace: One-Step Diffusion Model for Face RestorationJingkai Wang 0003, Jue Gong, Lin Zhang, Zheng Chen, Xing Liu, Hong Gu, Yutong Liu, Yulun Zhang 0001, Xiaokang Yang 0001. 12626-12636 [doi]

MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and ForecastingMengqiu Xu, Kaixin Chen 0001, Heng Guo 0003, Yixiang Huang, Ming Wu 0001, Zhenwei Shi, Chuang Zhang, Jun Guo 0002. 12637-12646 [doi]

Feature Spectrum Learning for Remote Sensing Change DetectionQi Zang, Dong Zhao, Shuang Wang, Dou Quan, Zhun Zhong. 12647-12657 [doi]

Dual-Granularity Semantic Guided Sparse Routing Diffusion Model for General PansharpeningYinghui Xing, Litao Qu, Shizhou Zhang, Di Xu, YingKun Yang, Yanning Zhang. 12658-12668 [doi]

Hyperspectral Pansharpening via Diffusion Models with Iteratively Zero-Shot GuidanceJin-Liang Xiao, Ting-Zhu Huang, Liang-Jian Deng, Guang Lin, Zihan Cao, Chao Li, Qibin Zhao. 12669-12678 [doi]

Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image DenoisingYuchen Wang, Hongyuan Wang, Lizhi Wang 0001, Xin Wang, Lin Zhu 0012, Wanxuan Lu, Hua Huang 0001. 12679-12689 [doi]

Hazy Low-Quality Satellite Video Restoration Via Learning Optimal Joint Degradation Patterns and Continuous-Scale Super-Resolution ReconstructionNing Ni, Libao Zhang. 12690-12699 [doi]

Iterative Predictor-Critic Code Decoding for Real-World Image DehazingJiayi Fu, Siyu Liu, Zikun Liu, Chun-Le Guo, Hyunhee Park, Ruiqi Wu, Guoqing Wang 0001, Chongyi Li. 12700-12709 [doi]

Efficient Visual State Space Model for Image DeblurringLingshun Kong, Jiangxin Dong, Jinhui Tang 0001, Ming-Hsuan Yang 0001, Jinshan Pan. 12710-12719 [doi]

Rotation-Equivariant Self-Supervised Method in Image DenoisingHanze Liu, Jiahong Fu, Qi Xie, Deyu Meng. 12720-12730 [doi]

A Universal Scale-Adaptive Deformable Transformer for Image Restoration across Diverse ArtifactsXuyi He, Yuhui Quan, Ruotao Xu, Hui Ji. 12731-12741 [doi]

Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality AssumptionDu Chen, Tianhe Wu, Kede Ma, Lei Zhang. 12742-12752 [doi]

Complexity Experts are Task-Discriminative Learners for Any Image RestorationEduard Zamfir, Zongwei Wu, Nancy Mehta, Yuedong Tan, Danda Pani Paudel, Yulun Zhang 0001, Radu Timofte. 12753-12763 [doi]

Visual-Instructed Degradation Diffusion for All-in-One Image RestorationWenyang Luo, Haina Qin, Zewen Chen, Libin Wang, Dandan Zheng, Yuming Li, Yufan Liu, Bing Li, Weiming Hu. 12764-12777 [doi]

PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-ResolutionLibo Zhu, Jianze Li, Haotong Qin, Wenbo Li 0002, Yulun Zhang 0001, Yong Guo, Xiaokang Yang 0001. 12778-12788 [doi]

Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional ConditioningIsma Hadji, Mehdi Noroozi, Victor Escorcia, Anestis Zaganidis, Brais Martínez, Georgios Tzimiropoulos. 12789-12798 [doi]

HUNet: Homotopy Unfolding Network for Image Compressive SensingFeiyang Shen, Hongping Gan. 12799-12808 [doi]

Dual Prompting Image Restoration with Diffusion TransformersDehong Kong, Fan Li, Zhixin Wang, Jiaqi Xu, Renjing Pei, Wenbo Li, Wenqi Ren. 12809-12819 [doi]

Frequency-Biased Synergistic Design for Image Compression and CompensationJiaming Liu, Qi Zheng 0004, Zihao Liu, Yilian Zhong, Peiye Liu, Tao Liu 0023, Shusong Xu, YanHeng Lu, Sicheng Li 0001, Dimin Niu, Yibo Fan. 12820-12829 [doi]

FIRE: Robust Detection of Diffusion-Generated Images via Frequency-Guided Reconstruction ErrorBeilin Chu, Xuan Xu, Xin Wang, Yufei Zhang, Weike You, Linna Zhou. 12830-12839 [doi]

Robust Message Embedding via Attention Flow-Based SteganographyHuayuan Ye, Shenzhuo Zhang, Shiqi Jiang 0001, Jing Liao, Shuhang Gu, Dejun Zheng, Changbo Wang, Chenhui Li. 12840-12849 [doi]

Learned Image Compression with Dictionary-based Entropy ModelJingbo Lu, Leheng Zhang, Xingyu Zhou, Mu Li 0005, Wen Li, Shuhang Gu. 12850-12859 [doi]

D^2iT: Dynamic Diffusion Transformer for Accurate Image GenerationWeinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao 0001. 12860-12870 [doi]

Classifier-Free Guidance Inside the Attraction Basin May Cause MemorizationAnubhav Jain 0002, Yuya Kobayashi, Takashi Shibuya 0001, Yuhta Takida, Nasir D. Memon, Julian Togelius, Yuki Mitsufuji. 12871-12879 [doi]

Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation AbilityLei Wang, Senmao Li, Fei Yang, Jianye Wang, Ziheng Zhang, Yuhan Liu, Yaxing Wang, Jian Yang. 12880-12890 [doi]

BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion TransformersHui Zhang, Tingwei Gao, Jie Shao, Zuxuan Wu. 12891-12900 [doi]

Diffusion Model is Effectively Its Own TeacherXinyin Ma, Runpeng Yu, Songhua Liu, Gongfan Fang, Xinchao Wang. 12901-12911 [doi]

Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate RewardZhiwei Jia, Yuesong Nan, Huixi Zhao, Gengdai Liu. 12912-12922 [doi]

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling SchedulerXin Ding, Lei Yu, Xin Li, Zhijun Tu, Hanting Chen, Jie Hu, Zhibo Chen. 12923-12933 [doi]

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model TrainingKai Wang, Mingjia Shi, Yukun Zhou, Zekai Li, Zhihang Yuan, Yuzhang Shang, Xiaojiang Peng, Hanwang Zhang, Yang You 0001. 12934-12944 [doi]

Scaling Properties of Diffusion Models For Perceptual TasksRahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik. 12945-12954 [doi]

Parallelized Autoregressive Visual GenerationYuqing Wang, Shuhuai Ren, Zhijie Lin 0001, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu. 12955-12965 [doi]

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and GenerationChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo 0002. 12966-12977 [doi]

Identity-Preserving Text-to-Video Generation by Frequency DecompositionShenghai Yuan, Jinfa Huang, Xianyi He, Yunyang Ge, Yujun Shi, Liuhan Chen, Jiebo Luo 0001, Li Yuan 0007. 12978-12988 [doi]

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video RepresentationsWeixi Feng, Chao Liu, Sifei Liu, William Yang Wang, Arash Vahdat, Weili Nie. 12989-12998 [doi]

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free WayJiazi Bu, Pengyang Ling, Pan Zhang 0001, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang 0003. 12999-13008 [doi]

Keyframe-Guided Creative Video InpaintingYuwei Guo 0002, Ceyuan Yang, Anyi Rao, Chenlin Meng, Omer Bar-Tal, Shuangrui Ding, Maneesh Agrawala, Dahua Lin, Bo Dai 0002. 13009-13020 [doi]

SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion ModelsJaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee. 13021-13030 [doi]

TKG-DM: Training-free Chroma Key Content Generation Diffusion ModelRyugo Morita, Stanislav Frolov, Brian Bernhard Moser, Takahiro Shirakawa, Ko Watanabe 0001, Andreas Dengel 0001, Jinjia Zhou. 13031-13040 [doi]

K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAsZiheng Ouyang, Zhen Li, Qibin Hou. 13041-13050 [doi]

SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style TransferChunnan Shang, Zhizhong Wang, Hongwei Wang, Xiangming Meng. 13051-13060 [doi]

MARBLE: Material Recomposition and Blending in CLIP-SpaceTa Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani. 13061-13071 [doi]

MagicQuill: An Intelligent Interactive Image Editing SystemZichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, Yujun Shen. 13072-13082 [doi]

FluxSpace: Disentangled Semantic Editing in Rectified Flow ModelsYusuf Dalva, Kavana Venkatesh, Pinar Yanardag. 13083-13092 [doi]

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language ModelJun Zhou, Jiahao Li, Zunnan Xu, Hanhui Li, Yiji Cheng, Fa-Ting Hong, Qin Lin, Qinglin Lu, Xiaodan Liang. 13093-13103 [doi]

Recognition-Synergistic Scene Text EditingZhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei. 13104-13113 [doi]

HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait SynthesisMengtian Li, Jinshu Chen, Wanquan Feng, Bingchuan Li, Fei Dai, Songtao Zhao, Qian He. 13114-13123 [doi]

Self-Evolving Visual Concept Library using Vision-Language CriticsAtharva Sehgal, Patrick Yuan, Ziniu Hu, Yisong Yue, Jennifer J. Sun, Swarat Chaudhuri. 13124-13134 [doi]

Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image SynthesisZixuan Wang, Duo Peng, Feng Chen, Yuwei Yang, Yinjie Lei. 13135-13145 [doi]

Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored PromptsFeng Liang, Haoyu Ma, Zecheng He, Tingbo Hou, Ji Hou, Kunpeng Li, Xiaoliang Dai, Felix Juefei-Xu, Samaneh Azadi, Animesh Sinha, Peizhao Zhang, Peter Vajda, Diana Marculescu. 13146-13156 [doi]

AMO Sampler: Enhancing Text Rendering with OvershootingXixi Hu 0001, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei. 13157-13166 [doi]

ArtiFade: Learning to Generate High-quality Subject from Blemished ImagesShuya Yang, Shaozhe Hao, Yukang Cao, Kwan-Yee K. Wong. 13167-13177 [doi]

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified FlowsShufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover. 13178-13188 [doi]

LoRACLR: Contrastive Adaptation for Customization of Diffusion ModelsEnis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag. 13189-13198 [doi]

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference OptimizationZhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Mingxi Cheng, Ji Li, Liang Zheng. 13199-13208 [doi]

Composing Parts for Expressive Object GenerationHarsh Rangwani, Aishwarya Agarwal, Kuldeep Kulkarni, R. Venkatesh Babu, Srikrishna Karanam. 13209-13219 [doi]

DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective SchedulingXin Xie, Dong Gong. 13220-13230 [doi]

Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic DirectionsStefan Andreas Baumann, Felix Krause 0002, Michael Neumayr, Nick Stracke, Melvin Sevi, Vincent Tao Hu, Björn Ommer. 13231-13241 [doi]

Make It Count: Text-to-Image Generation with an Accurate Number of ObjectsLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik. 13242-13251 [doi]

Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token OptimizationFeifei Li, Mi Zhang, Yiming Sun, Min Yang. 13252-13262 [doi]

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image GenerationMingcheng Li, Xiaolu Hou, Ziyang Liu, Dingkang Yang, Ziyun Qian, Jiawei Chen, Jinjie Wei, Yue Jiang, Qingyao Xu, Lihua Zhang. 13263-13272 [doi]

StoryGPT-V: Large Language Models as Consistent Story VisualizersXiaoqian Shen, Mohamed Elhoseiny. 13273-13283 [doi]

ChatGen: Automatic Text-to-Image Generation From FreeStyle ChattingChengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo. 13284-13293 [doi]

OmniGen: Unified Image GenerationShitao Xiao, Yueze Wang, Junjie Zhou 0001, Huaying Yuan, Xingrun Xing, Ruiran Yan, Chaofan Li, Shuting Wang 0002, Tiejun Huang 0003, Zheng Liu. 13294-13304 [doi]

ShapeWords: Guiding Text-to-Image Synthesis with 3D Shape-Aware PromptsDmitry Petrov, Pradyumn Goyal, Divyansh Shivashok, Yuanming Tao, Melinos Averkiou, Evangelos Kalogerakis. 13305-13314 [doi]

From Words to Structured Visuals: A Benchmark and Framework for Text-to-Diagram Generation and EditingJingxuan Wei, Cheng Tan 0012, Qi Chen, Gaowei Wu, Siyuan Li 0002, Zhangyang Gao, Linzhuang Sun, Bihui Yu, Ruifeng Guo. 13315-13325 [doi]

Eval3D: Interpretable and Fine-grained Evaluation for 3D GenerationShivam Duggal, Yushi Hu, Oscar Michel, Aniruddha Kembhavi, William T. Freeman, Noah A. Smith, Ranjay Krishna, Antonio Torralba 0001, Ali Farhadi, Wei-Chiu Ma. 13326-13336 [doi]

EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering BenchmarkMing Li, Jike Zhong, Tianle Chen, Yuxiang Lai, Konstantinos Psounis. 13337-13349 [doi]

Towards Precise Embodied Dialogue Localization via Causality Guided DiffusionHaoyu Wang, Le Wang, Sanping Zhou, Jingyi Tian, Zheng Qin, Yabing Wang, Gang Hua 0001, Wei Tang 0016. 13350-13360 [doi]

Rethinking Training for De-biasing Text-to-Image Generation: Unlocking the Potential of Stable DiffusionEunji Kim 0002, Siwon Kim, MinJun Park, Rahim Entezari, Sungroh Yoon. 13361-13370 [doi]

Rectified Diffusion Guidance for Conditional GenerationMengfei Xia, Nan Xue 0006, Yujun Shen, Ran Yi, Tieliang Gong, Yong-Jin Liu 0001. 13371-13380 [doi]

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image GenerationLijun Li, Zhelun Shi, Xuhao Hu, Bowen Dong, Yiran Qin, Xihui Liu, Lu Sheng, Jing Shao. 13381-13392 [doi]

The Illusion of Unlearning: The Unstable Nature of Machine Unlearning in Text-to-Image Diffusion ModelsNaveen George, Karthik Nandan Dasaraju, Rutheesh Reddy Chittepu, Konda Reddy Mopuri. 13393-13402 [doi]

RealEdit: Reddit Edits As a Large-scale Empirical Dataset for Image TransformationsPeter V. Sushko, Ayana Bharadwaj, Zhi Yang Lim, Vasily Ilin, Ben Caffee, Dongping Chen, Mohammadreza Salehi, Cheng-Yu Hsieh, Ranjay Krishna. 13403-13413 [doi]

Harnessing Global-Local Collaborative Adversarial Perturbation for Anti-CustomizationLong Xu, Jiakai Wang, Haojie Hao, Haotong Qin, Jiejie Zhao, Xianglong Liu 0001. 13414-13423 [doi]

Decoder Gradient Shield: Provable and High-Fidelity Prevention of Gradient-Based Box-Free Watermark RemovalHaonan An 0001, Guang Hua 0001, Zhengru Fang, Guowen Xu, Susanto Rahardja, Yuguang Fang. 13424-13433 [doi]

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head GenerationYuan Gan, Jiaxu Miao, Yunze Wang, Yi Yang 0001. 13434-13444 [doi]

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution AnalysisZexi Jia, Chuanwei Huang, Yeshuang Zhu, Hongyan Fei, Xiaoyue Duan, Zhiqiang Yuan, Ying Deng, Jiapei Zhang, Jinchao Zhang, Jie Zhou 0016. 13445-13454 [doi]

CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AISiyuan Cheng 0005, Lingjuan Lyu, Zhenting Wang, Xiangyu Zhang 0001, Vikash Sehwag. 13455-13465 [doi]

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object PlacementIan Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas J. Guibas, Alireza Fathi. 13466-13476 [doi]

VI^3NR: Variance Informed Initialization for Implicit Neural RepresentationsChamin Hewa Koneputugodage, Yizhak Ben-Shabat, Sameera Ramasinghe, Stephen Gould. 13477-13486 [doi]

EigenGS Representation: From Eigenspace to Gaussian Image SpaceLo-Wei Tai, Ching-En Li, Cheng-Lin Chen, Chih-Jung Tsai, Hwann-Tzong Chen, Tyng-Luh Liu. 13487-13496 [doi]

Few-shot Personalized Scanpath PredictionRuoyu Xue, Jingyi Xu, Sounak Mondal, Hieu Le 0001, Gregory J. Zelinsky, Minh Hoai, Dimitris Samaras. 13497-13507 [doi]

Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following LabelsPierre Vuillecard, Jean-Marc Odobez. 13508-13518 [doi]

FilmComposer: LLM-Driven Music Production for Silent Film ClipsZhifeng Xie, Qile He, Youjia Zhu, Qiwei He, Mengtian Li. 13519-13528 [doi]

VinTAGe: Joint Video and Text Conditioning for Holistic Audio GenerationSaksham Singh Kushwaha, Yapeng Tian. 13529-13539 [doi]

Seeing Speech and Sound: Distinguishing and Locating Audio Sources in Visual ScenesHyeonggon Ryu, Seongyu Kim, Joon Son Chung, Arda Senocak. 13540-13549 [doi]

Audio-Visual Instance SegmentationRuohao Guo, Xianghua Ying, Yaru Chen, Dantong Niu, Guangyao Li, Liao Qu, Yanyu Qi, Jinxing Zhou, Bowei Xing, Wenzhen Yue, Ji Shi 0003, Qixun Wang 0002, Peiliang Zhang, Buwen Liang. 13550-13560 [doi]

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingYung-Hsuan Lai, Janek Ebbers, Yu-Chiang Frank Wang, François G. Germain, Michael J. Jones 0001, Moitreya Chatterjee. 13561-13570 [doi]

DistinctAD: Distinctive Audio Description Generation in ContextsBo Fang 0003, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan. 13571-13581 [doi]

ExpertAF: Expert Actionable Feedback from VideoKumar Ashutosh, Tushar Nagarajan, Georgios Pavlakos, Kris Kitani, Kristen Grauman. 13582-13594 [doi]

FSBench: A Figure Skating Benchmark for Advancing Artistic Sports UnderstandingRong Gao, Xin Liu, Zhuozhao Hu, Bohao Xing, Baiqiang Xia, Zitong Yu, Heikki Kälviäinen. 13595-13605 [doi]

Divot: Diffusion Powers Video Tokenizer for Comprehension and GenerationYuying Ge, Yizhuo Li 0001, Yixiao Ge, Ying Shan. 13606-13617 [doi]

LLaVA-Critic: Learning to Evaluate Multimodal ModelsTianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan 0001, Quanquan Gu, Heng Huang, Chunyuan Li. 13618-13628 [doi]

Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video GenerationYiping Wang, Xuehai He, Kuan Wang, Luyao Ma, Jianwei Yang, Shuohang Wang, Simon Shaolei Du, Yelong Shen. 13629-13638 [doi]

Progress-Aware Video Frame CaptioningZihui Xue, Joungbin An, Xitong Yang, Kristen Grauman. 13639-13650 [doi]

Learning from Streaming Video with Orthogonal GradientsTengda Han, Dilara Gokay, Joseph Heyward, Chuhan Zhang, Daniel Zoran, Viorica Patraucean, João Carreira 0001, Dima Damen, Andrew Zisserman. 13651-13660 [doi]

Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video RepresentationsJungin Park, Jiyoung Lee, Kwanghoon Sohn. 13661-13670 [doi]

VEU-Bench: Towards Comprehensive Understanding of Video EditingBozheng Li, Yongliang Wu, Yi Lu, Jiashuo Yu, Licheng Tang, Jiawang Cao, Wenqing Zhu, Yuyang Sun, Jay Wu, Wenbo Zhu. 13671-13680 [doi]

Question-Aware Gaussian Experts for Audio-Visual Question AnsweringHongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong. 13681-13690 [doi]

MLVU: Benchmarking Multi-task Long Video UnderstandingJunjie Zhou 0001, Yan Shu, Bo Zhao 0015, Boya Wu, Zhengyang Liang, Shitao Xiao, Minghao Qin, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, Zheng Liu 0011. 13691-13701 [doi]

M-LLM Based Video Frame Selection for Efficient Video UnderstandingKai Hu, Feng Gao, Xiaohan Nie, Peng Zhou, Son Tran, Tal Neiman, Lingyun Wang 0005, Mubarak Shah, Raffay Hamid, Bing Yin, Trishul Chilimbi. 13702-13712 [doi]

On the Consistency of Video Large Language Models in Temporal ComprehensionMinjoon Jung, Junbin Xiao, Byoung-Tak Zhang, Angela Yao. 13713-13722 [doi]

VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video UnderstandingChaoyu Li, Eun Woo Im, Pooyan Fazli. 13723-13733 [doi]

ReWind: Understanding Long Videos with Instructed Learnable MemoryAnxhelo Diko, Tinghuai Wang, Wassim Swaileh, Shiyan Sun, Ioannis Patras. 13734-13743 [doi]

MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal RepresentationsKyungho Bae, Jinhyung Kim, Sihaeng Lee, Soonyoung Lee, Gunhee Lee, Jinwoo Choi. 13744-13753 [doi]

Number it: Temporal Grounding Videos like Flipping MangaYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang 0004. 13754-13765 [doi]

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal GroundingAndong Deng, Zhongpai Gao, Anwesa Choudhuri, Benjamin Planche, Meng Zheng 0002, Bin Wang 0068, Terrence Chen, Chen Chen 0001, Ziyan Wu 0001. 13766-13775 [doi]

STOP: Integrated Spatial-Temporal Dynamic Prompting for Video UnderstandingZichen Liu, Kunlun Xu, Bing Su, Xu Zou 0002, Yuxin Peng, Jiahuan Zhou. 13776-13786 [doi]

SyncVP: Joint Diffusion for Synchronous Multi-Modal Video PredictionEnrico Pallotta, Sina Mokhtarzadeh Azar, Shuai Li, Olga Zatsarynna, Juergen Gall. 13787-13797 [doi]

SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video SituationHao Du, Bo Wu, Yan Lu 0001, Zhendong Mao 0001. 13798-13809 [doi]

DTOS: Dynamic Time Object Sensing with Large Multimodal ModelJirui Tian, Jinrong Zhang, Shenglan Liu 0001, Luhao Xu, Zhixiong Huang, Gao Huang 0001. 13810-13820 [doi]

Decoupled Motion Expression Video SegmentationHao Fang 0010, Runmin Cong, Xiankai Lu, Xiaofei Zhou, Sam Kwong, Wei Zhang 0021. 13821-13831 [doi]

EdgeTAM: On-Device Track Anything ModelChong Zhou, Chenchen Zhu, Yunyang Xiong, Saksham Suri, Fanyi Xiao, Lemeng Wu, Raghuraman Krishnamoorthi, Bo Dai 0027, Chen Change Loy, Vikas Chandra, Bilge Soran. 13832-13842 [doi]

Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any GranularityHuaxin Zhang, Xiaohao Xu, Xiang Wang 0012, Jialong Zuo, Xiaonan Huang, Changxin Gao, Shanjun Zhang, Li Yu 0003, Nong Sang. 13843-13853 [doi]

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss AlpsValentin Gabeff, Haozhe Qi, Brendan Flaherty, Gencer Sumbul, Alexander Mathis, Devis Tuia. 13854-13864 [doi]

Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal TransportMengnan Liu 0001, Le Wang 0003, Sanping Zhou, Kun Xia, Xiaolong Sun, Gang Hua 0001. 13865-13875 [doi]

Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action RecognitionAnqi Zhu, Jingmin Zhu, James Bailey 0001, Mingming Gong, Qiuhong Ke. 13876-13885 [doi]

Mono3DVLT: Monocular-Video-Based 3D Visual Language TrackingHongkai Wei, Yang Yang, Shijie Sun, Mingtao Feng, Xiangyu Song, Qi Lei, Hongli Hu, Rong Wang, Huansheng Song, Naveed Akhtar, Ajmal Saeed Mian. 13886-13896 [doi]

FSboard: Over 3 Million Characters of ASL Fingerspelling Collected via SmartphonesManfred Georg, Garrett Tanzer, Esha Uboweja, Saad Hassan, Maximus Shengelia, Sam S. Sepah, Sean Forbes, Thad Starner. 13897-13906 [doi]

Data-free Universal Adversarial Perturbation with Pseudo-semantic PriorChanhui Lee, Yeonghwan Song, Jeany Son. 13907-13916 [doi]

Detecting Adversarial Data Using Perturbation ForgeryQian Wang, Chen Li, YuChen Luo, Hefei Ling, Shijuan Huang, Ruoxi Jia 0001, Ning Yu. 13917-13926 [doi]

Stacking Brick by Brick: Aligned Feature Isolation for Incremental Face Forgery DetectionJikang Cheng, Zhiyuan Yan, Ying Zhang, Li Hao, Jiaxin Ai, Qin Zou 0001, Chen Li, Zhongyuan Wang 0001. 13927-13936 [doi]

SapiensID: Foundation for Human RecognitionMinchul Kim, Dingqiang Ye, Yiyang Su, Feng Liu, Xiaoming Liu. 13937-13947 [doi]

Spiking Transformer with Spatial-Temporal AttentionDonghyun Lee 0002, Yuhang Li 0001, Youngeun Kim, Shiting Xiao, Priyadarshini Panda. 13948-13958 [doi]

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural NetworksTianqing Zhang, Kairong Yu, Xian Zhong, Hongwei Wang, Qi Xu, Qiang Zhang. 13959-13969 [doi]

Efficient Event-Based Object Detection: A Hybrid Neural Network with Spatial and Temporal AttentionSoikat Hasan Ahmed, Jan Finkbeiner, Emre Neftci. 13970-13979 [doi]

DIFFER: Disentangling Identity Features via Semantic Cues for Clothes-Changing Person Re-IDXin Liang, Yogesh S. Rawat. 13980-13989 [doi]

Mixture of Submodules for Domain Adaptive Person SearchMinsu Kim, Seungryong Kim, Kwanghoon Sohn. 13990-14001 [doi]

An Image-like Diffusion Method for Human-Object Interaction DetectionXiaofei Hui, Haoxuan Qu, Hossein Rahmani 0001, Jun Liu. 14002-14012 [doi]

Free Lunch Enhancements for Multi-modal Crowd CountingHaoliang Meng, Xiaopeng Hong, Zhengqin Lai, Miao Shang. 14013-14023 [doi]

RORem: Training a Robust Object Remover with Human-in-the-LoopRuibin Li, Tao Yang 0042, Song Guo 0001, Lei Zhang 0006. 14024-14035 [doi]

Exact: Exploring Space-Time Perceptive Clues for Weakly Supervised Satellite Image Time Series Semantic SegmentationHao Zhu, Yan Zhu, Jiayu Xiao, Tianxiang Xiao, Yike Ma, Yucheng Zhang, Feng Dai. 14036-14045 [doi]

MaSS13K: A Matting-level Semantic Segmentation BenchmarkChenxi Xie, Minghan Li, Hui Zeng, Jun Luo, Lei Zhang. 14046-14056 [doi]

Insightful Instance Features for 3D Instance SegmentationWonseok Roh, Hwanhee Jung, Giljoo Nam, Dong-In Lee, Hyeongcheol Park, Sang Ho Yoon, Jungseock Joo, Sangpil Kim. 14057-14067 [doi]

Convex Combination Star Shape Prior for Data-driven Image Semantic SegmentationXinyu Zhao, Jun Xie, Shengzhe Chen, Jun Liu. 14068-14077 [doi]

InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level PerceptionHaijie Li, Yanmin Wu, Jiarui Meng, Qiankun Gao, Zhiyao Zhang, Ronggang Wang, Jian Zhang. 14078-14088 [doi]

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D SegmentationJunha Lee, Chunghyun Park, Jaesung Choe, Yu-Chiang Frank Wang, Jan Kautz, Minsu Cho, Christopher B. Choy. 14089-14101 [doi]

UnCommon Objects in 3DXingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang 0001, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotný. 14102-14113 [doi]

PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene UnderstandingHongjia Zhai, Hai Li, Zhenzhe Li, Xiaokun Pan, Yijia He, Guofeng Zhang 0001. 14114-14124 [doi]

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene UnderstandingYan Wang, Baoxiong Jia, Ziyu Zhu, Siyuan Huang. 14125-14136 [doi]

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding RegistrationKim Jun-Seong, Geonu Kim, Kim Yu-Ji, Yu-Chiang Frank Wang, Jaesung Choe, Tae Hyun Oh. 14137-14146 [doi]

Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction TuningHanxun Yu, Wentong Li 0001, Song Wang, Junbo Chen, Jianke Zhu. 14147-14157 [doi]

Universal Scene Graph GenerationShengqiong Wu, Hao Fei 0001, Tat-Seng Chua. 14158-14168 [doi]

DSPNet: Dual-vision Scene Perception for Robust 3D Question AnsweringJingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li, Liang Lin. 14169-14178 [doi]

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature FieldsShijie Zhou 0003, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas J. Guibas, Achuta Kadambi. 14179-14190 [doi]

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied TasksZihan Wang, Gim Hee Lee. 14191-14202 [doi]

Magma: A Foundation Model for Multimodal AI AgentsJianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Jianfeng Gao 0001. 14203-14214 [doi]

Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph LearningJing Zhu 0005, Yuhang Zhou, Shengyi Qian 0001, Zhongmou He, Tong Zhao 0003, Neil Shah, Danai Koutra. 14215-14224 [doi]

Style Evolving along Chain-of-Thought for Unknown-Domain Object DetectionZihao Zhang, Aming Wu, Yahong Han. 14225-14234 [doi]

Olympus: A Universal Task Router for Computer Vision TasksYuanze Lin, Yunsheng Li, Dongdong Chen 0001, Weijian Xu, Ronald Clark, Philip Torr 0001. 14235-14246 [doi]

Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction TuningBardia Safaei 0002, Faizan Siddiqui, Jiacong Xu, Vishal M. Patel, Shao-Yuan Lo. 14247-14256 [doi]

Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction TuningJi Hyeok Jung, Eun Tae Kim, Seo-Yeon Kim, Joo-Ho Lee, Bumsoo Kim, Buru Chang. 14257-14267 [doi]

Argus: Vision-Centric Reasoning with Grounded Chain-of-ThoughtYunze Man, De-An Huang, Guilin Liu, Shiwei Sheng, Shilong Liu, Liang-Yan Gui, Jan Kautz, Yu-Xiong Wang, Zhiding Yu. 14268-14280 [doi]

Model Diagnosis and Correction via Linguistic and Implicit Attribute EditingXuanbai Chen, Xiang Xu, Zhihua Li, Tianchen Zhao, Pietro Perona, Qin Zhang, Yifan Xing. 14281-14292 [doi]

Foundations of the Theory of Performance-Based RankingSébastien Piérard, Anaïs Halin, Anthony Cioppa, Adrien Deliège, Marc Van Droogenbroeck. 14293-14302 [doi]

EarthDial: Turning Multi-sensory Earth Observations to Interactive DialoguesSagar Soni, Akshay Dudhane, Hiyam Debary, Mustansar Fiaz, Muhammad Akhtar Munir, Muhammad Sohail Danish, Paolo Fraccaro, Campbell D. Watson, Levente J. Klein, Fahad Shahbaz Khan, Salman H. Khan 0001. 14303-14313 [doi]

EMOE: Modality-Specific Enhanced Dynamic Emotion ExpertsYiyang Fang, Wenke Huang, Guancheng Wan, Kehua Su, Mang Ye. 14314-14324 [doi]

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?Fengxiang Wang 0004, Hongzhen Wang, Zonghao Guo, Di Wang, Yulin Wang, Mingshuo Chen, Qiang Ma, Long Lan, Wenjing Yang 0002, Jing Zhang, Zhiyuan Liu 0001, Maosong Sun 0001. 14325-14336 [doi]

DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy LabelsErjian Guo, Zhen Zhao 0001, ZiCheng Wang, Tong Chen, Yunyi Liu, Luping Zhou. 14337-14346 [doi]

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression ComprehensionXiaofu Chen, Yaxin Luo, Gen Luo, Jiayi Ji, Henghui Ding, Yiyi Zhou. 14347-14357 [doi]

ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language ModelsHeng Yin, Yuqiang Ren, Ke Yan, Shouhong Ding, Yongtao Hao. 14358-14368 [doi]

PerLA: Perceptive 3D Language AssistantGuofeng Mei, Wei Lin, Luigi Riz, Yujiao Wu, Fabio Poiesi, Yiming Wang. 14369-14379 [doi]

BACON: Improving Clarity of Image Captions via Bag-of-Concept GraphsZhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao 0002, Pingyu Wu, Kai Zhu 0004, Jixuan Chen, Chen-Wei Xie, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng 0002. 14380-14389 [doi]

Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identificationYang Qin, Chao Chen, Zhihang Fu, Dezhong Peng, Xi Peng 0001, Peng Hu 0002. 14390-14399 [doi]

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image RetrievalYuanmin Tang, Jue Zhang, Xiaoting Qin, Jing Yu, Gaopeng Gou, Gang Xiong 0001, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang 0001, Qi Wu 0001. 14400-14410 [doi]

Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and UnderstandingZhaoran Zhao, Peng Lu, Anran Zhang, Peipei Li 0002, Xia Li, Xuannan Liu, Yang Hu, Shiyi Chen, Liwei Wang, Wenhao Guo. 14411-14421 [doi]

Active Data Curation Effectively Distills Large-Scale Multimodal ModelsVishaal Udandarao, Nikhil Parthasarathy, Muhammad Ferjad Naeem, Talfan Evans, Samuel Albanie, Federico Tombari, Yongqin Xian, Alessio Tonioni, Olivier J. Hénaff. 14422-14437 [doi]

Yo'Chameleon: Personalized Vision and Language GenerationThao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li. 14438-14448 [doi]

Relation-Rich Visual Document Generator for Visual Information ExtractionZi-Han Jiang, Chien-Wei Lin, Wei-Hua Li, Hsuan-Tung Liu, Yi-Ren Yeh, Chu-Song Chen. 14449-14459 [doi]

Marten: Visual Question Answering with Mask Generation for Multi-modal Document UnderstandingZining Wang, Tongkun Guan, Pei Fu, Chen Duan, Qianyi Jiang, Zhentao Guo, Shan Guo, Junfeng Luo, Wei Shen 0002, Xiaokang Yang 0001. 14460-14471 [doi]

A Simple yet Effective Layout Token in Large Language Models for Document UnderstandingZhaoqing Zhu, Chuwei Luo, Zirui Shao, Feiyu Gao, Hangdi Xing, Qi Zheng 0002, Ji Zhang. 14472-14482 [doi]

Teaching Large Language Models to Regress Accurate Image Quality Scores Using Score DistributionZhiyuan You, Xin Cai, Jinjin Gu, Tianfan Xue, Chao Dong 0005. 14483-14494 [doi]

FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text InputsMothilal Asokan, Kebin Wu, Fatima Albreiki. 14495-14504 [doi]

MarkushGrapher: Joint Visual and Textual Recognition of Markush StructuresLucas Morin, Valéry Weber, Ahmed Nassar, Gerhard Ingmar Meijer, Luc Van Gool, Yawei Li 0001, Peter W. J. Staar. 14505-14515 [doi]

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-DistillationAndrea Maracani, Savas Özkan, Sijun Cho, Hyowon Kim, Eunchung Noh, Jeongwon Min, Cho Jung Min, Dookun Park, Mete Ozay. 14516-14526 [doi]

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic SegmentationXin Zhang, Robby T. Tan. 14527-14537 [doi]

RAP: Retrieval-Augmented Personalization for Multimodal Large Language ModelsHaoran Hao 0002, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue 0001. 14538-14548 [doi]

What's in the Image? A Deep-Dive into the Vision of Vision Language ModelsOmri Kaduri, Shai Bagon, Tali Dekel. 14549-14558 [doi]

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language EmbeddingChenxin Tao, Shiqian Su, Xizhou Zhu, Chenyu Zhang, Zhe Chen 0017, Jiawen Liu, Wenhai Wang, Lewei Lu, Gao Huang 0001, Yu Qiao 0001, Jifeng Dai. 14559-14569 [doi]

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual CompressionBo Tong, Bokai Lai, Yiyi Zhou, Gen Luo, Yunhang Shen, Ke Li 0015, Xiaoshuai Sun, Rongrong Ji. 14570-14581 [doi]

PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language ModelsMohamed Dhouib, Davide Buscaldi, Sonia Vanier, Aymen Shabou. 14582-14592 [doi]

Conical Visual Concentration for Efficient Large Vision-Language ModelsLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang 0001, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin. 14593-14603 [doi]

Assessing and Learning Alignment of Unimodal Vision and Language ModelsLe Zhang, Qian Yang, Aishwarya Agrawal. 14604-14614 [doi]

Continual SFT Matches Multimodal RLHF with Negative SupervisionKe Zhu, Yu Wang, Yanpeng Sun, Qiang Chen 0007, Jiangjiang Liu 0006, Gang Zhang, Jingdong Wang 0001. 14615-14624 [doi]

ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language ModelsHao Yin, Guangzong Si, Zilei Wang. 14625-14634 [doi]

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace ProjectionLe Yang 0007, Ziwei Zheng, Boxu Chen, Zhengyu Zhao 0001, Chenhao Lin, Chao Shen 0001. 14635-14645 [doi]

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object PerceptionYuanchen Wu, Lu Zhang, Hang Yao, Junlong Du, Ke Yan, Shouhong Ding, Yunsheng Wu, Xiaoqiang Li. 14646-14656 [doi]

MLLM-as-a-Judge for Image Safety without Human LabelingZhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li 0002, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, ShiQing Ma, Dimitris N. Metaxas, Ankit Jain. 14657-14666 [doi]

Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves?Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna. 14667-14678 [doi]

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial AttacksPeng Xie, Yequan Bie, Jianda Mao, Yangqiu Song, Yang Wang, Hao Chen, Kani Chen. 14679-14689 [doi]

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-trainingSanghwan Kim, Rui Xiao, Mariana-Iuliana Georgescu, Stephan Alaniz, Zeynep Akata. 14690-14700 [doi]

Reproducible Vision-Language Models Meet Concepts Out of Pre-TrainingZiliang Chen 0001, Xin Huang, Xiaoxuan Fan, Keze Wang, Yuyu Zhou, Quanlong Guan, Liang Lin. 14701-14711 [doi]

Once-Tuning-Multiple-Variants: Tuning Once and Expanded as Multiple Vision-Language Model VariantsChong Yu, Tao Chen 0003, Zhongxue Gan. 14712-14722 [doi]

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters ThemselvesShihan Wu 0001, Ji Zhang 0012, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Heng Tao Shen. 14723-14732 [doi]

SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language ModelingQi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang 0007, Dong Liu, Feng Zhao. 14733-14744 [doi]

Task-Aware Clustering for Prompting Vision-Language ModelsFusheng Hao, Fengxiang He, Fuxiang Wu, Tichao Wang, Chengqun Song, Jun Cheng 0002. 14745-14755 [doi]

Learning Textual Prompts for Open-World Semi-Supervised LearningYuxin Fan, Junbiao Cui, Jiye Liang. 14756-14765 [doi]

BiomedCoOp: Learning to Prompt for Biomedical Vision-Language ModelsTaha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao. 14766-14776 [doi]

ILIAS: Instance-Level Image retrieval At ScaleGiorgos Kordopatis-Zilos, Vladan Stojnic, Anna Manko, Pavel Suma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiri Matas, Ondrej Chum, Giorgos Tolias. 14777-14787 [doi]

VILA-M3: Enhancing Vision-Language Models with Medical Expert KnowledgeVishwesh Nath, Wenqi Li 0001, Dong Yang 0005, Andriy Myronenko, Mingxin Zheng, Yao Lu 0006, Zhijian Liu, Hongxu Yin, Yee Man Law, Yucheng Tang, Pengfei Guo, Can Zhao 0001, Ziyue Xu 0001, Yufan He, Stephanie A. Harmon, Benjamin Simon, Greg Heinrich, Stephen R. Aylward, Marc Edgar, Michael Zephyr, Pavlo Molchanov 0001, Baris Turkbey, Holger Roth, Daguang Xu. 14788-14798 [doi]

Explaining in Diffusion: Explaining a Classifier with Diffusion SemanticsTahira Kazimi, Ritika Allada, Pinar Yanardag. 14799-14809 [doi]

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual ForagingBo Wang, Dingwei Tan, Yen-ling Kuo, Zhaowei Sun, Jeremy M. Wolfe, Tat-Jen Cham, Mengmi Zhang. 14810-14823 [doi]

DeCLIP: Decoupled Learning for Open-Vocabulary Dense PerceptionJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian. 14824-14834 [doi]

Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene UnderstandingPedro Hermosilla, Christian Stippel, Leon Sick. 14835-14844 [doi]

Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual RecognitionZheda Mai, Ping Zhang, Cheng-Hao Tu 0001, Hong-You Chen, Quang Huy Nguyen, Li Zhang 0003, Wei-Lun Chao. 14845-14857 [doi]

TADFormer: Task-Adaptive Dynamic TransFormer for Efficient Multi-Task LearningSeungmin Baek, Soyul Lee, Hayeon Jo, Hyesong Choi, Dongbo Min. 14858-14868 [doi]

LoKi: Low-dimensional KAN for Efficient Fine-tuning Image ModelsXuan Cai, Renjie Pan 0001, Hua Yang 0001. 14869-14880 [doi]

Training-free Neural Architecture Search through Variance of Knowledge of Deep Network WeightsOndrej Týbl, Lukás Neumann. 14881-14890 [doi]

FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix ApproximationZhuguanyu Wu, Shihe Wang, Jiayi Zhang, Jiaxin Chen, Yunhong Wang. 14891-14900 [doi]

Transformers without NormalizationJiachen Zhu 0002, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu 0003. 14901-14911 [doi]

GroupMamba: Efficient Group-Based Visual State Space ModelAbdelrahman M. Shaker, Syed Talal Wasim, Salman H. Khan 0001, Juergen Gall, Fahad Shahbaz Khan. 14912-14922 [doi]

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space DualitySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim. 14923-14933 [doi]

JamMa: Ultra-lightweight Local Feature Matching with Joint MambaXiaoyong Lu, Songlin Du. 14934-14943 [doi]

Mamba-Reg: Vision Mamba Also Needs RegistersFeng Wang, Jiahao Wang 0001, Sucheng Ren, Guoyizhe Wei, Jieru Mei, Wei Shao 0008, Yuyin Zhou, Alan L. Yuille, Cihang Xie. 14944-14953 [doi]

Rethinking Token Reduction with Parameter-Efficient Fine-Tuning in ViT for Pixel-Level TasksCheng Lei, Ao Li, Hu Yao, Ce Zhu, Le Zhang. 14954-14964 [doi]

No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image RecognitionRong Qin, Xin Liu, Xingyu Liu, Jiaxuan Liu, Jinglei Shi, Liang Lin, Jufeng Yang. 14965-14975 [doi]

Language Guided Concept Bottleneck Models for Interpretable Continual LearningLu Yu 0004, Haoyu Han, Zhe Tao, Hantao Yao, Changsheng Xu. 14976-14986 [doi]

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language ModelsShenghao Fu, Qize Yang, Qijie Mo, Junkai Yan, Xihan Wei, Jingke Meng, Xiaohua Xie, Wei-Shi Zheng 0001. 14987-14997 [doi]

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary SegmentationYongkang Li, Tianheng Cheng, Bin Feng 0001, Wenyu Liu 0001, Xinggang Wang. 14998-15008 [doi]

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic SegmentationZelin Peng, Zhengqin Xu, Zhilin Zeng, Yu Huang, Yaoming Wang, Wei Shen 0002. 15009-15020 [doi]

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed LearningXiao-Hui Li 0012, Fei Yin, Cheng-Lin Liu 0001. 15021-15032 [doi]

Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic SegmentationChanyoung Kim 0001, Dayun Ju, Woojung Han, Ming-Hsuan Yang 0001, Seong Jae Hwang. 15033-15042 [doi]

FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized SegmentationDong Zhao, Jinlong Li 0003, Shuang Wang, Mengyao Wu, Qi Zang, Nicu Sebe, Zhun Zhong. 15043-15054 [doi]

POT: Prototypical Optimal Transport for Weakly Supervised Semantic SegmentationJian Wang, Tianhong Dai, Bingfeng Zhang, Siyue Yu, Eng Gee Lim, Jimin Xiao. 15055-15064 [doi]

FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene UnderstandingThanh-Dat Truong, Utsav Prabhu, Bhiksha Raj, Jackson David Cothren, Khoa Luu. 15065-15075 [doi]

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste ImagesShifan Zhang, Hongzi Zhu, Yinan He, Minyi Guo, Ziyang Lou, Shan Chang. 15076-15085 [doi]

Few-Shot Recognition via Stage-Wise Retrieval-Augmented FinetuningTian Liu 0006, Huixin Zhang, Shubham Parashar, Shu Kong. 15086-15097 [doi]

Compositional Caching for Training-free Open-vocabulary Attribute DetectionMarco Garosi, Alessandro Conti, Gaowen Liu, Elisa Ricci 0001, Massimiliano Mancini. 15098-15107 [doi]

Open Ad-hoc Categorization with Contextualized Feature LearningZilin Wang, Sangwoo Mo, Stella X. Yu, Sima Behpour, Liu Ren. 15108-15117 [doi]

MOS: Modeling Object-Scene Associations in Generalized Category DiscoveryZhengyuan Peng, Jinpeng Ma, Zhimin Sun, Ran Yi, Haichuan Song, Xin Tan 0002, Lizhuang Ma. 15118-15128 [doi]

Search and Detect: Training-Free Long Tail Object Detection via Web-Image RetrievalMankeerat Sidhu, Hetarth Chopra, Ansel Blume, Jeonghwan Kim, Revanth Gangi Reddy, Heng Ji 0001. 15129-15138 [doi]

Fractal Calibration for Long-tailed Object DetectionKonstantinos Panagiotis Alexandridis, Ismail Elezi, Jiankang deng, Anh Nguyen 0003, Shan Luo 0001. 15139-15150 [doi]

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual ClassifiersQuentin Guimard, Moreno D'incà, Massimiliano Mancini, Elisa Ricci 0001. 15151-15161 [doi]

DEIM: DETR with Improved Matching for Fast ConvergenceShihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen. 15162-15171 [doi]

CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIPSonglong Xing, Zhengyu Zhao 0001, Nicu Sebe. 15172-15182 [doi]

FlexUOD: The Answer to Real-world Unsupervised Image Outlier DetectionZhonghang Liu, Kun Zhou, Changshuo Wang 0001, Wen-Yan Lin, Jiangbo Lu. 15183-15193 [doi]

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly DetectionZhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen 0003, Ming Tang 0001, Jinqiao Wang. 15194-15203 [doi]

Towards Training-free Anomaly Detection with Vision and Language Foundation ModelsJinjin Zhang, Guodong Wang, Yizhou Jin, Di Huang 0001. 15204-15213 [doi]

Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly DetectionWenbing Zhu, Lidong Wang, Ziqing Zhou, Chengjie Wang, Yurui Pan, Ruoyi Zhang, Zhuhao Chen, Linjie Cheng, Bin-Bin Gao, Jiangning Zhang, Zhenye Gan, Yuxie Wang, Yulong Chen, Shuguang Qian, Mingmin Chi, Bo Peng, Lizhuang Ma. 15214-15223 [doi]

DFM: Differentiable Feature Matching for Anomaly DetectionSheng Wu, Yimi Wang, Xudong Liu, Yuguang Yang 0007, Runqi Wang, Guodong Guo, David S. Doermann, Baochang Zhang 0001. 15224-15233 [doi]

Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and CompressionXiaoyi Qu, David Aponte, Colby R. Banbury, Daniel P. Robinson, Tianyu Ding, Kazuhito Koishida, Ilya Zharkov, Tianyi Chen. 15234-15244 [doi]

OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset DistillationXiao Cui, Yulei Qin, Wengang Zhou 0001, Hongsheng Li, Houqiang Li. 15245-15254 [doi]

Learning Compatible Multi-Prize Subnetworks for Asymmetric RetrievalYushuai Sun, Zikun Zhou, Dongmei Jiang, Yaowei Wang 0001, Jun Yu, Guangming Lu, Wenjie Pei. 15255-15264 [doi]

Less is More: Efficient Model Merging with Binary Task SwitchBiqing Qi, Fangyuan Li, Zhen Wang, Junqi Gao, Dong Li, Peng Ye 0006, Bowen Zhou 0002. 15265-15274 [doi]

On the Generalization of Handwritten Text Recognition ModelsCarlos Garrido-Munoz, Jorge Calvo-Zaragoza. 15275-15286 [doi]

Investigating the Role of Weight Decay in Enhancing Nonconvex SGDTao Sun, Yuhao Huang, Li Shen, Kele Xu, Bao Wang. 15287-15296 [doi]

KAC: Kolmogorov-Arnold Classifier for Continual LearningYusong Hu, Zichen Liang, Fei Yang, Qibin Hou, Xialei Liu, Ming-Ming Cheng. 15297-15307 [doi]

LoRA Subtraction for Drift-Resistant Space in Exemplar-Free Continual LearningXuan Liu, Xiaobin Chang. 15308-15318 [doi]

Maintaining Consistent Inter-Class Topology in Continual Test-Time AdaptationChenggong Ni, Fan Lyu, Jiayao Tan, Fuyuan Hu, Rui Yao, Tao Zhou 0009. 15319-15328 [doi]

Tripartite Weight-Space Ensemble for Few-Shot Class-Incremental LearningJuntae Lee, Munawar Hayat, Sungrack Yun. 15329-15338 [doi]

T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental LearningSeonghyeon Hwang, Minsu Kim 0006, Steven Euijong Whang. 15339-15348 [doi]

Seeking Consistent Flat Minima for Better Domain Generalization via Refining Loss LandscapesAodi Li, Liansheng Zhuang, Xiao Long, Minghong Yao, Shafei Wang. 15349-15359 [doi]

PEER Pressure: Model-to-Model Regularization for Single Source Domain GeneralizationDong Kyu Cho, Inwoo Hwang, Sanghack Lee. 15360-15370 [doi]

A Unified Framework for Heterogeneous Semi-supervised LearningMarzi Heidari, Abdullah Alchihabi, Hao Yan, Yuhong Guo. 15371-15380 [doi]

CGMatch: A Different Perspective of Semi-supervised LearningBo Cheng, Jueqing Lu, Yuan Tian, Haifeng Zhao, Yi Chang 0001, Lan Du 0002. 15381-15391 [doi]

Label Shift Meets Online Learning: Ensuring Consistent Adaptation with Universal Dynamic RegretYucong Dai, Shilin Gu, Ruidong Fan, Chao Xu 0008, Chenping Hou. 15392-15401 [doi]

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution DetectionZhuo Xu, Xiang Xiang 0001, Yifan Liang. 15402-15412 [doi]

H2ST: Hierarchical Two-Sample Tests for Continual Out-of-Distribution DetectionYuhang Liu, WenJie Zhao, Yunhui Guo. 15413-15423 [doi]

Detecting Out-of-Distribution Through the Lens of Neural CollapseLitian Liu, Yao Qin 0001. 15424-15433 [doi]

FedCS: Coreset Selection for Federated LearningChenhe Hao, Weiying Xie, Daixun Li, Haonan Qin, Hangyu Ye, Leyuan Fang, Yunsong Li. 15434-15443 [doi]

FedCALM: Conflict-aware Layer-wise Mitigation for Selective Aggregation in Deeper Personalized Federated LearningHao Zheng, Zhigang Hu, Liu Yang, Meiguang Zheng, Aikun Xu, Boyu Wang 0004. 15444-15453 [doi]

Model Poisoning Attacks to Federated Learning via Multi-Round ConsistencyYueqi Xie, Minghong Fang, Neil Zhenqiang Gong. 15454-15463 [doi]

FedSPA: Generalizable Federated Graph Learning under Homophily HeterogeneityZihan Tan, Guancheng Wan, Wenke Huang, He Li, Guibin Zhang, Carl Yang 0001, Mang Ye. 15464-15475 [doi]

TAET: Two-Stage Adversarial Equalization Training on Long-Tailed DistributionsWang YuHang, Junkang Guo, Aolei Liu, Kaihao Wang, Zaitong Wu, Zhenyu Liu, Wenfei Yin, Jian Liu. 15476-15485 [doi]

Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of SamplesWeiwei Li 0005, Junzhuo Liu 0002, Yuanyuan Ren, Yuchen Zheng, Yahao Liu, Wen Li 0001. 15486-15496 [doi]

Uncertainty Weighted Gradients for Model CalibrationJinxu Lin, Linwei Tao, Minjing Dong, Chang Xu. 15497-15507 [doi]

Enhancing Testing-Time Robustness for Trusted Multi-View Classification in the WildWei Liu 0027, Yufei Chen 0002, Xiaodong Yue. 15508-15517 [doi]

Enhanced then Progressive Fusion with View Graph for Multi-View ClusteringZhibin Dong, Meng Liu, Siwei Wang 0001, Ke Liang 0006, Yi Zhang, Suyuan Liu, Jiaqi Jin, Xinwang Liu 0002, En Zhu. 15518-15527 [doi]

A Hubness Perspective on Representation Learning for Graph-Based Multi-View ClusteringZheming Xu, He Liu, Congyan Lang, Tao Wang 0011, Yidong Li, Michael C. Kampffmeyer. 15528-15537 [doi]

CLOC: Contrastive Learning for Ordinal Classification with Multi-Margin N-pair LossDileepa Pitawela, Gustavo Carneiro 0001, Hsiang-Ting Chen. 15538-15548 [doi]

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal ClassificationSiyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin. 15549-15559 [doi]

Q-PART: Quasi-Periodic Adaptive Regression with Test-time Training for Pediatric Left Ventricular Ejection Fraction RegressionJie Liu 0044, Tiexin Qin, Hui Liu 0036, Yilei Shi, Lichao Mou, Xiao Xiang Zhu 0001, Shiqi Wang 0001, Haoliang Li. 15560-15569 [doi]

OralXrays-9: Towards Hospital-Scale Panoramic X-ray Anomaly Detection via Personalized Multi-Object Query-Aware MiningBingzhi Chen, Sisi Fu, Xiaocheng Fang, Jieyi Cai, Boya Zhang, Minhua Lu, Yishu Liu. 15570-15579 [doi]

DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report GenerationSang-Jun Park, Keun-Soo Heo, Dong-Hee Shin, Young-Han Son, Ji-Hye Oh, Tae-Eui Kam. 15580-15589 [doi]

FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image ClassificationZhengrui Guo, Conghao Xiong, Jiabo Ma, Qichen Sun, Lishuang Feng, Jinzhuo Wang, Hao Chen. 15590-15600 [doi]

M3amba: Memory Mamba is All You Need for Whole Slide Image ClassificationTingting Zheng, Kui Jiang, Yi Xiao 0003, Sicheng Zhao, Hongxun Yao. 15601-15610 [doi]

MERGE: Multi-faceted Hierarchical Graph-based GNN for Gene Expression Prediction from Whole Slide Histopathology ImagesAniruddha Ganguly, Debolina Chatterjee, Wentao Huang, Jie Zhang, Alisa Yurovsky, Travis Steele Johnson, Chao Chen. 15611-15620 [doi]

Test-Time Domain Generalization via Universe Learning: A Multi-Graph Matching Approach for Medical Image SegmentationXingguo Lv, Xingbo Dong, Liwen Wang, Jiewen Yang, Lei Zhao, Bin Pu, Zhe Jin, Xuejun Li 0001. 15621-15631 [doi]

CSC-PA: Cross-image Semantic Correlation via Prototype Attentions for Single-network Semi-supervised Breast Tumor SegmentationZhenhui Ding, Guilian Chen, Qin Zhang 0011, Huisi Wu, Jing Qin. 15632-15641 [doi]

Take the Bull by the Horns: Learning to Segment Hard SamplesYuan Guo, Jingyu Kong, Yu Wang 0108, Yuping Duan. 15642-15652 [doi]

Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT ImagesJie Mei, Chenyu Lin, Yu Qiu, Yaonan Wang, Hui Zhang, Ziyang Wang, Dong Dai. 15653-15662 [doi]

KMD: Koopman Multi-modality Decomposition for Generalized Brain Tumor Segmentation under Incomplete ModalitiesTianyi Liu, Haochuan Jiang, Kaizhu Huang. 15663-15671 [doi]

Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and SegmentationKunpeng Qiu, Zhiqiang Gao, Zhiying Zhou, Mingjie Sun, Yongxin Guo. 15672-15681 [doi]

DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel SegmentationChun-Hung Wu, Shih-Hong Chen, Chih-Yao Hu, Hsin-Yu Wu, Kai-hsin Chen, Yu-You Chen, Chih-Hai Su, Chih-Kuo Lee, Yu-Lun Liu 0001. 15682-15692 [doi]

VasTSD: Learning 3D Vascular Tree-state Space Diffusion Model for Angiography SynthesisZhifeng Wang, Renjiao Yi, Xin Wen 0005, Chenyang Zhu 0002, Kai Xu 0004. 15693-15702 [doi]

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion ModelsJingfeng Yao, Bin Yang, Xinggang Wang. 15703-15712 [doi]

Language-Guided Image Tokenization for GenerationKaiwen Zha, Lijun Yu, Alireza Fathi, David A. Ross, Cordelia Schmid, Dina Katabi, Xiuye Gu. 15713-15722 [doi]

DreamRelation: Bridging Customization and Relation GenerationQingyu Shi, Lu Qi, Jianzong Wu, Jinbin Bai, Jingbo Wang 0001, Yunhai Tong, Xiangtai Li. 15723-15732 [doi]

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image SynthesisJian Han, Jinlai Liu, Yi Jiang 0004, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu. 15733-15744 [doi]

Autoregressive Distillation of Diffusion TransformersYeongmin Kim, Sotiris Anagnostidis, Yuming Du, Edgar Schönfeld, Jonas Kohler, Markos Georgopoulos, Albert Pumarola, Ali K. Thabet, Artsiom Sanakoyeu. 15745-15756 [doi]

PDFactor: Learning Tri-Perspective View Policy Diffusion Field for Multi-Task Robotic ManipulationJingyi Tian, Le Wang 0003, Sanping Zhou, Sen Wang, Jiayi Li, Haowen Sun, Wei Tang 0016. 15757-15767 [doi]

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for RoboticsChan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield. 15768-15780 [doi]

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical SkillJieming Cui, Tengyu Liu, Ziyu Meng, Jiale Yu, Ran Song 0001, Wei Zhang 0021, Yixin Zhu 0001, Siyuan Huang 0001. 15781-15790 [doi]

Navigation World ModelsAmir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun. 15791-15801 [doi]

Viewpoint Rosetta Stone: Unlocking Unpaired Ego-Exo Videos for View-invariant Representation LearningMi Luo, Zihui Xue, Alex Dimakis, Kristen Grauman. 15802-15812 [doi]

DORNet: A Degradation Oriented and Regularized Network for Blind Depth Super-ResolutionZhengxue Wang, Zhiqiang Yan 0001, Jinshan Pan, Guangwei Gao, Kai Zhang, Jian Yang 0003. 15813-15822 [doi]

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan WorldBangyan Liao, Zhenjun Zhao, Haoang Li, Yi Zhou, Yingping Zeng, Hao Li, Peidong Liu. 15823-15832 [doi]

Learned Binocular-Encoding Optics for RGBD Imaging Using Joint Stereo and Focus CuesYuhui Liu, Liangxun Ou, Qiang Fu 0002, Hadi Amata, Wolfgang Heidrich, Yifan Peng 0001. 15833-15842 [doi]

Camera Resection from Known Line Pencils and a Radially Distorted ScanlineJuan Carlos Dibene, Enrique Dunn. 15843-15851 [doi]

Opportunistic Single-Photon Time of FlightSotiris Nousias, Mian Wei, Howard Xiao, Maxx Wu, Shahmeer Athar, Kevin J. Wang, Anagh Malik, David A. Barmherzig, David B. Lindell, Kyros Kutulakos. 15852-15862 [doi]

EmoDubber: Towards High Quality and Emotion Controllable Movie DubbingGaoxiang Cong 0001, Jiadong Pan, Liang Li 0003, Yuankai Qi, Yuxin Peng, Anton van den Hengel, Jian Yang 0001, Qingming Huang. 15863-15873 [doi]

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-SpeechJi-Hoon Kim, Jeongsoo Choi, Jaehun Kim, Chaeyoung Jung, Joon Son Chung. 15874-15884 [doi]

Diffusion-based Realistic Listening Head Generation via Hybrid Motion ModelingYinuo Wang, Yanbo Fan, Xuan Wang, Guo Yu 0006, Fei Wang 0008. 15885-15895 [doi]

VLOGGER: Multimodal Diffusion for Embodied Avatar SynthesisEnric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu. 15896-15908 [doi]

HunyuanPortrait: Implicit Condition Control for Enhanced Portrait AnimationZunnan Xu, Zhentao Yu, Zixiang Zhou, Jun Zhou, Xiaoyu Jin, Fa-Ting Hong, Xiaozhong Ji, Junwei Zhu, Chengfei Cai, Shiyu Tang, Qin Lin, Xiu Li 0001, Qinglin Lu. 15909-15919 [doi]

MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile DevicesJianwen Jiang, Gaojie Lin, Zhengkun Rong, Chao Liang, Yongming Zhu, Jiaqi Yang 0008, Tianyun Zhong. 15920-15929 [doi]

Gaussian Eigen Models for Human HeadsWojciech Zielonka, Timo Bolkart, Thabo Beeler, Justus Thies. 15930-15940 [doi]

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video DiffusionZhenglin Zhou, Fan Ma, Hehe Fan, Tat-Seng Chua. 15941-15952 [doi]

PERSE: Personalized 3D Generative Avatars from A Single PortraitHyunsoo Cha 0001, Inhee Lee 0003, Hanbyul Joo. 15953-15962 [doi]

WildAvatar: Learning In-the-wild 3D Avatars from the WebZihao Huang 0001, Shoukang Hu, Guangcong Wang, Tianqi Liu 0003, Yuhang Zang, Zhiguo Cao 0001, Wei Li, Ziwei Liu 0002. 15963-15975 [doi]

Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian SplattingHanxi Liu, Yifang Men, Zhouhui Lian. 15976-15986 [doi]

FreeCloth: Free-form Generation Enhances Challenging Clothed Human ModelingHang Ye 0002, Xiaoxuan Ma 0001, Hai Ci, Wentao Zhu 0004, Yizhou Wang 0001. 15987-15997 [doi]

MagicArticulate: Make Your 3D Models Articulation-ReadyChaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin. 15998-16007 [doi]

PSHuman: Photorealistic Single-image 3D Human Reconstruction using Cross-Scale Multiview Diffusion and Explicit RemeshingPeng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li 0001, Xingqun Qi, Xiaowei Chi, Siyu Xia, Yan-Pei Cao, Wei Xue, Wenhan Luo, Yike Guo. 16008-16018 [doi]

Multi-focal Conditioned Latent Diffusion for Person Image SynthesisJiaqi Liu, Jichao Zhang, Paolo Rota, Nicu Sebe. 16019-16028 [doi]

Robust-MVTON: Learning Cross-Pose Feature Alignment and Fusion for Robust Multi-View Virtual Try-OnNannan Zhang, Yijiang Li, Dong Du 0002, Zheng Chong, Zhengwentai Sun, Jianhao Zeng, Yusheng Dai, ZhengYu Xie, Hairui Zhu, Xiaoguang Han 0001. 16029-16039 [doi]

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance ModelingYang Zheng, Menglei Chai, Delio Vicini, Yuxiao Zhou 0001, Yinghao Xu, Leonidas J. Guibas, Gordon Wetzstein, Thabo Beeler. 16040-16050 [doi]

S^3-Face: SSS-Compliant Facial Reflectance Estimation via Diffusion PriorsXingyu Ren, Jiankang deng, Yuhao Cheng, Wenhan Zhu, Yichao Yan, Xiaokang Yang 0001, Stefanos Zafeiriou, Chao Ma 0004. 16051-16060 [doi]

DL2G: Degradation-guided Local-to-Global Restoration for Eyeglass Reflection RemovalZhilv Yi, Xiao Lu 0002, Hong Ding, Jingbo Hu, Zhi Jiang, Chunxia Xiao. 16061-16070 [doi]

Improving Visual and Downstream Performance of Low-Light Enhancer with Vision Foundation Models CollaborationYuxuan Gu, Haoxuan Wang 0004, Pengyang Ling, Zhixiang Wei, Huaian Chen, Yi Jin 0002, Enhong Chen. 16071-16080 [doi]

PIDSR: Complementary Polarized Image Demosaicing and Super-ResolutionShuangfan Zhou, Chu Zhou, Youwei Lyu, Heng Guo 0003, Zhanyu Ma, Boxin Shi, Imari Sato. 16081-16090 [doi]

Volume Tells: Dual Cycle-Consistent Diffusion for 3D Fluorescence Microscopy De-noising and Super-ResolutionZelin Li, Chenwei Wang, Zhaoke Huang, Yiming Ma, Cunming Zhao, Zhongying Zhao, Hong Yan. 16091-16100 [doi]

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused ImagesJungho Lee, Suhwan Cho, Taeoh Kim, Ho-Deok Jang, Minhyeok Lee, Geonho Cha, Dongyoon Wee, Dogyoon Lee, Sangyoun Lee. 16101-16110 [doi]

UltraFusion: Ultra High Dynamic Imaging using Exposure FusionZixuan Chen, Yujin Wang, Xin Cai, Zhiyuan You, Zheming Lu 0001, Fan Zhang, Shi Guo, Tianfan Xue. 16111-16121 [doi]

LookCloser: Frequency-aware Radiance Field for Tiny-Detail SceneXiaoyu Zhang, Weihong Pan, Chong Bao, Xiyu Zhang 0003, Xiaojun Xiang, Hanqing Jiang, Hujun Bao. 16122-16132 [doi]

SpecTRe-GS: Modeling Highly Specular Surfaces with Reflected Nearby Objects by Tracing Rays in 3D Gaussian SplattingJiajun Tang, Fan Fei, Zhihao Li 0002, Xiao Tang, Shiyong Liu, Youyu Chen, Binxiao Huang, Zhenyu Chen, Xiaofei Wu, Boxin Shi. 16133-16142 [doi]

SVG-IR: Spatially-Varying Gaussian Splatting for Inverse RenderingHanxiao Sun, Yupeng Gao, Jin Xie, Jian Yang, Beibei Wang. 16143-16152 [doi]

RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian SplattingQiyu Dai, Xingyu Ni, Qianfan Shen, Wenzheng Chen, Baoquan Chen, Mengyu Chu. 16153-16162 [doi]

Light Transport-aware Diffusion Posterior Sampling for Single-View Reconstruction of 3D VolumesLudwic Leonard, Nils Thürey, Rüdiger Westermann. 16163-16174 [doi]

StarVector: Generating Scalable Vector Graphics Code from Images and TextJuan A. Rodríguez, Abhay Puri, Shubham Agarwal, Issam H. Laradji, Pau Rodríguez, Sai Rajeswar, David Vázquez 0001, Christopher Pal, Marco Pedersoli. 16175-16186 [doi]

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field RenderingCheng Sun 0004, Jaesung Choe, Charles Loop, Wei-Chiu Ma, Yu-Chiang Frank Wang. 16187-16196 [doi]

BG-Triangle: Bezier Gaussian Triangle for 3D Vectorization and RenderingMinye Wu, Haizhao Dai, Kaixin Yao, Tinne Tuytelaars, Jingyi Yu. 16197-16207 [doi]

UniPhy: Learning a Unified Constitutive Model for Inverse Physics SimulationHimangi Mittal, Peiye Zhuang, Hsin-Ying Lee 0001, Shubham Tulsiani. 16208-16218 [doi]

Mesh Mamba: A Unified State Space Model for Saliency Prediction in Non-Textured and Textured MeshesKaiwei Zhang, Dandan Zhu 0001, Xiongkuo Min, Guangtao Zhai. 16219-16228 [doi]

DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D GenerationXiaoliang Ju, Hongsheng Li. 16229-16239 [doi]

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination DisentanglementMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani. 16240-16250 [doi]

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-EncodersRui Chen, Jianfeng Zhang, Yixun Liang, Guan Luo, Weiyu Li, Jiarui Liu, Xiu Li, Xiaoxiao Long, Jiashi Feng, Ping Tan. 16251-16261 [doi]

Few-shot Implicit Function Generation via EquivarianceSuizhi Huang, Xingyi Yang, Hongtao Lu 0001, Xinchao Wang. 16262-16272 [doi]

Instant3dit: Multiview Inpainting for Fast Editing of 3D ObjectsAmir Barda, Matheus Gadelha, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix. 16273-16282 [doi]

PyTorchGeoNodes: Enabling Differentiable Shape Programs for 3D Shape ReconstructionSinisa Stekovic, Arslan Artykov, Stefan Ainetter, Mattia D'Urso, Friedrich Fraundorfer. 16283-16292 [doi]

Perturb-and-Revise: Flexible 3D Editing with Generative TrajectoriesSusung Hong, Johanna Karras, Ricardo Martin-Brualla, Ira Kemelmacher-Shlizerman. 16293-16303 [doi]

DaCapo: Score Distillation as Stacked Bridge for Fast and High-quality 3D EditingYufei Huang 0002, Bangyan Liao, Yuqi Hu, Haitao Lin, Lirong Wu, Siyuan Li 0002, Cheng Tan 0012, Zicheng Liu 0006, Yunfan Liu 0002, Zelin Zang, Chang Yu 0001, Zhen Lei 0001. 16304-16313 [doi]

Structure from CollisionTakuhiro Kaneko. 16314-16324 [doi]

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian SplattingZixuan Chen, Guangcong Wang, Jiahao Zhu, Jianhuang Lai, Xiaohua Xie. 16325-16335 [doi]

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian SplattingHengyu Liu, Yuehao Wang, Chenxin Li, Ruisi Cai, Kevin Wang, Wuyang Li, Pavlo Molchanov 0001, Peihao Wang, Zhangyang Wang. 16336-16345 [doi]

Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive RegularizationYou Shen, Zhipeng Zhang, Xinyang Li, Yansong Qu, Yu Lin, Shengchuan Zhang, Liujuan Cao. 16346-16355 [doi]

OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable CapabilitiesSuyoung Lee, Jaeyoung Chung, Kihoon Kim, Jaeyoo Huh, Gunhee Lee, Minsoo Lee, Kyoung Mu Lee. 16356-16365 [doi]

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360deg Unbounded Scene InpaintingChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu 0001. 16366-16376 [doi]

Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed ViewsChong Bao, Xiyu Zhang 0003, Zehao Yu, Jiale Shi, Guofeng Zhang 0001, Songyou Peng, Zhaopeng Cui. 16377-16387 [doi]

Advancing Adversarial Robustness in GNeRFs: The IL2-NeRF AttackNicole Meng, Caleb Manicke, Ronak Sahu, Caiwen Ding, Yingjie Lao. 16388-16397 [doi]

EVPGS: Enhanced View Prior Guidance for Splatting-based Extrapolated View SynthesisJiahe Li 0016, Feiyu Wang, Xiaochao Qu, Chengjing Wu, Luoqi Liu, Ting Liu 0018. 16398-16407 [doi]

CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion ModelXiaoding Yuan, Shitao Tang, Kejie Li, Peng Wang. 16408-16417 [doi]

Pippo: High-Resolution Multi-View Humans from a Single ImageYash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez 0001, Igor Gilitschenski, Shunsuke Saito, Timur M. Bagautdinov. 16418-16429 [doi]

3DEnhancer: Consistent Multi-View Diffusion for 3D EnhancementYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy. 16430-16440 [doi]

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized DataHanwen Jiang, Zexiang Xu, Desai Xie, Ziwen Chen, Haian Jin, Fujun Luan, Zhixin Shu, Kai Zhang 0045, Sai Bi, Xin Sun 0014, Jiuxiang Gu, Qixing Huang, Georgios Pavlakos, Hao Tan 0002. 16441-16452 [doi]

DepthSplat: Connecting Gaussian Splatting and DepthHaofei Xu, Songyou Peng, Fangjinhua Wang, Hermann Blum, Daniel Barath, Andreas Geiger 0001, Marc Pollefeys. 16453-16463 [doi]

SimVS: Simulating World Inconsistencies for Robust View SynthesisAlex Trevithick, Roni Paiss, Philipp Henzler, Dor Verbin, Rundi Wu, Hadi AlZayer, RuiQi Gao, Ben Poole, Jonathan T. Barron, Aleksander Holynski, Ravi Ramamoorthi, Pratul P. Srinivasan. 16464-16474 [doi]

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One StepHanyang Wang 0003, Fangfu Liu, Jiawei Chi, Yueqi Duan. 16475-16485 [doi]

ActiveGAMER: Active GAussian Mapping through Efficient RenderingLiyan Chen, Huangying Zhan, Kevin Chen, Xiangyu Xu, Qingan Yan, Changjiang Cai, Yi Xu. 16486-16497 [doi]

EAP-GS: Efficient Augmentation of Pointcloud for 3D Gaussian Splatting in Few-shot Scene ReconstructionDongrui Dai, Yuxiang Xing. 16498-16507 [doi]

Shading Meets Motion: Self-supervised Indoor 3D Reconstruction Via Simultaneous Shape-from-Shading and Structure-from-MotionGuoyu Lu. 16508-16519 [doi]

Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian SplattingJinbo Yan, Rui Peng, Zhiyan Wang, Luyang Tang, Jiayu Yang, Jie Liang, Jiahao Wu, Ronggang Wang. 16520-16531 [doi]

BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian SplattingYiren Lu 0002, Yunlai Zhou, Disheng Liu, Tuo Liang, Yu Yin 0001. 16532-16542 [doi]

GauSTAR: Gaussian Surface Tracking and ReconstructionChengwei Zheng, Lixin Xue, Juan Zarate, Jie Song 0006. 16543-16553 [doi]

ImViD: Immersive Volumetric Videos for Enhanced VR EngagementZhengxian Yang, Shi Pan, Shengqi Wang, Haoxiang Wang, Li Lin, Guanjun Li, Zhengqi Wen, Borong Lin, Jianhua Tao 0001, Tao Yu. 16554-16564 [doi]

Reconstructing Animals and the WildPeter Kulits, Michael J. Black, Silvia Zuffi. 16565-16577 [doi]

Retrieving Semantics from the Deep: an RAG Solution for Gesture SynthesisMuhammad Hamza Mughal, Rishabh Dabral, Merel C. J. Scholman, Vera Demberg, Christian Theobalt. 16578-16588 [doi]

Dense Dispersed Structured Light for Hyperspectral 3D Imaging of Dynamic ScenesSuhyun Shin, Seungwoo Yoon, Ryota Maeda, Seung-Hwan Baek. 16589-16598 [doi]

HUSH: Holistic Panoramic 3D Scene Understanding using Spherical HarmonicsJongsung Lee 0007, Harin Park, Byeong-uk Lee, Kyungdon Joo. 16599-16608 [doi]

USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian SplattingKang Chen, Jiyuan Zhang, Zecheng Hao, Yajing Zheng, Tiejun Huang 0001, Zhaofei Yu. 16609-16618 [doi]

SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective FusionXuan Zhu 0009, Jijun Xiang, Xianqi Wang 0001, Longliang Liu, Yu Wang, Hong Zhang, Fei Guo, Xin Yang 0008. 16619-16628 [doi]

Sea-ing in Low-lightNisha Varghese, A. N. Rajagopalan 0001. 16629-16640 [doi]

Consistency-aware Self-Training for Iterative-based Stereo MatchingJingyi Zhou, Peng Ye, Haoyu Zhang, Jiakang Yuan, Rao Qiang, Yangchenxu Liu, Wu Cailin, Feng Xu, Tao Chen. 16641-16650 [doi]

SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB VideosYuzheng Liu, Siyan Dong, Shuzhe Wang, Yingda Yin, Yanchao Yang 0001, Qingnan Fan, Baoquan Chen. 16651-16662 [doi]

4D-Fly: Fast 4D Reconstruction from a Single Monocular VideoDiankun Wu, Fangfu Liu, Yi-Hsin Hung, Yue Qian, Xiaohang Zhan, Yueqi Duan. 16663-16673 [doi]

AnyMap: Learning a General Camera Model for Structure-from-Motion with Unknown Distortion in Dynamic ScenesAndrea Porfiri Dal Cin, Georgi Dikov, Jihong Ju, Mohsen Ghafoorian. 16674-16684 [doi]

SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split OptimizationJunchen Yu, Si-Yuan Cao, Runmin Zhang, Chenghao Zhang, Zhu Yu 0001, Shujie Chen 0001, Bailin Yang, Hui-Liang Shen. 16685-16694 [doi]

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction PriorsRiku Murai, Eric Dexheimer, Andrew J. Davison. 16695-16705 [doi]

Relative Pose Estimation through Affine Corrections of Monocular Depth PriorsYifan Yu 0003, Shaohui Liu, Rémi Pautrat, Marc Pollefeys, Viktor Larsson. 16706-16716 [doi]

AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual VideosFelix Wimbauer, Weirong Chen, Dominik Muhle, Christian Rupprecht 0001, Daniel Cremers. 16717-16727 [doi]

GPVK-VL: Geometry-Preserving Virtual Keyframes for Visual Localization under Large Viewpoint ChangesYunxuan Li, Lei Fan 0005, Xiaoying Xing, JianXiong Zhou, Ying Wu. 16728-16738 [doi]

Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual LocalizationSiyan Dong, Shuzhe Wang, Shaohui Liu, Lulu Cai, Qingnan Fan, Juho Kannala, Yanchao Yang 0001. 16739-16752 [doi]

Self-Supervised Cross-View Correspondence with Predictive Cycle ConsistencyAlan Baade, Changan Chen. 16753-16763 [doi]

Can Generative Video Models Help Pose Estimation?Ruojin Cai, Jason Y. Zhang 0004, Philipp Henzler, Zhengqi Li, Noah Snavely, Ricardo Martin-Brualla. 16764-16773 [doi]

Light3R-SfM: Towards Feed-forward Structure-from-MotionSven Elflein, Qunjie Zhou, Laura Leal-Taixé. 16774-16784 [doi]

BADGR: Bundle Adjustment Diffusion Conditioned by Gradients for Wide-Baseline Floor Plan ReconstructionYuguang Li, Ivaylo Boyadzhiev, Zixuan Liu 0001, Linda G. Shapiro, Alex Colburn. 16785-16795 [doi]

SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive TokensChi Su, Xiaoxuan Ma, Jiajun Su, Yizhou Wang. 16796-16806 [doi]

HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose EstimationHongwei Zheng 0006, Han Li, Wenrui Dai, Ziyang Zheng, Chenglin Li, Junni Zou, Hongkai Xiong. 16807-16817 [doi]

Pos3R: 6D Pose Estimation for Unseen Objects Made EasyWeijian Deng, Dylan Campbell, Chunyi Sun, Jiahao Zhang, Shubham Kanitkar, Matthew E. Shaffer, Stephen Gould. 16818-16828 [doi]

ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose EstimationTao Tan, Qiulei Dong. 16829-16838 [doi]

Leveraging Global Stereo Consistency for Category-Level Shape and 6D Pose Estimation from Stereo ImagesJunning Qiu, Minglei Lu, Fei Wang, Yu Guo, Yonggen Ling. 16839-16849 [doi]

One-shot 3D Object Canonicalization based on Geometric and Semantic ConsistencyLi Jin, Yujie Wang, Wenzheng Chen, Qiyu Dai, Qingzhe Gao, Xueying Qin, Baoquan Chen. 16850-16859 [doi]

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single ImagesZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani. 16860-16870 [doi]

SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual TrackingWenrui Cai, Qingjie Liu, Yunhong Wang 0001. 16871-16881 [doi]

MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object TrackingHaolin Qin, Tingfa Xu, Tianhao Li, Zhenxiang Chen, Tao Feng, Jianan Li 0001. 16882-16891 [doi]

All-Day Multi-Camera Multi-Target TrackingHuijie Fan, Yu Qiao, Yihao Zhen, Tinghui Zhao, Baojie Fan, Qiang Wang. 16892-16901 [doi]

Shape Abstraction via Marching Differentiable Support FunctionsSunkyung Park, JeongMin Lee, Dongjun Lee. 16902-16911 [doi]

MESC-3D: Mining Effective Semantic Cues for 3D Reconstruction from a Single ImageShaoming Li, Qing Cai, Songqi Kong, Runqing Tan, Heng Tong, Shiji Qiu, Yongguo Jiang, Zhi Liu. 16912-16921 [doi]

Implicit Correspondence Learning for Image-to-Point Cloud RegistrationXinjun Li, Wenfei Yang, Jiacheng Deng 0002, Zhixin Cheng, Xu Zhou, Tianzhu Zhang. 16922-16931 [doi]

Consistent Normal Orientation for 3D Point Clouds via Least Squares on Delaunay GraphRao Fu, Jianmin Zheng, Liang Yu. 16932-16942 [doi]

Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision ModelHaobo Jiang, Jin Xie, Jian Yang, Liang Yu, Jianmin Zheng. 16943-16952 [doi]

SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and ColorizationYi Du, Zhipeng Zhao, Shaoshu Su, Sharath Golluri, Haoze Zheng, Runmao Yao, Chen Wang. 16953-16964 [doi]

Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object RecognitionKhanh Nguyen, Ghulam Mubashar Hassan, Ajmal Mian. 16965-16975 [doi]

PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba AdapterYaohua Zha, Yanzi Wang, Hang Guo, Jinpeng Wang 0002, Tao Dai 0001, Bin Chen 0011, Zhihao Ouyang, Xue Yuerong, Ke Chen, Shu-Tao Xia. 16976-16986 [doi]

Point Cloud Upsampling Using Conditional Diffusion Module with Adaptive Noise SuppressionBoqian Zhang, Shen Yang, Hao Chen, Chao Yang, Jing Jia, Guang Jiang. 16987-16996 [doi]

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language ModelZhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge J. Belongie. 16997-17007 [doi]

EdgeDiff: Edge-aware Diffusion Network for Building Reconstruction from Point CloudsYujun Liu 0005, Ruisheng Wang 0001, Shangfeng Huang, Guorong Cai. 17008-17018 [doi]

WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba DiffusionYang Wu, Yun Zhu, Kaihua Zhang 0001, Jianjun Qian, Jin Xie, Jian Yang. 17019-17028 [doi]

FASTer: Focal token Acquiring-and-Scaling Transformer for Long-term 3D Objection DetectionChenxu Dang, Zaipeng Duan, Pei-an, Xinmin Zhang, Xuzhong Hu, Jie Ma 0003. 17029-17038 [doi]

LiSu: A Dataset and Method for LiDAR Surface Normal EstimationDusan Malic, Christian Fruhwirth-Reisinger, Samuel Schulter, Horst Possegger. 17039-17049 [doi]

DiffLO: Semantic-Aware LiDAR Odometry with Diffusion-Based RefinementYongshu Huang, Chen Liu, Minghang Zhu, Sheng Ao, Chenglu Wen, Cheng Wang 0003. 17050-17059 [doi]

SharpDepth: Sharpening Metric Depth Predictions Using Diffusion DistillationDuc-Hai Pham, Tung Do, Phong Nguyen, Binh-Son Hua, Khoi Nguyen, Rang Nguyen. 17060-17069 [doi]

Prompting Depth Anything for 4K Resolution Accurate Metric Depth EstimationHaotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang. 17070-17080 [doi]

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera FusionXiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Houqiang Li, Yanyong Zhang. 17081-17091 [doi]

ZeroVO: Visual Odometry with Minimal AssumptionsLei Lai, Zekai Yin, Eshed Ohn-Bar. 17092-17102 [doi]

Learning Occlusion-Robust Vision Transformers for Real-Time UAV TrackingYou Wu 0009, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng 0002, Hengzhou Ye, Shuiwang Li. 17103-17113 [doi]

On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only EventsJesse J. Hagenaars, Yilun Wu, Federico Paredes-Vallés, Stein Stroobants, Guido C. H. E. de Croon. 17114-17123 [doi]

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian SplattingShu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen 0001. 17124-17133 [doi]

3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View TransformationGyeongrok Oh, Sungjune Kim, Heeju Ko, Hyung-Gun Chi, Jinkyu Kim, Dongwook Lee, Daehyun Ji, Sungjoon Choi, Sujin Jang, Sangpil Kim. 17134-17144 [doi]

SOAP: Vision-Centric 3D Semantic Scene Completion with Scene-Adaptive Decoder and Occluded Region-Aware View ProjectionHyo-jun Lee, Yeong Jun Koh, Hanul Kim 0001, Hyunseop Kim, Yonguk Lee, Jinu Lee. 17145-17154 [doi]

VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene FlowYancong Lin, Shiming Wang, Liangliang Nan, Julian F. P. Kooij, Holger Caesar. 17155-17164 [doi]

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous DrivingHaiming Zhang 0001, Wending Zhou, Yiyao Zhu, Xu Yan, Jiantao Gao, Dongfeng Bai, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li 0026. 17165-17175 [doi]

InteractionMap: Improving Online Vectorized HDMap Construction with InteractionKuang Wu, Chuan Yang, Zhanbin Li. 17176-17186 [doi]

DriveScape: High-Resolution Driving Video Generation by Multi-View Feature FusionWei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Chenjing Ding. 17187-17196 [doi]

T2SG: Traffic Topology Scene Graph for Topology Reasoning in Autonomous DrivingChangsheng Lv, Mengshi Qi, Liang Liu 0001, Huadong Ma. 17197-17206 [doi]

Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation EnvironmentsLuke Rowe, Roger Girgis, Anthony Gosselin, Liam Paull, Christopher Pal, Felix Heide. 17207-17218 [doi]

Leveraging SD Map to Augment HD Map-based Trajectory PredictionZhiwei Dong, Ran Ding, Wei Li, Peng Zhang, Guobin Tang, Jia Guo. 17219-17228 [doi]

Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation FrameworkYi Yu, Weizhen Han, Libing Wu, Bingyi Liu, Enshu Wang, Zhuangzhuang Zhang. 17229-17238 [doi]

CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-Scale Reinforcement Learning in Autonomous DrivingDongkun Zhang, Jiaming Liang, Ke Guo, Sha Lu, Qi Wang 0056, Rong Xiong, Zhenwei Miao, Yue Wang 0020. 17239-17248 [doi]

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal ModelsWufei Ma, Luoxin Ye, Celso M. de Melo, Alan L. Yuille, Jieneng Chen. 17249-17260 [doi]

DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous DrivingZhenhua Xu, Yan Bai, Yujia Zhang 0003, Zhuoling Li, Fei Xia, Kwan-Yee K. Wong, Jianqiang Wang, Hengshuang Zhao. 17261-17270 [doi]

Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction RepresentationsAhmad Rahimi, Po-Chien Luan, Yuejiang Liu, Frano Rajic, Alexandre Alahi. 17271-17281 [doi]

MoFlow: One-Step Flow Matching for Human Trajectory Forecasting via Implicit Maximum Likelihood Estimation based DistillationYuxiang Fu, Qi Yan, Lele Wang 0001, Ke Li, Renjie Liao. 17282-17293 [doi]

3D-Mem: 3D Scene Memory for Embodied Exploration and ReasoningYuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, Chuang Gan. 17294-17303 [doi]

HandOS: 3D Hand Reconstruction in One StageXingyu Chen, Zhuheng Song, Xiaoke Jiang, Yaoqing Hu, Junzhi Yu, Lei Zhang. 17304-17314 [doi]

MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic DataZifan Wang, Ziqing Chen, Junyu Chen, Jilong Wang 0014, Yuxin Yang, Yunze Liu, Xueyi Liu, He Wang, Li Yi 0001. 17315-17325 [doi]

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance GroundingYawen Shao, Wei Zhai, Yuhang Yang, Hongchen Luo, Yang Cao 0010, Zheng-Jun Zha. 17326-17336 [doi]

Grounding 3D Object Affordance with Language Instructions, Visual Observations and InteractionsHe Zhu, Quyu Kong, Kechun Xu, Xunlong Xia, Bing Deng, Jieping Ye, Rong Xiong, Yue Wang 0020. 17337-17346 [doi]

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic ManipulationYueru Jia, Jiaming Liu 0003, Sixiang Chen, Chenyang Gu, Zhilue Wang, Longzan Luo, Xiaoqi Li 0009, Pengwei Wang, Zhongyuan Wang, Renrui Zhang, Shanghang Zhang. 17347-17358 [doi]

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial ConstraintsMingjie Pan, Jiyao Zhang, Tianshu Wu, YingHao Zhao, Wenlong Gao, Hao Dong. 17359-17369 [doi]

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric VisionTomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori. 17370-17382 [doi]

Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot ManipulationYu Qi, Yuanchen Ju, Tianming Wei, Chi Chu, Lawson L. S. Wong, Huazhe Xu. 17383-17393 [doi]

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic ManipulationQi Lv 0001, Hao Li, Xiang Deng, Rui Shao 0001, Yinchuan Li, Jianye Hao, Longxiang Gao, Michael Yu Wang, Liqiang Nie. 17394-17404 [doi]

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic GraspingShun Iwase, Muhammad Zubair Irshad, Katherine Liu, Vitor Guizilini, Robert Lee, Takuya Ikeda, Ayako Amma, Koichi Nishiwaki, Kris Kitani, Rares Ambrus, Sergey Zakharov. 17405-17415 [doi]

LatentHOI: On the Generalizable Hand Object Motion Generation with Latent Hand DiffusionMuchen Li, Sammy Christen, Chengde Wan, Yujun Cai, Renjie Liao, Leonid Sigal, Shugao Ma. 17416-17425 [doi]

Reconstructing In-the-Wild Open-Vocabulary Human-Object InteractionsBoran Wen, Dingbang Huang, Zichen Zhang, Jiahong Zhou, Jianbin Deng, Jingyu Gong, Yulong Chen, Lizhuang Ma, Yong-Lu Li 0001. 17426-17436 [doi]

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian SplattingJeongwan On, Kyeonghwan Gwak, Gunyoung Kang, Junuk Cha, Soohyun Hwang, Hyein Hwang, SeungRyul Baek. 17437-17447 [doi]

FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image GenerationKefan Chen, Chaerin Min, Linguang Zhang, Shreyas Hampali, Cem Keskin, Srinath Sridhar 0002. 17448-17460 [doi]

GigaHands: A Massive Annotated Dataset of Bimanual Hand ActivitiesRao Fu, Dingxi Zhang, Alex Jiang, Wanjia Fu, Austin Funk, Daniel Ritchie, Srinath Sridhar 0002. 17461-17474 [doi]

Reconstructing Close Human Interaction with Appearance and Proxemics ReasoningBuzhen Huang, Chen Li 0038, Chongyang Xu, Dongyue Lu, Jinnan Chen, Yangang Wang, Gim Hee Lee. 17475-17485 [doi]

AniMer: Animal Pose and Shape Estimation Using Family Aware TransformerJin Lyu, Tianyi Zhu, Yi Gu, Li Lin 0006, Pujin Cheng, Yebin Liu, Xiaoying Tang 0001, Liang An 0001. 17486-17496 [doi]

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric VideoAndrea Boscolo Camiletto, Jian Wang 0111, Eduardo Alvarado, Rishabh Dabral, Thabo Beeler, Marc Habermann, Christian Theobalt. 17497-17507 [doi]

SyncSDE: A Probabilistic Framework for Diffusion SynchronizationHyunJun Lee, Hyunsoo Lee, Sookwan Han. 17508-17517 [doi]

Lifting Motion to the 3D World via 2D DiffusionJiaman Li, C. Karen Liu, Jiajun Wu 0001. 17518-17528 [doi]

Motions as Queries: One-Stage Multi-Person Holistic Human Motion CaptureKenkun Liu, Yurong Fu, Weihao Yuan 0001, Jing Lin, Peihao Li, Xiaodong Gu 0004, Lingteng Qiu, Haoqian Wang, Zilong Dong, Xiaoguang Han 0001. 17529-17539 [doi]

SkillMimic: Learning Basketball Interaction Skills from DemonstrationsYinhuai Wang, Qihan Zhao, Runyi Yu 0003, Hok Wai Tsui, Ailing Zeng, Jing Lin, Zhengyi Luo, Jiwen Yu, Xiu Li 0001, Qifeng Chen, Jian Zhang 0018, Lei Zhang, Ping Tan. 17540-17549 [doi]

Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion ModelYingYing Fan, Quanwei Yang, Kaisiyuan Wang, Hang Zhou 0009, Yingying Li, Haocheng Feng, Errui Ding, Yu Wu 0011, Jingdong Wang. 17550-17560 [doi]

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric GuidancePeishan Cong, Ziyi Wang, Yuexin Ma, Xiangyu Yue 0001. 17561-17570 [doi]

Articulated Kinematics Distillation from Video Diffusion ModelsXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu 0001, Donglai Xiang. 17571-17581 [doi]

Human Motion Instruction TuningLei Li 0050, Sen Jia 0003, Jianhao Wang, Zhongyu Jiang, Feng Zhou, Ju Dai, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang. 17582-17591 [doi]

EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent SpaceJianrong Zhang, Hehe Fan, Yi Yang 0001. 17592-17602 [doi]

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion ModelsChi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung, Kai-Po Chang, Fu-En Yang, Yu-Chiang Frank Wang. 17603-17612 [doi]

FIction: 4D Future Interaction Prediction from VideoKumar Ashutosh, Georgios Pavlakos, Kristen Grauman. 17613-17625 [doi]

Mamba4D: Efficient 4D Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space ModelsJiuming Liu, Jinru Han, Lihao Liu, Angelica I. Avilés-Rivero, Chaokang Jiang, Zhe Liu 0022, Hesheng Wang 0001. 17626-17636 [doi]

Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric VideosVadim Tschernezki, Diane Larlus, Iro Laina, Andrea Vedaldi. 17637-17648 [doi]

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear MotionHaoyue Liu, Jinghan Xu, Yi Chang 0002, Hanyu Zhou, Haozhi Zhao, Lin Wang, Luxin Yan. 17649-17659 [doi]

Buffer Anytime: Zero-Shot Video Depth and Normal from Image PriorsZhengfei Kuang, Tianyuan Zhang, Kai Zhang 0045, Hao Tan 0002, Sai Bi, Yiwei Hu, Zexiang Xu, Milos Hasan, Gordon Wetzstein, Fujun Luan. 17660-17670 [doi]

LC-Mamba: Local and Continuous Mamba with Shifted Windows for Frame InterpolationMin-Wu Jeong, Chae-Eun Rhee. 17671-17681 [doi]

ObjectMover: Generative Object Movement with Video PriorXin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero 0001, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi 0001. 17682-17691 [doi]

VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative PriorsJuil Koo, Paul Guerrero 0001, Chun-Hao Paul Huang, Duygu Ceylan, Minhyuk Sung. 17692-17701 [doi]

One-Minute Video Generation with Test-Time TrainingKaran Dalal, Daniel Koceja, Jiarui Xu, Yue Zhao 0006, Shihao Han, Ka-Chun Cheung, Jan Kautz, Yejin Choi 0001, Yu Sun 0020, Xiaolong Wang 0004. 17702-17711 [doi]

Generative Video PropagationShaoteng Liu, Tianyu Wang, Jui-Hsien Wang, Qing Liu, Zhifei Zhang, Joon-Young Lee, Yijun Li, Bei Yu, Zhe Lin, Soo Ye Kim, Jiaya Jia. 17712-17722 [doi]

4Real-Video: Learning Generalizable Photo-Realistic 4D Video DiffusionChaoyang Wang 0001, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee 0001. 17723-17732 [doi]

Condensing Action Segmentation Datasets via Generative Network InversionGuodong Ding, Rongyu Chen, Angela Yao. 17733-17742 [doi]

Perceptual Video Compression with Neural WrappingMuhammad Umar Karim Khan, Aaron Chadha, Mohammad Ashraful Anam, Yiannis Andreopoulos. 17743-17754 [doi]

EvEnhancer: Empowering Effectiveness, Efficiency and Generalizability for Continuous Space-Time Video Super-Resolution with EventsShuoyan Wei, Feng Li 0037, Shengeng Tang, Yao Zhao 0001, Huihui Bai 0001. 17755-17766 [doi]

Plug-and-Play Versatile Compressed Video EnhancementHuimin Zeng, Jiacheng Li 0004, Zhiwei Xiong. 17767-17777 [doi]

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion ModelZongjian Li, Bin Lin 0014, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan 0007. 17778-17788 [doi]

LongDiff: Training-Free Long Video Generation in One GoZhuoling Li, Hossein Rahmani 0001, Qiuhong Ke, Jun Liu 0036. 17789-17798 [doi]

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-ResolutionShian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji. 17799-17809 [doi]

DPFlow: Adaptive Optical Flow Estimation with a Dual-Pyramid FrameworkHenrique Morimitsu, Xiaobin Zhu 0001, Roberto M. Cesar, Xiangyang Ji, Xu-Cheng Yin. 17810-17820 [doi]

Dynamic Content Prediction with Motion-aware Priors for Blind Face Video RestorationLianxin Xie, Bingbing Zheng, Si Wu 0002, Hau-San Wong. 17821-17830 [doi]

LP-Diff: Towards Improved Restoration of Real-World Degraded License PlateHaoyan Gong, Zhenrong Zhang, Yuzheng Feng, Anh Nguyen 0003, Hongbin Liu. 17831-17840 [doi]

AlphaPre: Amplitude-Phase Disentanglement Model for Precipitation NowcastingKenghong Lin, Baoquan Zhang, Demin Yu, Wenzhi Feng, Shidong Chen, Feifan Gao, Xutao Li, Yunming Ye. 17841-17850 [doi]

Effective Cloud Removal for Remote Sensing Images by an Improved Mean-Reverting Denoising Model with Elucidated Design SpaceYi Liu, Wengen Li, Jihong Guan, Shuigeng Zhou, Yichao Zhang 0001. 17851-17861 [doi]

Self-Learning Hyperspectral and Multispectral Image Fusion via Adaptive Residual Guided Subspace Diffusion ModelJian Zhu, He Wang, Yang Xu, Zebin Wu 0001, Zhihui Wei. 17862-17871 [doi]

Adaptive Rectangular Convolution for Remote Sensing PansharpeningXueyang Wang, Zhixin Zheng, Jiandong Shao, Yule Duan, Liang-Jian Deng. 17872-17881 [doi]

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and BeyondGuanyao Wu, Haoyu Liu, Hongming Fu, Yichuan Peng, Jinyuan Liu 0001, Xin Fan 0001, Risheng Liu. 17882-17891 [doi]

Exposure-slot: Exposure-centric Representations Learning with Slot-in-Slot Attention for Region-aware Exposure CorrectionDonggoo Jung, Daehyun Kim, Guanghui Wang, Tae Hyun Kim 0006. 17892-17901 [doi]

CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-ResolutionXin Liu, Jie Liu, Jie Tang, Gangshan Wu. 17902-17912 [doi]

ACL: Activating Capability of Linear Attention for Image RestorationYubin Gu, Yuan Meng, Jiayi Ji, Xiaoshuai Sun. 17913-17923 [doi]

Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image DenoisingTong Li 0016, Lizhi Wang 0001, Zhiyuan Xu, Lin Zhu 0012, Wanxuan Lu, Hua Huang 0001. 17924-17934 [doi]

From Zero to Detail: Deconstructing Ultra-High-Definition Image Restoration from Progressive Spectral PerspectiveChen Zhao, Zhizhou Chen, Yunzhe Xu, Enxuan Gu, Jian Li, Zili Yi, Qian Wang, Jian Yang, Ying Tai. 17935-17946 [doi]

Multi-Modal Contrastive Masked Autoencoders: A Two-Stage Progressive Pre-training Approach for RGBD DatasetsMuhammad Abdullah Jamal, Omid Mohareri. 17947-17957 [doi]

Auto-Encoded Supervision for Perceptual Image Super-ResolutionMinkyu Lee, Sangeek Hyun, Woojin Jun, Jae-Pil Heo. 17958-17968 [doi]

UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion PriorI-Hsiang Chen, Wei-Ting Chen, Yu-Wei Liu, Yuan-Chun Chiang, Sy-Yen Kuo, Ming-Hsuan Yang 0001. 17969-17979 [doi]

Uncertainty-guided Perturbation for Image Super-Resolution Diffusion ModelLeheng Zhang, Weiyi You, Kexuan Shi, Shuhang Gu. 17980-17989 [doi]

Image Quality Assessment: Investigating Causal Perceptual Effects with Abductive Counterfactual InferenceWenhao Shen, Mingliang Zhou, Yu Chen, Xuekai Wei, Yong Feng 0002, Huayan Pu, Weijia Jia 0001. 17990-17999 [doi]

Using Powerful Prior Knowledge of Diffusion Model in Deep Unfolding Networks for Image Compressive SensingChen Liao, Yan Shen, Dan Li, Zhongli Wang. 18000-18010 [doi]

Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value DecompositionZhiyuan Chen, Keyi Li, Yifan Jia 0009, Le Ye, Yufei Ma 0002. 18011-18020 [doi]

Optimizing for the Shortest Path in Denoising Diffusion ModelPing Chen, Xingpeng Zhang, Zhaoxiang Liu, Huan Hu, Xiang Liu, Kai Wang, Min Wang, Yanlin Qian, Shiguo Lian. 18021-18030 [doi]

Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score DistillationKendong Liu, Zhiyu Zhu, Hui Liu 0032, Junhui Hou. 18031-18040 [doi]

MambaIC: State Space Models for High-Performance Learned Image CompressionFanhu Zeng, Hao Tang, Yihua Shao, Siyu Chen, Ling Shao 0001, Yan Wang 0068. 18041-18050 [doi]

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image CompressionJinchang Xu, Shaokang Wang, Jintao Chen, Zhe Li, Peidong Jia, Fei Zhao, Guoqing Xiang, Zhijian Hao, Shanghang Zhang, Xiaodong Xie. 18051-18061 [doi]

Simpler Diffusion: 1.5 FID on ImageNet512 with Pixel-space DiffusionEmiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, RuiQi Gao, Tim Salimans. 18062-18071 [doi]

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion TransformersHaoran You, Connelly Barnes, YuQian Zhou, Yan Kang, Zhenbang Du, Wei Zhou, Lingzhi Zhang, Yotam Nitzan, Xiaoyang Liu, Zhe Lin, Eli Shechtman, Sohrab Amirghodsi, Yingyan Celine Lin. 18072-18082 [doi]

Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT AccelerationHaipeng Fang, Sheng Tang, Juan Cao 0001, Enshuo Zhang, Fan Tang, Tong-Yee Lee. 18083-18092 [doi]

NoiseCtrl: A Sampling-Algorithm-Agnostic Conditional Generation Method for Diffusion ModelsLongquan Dai, He Wang, Jinhui Tang 0001. 18093-18102 [doi]

See Further When Clear: Curriculum Consistency ModelYunpeng Liu, Boxiao Liu, Yi Zhang, Xingzhong Hou, Guanglu Song, Yu Liu, Haihang You. 18103-18112 [doi]

RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow TrajectoriesHuiyang Shao, Xin Xia 0014, Yuhong Yang 0010, Yuxi Ren, Xing Wang, Xuefeng Xiao 0001. 18113-18123 [doi]

Improved Video VAE for Latent Video Diffusion ModelPingyu Wu, Kai Zhu 0004, Yu Liu, Liming Zhao, Wei Zhai, Yang Cao, Zheng-Jun Zha. 18124-18133 [doi]

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-TuningMaosen Zhao, Pengtao Chen, Chong Yu, Yan Wen 0005, Xudong Tan, Tao Chen 0003. 18134-18143 [doi]

TinyFusion: Diffusion Transformers Learned ShallowGongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang. 18144-18154 [doi]

Towards Precise Scaling Laws for Video Diffusion TransformersYuanyang Yin, Yaqi Zhao, Mingwu Zheng, Ke Lin, Jiarong Ou, Rui Chen, Victor Shea-Jay Huang, Jiahao Wang, Xin Tao, Pengfei Wan 0001, Di Zhang, Baoqun Yin, Wentao Zhang, Kun Gai. 18155-18165 [doi]

Less is More: Efficient Image Vectorization with Adaptive ParameterizationKaibo Zhao, Liang Bao, Yufei Li, Xu Su, Ke Zhang, Xiaotian Qiao. 18166-18175 [doi]

Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic FeedbackMohd Hozaifa Khan, Ravi Kiran Sarvadevabhatla. 18176-18186 [doi]

AniDoc: Animation Creation Made EasierYihao Meng, Hao Ouyang, Hanlin Wang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Zhiheng Liu, Yujun Shen, Huamin Qu. 18187-18197 [doi]

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video GenerationGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak. 18198-18208 [doi]

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video SynthesisTongtong Su, Chengyu Wang 0001, Bingyan Liu, Jun Huang, Dongming Lu. 18209-18218 [doi]

EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video GenerationDiljeet Jagpal, Xi Chen, Vinay P. Namboodiri. 18219-18228 [doi]

TransPixeler: Advancing Text-to-Video Generation with TransparencyLuozhou Wang, Yijun Li 0001, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Ying-Cong Chen. 18229-18239 [doi]

PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion ModelXiang Gao, Shuai Yang, Jiaying Liu. 18240-18249 [doi]

Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy GenerationHyunsoo Kim, Donghyun Kim, Suhyun Kim. 18250-18259 [doi]

StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style TransferRuojun Xu, Weijie Xi, Xiaodi Wang, Yongbo Mao, Zach Cheng. 18260-18269 [doi]

Attention Distillation: A Unified Approach to Visual Characteristics TransferYang Zhou, Xu Gao, Zichong Chen, Hui Huang. 18270-18280 [doi]

Style-Editor: Text-driven Object-centric Style EditingJihun Park, Jongmin Gim, Kyoungmin Lee, Seunghun Lee 0002, Sunghoon Im. 18281-18291 [doi]

Towards Scalable Human-aligned Benchmark for Text-guided Image EditingSuho Ryu, Kihyun Kim, Eugene Baek, Dongsoo Shin, Joonseok Lee. 18292-18301 [doi]

PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and AttentionWeicheng Wang, Guoli Jia, Zhongqi Zhang, Liang Lin, Jufeng Yang. 18302-18312 [doi]

Paint by Inpaint: Learning to Add Image Objects by Removing Them FirstNavve Wasserman, Noam Rotstein, Roy Ganz, Ron Kimmel. 18313-18324 [doi]

MTADiffusion: Mask Text Alignment Diffusion Model for Object InpaintingJun Huang, Ting Liu 0018, Yihang Wu, Xiaochao Qu, Luoqi Liu, Xiaolin Hu. 18325-18334 [doi]

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background InpaintingYizhe Tang, Zhimin Sun, Yuzhen Du, Ran Yi, Guangben Lu, Teng Hu, Luying Li, Lizhuang Ma, Fangyuan Zou. 18335-18345 [doi]

Unleashing In-context Learning of Autoregressive Models for Few-shot Image ManipulationBolin Lai, Felix Juefei-Xu, Miao Liu 0007, Xiaoliang Dai, Nikhil Mehta 0002, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee 0001, Ning Zhang, Tong Xiao. 18346-18357 [doi]

Image is All You Need to Empower Large-scale Diffusion Models for In-Domain GenerationPu Cao, Feng Zhou, Lu Yang 0006, Tianrui Huang, Qing Song 0006. 18358-18368 [doi]

PatchDPO: Patch-level DPO for Finetuning-free Personalized Image GenerationQihan Huang, Long Chan, Jinlong Liu, Wanggui He, Hao Jiang, Mingli Song, Jie Song 0011. 18369-18378 [doi]

VODiff: Controlling Object Visibility Order in Text-to-Image GenerationDong Liang, Jinyuan Jia 0002, Yuhao Liu 0001, Zhanghan Ke, Hongbo Fu 0001, Rynson W. H. Lau. 18379-18389 [doi]

Z-Magic: Zero-shot Multiple Attributes Guided Image CreatorYingying Deng, Xiangyu He, Fan Tang, Weiming Dong. 18390-18400 [doi]

Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image SynthesisWoojung Han, Yeonkyung Lee, Chanyoung Kim 0001, Kwanghyun Park 0004, Seong Jae Hwang. 18401-18410 [doi]

Exploring Sparse MoE in GANs for Text-conditioned Image SynthesisJiapeng Zhu 0001, Ceyuan Yang, Kecheng Zheng, Yinghao Xu, Zifan Shi, Yifei Zhang, Qifeng Chen, Yujun Shen. 18411-18423 [doi]

Scaling Down Text Encoders of Text-to-Image Diffusion ModelsLifu Wang, Daqing Liu, Xinchen Liu, Xiaodong He. 18424-18433 [doi]

Diffusion Self-Distillation for Zero-Shot Customized Image GenerationShengqu Cai, Eric Ryan Chan, Yunzhi Zhang, Leonidas J. Guibas, Jiajun Wu 0001, Gordon Wetzstein. 18434-18443 [doi]

Redefining in Dictionary: Towards an Enhanced Semantic Understanding of Creative GenerationFu Feng, Yucheng Xie, Xu Yang, Jing Wang, Xin Geng 0001. 18444-18454 [doi]

Towards Transformer-Based Aligned Generation with Self-Coherence GuidanceShulei Wang, Wang Lin, Hai Huang 0013, Hanting Wang, Sihang Cai, WenKang Han, Tao Jin 0004, Jingyuan Chen, Jiacheng Sun, Jieming Zhu, Zhou Zhao 0001. 18455-18464 [doi]

Calibrated Multi-Preference Optimization for Aligning Diffusion ModelsKyungmin Lee, Xiahong Li, Qifei Wang, Junfeng He, Junjie Ke, Ming-Hsuan Yang 0001, Irfan Essa, Jinwoo Shin, Feng Yang, Yinxiao Li. 18465-18475 [doi]

A4A: Adapter for Adapter Transfer via All-for-All Mapping for Cross-Architecture ModelsKeyu Tu, Mengqi Huang, Zhuowei Chen, Zhendong Mao 0001. 18476-18485 [doi]

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image GenerationXiaoying Xing, Avinab Saha, Junfeng He, Susan Hao, Paul Vicol, Moonkyung Ryu, Gang Li, Sahil Singla 0005, Sarah Young, Yinxiao Li, Feng Yang, Deepak Ramachandran. 18486-18496 [doi]

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image GenerationLeigang Qu, Haochuan Li, Wenjie Wang 0007, Xiang Liu 0017, Juncheng Li, Liqiang Nie, Tat-Seng Chua. 18497-18508 [doi]

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D GaussiansChongjian Ge, Chenfeng Xu, Yuanfeng Ji, Chensheng Peng, Masayoshi Tomizuka, Ping Luo, Mingyu Ding, Varun Jampani, Wei Zhan. 18509-18520 [doi]

Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D GenerationYiming Qin, Zhu Xu, Yang Liu. 18521-18530 [doi]

Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent VisibilityYidi Li, Jun Xiao 0005, Zhengda Lu, Yiqun Wang 0001, Haiyong Jiang. 18531-18540 [doi]

IDEA-Bench: How Far are Generative Models from Professional Designing?Chen Liang, Lianghua Huang, Jingwu Fang, Huanzhang Dou, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Junge Zhang, Xin Zhao, Yu Liu. 18541-18551 [doi]

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D ObjectsShalini Maiti, Lourdes Agapito, Filippos Kokkinos. 18552-18562 [doi]

CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model GenerationJiahao Li, Weijian Ma, Xueyang Li, Yunzhong Lou, Guichun Zhou, Xiangdong Zhou. 18563-18573 [doi]

BlenderGym: Benchmarking Foundational Model Systems for Graphics EditingYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas J. Guibas. 18574-18583 [doi]

Adversarial Domain Prompt Tuning and Generation for Single Domain GeneralizationZhipeng Xu, De Cheng, Xinyang Jiang, Nannan Wang 0001, Dongsheng Li 0002, Xinbo Gao 0001. 18584-18595 [doi]

Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank AdaptationByung-Hyun Lee, Sungjin Lim, Se Young Chun. 18596-18606 [doi]

Random Conditioning for Diffusion Model Compression with DistillationDohyun Kim, Sehwan Park, Geonhee Han, Seung Wook Kim, Paul Hongsuck Seo. 18607-18618 [doi]

Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion ModelsReza Shirkavand, Peiran Yu, Shangqian Gao, Gowthami Somepalli, Tom Goldstein, Heng Huang. 18619-18629 [doi]

Visual Persona: Foundation Model for Full-Body Human CustomizationJisu Nam, Soowon Son, Zhan Xu, Jing Shi, Difan Liu, Feng Liu, Seungryong Kim, Yang Zhou. 18630-18641 [doi]

The Art of Deception: Color Visual Illusions and Diffusion ModelsAlexandra Gomez-Villa, Kai Wang 0060, C. Alejandro Párraga, Bartlomiej Twardowski, Jesus Malo, Javier Vazquez-Corral, Joost van de Weijer 0001. 18642-18652 [doi]

Harnessing Frequency Spectrum Insights for Image Copyright Protection Against Diffusion ModelsZhenguang Liu, Chao Shuai, Shaojing Fan, Ziping Dong, Jinwu Hu, Zhongjie Ba, Kui Ren 0001. 18653-18662 [doi]

Hiding Images in Diffusion Models by Editing Learned Score FunctionsHaoyu Chen, Yunqiao Yang, Nan Zhong, Kede Ma. 18663-18673 [doi]

CDI: Copyrighted Data Identification in Diffusion ModelsJan Dubinski, Antoni Kowalczuk, Franziska Boenisch, Adam Dziedzic. 18674-18684 [doi]

A Bias-Free Training Paradigm for More General AI-generated Image DetectionFabrizio Guillaro, Giada Zingarini, Ben Usman, Avneesh Sud, Davide Cozzolino, Luisa Verdoliva. 18685-18694 [doi]

Task Singular Vectors: Reducing Task Interference in Model MergingAntonio Andrea Gargiulo, Donato Crisostomi, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Emanuele Rodolà. 18695-18705 [doi]

Any-Resolution AI-Generated Image Detection by Spectral LearningDimitrios Karageorgiou, Symeon Papadopoulos, Ioannis Kompatsiaris, Efstratios Gavves. 18706-18717 [doi]

DefectFill: Realistic Defect Generation with Inpainting Diffusion Model for Visual InspectionJaewoo Song, Daemin Park, Kanghyun Baek, Sangyub Lee 0005, Jooyoung Choi, Eunji Kim 0002, Sungroh Yoon. 18718-18727 [doi]

End-to-End Implicit Neural Representations for ClassificationAlexander Gielisse, Jan van Gemert. 18728-18737 [doi]

A Flag Decomposition for Hierarchical DatasetsNathan Mankovich, Ignacio Santamaría, Gustau Camps-Valls, Tolga Birdal. 18738-18748 [doi]

GazeGene: Large-scale Synthetic Gaze Dataset with 3D Eyeball AnnotationsYiwei Bao, Zhiming Wang, Feng Lu 0005. 18749-18759 [doi]

FIFA: Fine-grained Inter-frame Attention for Driver's Video Gaze EstimationDaosong Hu, Mingyue Cui, Kai Huang 0001. 18760-18769 [doi]

Video-Guided Foley Sound Generation with Multimodal ControlsZiyang Chen, Prem Seetharaman, Bryan C. Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon. 18770-18781 [doi]

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term ModelingZeyue Tian, Zhaoyang Liu 0001, Ruibin Yuan, Jiahao Pan, Qifeng Liu, Xu Tan 0003, Qifeng Chen, Wei Xue, Yike Guo. 18782-18793 [doi]

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained AlignmentEdson Araujo, Andrew Rouditchenko, Yuan Gong 0001, Saurabhchand Bhati, Samuel Thomas 0001, Brian Kingsbury, Leonid Karlinsky, Rogério Feris, James R. Glass, Hilde Kuehne. 18794-18803 [doi]

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit CooperationHenghui Du, Guangyao Li, Chang Zhou, Chunjie Zhang, Alan Zhao, Di Hu 0001. 18804-18814 [doi]

Circumventing Shortcuts in Audio-visual Deepfake Detection Datasets with Unsupervised LearningStefan Smeu, Dragos-Alexandru Boldisor, Dan Oneata, Elisabeta Oneata. 18815-18825 [doi]

PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video GenerationQiyao Xue, Xiangyu Yin 0002, Boyuan Yang 0001, Wei Gao 0006. 18826-18836 [doi]

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video GenerationTianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu 0001, SiYu Zhou 0002, Qian He, Hongtao Xie, Yongdong Zhang 0001. 18837-18846 [doi]

SMTPD: A New Benchmark for Temporal Prediction of Social Media PopularityYijie Xu, Bolun Zheng, Wei Zhu, Hangjia Pan, Yuchen Yao, Ning Xu, Anan Liu, Quan Zhang, Chenggang Yan 0001. 18847-18857 [doi]

Video-Bench: Human-Aligned Video Generation BenchmarkHui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Yufan Deng, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-Jia Li, Yongxin Ni. 18858-18868 [doi]

AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMMJiarui Wang, Huiyu Duan, Guangtao Zhai, Juntong Wang, Xiongkuo Min. 18869-18880 [doi]

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video HashingNiu Lian, Jun Li, Jinpeng Wang 0002, Ruisheng Luo, Yaowei Wang 0001, Shu-Tao Xia, Bin Chen 0011. 18881-18890 [doi]

Apollo: An Exploration of Video Understanding in Large Multimodal ModelsOrr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta 0002, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia. 18891-18901 [doi]

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?Junbo Niu, Yifei Li, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian 0001, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang 0003. 18902-18913 [doi]

VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict EntailmentDarshana Saravanan, Varun Gupta, Darshan Singh S, Zeeshan Khan, Vineet Gandhi, Makarand Tapaswi. 18914-18924 [doi]

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video ContextsYuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao 0001, Zilong Zheng. 18925-18935 [doi]

DrVideo: Document Retrieval Based Long Video UnderstandingZiyu Ma, Chenhui Gou, Hengcan Shi, Bin Sun 0001, Shutao Li, Hamid Rezatofighi, Jianfei Cai 0001. 18936-18946 [doi]

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMsLucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol. 18947-18958 [doi]

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long VideosTiantian Geng, Jinrui Zhang, Qingni Wang, Teng Wang, Jinming Duan 0001, Feng Zheng. 18959-18969 [doi]

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLMYuqian Yuan, Hang Zhang, Wentong Li 0001, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing. 18970-18980 [doi]

Video Summarization with Large Language ModelsMin-Jung Lee, Dayoung Gong, Minsu Cho. 18981-18991 [doi]

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language ModelsKeda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang. 18992-19001 [doi]

RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video NarrativesChirag Parikh, Deepti Rawat, Rakshitha R. T, Tathagata Ghosh, Ravi Kiran Sarvadevabhatla. 19002-19011 [doi]

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long VideosTanveer Hannan, Md Mohaiminul Islam, Jindong Gu, Thomas Seidl 0001, Gedas Bertasius. 19012-19022 [doi]

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded SegmentationAli Athar, Xueqing Deng, Liang-Chieh Chen. 19023-19035 [doi]

VideoGLaMM : A Large Multimodal Model for Pixel-Level Visual Grounding in VideosShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric P. Xing, Fahad Shahbaz Khan, Salman H. Khan 0001. 19036-19046 [doi]

Unbiased Video Scene Graph Generation via Visual and Semantic Dual DebiasingYanjun Li, Zhaoyang Li, Honghui Chen, Lizhi Xu. 19047-19056 [doi]

UniGoal: Towards Universal Zero-shot Goal-oriented NavigationHang Yin, Xiuwei Xu, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu. 19057-19066 [doi]

Semantic and Sequential Alignment for Referring Video Object SegmentationFeiyu Pan, Hao Fang 0010, Fangkai Li, Yanyu Xu, Yawei Li 0001, Luca Benini, Xiankai Lu. 19067-19076 [doi]

SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic SegmentationYunxiang Fu, Meng Lou, Yizhou Yu. 19077-19087 [doi]

Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly DetectionFarzad Beizaee, Gregory A. Lodygensky, Christian Desrosiers, Jose Dolz. 19088-19097 [doi]

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual InsightsZhenghao Xing, Hao Chen, Binzhu Xie, Jiaqi Xu, Ziyu Guo, Xuemiao Xu, Jianye Hao, Chi-Wing Fu, Xiaowei Hu 0001, Pheng-Ann Heng. 19098-19108 [doi]

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic MemoryHan Hu, Wenli Du, Peng Liao, Bing Wang, Siyuan Fan. 19109-19119 [doi]

Understanding Multi-Task Activities from Single-Task VideosYuhan Shen, Ehsan Elhamifar. 19120-19131 [doi]

Action Detail Matters: Refining Video Recognition with Local Action QueriesMengmeng Wang, Zeyi Huang, Xiangjie Kong, Guojiang Shen, Guang Dai, Jingdong Wang, Yong Liu. 19132-19142 [doi]

CountLLM: Towards Generalizable Repetitive Action Counting via Large Language ModelZiyu Yao 0001, Xuxin Cheng, Zhiqi Huang 0001, Lei Li. 19143-19153 [doi]

Heterogeneous Skeleton-Based Action Representation LearningHongsong Wang, Xiaoyan Ma, Jidong Kuang, Jie Gui. 19154-19164 [doi]

Dynamic Updates for Language Adaptation in Visual-Language TrackingXiaohai Li, Bineng Zhong, Qihua Liang, Zhiyi Mo, Jian Nong, Shuxiang Song 0001. 19165-19174 [doi]

Boosting Adversarial Transferability through Augmentation in Hypothesis SpaceYu Guo, Weiquan Liu, Qingshan Xu, Shijun Zheng, Shujun Huang, Yu Zang, Siqi Shen, Chenglu Wen, Cheng Wang. 19175-19185 [doi]

UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion ModelsYuning Han, Bingyin Zhao, Rui Chu, Feng Luo, Biplab Sikdar 0001, Yingjie Lao. 19186-19196 [doi]

CryptoFace: End-to-End Encrypted Face RecognitionWei Ao, Vishnu Naresh Boddeti. 19197-19206 [doi]

Forensics Adapter: Adapting CLIP for Generalizable Face Forgery DetectionXinjie Cui, Yuezun Li, Ao Luo, Jiaran Zhou, Junyu Dong. 19207-19217 [doi]

D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective RecognitionHaoran Wang, Xinji Mai, Zeng Tao, Xuan Tong, Junxiong Lin, Yan Wang, Jiawen Yu, Shaoqi Yan, Ziheng Zhou, Wenqiang Zhang. 19218-19229 [doi]

Can't Slow Me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge DevicesTianyi Wang, Zichen Wang, Cong Wang, Yuanchao Shu, Ruilong Deng, Peng Cheng, Jiming Chen 0001. 19230-19240 [doi]

Decision SpikeFormer: Spike-Driven Transformer for Decision MakingWei Huang, Qinying Gu, Nanyang Ye 0001. 19241-19250 [doi]

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-IdentificationZhiqi Pang, Junjie Wang, Lingling Zhao, Chunyu Wang 0002. 19251-19260 [doi]

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identificationJinxi Yang, He Li, Bo Du 0001, Mang Ye. 19261-19270 [doi]

Shift the Lens: Environment-Aware Unsupervised Camouflaged Object DetectionJi Du, Fangwei Hao, Mingyang Yu, Desheng Kong, Jiesheng Wu, Bin Wang, Jing Xu, Ping Li. 19271-19282 [doi]

Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among InstancesYi Yu 0010, Botao Ren, Peiyuan Zhang, Mingxin Liu, Junwei Luo, Shaofeng Zhang, Feipeng Da, Junchi Yan, Xue Yang 0005. 19283-19293 [doi]

BOOTPLACE: Bootstrapped Object Placement with Detection TransformersHang Zhou, Xinxin Zuo, Rui Ma, Li Cheng 0001. 19294-19303 [doi]

Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance SegmentationFangyun Wei, Jinjing Zhao, Kun Yan, Chang Xu. 19304-19314 [doi]

PolarNeXt: Rethink Instance Segmentation with Polar RepresentationJiacheng Sun, Xinghong Zhou, Yiqiang Wu, Bin Zhu, Jiaxuan Lu, Yu Qin, Xiaomao Li. 19315-19324 [doi]

SAM2Object: Consolidating View Consistency via SAM2 for Zero-Shot 3D Instance SegmentationJihuai Zhao, Junbao Zhuo, Jiansheng Chen, Huimin Ma 0001. 19325-19334 [doi]

COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian SplittingJiaxin Zhang, Junjun Jiang, Youyu Chen, Kui Jiang, Xianming Liu. 19335-19344 [doi]

DFormerv2: Geometry Self-Attention for RGBD Semantic SegmentationBowen Yin, Jiao-Long Cao, Ming-Ming Cheng, Qibin Hou. 19345-19355 [doi]

SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything ModelChongkai Yu, Ting Liu 0018, Anqi Li, Xiaochao Qu, Chengjing Wu, Luoqi Liu, Xiaolin Hu. 19356-19365 [doi]

Believing is Seeing: Unobserved Object Detection using Generative ModelsSubhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome. 19366-19377 [doi]

MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical EnvironmentsEge Özsoy, Chantal Pellegrini, Tobias Czempiel, Felix Tristram, Kun Yuan 0004, David Bani-Harouni, Ulrich Eck, Benjamin Busam, Matthias Keicher, Nassir Navab. 19378-19389 [doi]

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene UnderstandingJinlong Li 0003, Cristiano Saltori, Fabio Poiesi, Nicu Sebe. 19390-19400 [doi]

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor SpacesChenyangguang Zhang, Alexandros Delitzas, Fangjinhua Wang, Ruida Zhang, Xiangyang Ji, Marc Pollefeys, Francis Engelmann. 19401-19413 [doi]

SKE-Layout: Spatial Knowledge Enhanced Layout Generation with LLMsJunsheng Wang, Nieqing Cao, Yan Ding 0002, Mengying Xie, Fuqiang Gu, Chao Chen. 19414-19423 [doi]

Zero-shot 3D Question Answering via Voxel-based Dynamic Token CompressionHsiang-Wei Huang, Fu-Chen Chen, Wenhao Chai, Che-Chun Su, Lu Xia, Sanghun Jung, Cheng-Yen Yang, Jenq-Neng Hwang, Min Sun 0001, Cheng-Hao Kuo. 19424-19434 [doi]

Empowering Large Language Models with 3D Situation AwarenessZhihao Yuan, Yibo Peng, Jinke Ren, Yinghong Liao, Yatong Han, Chun-Mei Feng 0001, Hengshuang Zhao, Guanbin Li, Shuguang Cui, Zhen Li 0026. 19435-19445 [doi]

Visual Agentic AI for Spatial Reasoning with a Dynamic APIDamiano Marsili, Rohun Agrawal, Yisong Yue, Georgia Gkioxari. 19446-19455 [doi]

R2C: Mapping Room to Chessboard to Unlock LLM As Low-Level Action PlannerZiyi Bai, Hanxuan Li, Bin Fu, Chuyan Xiong, Ruiping Wang 0001, Xilin Chen 0001. 19456-19466 [doi]

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on GraphsYi Fang, Bowen Jin, Jiacheng Shen, Sirui Ding, Qiaoyu Tan, Jiawei Han 0001. 19467-19476 [doi]

GUI-Xplore: Empowering Generalizable GUI Agents with One ExplorationYuChen Sun, Shanhui Zhao, Tao Yu, Hao Wen, Samith Va, Mengwei Xu, Yuanchun Li, Chongyang Zhang. 19477-19486 [doi]

Empowering LLMs to Understand and Generate Complex Vector GraphicsXiMing Xing, Juncheng Hu, Guotao Liang, Jing Zhang, Dong Xu, Qian Yu. 19487-19497 [doi]

ShowUI: One Vision-Language-Action Model for GUI Visual AgentKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou. 19498-19508 [doi]

SocialGesture: Delving into Multi-person Gesture UnderstandingXu Cao, Pranav Virupaksha, Wenqi Jia 0001, Bolin Lai, Fiona Ryan, Sangmin Lee 0001, James M. Rehg. 19509-19519 [doi]

Interleaved-Modal Chain-of-ThoughtJun Gao, Yongqi Li 0001, Ziqiang Cao, Wenjie Li 0002. 19520-19529 [doi]

AnySat: One Earth Observation Model for Many Resolutions, Scales, and ModalitiesGuillaume Astruc, Nicolas Gonthier, Clément Mallet, Loïc Landrieu. 19530-19540 [doi]

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual ContextsPeijie Wang, Zhong-Zhi Li, Fei Yin, Dekang Ran, Cheng-Lin Liu. 19541-19551 [doi]

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific ResearchJames Burgess, Jeffrey J. Nirschl, Laura Bravo Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G. Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D. Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy. 19552-19564 [doi]

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 LanguagesAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Minkov Mihaylov, Chao Qin, Abdelrahman M. Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Gian Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta 0012, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Hafizi Amirudin, Muhammad Ridzuan, Daniya Najiha Abdul Kareem, Ketan Pravin More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan S. Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Augusto Zacarias Xavier, Amit Bhatkal, Hawau Olamide Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman H. Khan 0001, Fahad Shahbaz Khan. 19565-19575 [doi]

Towards General Visual-Linguistic Face Forgery DetectionKe Sun 0016, Shen Chen, Taiping Yao, Ziyin Zhou, Jiayi Ji, Xiaoshuai Sun, Chia-Wen Lin, Rongrong Ji. 19576-19586 [doi]

Exploring Contextual Attribute Density in Referring Expression CountingZhicheng Wang, Zhiyu Pan, Zhan Peng, Jian Cheng 0001, Liwen Xiao, Wei Jiang, Zhiguo Cao 0001. 19587-19596 [doi]

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question AnsweringWenlong Fang, Qiaofeng Wu, Jing Chen, Yun Xue. 19597-19607 [doi]

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question AnsweringTianyu Huai, Jie Zhou, Xingjiao Wu, Qin Chen 0001, Qingchun Bai, Ze Zhou, Liang He 0001. 19608-19617 [doi]

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image CaptioningFan Lu, Wei Wu, Kecheng Zheng, Shuailei Ma, Biao Gong, Jiawei Liu 0001, Wei Zhai, Yang Cao, Yujun Shen, Zheng-Jun Zha. 19618-19627 [doi]

Learning with Noisy Triplet Correspondence for Composed Image RetrievalShuxian Li, Changhao He, Xiting Liu, Joey Tianyi Zhou, Xi Peng 0001, Peng Hu 0002. 19628-19637 [doi]

ConText-CIR: Learning from Concepts in Text for Composed Image RetrievalEric Xing, Pranavi Kolouju, Robert Pless, Abby Stylianou, Nathan Jacobs. 19638-19648 [doi]

PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing RetrievalQiang Zou, Shuli Cheng, Jiayi Chen. 19649-19658 [doi]

GENIUS: A Generative Framework for Universal Multimodal SearchSungyeon Kim, Xinliang Zhu, Xiaofan Lin, Muhammet Bastan, Douglas Gray 0001, Suha Kwak. 19659-19669 [doi]

Font-Agent: Enhancing Font Understanding with Large Language ModelsYingxin Lai, Cuijie Xu, Haitian Shi, Guoqing Yang, Xiaoning Li, Zhiming Luo, Shaozi Li. 19670-19680 [doi]

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection MatchingBin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Botian Shi, Bo Zhang, Conghui He. 19681-19690 [doi]

Video-ColBERT: Contextualized Late Interaction for Text-to-Video RetrievalArun Reddy, Alexander Martin 0006, Eugene Yang, Andrew Yates, Kate Sanders 0002, Kenton Murray, Reno Kriz, Celso M. de Melo, Benjamin Van Durme, Rama Chellappa. 19691-19701 [doi]

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text RetrievalLeqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding. 19702-19712 [doi]

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and QuantizationSiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan 0012, Zicheng Liu 0006, Chang Yu 0001, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei 0001. 19713-19723 [doi]

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific LiteratureAlejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen 0005, Jeffrey J. Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Anita Rau, Austin Wolfgang Katzer, Yuhui Zhang, Collin Chiu, Xiaohan Wang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy. 19724-19735 [doi]

Visual Lexicon: Rich Image Features in Language SpaceXudong Wang, Xingyi Zhou, Alireza Fathi, Trevor Darrell, Cordelia Schmid. 19736-19747 [doi]

Improving Personalized Search with Regularized Low-Rank Parameter UpdatesFiona Ryan, Josef Sivic, Fabian Caba Heilbron, Judy Hoffman, James M. Rehg, Bryan C. Russell. 19748-19757 [doi]

AdaDARE-gamma: Balancing Stability and Plasticity in Multi-modal LLMs through Efficient AdaptationJingyi Xie, Jintao Yang, Zhunchen Luo, Yunbo Cao, Qiang Gao, Mengyuan Zhang, Wenpeng Hu. 19758-19768 [doi]

FastVLM: Efficient Vision Encoding for Vision Language ModelsPavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokula Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari. 19769-19780 [doi]

Cross-modal Information Flow in Multimodal Large Language ModelsZhi Zhang 0009, Srishti Yadav, Fengze Han, Ekaterina Shutova. 19781-19791 [doi]

VisionZip: Longer is Better but Not Necessary in Vision Language ModelsSenqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu 0001, Jiaya Jia. 19792-19802 [doi]

TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language ModelCheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Chendi Li, Jinghua Yan, Yu Bai, Ponnuswamy Sadayappan, Xia Hu, Bo Yuan 0001. 19803-19813 [doi]

A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMsWangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You 0001. 19814-19824 [doi]

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent SpacesSouhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov. 19825-19835 [doi]

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language ModelsYahan Tu, Rui Hu, Jitao Sang. 19836-19845 [doi]

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual EncodersJiajun Cao, Yuan Zhang, Tao Huang, Ming Lu, Qizhe Zhang, Ruichuan An, Ningning Ma, Shanghang Zhang. 19846-19856 [doi]

PhD: A ChatGPT-Prompted Visual Hallucination Evaluation DatasetJiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li 0001. 19857-19866 [doi]

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language ModelsYongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, JinLan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang 0001, Feng Zhao, Tao Gui, Jing Shao. 19867-19878 [doi]

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?Yanbo Wang, Jiyang Guan, Jian Liang, Ran He 0001. 19879-19889 [doi]

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language ModelsShuyang Hao, Bryan Hooi, Jun Liu, Kai-Wei Chang, Zi Huang, Yujun Cai. 19890-19899 [doi]

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language ModelsJiaming Zhang, Junhong Ye, Xingjun Ma, Yige Li, Yunfan Yang, Yunhao Chen, Jitao Sang, Dit-Yan Yeung. 19900-19909 [doi]

TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language ModelsXin Wang, Kai Chen, Jiaming Zhang, Jingjing Chen, Xingjun Ma. 19910-19920 [doi]

On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free ApproachBaoshun Tong, Hanjiang Lai, Yan Pan 0002, Jian Yin 0001. 19921-19930 [doi]

Conformal Prediction for Zero-Shot ModelsJulio Silva-Rodríguez, Ismail Ben Ayed, Jose Dolz. 19931-19941 [doi]

O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language ModelsAshshak Sharifdeen, Muhammad Akhtar Munir, Sanoojan Baliah, Salman Khan, Muhammad Haris Khan. 19942-19951 [doi]

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by LanguageYicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen 0026. 19952-19962 [doi]

NLPrompt: Noise-Label Prompt Learning for Vision-Language ModelsBikang Pan, Qun Li, Xiaoying Tang 0002, Wei Huang 0034, Zhen Fang, Feng Liu, Jingya Wang, Jingyi Yu, Ye Shi 0001. 19963-19973 [doi]

Preserving Clusters in Prompt Learning for Unsupervised Domain AdaptationTung Long Vuong, Hoang Phan, Vy Vo, Anh Bui, Thanh-Toan Do, Trung Le 0001, Dinh Phung 0001. 19974-19984 [doi]

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V TrustworthinessTianyu Yu 0002, Haoye Zhang, Qiming Li, Qixin Xu, Yuan Yao, Da Chen, Xiaoman Lu, Ganqu Cui, Yunkai Dang, Taiwen He, Xiaocheng Feng, Jun Song, Bo Zheng, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun 0001. 19985-19995 [doi]

Test-Time Visual In-Context TuningJiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele. 19996-20005 [doi]

F^3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-HeuristicsPramit Saha, Felix Wagner 0001, Divyanshu Mishra, Can Peng, Anshul Thakur, David A. Clifton, Konstantinos Kamnitsas, J. Alison Noble. 20006-20017 [doi]

Towards Human-Understandable Multi-Dimensional Concept DiscoveryArne Grobrügge, Niklas Kühl 0001, Gerhard Satzger, Philipp Spitzer. 20018-20027 [doi]

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image ModelingJinhong Lin, Cheng-En Wu, Huanran Li, Jifan Zhang, Yu Hen Hu, Pedro Morgado 0001. 20028-20038 [doi]

Do Computer Vision Foundation Models Learn the Low-level Characteristics of the Human Visual System?YanCheng Cai, Fei Yin, Dounia Hammou, Rafal Mantiuk. 20039-20048 [doi]

DepthCues: Evaluating Monocular Depth Perception in Large Vision ModelsDuolikun Danier, Mehmet Aygün, Changjian Li, Hakan Bilen, Oisin Mac Aodha. 20049-20059 [doi]

LaVin-DiT: Large Vision Diffusion TransformerZhaoqing Wang, Xiaobo Xia, Runnan Chen, Dongdong Yu, Changhu Wang, Mingming Gong, Tongliang Liu. 20060-20070 [doi]

5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition TasksDongshuo Yin, Leiyi Hu, Bin Li, Youqun Zhang, Xue Yang. 20071-20081 [doi]

Efficient Data Driven Mixture-of-Expert Extraction from Trained NetworksUranik Berisha, Jens Mehnert, Alexandru Paul Condurache. 20082-20091 [doi]

Split Adaptation for Pre-trained Vision TransformersLixu Wang, Bingqi Shang, Yi Li, Payal Mohapatra, Wei Dong, Xiao Wang, Qi Zhu 0002. 20092-20102 [doi]

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor ManipulationJialai Wang, Yuxiao Wu, WeiYe Xu, Yating Huang, Chao Zhang, Zongpeng Li, Mingwei Xu, Zhenkai Liang. 20103-20112 [doi]

MDP: Multidimensional Vision Model Pruning with Latency ConstraintXinglong Sun, Barath Lakshmanan, Maying Shen, Shiyi Lan, Jingde Chen, José M. Álvarez 0004. 20113-20123 [doi]

Mamba-Adaptor: State Space Model Adaptor for Visual RecognitionFei Xie, Jiahao Nie 0001, Yujin Tang, Wenkang Zhang, Hongshen Zhao. 20124-20134 [doi]

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual InteractionYuan Zhou, Qingshan Xu 0001, Jiequan Cui, Junbao Zhou, Jing Zhang, Richang Hong, Hanwang Zhang. 20135-20145 [doi]

Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large ModelsZichen Miao, Wei Chen 0124, Qiang Qiu. 20146-20157 [doi]

DVHGNN: Multi-Scale Dilated Vision HGNN for Efficient Vision RecognitionCaoshuo Li, Tanzhe Li, Xiaobin Hu, Donghao Luo 0001, Taisong Jin. 20158-20168 [doi]

Graph-Embedded Structure-Aware Perceptual Hashing for Neural Network Protection and Piracy DetectionRuiheng Liu, Haozhe Chen, Boyao Zhao, Kejiang Chen, Weiming Zhang 0001. 20169-20178 [doi]

Hybrid Concept Bottleneck ModelsYang Liu, Tianwei Zhang, Shi Gu. 20179-20189 [doi]

Locality-Aware Zero-Shot Human-Object Interaction DetectionSanghyun Kim, Deunsol Jung, Minsu Cho. 20190-20200 [doi]

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype DiscoveryDianmo Sheng, Dongdong Chen 0001, Zhentao Tan, Qiankun Liu 0001, Qi Chu 0001, Tao Gong, Bin Liu, Jing Han, Wenbin Tu, Shengwei Xu, Nenghai Yu. 20201-20211 [doi]

Dual Semantic Guidance for Open Vocabulary Semantic SegmentationZhengyang Wang, Tingliang Feng, Fan Lyu, Fanhua Shang, Wei Feng, Liang Wan. 20212-20222 [doi]

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic SegmentationZhiwei Yang, Yucong Meng, Kexue Fu, Feilong Tang, Shuo Wang, Zhijian Song. 20223-20232 [doi]

Improving Semi-Supervised Semantic Segmentation with Sliced-Wasserstein Feature Alignment and UniformityChen-Yi Lu, Kasra Derakhshandeh, Somali Chaterji. 20233-20243 [doi]

Soft Self-labeling and Potts Relaxations for Weakly-supervised SegmentationZhongwen Zhang, Yuri Boykov. 20244-20253 [doi]

Towards Efficient Foundation Model for Zero-shot Amodal SegmentationZhaochen Liu, Limeng Qiao, Xiangxiang Chu, Lin Ma 0002, Tingting Jiang 0001. 20254-20264 [doi]

Generalizable Object Keypoint Localization from Generative PriorsDongkai Wang, Jiang Duan, Liangjian Wen, Shiyu Xuan, Hao Chen, Shiliang Zhang. 20265-20274 [doi]

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot LearningHuajie Jiang, Zhengxian Li, Xiaohan Yu, Yongli Hu, Baocai Yin, Jian Yang, Yuankai Qi. 20275-20285 [doi]

Generalized Zero-Shot Classification via Semantics-Free Inter-Class Feature GenerationLibiao Chen, Dong Nie, JunJun Pan, Jing Yan, Zhenyu Tang 0002. 20286-20295 [doi]

GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category DiscoveryEnguang Wang, Zhimao Peng, Zhengyuan Xie, Fei Yang, Xialei Liu, Ming-Ming Cheng. 20296-20306 [doi]

v-CLR: View-Consistent Learning for Open-World Instance SegmentationChang-Bin Zhang, Jinhong Ni, Yujie Zhong, Kai Han. 20307-20317 [doi]

Detecting Open World Objects via Partial Attribute AssignmentMuli Yang, Gabriel James Goenawan, Huaiyuan Qin, Kai Han, Xi Peng, Yanhua Yang, Hongyuan Zhu. 20318-20328 [doi]

Uncertainty Meets Diversity: A Comprehensive Active Learning Framework for Indoor 3D Object DetectionJiangyi Wang, Na Zhao 0004. 20329-20339 [doi]

Revisiting Generative Replay for Class Incremental Object DetectionShizhou Zhang, Xueqiang Lv, Yinghui Xing, Qirui Wu, Di Xu, Yanning Zhang. 20340-20349 [doi]

Decoupled Distillation to Erase: A General Unlearning Method for Any Class-centric TasksYu Zhou, Dian Zheng, Qijie Mo, Renjie Lu, Kun-Yu Lin, Wei-Shi Zheng 0001. 20350-20359 [doi]

Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNsMauricio Byrd Victorica, György Dán, Henrik Sandberg. 20360-20369 [doi]

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language ModelsJiacong Xu, Shao-Yuan Lo, Bardia Safaei 0001, Vishal M. Patel, Isht Dwivedi. 20370-20382 [doi]

PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo AnomaliesMojtaba Nafez, Amirhossein Koochakian, Arad Maleki, Jafar Habibi, Mohammad Hossein Rohban. 20383-20394 [doi]

Odd-One-Out: Anomaly Detection by Comparing with NeighborsAnkan Bhunia, Changjian Li, Hakan Bilen. 20395-20404 [doi]

Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly DetectionJia Guo, Shuai Lu 0003, Weihang Zhang, Fang Chen, Huiqi Li, Hongen Liao. 20405-20415 [doi]

Distribution Prototype Diffusion Learning for Open-set Supervised Anomaly DetectionFuyun Wang, Tong Zhang, Yuanzhi Wang, Yide Qiu, Xin Liu, Xu Guo, Zhen Cui. 20416-20426 [doi]

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural NetworksMohamed Afane, Gabrielle Ebbrecht, Ying Wang, Juntao Chen, Junaid Farooq 0001. 20427-20436 [doi]

Curriculum Coarse-to-Fine Selection for High-IPC Dataset DistillationYanda Chen, Gongwei Chen, Miao Zhang, Weili Guan, Liqiang Nie. 20437-20446 [doi]

Masking meets Supervision: A Strong Learning AllianceByeongho Heo, Taekyung Kim 0002, Sangdoo Yun, Dongyoon Han. 20447-20457 [doi]

Scale Efficient Training for Large DatasetsQing Zhou, Junyu Gao 0001, Qi Wang 0009. 20458-20467 [doi]

Learning on Model Weights using Tree ExpertsEliahu Horwitz, Bar Cavia, Jonathan Kahana, Yedid Hoshen. 20468-20478 [doi]

How to Merge Your Multimodal Models Over Time?Sebastian Dziadzio, Vishaal Udandarao, Karsten Roth, Ameya Prabhu, Zeynep Akata, Samuel Albanie, Matthias Bethge. 20479-20491 [doi]

Revisiting Fairness in Multitask Learning: A Performance-Driven Approach for Variance ReductionXiaohan Qin, Xiaoxing Wang, Junchi Yan. 20492-20501 [doi]

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of DiscretizationSihao Liu, Yibo Yang, Xiaojie Li, David A. Clifton, Bernard Ghanem. 20502-20511 [doi]

Online Task-Free Continual Learning via Dynamic Expansionable Memory DistributionFei Ye 0004, Adrian G. Bors. 20512-20522 [doi]

Knowledge Memorization and Rumination for Pre-trained Model-based Class-Incremental LearningZijian Gao, Wangwang Jia, Xingxing Zhang, Dulan Zhou, Kele Xu, Dawei Feng, Yong Dou, XinJun Mao, Huaimin Wang. 20523-20533 [doi]

COBRA: COmBinatorial Retrieval Augmentation for Few-Shot AdaptationArnav M. Das, Gantavya Bhatt, Lilly Kumari, Sahil Verma, Jeff Bilmes. 20534-20546 [doi]

Dual Consolidation for Pre-Trained Model-Based Domain-Incremental LearningDawei Zhou 0001, Zi-Wen Cai, Han-Jia Ye, Lijun Zhang, De-Chuan Zhan. 20547-20557 [doi]

Gradient-Guided Annealing for Domain GeneralizationAristotelis Ballas, Christos Diou. 20558-20568 [doi]

AdMiT: Adaptive Multi-Source Tuning in Dynamic EnvironmentsXiangyu Chang, Fahim Faisal Niloy, Sk Miraj Ahmed, Srikanth V. Krishnamurthy, Basak Guler, Ananthram Swami, Samet Oymak, Amit K. Roy Chowdhury. 20569-20579 [doi]

Compositional Targeted Multi-Label Universal PerturbationsHassan Mahmood, Ehsan Elhamifar. 20580-20591 [doi]

Forming Auxiliary High-confident Instance-level Loss to Promote Learning from Label ProportionsTianhao Ma, Han Chen, Juncheng Hu, Yungang Zhu, XiMing Li. 20592-20601 [doi]

Dynamic Pseudo Labeling via Gradient Cutting for High-Low Entropy ExplorationJae-Hyeon Park, Joo Hyeon Jeon, Jae Yun Lee, Sangyeon Ahn, Minhee Cha, Min Geol Kim, Hyeok Nam, Sung In Cho. 20602-20611 [doi]

ProHOC: Probabilistic Hierarchical Out-of-Distribution Classification via Multi-Depth NetworksErik Wallin, Fredrik Kahl, Lars Hammarstrand. 20612-20621 [doi]

Test-time Augmentation Improves Efficiency in Conformal PredictionDivya Shanmugam, Helen Lu, Swami Sankaranarayanan, John V. Guttag. 20622-20631 [doi]

Subspace Constraint and Contribution Estimation for Heterogeneous Federated LearningXiangtao Zhang, Sheng Li, Ao Li, Yipeng Liu, Fan Zhang, Ce Zhu, Le Zhang. 20632-20642 [doi]

FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated LearningGongxi Zhu, Donghao Li, Hanlin Gu, Yuan Yao, Lixin Fan, Yuxing Han 0001. 20643-20653 [doi]

Detecting Backdoor Attacks in Federated Learning via Direction Alignment InspectionJiahao Xu, Zikai Zhang, Rui Hu. 20654-20664 [doi]

RAEncoder: A Label-Free Reversible Adversarial Examples Encoder for Dataset Intellectual Property ProtectionFan Xing, Zhuo Tian, Xuefeng Fan, Xiaoyi Zhou. 20665-20674 [doi]

DeDe: Detecting Backdoor Samples for SSL Encoders via DecodersSizai Hou, Songze Li, Duanyi Yao. 20675-20684 [doi]

Enhancing Adversarial Transferability with Checkpoints of a Single Model's TrainingShixin Li, Chaoxiang He, Xiaojing Ma 0002, Bin Benjamin Zhu, Shuo Wang, Hongsheng Hu, Dongmei Zhang 0001, Linchen Yu. 20685-20694 [doi]

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation ZoneYuan Xiao 0003, Yuchen Chen, ShiQing Ma, Chunrong Fang, Tongtong Bai, Mingzheng Gu, Yuxin Cheng, Yanwei Chen, Zhenyu Chen 0001. 20695-20705 [doi]

Theory-Inspired Deep Multi-View Multi-Label Learning with Incomplete Views and Noisy LabelsQuanjiang Li, Tingjin Luo, Jiahui Liao. 20706-20715 [doi]

EASEMVC: Efficient Dual Selection Mechanism for Deep Multi-View ClusteringBaili Xiao, Zhibin Dong, Ke Liang 0006, Suyuan Liu, Siwei Wang 0001, Tianrui Liu, Xingchen Hu, En Zhu, Xinwang Liu 0002. 20716-20726 [doi]

Large-scale Multi-view Tensor Clustering with Implicit Linear KernelsJiyuan Liu 0003, Xinwang Liu 0002, Chuankun Li, Xinhang Wan, Hao Tan, Yi Zhang, Weixuan Liang, Qian Qu, Yu Feng, Renxiang Guan, Ke Liang 0006. 20727-20736 [doi]

Generative Modeling of Class Probability for Multi-Modal Representation LearningJungkyoo Shin, Bumsoo Kim, Eunwoo Kim. 20737-20746 [doi]

Fuzzy Multimodal Learning for Trusted Cross-modal RetrievalSiyuan Duan, Yuan Sun 0016, Dezhong Peng, Zheng Liu, Xiaomin Song, Peng Hu 0002. 20747-20756 [doi]

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security InspectionDivya Velayudhan, Abdelfatah Hassan Ahmed, Mohamad Alansari, Neha Gour, Abderaouf Behouch, Taimur Hassan, Syed Talal Wasim, Nabil Maalej, Muzammal Naseer, Juergen Gall, Mohammed Bennamoun, Ernesto Damiani, Naoufel Werghi. 20767-20777 [doi]

CheXWorld: Exploring Image World Modeling for Radiograph Representation LearningYang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang 0001. 20778-20788 [doi]

MExD: An Expert-Infused Diffusion Model for Whole-Slide Image ClassificationJianwei Zhao, Xin Li, Fan Yang, Qiang Zhai, Ao Luo, Yang Zhao, Hong Cheng 0002, Huazhu Fu. 20789-20799 [doi]

Advancing Multiple Instance Learning with Continual Learning for Whole Slide ImagingXianrui Li, Yufei Cui, Jun Li, Antoni B. Chan. 20800-20809 [doi]

Multi-modal Topology-embedded Graph Learning for Spatially Resolved Genes Prediction from Pathology Images with Prior Gene Similarity InformationHang Shi, Changxi Chi, Peng Wan 0004, Daoqiang Zhang, Wei Shao 0005. 20810-20819 [doi]

The Impact Label Noise and Choice of Threshold has on Cross-Entropy and Soft-Dice in Image SegmentationMarcus Nordström, Atsuto Maki, Henrik Hult. 20820-20829 [doi]

Show and Segment: Universal Medical Image Segmentation via In-Context LearningYunhe Gao, Di Liu 0003, Zhuowei Li 0002, Yunsheng Li, Dongdong Chen, Mu Zhou, Dimitris N. Metaxas. 20830-20840 [doi]

Interactive Medical Image Segmentation: A Benchmark Dataset and BaselineJunlong Cheng, Bin Fu, Jin Ye 0002, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, Jingwen Li, Yanzhou Su, Min Zhu, Junjun He. 20841-20851 [doi]

nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Calling for a Unified Evaluation BenchmarkYanfeng Zhou, Lingrui Li, Le Lu 0001, Minfeng Xu. 20852-20862 [doi]

VISTA3D: A Unified Segmentation Foundation Model For 3D Medical ImagingYufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu 0001, Dong Yang 0005, Can Zhao 0001, Benjamin Simon, Mason Belue, Stephanie A. Harmon, Baris Turkbey, Daguang Xu, Wenqi Li 0001. 20863-20873 [doi]

vesselFM: A Foundation Model for Universal 3D Blood Vessel SegmentationBastian Wittmann, Yannick Wattenberg, Tamaz Amiranashvili, Suprosanna Shit, Bjoern H. Menze. 20874-20884 [doi]

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image TranslationZhuangzhuang Chen, Hualiang Wang, Chubin Ou, Xiaomeng Li 0001. 20885-20894 [doi]

Improving Diffusion Inverse Problem Solving with Decoupled Noise AnnealingBingliang Zhang, Wenda Chu, Julius Berner, Chenlin Meng, Anima Anandkumar, Yang Song 0011. 20895-20905 [doi]

DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion ModelsZhendong Wang, Jianmin Bao, Shuyang Gu, Dong Chen 0003, Wengang Zhou 0001, Houqiang Li. 20906-20915 [doi]

CustAny: Customizing Anything from A Single ExampleLingjie Kong, Kai Wu, Chengming Xu 0001, Xiaobin Hu, Wenhui Han, Jinlong Peng, Donghao Luo 0001, Mengtian Li, Jiangning Zhang, Chengjie Wang, Yanwei Fu 0001. 20916-20925 [doi]

Minority-Focused Text-to-Image Generation via Prompt OptimizationSoobin Um, Jong Chul Ye. 20926-20936 [doi]

Black-Box Forgery Attacks on Semantic Watermarks for Diffusion ModelsAndreas Müller 0025, Denis Lukovnikov, Jonas Thietke, Asja Fischer, Erwin Quiring. 20937-20946 [doi]

UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic ProgrammingHao Lin, Ke Wu, Jie Li, Jun Li, Wu-Jun Li. 20947-20957 [doi]

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated LearningYanbiao Ma, Wei Dai, Wenke Huang, Jiayi Chen. 20958-20968 [doi]

Enhancing Diversity for Data-free QuantizationKai Zhao 0009, Zhihao Zhuang, Miao Zhang, Chenjuan Guo, Yang Shu, Bin Yang 0002. 20969-20978 [doi]

TopoCellGen: Generating Histopathology Cell Topology with a Diffusion ModelMeilong Xu, Saumya Gupta, Xiaoling Hu 0002, Chen Li 0045, Shahira Abousamra, Dimitris Samaras, Prateek Prasanna, Chao Chen. 20979-20989 [doi]

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image SegmentationAishik Konwer, Zhijian Yang, Erhan Bas, Cao Xiao, Prateek Prasanna, Parminder Bhatia, Taha A. Kass-Hout. 20990-21000 [doi]

Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial AttacksJunying Wang, Hongyuan Zhang, Yuan Yuan. 21001-21010 [doi]

Gromov-Wasserstein Problem with Cyclic SymmetryShoichiro Takeda, Yasunori Akagi. 21011-21020 [doi]

Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance FieldsRunfeng Li, Mikhail Okunev, Zixuan Guo, Anh Ha Duong, Christian Richardt, Matthew O'Toole, James Tompkin 0001. 21021-21030 [doi]

Zero-Shot Monocular Scene Flow Estimation in the WildYiqing Liang, Abhishek Badki, Hang Su 0005, James Tompkin 0001, Orazio Gallo. 21031-21044 [doi]

3D Student Splatting and ScoopingJialin Zhu, Jiangbei Yue, Feixiang He, He Wang 0002. 21045-21054 [doi]

DualTalk: Dual-Speaker Interaction for 3D Talking Head ConversationsZiqiao Peng, Yanbo Fan, Haoyu Wu, Xuan Wang, Hongyan Liu 0002, Jun He, Zhaoxin Fan. 21055-21064 [doi]

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation MetricsLee Chae-Yeon, Oh Hyun-Bin, Han EunGi, Kim Sung-Bin, Suekyeong Nam, Tae Hyun Oh. 21065-21074 [doi]

Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion GenerationDingcheng Zhen, Shunshun Yin, Shiyang Qin, Hou Yi, Ziwei Zhang, Siyuan Liu, Gan Qi, Ming Tao. 21075-21085 [doi]

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion TransformerJiahao Cui 0003, Hui Li, Yun Zhan, Hanlin Shang, Kaihui Cheng, Yuqi Ma, Shan Mu, Hang Zhou, Jingdong Wang 0001, Siyu Zhu. 21086-21095 [doi]

StableAnimator: High-Quality Identity-Preserving Human Image AnimationShuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai 0001, Chong Luo, Zuxuan Wu. 21096-21106 [doi]

IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular VideosCYuan Li, Ziqian Bai, Feitong Tan, Zhaopeng Cui, Sean Fanello, Yinda Zhang 0001. 21107-21116 [doi]

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial RepresentationsYating Wang, Xuan Wang, Ran Yi, Yanbo Fan, Jichen Hu, Jingcheng Zhu, Lizhuang Ma. 21117-21126 [doi]

LUCAS: Layered Universal Codec AvatarsDi Liu 0003, Teng Deng, Giljoo Nam, Yu Rong, Stanislav Pidhorskyi, Junxuan Li, Jason M. Saragih, Dimitris N. Metaxas, Chen Cao. 21127-21137 [doi]

GeoAvatar: Geometrically-Consistent Multi-Person Avatar Reconstruction from Sparse Multi-View VideosSoohyun Lee, Seoyeon Kim, Heekyung Lee, Won-Sik Jeong, Joo Ho Lee 0003. 21138-21147 [doi]

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian ReconstructionLingteng Qiu, Shenhao Zhu, Qi Zuo, Xiaodong Gu 0004, Yuan Dong, Junfei Zhang, Chao Xu, Zhe Li, Weihao Yuan, Liefeng Bo, Guanying Chen, Zilong Dong. 21148-21158 [doi]

TAGA: Self-supervised Learning for Template-free Animatable Gaussian Articulated ModelZhichao Zhai, Guikun Chen, Wenguan Wang, Dong Zheng, Jun Xiao 0001. 21159-21169 [doi]

DRiVE: Diffusion-based Rigging Empowers Generation of Versatile and Expressive CharactersMingze Sun, Junhao Chen, Junting Dong, Yurun Chen 0001, Xinyu Jiang, Shiwei Mao, Puhua Jiang, Jingbo Wang 0003, Bo Dai 0002, Ruqi Huang. 21170-21180 [doi]

MIMO: Controllable Character Video Synthesis with Spatial Decomposed ModelingYifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo. 21181-21191 [doi]

Unsupervised Discovery of Facial Landmarks and Head PoseSatyajit Tourani, Siddharth Tourani, Arif Mahmood, Muhammad Haris Khan. 21192-21202 [doi]

Data Synthesis with Diverse Styles for Face Recognition via 3DMM-Guided DiffusionYuxi Mi, Zhizhou Zhong, Yuge Huang, Qiuyang Yuan, Xuan Zhao, Jianqing Xu, Shouhong Ding, Shaoming Wang, Rizen Guo, Shuigeng Zhou. 21203-21214 [doi]

PGC: Physics-Based Gaussian Cloth from a Single PoseMichelle Guo, Matt Jen-Yuan Chiang, Igor Santesteban, Nikolaos Sarafianos, Hsiao-yu Chen, Oshri Halimi, Aljaz Bozic, Shunsuke Saito, Jiajun Wu 0001, C. Karen Liu, Tuur Stuyck, Egor Larionov. 21215-21225 [doi]

Is this Generated Person Existed in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-bodyZeqing Wang, Qingyang Ma, Wentao Wan 0001, Haojie Li, Keze Wang, Yonghong Tian 0001. 21226-21237 [doi]

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise SchedulingNannan Li 0004, Kevin J. Shih, Bryan A. Plummer. 21238-21247 [doi]

ProjAttacker: A Configurable Physical Adversarial Attack for Face Recognition via ProjectorYuanwei Liu, Hui Wei 0004, Chengyu Jia, Ruqi Xiao, Weijian Ruan, Xingxing Wei, Joey Tianyi Zhou, Zheng Wang. 21248-21257 [doi]

ABC-Former: Auxiliary Bimodal Cross-domain Transformer with Interactive Channel Attention for White BalanceYu-Cheng Chiu, Guan-Rong Chen, Zihao Chen, Yan-Tsung Peng. 21258-21266 [doi]

URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image RestorationRui Xu 0028, Yuzhen Niu, Yuezhou Li, Huangbiao Xu, Wenxi Liu, Yuzhong Chen. 21267-21276 [doi]

Efficient Diffusion as Low Light EnhancerGuanzhou Lan, Qianli Ma, Yuqi Yang, Zhigang Wang 0002, Dong Wang, Xuelong Li, Bin Zhao. 21277-21286 [doi]

Noise Calibration and Spatial-Frequency Interactive Network for STEM Image EnhancementHesong Li, Ziqi Wu, Ruiwen Shao, Tao Zhang, Ying Fu. 21287-21296 [doi]

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Post-Capture Refocusing, Defocus Rendering and Blur RemovalYujie Wang, Praneeth Chakravarthula, Baoquan Chen. 21297-21306 [doi]

ReCap: Better Gaussian Relighting with Cross-Environment CapturesJingzhi Li, Zongwei Wu, Eduard Zamfir, Radu Timofte. 21307-21316 [doi]

Factored-NeuS: Reconstructing Surfaces, Illumination, and Materials of Possibly Glossy ObjectsYue Fan, Ningjing Fan, Ivan Skorokhodov, Oleg Voynov, Savva Ignatyev, Evgeny Burnaev, Peter Wonka, Yiqun Wang 0001. 21317-21327 [doi]

SpectroMotion: Dynamic 3D Reconstruction of Specular ScenesCheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu 0001. 21328-21338 [doi]

Radio Frequency Ray Tracing with Neural Object Representation for Enhanced RF ModelingXingyu Chen, Zihao Feng, Kun Qian, Xinyu Zhang. 21339-21348 [doi]

GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View SynthesisYou Wang, Li Fang, Hao Zhu, Fei Hu, Long Ye, Zhan Ma. 21349-21359 [doi]

3D Convex Splatting: Radiance Field Rendering with 3D Smooth ConvexesJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliège, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck. 21360-21369 [doi]

Volumetric Surfaces: Representing Fuzzy Geometries with Layered MeshesStefano Esposito, Anpei Chen, Christian Reiser, Samuel Rota Bulò, Lorenzo Porzi, Katja Schwarz, Christian Richardt, Michael Zollhöfer, Peter Kontschieder, Andreas Geiger 0001. 21370-21380 [doi]

MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural RepresentationShu Wang, Yanbo Gao, Shuai Li 0005, Chong Lv, Xun Cai, Chuankun Li, Hui Yuan 0001, Jinglin Zhang. 21381-21391 [doi]

Mani-GS: Gaussian Splatting Manipulation with Triangular MeshXiangjun Gao, Xiaoyu Li 0002, Yiyu Zhuang, Qi Zhang, Wenbo Hu 0002, Chaopeng Zhang, Yao Yao 0008, Ying Shan, Long Quan. 21392-21402 [doi]

TriTex: Learning Texture from a Single Mesh via Triplane Semantic FeaturesDana Cohen-Bar, Daniel Cohen-Or, Gal Chechik, Yoni Kasten. 21403-21413 [doi]

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality AssessmentArmin Shafiee Sarvestani, Sheyang Tang, Zhou Wang 0001. 21414-21424 [doi]

ARM: Appearance Reconstruction Model for Relightable 3D GenerationXiang Feng, Chang Yu 0005, Zoubin Bi, Yintong Shang, Feng Gao 0013, Hongzhi Wu, Kun Zhou 0001, Chenfanfu Jiang, Yin Yang 0002. 21425-21437 [doi]

DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and GeometryJing Li, Yihang Fu, Falai Chen. 21438-21447 [doi]

CADDreamer: CAD Object Generation from Single-view ImagesYuan Li, Cheng Lin, Yuan Liu, Xiaoxiao Long, Chenxu Zhang, Ningna Wang, Xin Li, Wenping Wang, Xiaohu Guo. 21448-21457 [doi]

Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and ManipulationYiftach Edelstein, Or Patashnik, Dana Cohen-Bar, Lihi Zelnik-Manor. 21458-21468 [doi]

Structured 3D Latents for Scalable and Versatile 3D GenerationJianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang 0010, Dong Chen, Xin Tong 0001, Jiaolong Yang. 21469-21480 [doi]

Hash3D: Training-free Acceleration for 3D GenerationXingyi Yang, Songhua Liu, Xinchao Wang. 21481-21491 [doi]

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step DiffusionTrong-Tung Nguyen, Quang Nguyen, Khoi Nguyen 0001, Anh Tuan Tran 0001, Cuong Pham 0001. 21492-21501 [doi]

Dragin3D: Image Editing by Dragging in 3D SpaceWeiran Guang, Xiaoguang Gu, Mengqi Huang, Zhendong Mao 0001. 21502-21512 [doi]

Deformable Radial Kernel SplattingYi-Hua Huang, Ming-Xian Lin, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi. 21513-21523 [doi]

SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting SynthesisHyojun Go, Byeongjun Park, Jiho Jang, Jin Young Kim, Soonwoo Kwon, Changick Kim. 21524-21536 [doi]

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse PrimitivesAlex Hanson 0002, Allen Tu, Geng Lin, Vasu Singla, Matthias Zwicker, Tom Goldstein. 21537-21546 [doi]

GS-2DGS: Geometrically Supervised 2DGS for Reflective Object ReconstructionJinguang Tong, Xuesong Li, Fahira Afzal Maken, Sundaram Muthu, Lars Petersson, Chuong Nguyen, Hongdong Li. 21547-21557 [doi]

High-fidelity 3D Object Generation from Single Image with RGBN-Volume Gaussian Reconstruction ModelYiyang Shen, Kun Zhou 0001, He Wang, Yin Yang 0002, Tianjia Shao. 21558-21569 [doi]

MonoSplat: Generalizable 3D Gaussian Splatting from Monocular Depth Foundation ModelsYifan Liu 0010, Keyu Fan, Weihao Yu 0005, Chenxin Li, Hao Lu 0003, Yixuan Yuan. 21570-21579 [doi]

LITA-GS: Illumination-Agnostic Novel View Synthesis via Reference-Free 3D Gaussian Splatting and Physical PriorsHan Zhou, Wei Dong, Jun Chen. 21580-21589 [doi]

Splatter-360: Generalizable 360 Gaussian Splatting for Wide-baseline Panoramic ImagesZheng Chen 0016, Chenming Wu, Zhelun Shen, Chen Zhao 0011, Weicai Ye, Haocheng Feng, Errui Ding, Song-Hai Zhang. 21590-21599 [doi]

DropGaussian: Structural Regularization for Sparse-view Gaussian SplattingHyunwoo Park, Gun Ryu, Wonjun Kim. 21600-21609 [doi]

Panorama Generation From NFoV Image Done RightDian Zheng, Cheng Zhang, Xiao-Ming Wu 0002, Cao Li, Chengfei Lv, Jian-Fang Hu, Wei-Shi Zheng 0001. 21610-21619 [doi]

SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion ModelYucheng Mao, Boyang Wang, Nilesh Kulkarni, Jeong-Joon Park. 21620-21630 [doi]

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive DiffusionHao Wen, Zehuan Huang, Yaohui Wang 0001, Xinyuan Chen, Lu Sheng. 21631-21641 [doi]

MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and ReconstructionWenyuan Zhang, Yixiao Yang, Han Huang, Liang Han, Kanle Shi, Yu-Shen Liu, Zhizhong Han. 21642-21653 [doi]

SfM-Free 3D Gaussian Splatting via Hierarchical TrainingBo Ji 0004, Angela Yao. 21654-21663 [doi]

MVBoost: Boost 3D Reconstruction with Multi-View RefinementXiangyu Liu, Xiaomei Zhang, Zhiyuan Ma 0002, Xiangyu Zhu 0001, Zhen Lei 0001. 21664-21673 [doi]

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View SynthesisKhiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani. 21674-21684 [doi]

World-consistent Video Diffusion with Explicit 3D ModelingQihang Zhang, Shuangfei Zhai, Miguel Ángel Bautista Martin, Kevin Miao, Alexander Toshev, Joshua M. Susskind, Jiatao Gu. 21685-21695 [doi]

Improving Gaussian Splatting with Localized Points ManagementHaosen Yang 0003, Chenhao Zhang 0006, Wenqing Wang 0002, Marco Volino, Adrian Hilton 0001, Li Zhang, Xiatian Zhu. 21696-21705 [doi]

RelationField: Relate Anything in Radiance FieldsSebastian Koch, Johanna Wald, Mirco Colosi, Narunas Vaskevicius, Pedro Hermosilla, Federico Tombari, Timo Ropinski. 21706-21716 [doi]

GS-DiT: Advancing Video Generation with Dynamic 3D Gaussian Fields through Efficient Dense 3D Point TrackingWeikang Bian, Zhaoyang Huang, Xiaoyu Shi 0002, Yijin Li, Fu-Yun Wang, Hongsheng Li 0001. 21717-21727 [doi]

DynaMoDe-NeRF: Motion-aware Deblurring Neural Radiance Field for Dynamic ScenesAshish Kumar, A. N. Rajagopalan 0001. 21728-21738 [doi]

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian SplattingSeungjun Lee, Gim Hee Lee. 21739-21749 [doi]

FreeTimeGS: Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene ReconstructionYifan Wang, Peishan Yang, Zhen Xu, Jiaming Sun, Zhanhua Zhang, Yong Chen, Hujun Bao, Sida Peng, Xiaowei Zhou. 21750-21760 [doi]

GIFStream: 4D Gaussian-based Immersive Video with Feature StreamHao Li, Sicheng Li, Xiang Gao, Abudouaihati Batuer, Lu Yu, Yiyi Liao. 21761-21770 [doi]

DRAWER: Digital Reconstruction and Articulation With Environment RealismHongchi Xia, Entong Su, Marius Memmel, Arhan Jain, Raymond Yu, Numfor Mbiziwo-Tiapo, Ali Farhadi, Abhishek Gupta 0004, Shenlong Wang, Wei-Chiu Ma. 21771-21782 [doi]

Dynamic Neural Surfaces for Elastic 4D Shape Representation and AnalysisAwais Nizamani, Hamid Laga, Guanjin Wang, Farid Boussaïd, Mohammed Bennamoun, Anuj Srivastava. 21783-21792 [doi]

Higher-Order Ratio Cycles for Fast and Globally Optimal Shape MatchingPaul Roetzer, Viktoria Ehm, Daniel Cremers, Zorah Lähner, Florian Bernard. 21793-21803 [doi]

Event Ellipsometer: Event-based Mueller-Matrix Video ImagingRyota Maeda, Yunseong Moon, Seung-Hwan Baek. 21804-21813 [doi]

AniGrad: Anisotropic Gradient-Adaptive Sampling for 3D Reconstruction From Monocular VideoNoah Stier, Alex Rich 0001, Pradeep Sen, Tobias Höllerer. 21814-21823 [doi]

ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular VideosZetong Zhang, Manuel Kaufmann, Lixin Xue, Jie Song 0006, Martin R. Oswald. 21824-21835 [doi]

All-directional Disparity Estimation for Real-world QPD ImagesHongtao Yu, Shaohui Song, Lihu Sun, Wenkai Su, Xiaodong Yang, Chengming Liu. 21836-21846 [doi]

Mono2Stereo: A Benchmark and Empirical Study for Stereo ConversionSongsong Yu, Yuxin Chen, Zhongang Qi, Zeke Xie, Yifan Wang 0004, Lijun Wang, Ying Shan, Huchuan Lu. 21847-21856 [doi]

DEFOM-Stereo: Depth Foundation Model Based Stereo MatchingHualie Jiang, Zhiqiang Lou, Laiyan Ding, Rui Xu, Minglang Tan, Wenjie Jiang, Rui Huang. 21857-21867 [doi]

Improved Monocular Depth Prediction Using Distance Transform Over Pre-semantic Contours with Self-supervised Neural NetworksMarwane Hariat, Antoine Manzanera, David Filliat. 21868-21879 [doi]

Synthetic-to-Real Self-supervised Robust Depth Estimation via Learning with Motion and Structure PriorsWeilong Yan, Ming Li, HaiPeng Li, Shuwei Shao, Robby T. Tan. 21880-21890 [doi]

MP-SfM: Monocular Surface Priors for Robust Structure-from-MotionZador Pataki, Paul-Edouard Sarlin, Johannes L. Schönberger, Marc Pollefeys. 21891-21901 [doi]

PRaDA: Projective Radial Distortion AveragingDaniil Sinitsyn, Linus Härenstam-Nielsen, Daniel Cremers. 21902-21912 [doi]

Practical Solutions to the Relative Pose of Three Calibrated CamerasCharalambos Tzamos, Viktor Kocur, Yaqing Ding 0001, Daniel Barath, Zuzana Berger Haladová, Torsten Sattler, Zuzana Kukelova. 21913-21923 [doi]

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward PassJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli. 21924-21935 [doi]

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse ViewsShangzhan Zhang, Jianyuan Wang, Yinghao Xu, Nan Xue 0006, Christian Rupprecht 0001, Xiaowei Zhou 0001, Yujun Shen, Gordon Wetzstein. 21936-21947 [doi]

Reconstructing People, Places, and CamerasLea Müller, Hongsuk Choi, Anthony Zhang, Brent Yi, Jitendra Malik, Angjoo Kanazawa. 21948-21958 [doi]

Omnidirectional Multi-Object TrackingKai Luo, Hao Shi, Sheng Wu, Fei Teng, Mengfei Duan, Chang Huang, Yuhang Wang, Kaiwei Wang, Kailun Yang 0001. 21959-21969 [doi]

CoMatcher: Multi-View Collaborative Feature MatchingJintao Zhang, Zimin Xia, Mingyue Dong, Shuhan Shen, Linwei Yue, Xianwei Zheng. 21970-21980 [doi]

PIDLoc: Cross-View Pose Optimization Network Inspired by PID ControllersWooju Lee, Juhye Park, Dasol Hong, Changki Sung, YoungWoo Seo, Dongwan Kang, Hyun Myung. 21981-21990 [doi]

BLADE: Single-view Body Mesh Estimation through Accurate Depth EstimationShengze Wang 0002, Jiefeng Li, Tianye Li, Ye Yuan, Henry Fuchs, Koki Nagano, Shalini De Mello, Michael Stengel. 21991-22000 [doi]

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language ModelsWanhua Li 0001, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang 0001, Hanspeter Pfister. 22001-22011 [doi]

SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian SplattingGyeongjin Kang, Jisang Yoo, Jihyeon Park, Seungtae Nam, Hyeonsoo Im, Sangheon Shin, Sangpil Kim, Eunbyung Park. 22012-22022 [doi]

UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference ImageXingyu Liu, Gu Wang 0001, Ruida Zhang, Chenyangguang Zhang, Federico Tombari, Xiangyang Ji. 22023-22034 [doi]

Recurrent Feature Mining and Keypoint Mixup Padding for Category-Agnostic Pose EstimationJunjie Chen, Weilong Chen, Yifan Zuo, Yuming Fang. 22035-22044 [doi]

SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene FlowQingyuan Wang, Rui Song 0003, Jiaojiao Li 0001, Kerui Cheng, David Ferstl, Yinlin Hu. 22045-22054 [doi]

GIVEPose: Gradual Intra-class Variation Elimination for RGB-based Category-Level Object Pose EstimationZiqin Huang, Gu Wang 0001, Chenyangguang Zhang, Ruida Zhang, Xiu Li 0001, Xiangyang Ji. 22055-22066 [doi]

Robust Multi-Object 4D Generation for In-the-wild VideosWen-Hsuan Chu, Lei Ke, Jianmeng Liu, Mingxiao Huo, Pavel Tokmakov, Katerina Fragkiadaki. 22067-22077 [doi]

Category-Agnostic Neural Object RiggingGuangzhao He, Chen Geng 0001, Shangzhe Wu, Jiajun Wu 0001. 22078-22088 [doi]

PURA: Parameter Update-Recovery Test-Time Adaption for RGB-T TrackingZekai Shao, Yufan Hu, Bin Fan 0001, Hongmin Liu 0001. 22089-22098 [doi]

ACAttack: Adaptive Cross Attacking RGB-T Tracker via Multi-Modal Response DecouplingXinyu Xiang, Qinglong Yan, Hao Zhang 0073, Jiayi Ma 0001. 22099-22108 [doi]

Leveraging 3D Geometric Priors in 2D Rotation Symmetry DetectionAhyun Seo, Minsu Cho. 22109-22118 [doi]

SeCap: Self-Calibrating and Adaptive Prompts for Cross-view Person Re-Identification in Aerial-Ground NetworksShining Wang, Yunlong Wang 0008, Ruiqi Wu 0001, Bingliang Jiao, Wenxuan Wang 0003, Peng Wang 0015. 22119-22128 [doi]

HyperNet Fields: Efficiently Training Hypernetworks without Ground Truth by Learning Weight TrajectoriesEric Hedlin, Munawar Hayat, Fatih Porikli, Kwang Moo Yi, Shweta Mahajan. 22129-22138 [doi]

Learning Bijective Surface Parameterization for Inferring Signed Distance Functions from Sparse Point Clouds with Grid DeformationTakeshi Noda, Chao Chen, Junsheng Zhou, Weiqi Zhang, Yu-Shen Liu, Zhizhong Han. 22139-22149 [doi]

EdgeMovingNet: Edge-preserving Point Cloud Reconstruction via Joint Geometry FeaturesXinran Yang, Donghao Ji, Yuanqi Li, Junyuan Xie, Jie Guo, Yanwen Guo 0001. 22150-22160 [doi]

GraphI2P: Image-to-Point Cloud Registration with Exploring Pattern of Correspondence via Graph LearningLin Bie, Shouan Pan, Siqi Li 0001, Yining Zhao, Yue Gao 0002. 22161-22171 [doi]

RENO: Real-Time Neural Compression for 3D LiDAR Point CloudsKang You, Tong Chen 0004, Dandan Ding, M. Salman Asif, Zhan Ma. 22172-22181 [doi]

Point Clouds Meets Physics: Dynamic Acoustic Field Fitting Network for Point Cloud UnderstandingChangshuo Wang 0001, Shuting He, Xiang Fang, Jiawei Han, Zhonghang Liu, Xin Ning 0001, Weijun Li, Prayag Tiwari. 22182-22192 [doi]

Sonata: Self-Supervised Learning of Reliable Point RepresentationsXiaoyang Wu 0002, Daniel DeTone, Duncan P. Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob J. Engel, Richard A. Newcombe, Hengshuang Zhao, Julian Straub. 22193-22204 [doi]

Generative Hard Example Augmentation for Semantic Point Cloud SegmentationQi Zhang, Jibin Peng, Zhao Huang, Wei Feng 0005, Di Lin 0002. 22205-22214 [doi]

BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with TransformerYuzhou Liu, Lingjie Zhu, Hanqiao Ye, Shangfeng Huang, Xiang Gao, Xianwei Zheng, Shuhan Shen. 22215-22224 [doi]

Cubify Anything: Scaling Indoor 3D Object DetectionJustin Lazarow, David Griffiths, Gefen Kohavi, Francisco Crespo, Afshin Dehghan. 22225-22233 [doi]

Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point CloudsMohamed Abdelsamad, Michael Ulrich, Claudius Gläser, Abhinav Valada. 22234-22243 [doi]

Unlocking Generalization Power in LiDAR Point Cloud RegistrationZhenxuan Zeng, Qiao Wu, Xiyu Zhang 0001, Lin Yuanbo Wu, Pei-an, Jiaqi Yang, Ji Wang, Peng Wang. 22244-22253 [doi]

Distilling Monocular Foundation Model for Fine-grained Depth CompletionYingping Liang, Yutao Hu, Wenqi Shao, Ying Fu. 22254-22265 [doi]

MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object DetectionHou-I Liu, Christine Wu, Jen-Hao Cheng, Wenhao Chai, Shian-Yun Wang, Gaowen Liu, Hugo Latapie, Jhih-Ciang Wu, Jenq-Neng Hwang, Hong-Han Shuai, Wen-Huang Cheng. 22266-22275 [doi]

RICCARDO: Radar Hit Prediction and Convolution for Camera-Radar 3D Object DetectionYunfei Long, Abhinav Kumar 0004, Xiaoming Liu 0002, Daniel D. Morris. 22276-22285 [doi]

UCM-VeID V2: A Richer Dataset and A Pre-training Method for UAV Cross-Modality Vehicle Re-IdentificationXingyue Liu, Jiahao Qi, Chen Chen, Kangcheng Bin, Ping Zhong. 22286-22295 [doi]

SparseAlign: a Fully Sparse Framework for Cooperative Object DetectionYunshuang Yuan, Yan Xia 0003, Daniel Cremers, Monika Sester. 22296-22305 [doi]

Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles PerceptionLuke Chen, Junyao Wang 0001, Trier Mortlock, Pramod P. Khargonekar, Mohammad Abdullah Al Faruque. 22306-22316 [doi]

Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene ReconstructionDongxu Wei, Zhiqi Li, Peidong Liu. 22317-22327 [doi]

Floxels: Fast Unsupervised Voxel Based Scene Flow EstimationDavid T. Hoffmann, Syed Haseeb Raza, Hanqiu Jiang, Denis Tananaev, Steffen Klingenhoefer, Martin Meinke. 22328-22337 [doi]

Spatiotemporal Decoupling for Efficient Vision-Based Occupancy ForecastingJingyi Xu, Xieyuanli Chen, Junyi Ma, Jiawei Huang, Jintao Xu 0001, Yue Wang 0020, Ling Pei. 22338-22347 [doi]

Rectification-specific Supervision and Constrained Estimator for Online Stereo RectificationRui Gong, Kim-Hui Yap, Weide Liu, XuLei Yang, Jun Cheng 0003. 22348-22358 [doi]

Uncertainty-Instructed Structure Injection for Generalizable HD Map ConstructionXiaolu Liu, Ruizi Yang, Song Wang, Wentong Li 0001, Junbo Chen, Jianke Zhu. 22359-22368 [doi]

JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image RestorationYunlong Lin, Zixu Lin, Haoyu Chen 0003, Panwang Pan, Chenxin Li, Sixiang Chen, Kairun Wen, Yeying Jin, Wenbo Li, Xinghao Ding. 22369-22380 [doi]

MaskGWM: A Generalizable Driving World Model with Video Mask ReconstructionJingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu. 22381-22391 [doi]

GenAssets: Generating in-the-wild 3D Assets in Latent SpaceZe Yang 0003, Jingkang Wang, Haowei Zhang, Sivabalan Manivasagam, Yun Chen 0014, Raquel Urtasun. 22392-22403 [doi]

GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition ControlMariam Hassan, Sebastian Stapf, Ahmad Rahimi, Pedro M. B. Rezende, Yasaman Haghighi, David Brüggemann, Isinsu Katircioglu, Lin Zhang, Xiaoran Chen, Suman Saha, Marco Cannici, Elie Aljalbout, Botao Ye, Xi Wang, Aram Davtyan, Mathieu Salzmann, Davide Scaramuzza 0001, Marc Pollefeys, Paolo Favaro, Alexandre Alahi. 22404-22415 [doi]

Continuous Locomotive Crowd Behavior GenerationInhwan Bae, Junoh Lee, Hae-Gon Jeon. 22416-22431 [doi]

Don't Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous DrivingZiying Song, Caiyan Jia, Lin Liu, Hongyu Pan, Yongchang Zhang, Junming Wang, Xingyu Zhang, Shaoqing Xu, Lei Yang 0060, Yadan Luo. 22432-22441 [doi]

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual ReasoningShihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, José M. Álvarez 0004. 22442-22452 [doi]

Embodied Scene Understanding for Vision Language Models via MetaVQAWeizhen Wang, Chenda Duan, Zhenghao Peng, Yuxin Liu, Bolei Zhou. 22453-22464 [doi]

SocialMOIF: Multi-Order Intention Fusion for Pedestrian Trajectory PredictionKai Chen, Xiaodong Zhao, Yujie Huang, Guoyu Fang, Xiao Song, Ruiping Wang, Ziyuan Wang. 22465-22475 [doi]

Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory ModelingGuillem Capellera, Antonio Rubio 0001, Luis Ferraz, Antonio Agudo. 22476-22486 [doi]

RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation ModelsGreg Heinrich, Mike Ranzinger, Hongxu Yin, Yao Lu 0006, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov 0001. 22487-22497 [doi]

Let Humanoids Hike! Integrative Skill Development on Complex TrailsKwan-Yee Lin, Stella X. Yu. 22498-22507 [doi]

Universal Actions for Enhanced Embodied Foundation ModelsJinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, ZhiHao Wang, Zhonghong Ou, Yu Liu 0015, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan. 22508-22519 [doi]

Tartan IMU: A Light Foundation Model for Inertial Positioning in RoboticsShibo Zhao, Sifan Zhou, Raphael Blanchard, Yuheng Qiu, Wenshan Wang, Sebastian Scherer. 22520-22529 [doi]

3D-MVP: 3D Multiview Pretraining for ManipulationShengyi Qian 0001, Kaichun Mo, Valts Blukis, David F. Fouhey, Dieter Fox, Ankit Goyal 0001. 22530-22539 [doi]

RoboGround: Robotic Manipulation with Grounded Vision-Language PriorsHaifeng Huang, Xinyi Chen, Yilun Chen, Hao Li 0009, Xiaoshen Han, Zehan Wang 0001, Tai Wang, Jiangmiao Pang, Zhou Zhao 0001. 22540-22550 [doi]

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic ManipulationJiaming Zhou, Teli Ma, Kun-Yu Lin, Zifan Wang, Ronghe Qiu, Junwei Liang 0001. 22551-22561 [doi]

Prof. Robot: Differentiable Robot Rendering Without Static and Self-CollisionsQuanyuan Ruan, Jiabao Lei, Wenhao Yuan 0007, Yanglin Zhang, Dekun Lu, Guiliang Liu, Kui Jia. 22562-22572 [doi]

Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot ManipulationYuanqi Yao, Siao Liu, Haoming Song, Delin Qu, Qizhi Chen, Yan Ding, Bin Zhao, Zhigang Wang, Xuelong Li, Dong Wang. 22573-22583 [doi]

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics AwarenessYiming Zhong, Qi Jiang, Jingyi Yu, Yuexin Ma. 22584-22594 [doi]

CheckManual: A New Challenge and Benchmark for Manual-based Appliance ManipulationYuxing Long, Jiyao Zhang, Mingjie Pan, Tianshu Wu, Taewhan Kim, Hao Dong. 22595-22604 [doi]

InteractVLM: 3D Interaction Reasoning from 2D Foundational ModelsSai Kumar Dwivedi, Dimitrije Antic, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas. 22605-22615 [doi]

VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors EmbeddingYujie Liang, Xiaobin Hu, Boyuan Jiang, Donghao Luo 0001, Xu Peng, Kai Wu, Chengming Xu 0001, Wenhui Han, Taisong Jin, Chengjie Wang, Rongrong Ji. 22616-22626 [doi]

Pose-Guided Temporal Enhancement for Robust Low-Resolution Hand ReconstructionKaixin Fan, Pengfei Ren 0001, Jingyu Wang, Haifeng Sun 0001, Qi Qi 0001, Zirui Zhuang, Jianxin Liao. 22627-22637 [doi]

GaPT-DAR: Category-level Garments Pose Tracking via Integrated 2D Deformation and 3D ReconstructionLi Zhang, Mingliang Xu, Jianan Wang, Qiaojun Yu, Lixin Yang, Yonglu Li, Cewu Lu, Rujing Wang, Liu Liu. 22638-22647 [doi]

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose InteractionDong Li, Wenqi Zhong, Wei Yu, Yingwei Pan, Dingwen Zhang, Ting Yao, Junwei Han, Tao Mei. 22648-22657 [doi]

A Focused Human Body Model for Accurate Anthropometric Measurements ExtractionShuhang Chen, Xianliang Huang, Zhizhou Zhong, Juhong Guan, Shuigeng Zhou. 22658-22667 [doi]

Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal InputJian Wang 0111, Rishabh Dabral, Diogo C. Luvizon, Zhe Cao, Lingjie Liu, Thabo Beeler, Christian Theobalt. 22668-22679 [doi]

MotionMap: Representing Multimodality in Human Pose ForecastingReyhaneh HosseiniNejad, Megh Shukla, Saeed Saadatnejad, Mathieu Salzmann, Alexandre Alahi. 22680-22689 [doi]

POMP: Physics-constrainable Motion Generative Model through Phase Manifoldsbin Ji, Ye Pan, Zhimeng Liu, Shuai Tan, Xiaogang Jin 0001, Xiaokang Yang 0001. 22690-22701 [doi]

H-MoRe: Learning Human-centric Motion Representation for Action AnalysisZhanbo Huang, Xiaoming Liu, Yu Kong. 22702-22713 [doi]

Guiding Human-Object Interactions with Rich Geometry and RelationsMengqing Xue, YiFei Liu, Ling Guo, Shaoli Huang, Changxing Ding. 22714-22723 [doi]

Deterministic-to-Stochastic Diverse Latent Feature Mapping for Human Motion SynthesisYu Hua 0006, Weiming Liu 0005, Gui Xu, Yaqing Hou, Yew-Soon Ong, Qiang Zhang. 22724-22734 [doi]

Dynamic Motion Blending for Versatile Motion EditingNan Jiang, Hongjie Li, Ziye Yuan, Zimo He, Yixin Chen, Tengyu Liu, Yixin Zhu 0001, Siyuan Huang. 22735-22745 [doi]

AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision RewardHaonan Han, Xiangzuo Wu, Huan Liao, Zunnan Xu, Zhongyuan Hu, Ronghui Li, Yachao Zhang 0001, Xiu Li. 22746-22755 [doi]

PersonaBooth: Personalized Text-to-Motion GenerationBoeun Kim, Hea In Jeong, Junghoon Sung, Yihua Cheng, JeongMin Lee, Ju Yong Chang, Sang-Il Choi, Younggeun Choi, Saim Shin, Jungho Kim, Hyung Jin Chang. 22756-22765 [doi]

Move-in-2D: 2D-Conditioned Human Motion GenerationHsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang 0001, Zhan Xu. 22766-22775 [doi]

PoseTraj: Pose-Aware Trajectory Control in Video DiffusionLongbin Ji, Lei Zhong, Pengfei Wei, Changjian Li. 22776-22785 [doi]

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the WildJunhyeong Cho, Kim Youwang, Hunmin Yang, Tae Hyun Oh. 22786-22798 [doi]

HuPerFlow: A Comprehensive Benchmark for Human vs. Machine Motion Estimation ComparisonYung-Hao Yang, Zitang Sun, Taiki Fukiage, Shin'ya Nishida. 22799-22808 [doi]

Tracktention: Leveraging Point Tracking to Attend Videos Faster and BetterZihang Lai, Andrea Vedaldi. 22809-22819 [doi]

Align3R: Aligned Monocular Depth Estimation for Dynamic VideosJiahao Lu, Tianyu Huang, Peng Li, Zhiyang Dou, Cheng Lin, Zhiming Cui, Zhen Dong 0005, Sai Kit Yeung, Wenping Wang, Yuan Liu. 22820-22830 [doi]

Video Depth Anything: Consistent Depth Estimation for Super-Long VideosSili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang. 22831-22840 [doi]

Learning Temporally Consistent Video Depth from Video Diffusion PriorsJiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang 0008, Yujun Shen, Vitor Guizilini, Yue Wang, Matteo Poggi, Yiyi Liao. 22841-22852 [doi]

Efficient Long Video Tokenization via Coordinate-based Patch ReconstructionHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo. 22853-22863 [doi]

MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video GenerationShuwei Shi, Biao Gong, Xi Chen, Dandan Zheng, Shuai Tan, Zizheng Yang, Yuyuan Li, Jingwen He, Kecheng Zheng, Jingdong Chen, Ming Yang, Yinqiang Zheng. 22864-22874 [doi]

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion TransformersSherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov. 22875-22889 [doi]

Using Diffusion Priors for Video Amodal SegmentationKaihua Chen, Deva Ramanan, Tarasha Khurana. 22890-22900 [doi]

VideoSPatS: Video SPatiotemporal Splines for Disentangled Occlusion, Appearance and Motion Modeling and EditingJuan Luis Gonzalez, Xu Yao, Alex Whelan, Kyle Olszewski, Hyeongwoo Kim, Pablo Garrido 0001. 22901-22910 [doi]

Video Motion Transfer with Diffusion TransformersAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr 0001, Fabio Pizzati. 22911-22921 [doi]

VidTwin: Video VAE with Decoupled Structure and DynamicsYuChi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun 0001, Jiang Bian 0002. 22922-22932 [doi]

HyperNVD: Accelerating Neural Video Decomposition via HypernetworksMaria Pilligua, Danna Xue, Javier Vazquez-Corral. 22933-22942 [doi]

Hierarchical Flow Diffusion for Efficient Frame InterpolationYang Hai, Guo Wang, Tan Su, Wenjie Jiang, Yinlin Hu. 22943-22952 [doi]

HomoGen: Enhanced Video Inpainting via Homography Propagation and DiffusionDing Ding 0004, Yueming Pan, Ruoyu Feng, Qi Dai, Kai Qiu, Jianmin Bao, Chong Luo, Zhenzhong Chen. 22953-22962 [doi]

From Slow Bidirectional to Fast Autoregressive Video Diffusion ModelsTianwei Yin, Qiang Zhang, Richard Zhang 0001, William T. Freeman, Frédo Durand, Eli Shechtman, Xun Huang. 22963-22974 [doi]

Blind Bitstream-corrupted Video Recovery via Metadata-guided Diffusion ModelShuyun Wang, Hu Zhang 0005, Xin Shen, Dadong Wang, Xin Yu 0002. 22975-22984 [doi]

VidSeg: Training-free Video Semantic Segmentation based on Diffusion ModelsQian Wang, Abdelrahman Eldesokey, Mohit Mendiratta, Fangneng Zhan, Adam Kortylewski, Christian Theobalt, Peter Wonka. 22985-22994 [doi]

Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation ModelYue-Hua Han, Tai-Ming Huang, Kai-Lung Hua, Jun-Cheng Chen. 22995-23005 [doi]

Parameterized Blur Kernel Prior Learning for Local Motion DeblurringZhenxuan Fang, Fangfang Wu, Tao Huang, Le Dong, Weisheng Dong, Xin Li 0005, Guangming Shi. 23006-23015 [doi]

Around the World in 80 Timesteps: A Generative Approach to Global Visual GeolocationNicolas Dufour, Vicky Kalogeiton, David Picard, Loïc Landrieu. 23016-23026 [doi]

Cross-Rejective Open-Set SAR Image RegistrationShasha Mao, Shiming Lu, Zhaolong Du, Licheng Jiao, Shuiping Gou, Luntian Mou, Xuequan Lu, Lin Xiong, Yimeng Zhang. 23027-23036 [doi]

Meta-Learning Hyperparameters for Parameter Efficient Fine-TuningZichen Tian, Yaoyao Liu 0001, Qianru Sun. 23037-23047 [doi]

HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing ImageryJingtao Li, Yingyi Liu, Xinyu Wang 0003, Yunning Peng, Chen Sun, Shaoyu Wang, Zhendong Sun, Tian Ke, Xiao Jiang, Tangwei Lu, Anran Zhao, Yanfei Zhong. 23048-23058 [doi]

MINIMA: Modality Invariant Image MatchingJiangwei Ren, Xingyu Jiang, Zizhuo Li, Dingkang Liang, Xin Zhou 0013, Xiang Bai. 23059-23068 [doi]

U-Know-DiffPAN: An Uncertainty-aware Knowledge Distillation Diffusion Framework with Details Enhancement for PAN-SharpeningSungpyo Kim, Jeonghyeok Do, Jaehyup Lee, Munchurl Kim. 23069-23079 [doi]

QMambaBSR: Burst Image Super-Resolution with Query State Space ModelXin Di, Long Peng 0003, Peizhe Xia, Wenbo Li, Renjing Pei, Yang Cao 0010, Yang Wang 0015, Zheng-Jun Zha. 23080-23090 [doi]

Learning Hazing to Dehazing: Towards Realistic Haze Generation for Real-World Image DehazingRuiyi Wang, Yushuo Zheng, Zicheng Zhang, Chunyi Li, Shuaicheng Liu, Guangtao Zhai, Xiaohong Liu. 23091-23100 [doi]

ADD: Attribution-Driven Data Augmentation Framework for Boosting Image Super-ResolutionZe-Yu Mi, Yu-Bin Yang. 23101-23110 [doi]

Gyro-based Neural Single Image DeblurringHeemin Yang, Jaesung Rim, Seungyong Lee 0001, Seung-Hwan Baek, Sunghyun Cho. 23111-23120 [doi]

UHD-processer: Unified UHD Image Restoration with Progressive Frequency Learning and Degradation-aware PromptsYidi Liu, Dong Li, Xueyang Fu, Xin Lu 0006, Jie Huang 0017, Zheng-Jun Zha. 23121-23130 [doi]

AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual LearningYuheng Xu, Shijie Yang, Xin Liu, Jie Liu, Jie Tang 0006, Gangshan Wu. 23131-23140 [doi]

The Power of Context: How Multimodality Improves Image Super-ResolutionKangfu Mei, Hossein Talebi, Mojtaba Ardakani, Vishal M. Patel, Peyman Milanfar, Mauricio Delbracio. 23141-23152 [doi]

Arbitrary-steps Image Super-resolution via Diffusion InversionZongsheng Yue, Kang Liao, Chen Change Loy. 23153-23163 [doi]

Understanding Multi-layered Transmission MatricesAnat Levin, Marina Alterman. 23164-23173 [doi]

TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-ResolutionLinwei Dong, Qingnan Fan, Yihong Guo, Zhonghao Wang, Qi Zhang, Jinwei Chen, Yawei Luo, Changqing Zou. 23174-23184 [doi]

FiRe: Fixed-points of Restoration Priors for Solving Inverse ProblemsMatthieu Terris, Ulugbek S. Kamilov, Thomas Moreau 0001. 23185-23194 [doi]

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image RestorationJunyuan Deng, Xinyi Wu 0002, Yongxing Yang, Congchao Zhu, Song Wang 0002, Zhenyao Wu. 23195-23206 [doi]

Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in DualChong Wang 0011, Lanqing Guo, Zixuan Fu, Siyuan Yang 0001, Hao Cheng 0016, Alex C. Kot, Bihan Wen. 23207-23216 [doi]

SoftShadow: Leveraging Soft Masks for Penumbra-Aware Shadow RemovalXinrui Wang 0004, Lanqing Guo, Xiyu Wang, Siyu Huang, Bihan Wen. 23217-23226 [doi]

Finding Local Diffusion Schrodinger Bridge using Kolmogorov-Arnold NetworkXingyu Qiu, Mengying Yang, Xinghua Ma, Fanding Li, Dong Liang, Gongning Luo, Wei Wang 0169, Kuanquan Wang, Shuo Li 0001. 23227-23236 [doi]

Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color ConsistencyYikai Wang 0002, Chenjie Cao, Junqiu Yu, Ke-fan, Xiangyang Xue, Yanwei Fu 0001. 23237-23248 [doi]

Fitted Neural Lossless Image CompressionZhe Zhang, Zhenzhong Chen, Shan Liu 0001. 23249-23258 [doi]

Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein DistortionJona Ballé, Luca Versari, Emilien Dupont, Hyunjik Kim, Matthias Bauer. 23259-23268 [doi]

CacheQuant: Comprehensively Accelerated Diffusion ModelsXuewen Liu, Zhikai Li, Qingyi Gu. 23269-23280 [doi]

Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task LearningQianli Ma, Xuefei Ning, Dongrui Liu, Li Niu, Linfeng Zhang 0001. 23281-23291 [doi]

Decoupling Training-Free Guided Diffusion by ADMMYouyuan Zhang, Zehua Liu, Zenan Li, Zhaoyu Li, James J. Clark, Xujie Si. 23292-23302 [doi]

DiverseFlow: Sample-Efficient Diverse Mode Coverage in FlowsMashrur M. Morshed, Vishnu Boddeti. 23303-23312 [doi]

PCM : Picard Consistency Model for Fast Parallel Sampling of Diffusion ModelsJunhyuk So, Jiwoong Shin, Chaeyeon Jang, Eunhyeok Park. 23313-23322 [doi]

Decentralized Diffusion ModelsDavid McAllister, Matthew Tancik, Jiaming Song, Angjoo Kanazawa. 23323-23333 [doi]

Collaborative Decoding Makes Visual Auto-Regressive Modeling EfficientZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang. 23334-23344 [doi]

Easy-editable Image Vectorization with Multi-layer Multi-scale Distributed Visual Feature EmbeddingYe Chen, Zhangli Hu, Zhongyin Zhao, Yupeng Zhu, Yue Shi, Yuxuan Xiong, Bingbing Ni. 23345-23354 [doi]

SketchAgent: Language-Driven Sequential Sketch GenerationYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E. Fan, Antonio Torralba 0001. 23355-23368 [doi]

Animate and Sound an ImageXihua Wang, Ruihua Song, Chongxuan Li, Xin Cheng 0008, Boyuan Li, Yihan Wu, Yuyue Wang 0003, Hongteng Xu, Yunfeng Wang. 23369-23378 [doi]

SketchVideo: Sketch-based Video Generation and EditingFeng-Lin Liu, Hongbo Fu 0001, Xintao Wang, Weicai Ye, Pengfei Wan 0001, Di Zhang, Lin Gao 0004. 23379-23390 [doi]

Image Referenced Sketch Colorization Based on Animation Creation WorkflowDingkun Yan, Xinrui Wang, Zhuoru Li, Suguru Saito, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo. 23391-23400 [doi]

Unity in Diversity: Video Editing via Gradient-Latent PurificationJunyu Gao 0001, Kunlin Yang, Xuan Yao, Yufan Hu. 23401-23411 [doi]

Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image GenerationZilyu Ye, Zhiyang Chen 0002, Tiancheng Li, Zemin Huang, Weijian Luo, Guo-Jun Qi. 23412-23422 [doi]

Chebyshev Attention Depth Permutation Texture Network with Latent Texture Attribute LossRavishankar Evani, Deepu Rajan, Shangbo Mao. 23423-23432 [doi]

HSI: A Holistic Style Injector for Arbitrary Style TransferShuhao Zhang, Hui Kang, Yang Liu, Fang Mei, Hongjuan Li. 23433-23442 [doi]

StyleStudio: Text-Driven Style Transfer with Selective Control of Style ElementsMingkun Lei, Xue-song, Beier Zhu, Hao Wang, Chi Zhang. 23443-23452 [doi]

ZoomLDM: Latent Diffusion Model for Multi-scale Image GenerationSrikar Yellapragada, Alexandros Graikos, Kostas Triaridis, Prateek Prasanna, Rajarsi Gupta 0001, Joel H. Saltz, Dimitris Samaras. 23453-23463 [doi]

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion ModelsJinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang 0001. 23464-23473 [doi]

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image EditingYoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang. 23474-23483 [doi]

Visual Representation Learning through Causal Intervention for Controllable Image EditingShanshan Huang 0004, Haoxuan Li, Chunyuan Zheng 0001, Lei Wang 0197, Guorui Liao, Zhili Gong, Huayi Yang, Li Liu 0001. 23484-23493 [doi]

MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt TuningWenhao Gu, Li Gu, Chingyee Yee Suen, Yang Wang. 23494-23504 [doi]

ACE: Anti-Editing Concept Erasure in Text-to-Image ModelsZihao Wang, Yuxiang Wei 0001, Fan Li, Renjing Pei, Hang Xu 0004, Wangmeng Zuo. 23505-23515 [doi]

Goku: Flow Based Video Generative Foundation ModelsShoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu. 23516-23527 [doi]

Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar SubjectsWeimin Qiu, Jieke Wang, Meng Tang. 23528-23538 [doi]

Adapting Text-to-Image Generation with Feature Difference Instruction for Generic Image RestorationChao Wang, Hehe Fan, Huichen Yang, Sarvnaz Karimi, Lina Yao, Yi Yang 0001. 23539-23550 [doi]

Boost Your Human Image Generation Model via Direct Preference OptimizationSanghyeon Na, Yonggyu Kim, Hyunjoon Lee. 23551-23562 [doi]

One-Way Ticket: Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion ModelsSenmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer 0001, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang 0003. 23563-23574 [doi]

Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image SynthesisBoming Miao, Chunxiao Li, Xiaoxiao Wang, Andi Zhang 0004, Rui Sun, Zizhe Wang, Yao Zhu. 23575-23584 [doi]

LaTexBlend: Scaling Multi-concept Customized Generation with Latent Textual BlendingJian Jin, Zhenbo Yu, Yang Shen, Zhenyong Fu, Jian Yang. 23585-23594 [doi]

Devil is in the Detail: Towards Injecting Fine Details of Image Prompt in Image Generation via Conflict-free Guidance and Stratified AttentionKyungmin Jo, Jooyeol Yun, Jaegul Choo. 23595-23603 [doi]

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse RewardsZijing Hu, Fengda Zhang, Long Chen 0016, Kun Kuang, Jiahui Li 0003, Kaifeng Gao, Jun Xiao, Xin Wang, Wenwu Zhu 0001. 23604-23614 [doi]

BizGen: Advancing Article-level Visual Text Rendering for Infographics GenerationYuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan. 23615-23624 [doi]

Learning to Sample Effective and Diverse Prompts for Text-to-Image GenerationTaeyoung Yun, Dinghuai Zhang, Jinkyoo Park, Ling Pan. 23625-23635 [doi]

ReNeg: Learning Negative Embedding with Reward GuidanceXiaomin Li, Yixuan Liu 0004, Takashi Isobe, Xu Jia, Qinpeng Cui, Dong Zhou 0003, Dong Li, You He, Huchuan Lu, Zhongdao Wang, Emad Barsoum. 23636-23645 [doi]

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene GenerationZehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li 0001, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng. 23646-23657 [doi]

ROICtrl: Boosting Instance Control for Visual GenerationYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma 0002, Kevin Qinghong Lin, Mike Zheng Shou. 23658-23667 [doi]

Turbo3D: Ultra-fast Text-to-3D GenerationHanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan 0002, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang 0045. 23668-23678 [doi]

WeGen: A Unified Model for Interactive Multimodal Generation as We ChatZhipeng Huang 0014, Shaobin Zhuang, Canmiao Fu, Binxin Yang, Ying Zhang, Chong Sun, Zhizheng Zhang 0004, Yali Wang, Chen Li, Zheng-Jun Zha. 23679-23689 [doi]

Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion ModelsRonghuan Wu, Wanchao Su, Jing Liao 0001. 23690-23700 [doi]

AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language ModelsSohan Patnaik, Rishabh Jain, Balaji Krishnamurthy, Mausoom Sarkar. 23701-23711 [doi]

Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program SynthesisFeng Zhou, Ruiyang Liu, Chen Liu, Gaofeng He, Yong-Lu Li 0001, Xiaogang Jin 0001, Huamin Wang. 23712-23722 [doi]

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion ModelsXinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He. 23723-23733 [doi]

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion ModelsFernando Julio Cendra, Kai Han 0001. 23734-23743 [doi]

Multi-Group Proportional Representations for Text-to-Image ModelsSangwon Jung, Alex Oesterling, Claudio Mayrink Verdun, Sajani Vithana, Taesup Moon, Flávio P. Calmon. 23744-23754 [doi]

What Makes a Good Dataset for Knowledge Distillation?Logan Frank, Jim Davis. 23755-23764 [doi]

STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion ModelsKoushik Srivatsan, Fahad Shamshad, Muzammal Naseer, Vishal M. Patel, Karthik Nandakumar. 23765-23774 [doi]

PersonaHOI: Effortlessly Improving Face Personalization in Human-Object Interaction GenerationXinting Hu, Haoran Wang, Jan Eric Lenssen, Bernt Schiele. 23775-23784 [doi]

Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive JailbreakingJunxi Chen, Junhao Dong, Xiaohua Xie. 23785-23794 [doi]

Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAIWon Jun Kim, Hyungjin Chung, Jaemin Kim, Sangmin Lee, Byeongsu Sim, Jong Chul Ye. 23795-23805 [doi]

Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative EditingHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao 0016, Sijia Liu, Zhengzhong Tu. 23806-23816 [doi]

Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?Yuechen Xie, Jie Song, Huiqiong Wang, Mingli Song. 23817-23827 [doi]

Towards Universal AI-Generated Image Detection by Variational Information Bottleneck NetworkHaifeng Zhang, Qinghui He, Xiuli Bi, Weisheng Li 0001, Bo Liu 0047, Bin Xiao 0002. 23828-23837 [doi]

NightAdapter: Learning a Frequency Adapter for Generalizable Night-time Scene SegmentationQi Bi, Jingjun Yi, Huimin Huang, Hao Zheng 0008, Haolan Zhan, Yawen Huang, Yuexiang Li, Xian Wu 0001, Yefeng Zheng 0001. 23838-23849 [doi]

D^3: Scaling Up Deepfake Detection by Learning from DiscrepancyYongqi Yang, Zhihao Qian, Ye Zhu, Olga Russakovsky, Yu Wu 0011. 23850-23859 [doi]

Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect DetectionFeng Yan, Xiaoheng Jiang, Yang Lu 0016, Jiale Cao, Dong Chen, Mingliang Xu 0001. 23860-23869 [doi]

Neuro-3D: Towards 3D Visual Decoding from EEG SignalsZhanqiang Guo, Jiamin Wu, Yonghao Song, Jiahui Bu, Weijian Mai, Qihao Zheng, Wanli Ouyang, Chunfeng Song. 23870-23880 [doi]

Spectral State Space Model for Rotation-Invariant Visual Representation LearningSahar Dastani, Ali Bahri, Moslem Yazdanpanah, Mehrdad Noori, David Osowiechi, Gustavo Adolfo Vargas Hakim, Farzad Beizaee, Milad Cheraghalikhani, Arnab Kumar Mondal, Herve Lombaert, Christian Desrosiers. 23881-23890 [doi]

3D Prior Is All You Need: Cross-Task Few-shot 2D Gaze EstimationYihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue, Boeun Kim, Feng Lu, Hyung Jin Chang. 23891-23900 [doi]

HD-EPIC: A Highly-Detailed Egocentric Video DatasetToby Perrett, Ahmad Darkhalil, Saptarshi Sinha, Omar Emara, Sam Pollard, Kranti Kumar Parida, Kaiting Liu, Prajwal Gatti, Siddhant Bansal, Kevin Flanagan, Jacob Chalk, Zhifan Zhu 0001, Rhodri Guerrier, Fahd Abdelazim, Bin Zhu 0006, Davide Moltisanti, Michael Wray, Hazel Doughty, Dima Damen. 23901-23913 [doi]

Customized Condition Controllable Generation for Video SoundtrackFan Qi, Kunsheng Ma, Changsheng Xu. 23914-23924 [doi]

Learning to Highlight Audio by Watching MoviesChao Huang, Ruohan Gao, J. M. F. Tsang, Jan Kurcius, Cagdas Bilen, Chenliang Xu, Anurag Kumar, Sanjeel Parekh. 23925-23935 [doi]

Supervising Sound Localization by In-the-wild EgomotionAnna Min, Ziyang Chen, Hang Zhao, Andrew Owens. 23936-23946 [doi]

TSAM: Temporal SAM Augmented with Multimodal Prompts for Referring Audio-Visual SegmentationAbduljalil Radman, Jorma Laaksonen. 23947-23956 [doi]

Audio-Visual Semantic Graph Network for Audio-Visual Event LocalizationLiang Liu, Shuaiyong Li, Yongqiang Zhu. 23957-23966 [doi]

Language-Guided Audio-Visual Learning for Long-Term Sports AssessmentHuangbiao Xu, Xiao Ke, Huanqi Wu, Rui Xu, Yuezhou Li, Wenzhong Guo. 23967-23977 [doi]

Mimir: Improving Video Diffusion Models for Precise Text UnderstandingShuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang 0007. 23978-23988 [doi]

Mind the Time: Temporally-Controlled Multi-Event Video GenerationZiyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov. 23989-24000 [doi]

HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video GenerationKun Liu 0016, Qi Liu 0081, Xinchen Liu, Jie Li, Yongdong Zhang 0001, Jiebo Luo 0001, Xiaodong He, Wu Liu. 24001-24010 [doi]

Change3D: Revisiting Change Detection and Captioning from A Video Modeling PerspectiveDuowang Zhu, Xiaohu Huang, Haiyan Huang, Hao Zhou, Zhenfeng Shao. 24011-24022 [doi]

DejaVid: Encoder-Agnostic Learned Temporal Matching for Video ClassificationDarryl Ho, Samuel Madden. 24023-24032 [doi]

When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation LearningYang Liu, Qianqian Xu, Peisong Wen, Siran Dai, Qingming Huang. 24033-24044 [doi]

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and ReactionRui Qian 0001, Shuangrui Ding, Xiaoyi Dong, Pan Zhang 0001, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang 0003. 24045-24055 [doi]

Protecting Your Video Content: Disrupting Automated Video-based LLM AnnotationsHaitong Liu, Kuofeng Gao, Yang Bai, Jinmin Li, Jinxiao Shan, Tao Dai 0001, Shu-Tao Xia. 24056-24065 [doi]

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long VideosZijia Lu, A S. M. Iftekhar, Gaurav Mittal, Tianjian Meng, Xiawei Wang, Cheng Zhao, Rohith Kukkala, Ehsan Elhamifar, Mei Chen. 24066-24076 [doi]

Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level CaptionsChan Hur, Jeong Hun Hong, Dong-Hun Lee, Dabin Kang, Semin Myeong, Sang-hyo Park, Hyeyoung Park. 24077-24086 [doi]

Cross-modal Causal Relation Alignment for Video Question GroundingWeixing Chen, Yang Liu, Binglin Chen, Jiandong Su, Yongsen Zheng, Liang Lin. 24087-24096 [doi]

Can Text-to-Video Generation help Video-Language Alignment?Luca Zanella, Massimiliano Mancini, Willi Menapace, Sergey Tulyakov, Yiming Wang 0002, Elisa Ricci 0001. 24097-24107 [doi]

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video AnalysisChaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu 0001, Xiawu Zheng, Enhong Chen, Caifeng Shan, Ran He 0001, Xing Sun 0001. 24108-24118 [doi]

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language ModelsJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall. 24119-24128 [doi]

Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric VideosChiara Plizzari, Alessio Tonioni, Yongqin Xian, Achin Kulshrestha, Federico Tombari. 24129-24138 [doi]

Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language ModelsQuan Zhang, Jinwei Fang, Rui Yuan, Xi Tang, Yuxin Qi, Ke Zhang, Chun Yuan. 24139-24148 [doi]

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video RetrievalReno Kriz, Kate Sanders 0002, David Etter, Kenton Murray, Cameron Carpenter, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin 0006, Eugene Yang, Benjamin Van Durme. 24149-24158 [doi]

Efficient Motion-Aware Video MLLMZijia Zhao, Yuqi Huo, Tongtian Yue, Longteng Guo, Haoyu Lu, Bingning Wang, Weipeng Chen, Jing Liu. 24159-24168 [doi]

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMsZeyi Huang, Yuyang Ji, Xiaofang Wang, Nikhil Mehta 0002, Tong Xiao, Donghyun Lee 0004, Sigmund Vanvalkenburgh, Shengxin Zha, Bolin Lai, Licheng Yu, Ning Zhang, Yong Jae Lee, Miao Liu. 24169-24179 [doi]

Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2DJiawei Tan, Hongxing Wang 0001, Junwu Weng, Jiaxin Li, Zhilong Ou, Kang Dang. 24180-24189 [doi]

Object-Shot Enhanced Grounding Network for Egocentric VideoYisen Feng, Haoyu Zhang, Meng Liu 0006, Weili Guan, Liqiang Nie. 24190-24200 [doi]

Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable EventsAditya Chinchure, Sahithya Ravi, Raymond T. Ng, Vered Shwartz, Boyang Li, Leonid Sigal. 24201-24210 [doi]

Exploiting Temporal State Space Sharing for Video Semantic SegmentationSyed Ariff Syed Hesham, Yun Liu, Guolei Sun, Henghui Ding, Jing Yang, Ender Konukoglu, Xue Geng, Xudong Jiang 0001. 24211-24221 [doi]

Multi-modal Knowledge Distillation-based Human Trajectory ForecastingJaewoo Jeong, Seohee Lee, Daehee Park, Giwon Lee, Kuk-Jin Yoon. 24222-24233 [doi]

EntitySAM: Segment Everything in VideoMingqiao Ye, Seoung Wug Oh, Lei Ke, Joon-Young Lee. 24234-24243 [doi]

SLADE: Shielding against Dual Exploits in Large Vision-Language ModelsMd. Zarif Hossain, Ahmed Imteaj. 24244-24254 [doi]

A Distractor-Aware Memory for Visual Object Tracking with SAM2Jovana Videnovic, Alan Lukezic, Matej Kristan. 24255-24264 [doi]

Just Dance with pi! A Poly-modal Inductor for Weakly-supervised Video Anomaly DetectionSnehashis Majhi, Giacomo D'Amicantonio, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Egor Bondarev, François Brémond. 24265-24274 [doi]

Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from ImagesKazi Sajeed Mehrab, M. Maruf, Arka Daw, Abhilash Neog, Harish Babu Manogaran, Mridul Khurana, Zhenyang Feng, Bahadir Altintas, Yasin Bakis, Elizabeth G. Campolongo, Matthew J. Thompson, Xiaojun Wang, Hilmar Lapp, Tanya Y. Berger-Wolf, Paula M. Mabee, Henry L. Bart Jr., Wei-Lun Chao, Wasila M. Dahdul, Anuj Karpatne. 24275-24285 [doi]

DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection TransformerHo Joong Kim, Yearang Lee, Jung-Ho Hong, Seong-Whan Lee. 24286-24296 [doi]

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of LivingDominick Reilly, Rajatsubhra Chakraborty, Arkaprava Sinha, Manish Kumar Govind, Pu Wang, François Brémond, Le Xue, Srijan Das. 24297-24308 [doi]

Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?Jianyang Xie, Yitian Zhao, Yanda Meng, He Zhao, Anh Nguyen 0003, Yalin Zheng. 24309-24319 [doi]

VSNet: Focusing on the Linguistic Characteristics of Sign LanguageYuhao Li, Xinyue Chen, HongKai Li, Xiaorong Pu, Peng Jin, Yazhou Ren 0001. 24320-24330 [doi]

Instant Adversarial Purification with Adversarial Consistency DistillationChun Tong Lei, Hon Ming Yam, Zhongliang Guo 0001, Yifei Qian, Chun Pong Lau 0001. 24331-24340 [doi]

Low-Rank Adaptation in Multilinear Operator Networks for Security-Preserving Incremental LearningHuu Binh Ta, Duc Nguyen, Quyen Tran, Toan Tran 0003, Tung Pham. 24341-24350 [doi]

Optimal Transport-Guided Source-Free Adaptation for Face Anti-SpoofingZhuowei Li 0002, Tianchen Zhao, Xiang Xu, Zheng Zhang, Zhihua Li, Xuanbai Chen, Qin Zhang, Alessandro Bergamo, Anil K. Jain 0001, Yifan Xing. 24351-24363 [doi]

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation LearningGaojian Wang, Feng Lin 0004, Tong Wu, Zhenguang Liu, Zhongjie Ba, Kui Ren 0001. 24364-24376 [doi]

Test-Time Backdoor Detection for Object Detection ModelsHangtao Zhang, Yichen Wang, Shihui Yan, Chenyu Zhu, Ziqi Zhou 0001, Linshan Hou, Shengshan Hu, Minghui Li, Yanjun Zhang, Leo Yu Zhang. 24377-24386 [doi]

Inference-Scale Complexity in ANN-SNN Conversion for High-Performance and Low-Power ApplicationsTong Bu, Maohua Li, Zhaofei Yu. 24387-24397 [doi]

Spiking Transformer: Introducing Accurate Addition-Only Spiking Self-Attention for TransformerYufei Guo, Xiaode Liu, Yuanpei Chen, Weihang Peng 0001, Yuhan Zhang, Zhe Ma 0001. 24398-24408 [doi]

From Poses to Identity: Training-Free Person Re-Identification via Feature CentralizationChao Yuan, Guiwei Zhang, Changxiao Ma, Tianyi Zhang, Guanglin Niu. 24409-24418 [doi]

Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging ScenesKeqi Chen, Vinkle Srivastav, Didier Mutter, Nicolas Padoy. 24419-24428 [doi]

ReDiffDet: Rotation-equivariant Diffusion Model for Oriented Object DetectionJiaqi Zhao 0001, Zeyu Ding 0010, Yong Zhou 0003, Hancheng Zhu, Wen-Liang Du, Rui Yao. 24429-24439 [doi]

Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd CountingMaochen Yang, Zekun Li 0010, Jian Zhang, Lei Qi 0001, Yinghuan Shi. 24440-24451 [doi]

SmartEraser: Remove Anything from Images using Masked-Region GuidanceLongtao Jiang, Zhendong Wang, Jianmin Bao, Wengang Zhou 0001, Dongdong Chen 0001, Lei Shi, Dong Chen, Houqiang Li. 24452-24462 [doi]

Towards Generalizable Scene Change DetectionJae-Woo Kim, Ue-Hwan Kim. 24463-24473 [doi]

SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban MeshesWeixiao Gao, Liangliang Nan, Hugo Ledoux. 24474-24484 [doi]

Scene-Centric Unsupervised Panoptic SegmentationOliver Hahn 0001, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht 0001, Stefan Roth 0001. 24485-24495 [doi]

Foveated Instance SegmentationHongyi Zeng, Wenxuan Liu, Tianhua Xia, Jinhui Chen, Ziyun Li, Sai Qian Zhang. 24496-24505 [doi]

Zero-Shot 4D Lidar Panoptic SegmentationYushan Zhang, Aljosa Osep, Laura Leal-Taixé, Tim Meinhardt. 24506-24517 [doi]

Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive SegmentationMarkus Karmann, Onay Urfalioglu. 24518-24528 [doi]

Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D MotionSaad Lahlali, Sandra Kara, Hejer Ammar, Florian Chabot, Nicolas Granger 0001, Hervé Le Borgne, Quoc-Cuong Pham. 24529-24538 [doi]

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual SceneShengqiong Wu, Hao Fei 0001, Jingkang Yang, Xiangtai Li, Juncheng Li 0006, Hanwang Zhang, Tat-Seng Chua. 24539-24549 [doi]

Functionality Understanding and Segmentation in 3D ScenesJaime Corsetti, Francesco Giuliari, Alice Fasoli, Davide Boscaini, Fabio Poiesi. 24550-24559 [doi]

Chain of Semantics Programming in 3D Gaussian Splatting Representation for 3D Vision GroundingJiaxin Shi, Mingyue Xiang, Hao Sun, Yixuan Huang, Zhi Weng. 24560-24569 [doi]

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-AnalysisJiangyong Huang, Baoxiong Jia, Yan Wang, Ziyu Zhu, Xiongkun Linghu, Qing Li, Song Chun Zhu, Siyuan Huang. 24570-24581 [doi]

ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual GroundingQihang Peng, Henry Zheng, Gao Huang 0001. 24582-24592 [doi]

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition BenchmarkRonghao Dang, Yuqian Yuan, Wenqi Zhang 0001, Yifei Xin, Boqiang Zhang, Long Li, Liuyi Wang, Qinyang Zeng, Xin Li, Lidong Bing. 24593-24602 [doi]

TANGO: Training-free Embodied AI Agents for Open-world TasksFilippo Ziliotto, Tommaso Campari, Luciano Serafini, Lamberto Ballan. 24603-24613 [doi]

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI SystemsXiangyuan Xue, Zeyu Lu, Di Huang, Zidong Wang 0004, Wanli Ouyang, Lei Bai 0001. 24614-24624 [doi]

The Scene Language: Representing Scenes with Programs, Words, and EmbeddingsYunzhi Zhang, Zizhang Li, Matt Zhou, Shangzhe Wu, Jiajun Wu 0001. 24625-24634 [doi]

Ground-V: Teaching VLMs to Ground Complex Instructions in PixelsYongshuo Zong, Qin Zhang, Dongsheng An, Zhihua Li, Xiang Xu, Linghan Xu, Zhuowen Tu, Yifan Xing, Onkar Dabeer. 24635-24645 [doi]

ViUniT: Visual Unit Tests for More Robust Visual ProgrammingArtemis Panagopoulou, Honglu Zhou, Silvio Savarese, Caiming Xiong, Chris Callison-Burch, Mark Yatskar, Juan Carlos Niebles. 24646-24656 [doi]

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward ModelsLei Li, Yuancheng Wei, Zhihui Xie 0002, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu. 24657-24668 [doi]

Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Mutimodal ModelsXingrui Wang, Wufei Ma, Tiezheng Zhang, Celso M. de Melo, Jieneng Chen, Alan L. Yuille. 24669-24679 [doi]

RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-EmbeddingsAayush Dhakal, Srikumar Sastry, Subash Khanal, Adeel Ahmad, Eric Xing, Nathan Jacobs. 24680-24689 [doi]

EmoEdit: Evoking Emotions through Image ManipulationJingyuan Yang 0002, Jiawei Feng, Weibin Luo, Dani Lischinski, Daniel Cohen-Or, Hui Huang 0004. 24690-24699 [doi]

Uncertain Multimodal Intention and Emotion Understanding in the WildQu Yang, Qinghongya Shi, Tongxin Wang, Mang Ye. 24700-24709 [doi]

F-LMM: Grounding Frozen Large Multimodal ModelsSize Wu, Sheng Jin 0007, Wenwei Zhang, Lumin Xu, Wentao Liu 0002, Wei Li 0190, Chen Change Loy. 24710-24721 [doi]

Reasoning to Attend: Try to Understand How Token WorksRui Qian, Xin Yin, Dejing Dou. 24722-24731 [doi]

MIMO: A Medical Vision Language Model with Visual Referring Multimodal Input and Pixel Grounding Multimodal OutputYanyuan Chen, Dexuan Xu, Yu Huang, Songkun Zhan, Hanpin Wang, Dongxue Chen, Xueping Wang, Meikang Qiu, Hang Li. 24732-24741 [doi]

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic ResolutionYuZhong Zhao, Feng Liu, Yue Liu, Mingxiang Liao, Chen Gong 0005, Qixiang Ye, Fang Wan 0001. 24742-24752 [doi]

Separation of Powers: On Segregating Knowledge from Observation in LLM-enabled Knowledge-based Visual Question AnsweringZhen Yang, Zhuo Tao, Qi Chen 0014, Liang Li 0003, Yuankai Qi, Anton van den Hengel, Qingming Huang. 24753-24762 [doi]

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any GranularityHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Soo Ye Kim, Zhifei Zhang, Yilin Wang 0002, Jianming Zhang 0001, Zhe Lin, Jiebo Luo 0001. 24763-24773 [doi]

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal AlignmentYan Li, Yifei Xing 0001, Xiangyuan Lan, Xin Li, Haifeng Chen, Dongmei Jiang. 24774-24784 [doi]

Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image RetrievalYuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gang Xiong 0001, Gaopeng Gou, Qi Wu 0001. 24785-24795 [doi]

SynTab-LLaVA: Enhancing Multimodal Table Understanding with Decoupled SynthesisBangbang Zhou, Zuan Gao, Zixiao Wang, Boqiang Zhang, Yuxin Wang, Zhineng Chen, Hongtao Xie. 24796-24806 [doi]

The Photographer's Eye: Teaching Multimodal Large Language Models to See, and Critique Like PhotographersDaiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li 0001. 24807-24816 [doi]

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ DocumentsJun Chen, Dannong Xu, Junjie Fei, Chun-Mei Feng, Mohamed Elhoseiny. 24817-24826 [doi]

VDocRAG: Retrieval-Augmented Generation over Visually-Rich DocumentsRyota Tanaka, Taichi Iki, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito, Jun Suzuki 0001. 24827-24837 [doi]

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive AnnotationsLinke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang 0065, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao 0002, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang 0069, Botian Shi, Zhongying Tu, Conghui He. 24838-24848 [doi]

Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic DataHaoxin Li, Boyang Li. 24849-24861 [doi]

Seeing What Matters: Empowering CLIP with Patch Generation-to-SelectionGensheng Pei, Tao Chen 0012, Yujia Wang, Xinhao Cai, Xiangbo Shu, Tianfei Zhou, Yazhou Yao. 24862-24872 [doi]

CLIP is Almost All You Need: Towards Parameter-Efficient Scene Text Retrieval without OCRXugong Qin, Peng Zhang, Jun Jie Ou Yang, Gangyan Zeng, Yubo Li, Yuanyuan Wang, Wanqian Zhang, Pengwen Dai. 24873-24883 [doi]

FLAIR: VLM with Fine-grained Language-informed Image RepresentationsRui Xiao, Sanghwan Kim, Mariana-Iuliana Georgescu, Zeynep Akata, Stephan Alaniz. 24884-24894 [doi]

Retaining Knowledge and Enhancing Long-Text Representations in CLIP through Dual-Teacher DistillationYuheng Feng, Changsong Wen, Zelin Peng, Li Jiaye, Siyu Zhu. 24895-24904 [doi]

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language AlignmentCijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu 0001, Daniel Li 0006, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski. 24905-24916 [doi]

Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language ModelsDavide Berasi, Matteo Farina, Massimiliano Mancini, Elisa Ricci 0001, Nicola Strisciuglio. 24917-24927 [doi]

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth FusionJiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao 0001, Tianyi Zhou 0001, Bin Xiao 0004. 24928-24938 [doi]

PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language ModelsChenyu Yang, Xuan Dong, Xizhou Zhu, Weijie Su 0002, Jiahao Wang, Hao Tian 0006, Zhe Chen 0017, Wenhai Wang, Lewei Lu, Jifeng Dai. 24939-24949 [doi]

Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual KnowledgeYaqi Zhao, Yuanyang Yin, Lin Li, Mingan Lin, Victor Shea-Jay Huang, Siwei Chen, Weipeng Chen, Baoqun Yin, Zenan Zhou, Wentao Zhang. 24950-24959 [doi]

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-trainingGen Luo, Xue Yang, Wenhan Dou, Zhaokai Wang, Jiawen Liu, Jifeng Dai, Yu Qiao 0001, Xizhou Zhu. 24960-24971 [doi]

ATP-LLaVA: Adaptive Token Pruning for Large Vision Language ModelsXubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang 0002, Yansong Tang. 24972-24982 [doi]

It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel DataDominik Schnaus, Nikita Araslanov, Daniel Cremers. 24983-24992 [doi]

DH-Set: Improving Vision-Language Alignment with Diverse and Hybrid Set-Embeddings LearningKun Zhang, Jingyu Li, Zhe Li, S. Kevin Zhou. 24993-25003 [doi]

Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention LensZhangqi Jiang, JunKai Chen, Beier Zhu, Tingjin Luo, Yankun Shen, Xu Yang. 25004-25014 [doi]

MMRL: Multi-Modal Representation Learning for Vision-Language ModelsYuncheng Guo, Xiaodong Gu. 25015-25025 [doi]

LoRA Recycle: Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAsZixuan Hu, Yongxian Wei, Li Shen 0008, Chun Yuan, Dacheng Tao. 25026-25037 [doi]

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time AlignmentSoumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi. 25038-25049 [doi]

SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World EnvironmentsYue Cao, Yun Xing, Jie Zhang, Di Lin, Tianwei Zhang, Ivor Tsang, Yang Liu, Qing Guo. 25050-25059 [doi]

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language ModelsZhaoyi Liu, Huan Zhang. 25060-25070 [doi]

Improving Adversarial Transferability on Vision Transformers via Forward Propagation RefinementYuchen Ren 0002, Zhengyu Zhao 0001, Chenhao Lin, Bo Yang, Lu Zhou, Zhe Liu, Chao Shen 0001. 25071-25080 [doi]

PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language ModelsJenny Schmalfuss, Nadine Chang, Vibashan VS, Maying Shen, Andrés Bruhn, José M. Álvarez 0004. 25081-25091 [doi]

ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language ModelsYassir Bendou, Amine Ouasfi, Vincent Gripon, Adnane Boukhayma. 25092-25102 [doi]

Realistic Test-Time Adaptation of Vision-Language ModelsMaxime Zanella, Clément Fuchs, Christophe De Vleeschouwer, Ismail Ben Ayed. 25103-25112 [doi]

Low-Biased General Annotated Dataset GenerationDengyang Jiang, Haoyu Wang 0016, Lei Zhang 0054, Wei Wei 0008, Guang Dai, Mengmeng Wang, Jingdong Wang, Yanning Zhang 0001. 25113-25123 [doi]

Joint Scheduling of Causal Prompts and Tasks for Multi-Task LearningChaoyang Li, Jianyang Qin, Jinhao Cui, Zeyu Liu, Ning Hu, Qing Liao 0001. 25124-25134 [doi]

Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt LearningHairui Ren, Fan Tang, He Zhao, Zixuan Wang, Dandan Guo, Yi Chang 0001. 25135-25144 [doi]

ProAPO: Progressively Automatic Prompt Optimization for Visual ClassificationXiangyan Qu, Gaopeng Gou, Jiamin Zhuang, Jing Yu, Kun Song, Qihao Wang, Yili Li, Gang Xiong. 25145-25155 [doi]

Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context LearningJinpeng Wang 0002, Tianci Luo, Yaohua Zha, Yan Feng, Ruisheng Luo, Bin Chen 0011, Tao Dai 0001, Long Chen 0016, Yaowei Wang 0001, Shu-Tao Xia. 25156-25165 [doi]

Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision TransformersJung-Ho Hong, Ho Joong Kim, Kyu-Sung Jeon, Seong-Whan Lee. 25166-25175 [doi]

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge DistillationJungsoo Lee, Debasmit Das, Munawar Hayat, Sungha Choi, Kyuwoong Hwang, Fatih Porikli. 25176-25186 [doi]

Beyond Local Sharpness: Communication-Efficient Global Sharpness-aware Minimization for Federated LearningDebora Caldarola, Pietro Cagnasso, Barbara Caputo, Marco Ciccone. 25187-25197 [doi]

Do ImageNet-trained Models Learn Shortcuts? The Impact of Frequency Shortcuts on GeneralizationShunxin Wang, Raymond N. J. Veldhuis, Nicola Strisciuglio. 25198-25207 [doi]

Minimal Interaction Seperated Tuning: A New Paradigm for Visual AdaptationNingyuan Tang, Minghao Fu 0001, Jianxin Wu 0001. 25208-25217 [doi]

DiTASK: Multi-Task Fine-Tuning with Diffeomorphic TransformationsKrishna Sri Ipsit Mantri, Carola-Bibiane Schönlieb, Bruno Ribeiro 0001, Chaim Baskin, Moshe Eliasof. 25218-25229 [doi]

Closest Neighbors are Harmful for Lightweight Masked Auto-encodersJian Meng, Ahmed Hassan, Li Yang 0009, Deliang Fan, Jinwoo Shin, Jae-sun Seo. 25230-25239 [doi]

GliaNet: Adaptive Neural Network Structure Learning with Glia-DrivenMengqiao Han, Liyuan Pan, Xiabi Liu. 25240-25249 [doi]

From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal TransportQuentin Bouniot, Ievgen Redko, Anton Mallasto, Charlotte Laclau, Oliver Struckmeier, Karol Arndt, Markus Heinonen, Ville Kyrki, Samuel Kaski. 25250-25260 [doi]

MambaVision: A Hybrid Mamba-Transformer Vision BackboneAli Hatamizadeh, Jan Kautz. 25261-25270 [doi]

Breaking the Low-Rank Dilemma of Linear AttentionQihang Fan, Huaibo Huang, Ran He 0001. 25271-25280 [doi]

ShiftwiseConv: Small Convolutional Kernel with Large Kernel EffectDachong Li, Li Li, Zhuangzhuang Chen, Jianqiang Li 0001. 25281-25291 [doi]

Star with Bilinear MappingZelin Peng, Yu Huang, Zhengqin Xu, Feilong Tang, Ming Hu, Xiaokang Yang 0001, Wei Shen 0002. 25292-25302 [doi]

Your ViT is Secretly an Image Segmentation ModelTommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus. 25303-25313 [doi]

Samba: A Unified Mamba-based Framework for General Salient Object DetectionJiahao He, Keren Fu, Xiaohong Liu, Qijun Zhao. 25314-25324 [doi]

HORP: Human-Object Relation Priors Guided HOI DetectionPei Geng, Jian Yang, Shanshan Zhang 0001. 25325-25335 [doi]

T2ICount: Enhancing Cross-modal Understanding for Zero-Shot CountingYifei Qian, Zhongliang Guo 0001, Bowen Deng, Chun Tong Lei, Shuai Zhao 0007, Chun Pong Lau 0001, Xiaopeng Hong, Michael P. Pound. 25336-25345 [doi]

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic SegmentationZiyu Zhao, Xiaoguang Li, Lingjia Shi, Nasrin Imanpour, Song Wang. 25346-25356 [doi]

Text Augmented Correlation Transformer For Few-shot Classification & SegmentationSrinivasa Rao Nandam, Sara Atito 0001, Zhenhua Feng 0001, Josef Kittler, Muhammad Awais 0001. 25357-25366 [doi]

Golden Cudgel Network for Real-Time Semantic SegmentationGuoyu Yang, Yuan Wang, Daming Shi 0001, Yanzhong Wang. 25367-25376 [doi]

WISH: Weakly Supervised Instance Segmentation using Heterogeneous LabelsHyeokjun Kweon, Kuk-Jin Yoon. 25377-25387 [doi]

Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric LearningCan Küçüksözen, Yücel Yemez. 25388-25398 [doi]

Incremental Object Keypoint LearningMingfu Liang, Jiahuan Zhou, Xu Zou 0002, Ying Wu 0001. 25399-25410 [doi]

Logits DeConfusion with CLIP for Few-Shot LearningShuo Li 0010, Fang Liu 0001, Zehua Hao, Xinyi Wang, Lingling Li, Xu Liu 0006, Puhua Chen, Wenping Ma 0001. 25411-25421 [doi]

OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation TriadLuyao Tang, Yuxuan Yuan, Chaoqi Chen, Zeyu Zhang, Yue Huang 0001, Kun Zhang. 25422-25433 [doi]

Correlative and Discriminative Label Grouping for Multi-Label Visual Prompt TuningLei-Lei Ma, Shuo Xu, Ming-Kun Xie, Lei Wang, Dengdi Sun, Haifeng Zhao 0001. 25434-25443 [doi]

Adaptive Part Learning for Fine-Grained Generalized Category Discovery: A Plug-and-Play EnhancementQiyuan Dai, Hanzhuo Huang, Yu Wu 0014, Sibei Yang. 25444-25453 [doi]

OW-OVD: Unified Open World and Open Vocabulary Object DetectionXing Xi, Yangyang Huang, Ronghua Luo, Yu Qiu. 25454-25464 [doi]

SEEN-DA: SEmantic ENtropy guided Domain-aware Attention for Domain Adaptive Object DetectionHaochen Li 0002, Rui Zhang, Hantao Yao, Xin Zhang, Yifan Hao 0001, Xinkai Song, Shaohui Peng, Yongwei Zhao, Chen Zhao, Yanjun Wu, Ling Li. 25465-25475 [doi]

Detect Any Mirrors: Boosting Learning Reliability on Large-Scale Unlabeled Data with an Iterative Data EngineZhaohu Xing, Lihao Liu, Yijun Yang, Hongqiu Wang, Tian Ye 0001, Sixiang Chen, Wenxue Li, Guang Liu 0006, Lei Zhu 0003. 25476-25486 [doi]

Project-Probe-Aggregate: Efficient Fine-Tuning for Group RobustnessBeier Zhu, Jiequan Cui, Hanwang Zhang, Chi Zhang 0067. 25487-25496 [doi]

Gain from Neighbors: Boosting Model Robustness in the Wild via Adversarial Perturbations Toward Neighboring ClassesZhou Yang, Mingtao Feng, Tao Huang, Fangfang Wu, Weisheng Dong, Xin Li 0005, Guangming Shi. 25497-25507 [doi]

Unseen Visual Anomaly GenerationHan Sun, Yunkang Cao, Hao Dong, Olga Fink. 25508-25517 [doi]

MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny ObjectsLei Fan 0007, Dongdong Fan, Zhiguang Hu, Yiwen Ding, Donglin Di, Kai Yi, Maurice Pagnucco, Yang Song 0001. 25518-25527 [doi]

A Unified Latent Schrodinger Bridge Diffusion Model for Unsupervised Anomaly Detection and LocalizationShilhora Akshay, Niveditha Lakshmi Narasimhan, Jacob George, Vineeth N. Balasubramanian. 25528-25538 [doi]

TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly DetectionYoon Gyo Jung, Jaewoo Park, Jaeho Yoon, Kuan-Chuan Peng, Wonchul Kim, Andrew Beng Jin Teoh, Octavia I. Camps. 25539-25548 [doi]

Potential Field Based Deep Metric LearningShubhang Bhatnagar, Narendra Ahuja. 25549-25559 [doi]

Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce ClassificationYanghao Wang, Long Chen 0016. 25560-25569 [doi]

Dataset Distillation with Neural Characteristic Function: A Minmax PerspectiveShaobo Wang 0001, Yicun Yang, Zhiyuan Liu, Chenghao Sun, Xuming Hu, Conghui He, Linfeng Zhang 0001. 25570-25580 [doi]

Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified TrajectoryWenliang Zhong, Haoyu Tang, Qinghai Zheng, Mingzhu Xu, Yupeng Hu, Weili Guan. 25581-25589 [doi]

Data Distributional Properties As Inductive Bias for Systematic GeneralizationFelipe del Río, Alain Raymond-Saez, Daniel Florea, Rodrigo Toro Icarte, Julio Hurtado, Cristian Buc Calderon, Alvaro Soto. 25590-25601 [doi]

SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation LearningSeokju Yun, Seunghye Chae, Dongheon Lee, Youngmin Ro. 25602-25612 [doi]

BiLoRA: Almost-Orthogonal Parameter Spaces for Continual LearningHao Zhu, Yifei Zhang, Junhao Dong, Piotr Koniusz. 25613-25622 [doi]

DPC: Dual-Prompt Collaboration for Tuning Vision-Language ModelsHaoyang Li, Liang Wang, Chao Wang, Jing Jiang, Yan Peng, Guodong Long. 25623-25632 [doi]

Effortless Active Labeling for Long-Term Test-Time AdaptationGuowei Wang, Changxing Ding. 25633-25642 [doi]

SEC-Prompt: SEmantic Complementary Prompting for Few-Shot Class-Incremental LearningYe Liu, Meng Yang. 25643-25656 [doi]

Attraction Diminishing and Distributing for Few-Shot Class-Incremental LearningLi-jun Zhao, Zhen-Duo Chen 0001, Yongxin Wang 0001, Xin Luo 0006, Xin-Shun Xu. 25657-25666 [doi]

CoMBO: Conflict Mitigation via Branched Optimization for Class Incremental SegmentationKai Fang, Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei. 25667-25676 [doi]

Joint Out-of-Distribution Filtering and Data Discovery Active LearningSebastian Schmidt 0006, Leonard Schenk, Leo Schwinn, Stephan Günnemann. 25677-25687 [doi]

Revisiting Source-Free Domain Adaptation: Insights into Representativeness, Generalization, and VarietyRonghang Zhu, Mengxuan Hu, Weiming Zhuang, Lingjuan Lyu, Xiang Yu 0002, Sheng Li 0001. 25688-25697 [doi]

Identifying and Mitigating Spurious Correlation in Multi-Task LearningJunyi Chai 0004, Shenyu Lu, Xiaoqian Wang 0001. 25698-25707 [doi]

Language-Assisted Debiasing and Smoothing for Foundation Model-Based Semi-Supervised LearningNa Zheng, Xuemeng Song, Xue-dong, Aashish Nikhil Ghosh, Liqiang Nie, Roger Zimmermann. 25708-25717 [doi]

Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised DataLilin Zhang, Chengpei Wu, Ning Yang. 25718-25727 [doi]

Dual Energy-Based Model with Open-World Uncertainty Estimation for Out-of-distribution DetectionQi Chen, Hu Ding. 25728-25737 [doi]

Directional Label Diffusion Model for Learning from Noisy LabelsSenyu Hou, Gaoxia Jiang, Jia Zhang, Shangrong Yang, Husheng Guo, Yaqing Guo, Wenjian Wang. 25738-25748 [doi]

A Simple Data Augmentation for Feature Distribution Skewed Federated LearningYunlu Yan, Huazhu Fu, Yuexiang Li, Jinheng Xie, Jun Ma, Guang Yang 0006, Lei Zhu. 25749-25758 [doi]

NoT: Federated Unlearning via Weight NegationYasser H. Khalil, Leo Maxime Brunswic, Soufiane Lamghari, Xu Li 0001, Mahdi Beitollahi, Xi Chen 0009. 25759-25769 [doi]

Infighting in the Dark: Multi-Label Backdoor Attack in Federated LearningYe Li, Yanchao Zhao, Chengcheng Zhu, Jiale Zhang. 25770-25779 [doi]

TAROT: Towards Essentially Domain-Invariant Robustness with Theoretical JustificationDongyoon Yang, Jihu Lee, Yongdai Kim. 25780-25789 [doi]

Invisible Backdoor Attack against Self-supervised LearningHanrong Zhang, Zhenting Wang, Boheng Li, Fulin Lin, Tingxu Han, Mingyu Jin, Chenlu Zhan, Mengnan Du, Hongwei Wang, ShiQing Ma. 25790-25801 [doi]

Improving Transferable Targeted Attacks with Feature Tuning MixupKaisheng Liang, Xuelong Dai, Yanjie Li, Dong Wang, Bin Xiao. 25802-25811 [doi]

Improving Accuracy and Calibration via Differentiated Deep Mutual LearningHan Liu, Peng Cui 0007, Bingning Wang, Weipeng Chen, Yupeng Zhang, Jun Zhu 0001, Xiaolin Hu 0001. 25812-25821 [doi]

SeqMvRL: A Sequential Fusion Framework for Multi-view Representation LearningRen Wang 0011, Haoliang Sun, Yuxiu Lin, Chuanhui Zuo, Yongshun Gong, Yilong Yin, Wenjia Meng. 25822-25831 [doi]

Attribute-Missing Multi-view Graph ClusteringBowen Zhao, Qianqian Wang 0001, Zhengming Ding, Quanxue Gao. 25832-25841 [doi]

Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and EmbeddingThomas Dagès, Simon Weber 0002, Ya-Wei Eileen Lin, Ronen Talmon, Daniel Cremers, Michael Lindenbaum, Alfred M. Bruckstein, Ron Kimmel. 25842-25853 [doi]

Adaptive Unimodal Regulation for Balanced Multimodal Information AcquisitionChengxiang Huang, Yake Wei, Zequn Yang, Di Hu 0001. 25854-25863 [doi]

Knowledge Bridger: Towards Training-Free Missing Modality CompletionGuanzhou Ke, Shengfeng He, Xiaoli Wang 0003, Bo Wang 0057, Guoqing Chao, Yuanyang Zhang, Yi Xie, Hexing Su. 25864-25873 [doi]

OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution DetectionMax Gutbrod, David Rauber, Danilo Weber Nunes, Christoph Palm. 25874-25886 [doi]

CheXwhatsApp: A Dataset for Exploring Challenges in the Diagnosis of Chest X-rays through Mobile DevicesMariamma Antony, Rajiv Porana, Sahil M. Lathiya, Siva Teja Kakileti, Chiranjib Bhattacharyya. 25887-25896 [doi]

Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical AnalysisHanbin Ko, Chang Min Park. 25897-25906 [doi]

Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual RepresentationShahad Albastaki, Anabia Sohail, Iyyakutti Iyappan Ganapathi, Basit Alawode, Asim Khan, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood. 25907-25919 [doi]

ODA-GAN: Orthogonal Decoupling Alignment GAN Assisted by Weakly-supervised Learning for Virtual Immunohistochemistry StainingTong Wang, Mingkang Wang, Zhongze Wang, Hongkai Wang, Qi Xu, Fengyu Cong, Hongming Xu 0002. 25920-25929 [doi]

STINR: Deciphering Spatial Transcriptomics via Implicit Neural RepresentationYisi Luo, Xile Zhao, Kai Ye, Deyu Meng. 25930-25939 [doi]

A Semantic Knowledge Complementarity based Decoupling Framework for Semi-supervised Class-imbalanced Medical Image SegmentationZheng Zhang 0038, Guanchun Yin, Bo Zhang, Wu Liu, Xiuzhuang Zhou, Wendong Wang. 25940-25949 [doi]

Boltzmann Attention Sampling for Image Analysis with Small ObjectsTheodore Zhao, Sid Kiblawi, Naoto Usuyama, Ho Hin Lee, Sam Preston, Hoifung Poon, Mu Wei. 25950-25959 [doi]

Boosting the Dual-Stream Architecture in Ultra-High Resolution Segmentation with Resolution-Biased Uncertainty EstimationRong Qin, Xingyu Liu, Jinglei Shi, Liang Lin, Jufeng Yang. 25960-25970 [doi]

Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion ModelsYankai Jiang 0003, Peng Zhang, Donglin Yang, Yuan Tian, Hai Lin, Xiaosong Wang. 25971-25981 [doi]

Incomplete Multi-modal Brain Tumor Segmentation via Learnable Sorting State Space ModelZheyu Zhang 0002, Yayuan Lu, Feipeng Ma, Yueyi Zhang, Huanjing Yue, Xiaoyan Sun 0001. 25982-25992 [doi]

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe GuidanceYang Yue, Yulin Wang, Haojun Jiang, Pan Liu, Shiji Song, Gao Huang 0001. 25993-26003 [doi]

A Unified Model for Compressed Sensing MRI Across Undersampling PatternsArmeet Singh Jatyani, Jiayun Wang, Aditi Chandrashekar, Zihui Wu, Miguel Liu-Schiaffini, Bahareh Tolooshams, Anima Anandkumar. 26004-26013 [doi]

CARL: A Framework for Equivariant Image RegistrationThomas Hastings Greer, Lin Tian 0001, François-Xavier Vialard, Roland Kwitt, Raúl San José Estépar, Marc Niethammer. 26014-26023 [doi]

DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion ModelsJay Zhangjie Wu, Yuxuan Zhang 0001, Haithem Turki, Xuanchi Ren, Jun Gao 0004, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling. 26024-26035 [doi]

3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian SplattingQi Wu, Janick Martinez Esturo, Ashkan Mirzaei, Nicolas Moënne-Loccoz, Zan Gojcic. 26036-26046 [doi]

DNF: Unconditional 4D Generation with Dictionary-based Neural FieldsXinyi Zhang, Naiqi Li, Angela Dai. 26047-26056 [doi]

CAT4D: Create Anything in 4D with Multi-View Video Diffusion ModelsRundi Wu, RuiQi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski. 26057-26068 [doi]

Diffusion Renderer: Neural Inverse and Forward Rendering with Video Diffusion ModelsRuofan Liang, Zan Gojcic, Huan Ling, Jacob Munkberg, Jon Hasselgren, Chih-Hao Lin, Jun Gao 0004, Alexander Keller 0001, Nandita Vijaykumar, Sanja Fidler, Zian Wang. 26069-26080 [doi]

Effective SAM Combination for Open-Vocabulary Semantic SegmentationMinhyeok Lee, Suhwan Cho, Jungho Lee, Sunghun Yang, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee. 26081-26090 [doi]

FluidNexus: 3D Fluid Reconstruction and Prediction from a Single VideoYue Gao, Hong-Xing Yu, Bo Zhu 0002, Jiajun Wu 0001. 26091-26101 [doi]

Birth and Death of a RoseChen Geng 0001, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu 0001. 26102-26113 [doi]

Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video DerainingShangquan Sun, Wenqi Ren, Juxiang Zhou, Shu Wang, Jianhou Gan, Xiaochun Cao. 26114-26124 [doi]

AnyEdit: Mastering Unified High-Quality Image Editing for Any IdeaQifan Yu, Wei Chow, Zhongqi Yue, Kaihang Pan, Yang Wu, Xiaoyang Wan, Juncheng Li 0006, Siliang Tang, Hanwang Zhang, Yueting Zhuang. 26125-26135 [doi]

Generative Multimodal Pretraining with Discrete Diffusion Timestep TokensKaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang. 26136-26146 [doi]

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal DecodingFeilong Tang, Chengzhi Liu, Zhongxing Xu, Ming Hu, Zile Huang, Haochen Xue, Ziyang Chen 0003, Zelin Peng, Zhiwei Yang, Sijin Zhou, Wenxue Li, Yulong Li, Wenxuan Song, Shiyan Su, Wei Feng 0015, Jionglong Su, Mingquan Lin, Yifan Peng 0002, Xuelian Cheng, Imran Razzak, ZongYuan Ge. 26147-26159 [doi]

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video UnderstandingYan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou 0001, Zhengyang Liang, Tiejun Huang 0001, Bo Zhao 0015. 26160-26169 [doi]

LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal Large Language ModelsJian Liang 0001, Wenke Huang, Guancheng Wan, Qu Yang, Mang Ye. 26170-26180 [doi]

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame SelectionSonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi 0001, Yue Liao, Si Liu 0001. 26181-26191 [doi]

SEAL: Semantic Attention Learning for Long Video RepresentationLan Wang, Yujia Chen 0001, Du Tran, Vishnu Naresh Boddeti, Wen-Sheng Chu. 26192-26201 [doi]

Learning Audio-guided Video Representation with Gated Attention for Video-Text RetrievalBoseung Jeong, Jicheol Park, Sungyeon Kim, Suha Kwak. 26202-26211 [doi]

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video DiffusionHaotian Wang, Yuzhe Weng, Yueyan Li, Zilu Guo, Jun Du, Shutong Niu, Jiefeng Ma, Shan He, Xiaoyan Wu, Qiming Hu, Bing Yin, Cong Liu, Qingfeng Liu. 26212-26221 [doi]

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait AnimationHuaize Liu, Wenzhang Sun, Donglin Di, Shibo Sun, Jiahui Yang, Changqing Zou, Hujun Bao. 26222-26231 [doi]

Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video GenerationShuling Zhao, Fa-Ting Hong, Xiaoshui Huang, Dan Xu. 26232-26241 [doi]

MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait AnimationYukang Lin, Hokit Fung, Jianjin Xu, Zeping Ren, Adela S. M. Lau, Guosheng Yin, Xiu Li 0001. 26242-26252 [doi]

Free-viewpoint Human Animation with Pose-correlated Reference SelectionFa-Ting Hong, Zhan Xu, Haiyang Liu, Qinjie Lin, Luchuan Song, Zhixin Shu, Yang Zhou, Duygu Ceylan, Dan Xu. 26253-26262 [doi]

DiffPortrait360: Consistent Portrait Diffusion for 360 View SynthesisYuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li 0015. 26263-26273 [doi]

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head EditingCong Wang, Di Kang, Heyi Sun, Shen-Han Qian, Zixuan Wang, Linchao Bao, Song-Hai Zhang. 26274-26284 [doi]

HRAvatar: High-Quality and Relightable Gaussian Head AvatarDongbin Zhang, Yunfei Liu, Lijian Lin, Ye Zhu, Kangjie Chen, Minghan Qin, Yu Li, Haoqian Wang. 26285-26296 [doi]

Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPsYouyi Zhan, Tianjia Shao, Yin Yang 0002, Kun Zhou 0001. 26297-26307 [doi]

IDOL: Instant Photorealistic 3D Human Creation from a Single ImageYiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu 0004, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu. 26308-26319 [doi]

SimAvatar: Simulation-Ready Avatars with Layered Hair and ClothingXueting Li, Ye Yuan 0007, Shalini De Mello, Gilles Daviet, Jonathan Leaf, Miles Macklin, Jan Kautz, Umar Iqbal 0001. 26320-26330 [doi]

Disco4D: Disentangled 4D Human Generation and Animation from a Single ImageHui En Pang, Shuai Liu, Zhongang Cai, Lei Yang 0045, Tianwei Zhang, Ziwei Liu 0002. 26331-26344 [doi]

StdGEN: Semantic-Decomposed 3D Character Generation from Single ImagesYuze He, Yanning Zhou 0003, Wang Zhao, Zhongkai Wu, Kaiwen Xiao, Wei Yang, Yong-Jin Liu, Xiao Han. 26345-26355 [doi]

T-FAKE: Synthesizing Thermal Images for Facial LandmarkingPhilipp Flotho, Moritz Piening, Anna Kukleva, Gabriele Steidl. 26356-26366 [doi]

Diff-Palm: Realistic Palmprint Generation with Polynomial Creases and Intra-Class Variation Controllable Diffusion ModelsJianlong Jin, Chenglong Zhao, Ruixin Zhang, Sheng Shang, Jianqing Xu, Jingyun Zhang, Shaoming Wang, Yang Zhao, Shouhong Ding, Wei Jia 0001, Yunsheng Wu. 26367-26376 [doi]

GBC-Splat: Generalizable Gaussian-Based Clothed Human Digitalization under Sparse RGB CamerasHanzhang Tu, Zhanfeng Liao, Boyao Zhou, Shunyuan Zheng, Xilong Zhou, Liuxin Zhang, QianYing Wang, Yebin Liu. 26377-26387 [doi]

VTON 360: High-Fidelity Virtual Try-On from Any Viewing DirectionZijian He, Yuwei Ning, Yipeng Qin, Guangrun Wang, Sibei Yang, Liang Lin, Guanbin Li. 26388-26398 [doi]

BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data TrainingXuanpu Zhang, Dan Song 0006, Pengxin Zhan, Tianyu Chang, Jianhao Zeng, Qingguo Chen, Weihua Luo, An-An Liu. 26399-26408 [doi]

SFDM: Robust Decomposition of Geometry and Reflectance for Realistic Face Rendering from Sparse-view ImagesDaisheng Jin, Jiangbei Hu, Baixin Xu, Yuxin Dai, Chen Qian 0006, Ying He 0001. 26409-26419 [doi]

Integral Fast Fourier Color ConstancyWenjun Wei, Yanlin Qian, Huaian Chen, Junkang Dai, Yi Jin 0002. 26420-26429 [doi]

Reversible Decoupling Network for Single Image Reflection RemovalHao Zhao, Mingjia Li 0001, Qiming Hu, Xiaojie Guo 0001. 26430-26439 [doi]

Stabilizing and Accelerating Autofocus with Expert Trajectory Regularized Deep Reinforcement LearningShouhang Zhu, Chenglin Li, Yuankun Jiang, Li Wei, Nuowen Kan, Ziyang Zheng, Wenrui Dai, Junni Zou, Hongkai Xiong. 26440-26450 [doi]

V2V3D: View-to-View Denoised 3D Reconstruction for Light Field MicroscopyJiayin Zhao, Zhenqi Fu, Tao Yu 0007, Hui Qiao. 26451-26461 [doi]

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian SplattingLiao Shen, Tianqi Liu 0003, Huiqiang Sun, Jiaqi Li 0007, Zhiguo Cao 0001, Wei Li 0190, Chen Change Loy. 26462-26471 [doi]

Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve AdjustmentZiteng Cui, Xuangeng Chu, Tatsuya Harada. 26472-26482 [doi]

Ref-GS: Directional Factorization for 2D Gaussian SplattingYoujia Zhang, Anpei Chen, Yumin Wan, Zikai Song, Junqing Yu, Yawei Luo, Wei Yang 0034. 26483-26492 [doi]

NeISF++: Neural Incident Stokes Field for Polarized Inverse Rendering of Conductors and DielectricsChenhao Li, Taishi Ono, Takeshi Uemori, Sho Nitta, Hajime Mihara, Alexander Gatto, Hajime Nagahara, Yusuke Moriuchi. 26493-26503 [doi]

Uni-Renderer: Unifying Rendering and Inverse Rendering Via Dual Stream DiffusionZhifei Chen, Tianshuo Xu, Wenhang Ge, Leyi Wu, Dongyu Yan, Jing He, Luozhou Wang, Lu Zeng, Shunsi Zhang, Ying-Cong Chen. 26504-26513 [doi]

Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light DiffusionZexin He, Tengfei Wang, Xin Huang 0021, Xingang Pan, Ziwei Liu 0002. 26514-26524 [doi]

RNG: Relightable Neural GaussiansJiahui Fan, Fujun Luan, Jian Yang 0003, Milos Hasan, Beibei Wang 0002. 26525-26534 [doi]

SGSST: Scaling Gaussian Splatting Style TransferBruno Galerne, Jianling Wang, Lara Raad, Jean-Michel Morel. 26535-26544 [doi]

Vid2Sim: Generalizable, Video-based Reconstruction of Appearance, Geometry and Physics for Mesh-free SimulationChuhao Chen, Zhiyang Dou, Chen Wang, Yiming Huang, Anjun Chen, Qiao Feng, Jiatao Gu, Lingjie Liu. 26545-26555 [doi]

Material Anything: Generating Materials for Any 3D Object via DiffusionXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang. 26556-26565 [doi]

TexGarment: Consistent Garment UV Texture Generation via Efficient 3D Structure-Guided Diffusion TransformerJialun Liu, Jinbo Wu, Xiaobo Gao, Jiakui Hu, Bojun Xiong, Xing Liu, Chen Zhao 0011, Hongbin Pei, Haocheng Feng, Yingying Li, Errui Ding, Jingdong Wang 0001. 26566-26575 [doi]

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive DiffusionZhaoxi Chen 0009, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang 0002, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu 0002. 26576-26586 [doi]

BrepGiff: Lightweight Generation of Complex B-rep with 3D GAT DiffusionHao Guo, Xiaoshui Huang, Jiacheng Hao, Yunpeng Bai, Hongping Gan, Yilei Shi. 26587-26596 [doi]

Towards Realistic Example-based Modeling via 3D Gaussian StitchingXinyu Gao, Ziyi Yang, Bingchen Gong, Xiaoguang Han 0001, Sipeng Yang, Xiaogang Jin 0001. 26597-26607 [doi]

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree SequencingStefan Lionar, Jiabin Liang, Gim Hee Lee. 26608-26617 [doi]

GenVDM: Generating Vector Displacement Maps From a Single ImageYuezhi Yang, Qimin Chen, Vladimir G. Kim, Siddhartha Chaudhuri, Qixing Huang, Zhiqin Chen. 26618-26629 [doi]

CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D DiffusionKai He, Chin-Hsuan Wu, Igor Gilitschenski. 26630-26640 [doi]

LeanGaussian: Breaking Pixel or Point Cloud Correspondence in Modeling 3D GaussiansJiamin Wu, Kenkun Liu, Han Gao, Xiaoke Jiang, Yuan Yao, Lei Zhang 0001. 26641-26651 [doi]

FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution RenderingGuofeng Feng, Siyan Chen, Rong Fu, Zimu Liao, Yi Wang, Tao Liu, Boni Hu, Linning Xu, Zhilin Pei, Hengjie Li, Xiuhong Li, Ninghui Sun, Xingcheng Zhang, Bo Dai 0002. 26652-26662 [doi]

Steepest Descent Density Control for Compact 3D Gaussian SplattingPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan. 26663-26672 [doi]

GaussianSpa: An "Optimizing-Sparsifying" Simplification Framework for Compact and High-Quality 3D Gaussian SplattingYangming Zhang, Wenqi Jia 0003, Wei Niu 0002, Miao Yin. 26673-26682 [doi]

Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D ReconstructionSeungtae Nam, Xiangyu Sun, Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park. 26683-26693 [doi]

IMFine: 3D Inpainting via Geometry-guided Multi-view RefinementZhihao Shi, Dong Huo, Yuhongze Zhou, Yan Min, Juwei Lu, Xinxin Zuo. 26694-26703 [doi]

3D Gaussian Inpainting with Depth-Guided Cross-View ConsistencySheng-Yu Huang, Zi-Ting Chou, Yu-Chiang Frank Wang. 26704-26713 [doi]

HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian SplattingXinpeng Liu 0007, Zeyi Huang, Fumio Okura, Yasuyuki Matsushita. 26714-26722 [doi]

Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse ExplorationZilong Huang, Jun He, Junyan Ye, Lihan Jiang, Weijia Li, Yiping Chen, Ting Han. 26723-26733 [doi]

Learning Partonomic 3D Reconstruction from Image CollectionsXiaoqian Ruan, Pei Yu, Dian Jia, Hyeonjeong Park, Peixi Xiong, Wei Tang 0016. 26734-26744 [doi]

Generative Sparse-View Gaussian SplattingHanyang Kong, Xingyi Yang, Xinchao Wang. 26745-26755 [doi]

Novel View Synthesis with Pixel-Space Diffusion ModelsNoam Elata, Bahjat Kawar, Yaron Ostrovsky-Berman, Miriam Farber, Ron Sokolovsky. 26756-26766 [doi]

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor ScenesRuijie Lu, Yixin Chen 0003, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang 0001. 26767-26778 [doi]

CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View SynthesisYoungkyoon Jang, Eduardo Pérez-Pellitero. 26779-26788 [doi]

Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground ScenesLihan Jiang, Kerui Ren, Mulin Yu, Linning Xu, Junting Dong, Tao Lu 0005, Feng Zhao 0004, Dahua Lin, Bo Dai 0002. 26789-26799 [doi]

NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian SplattingYulong Zheng, Zicheng Jiang, Shengfeng He, Yandu Sun, Junyu Dong, Huaidong Zhang, Yong Du 0003. 26800-26809 [doi]

SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D ReconstructionYutao Tang, Yuxiang Guo, Deming Li, Cheng Peng 0008. 26810-26821 [doi]

StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene GenerationShangjin Zhai, Zhichao Ye, Jialin Liu, Weijian Xie, Jiaqi Hu, Zhen Peng, Hua Xue, Danpeng Chen, Xiaomeng Wang, Lei Yang, Nan Wang 0020, Haomin Liu, Guofeng Zhang 0001. 26822-26833 [doi]

PMNI: Pose-free Multi-view Normal Integration for Reflective and Textureless Surface ReconstructionMingzhi Pei, Xu Cao, Xiangyi Wang, Heng Guo 0003, Zhanyu Ma. 26834-26843 [doi]

Learnable Infinite Taylor Gaussian for Dynamic View RenderingBingbing Hu, Yanyan Li, Rui Xie, Bo Xu, Haoye Dong, Junfeng Yao, Gim Hee Lee. 26844-26854 [doi]

Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic SeparationJooHyun Kwon, Hanbyel Cho, Junmo Kim 0002. 26855-26865 [doi]

SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular VideoJongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim. 26866-26875 [doi]

EventSplat: 3D Gaussian Splatting from Moving Event Cameras for Real-time RenderingToshiya Yura, Ashkan Mirzaei, Igor Gilitschenski. 26876-26886 [doi]

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous CharactersJianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu 0002. 26887-26898 [doi]

Denoising Functional Maps: Diffusion Models for Shape CorrespondenceAleksei Zhuravlev, Zorah Lähner, Vladislav Golyanik. 26899-26909 [doi]

Event Fields: Capturing Light Fields at High Speed, Resolution, and Dynamic RangeZiyuan Qu, Zihao Zou, Vivek Boominathan, Praneeth Chakravarthula, Adithya Pediredla. 26910-26920 [doi]

4DTAM: Non-Rigid Tracking and Mapping via Dynamic Surface GaussiansHidenobu Matsuki, Gwangbin Bae, Andrew J. Davison. 26921-26932 [doi]

IncEventGS: Pose-Free Gaussian Splatting from a Single Event CameraJian Huang, Chengrui Dong, Xuanhua Chen, Peidong Liu. 26933-26942 [doi]

Completion as Enhancement: A Degradation-Aware Selective Image Guided Network for Depth CompletionZhiqiang Yan, Zhengxue Wang, Kun Wang, Jun Li, Jian Yang. 26943-26953 [doi]

Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGBNikhil Behari, Aaron Young, Siddharth Somasundaram, Tzofi Klinghoffer, Akshat Dave, Ramesh Raskar. 26954-26964 [doi]

Focal Split: Untethered Snapshot Depth from Differential DefocusJunjie Luo 0009, John Mamish, Alan Fu, Thomas Concannon, Josiah D. Hester, Emma Alexander, Qi Guo. 26965-26974 [doi]

HELVIPAD: A Real-World Dataset for Omnidirectional Stereo Depth EstimationMehdi Zayene, Jannik Endres, Albias Havolli, Charles Corbière, Salim Cherkaoui, Alexandre Kontouli, Alexandre Alahi. 26975-26984 [doi]

OFER: Occluded Face Expression ReconstructionPratheba Selvaraju, Victoria Fernández Abrevaya, Timo Bolkart, Rick Akkerman, Tianyu Ding, Faezeh Amjadi, Ilya Zharkov. 26985-26995 [doi]

Depth Any Camera: Zero-Shot Metric Depth Estimation from Any CameraYuliang Guo, Sparsh Garg, S. Mahdi H. Miangoleh, Xinyu Huang 0001, Liu Ren. 26996-27006 [doi]

Order-One Rolling Shutter CamerasMarvin Anas Hahn, Kathlén Kohn, Orlando Marigliano, Tomás Pajdla. 27007-27016 [doi]

Matrix-Free Shared Intrinsics Bundle AdjustmentDaniel Safari. 27017-27026 [doi]

Towards In-the-wild 3D Plane Reconstruction from a Single ImageJiachen Liu, Rui Yu 0002, Sili Chen, Sharon X. Huang, Hengkai Guo. 27027-27037 [doi]

Learning Affine Correspondences by Integrating Geometric ConstraintsPengju Sun, Banglei Guan, Zhenbao Yu, Yang Shang, Qifeng Yu, Daniel Barath. 27038-27048 [doi]

DiskVPS: Vanishing Point Detector via Hough Transform in a Disk RegionJianping Wu. 27049-27058 [doi]

From Sparse to Dense: Camera Relocalization with Scene-Specific Detector from Feature Gaussian SplattingZhiwei Huang, Hailin Yu, Yichun Shentu, Jin Yuan, Guofeng Zhang 0001. 27059-27069 [doi]

RUBIK: A Structured Benchmark for Image Matching across Geometric ChallengesThibaut Loiseau, Guillaume Bourmaud. 27070-27080 [doi]

MATCHA: Towards Matching AnythingFei Xue, Sven Elflein, Laura Leal-Taixé, Qunjie Zhou. 27081-27091 [doi]

Scene-agnostic Pose Regression for Visual LocalizationJunwei Zheng, Ruiping Liu 0001, Yufan Chen 0001, Zhenfang Chen, Kailun Yang 0001, Jiaming Zhang 0001, Rainer Stiefelhagen. 27092-27102 [doi]

Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric VisionXinyue Zhang, Zijia Dai, Wanting Xu, Laurent Kneip. 27103-27112 [doi]

GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian SplattingShujuan Li, Yu-Shen Liu, Zhizhong Han. 27113-27123 [doi]

ProbPose: A Probabilistic Approach to 2D Human Pose EstimationMiroslav Purkrábek, Jiri Matas. 27124-27133 [doi]

Floating No More: Object-Ground Reconstruction from a Single ImageYunze Man, Yichen Sheng, Jianming Zhang, Liang-Yan Gui, Yu-Xiong Wang. 27134-27143 [doi]

ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian SplattingJunfu Guo, Yu Xin, Gaoyi Liu, Kai Xu 0004, Ligang Liu, Ruizhen Hu. 27144-27153 [doi]

GCE-Pose: Global Context Enhancement for Category-level Object Pose EstimationWeihang Li, Hongli Xu, Junwen Huang, Hyunjun Jung, Peter KT Yu, Nassir Navab, Benjamin Busam. 27154-27165 [doi]

Doppelgangers++: Improved Visual Disambiguation with Geometric 3D FeaturesYuanbo Xiangli, Ruojin Cai, Hanyu Chen, Jeffrey Byrne, Noah Snavely. 27166-27175 [doi]

MITracker: Multi-View Integration for Visual Object TrackingMengjie Xu, Yitao Zhu, Haotian Jiang, Jiaming Li, Zhenrong Shen, Sheng Wang, Haolin Huang, Xinyu Wang, Han Zhang 0002, Qing Yang, Qian Wang. 27176-27185 [doi]

ETAP: Event-based Tracking of Any PointFriedhelm Hamann, Daniel Gehrig, Filbert Febryanto, Kostas Daniilidis, Guillermo Gallego 0002. 27186-27196 [doi]

Ev-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event CamerasHoonhee Cho, Jae-Young Kang, Youngho Kim, Kuk-Jin Yoon. 27197-27210 [doi]

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object DetectorZechuan Li, Hongshan Yu, Yihao Ding, Jinhao Qiao, Basim Azam, Naveed Akhtar. 27211-27221 [doi]

Preconditioners for the Stochastic Training of Neural FieldsShin-Fang Ch'ng, Hemanth Saratchandran, Simon Lucey. 27222-27232 [doi]

3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D MappingChenhui Shi, Fulin Tang, Ning An 0002, Yihong Wu 0002. 27233-27242 [doi]

PCDreamer: Point Cloud Completion Through Multi-view Diffusion PriorsGuangshun Wei, Yuan Feng, Long Ma 0009, Chen Wang 0054, Yuanfeng Zhou, Changjian Li 0001. 27243-27253 [doi]

STAR-Edge: Structure-aware Local Spherical Curve Representation for Thin-walled Edge Extraction from Unstructured Point CloudsZikuan Li, Honghua Chen, Yuecheng Wang, Sibo Wu, Mingqiang Wei, Jun Wang. 27254-27263 [doi]

DV-Matcher: Deformation-based Non-rigid Point Cloud Matching Guided by Pre-trained Visual FeaturesZhangquan Chen, Puhua Jiang, Ruqi Huang. 27264-27274 [doi]

Mitigating Ambiguities in 3D Classification with Gaussian SplattingRuiqi Zhang, Hao Zhu, Jingyi Zhao, Qi Zhang 0029, Xun Cao, Zhan Ma. 27275-27284 [doi]

Sparse Point Cloud Patches Rendering via Splitting 2D GaussiansChangfeng Ma, Ran Bi, Jie Guo 0001, Chongjun Wang, Yanwen Guo 0001. 27285-27294 [doi]

SASep: Saliency-Aware Structured Separation of Geometry and Feature for Open Set Learning on Point CloudsJinfeng Xu 0002, Xianzhi Li, Yuan Tang, Xu Han, Qiao Yu, Yixue Hao, Long Hu, Min Chen. 27295-27304 [doi]

TopNet: Transformer-Efficient Occupancy Prediction Network for Octree-Structured Point Cloud Geometry CompressionXinjie Wang, Yifan Zhang, Ting Liu, Xinpu Liu, Ke Xu, JianWei Wan, Yulan Guo, Hanyun Wang. 27305-27314 [doi]

A Unified Approach to Interpreting Self-supervised Pre-training Methods for 3D Point Clouds via InteractionsQiang Li, Jian Ruan, Fanghao Wu, Yuchi Chen, Zhihua Wei, Wen Shen. 27315-27324 [doi]

An End-to-End Robust Point Cloud Semantic Segmentation Network with Single-Step Conditional Diffusion ModelsWentao Qu, Jing Wang, Yongshun Gong, Xiaoshui Huang, Liang Xiao 0001. 27325-27335 [doi]

PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware HistogramSifan Zhou, Zhihang Yuan, Dawei Yang, Xing Hu 0010, Jian Qian, Ziyu Zhao. 27336-27345 [doi]

Deep Change Monitoring: A Hyperbolic Representative Learning Framework and a Dataset for Long-term Fine-grained Tree Change DetectionYante Li, Hanwen Qi, Haoyu Chen 0001, Xinlian Liang, Guoying Zhao 0001. 27346-27356 [doi]

GBlobs: Explicit Local Structure via Gaussian Blobs for Improved Cross-Domain LiDAR-based 3D Object DetectionDusan Malic, Christian Fruhwirth-Reisinger, Samuel Schulter, Horst Possegger. 27357-27367 [doi]

LiMoE: Mixture of LiDAR Representation Learners from Automotive ScenesXiang Xu 0009, Lingdong Kong, Hui Shuai, Liang Pan, Ziwei Liu 0002, Qingshan Liu 0001. 27368-27379 [doi]

Exploring Scene Affinity for Semi-Supervised LiDAR Semantic SegmentationChuandong Liu, Xingxing Weng, Shuguo Jiang, Pengcheng Li, Lei Yu 0006, Gui-Song Xia. 27380-27389 [doi]

V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object DetectionXun Huang, JinLong Wang, Qiming Xia, Siheng Chen, Bisheng Yang, Xin Li 0003, Cheng Wang 003, Chenglu Wen. 27390-27400 [doi]

Leveraging Temporal Cues for Semi-Supervised Multi-View 3D Object DetectionJinhyung Park, Navyata Sanghvi, Hiroki Adachi, Yoshihisa Shibata, Shawn Hunt, Shinya Tanaka, Hironobu Fujiyoshi, Kris Kitani. 27401-27412 [doi]

CorrBEV: Multi-View 3D Object Detection by Correlation Learning with Multi-modal PrototypesZiteng Xue, Mingzhe Guo, Heng Fan 0001, Shihui Zhang, Zhipeng Zhang. 27413-27423 [doi]

CroCoDL: Cross-device Collaborative Dataset for LocalizationHermann Blum, Alessandro Mercurio, Joshua O'Reilly, Tim Engelbracht, Mihai Dusmanu, Marc Pollefeys, Zuria Bauer. 27424-27434 [doi]

ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual InstructionsTomás Soucek, Prajwal Gatti, Michael Wray, Ivan Laptev, Dima Damen, Josef Sivic. 27435-27445 [doi]

RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured EnvironmentsHaisheng Su, Feixiang Song, Cong Ma, Wei Wu, Junchi Yan. 27446-27455 [doi]

DIO: Decomposable Implicit 4D Occupancy-Flow World ModelChristopher Diehl, Quinlan Sykora, Ben Agro, Thomas Gilles, Sergio Casas 0002, Raquel Urtasun. 27456-27466 [doi]

EvOcc: Accurate Semantic Occupancy for Automated Driving Using Evidence TheoryJonas Kälble, Sascha Wirges, Maxim Tatarchenko, Eddy Ilg. 27467-27476 [doi]

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy PredictionYuanhui Huang, Amonnut Thammatadatrakoon, Wenzhao Zheng, Yunpeng Zhang, Dalong Du, Jiwen Lu. 27477-27486 [doi]

SplatFlow: Self-Supervised Dynamic Gaussian Splatting in Neural Motion Flow Field for Autonomous DrivingSu Sun, Cheng Zhao 0002, Zhuoyang Sun, Yingjie Victor Chen, Mei Chen. 27487-27496 [doi]

DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion GenerationHongbin Lin, Zilu Guo, Yifan Zhang, Shuaicheng Niu, Yafeng Li, Ruimao Zhang, Shuguang Cui, Zhen Li 0026. 27497-27507 [doi]

GLane3D: Detecting Lanes with Graph of 3D KeypointsHalil Ibrahim Öztürk, Muhammet Esat Kalfaoglu, Ozsel Kilinc. 27508-27518 [doi]

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene SimulationYichong Lu, Yichi Cai, Shangzhan Zhang, Hongyu Zhou, Haoji Hu, Huimin Yu, Andreas Geiger 0001, Yiyi Liao. 27519-27530 [doi]

DrivingSphere: Building a High-fidelity 4D World for Closed-loop SimulationTianyi Yan, Dongming Wu, Wencheng Han, Junpeng Jiang, Xia Zhou, Kun Zhan, Cheng-Zhong Xu 0001, Jianbing Shen. 27531-27541 [doi]

Causal Composition Diffusion Model for Closed-loop Traffic GenerationHaohong Lin, Xin Huang, Tung Phan, David S. Hayden, Huan Zhang 0001, Ding Zhao, Siddhartha S. Srinivasa, Eric M. Wolff, Hongge Chen. 27542-27552 [doi]

Towards Autonomous Micromobility through Scalable Urban SimulationWayne Wu, Honglin He, Chaoyuan Zhang, Jack He, Seth Z. Zhao, Ran Gong, Quanyi Li, Bolei Zhou. 27553-27563 [doi]

Towards Generalizable Trajectory Prediction using Dual-Level Representation Learning and Adaptive PromptingKaouther Messaoud, Matthieu Cord, Alexandre Alahi. 27564-27574 [doi]

Distilling Multi-modal Large Language Models for Autonomous DrivingDeepti Hegde, Rajeev Yasarla, Hong Cai, Shizhong Han, Apratim Bhattacharyya, Shweta Mahajan, Litian Liu, Risheek Garrepalli, Vishal M. Patel, Fatih Porikli. 27575-27585 [doi]

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied NavigationMingfei Han 0002, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev. 27586-27596 [doi]

Exploration-Driven Generative Interactive EnvironmentsNedko Savov, Naser Kazemi, Mohammad Mahdi, Danda Pani Paudel, Xi Wang, Luc Van Gool. 27597-27607 [doi]

Neural Motion Simulator Pushing the Limit of World Models in Reinforcement LearningChenjie Hao, Weyl Lu, Yifan Xu, Yubei Chen. 27608-27617 [doi]

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance GroundingYuxuan Wang, Aming Wu, Muli Yang, Yukuan Min, Yihang Zhu, Cheng Deng. 27618-27627 [doi]

AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster RegistrationJiong Lin, LeChen Zhang, Kwansoo Lee, Jialong Ning, Judah Goldfeder, Hod Lipson. 27628-27637 [doi]

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic ManipulationXiaoqi Li 0009, Jingyun Xu, Mingxu Zhang, Jiaming Liu 0003, Yan Shen 0035, Iaroslav Ponomarenko, Jiahui Xu, Liang Heng, Siyuan Huang 0004, Shanghang Zhang, Hao Dong 0003. 27638-27648 [doi]

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital TwinsYao Mu, Tianxing Chen, Zanxin Chen, Shijia Peng, Zhiqian Lan, Zeyu Gao, Zhixuan Liang, Qiaojun Yu, Yude Zou, Mingkun Xu, Lunkai Lin, Zhiqiang Xie, Mingyu Ding, Ping Luo. 27649-27660 [doi]

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic ManipulationHanzhi Chen, Boyang Sun, Anran Zhang, Marc Pollefeys, Stefan Leutenegger. 27661-27672 [doi]

Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking ReferencesYitang Li, Mingxian Lin, Zhuo Lin, Yipeng Deng, Yue Cao, Li Yi. 27673-27682 [doi]

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic ManipulationHongxiang Zhao, Xingchen Liu, Mutian Xu, Yiming Hao, Weikai Chen 0001, Xiaoguang Han 0001. 27683-27693 [doi]

BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated ObjectsWanyue Zhang, Rishabh Dabral, Vladislav Golyanik, Vasileios Choutas, Eduardo Alvarado, Thabo Beeler, Marc Habermann, Christian Theobalt. 27694-27705 [doi]

End-to-End HOI Reconstruction Transformer with Graph-based EncodingZhenrong Wang, Qi Zheng, Sihan Ma, Maosheng Ye, Yibing Zhan, Dongjiang Li. 27706-27715 [doi]

Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic CameraZhengdi Yu, Stefanos Zafeiriou, Tolga Birdal. 27716-27726 [doi]

EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric VisionYiming Zhao, Taein Kwon, Paul Streli, Marc Pollefeys, Christian Holz 0001. 27727-27738 [doi]

PI-HMR: Towards Robust In-bed Temporal Human Shape Reconstruction with Contact Pressure SensingZiyu Wu, Yufan Xiong, Mengting Niu, Fangting Xie, Quan Wan, Qijun Ying, Boyan Liu, Xiaohui Cai. 27739-27749 [doi]

MVDoppler-Pose: Multi-Modal Multi-View mmWave Sensing for Long-Distance Self-Occluded Human Walking Pose EstimationJaeho Choi, Soheil Hor, Shubo Yang 0002, Amin Arbabian. 27750-27759 [doi]

MotionPRO: Exploring the Role of Pressure in Human MoCap and BeyondShenghao Ren, Yi Lu, Jiayi Huang, Jiayi Zhao, He Zhang, Tao Yu, Qiu Shen, Xun Cao. 27760-27770 [doi]

MODA: Motion-Drift Augmentation for Inertial Human Motion AnalysisYinghao Wu, Shihui Guo, Yipeng Qin. 27771-27781 [doi]

Homogeneous Dynamics Space for Heterogeneous HumansXinpeng Liu 0002, Junxuan Liang, Chenshuo Zhang, Zixuan Cai, Cewu Lu, Yong-Lu Li 0001. 27782-27793 [doi]

Modeling Multiple Normal Action Representations for Error Detection in Procedural TasksWei-Jin Huang, Yuan-Ming Li, Zhi-Wei Xia, Yu-Ming Tang, Kun-Yu Lin, Jian-Fang Hu, Wei-Shi Zheng 0001. 27794-27804 [doi]

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and EditingYiheng Li, Ruibing Hou, Hong Chang 0001, Shiguang Shan, Xilin Chen 0001. 27805-27815 [doi]

Symbolic Representation for Any-to-Any Generative TasksJiaqi Chen, Xiaoye Zhu, Yue Wang, Tianyang Liu, Xinhui Chen, Ying Chen, Chak Tou Leong, Yifei Ke, Joseph Liu, Yiwen Yuan, Julian J. McAuley, Li-Jia Li. 27816-27826 [doi]

SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity PredictionZhengyuan Li, Kai Cheng, Anindita Ghosh, Uttaran Bhattacharya, Liangyan Gui, Aniket Bera. 27827-27837 [doi]

AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion ModelsKwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh. 27838-27848 [doi]

MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple GranularitiesBizhu Wu, Jinheng Xie, Keming Shen, Zhe Kong, Jianfeng Ren, Ruibin Bai, Rong Qu, LinLin Shen. 27849-27858 [doi]

Rethinking Diffusion for Text-Driven Human Motion Generation: Redundant Representations, Evaluation, and Masked AutoregressionZichong Meng, Yiming Xie, Xiaogang Peng, Zeyu Han, Huaizu Jiang. 27859-27871 [doi]

ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation ModelShunlin Lu, Jingbo Wang 0003, Zeyu Lu, Ling-Hao Chen, Wenxun Dai, Junting Dong, Zhiyang Dou, Bo Dai 0002, Ruimao Zhang. 27872-27882 [doi]

Multiple Object Tracking as ID PredictionRuopeng Gao, Ji Qi, Limin Wang 0002. 27883-27893 [doi]

Shape and Texture: What Influences Reliable Optical Flow Estimation?Libo Long, Xiao Hu 0008, Jochen Lang 0001. 27894-27903 [doi]

Bridge Frame and Event: Common Spatiotemporal Fusion for High-Dynamic Scene Optical FlowHanyu Zhou, Haonan Wang, Haoyue Liu, Yuxing Duan, Yi Chang 0002, Luxin Yan. 27904-27913 [doi]

Unified Reconstruction of Static and Dynamic Scenes from EventsQiyao Gao, Peiqi Duan, Hanyue Lou, Minggui Teng, Ziqi Cai, Xu Chen 0001, Boxin Shi. 27914-27923 [doi]

Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical SystemsAlejandro Castañeda Garcia, Jan Warchocki, Jan van Gemert, Daan Brinks, Nergis Tomen. 27924-27933 [doi]

Generating 3D-Consistent Videos from Unposed Internet PhotosGene Chou, Kai Zhang, Sai Bi, Hao Tan 0002, Zexiang Xu, Fujun Luan, Bharath Hariharan, Noah Snavely. 27934-27945 [doi]

AnimateAnything: Consistent and Controllable Animation for Video GenerationGuojun Lei, Chi Wang, Rong Zhang, Yikai Wang, Hong Li, Weiwei Xu. 27946-27956 [doi]

MotionPro: A Precise Motion Controller for Image-to-Video GenerationZhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei 0001. 27957-27967 [doi]

Generative Inbetweening through Frame-wise Conditions-Driven Video GenerationTianyi Zhu, Dongwei Ren, Qilong Wang 0001, Xiaohe Wu, Wangmeng Zuo. 27968-27978 [doi]

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component AnalysisJiangtong Tan, Hu Yu, Jie Huang, Jie Xiao, Feng Zhao. 27979-27988 [doi]

Probability Density Geodesics in Image Diffusion Latent SpaceQingtao Yu, Jaskirat Singh, Zhaoyuan Yang, Peter Henry Tu, Jing Zhang 0052, Hongdong Li, Richard I. Hartley, Dylan Campbell. 27989-27998 [doi]

Bias for Action: Video Implicit Neural Representations with Bias ModulationAlper Kayabasi, Anil Kumar Vadathya, Guha Balakrishnan, Vishwanath Saragadam. 27999-28008 [doi]

BF-STVSR: B-Splines and Fourier - Best Friends for High Fidelity Spatial-Temporal Video Super-ResolutionEunjin Kim, Hyeonjin Kim, Kyong Hwan Jin, Jaejun Yoo 0001. 28009-28018 [doi]

FLAVC: Learned Video Compression with Feature Level AttentionChun Zhang, Heming Sun, Jiro Katto. 28019-28028 [doi]

ProReflow: Progressive Reflow with Decomposed VelocityLei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang. 28029-28038 [doi]

Making Old Film Great Again: Degradation-aware State Space Model for Old Film RestorationYudong Mao, Hao Luo, Zhiwei Zhong, Peilin Chen 0001, Zhijiang Zhang, Shiqi Wang 0001. 28039-28049 [doi]

Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated ContentRohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy Chowdhury. 28050-28060 [doi]

A Polarization-Aided Transformer for Image Deblurring via Motion Vector DecompositionDuosheng Chen, Shihao Zhou, Jinshan Pan, Jinglei Shi, Lishen Qu, Jufeng Yang. 28061-28070 [doi]

Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary ResolutionSiwei Tu, Ben Fei, Weidong Yang, Fenghua Ling, Hao Chen, Zili Liu, Kun Chen, Hang Fan, Wanli Ouyang, Lei Bai 0001. 28071-28080 [doi]

Automatic Spectral Calibration of Hyperspectral Images: Method, Dataset and BenchmarkZhuoran Du, Shaodi You, Cheng Cheng, Shikui Wei. 28081-28090 [doi]

VolFormer: Explore More Comprehensive Cube Interaction for Hyperspectral Image Restoration and BeyondDabing Yu, Zheng Gao. 28091-28101 [doi]

One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image FusionChunyang Cheng, Tianyang Xu, Zhenhua Feng 0001, Xiaojun Wu 0001, Zhangyong Tang, Hui Li 0037, Zeyang Zhang 0002, Sara Atito ali, Muhammad Awais 0001, Josef Kittler. 28102-28112 [doi]

Continuous Adverse Weather Removal via Degradation-Aware DistillationXin Lu 0006, Jie Xiao 0002, Yurui Zhu, Xueyang Fu. 28113-28123 [doi]

MambaIRv2: Attentive State Space RestorationHang Guo, Yong Guo, Yaohua Zha, Yulun Zhang 0001, Wenbo Li 0002, Tao Dai 0001, Shu-Tao Xia, Yawei Li 0001. 28124-28133 [doi]

TSP-Mamba: The Travelling Salesman Problem Meets Mamba for Image Super-resolution and BeyondKun Zhou, Xinyu Lin, Jiangbo Lu. 28134-28143 [doi]

GenDeg: Diffusion-based Degradation Synthesis for Generalizable All-In-One Image RestorationSudarshan Rajagopalan, Nithin Gopalakrishnan Nair, Jay N. Paranjape, Vishal M. Patel. 28144-28154 [doi]

Generalized Recorrupted-to-Recorrupted: Self-Supervised Learning Beyond Gaussian NoiseBrayan Monroy, Jorge Bacca, Julián Tachella. 28155-28164 [doi]

Degradation-Aware Feature Perturbation for All-in-One Image RestorationXiangpeng Tian, Xiangyu Liao, Xiao Liu, Meng Li, Chao Ren. 28165-28175 [doi]

Exploring Semantic Feature Discrimination for Perceptual Image Super-Resolution and Opinion-Unaware No-Reference Image Quality AssessmentGuanglu Dong, Xiangyu Liao, Mingyang Li, Guihuan Guo, Chao Ren. 28176-28187 [doi]

FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolutionJunyang Chen 0002, Jinshan Pan, Jiangxin Dong. 28188-28197 [doi]

DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared ImagingZhu Liu 0004, Zijun Wang, Jinyuan Liu 0001, Fanqi Meng, Long Ma, Risheng Liu. 28198-28207 [doi]

Adversarial Diffusion Compression for Real-World Image Super-ResolutionBin Chen, Gehui Li, Rongyuan Wu, Xindong Zhang, Jie Chen, Jian Zhang, Lei Zhang. 28208-28220 [doi]

All-Optical Nonlinear Diffractive Deep Network for Ultrafast Image DenoisingXiaoling Zhou, Zhemg Lee, Wei Ye 0004, Rui Xie 0003, Wenbo Zhang, Guanju Peng, Zongze Li, Shikun Zhang. 28221-28231 [doi]

Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual ApproximatorsBohan Xiao, Peiyong Wang, Qisheng He, Ming Dong 0001. 28232-28241 [doi]

Towards Smart Point-and-Shoot PhotographyJiawan Li, Fei Zhou, Zhipeng Zhong, Jiongzhi Lin, Guoping Qiu. 28242-28251 [doi]

MetaShadow: Object-Centered Shadow Detection, Removal, and SynthesisTianyu Wang, Jianming Zhang, Haitian Zheng, Zhihong Ding, Scott Cohen, Zhe Lin, Wei Xiong 0008, Chi-Wing Fu, Luis Figueroa, Soo Ye Kim. 28252-28262 [doi]

Erasing Undesirable Influence in Diffusion ModelsJing Wu 0021, Trung Le 0001, Munawar Hayat, Mehrtash Harandi. 28263-28273 [doi]

EntityErasure: Erasing Entity Cleanly via Amodal Entity Segmentation and CompletionYixing Zhu, Qing Zhang, Yitong Wang, Yongwei Nie, Wei-Shi Zheng 0001. 28274-28283 [doi]

ITA-MDT: Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-OnJi Woo Hong, Tri Ton, Trung X. Pham, Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo. 28284-28294 [doi]

Latent Space ImagingMatheus Souza, Yidan Zheng, Kaizhang Kang, Yogeshwar Nath Mishra, Qiang Fu 0002, Wolfgang Heidrich. 28295-28305 [doi]

Q-DiT: Accurate Post-Training Quantization for Diffusion TransformersLei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang, Zhi Wang, Wenwu Zhu 0001. 28306-28315 [doi]

FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less ComputeSotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali K. Thabet, Edgar Schönfeld. 28316-28326 [doi]

Consistency Posterior Sampling for Diverse Image SynthesisVishal Purohit, Matthew Repasky, Jianfeng Lu 0001, Qiang Qiu 0001, Yao Xie 0002, Xiuyuan Cheng. 28327-28336 [doi]

Domain Adaptive Diabetic Retinopathy Grading with Model Absence and Flowing DataWenxin Su, Song Tang 0001, Xiaofeng Liu, Xiaojing Yi, Mao Ye 0001, Chunxiao Zu, Jiahao Li, Xiatian Zhu. 28337-28346 [doi]

Diff2Flow: Training Flow Matching Models via Diffusion Model AlignmentJohannes Schusterbauer, Ming Gui, Frank Fundel, Björn Ommer. 28347-28357 [doi]

SoftVQ-VAE: Efficient 1-Dimensional Continuous TokenizerHao Chen, Ze Wang 0008, Xiang Li, Ximeng Sun, Fangyi Chen, Jiang Liu 0014, Jindong Wang 0001, Bhiksha Raj, Zicheng Liu 0001, Emad Barsoum. 28358-28370 [doi]

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAEYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang 0002, Xingang Pan. 28371-28382 [doi]

Sketch Down the FLOPs: Towards Efficient Networks for Human SketchAneeshan Sain, Subhajit Maity, Pinaki Nath Chowdhury, Subhadeep Koley, Ayan Kumar Bhunia, Yi-Zhe Song. 28383-28393 [doi]

FlipSketch: Flipping Static Drawings to Text-Guided Sketch AnimationsHmrishav Bandyopadhyay, Yi-Zhe Song. 28394-28404 [doi]

ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion ModelsOzgur Kara, Krishna Kumar Singh, Feng Liu, Duygu Ceylan, James M. Rehg, Tobias Hinz. 28405-28415 [doi]

VIRES: Video Instance Repainting via Sketch and Text Guided GenerationShuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li 0001, Boxin Shi. 28416-28425 [doi]

FADE: Frequency-Aware Diffusion Model Factorization for Video EditingYixuan Zhu, Haolin Wang, Shilin Ma, Wenliang Zhao, Yansong Tang, Lei Chen 0069, Jie Zhou 0001. 28426-28435 [doi]

PICD: Versatile Perceptual Image Compression with Diffusion RenderingTongda Xu, Jiahao Li, Bin Li, Yan Wang, Ya-Qin Zhang, Yan Lu. 28436-28445 [doi]

Color Alignment in DiffusionKa-Chun Shum, Binh-Son Hua, Duc Thanh Nguyen, Sai Kit Yeung. 28446-28455 [doi]

Geometry in Style: 3D Stylization via Surface Normal DeformationNam Anh Dinh, Itai Lang, Hyunwoo Kim, Oded Stein, Rana Hanocka. 28456-28467 [doi]

SaMam: Style-aware State Space Model for Arbitrary Image Style TransferHongda Liu, Longguang Wang, Ye Zhang, Ziru Yu, Yulan Guo. 28468-28478 [doi]

Unveil Inversion and Invariance in Flow Transformer for Versatile Image EditingPengcheng Xu 0008, Boyuan Jiang, Xiaobin Hu, Donghao Luo 0001, Qingdong He, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Charles Ling 0001, Boyu Wang 0004. 28479-28489 [doi]

h-Edit: Effective and Flexible Diffusion-Based Editing via Doob's h-TransformToan Nguyen 0004, Kien Do, Duc Kieu, Thin Nguyen. 28490-28501 [doi]

Concept Lancet: Image Editing with Compositional Representation TransplantJinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal. 28502-28512 [doi]

Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive LearningSherry X. Chen, Misha Sra, Pradeep Sen. 28513-28522 [doi]

GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text EditingTong Wang, Ting Liu 0018, Xiaochao Qu, Chengjing Wu, Luoqi Liu, Xiaolin Hu. 28523-28532 [doi]

DreamOmni: Unified Image Generation and EditingBin Xia, Yuechen Zhang, Jingyao Li, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu 0001, Jiaya Jia. 28533-28543 [doi]

Black Hole-Driven Identity Absorbing in Diffusion ModelsMuhammad Shaheryar, Jong Taek Lee, Soon Ki Jung. 28544-28554 [doi]

DreamText: High Fidelity Scene Text SynthesisYibin Wang, Weizhong Zhang, Honghui Xu, Cheng Jin 0001. 28555-28563 [doi]

Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound ImagesYasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu. 28564-28574 [doi]

A Comprehensive Study of Decoder-Only LLMs for Text-to-Image GenerationAndrew Z. Wang, Songwei Ge, Tero Karras, Ming-Yu Liu 0001, Yogesh Balaji. 28575-28585 [doi]

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image SynthesisBingda Tang, Boyang Zheng, Sayak Paul, Saining Xie. 28586-28595 [doi]

Stretching Each Dollar: Diffusion Training from Scratch on a Micro-BudgetVikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu. 28596-28608 [doi]

Enhancing Creative Generation on Stable Diffusion-based ModelsJiyeon Han, Dahee Kwon, Gayoung Lee, Junho Kim, Jaesik Choi. 28609-28618 [doi]

APT: Adaptive Personalized Training for Diffusion Models with Limited DataJungwoo Chae, Jiyoon Kim, Jaewoong Choi, Kyungyul Kim, Sangheum Hwang. 28619-28628 [doi]

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model AlignmentYunhong Lu, Qichao Wang, Hengyuan Cao, Xierui Wang, Xiaoyin Xu, Min Zhang. 28629-28639 [doi]

STEPS: Sequential Probability Tensor Estimation for Text-to-Image Hard Prompt SearchYuning Qiu, Andong Wang, Chao Li, Haonan Huang, GuoXu Zhou, Qibin Zhao. 28640-28650 [doi]

PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance PredictionEduard Poesina, Adriana Valentina Costache, Adrian-Gabriel Chifu, Josiane Mothe, Radu-Tudor Ionescu. 28651-28661 [doi]

Let's Verify and Reinforce Image Generation Step by StepRenrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Ziyu Guo, Haoquan Zhang, Manyuan Zhang, Jiaming Liu, Peng Gao 0007, Hongsheng Li 0001. 28662-28672 [doi]

GLASS: Guided Latent Slot Diffusion for Object-Centric LearningKrishnakant Singh, Simone Schaub-Meyer, Stefan Roth 0001. 28673-28683 [doi]

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga GenerationJianzong Wu, Chao Tang, Jingbo Wang 0001, Yanhong Zeng, Xiangtai Li, Yunhai Tong. 28684-28693 [doi]

POSTA: A Go-to Framework for Customized Artistic Poster GenerationHaoyu Chen 0003, Xiaojie Xu, Wenbo Li 0002, Jingjing Ren, Tian Ye 0001, Songhua Liu, Ying-Cong Chen, Lei Zhu, Xinchao Wang. 28694-28704 [doi]

StageDesigner: Artistic Stage Generation for Scenography via Theater ScriptsZhaoxing Gan, Mengtian Li, Ruhua Chen, Zhongxia Ji, Sichen Guo, Huanling Hu, Guangnan Ye, Zuo Hu. 28705-28714 [doi]

Pattern Analogies: Learning to Perform Programmatic Image Edits by AnalogyAditya Ganeshan, Thibault Groueix, Paul Guerrero 0001, Radomír Mech, Matthew Fisher, Daniel Ritchie. 28715-28725 [doi]

Text-Driven Fashion Image Editing with Compositional Concept Learning and Counterfactual AbductionShanshan Huang 0004, Haoxuan Li, Chunyuan Zheng 0001, Mingyuan Ge, Wei Gao, Lei Wang, Li Liu. 28726-28735 [doi]

Controllable Human Image Generation with Personalized Multi-GarmentsYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin. 28736-28747 [doi]

AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic DataZengqun Zhao, Ziquan Liu, Yu Cao, Shaogang Gong, Ioannis Patras. 28748-28758 [doi]

Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement MattersYuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, Xiangnan He. 28759-28768 [doi]

Six-CD: Benchmarking Concept Removals for Text-to-image Diffusion ModelsJie Ren 0019, Kangrui Chen, Yingqian Cui, Shenglai Zeng, Hui Liu 0003, Yue Xing 0002, Jiliang Tang, Lingjuan Lyu. 28769-28778 [doi]

Implicit Bias Injection Attacks against Text-to-Image Diffusion ModelsHuayang Huang, Xiangye Jin, Jiaxu Miao, Yu Wu 0011. 28779-28789 [doi]

Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?Zebin You, Xinyu Zhang 0017, Hanzhong Guo, Jingdong Wang 0001, Chongxuan Li. 28790-28800 [doi]

Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion ModelsNamhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, DaeSik Kim, Seung-Hun Nam. 28801-28810 [doi]

Fingerprinting Denoising Diffusion Probabilistic ModelsHuan Teng, Yuhui Quan, Chengyu Wang 0001, Jun Huang, Hui Ji. 28811-28820 [doi]

Where's the Liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated ContentHaoyue Bai 0002, Yiyou Sun, Wei Cheng 0002, Haifeng Chen. 28821-28830 [doi]

SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal ModelZhenglin Huang, Jinwei Hu, Xiangtai Li, Yiwei He, Xingyu Zhao 0001, Bei Peng 0001, Baoyuan Wu, Xiaowei Huang 0001, Guangliang Cheng. 28831-28841 [doi]

Be More Specific: Evaluating Object-centric Realism in Synthetic ImagesAnqi Liang, Ciprian A. Corneanu, Qianli Feng, Giorgio Giannone, Aleix Martinez. 28842-28851 [doi]

NSD-Imagery: A Benchmark Dataset for Extending fMRI Vision Decoding Methods to Mental ImageryReese Kneeland, Paul S. Scotti, Ghislain St-Yves, Jesse Breedlove, Kendrick N. Kay, Thomas Naselaris. 28852-28862 [doi]

GG-SSMs: Graph-Generating State Space ModelsNikola Zubic, Davide Scaramuzza 0001. 28863-28873 [doi]

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned EncodersFiona Ryan, Ajay Bati, Sangmin Lee 0001, Daniel Bolya, Judy Hoffman, James M. Rehg. 28874-28884 [doi]

EgoLife: Towards Egocentric Life AssistantJingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Bo Li, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Ziwei Liu. 28885-28900 [doi]

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio SynthesisHo Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya 0001, Alexander G. Schwing, Yuki Mitsufuji. 28901-28911 [doi]

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional FlowsShentong Mo, Yibing Song. 28912-28921 [doi]

Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent AlignmentChen Liu 0018, Peike Li, Liying Yang, Dadong Wang, Lincheng Li, Xin Yu 0002. 28922-28931 [doi]

SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual ScenesYuji Wang, Haoran Xu, Yong Liu 0033, Jiaze Li, Yansong Tang. 28932-28941 [doi]

Sound Bridge: Associating Egocentric and Exocentric Videos via Audio CuesSihong Huang, Jiaxin Wu 0001, Xiaoyong Wei, Yi Cai 0001, Dongmei Jiang, Yaowei Wang 0001. 28942-28951 [doi]

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill EstimationYulu Pan, Ce Zhang 0010, Gedas Bertasius. 28952-28962 [doi]

Unified Dense Prediction of Video DiffusionLehan Yang, Lu Qi, Xiangtai Li, Sheng Li, Varun Jampani, Ming-Hsuan Yang 0001. 28963-28973 [doi]

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured CaptionTiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai. 28974-28983 [doi]

MovieBench: A Hierarchical Movie Level Dataset for Long Video GenerationWeijia Wu 0001, Mingyu Liu, Zeyu Zhu, Xi Xia, Haoen Feng, Wen Wang 0015, Kevin Qinghong Lin, Chunhua Shen, Mike Zheng Shou. 28984-28994 [doi]

SeriesBench: A Benchmark for Narrative-Driven Drama Series UnderstandingChenkai Zhang, Yiming Lei, Zeming Liu, Haitao Leng, Shaoguo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang 0001. 28995-29004 [doi]

DocVLM: Make Your VLM an Efficient ReaderMor Shpigel Nacson, Aviad Aberdam, Roy Ganz, Elad Ben-Avraham, Alona Golts, Yair Kittenplon, Shai Mazor, Ron Litman. 29005-29015 [doi]

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional VideosSagnik Majumder, Tushar Nagarajan, Ziad Al-Halah, Reina Pradhan, Kristen Grauman. 29016-29028 [doi]

VideoWorld: Exploring Knowledge Learning from Unlabeled VideosZhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao 0001, Bingyi Kang, Jiashi Feng, Xiaojie Jin. 29029-29039 [doi]

ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data StreamsChris Dongjoo Kim, Jihwan Moon 0002, Sangwoo Moon 0002, Heeseung Yun, Sihaeng Lee, Aniruddha Kembhavi, Soonyoung Lee, Gunhee Kim, Sangho Lee 0008, Christopher Clark. 29040-29049 [doi]

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video BenchmarksNina Shvetsova, Arsha Nagrani, Bernt Schiele, Hilde Kuehne, Christian Rupprecht 0001. 29050-29059 [doi]

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text ModelsDahun Kim, A. J. Piergiovanni, Ganesh Mallya, Anelia Angelova. 29060-29070 [doi]

Flexible Frame Selection for Efficient Video ReasoningShyamal Buch, Arsha Nagrani, Anurag Arnab, Cordelia Schmid. 29071-29082 [doi]

LiveCC: Learning Video LLM with Streaming Speech Transcription at ScaleJoya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou. 29083-29095 [doi]

BIMBA: Selective-Scan Compression for Long-Range Video Question AnsweringMd Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani. 29096-29107 [doi]

SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained UnderstandingYangliu Hu, Zikai Song, Na Feng, Yawei Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang 0034. 29108-29117 [doi]

Adaptive Keyframe Sampling for Long Video UnderstandingXi Tang, Jihao Qiu, Lingxi Xie, Yunjie Tian, Jianbin Jiao, Qixiang Ye. 29118-29128 [doi]

Efficient Transfer Learning for Video-language Foundation ModelsHaoxing Chen, Zizheng Huang, Yan Hong 0001, Yanshuo Wang, Zhongcai Lyu, Zhuoer Xu, Jun Lan, Zhangxuan Gu. 29129-29138 [doi]

EventGPT: Event Stream Understanding with Multimodal Large Language ModelsShaoyu Liu, Jianing Li, Guanghui Zhao, Yunjian Zhang, Xin Meng, Fei Richard Yu, Xiangyang Ji, Ming Li. 29139-29149 [doi]

HyperGLM: HyperGraph for Video Scene Graph Generation and AnticipationTrong Thuan Nguyen, Pha Nguyen, Jackson David Cothren, Alper Yilmaz, Khoa Luu. 29150-29160 [doi]

DiffVsgg: Diffusion-Driven Online Video Scene Graph GenerationMu Chen, Liulei Li, Wenguan Wang, Yi Yang 0001. 29161-29172 [doi]

CASAGPT: Cuboid Arrangement and Scene Assembly for Interior DesignWeitao Feng, Hang Zhou 0007, Jing Liao 0001, Li Cheng, Wenbo Zhou. 29173-29182 [doi]

The Devil is in Temporal Token: High Quality Video Reasoning SegmentationSitong Gong, Yunzhi Zhuge, Lu Zhang 0053, Zongxin Yang, Pingping Zhang, Huchuan Lu. 29183-29192 [doi]

M^3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object SegmentationZixuan Chen, Jiaxin Li, Junxuan Liang, Liming Tan, Yejie Guo, Cewu Lu, Yong-Lu Li 0001. 29193-29202 [doi]

Anomize: Better Open Vocabulary Video Anomaly DetectionFei Li, Wenxuan Liu, Jingjing Chen, Ruixu Zhang, Yuran Wang, Xian Zhong, Zheng Wang. 29203-29212 [doi]

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse DisciplinesChen Tang, Xinzhu Ma, Encheng Su, Xiufeng Song, Xiaohong Liu 0001, Wei-Hong Li, Lei Bai 0001, Wanli Ouyang, Xiangyu Yue 0001. 29213-29224 [doi]

Temporal Action Detection Model Compression by Progressive Block DropXiaoyong Chen, Yong Guo, Jiaming Liang, Sitong Zhuang, Runhao Zeng, Xiping Hu 0001. 29225-29236 [doi]

Period-LLM: Extending the Periodic Capability of Multimodal Large Language ModelYuting Zhang, Hao Lu, Qingyong Hu, Yin Wang, Kaishen Yuan, Xin Liu, Kaishun Wu. 29237-29247 [doi]

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action RecognitionHongda Liu, Yunfan Liu 0001, Min Ren, Hao Wang, Yunlong Wang, Zhenan Sun. 29248-29257 [doi]

DiSciPLE: Learning Interpretable Programs for Scientific Visual DiscoveryUtkarsh Mall, Cheng Perng Phoo, Mia Chiquier, Bharath Hariharan, Kavita Bala, Carl Vondrick. 29258-29267 [doi]

Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial PurificationGaozheng Pei, Shaojie Lyu, Gong Chen, Ke Ma 0001, Qianqian Xu, Yingfei Sun, Qingming Huang. 29268-29277 [doi]

SDBF: Steep-Decision-Boundary Fingerprinting for Hard-Label Tampering Detection of DNN ModelsXiaofan Bai, Shixin Li, Xiaojing Ma 0002, Bin Benjamin Zhu, Dongmei Zhang 0001, Linchen Yu. 29278-29287 [doi]

From Head to Tail: Efficient Black-box Model Inversion Attack via Long-tailed LearningZiang Li, Hongguang Zhang, Juan Wang 0006, MeiHui Chen, Hongxin Hu, Wenzhe Yi, Xiaoyang Xu 0001, Mengda Yang, Chenjun Ma. 29288-29298 [doi]

UMFN: Unified Multi-Domain Face Normalization for Joint Cross-domain Prototype Learning and Heterogeneous Face RecognitionMeng Pang, Wenjun Zhang, Nanrun Zhou, Shengbo Chen, Hong Rao. 29299-29308 [doi]

MEET: Towards Memory-Efficient Temporal Sparse Deep Neural NetworksZeqi Zhu, Ibrahim Batuhan Akkaya, Luc Waeijen, Egor Bondarev, Arash Pourtaherian, Orlando Moreira. 29309-29320 [doi]

Object Detection using Event Camera: A MoE Heat Conduction based Detector and A New Benchmark DatasetXiao Wang, Yu Jin, Wentao Wu, Wei Zhang, Lin Zhu, Bo Jiang, Yonghong Tian 0001. 29321-29330 [doi]

Person De-reidentification: A Variation-guided Identity Shift ModelingYi-Xing Peng, Yu-Ming Tang, Kun-Yu Lin, Qize Yang, Jingke Meng, Xihan Wei, Wei-Shi Zheng 0001. 29331-29341 [doi]

WISE: A Framework for Gigapixel Whole-Slide-Image Lossless CompressionYu Mao 0001, Jun Wang, Nan Guan, Chun Jason Xue. 29342-29351 [doi]

BOE-ViT: Boosting Orientation Estimation with Equivariance in Self-Supervised 3D Subtomogram AlignmentRunmin Jiang, Jackson Daggett, Shriya Pingulkar, Yizhou Zhao, Priyanshu Dhingra, Daniel Brown, Qifeng Wu, Xiangrui Zeng, Xingjian Li, Min Xu 0009. 29352-29362 [doi]

Point-to-Region Loss for Semi-Supervised Point-Based Crowd CountingWei Lin 0018, Chenyang Zhao, Antoni B. Chan. 29363-29373 [doi]

SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic PromptsShijia Zhao, Qiming Xia, Xusheng Guo, Pufan Zou, Maoji Zheng, Hai Wu, Chenglu Wen, Cheng Wang. 29374-29384 [doi]

Segment Anything, Even OccludedWei-En Tai, Yu-Lin Shih, Cheng Sun 0004, Yu-Chiang Frank Wang, Hwann-Tzong Chen. 29385-29394 [doi]

BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature AnalysisWeiguang Zhao, Rui Zhang, Qiufeng Wang 0001, Guangliang Cheng, Kaizhu Huang. 29395-29405 [doi]

SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in StructuresHui Liu, Chen Jia, Fan Shi, Xu Cheng, Shengyong Chen. 29406-29416 [doi]

Towards Continual Universal SegmentationZihan Lin, Zilei Wang, Xu Wang. 29417-29427 [doi]

Segment This Thing: Foveated Tokenization for Efficient Point-Prompted SegmentationTanner Schmidt, Richard A. Newcombe. 29428-29437 [doi]

Probabilistic Prompt Distribution Learning for Animal Pose EstimationJiyong Rao, Brian Nlong Zhao, Yu Wang. 29438-29447 [doi]

Navigating the Unseen: Zero-shot Scene Graph Generation via Capsule-Based Equivariant FeaturesWenhuan Huang, Yi Ji 0001, Guiqian Zhu, Li Ying, Chunping Liu. 29448-29457 [doi]

ASHiTA: Automatic Scene-grounded HIerarchical Task AnalysisYun Chang, Leonor Fermoselle, Duy Ta, Bernadette Bucher, Luca Carlone, Jiuguang Wang. 29458-29468 [doi]

LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language ModelsFan-Yun Sun, Weiyu Liu, Siyi Gu, Dylan Lim, Goutam Bhat, Federico Tombari, Manling Li, Nick Haber, Jiajun Wu. 29469-29478 [doi]

Vision-Language Embodiment for Monocular Depth EstimationJinchang Zhang, Guoyu Lu. 29479-29489 [doi]

SpiritSight Agent: Advanced GUI Agent with One LookZhiyuan Huang, Ziming Cheng, Junting Pan, Zhaohui Hou, Mingjie Zhan. 29490-29500 [doi]

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less HallucinationJianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian 0001, David F. Fouhey, Joyce Chai. 29501-29512 [doi]

Collaborative Tree Search for Enhancing Embodied Multi-Agent CollaborationLizheng Zu, Lin Lin 0014, Song Fu, Na Zhao, Pan Zhou. 29513-29522 [doi]

CTRL-O: Language-Controllable Object-Centric Visual Representation LearningAniket Didolkar, Andrii Zadaianchuk, Rabiul Awal, Maximilian Seitzer, Efstratios Gavves, Aishwarya Agrawal. 29523-29533 [doi]

VLMs-Guided Representation Distillation for Efficient Vision-Based Reinforcement LearningHaoran Xu 0004, Peixi Peng, Guang Tan, Yiqian Chang, Luntong Li, Yonghong Tian 0001. 29534-29544 [doi]

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language ModelsByung kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu. 29545-29557 [doi]

Adaptive Markup Language Generation for Contextually-Grounded Visual Document UnderstandingHan Xiao 0010, Yina Xie, Guanxin Tan, Yinghao Chen, Rui Hu, Ke Wang, Aojun Zhou, Hao Li, Hao Shao, Xudong Lu, Peng Gao, Yafei Wen, Xiaoxin Chen 0001, Shuai Ren, Hongsheng Li. 29558-29568 [doi]

CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language ModelsYiqi Zhu, Ziyue Wang, Can Zhang, Peng Li, Yang Liu. 29569-29579 [doi]

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model EvaluationYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang 0003, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy. 29580-29590 [doi]

CocoER: Aligning Multi-Level Feature by Competition and Coordination for Emotion RecognitionXuli Shen, Hua Cai, Weilin Shen, Qing Xu 0017, Dingding Yu, Weifeng Ge, Xiangyang Xue 0001. 29591-29600 [doi]

Seek Common Ground While Reserving Differences: Semi-Supervised Image-Text Sentiment RecognitionWuyou Xia, Guoli Jia, Sicheng Zhao, Jufeng Yang. 29601-29611 [doi]

Vision-Language Models Do Not Understand NegationKumail Alhamoud, Shaden Alshammari, Yonglong Tian, Guohao Li 0013, Philip H. S. Torr, Yoon Kim, Marzyeh Ghassemi. 29612-29622 [doi]

Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question AnsweringYuanhao Zou, Zhaozheng Yin. 29623-29633 [doi]

Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image SegmentationTing Liu, Siyuan Li. 29634-29643 [doi]

UNIALIGN: Scaling Multimodal Alignment within One Unified ModelBo Zhou, Liulei Li, Yujia Wang, Huafeng Liu 0004, Yazhou Yao, Wenguan Wang. 29644-29655 [doi]

SpatialCLIP: Learning 3D-aware Image Representations from Spatially Discriminative LanguageZehan Wang 0001, Sashuai Zhou, Shaoxuan He, Haifeng Huang, Lihe Yang, Ziang Zhang, Xize Cheng, Shengpeng Ji, Tao Jin 0004, Hengshuang Zhao, Zhou Zhao 0001. 29656-29666 [doi]

Semantic and Expressive Variations in Image Captions Across LanguagesAndre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna. 29667-29679 [doi]

ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence LearningQuanxing Zha, Xin Liu, Shu-Juan Peng, Yiu-ming Cheung, Xing Xu, Nannan Wang. 29680-29689 [doi]

Generative Zero-Shot Composed Image RetrievalLan Wang, Wei Ao, Vishnu Naresh Boddeti, Ser-Nam Lim. 29690-29700 [doi]

IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-IdentificationYuhao Wang, Yongfeng Lv, Pingping Zhang, Huchuan Lu. 29701-29710 [doi]

MP-GUI: Modality Perception with MLLMs for GUI UnderstandingZiwei Wang, Weizhi Chen, Leyang Yang, Sheng Zhou 0004, Shengchu Zhao, Hanbei Zhan, Jiongchao Jin, Liangcheng Li, Zirui Shao, Jiajun Bu. 29711-29721 [doi]

Towards Natural Language-Based Document Image Retrieval: New Dataset and BenchmarkHao Guo, Xugong Qin, Jun Jie Ou Yang, Peng Zhang 0044, Gangyan Zeng, Yubo Li, Hailun Lin. 29722-29732 [doi]

Incorporating Dense Knowledge Alignment into Unified Multimodal Representation ModelsYuhao Cui, Xinxing Zu, Wenhua Zhang, Zhongzhou Zhao, Jinyang Gao. 29733-29743 [doi]

MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual RepresentationsZiyang Zhang, Yang Yu, Yucheng Chen, XuLei Yang, Si Yong Yeo. 29744-29755 [doi]

Non-Natural Image Understanding with Advancing Frequency-based Vision EncodersWang Lin, Qingsong Wang, Yueying Feng, Shulei Wang, Tao Jin, Zhou Zhao 0001, Fei Wu 0001, Chang Yao, Jingyuan Chen. 29756-29766 [doi]

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token FoldingHao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai. 29767-29779 [doi]

SmartCLIP: Modular Vision-language Alignment with Identification GuaranteesShaoan Xie, Lingjing, Yujia Zheng 0001, Yu Yao, Zeyu Tang 0002, Eric P. Xing, Guangyi Chen 0002, Kun Zhang. 29780-29790 [doi]

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-trainingHaicheng Wang, Chen Ju, Weixiong Lin, Shuai Xiao, Mengting Chen, Yixuan Huang, Chang Liu, Mingshuai Yao, Jinsong Lan, Ying Chen, Qingwen Liu 0002, Yanfeng Wang. 29791-29802 [doi]

Language-Guided Salient Object RankingFang Liu, Yuhao Liu, Ke Xu 0010, Shuquan Ye, Gerhard Petrus Hancke, Rynson W. H. Lau. 29803-29813 [doi]

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language ModelsRunhui Huang, Xinpeng Ding, Chunwei Wang, Jianhua Han, Yulong Liu, Hengshuang Zhao, Hang Xu, Lu Hou, Wei Zhang, Xiaodan Liang. 29814-29824 [doi]

Mimic In-Context Learning for Multimodal TasksYuchu Jiang, Jiale Fu, Chenduo Hao, Xinting Hu, Yingzhe Peng, Xin Geng 0001, Xu Yang 0004. 29825-29835 [doi]

VoCo-LLaMA: Towards Vision Compression with Large Language ModelsXubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Yansong Tang. 29836-29846 [doi]

Harnessing Frozen Unimodal Encoders for Flexible Multimodal AlignmentMayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Noel E. O'Connor. 29847-29857 [doi]

Towards Understanding How Knowledge Evolves in Large Vision-Language ModelsSudong Wang, Yunjian Zhang, Yao Zhu, Jianing Li, Zizhe Wang, Yanwei Liu, Xiangyang Ji. 29858-29868 [doi]

Accelerating Multimodal Large Language Models by Searching Optimal Vision Token ReductionShiyu Zhao, Zhenting Wang, Felix Juefei-Xu, Xide Xia, Miao Liu 0007, Xiaofang Wang, Mingfu Liang, Ning Zhang, Dimitris N. Metaxas, Licheng Yu. 29869-29879 [doi]

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task AlignmentZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li 0002, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang 0001, Yu Qiao 0001, Limin Wang, Yi Wang. 29880-29892 [doi]

HalLoc: Token-level Localization of Hallucinations for Vision Language ModelsEunkyu Park, Minyeong Kim, Gunhee Kim. 29893-29903 [doi]

Octopus: Alleviating Hallucination via Dynamic Contrastive DecodingWei Suo, Lijun Zhang, Mengyang Sun, Lin Yuanbo Wu, Peng Wang, Yanning Zhang. 29904-29914 [doi]

Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local AttentionWenbin An, Feng Tian, Sicong Leng, Jiahao Nie 0002, Haonan Lin, QianYing Wang, Ping Chen 0001, Xiaoqin Zhang, Shijian Lu. 29915-29926 [doi]

BadToken: Token-level Backdoor Attacks to Multi-modal Large Language ModelsZenghui Yuan, Jiawen Shi, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001. 29927-29936 [doi]

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution StrategyJoonhyun Jeong, Seyun Bae, Yeonsung Jung, Jaeryong Hwang, Eunho Yang. 29937-29946 [doi]

Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against JailbreaksHan Wang, Gang Wang, Huan Zhang. 29947-29957 [doi]

R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt TuningLijun Sheng, Jian Liang 0001, Zilei Wang, Ran He 0001. 29958-29967 [doi]

ResCLIP: Residual Attention for Training-free Dense Vision-language InferenceYuhang Yang, Jinhong Deng, Wen Li 0001, Lixin Duan. 29968-29978 [doi]

Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal RepresentationsJeonghyeon Kim, Sangheum Hwang. 29979-29988 [doi]

Rethinking Few-Shot Adaptation of Vision-Language Models in Two StagesMatteo Farina, Massimiliano Mancini, Giovanni Iacca, Elisa Ricci 0001. 29989-29998 [doi]

Bayesian Test-Time Adaptation for Vision-Language ModelsLihua Zhou, Mao Ye 0001, Shuaifeng Li, Nianxin Li, Xiatian Zhu, Lei Deng, Hongbin Liu, Zhen Lei. 29999-30009 [doi]

Cropper: Vision-Language Model for Image Cropping through In-Context LearningSeung-Hyun Lee, Jijun Jiang, Yiran Xu, Zhuofang Li, Junjie Ke, Yinxiao Li, Junfeng He, Steven Hickson, Katie Datsenko, Sangpil Kim, Ming-Hsuan Yang 0001, Irfan Essa, Feng Yang. 30010-30019 [doi]

ImagineFSL: Self-Supervised Pretraining Matters on Imagined Base Set for VLM-based Few-shot LearningHaoyuan Yang, Xiaoou Li, Jiaming Lv, Xianjun Cheng, Qilong Wang, Peihua Li. 30020-30031 [doi]

SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute PromptingChenyu Zhang, Kunlun Xu, Zichen Liu, Yuxin Peng, Jiahuan Zhou. 30032-30041 [doi]

Interpreting Object-level Foundation Models via Visual Precision SearchRuoyu Chen 0001, Siyuan Liang, Jingzhi Li 0002, Shiming Liu, Maosen Li, Zhen Huang, Hua Zhang 0008, Xiaochun Cao. 30042-30052 [doi]

Towards Fine-Grained Interpretability: Counterfactual Explanations for Misclassification with Saliency PartitionLinTong Zhang, Kang Yin, Seong-Whan Lee. 30053-30062 [doi]

Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck ModelsItay Benou, Tammy Riklin-Raviv. 30063-30072 [doi]

VL2Lite: Task-Specific Knowledge Distillation from Large Vision-Language Models to Lightweight NetworksJinseong Jang, Chunfei Ma, Byeongwon Lee. 30073-30083 [doi]

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D TeachersMert Bülent Sariyildiz, Philippe Weinzaepfel, Thomas Lucas 0002, Pau de Jorge, Diane Larlus, Yannis Kalantidis. 30084-30094 [doi]

Probing the Mid-level Vision Capabilities of Self-Supervised LearningXuweiyi Chen, Markus Marks, Zezhou Cheng. 30095-30105 [doi]

Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear TransformationSeokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim. 30106-30115 [doi]

COAP: Memory-Efficient Training with Correlation-Aware Gradient ProjectionJinqi Xiao, Shen Sang, Tiancheng Zhi, Jing Liu, Qing Yan, Linjie Luo, Bo Yuan. 30116-30126 [doi]

Sample- and Parameter-Efficient Auto-Regressive Image ModelsElad Amrani, Leonid Karlinsky, Alex M. Bronstein. 30127-30136 [doi]

Subnet-Aware Dynamic Supernet Training for Neural Architecture SearchJeimin Jeon, Youngmin Oh, Junghyup Lee, Donghyeon Baek, Dohyung Kim 0006, Chanho Eom, Bumsub Ham. 30137-30146 [doi]

DeepCompress-ViT: Rethinking Model Compression to Enhance Efficiency of Vision Transformers at the EdgeSabbir Ahmed, Abdullah Al Arafat, Deniz Najafi, Akhlak Mahmood, Mamshad Nayeem Rizve, Mohaiminul Al Nahian, Ranyang Zhou, Shaahin Angizi, Adnan Siraj Rakin. 30147-30156 [doi]

Adventurer: Optimizing Vision Mamba Architecture Designs for EfficiencyFeng Wang, Timing Yang, Yaodong Yu, Sucheng Ren, Guoyizhe Wei, Angtian Wang, Wei Shao 0008, Yuyin Zhou, Alan L. Yuille, Cihang Xie. 30157-30166 [doi]

Dynamic Group Normalization: Spatio-Temporal Adaptation to Evolving Data StatisticsYair Smadar, Assaf Hoogi. 30167-30177 [doi]

Frequency Dynamic Convolution for Dense Image PredictionLinwei Chen, Lin Gu 0003, Liang Li 0003, Chenggang Yan 0001, Ying Fu 0001. 30178-30188 [doi]

Faster Parameter-Efficient Tuning with Token Redundancy ReductionKwonyoung Kim, Jungin Park, Jin Kim 0005, Hyeongjun Kwon, Kwanghoon Sohn. 30189-30198 [doi]

Discovering Fine-Grained Visual-Concept Relations by Disentangled Optimal Transport Concept Bottleneck ModelsYan Xie, Zequn Zeng, Hao Zhang, Yucheng Ding, Yi Wang, Zhengjue Wang, Bo Chen 0001, Hongwei Liu 0001. 30199-30209 [doi]

TIDE: Training Locally Interpretable Domain Generalization Models Enables Test-time CorrectionAishwarya Agarwal, Srikrishna Karanam, Vineet Gandhi. 30210-30220 [doi]

Exploring Simple Open-Vocabulary Semantic SegmentationZihang Lai. 30221-30230 [doi]

POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning SegmentationLanyun Zhu, Tianrun Chen, Qianxiong Xu, Xuanyi Liu, Deyi Ji, Haiyang Wu, De Wen Soh, Jun Liu. 30231-30240 [doi]

Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic SegmentationSongsong Duan, Xi Yang 0011, Nannan Wang 0001. 30241-30250 [doi]

HistoFS: Non-IID Histopathologic Whole Slide Image Classification via Federated Style Transfer with RoI-PreservingFarchan Hakim Raswa, Chun-Shien Lu, Jia-Ching Wang. 30251-30260 [doi]

FFR: Frequency Feature Rectification for Weakly Supervised Semantic SegmentationZiqian Yang, Xinqiao Zhao, Xiaolei Wang, Quan Zhang, Jimin Xiao. 30261-30270 [doi]

Prototype-Based Image Prompting for Weakly Supervised Histopathological Image SegmentationQingchen Tang, Lei Fan 007, Maurice Pagnucco, Yang Song 0001. 30271-30280 [doi]

Pay Attention to the Foreground in Object-Centric LearningPinzhuo Tian, Shengjie Yang, Hang Yu, Alex C. Kot. 30281-30290 [doi]

Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and ScalabilityJianyang Zhang, Qianli Luo, Guowu Yang, Wenjing Yang 0003, Weide Liu, Guosheng Lin, Fengmao Lv. 30291-30300 [doi]

LOGICZSL: Exploring Logic-induced Representation for Compositional Zero-shot LearningPeng Wu, Xiankai Lu, Hao Hu, Yongqin Xian, Jianbing Shen, Wenguan Wang. 30301-30311 [doi]

CLIP-driven Coarse-to-fine Semantic Guidance for Fine-grained Open-set Semi-supervised LearningXiaokun Li, Yaping Huang, Qingji Guan. 30312-30321 [doi]

Less Attention is More: Prompt Transformer for Generalized Category DiscoveryWei Zhang, Baopeng Zhang, Zhu Teng, Wenxin Luo, Junnan Zou, Jianping Fan 0007. 30322-30331 [doi]

Open-World Objectness Modeling Unifies Novel Object DetectionShan Zhang 0002, Yao Ni, Jinhao Du, Yuan Xue, Philip Torr, Piotr Koniusz, Anton van den Hengel. 30332-30342 [doi]

Activating Sparse Part Concepts for 3D Class Incremental LearningZhenya Tian, Jun Xiao 0005, Lupeng Liu, Haiyong Jiang. 30343-30353 [doi]

Learning Endogenous Attention for Incremental Object DetectionXiang Song 0005, Yuhang He, Jingyuan Li, Qiang Wang, Yihong Gong. 30354-30364 [doi]

UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label LearningWeiqi Yan, Lvhai Chen, Huaijia Kou, Shengchuan Zhang, Yan Zhang, Liujuan Cao. 30365-30375 [doi]

Feature Information Driven Position Gaussian Distribution Estimation for Tiny Object DetectionJinghao Bian, Mingtao Feng, Weisheng Dong, Fangfang Wu, Jianqiao Luo, Yaonan Wang 0001, Guangming Shi. 30376-30386 [doi]

A Unified, Resilient, and Explainable Adversarial Patch DetectorVishesh Kumar, Akshay Agarwal 0001. 30387-30397 [doi]

Bayesian Prompt Flow Learning for Zero-Shot Anomaly DetectionZhen Qu, Xian Tao, Xinyi Gong, Shichen Qu, Qiyu Chen, Zhengtao Zhang, Xingang Wang, Guiguang Ding. 30398-30408 [doi]

Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly DetectionWenqiao Li, Yao Gu, Xintao Chen, Xiaohao Xu, Ming Hu, Xiaonan Huang, Yingna Wu. 30409-30419 [doi]

Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image GenerationYing Jin, Jinlong Peng, Qingdong He, Teng Hu, Jiafu Wu, Hao Chen, Haoxuan Wang, Wenbing Zhu, Mingmin Chi, Jun Liu, Yabiao Wang. 30420-30429 [doi]

LotusFilter: Fast Diverse Nearest Neighbor Search via a Learned Cutoff TableYusuke Matsui. 30430-30439 [doi]

FedBiP: Heterogeneous One-Shot Federated Learning with Personalized Latent Diffusion ModelsHaokun Chen, Hang Li 0010, Yao Zhang, Jinhe Bi, Gengyuan Zhang, Yueqi Zhang, Philip Torr 0001, Jindong Gu, Denis Krompass, Volker Tresp. 30440-30450 [doi]

Emphasizing Discriminative Features for Dataset Distillation in Complex ScenariosKai Wang, Zekai Li, Zhi-Qi Cheng, Samir Khaki, Ahmad Sajedi, Ramakrishna Vedantam, Konstantinos N. Plataniotis, Alexander Hauptmann 0001, Yang You 0001. 30451-30461 [doi]

Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset DistillationXinhao Zhong, Hao Fang, Bin Chen, Xulin Gu, Meikang Qiu, Shuhan Qi, Shu-Tao Xia. 30462-30471 [doi]

EVOS: Efficient Implicit Neural Training via EVOlutionary SelectorWeixiang Zhang, Shuzhao Xie, Chengwei Ren, Siyi Xie, Chen Tang, Shijia Ge, Mingzi Wang, Zhi Wang. 30472-30482 [doi]

Learning from Neighbors: Category Extrapolation for Long-Tail LearningShizhen Zhao, Xin Wen 0004, Jiahui Liu, Chuofan Ma, Chunfeng Yuan, Xiaojuan Qi 0001. 30483-30492 [doi]

PLeaS - Merging Models with Permutations and Least SquaresAnshul Nasery, Jonathan Hayase, Pang Wei Koh, Sewoong Oh. 30493-30502 [doi]

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain AlignmentJiayi Guo, Junhao Zhao, Chaoqun Du, Yulin Wang, Chunjiang Ge, Zanlin Ni, Shiji Song, Humphrey Shi, Gao Huang. 30503-30513 [doi]

SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation SparsityKe Ma, Jiaqi Tang 0005, Bin Guo 0001, Fan Dang 0001, Sicong Liu 0005, Zhui Zhu, Lei Wu, Cheng Fang, Ying-Cong Chen, Zhiwen Yu 0001, Yunhao Liu 0001. 30514-30523 [doi]

Hierarchical Knowledge Prompt Tuning for Multi-task Test-Time AdaptationQiang Zhang, Mengsheng Zhao, Jiawei Liu 0001, Fanrui Zhang, Yongchao Xu, Zheng-Jun Zha. 30524-30533 [doi]

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental LearningJiangpeng He, Zhihao Duan, Fengqing Zhu 0001. 30534-30544 [doi]

Dynamic Integration of Task-Specific Adapters for Class Incremental LearningJiashuo Li, Shaokun Wang, Bo Qian, Yuhang He, Xing Wei, Qiang Wang, Yihong Gong. 30545-30555 [doi]

Task-Specific Gradient Adaptation for Few-Shot One-Class ClassificationYunlong Li, Xiabi Liu, Liyuan Pan, Yuchen Ren 0003. 30556-30565 [doi]

Multi-Granularity Class Prototype Topology Distillation for Class-Incremental Source-Free Unsupervised Domain AdaptationPeihua Deng, Jiehua Zhang, Xichun Sheng, Chenggang Yan 0001, Yaoqi Sun, Ying Fu, Liang Li 0003. 30566-30576 [doi]

Balanced Direction from Multifarious Choices: Arithmetic Meta-Learning for Domain GeneralizationXiran Wang, Jian Zhang, Lei Qi 0001, Yinghuan Shi. 30577-30587 [doi]

ADU: Adaptive Detection of Unknown Categories in Black-Box Domain AdaptationYushan Lai, Guowen Li, Haoyuan Liang, Juepeng Zheng, ZhiYu Ye. 30588-30598 [doi]

Unlocking the Potential of Unlabeled Data in Semi-Supervised Domain GeneralizationDongkwan Lee, Kyomin Hwang, Nojun Kwak. 30599-30608 [doi]

Distilling Long-tailed DatasetsZhenghao Zhao, Haoxuan Wang 0002, Yuzhang Shang, Kai Wang, Yan Yan 0002. 30609-30618 [doi]

Open Set Label Shift with Test Time Out-of-Distribution ReferenceChangkun Ye, Russell Tsuchida, Lars Petersson, Nick Barnes. 30619-30629 [doi]

OODD: Test-time Out-of-Distribution Detection with Dynamic DictionaryYifeng Yang, Lin Zhu, Zewen Sun, Hengyu Liu 0007, Qinying Gu, Nanyang Ye 0001. 30630-30639 [doi]

pFedMxF: Personalized Federated Class-Incremental Learning with Mixture of Frequency AggregationYifei Zhang, Hao Zhu, Alysa Ziying Tan, Dianzhi Yu, Longtao Huang, Han Yu 0001. 30640-30650 [doi]

FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client VectorsChanglong Shi, He Zhao, Bingjie Zhang, Mingyuan Zhou, Dandan Guo, Yi Chang 0001. 30651-30660 [doi]

Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse AdapterZhengyi Zhong, Weidong Bao 0001, Ji Wang 0002, Shuai Zhang 0004, Jingxuan Zhou, Lingjuan Lyu, Wei Yang Bryan Lim. 30661-30670 [doi]

Jailbreaking the Non-Transferable Barrier via Test-Time Data DisguisingYongli Xiang, Ziming Hong, Lina Yao 0001, Dadong Wang, Tongliang Liu. 30671-30681 [doi]

Improving the Training of Data-Efficient GANs via Quality Aware Dynamic Discriminator Rejection SamplingZhaoyu Zhang, Yang Hua 0001, Guanxiong Sun, Hui Wang, Seán F. McLoone. 30682-30691 [doi]

EntropyMark: Towards More Harmless Backdoor Watermark via Entropy-based Constraint for Open-source Dataset Copyright ProtectionMing Sun 0010, Rui Wang, Zixuan Zhu 0002, Lihua Jing, Yuanfang Guo. 30692-30701 [doi]

Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual AttacksYong Xie, Weijie Zheng, Hanxun Huang, Guangnan Ye, Xingjun Ma. 30702-30711 [doi]

Balancing Two Classifiers via A Simplex ETF Structure for Model CalibrationJiani Ni, He Zhao, Jintong Gao, Dandan Guo, Hongyuan Zha. 30712-30721 [doi]

Incomplete Multi-View Multi-label Learning via Disentangled Representation and Label Semantic EmbeddingXu Yan, Jun Yin, Jie Wen. 30722-30731 [doi]

ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy CorrespondenceYuan Sun, Yongxiang Li, Zhenwen Ren, Guiduo Duan, Dezhong Peng, Peng Hu 0002. 30732-30741 [doi]

Feature Selection for Latent Factor ModelsRittwika Kansabanik, Adrian Barbu. 30742-30751 [doi]

Multi-modal Contrastive Learning with Negative Sampling Calibration for Phenotypic Drug DiscoveryJiahua Rao, Hanjing Lin, Leyu Chen, Jiancong Xie, Shuangjia Zheng, Yuedong Yang. 30752-30762 [doi]

Multi-modal Medical Diagnosis via Large-small Model CollaborationWanyi Chen, Zihua Zhao, Jiangchao Yao, Ya Zhang 0002, Jiajun Bu, Haishuai Wang. 30763-30773 [doi]

Towards All-in-One Medical Image Re-IdentificationYuan Tian, Kaiyuan Ji, Rongzhao Zhang, Yankai Jiang, Chunyi Li, Xiaosong Wang, Guangtao Zhai. 30774-30786 [doi]

FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation ModelsAlice Heiman, Xiaoman Zhang, Emma Chen, Sung-Eun Kim, Pranav Rajpurkar. 30787-30796 [doi]

Interactive Medical Image Analysis with Concept-based Similarity ReasoningTa Duc Huy, Sen Kim Tran, Phan Nguyen, Nguyen Hoang Tran, Tran Bao Sam, Anton van den Hengel, Zhibin Liao, Johan W. Verjans, Minh-Son To, Vu Minh Hieu Phan. 30797-30806 [doi]

Unsupervised Foundation Model-Agnostic Slide-Level Representation LearningTim Lenz, Peter Neidlinger, Marta Ligero, Georg Wölflein, Marko van Treeck, Jakob Nikolas Kather. 30807-30817 [doi]

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance LearningJiuyang Dong, Junjun Jiang, Kui Jiang, Jiahan Li, Yongbing Zhang 0002. 30818-30828 [doi]

ASIGN: An Anatomy-aware Spatial Imputation Graphic Network for 3D Spatial TranscriptomicsJunchao Zhu, Ruining Deng, Tianyuan Yao, Juming Xiong, Chongyu Qu, Junlin Guo, Siqi Lu, Mengmeng Yin, Yu Wang, Shilin Zhao, Haichun Yang, Yuankai Huo. 30829-30838 [doi]

beta-FFT: Nonlinear Interpolation and Differentiated Training Strategies for Semi-Supervised Medical Image SegmentationMing Hu, Jianfu Yin, Zhuangzhuang Ma, Jianheng Ma, Feiyu Zhu, Bingbing Wu, Ya-Wen, Meng Wu, Cong Hu, Bingliang Hu, Quan Wang. 30839-30849 [doi]

DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image SegmentationMaregu Assefa, Muzammal Naseer, Iyyakutti Iyappan Ganapathi, Syed Sadaf Ali, Mohamed L. Seghier, Naoufel Werghi. 30850-30860 [doi]

Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear AttentionSaad Wazir, Daeyoung Kim 0001. 30861-30871 [doi]

LesionLocator: Zero-Shot Universal Tumor Segmentation and Tracking in 3D Whole-Body ImagingMaximilian Rokuss, Yannick Kirchhoff, Seval Akbal, Balint Kovacs, Saikat Roy, Constantin Ulrich, Tassilo Wald, Lukas T. Rotkopf, Heinz-Peter Schlemmer, Klaus H. Maier-Hein. 30872-30885 [doi]

DAMM-Diffusion: Learning Divergence-Aware Multi-Modal Diffusion Model for Nanoparticles Distribution PredictionJunjie Zhou, Shouju Wang, Yuxia Tang, Qi Zhu 0001, Daoqiang Zhang, Wei Shao 0005. 30886-30895 [doi]

DeformCL: Learning Deformable Centerline Representation for Vessel Extraction in 3D Medical ImageZiwei Zhao 0001, Zhixing Zhang, Yuhang Liu, Zhao Zhang, Haojun Yu, Dong Wang, Liwei Wang. 30896-30905 [doi]

MultiMorph: On-demand Atlas ConstructionS. Mazdak Abulnaga, Andrew Hoopes, Neel Dey, Malte Hoffmann, Bruce Fischl, John V. Guttag, Adrian V. Dalca. 30906-30917 [doi]

Anatomical Consistency and Adaptive Prior-informed Transformation for Multi-contrast MR Image Synthesis via Diffusion ModelYejee Shin, Yeeun Lee, Hanbyol Jang, Geonhui Son, Hyeongyu Kim, Dosik Hwang. 30918-30927 [doi]

CrossSDF: 3D Reconstruction of Thin Structures From Cross-SectionsThomas Walker, Salvatore Esposito, Daniel Rebain, Amir Vaxman, Arno Onken, Changjian Li, Oisin Mac Aodha. 30928-30937 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025, Nashville, TN, USA, June 11-15, 2025

Abstract

Table of Contents