IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2025, Nashville, TN, USA, June 11-15, 2025

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2025, Nashville, TN, USA, June 11-15, 2025. Computer Vision Foundation / IEEE, 2025. [doi]

Conference: cvpr2025

Abstract is missing.

NExNet Seg: Neuron Expansion Network for Medical Image SegmentationAbel A. Reyes Angulo, Sidike Paheding. 1-10 [doi]

HeAL3D: Heuristical-enhanced Active Learning for 3D Object DetectionEsteban Rivera, Surya Prabhakaran, Markus Lienkamp. 11-20 [doi]

Scaling laws in zero-shot gender classification using CLIPLucas M. Ceschini, Gabriel de Oliveira Ramos, Cláudio R. Jung. 21-29 [doi]

Slot Attention-based Feature Filtering for Few-Shot LearningJavier Ródenas Cumplido, Eduardo Aguilar 0001, Petia Radeva. 30-40 [doi]

Emotions in LatAm: A new dataset and benchmark for emotion recognition in Latin AmericaPooja Kishore Kumar, Willams de Lima Costa, Renato Nogueira Ferraz e Oliveira, Veronica Teichrieb, Estefania Talavera Martínez. 41-47 [doi]

Towards Faster and More Compact Foundation Models for Molecular Property PredictionYasir Ghunaim, Andrés Villa, Gergo Ignacz, Gyorgy Szekely, Motasem Alfarra, Bernard Ghanem. 48-57 [doi]

Enhancing Vision Transformer Explainability Using Artificial AstrocytesNicolas Echevarrieta-Catalan, Ana Ribas-Rodriguez, Francisco Cedron, Odelia Schwartz, Vanessa Aguiar-Pulido. 58-64 [doi]

PineSORT: A Simple Online Real-time Tracking Framework for Drone Videos in AgricultureDanny Xie Li, Fabian Fallas-Moya. 65-74 [doi]

Exploring Missing Modality in Multimodal Egocentric DatasetsMerey Ramazanova, Alejandro Pardo, Humam Alwassel, Bernard Ghanem. 75-85 [doi]

QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Document UnderstandingBinh M. Le, Shaoyuan Xu, Jinmiao Fu, Zhishen Huang, Moyan Li, Yanhui Guo, Hongdong Li, Sameera Ramasinghe, Bryan Wang. 86-96 [doi]

Pose-Aware Weakly-Supervised Action SegmentationZhihao Zhao, Reza Ghoddoosian, Isht Dwivedi, Nakul Agarwal, Behzad Dariush. 97-107 [doi]

Location-Free Scene Graph GenerationEge Özsoy, Felix Holm, Chantal Pellegrini, Tobias Czempiel, Mahdi Saleh, Nassir Navab, Benjamin Busam. 108-117 [doi]

SplatTouch: Explicit 3D Representation Binding Vision and TouchAntonio Luigi Stefani, Niccolò Bisagno, Nicola Conci, Francesco G. B. De Natale. 118-127 [doi]

Online Gaussian Test-Time Adaptation of Vision-Language ModelsClément Fuchs, Maxime Zanella, Christophe De Vleeschouwer. 128-137 [doi]

ICT-QA: Question Answering over Multi-modal Contexts including Image, Chart, and Text ModalitiesYoungrok Jang, Hyesoo Kong, Gyeonghun Kim, Yejin Lee, Stanley Jungkyu Choi, Kyunghoon Bae. 138-148 [doi]

Vocabulary-free few-shot learning for vision-language modelsMaxime Zanella, Clément Fuchs, Ismail Ben Ayed, Christophe De Vleeschouwer. 149-158 [doi]

TLAC: Two-stage LMM Augmented CLIP for Zero-Shot ClassificationAns Munir, Faisal Z. Qureshi, Muhammad Haris Khan, Mohsen Ali. 159-169 [doi]

TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI AgentsKunal Singh, Shreyas Singh, Mukund Khanna. 170-179 [doi]

MVCM: Enhancing Multi-View and Cross-Modality Alignment for Medical Visual Question Answering and Medical Image-Text RetrievalYuanhao Zou, Zhaozheng Yin. 180-190 [doi]

Multimodal Rationales for Explainable Visual Question AnsweringKun Li, George Vosselman, Michael Ying Yang. 191-201 [doi]

Improving multimodal hateful meme detection exploiting LMM-generated knowledgeMaria Tzelepi, Vasileios Mezaris. 202-211 [doi]

Transformer-Based Lung Infection Severity Prediction with Cross Attention and Conditional TransMix AugmentationBouthaina Slika, Fadi Dornaika, Fares Bougourzi, Karim Hammoudi. 212-221 [doi]

Skin Lesion Classification Using Dermoscopic Images and Clinical Metadata: Insights from Multimodal ModelsSakib Ahammed, Xia Cui, Wenqi Lu, Moi Hoon Yap. 222-230 [doi]

LVP-CLIP: Revisiting CLIP for Continual Learning with Label Vector PoolYue Ma, Huantao Ren, Boyu Wang, Jingang Jin, Senem Velipasalar, Qinru Qiu. 231-240 [doi]

Compositional Image-Text Matching and Retrieval by Grounding EntitiesMadhukar Reddy Vongala, Saurabh Srivastava, Jana Kosecka. 241-250 [doi]

Direction-Aware Hybrid Representation Learning for 3D Hand Pose and Shape EstimationShiyong Liu, Zhihao Li 0002, Xiao Tang, Jianzhuang Liu. 251-260 [doi]

What Makes for a Good Stereoscopic Image?Netanel Tamir, Shir Amir, Ranel Itzhaky, Noam Atia, Shobhita Sundaram, Stephanie Fu, Ron Sokolovsky, Phillip Isola, Tali Dekel, Richard Zhang 0001, Miriam Farber. 261-272 [doi]

ARC-NeRF: Area Ray Casting for Broader Unseen View Coverage in Few-shot Object RenderingSeunghyeon Seo, Yeonjin Chang, Jayeon Yoo, Seungwoo Lee, Hojun Lee 0002, Nojun Kwak. 273-283 [doi]

OccludeNeRF: Geometry-aware 3D Scene Inpainting with Collaborative Score Distillation in NeRFJingyu Shi, Achleshwar Luthra, Jiazhi Li, Xiang Gao, Xiyun Song, Zongfang Lin, Xianfeng David Gu, Heather Yu. 284-294 [doi]

PanoDreamer: Consistent Text to 360-Degree Scene GenerationZhexiao Xiong, Zhang Chen, Zhong Li, Yi Xu, Nathan Jacobs. 295-304 [doi]

SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian SplattingKaichen Zhou, Lanqing Hong, Xinhai Chang, Yingji Zhong, Enze Xie, Hao Dong 0003, Zhihao Li, Yongxin Yang, Zhenguo Li, Wei Zhang 0196. 305-316 [doi]

PluckeRF: A Line-based 3D Representation for Few-view ReconstructionSam Bahrami, Dylan Campbell. 317-326 [doi]

ePBR: Extended PBR Materials in Image SynthesisYu Guo, Zhiqiang Lao, Xiyun Song, Yubin Zhou, Zongfang Lin, Heather Yu. 327-336 [doi]

FaceGest: A Comprehensive Facial Gesture Dataset for Human-Computer InteractionYaseen, Sonain Jamil. 337-347 [doi]

HumMorph: Generalized Dynamic Human Neural Fields from Few ViewsJakub Zadrozny, Hakan Bilen. 348-357 [doi]

IL-NeRF: Incremental Learning for Neural Radiance Fields with Camera Pose AlignmentLetian Zhang, Ming Li 0010, Chen Chen 0001, Jie Xu 0001. 358-368 [doi]

FreBIS: Frequency-Based Stratification for Neural Implicit Surface RepresentationsNaoko Sawada, Pedro Miraldo, Suhas Lohit, Tim K. Marks, Moitreya Chatterjee. 369-379 [doi]

DeclutterNeRF: Generative-Free 3D Scene Recovery for Occlusion RemovalWanzhou Liu, Zhexiao Xiong, Xinyu Li, Nathan Jacobs. 380-390 [doi]

Synthetic Data Augmentation using Pre-trained Diffusion Models for Long-tailed Food Image ClassificationGaYeon Koh, Hyun-Jic Oh, Jeonghyun Noh, Won-Ki Jeong. 391-400 [doi]

Extra-Lightweight AI-Based Privacy Preserving Framework for Egocentric Wearable CamerasLong Li, Fengqing Zhu 0001, Heather A. Eicher-Miller, J. Graham Thomas, Yuning Huang, Edward Sazonov. 401-410 [doi]

Privacy Preserving Ordinal-Meta Learning with VLMs for Fine-Grained Fruit Quality PredictionRiddhi Jain, Manasi Patwardhan 0001, Aayush Mishra, Parijat Deshpande, Beena Rai. 411-419 [doi]

Food Degradation Analysis Using Multimodal Fuzzy ClusteringJulio J. Valdés, Stephie Liu, Shawn Yang, Yuhao Chen 0001, Alexander Wong, Pengcheng Xi. 420-429 [doi]

Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image RecognitionSergio Romero-Tapiador, Ruben Tolosana, Blanca Lacruz-Pleguezuelos, Laura Judith Marcos-Zambrano, Guadalupe X. Bazán, Isabel Espinosa-Salinas, Julian Fierrez, Javier Ortega-Garcia, Enrique Carrillo-de Santa Pau, Aythami Morales. 430-439 [doi]

Stochastic-based Patch Filtering for Few-Shot LearningJavier Ródenas Cumplido, Eduardo Aguilar 0001, Petia Radeva. 440-449 [doi]

VolTex: Food Volume Estimation using Text-Guided Segmentation and Neural Surface ReconstructionAhmad AlMughrabi, Umair Haroon, Ricardo Marques, Petia Radeva. 450-457 [doi]

FoodVideoQA: A Novel Baseline Framework for Dietary MonitoringKrish Shah, Siddharth Viswanath, Pengcheng Xi, Alexander Wong, Yuhao Chen 0001. 458-466 [doi]

SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen VideosJoshua Li 0002, Fernando Jose Pena Cantu, Emily Yu, Alexander Wong, Yuchen Cui, Yuhao Chen 0001. 467-473 [doi]

Agro-Net: A Convolution-Attention Fusion based hyperspectral model for agro-food quality assessmentOcean Monjur, Md. Toukir Ahmed, Md Wadud Ahmed, Mohammed Kamruzzaman. 474-481 [doi]

Decomposing Food Images for Better Nutrition Analysis: A Nutritionist-Inspired Two-Step Multimodal LLM ApproachPitikorn Khlaisamniang, Kun Kerdthaisong, Supasate Vorathammathorn, Nutchanon Yongsatianchot, Hirunkul Phimsiri, Amrest Chinkamol, Teermade Thitseesaeng, Kanyakorn Veerakanjana, Kaisorn Kachai, Piyalitt Ittichaiwong, Tossaporn Saengja. 482-491 [doi]

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language ModelsAndrés Villa, Juan León Alcázar, Alvaro Soto, Bernard Ghanem. 492-502 [doi]

Beyond Raw Videos: Understanding Edited Videos with Large Multimodal ModelLu Xu, Sijie Zhu, Chunyuan Li, Chia-Wen Kuo, Fan Chen, Xinyao Wang, Guang Chen, Dawei Du, Ye Yuan, Longyin Wen. 503-512 [doi]

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal ModelsJierun Chen, Fangyun Wei, Jinjing Zhao, Sizhe Song, Bohuai Wu, Zhuoxuan Peng, S.-H. Gary Chan, Hongyang Zhang. 513-524 [doi]

TextInVision: Text and Prompt Complexity Driven Visual Text Generation BenchmarkForouzan Fallah, Maitreya Patel, Agneet Chatterjee, Vlad I. Morariu, Chitta Baral, Yezhou Yang. 525-534 [doi]

Choosing 'Right' from Wrong: A Closer Look at Selection Bias in Spatial Multiple-Choice Questions in Large Multimodal ModelsGiselle Zeno, Nour Jedidi, Steven Gomez. 535-544 [doi]

Quantum Federated Learning for Multimodal Data: A Modality-Agnostic ApproachAtit Pokharel, Ratun Rahman, Thomas Morris, Dinh C. Nguyen. 545-554 [doi]

Revisiting Multi-Modal LLM EvaluationJian Lu, Shikhar Srivastava 0001, Junyu Chen, Robik Shrestha, Manoj Acharya, Kushal Kafle, Christopher Kanan. 555-564 [doi]

MerCulture: A Comprehensive Benchmark to Evaluate Vision-Language Models on Cultural Understanding in SingaporeTushar Pranav, Eshan Pandey, Lyka Diane Bala Austria, Yin Yin Loo, Jing Hao Lim, Indriyati Atmosukarto, Donny Cheng Lock Soh. 565-574 [doi]

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean LanguageYoonshik Kim, Jaeyoon Jung. 575-585 [doi]

MoF-Image: Generating Mixture-of-Features Video Game Image Dataset via GPU Rendering SimulationYu Wen 0003, Xingke Yang, Aamir Bader Shah, Ruizhi Cao, Miao Pan, Chenhao Xie 0001, Xin Fu. 586-593 [doi]

GRS: Generating Robotic Simulation Tasks from Real-World ImagesAlex Zook, Fan-Yun Sun, Josef B. Spjut, Valts Blukis, Stan Birchfield, Jonathan Tremblay. 594-603 [doi]

G-Buffer Supported Neural Screen-space Refraction Baking for Real-Time Global IlluminationZiyang Zhang, Edgar Simo-Serra. 604-611 [doi]

A Generative AI Game Jam Case Study from October 2024Josef B. Spjut. 612-618 [doi]

Towards Trustworthy Autonomous Vehicles with Vision-Language Models Under Targeted and Untargeted Adversarial AttacksAwal Ahmed Fime, Md. Zarif Hossain, Saika Zaman, Abdur R. Shahid, Ahmed Imteaj. 619-628 [doi]

Classification Drives Geographic Bias in Street Scene SegmentationRahul Nair, Bhanu Tokas, Gabriel Tseng, Esther Rolf, Hannah Kerner. 629-638 [doi]

Bridging Detection and Re-identification: Evaluating Trustworthiness and Error Propagation in Face Recognition PipelinesKuan Yew Leong, Jaeseung Han. 639-648 [doi]

EigenLoRAx: Recycling Adapters to Find Principal Subspaces for Resource-Efficient Adaptation and InferencePrakhar Kaushik, Ankit Vaidya, Shravan Chaudhari, Alan L. Yuille. 649-659 [doi]

Intriguing Properties of Robust ClassificationBernd Prach, Christoph H. Lampert. 660-669 [doi]

A Large-Scale Analysis on Contextual Self-Supervised Video Representation LearningAkash Kumar 0016, Ashlesha Kumar, Vibhav Vineet, Yogesh S. Rawat. 670-681 [doi]

Is Temporal Prompting All We Need For Limited Labeled Action Recognition?Shreyank N. Gowda, Boyan Gao, Xiao Gu 0008, Xiao-Bo Jin. 682-692 [doi]

Optimising Vision Transformer Performance on Limited Datasets: A Multi-Gradient ApproachMohsin Ali, Haider Raza, John Q. Gan, Muhammad Haris. 693-702 [doi]

Defending Against Transfer-Based Adversarial Attacks Using SVD-Driven Feature EvolutionXinlei Liu 0004, Tao Hu 0002, Peng Yi 0003, Qingtao Pan, Hailong Ma, Yiming Jiang 0002, Baolin Li. 703-711 [doi]

Coordinated Robustness Evaluation Framework for Vision-Language ModelsAshwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Antonio Guillen, Ricardo Luna 0001, Soumyendu Sarkar. 712-720 [doi]

ProtoPatchNet: An Interpretable Patch-Based Prototypical NetworkMohana Singh, Vivek B. S., Jayavardhana Gubbi, R. Venkatesh Babu. 721-728 [doi]

Balancing Privacy and Action Performance: A Penalty-Driven Approach to Image AnonymizationNazia Aslam, Kamal Nasrollahi. 729-738 [doi]

Rethinking Compressive Sensing: A Compression Framework for Video Super-ResolutionRuthy Katz, Adi Teitel, Moran Mordechay, Adi Falik, Eli Bery, Maya Mayberg. 739-748 [doi]

MAD: Makeup All-in-One with Cross-Domain Diffusion ModelBo-Kai Ruan, Hong-Han Shuai. 749-758 [doi]

conSAMme: Achieving Consistent Segmentations with SAMJosh Myers-Dean, Kangning Liu, Brian L. Price, Yifei Fan, Jason Kuen, Danna Gurari. 759-768 [doi]

STAPLE: Siamese Transformer Assisted Pseudo Label Ensembling for Unsupervised Domain Adaptation in No-Reference IQAArshita Gupta, Zhe Zhu, Tien Bau. 769-778 [doi]

XYScanNet: A State Space Model for Single Image DeblurringHanzhou Liu, Chengkai Liu, Jiacong Xu, Peng Jiang, Mi Lu. 779-789 [doi]

Text-Guided Patch Scoring and Local Distortion Guidance for Image Quality AssessmentJuyong Park, Jihun Song, Gyewan Kim, Yoonsuk Hyun. 790-799 [doi]

MFSR-GAN: Multi-Frame Super-Resolution with Handheld Motion ModelingFadeel Sher Khan, Joshua Ebenezer, Hamid R. Sheikh, Seok-Jun Lee. 800-809 [doi]

Training Neural Networks on RAW and HDR Images for Restoration TasksAndrew Yanzhe Ke, Lei Luo, Xiaoyu Xiang, Yuchen Fan, Rakesh Ranjan, Alexandre Chapiro, Rafal Mantiuk. 810-819 [doi]

DataFormer: Differential Additive Transformer for Lightweight Semantic SegmentationMian Muhammad Naeem Abid, Nancy Mehta, Zongwei Wu, Radu Timofte. 820-831 [doi]

KernFusNet: Implicit Kernel Modulation and Fusion for Blind Super-resolutionNancy Mehta, Akshay Dudhane, Subrahmanyam Murala, Radu Timofte. 832-842 [doi]

FUSION: Frequency-guided Underwater Spatial Image recOnstructioNJaskaran Singh Walia, Shravan Venkatraman, Pavithra L. K.. 843-852 [doi]

FALCON: Fast Image Haze Removal Leveraging Continuous Density MaskDonghyun Kim, Seil Kang, Seong Jae Hwang. 853-863 [doi]

Efficient Burst Super-Resolution with One-step DiffusionKento Kawai, Takeru Oba, Kyotaro Tokoro, Kazutoshi Akita, Norimichi Ukita. 864-873 [doi]

SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth EstimationMykola Lavreniuk, Alla Lavreniuk. 874-884 [doi]

FCTFANet: A Fused CNN-Transformer Feature Aggregator Network for Image RestorationAmit Monga, Hemkant Nehete, Partha Kaushik, Tharun Kumar Reddy Bollu, Balasubramanian Raman, Gaurav Sharma 0001. 885-894 [doi]

A Simple Combination of Diffusion Models for Better Quality Trade-Offs in Image DenoisingJonas Dornbusch, Emanuel Pfarr, Florin-Alexandru Vasluianu, Frank Werner 0002, Radu Timofte. 895-904 [doi]

PromptNorm: Image Geometry Guides Ambient Light NormalizationDavid Serrano-Lozano, Francisco A. Molina-Bakhos, Danna Xue, Yixiong Yang, Maria Pilligua, Ramon Baldrich, María Vanrell 0001, Javier Vazquez-Corral. 905-916 [doi]

The Tenth NTIRE 2025 Efficient Super-Resolution Challenge ReportBin Ren, Hang Guo, Lei Sun 0016, Zongwei Wu, Radu Timofte, Yawei Li 0001. 917-966 [doi]

Expanded SPAN for Efficient Super-ResolutionQing Wang, Yang Wang, Hongyu An, Yi Liu, Liou Zhang, Shijie Zhao. 967-976 [doi]

Leveraging Multimodal Large Language Models for Joint Discrete and Continuous Evaluation in Text-to-Image AlignmentZhichao Zhang, Xinyue Li 0001, Wei Sun 0029, Zicheng Zhang, Yunhao Li, Xiaohong Liu 0001, Guangtao Zhai. 977-986 [doi]

NTIRE 2025 Challenge on HR Depth from Images of Specular and Transparent SurfacesPierluigi Zama Ramirez, Fabio Tosi, Luigi di Stefano, Radu Timofte, Alex Costanzino, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Zhe Zhang, Yang Yang 0009, Wu Chen, Anlong Ming, Mingshuai Zhao, Mengying Yu, Shida Gao, Xiangfeng Wang, Feng Xue, Jun Shi 0004, Yong Yang, Yong A, Yixiang Jin, Dingzhe Li, Aryan Shukla, Liam Frija-Altarac, Matthew Toews, Hui Geng, Tianjiao Wan, Zijian Gao, Qisheng Xu, Kele Xu, Zijian Zang, Jameer Babu Pinjari, Kuldeep Purohit, Mykola Lavreniuk, Jing Cao, Shenyi Li, Kui Jiang, Junjun Jiang, Yong Huang. 987-1001 [doi]

NTIRE 2025 Challenge on Efficient Burst HDR and Restoration: Datasets, Methods, and ResultsSangmin Lee, Eunpil Park, Angel Canelo, Hyunhee Park, YoungJo Kim, Hyung-Ju Chun, Xin Jin, Chongyi Li, Chun-Le Guo, Radu Timofte, Qi Wu, Tianheng Qiu, Yuchun Dong, Shenglin Ding, Guanghua Pan, Weiyu Zhou, Tao Hu, Yixu Feng, Duwei Dai, Yu Cao, Peng Wu, Wei Dong, Yanning Zhang, Qingsen Yan, Simon J. Larsen, Senyan Xu, Xingbo Wang, Ruixuan Jiang, Xin Lu, Marcos V. Conde, Javier Abad-Hernández, Álvaro García-Lara, Daniel Feijoo, Álvaro García, Zeyu Xiao, Zhuoyuan Li. 1002-1017 [doi]

Flow-Guided Deformable Alignment with Channel-wise Self-Attention Reconstruct for Efficient Burst HDR RestorationWeiyu Zhou, Tao Hu, Yixu Feng, Duwei Dai, Yu Cao, Peng Wu, Wei Dong, Yanning Zhang, Qingsen Yan. 1018-1027 [doi]

FusionNet: Multi-model Linear Fusion Framework for Low-light Image EnhancementKangbiao Shi, Yixu Feng, Tao Hu, Yu Cao, Peng Wu, Yijin Liang, Yanning Zhang 0001, Qingsen Yan. 1028-1037 [doi]

Recursive Multi-Exposure Alignment with Spatiotemporal Decoupling for Efficient Burst HDR and RestorationTianheng Qiu, Qi Wu, Yuchun Dong, Shenglin Ding, Xuan Huang, Hu Wei, Guanghua Pan. 1038-1047 [doi]

NTIRE 2025 Challenge on Cross-Domain Few-Shot Object Detection: Methods and ResultsYuqian Fu, Xingyu Qiu, Bin Ren, Yanwei Fu 0001, Radu Timofte, Nicu Sebe, Ming-Hsuan Yang 0001, Luc Van Gool, Kaijin Zhang, Qingpeng Nong, Xiugang Dong, Hong Gao, Xiangsheng Zhou, Jiancheng Pan, Yanxing Liu, Xiao He, Jiahao Li, Yuze Sun, Xiaomeng Huang, Zhenyu Zhang, Ran Ma, Yuhan Liu, Zijian Zhuang, Shuai Yi, Yixiong Zou, Lingyi Hong, Mingxi Chen, Runze Li, Xingdong Sheng, Wenqiang Zhang, Weisen Chen, Yongxin Yan, Xinguo Chen, Yuanjie Shao, Zhengrong Zuo, Nong Sang, Hao Wu, Haoran Sun, Shuming Hu, Yan Zhang, ZhiGuang Shi, Yu Zhang, Chao Chen, Tao Wang, Da Feng, Linhai Zhuo, Ziming Lin, Yali Huang, Jie Me, Yiming Yang, Mi Guo, Mingyuan Jiu, Mingliang Xu, Maomao Xiong, Qunshu Zhang, Xinyu Cao, YuQing Yang, Dianmo Sheng, Xuanpu Zhao, Zhiyu Li, Xuyang Ding, Wenqian Li. 1048-1069 [doi]

Advancing Ambient Lighting Normalization via Diffusion Shadow GenerationXin Lu 0006, Jiarong Yang, Yuanfei Bao, Zihao Fan, Anya Hu, Kunyu Wang, Jie Xiao 0002, Xi Wang, Hongjian Liu, Xueyang Fu, Zheng-Jun Zha. 1070-1080 [doi]

EvenFormer: Dynamic Even Transformer for Real-World Image RestorationXin Lu 0006, Yuanfei Bao, Jiarong Yang, Anya Hu, Jie Xiao 0002, Kunyu Wang, Dong Li, Senyan Xu, Kean Liu, Xueyang Fu, Zheng-Jun Zha. 1081-1091 [doi]

NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and ResultsXin Li, Kun Yuan, Bingchen Li, Fengbin Guan, Yizhen Shao, Zihao Yu, Xijun Wang, Yiting Lu, Wei Luo, Suhang Yao, Ming Sun, Chao Zhou, Zhibo Chen 0001, Radu Timofte, Yabin Zhang, Ao-Xiang Zhang, Tianwu Zhi, JianZhao Liu, Yang Li, Jingwen Xu, Yiting Liao, Yushen Zuo, Mingyang Wu, Renjie Li 0003, Shengyun Zhong, Zhengzhong Tu, Yufan Liu, Xiangguang Chen, Zuowei Cao, Minhao Tang, Shan Liu, Kexin Zhang, Jingfen Xie, Yan Wang, Kai Chen, Shijie Zhao, Yunchen Zhang, Xiangkai Xu, Hong Gao, Ji Shi, Yiming Bao, Xiugang Dong, Xiangsheng Zhou, Yaofeng Tu, Ying Liang, Yiwen Wang, Xinning Chai, Yuxuan Zhang, Zhengxue Cheng, Yingsheng Qin, Yucai Yang, Rong Xie, Li Song, Wei Sun, Kang Fu, Linhan Cao, Dandan Zhu 0001, Kaiwei Zhang, Yucheng Zhu, Zicheng Zhang, Menghan Hu, Xiongkuo Min, Guangtao Zhai, Zhi Jin, Jiawei Wu, Wei Wang, Wenjian Zhang, Yuhai Lan, Gaoxiong Yi, Hengyuan Na, Wang Luo, Di Wu, MingYin Bai, Jiawang Du, Zilong Lu, Zhenyu Jiang, Hui Zeng, Ziguan Cui, Zongliang Gan, Guijin Tang, Xinglin Xie, Kehuan Song, Xiaoqiang Lu, Licheng Jiao, Fang Liu, Xu Liu, Puhua Chen, Ha Thu Nguyen, Katrien De Moor, Seyed Ali Amirshahi, Mohamed-Chaker Larabi, Qi Tang, Linfeng He, Zhiyong Gao, Zixuan Gao, Guohua Zhang, Zhiye Huang, Yi Deng, Qingmiao Jiang, Lu Chen, Yi Yang, Xi Liao, Nourine Mohammed Nadir, Yuxuan Jiang, Qiang Zhu, Siyue Teng, Fan Zhang, Shuyuan Zhu, Bing Zeng, David Bull 0001, Meiqin Liu, Chao Yao, Yao Zhao 0001. 1092-1103 [doi]

NTIRE 2025 challenge on Text to Image Generation Model Quality AssessmentShuhao Han, Haotian Fan, Fangyuan Kong, Wenjie Liao, Chunle Guo, Chongyi Li, Radu Timofte, Liang Li, Tao Li, Junhui Cui, Yunqiu Wang, Yang Tai, Jingwei Sun, Jianhui Sun, Xinli Yue, Tianyi Wang, Huan Hou, Junda Lu, Xinyang Huang, Zitang Zhou, Zijian Zhang, Xuhui Zheng, Xuecheng Wu, Chong Peng, Xuezhi Cao, Trong-Hieu Nguyen Mau, Minh-Hoang Le, Minh-Khoa Le-Phan, Duy-Nam Ly, Hai Dang Nguyen, Minh-Triet Tran, Yukang Lin, Yan Hong 0001, Chuanbiao Song, Siyuan Li, Jun Lan, Zhichao Zhang, Xinyue Li 0001, Wei Sun 0029, Zicheng Zhang, Yunhao Li, Xiaohong Liu 0001, Guangtao Zhai, Zitong Xu, Huiyu Duan, Jiarui Wang, Guangji Ma, Liu Yang, Lu Liu 0005, Qiang Hu 0003, Xiongkuo Min, Zichuan Wang, Zhenchen Tang, Bo Peng, Jing Dong, Fengbin Guan, Zihao Yu, Yiting Lu, Wei Luo, Xin Li 0082, Minhao Lin, Haofeng Chen, Xuanxuan He, Kele Xu, Qisheng Xu, Zijian Gao, Tianjiao Wan, Bo-Cheng Qiu, Chih-Chung Hsu, Chia-Ming Lee, Yu-Fan Lin, Bo Yu, Zehao Wang, Da Mu, Mingxiu Chen, Junkang Fang, Huamei Sun, Wending Zhao, Zhiyu Wang, Wang Liu, Weikang Yu, Puhong Duan, Bin Sun 0001, Xudong Kang, Shutao Li, Shuai He, Lingzhi Fu, Heng Cong, Rongyu Zhang, Jiarong He, Zhishan Qiao, Yongqing Huang, Zewen Chen, Zhe Pang, Juan Wang 0012, Jian Guo, Zhizhuo Shao, Ziyu Feng, Bing Li 0024, Weiming Hu, Hesong Li, Dehua Liu, Zeming Liu, Qingsong Xie, Ruichen Wang, Zhihao Li, Yuqi Liang, Jianqi Bi, Jun Luo 0012, Junfeng Yang, Can Li, Jing Fu, Hongwei Xu, Mingrui Long, Lulin Tang. 1104-1125 [doi]

NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: KwaiSR Dataset and StudyXin Li 0082, Xijun Wang, Bingchen Li, Kun Yuan 0003, Yizhen Shao, Suhang Yao, Ming Sun 0008, Chao Zhou 0003, Radu Timofte, Zhibo Chen 0001. 1126-1136 [doi]

LFTramba: Comprehensive Information Learning for Light Field Image Super-Resolution via A Hybrid Transformer-Mamba FrameworkHaosong Liu, Xiancheng Zhu, Huanqiang Zeng, Jianqing Zhu, Yifan Shi, Jing Chen 0001, Junhui Hou. 1137-1147 [doi]

NTIRE 2025 Challenge on RAW Image Restoration and Super-ResolutionMarcos V. Conde, Radu Timofte, Zihao Lu, Xiangyu Kong, Xiaoxia Xing, Fan Wang 0005, Suejin Han, Minkyu Park, Tianyu Hao, Yuhong He, Ruoqi Li, Yueqi Yang, Jianyang Yu, Kele Xu, Zisheng Xu, Yong Dou, Watchara Ruangsang, Ruixuan Jiang, Senyan Xu, Siyuan Jiang, Xueyang Fu, Zheng-Jun Zha, Jiajie Lu, Xiang Yu, Minmin Yi, Yuanjia Chen, Liwen Zhang 0001, Zijie Jin, Tianyu Zhang, Xin Lu 0006, Yeda Chen, Dong Liu 0002, Li Pang, Yuhang Yang, Hongzhong Wang, Xiangyong Cao, Cheng Li 0009, Lian Liu, Wei Song, Heng Sun, Tianyu Hao, Yuhong He, Ruoqi Li, Yueqi Yang, Yubo Wang, Jinghua Wang, Guanlan Hong. 1148-1171 [doi]

NTIRE 2025 Challenge on Day and Night Raindrop Removal for Dual-Focused Images: Methods and ResultsXin Li 0082, Yeying Jin, Xin Jin, Zongwei Wu, Bingchen Li, Yufei Wang, Wenhan Yang, Yu Li, Zhibo Chen 0001, Bihan Wen, Robby T. Tan, Radu Timofte, Qiyu Rong, Hongyuan Jing, Mengmeng Zhang, Jinglong Li, Xiangyu Lu, Yi Ren, Yuting Liu, Meng Zhang, Xiang Chen, Qiyuan Guan, Jiangxin Dong, Jinshan Pan, Conglin Gou, Qirui Yang, Fangpu Zhang, Yunlong Lin, Sixiang Chen, Guoxi Huang, Ruirui Lin, Yan Zhang, Jingyu Yang 0002, Huanjing Yue, Jiyuan Chen, Qiaosi Yi, Hongjun Wang, Chenxi Xie, Shuai Li, Yuhui Wu 0001, Kaiyi Ma, Jiakui Hu, Juncheng Li, Liwen Pan, Guangwei Gao, Wenjie Li, Zhenyu Jin, Heng Guo 0003, Zhanyu Ma, Yubo Wang, Jinghua Wang, Wangzhi Xing, Anjusree Karnavar, Diqi Chen, Mohammad Aminul Islam, Hao Yang, Ruikun Zhang, Liyuan Pan, Qianhao Luo, Xin Cao, Han Zhou, Yan Min, Wei Dong, Jun Chen, Taoyi Wu, Weijia Dou, Yu Wang, Shengjie Zhao, Yongcheng Huang, Xingyu Han, Anyan Huang, Hongtao Wu, Hong Wang, Yefeng Zheng 0001, Abhijeet Kumar, Aman Kumar, Marcos V. Conde, Paula Garrido, Daniel Feijoo, Juan C. Benito, Guanglu Dong, Xin Lin, Siyuan Liu, Tianheng Zheng, Jiayu Zhong, Shouyi Wang, Xiangtai Li, Lanqing Guo, Lu Qi, Chao Ren, Shuaibo Wang, Shilong Zhang, Wanyu Zhou, Yunze Wu, Qinzhong Tan, Jieyuan Pei, Zhuoxuan Li, Jiayu Wang, Haoyu Bian, Haoran Sun, Subhajit Paul, Ni Tang, Junhao Huang, Zihan Cheng, Hongyun Zhu, Yuehan Wu, Kaixin Deng, Huang Ouyang, Tianxin Xiao, Fan Yang, Zhizun Luo, Zeyu Xiao, Zhuoyuan Li, Pham Hoang Le Nguyen, Dinh Thien An, Luu Thanh Son, Kiet Van Nguyen, Ronghua Xu, Xianmin Tian, Weijian Zhou, Jiacheng Zhang, Yuqian Chen, Yihang Duan, Yujie Wu, Suresh Raikwar, Arsh Garg, Kritika Kritika, Jianhua Zheng, Xiaoshan Ma, Ruolin Zhao, Yongyu Yang, Yongsheng Liang, Guiming Huang, Qiang Li, Hongbin Zhang, Xiangyu Zheng, A. N. Rajagopalan 0001. 1172-1183 [doi]

NTIRE 2025 Challenge on Video Quality Enhancement for Video Conferencing: Datasets, Methods and ResultsVarun Jain, Zongwei Wu, Quan Zou, Louis Florentin, Henrik Turbell, Sandeep Siddhartha, Radu Timofte, Qifan Gao, Linyan Jiang, Qing Luo, Jie Song, Yaqing Li, Summer Luo, Mae Chen, Stefan Liu, Danie Song, Huimin Zeng, Qi Chen, Ajeet Kumar Verma, Shweta Tripathi, Vinit Jakhetiya, Badri N. Subhdhi, Sunil Jaiswal. 1184-1194 [doi]

LFTransMamba: A Hybrid Mamba-Transformer Model for Light Field Image Super-ResolutionKai Jin, Zeqiang Wei, Angulia Yang, Di Wu, Mingzhi Gao, Xiuzhuang Zhou. 1195-1204 [doi]

NTIRE 2025 Challenge on Low Light Image Enhancement: Methods and ResultsXiaoning Liu 0003, Zongwei Wu, Florin-Alexandru Vasluianu, Hailong Yan, Bin Ren, Yulun Zhang 0001, Shuhang Gu, Le Zhang 0001, Ce Zhu, Radu Timofte, Kangbiao Shi, Yixu Feng, Tao Hu, Yu Cao, Peng Wu, Yijin Liang, Yanning Zhang 0001, Qingsen Yan, Han Zhou 0003, Wei Dong 0010, Yan Min, Mohab Kishawy, Jun Chen 0005, Pengpeng Yu, Anjin Park, Seung Soo Lee, Young Joon Park, Zixiao Hu, Junyv Liu, Huilin Zhang, Jun Zhang, Fei Wan, Bingxin Xu, Hongzhe Liu, Cheng Xu, Weiguo Pan, Songyin Dai, Xunpeng Yi, Qinglong Yan, Yibing Zhang, Jiayi Ma 0001, Changhui Hu 0001, Kerui Hu, Donghang Jing, Tiesheng Chen, Zhi Jin, Hongjun Wu, Biao Huang, Haitao Ling, Jiahao Wu, Dandan Zhan, G. Gyaneshwar Rao, Vijayalaxmi Ashok Aralikatti, Nikhil Akalwadi, Ramesh Ashok Tabib, Uma Mudenagudi, Ruirui Lin, Guoxi Huang, Nantheera Anantrasirichai, Qirui Yang, Alexandru Brateanu, Ciprian Orhei, Cosmin Ancuti, Daniel Feijoo, Juan C. Benito, Álvaro García, Marcos V. Conde, Yang Qin, Raul Balmez, Anas M. Ali, Bilel Benjdira, Wadii Boulila, Tianyi Mao, Huan Zheng, Yanyan Wei, Shengeng Tang, Dan Guo 0001, Zhao Zhang 0001, Sabari Nathan, K. Uma, A. Sasithradevi, B. Sathya Bama 0001, S. Mohamed Mansoor Roomi, Ao Li 0007, Xiangtao Zhang, Zhe Liu 0019, Yijie Tang, Jialong Tang, Zhicheng Fu, Gong Chen, Joe Nasti, John Nicholson, Zeyu Xiao, Zhuoyuan Li, Ashutosh Kulkarni, Prashant W. Patil, Santosh Kumar Vipparthi, Subrahmanyam Murala, Duan Liu, Weile Li, Hangyuan Lu, Rixian Liu, Tengfeng Wang, Jinxing Liang, Chenxin Yu. 1205-1215 [doi]

Frequency-Prior Enhanced Ambient Lighting Normalization via Visual Perceptual RefinementYuanfei Bao, Xin Lu 0006, Xingbo Wang, Jiarong Yang, Anya Hu, Kunyu Wang, Jie Xiao 0002, Dong Li, Xueyang Fu, Zheng-Jun Zha. 1216-1226 [doi]

NTIRE 2025 Challenge on Light Field Image Super-Resolution: Methods and ResultsYingqian Wang 0002, Zhengyu Liang, Fengyuan Zhang, Lvli Tian, Longguang Wang, Juncheng Li 0013, Jungang Yang 0001, Radu Timofte, Yulan Guo, Kai Jin, Zeqiang Wei, Angulia Yang, Di Wu, Mingzhi Gao, Xiuzhuang Zhou, Yue Yan, Yuaho Wang, Shuang Chen, Zeping Tian, Yizhi Hu, Yao Lu, Haosong Liu, Xiancheng Zhu, Huanqiang Zeng, Jianqing Zhu, Yifan Shi, Junhui Hou, Mingyang Yu, Zhijian Wu, Dingjiang Huang, Wenli Zheng, Zekai Xu, Huiyuan Fu, Heng Zhang, Zhijuan Huang, Hongyuan Yu, Zeke Zexi Hu, Haodong Chen, Vera Yuk Ying Chung, Xiaoming Chen 0006, Zean Chen, Yeyao Chen, Gangyi Jiang, Haiyong Xu, Ting Luo 0001, Guanglong Liao, Danhao Zhang, Siyu Zhang, Wendong Mao, Zhongfeng Wang, Sunita Arya, Abhishek Kumar Sinha, S. Manthira Moorthi, Hao Zhang, Hao Sheng 0001, Da Yang 0001, Zhenglong Cui, Shuai Wang 0027, Haotian Zhang, Xingzheng Wang, Yuanbo Huang, Jiahao Lin, Yuhang Lin, Ahmed Salem 0005, Ebrahem Elkady, Hatem Ibrahem, Jae-Won Suh, Hyun-Soo Kang 0001, Changguang Wu, Hao Hou, Pengpeng Li, Peng Huang, Jiangxin Dong, Jinhui Tang 0001. 1227-1246 [doi]

Q-CIDNet: Perceptual Quality aware Color and Intensity Decoupling Network for Video Quality EnhancementAjeet Kumar Verma, Shweta Tripathi, Vinit Jakhetiya, Badri N. Subudhi, Sunil Jaiswal. 1247-1253 [doi]

RAW Image Reconstruction from RGB on Smartphones. NTIRE 2025 Challenge ReportMarcos V. Conde, Radu Timofte, Radu Berdan, Beril Besbinar, Daisuke Iso. 1254-1268 [doi]

NTIRE 2025 the 2nd Restore Any Image Model (RAIM) in the Wild ChallengeJie Liang 0007, Radu Timofte, Qiaosi Yi, Zhengqiang Zhang, Shuaizheng Liu, Lingchen Sun, Rongyuan Wu, Xindong Zhang, Hui Zeng 0001, Lei Zhang 0006, Tianyu Hao, Lin Wang, Zhe Xiao 0001, Pengzhou Ji, Shupeng Zhong, Xiangming Wang, Jiaqi Yan, Sishun Pan, Ce Wang, Yibin Huang, Zhang Sheng Wang, Haobo Liang, Zhenghao Pan, Jinjian Wu, Yushen Zuo, Yuanbo Zhou. 1269-1278 [doi]

TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMsZijian Zhang, Xuhui Zheng, Xuecheng Wu, Chong Peng, Xuezhi Cao. 1279-1288 [doi]

NTIRE 2025 Ambient Lighting Normalization Challenge ReportFlorin-Alexandru Vasluianu, Tim Seizinger, Zhuyun Zhou, Zongwei Wu, Radu Timofte, Yuanfei Bao, Xingbo Wang, Xin Lu 0006, Jiarong Yang, Anya Hu, Kunyu Wang, Jie Xiao 0002, Dong Li, Xueyang Fu, Zheng-Jun Zha, Zihao Fan, Xi Wang, Yurui Zhu, Kean Liu, Senyan Xu, Hongjian Liu, Yupeng Xiao, David Serrano-Lozano, Francisco A. Molina-Bakhos, Danna Xue, Yixiong Yang, Maria Pilligua, Ramon Baldrich, María Vanrell 0001, Javier Vazquez-Corral, Xuan Sun, Zijie Lou, Ting Liu, Kuldeep Purohit, Jameer Babu Pinjari, Yilin Zhang, Huan Zheng, Yanyan Wei, Suiyi Zhao, Shengeng Tang, Zhao Zhang 0001, Yushen Zuo, Zongqi He, Zhe Xiao 0001, Cuixin Yang, Rongkang Dong, Jun Xiao, Kin-Man Lam 0001, Nikhil Akalwadi, Vijayalaxmi Ashok Aralikatti, Dheeraj Damodhar Hegde, Ramesh Ashok Tabib, Uma Mudenagudi, Anas M. Ali, Bilel Benjdira, Wadii Boulila. 1289-1300 [doi]

NTIRE 2025 Challenge on Single Image Reflection Removal in the Wild: Datasets, Methods and ResultsKangning Yang, Jie Cai 0001, Ling Ouyang, Florin-Alexandru Vasluianu, Radu Timofte, Jiaming Ding, Huiming Sun, Lan Fu, Jinlong Li, Chiu Man Ho, Zibo Meng, Mingjia Li 0001, Hainuo Wang, Qiming Hu, Jiarui Wang, Hao Zhao, Jin Hu, Xiaojie Guo 0001, Mengru Yang, Jing He, Yiqing Wang, Zhiyang Chen, Hao Fang 0010, Wei Zhang 0196, Runmin Cong, Dheeraj Damodhar Hegde, Jatin Kalal, Nikhil Akalwadi, Ramesh Ashok Tabib, Uma Mudenagudi, Yu-Fan Lin, Chia-Ming Lee, Chih-Chung Hsu, Mengxin Zhang, Sabari Nathan, K. Uma, A. Sasithradevi, B. Sathya Bama 0001, S. Mohamed Mansoor Roomi, Bilel Benjdira, Anas M. Ali, Wadii Boulila, Wei Dong 0010, Yunzhe Li, Ali Hussein, Han Zhou 0003, Jun Chen 0005, Zeyu Xiao, Zhuoyuan Li. 1301-1311 [doi]

NTIRE 2025 Image Shadow Removal Challenge ReportFlorin-Alexandru Vasluianu, Tim Seizinger, Zhuyun Zhou, Cailan Chen, Zongwei Wu, Radu Timofte, Mingjia Li 0001, Jin Hu, Hainuo Wang, Hengxing Liu, Jiarui Wang, Qiming Hu, Xiaojie Guo 0001, Xin Lu 0006, Jiarong Yang, Yuanfei Bao, Anya Hu, Zihao Fan, Kunyu Wang, Jie Xiao 0002, Xi Wang, Xueyang Fu, Zheng-Jun Zha, Yu-Fan Lin, Chia-Ming Lee, Chih-Chung Hsu, Xingbo Wang, Dong Li, Yuxu Chen, Bin Chen 0006, Yuanbo Zhou, Yuanbin Chen, Hongwei Wang, Jiannan Lin, Qinquan Gao, Tong Tong 0001, Zhao Zhang 0001, Yanyan Wei, Wei Dong 0010, Han Zhou 0003, Seyed Amirreza Mousavi, Jun Chen 0005, Haobo Liang, Jiajie Jing, Junyu Li, Yan Yang, Seoyeon Lee, Chaewon Kim, Ziyu Feng, Shidi Chen, Bowen Luan, Zewen Chen, Vijayalaxmi Ashok Aralikatti, G. Gyaneshwar Rao, Nikhil Akalwadi, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Anas M. Ali, Bilel Benjdira, Wadii Boulila, Alexandru Brateanu, Cosmin Ancuti, Tanmay Chaturvedi, Manish Kumar, Anmol Srivastav, Daksh Trivedi, Shashwat Thakur, Kishor P. Upla, Zeyu Xiao, Zhuoyuan Li, Boda Zhou, Shashank Shekhar, Kele Xu, Qisheng Xu, Zijian Gao, Tianjiao Wan, Suiyi Zhao, Bo Wang 0072, Yan Luo 0004, Mingshen Wang, Yilin Zhang. 1312-1323 [doi]

NTIRE 2025 Challenge on Event-Based Image Deblurring: Methods and ResultsLei Sun 0016, Andrea Alfarano, Peiqi Duan, Shaolin Su, Kaiwei Wang, Boxin Shi, Radu Timofte, Danda Pani Paudel, Luc Van Gool, Qinglin Liu, Wei Yu, Xiaoqian Lv, Lu Yang, Shuigen Wang, Shengping Zhang, Xiangyang Ji, Long Bao, Yuqiang Yang, Jinao Song, Ziyi Wang, Shuang Wen 0009, Heng Sun, Kean Liu, Mingchen Zhong, Senyan Xu, Zhijing Sun, Jiaying Zhu, Chengjie Ge, Xingbo Wang, Yidi Liu, Xin Lu 0006, Xueyang Fu, Zheng-Jun Zha, Dawei Fan, Dafeng Zhang, Yong Yang, Siru Zhang 0002, Qinghua Yang, Hao Kang, Huiyuan Fu, Heng Zhang, Hongyuan Yu, Zhijuan Huang, Shouyan Wei, Feng Li, Runmin Cong, Weiqi Luo, Mingyun Lin, Chenxu Jiang, Hongyi Liu, Lei Yu, Weilun Li, Jiajun Zhai, Tingting Lin, Shuang Ma, Sai Zhou, Zhanwen Liu, Yang Wang, Eiffel Chong, Nuwan Bandara, Thivya Kandappu, Archan Misra, Yihang Chen, Zhan Li, Weijun Yuan, Wenzhuo Wang, Boyang Yao, Zhanglu Chen, Yijing Sun, Tianjiao Wan, Zijian Gao, Qisheng Xu, Kele Xu, Yukun Zhang, Yu He, Xiaoyan Xie, Tao Fu, Yashu Guatamkumar Patel, Vihar Ramesh Jain, Divesh Basina, Rishik Ashili, Manish Kumar Manjhi, Sourav Kumar, Prinon Benny, Himanshu Ghunawat, B. Sri Sairam Gautam, Anett Varghese, Abhishek Yadav. 1324-1341 [doi]

The Tenth NTIRE 2025 Image Denoising Challenge ReportLei Sun 0016, Hang Guo, Bin Ren, Luc Van Gool, Radu Timofte, Yawei Li 0001. 1342-1369 [doi]

STRRNet: Semantics-guided Two-stage Raindrop Removal NetworkQiyu Rong, Hongyuan Jing, Mengmeng Zhang, Jinlong Li, Mengfei Han. 1370-1378 [doi]

Instruction-augmented Multimodal Alignment for Image-Text and Element MatchingXinli Yue, Jianhui Sun, Junda Lu, Liangchao Yao, Fan Xia, Tianyi Wang, Fengyun Rao, Jing Lyu, Yuetang Deng. 1379-1388 [doi]

NTIRE 2025 XGC Quality Assessment Challenge: Methods and ResultsXiaohong Liu 0001, Xiongkuo Min, Qiang Hu 0003, Xiaoyun Zhang 0001, Jie Guo, Guangtao Zhai, Shushi Wang, Yingjie Zhou, Lu Liu 0005, Jingxin Li, Liu Yang, Farong Wen, Li Xu 0008, Yanwei Jiang, Xilei Zhu, Chunyi Li, Zicheng Zhang, Huiyu Duan, Xiele Wu, Yixuan Gao, Yuqin Cao, Jun Jia, Wei Sun 0029, Jiezhang Cao, Radu Timofte, Baojun Li, Jiamian Huang, Dan Luo, Tao Liu, Weixia Zhang, Bingkun Zheng, JunLin Chen, Ruikai Zhou, Meiya Chen, Yu Wang 0002, Hao Jiang 0014, Xiantao Li, Yuxiang Jiang, Jun Tang, Yimeng Zhao, Bo Hu 0008, Zelu Qi, Chaoyang Zhang, Fei Zhao, Ping Shi 0001, Lingzhi Fu, Heng Cong, Shuai He, Rongyu Zhang, Jiarong He, Zongyao Hu, Wei Luo, Zihao Yu, Fengbin Guan, Yiting Lu, Xin Li 0082, Zhibo Chen 0001, Mengjing Su, Yi Wang, Tuo Chen, Chunxiao Li, Shuaiyu Zhao, Jiaxin Wen, Chuyi Lin, Sitong Liu, Ningxin Chu, Jing Wan, Yu Zhou 0016, Baoying Chen, Jishen Zeng, Jiarui Liu, Xianjin Liu, Xin Chen 0032, Lanzhi Zhou, Hangyu Li, You Han, Bibo Xiang, Zhenjie Liu, Jianzhang Lu, Jialin Gui, Renjie Lu, Shangfei Wang, Donghao Zhou, Jingyu Lin, Quanjian Song, Jiancheng Huang, Yufeng Yang, Changwei Wang, Shupeng Zhong, Yang Yang 0009, Lihuo He, Jia Liu 0025, Yuting Xing, Tida Fang, Yuchun Jin. 1389-1402 [doi]

An Empirical Study for Efficient Video Quality AssessmentWei Sun 0029, Kang Fu, Linhan Cao, Dandan Zhu 0001, Kaiwei Zhang, Yucheng Zhu, Zicheng Zhang, Menghan Hu, Xiongkuo Min, Guangtao Zhai. 1403-1413 [doi]

Quality Assessment for Talking Head Videos via Multi-modal Feature RepresentationMengjing Su, Yi Wang, Tuo Chen, Chunxiao Li, Shuaiyu Zhao, Jiaxin Wen, Chuyi Lin, Sitong Liu, Ningxin Chu, Yu Zhou 0016. 1414-1420 [doi]

Enhanced Semantic Extraction and Guidance for UGC Image Super ResolutionYiwen Wang, Ying Liang, Yuxuan Zhang, Xinning Chai, Zhengxue Cheng, Yingsheng Qin, Yucai Yang, Rong Xie, Li Song 0001. 1421-1430 [doi]

Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-ResolutionXinning Chai, Yao Zhang, Yuxuan Zhang, Zhengxue Cheng, Yingsheng Qin, Yucai Yang, Li Song. 1431-1440 [doi]

Pureformer: Transformer-Based Image DenoisingArnim Gautam, Aditi Pawar, Aishwarya Joshi, Satya Narayan Tazi, Sachin Chaudhary, Praful Hambarde, Akshay Dudhane, Santosh Kumar Vipparthi, Subrahmanyam Murala. 1441-1449 [doi]

LFMix: A Lightweight Hybrid Architecture for Light Field Super-ResolutionMingyang Yu, Zhijian Wu, Dingjiang Huang. 1450-1459 [doi]

Towards Scale-Aware Low-Light Enhancement via Structure-Guided Transformer DesignWei Dong, Yan Min, Han Zhou, Jun Chen. 1460-1470 [doi]

Retinex-Guided Histogram Transformer for Mask-Free Shadow RemovalWei Dong, Han Zhou, Seyed Amirreza Mousavi, Jun Chen. 1471-1481 [doi]

Event-Conditioned Dual-Modal Fusion for Motion DeblurringKean Liu, Mingchen Zhong, Senyan Xu, Zhijing Sun, Jiaying Zhu, Chengjie Ge, Xingbo Wang, Xin Lu 0006, Xueyang Fu, Zheng-Jun Zha. 1482-1492 [doi]

Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation ModelZelu Qi, Ping Shi 0001, Chaoyang Zhang, Shuqi Wang, Fei Zhao, Da Pan 0001, Zefeng Ying. 1493-1502 [doi]

NTIRE 2025 Challenge on UGC Video Enhancement: Methods and ResultsNickolay Safonov, Alexey Bryntsev, Andrey Moskalenko, Dmitry Kulikov, Dmitriy S. Vatolin, Radu Timofte, Haibo Lei, Qifan Gao, Qing Luo, Yaqing Li, Jie Song, Shaozhe Hao, Meisong Zheng, Jingyi Xu, Chengbin Wu, Jiahui Liu, Ying Chen 0011, Xin Deng 0002, Mai Xu, Peipei Liang, Jie Ma, Junjie Jin, Yingxue Pang, Fangzhou Luo, Kai Chen 0023, Shijie Zhao 0001, Mingyang Wu, Renjie Li 0003, Yushen Zuo, Zhengzhong Tu, Shengyun Zhong. 1503-1513 [doi]

NTIRE 2025 Challenge on Night Photography RenderingEgor I. Ershov, Sergey Korchagin, Aleksei Khalin, Artyom Panshin, Arseniy P. Terekhin, Ekaterina Zaychenkova, Georgiy Lobarev, Vsevolod Plokhotnyuk, Denis Abramov, Elisey Zhdanov, Sofia Dorogova, Yasin Mamedov, Nikola Banic, Georgy Perevozchikov, Radu Timofte, Lize Zhang, Yuqian Zhang, Shuai Liu 0009, Chaoyu Feng, Luyang Wang, Yibin Huang, Guangqi Shao, Xiaotao Wang, Lei Lei, Sishun Pan, Zhiqiang Zhong, Yang Yang 0009, Anas M. Ali, Hamad Aloqayli, Bilel Benjdira, Wadii Boulila, Xiaoyang Ma, Zijun Gao, Leyi Xing, Zongqi He, Yushen Zuo, Zhe Xiao 0001, Kin-Chung Chan, Hanmin Li, Jun Xiao 0010, Kin-Man Lam 0001, Yunpeng Wu, Dmitrij Manzura, Daniil Storonkin, Weixin Guo, Kele Xu, Qisheng Xu, Zijian Gao, Tianjiao Wan, Buda Vampilov, Furkan Kinli, Furkan Kiraç. 1514-1524 [doi]

NTIRE 2025 Challenge on Image Super-Resolution (x4): Methods and ResultsZheng Chen 0014, Kai Liu, Jue Gong, Jingkai Wang 0003, Lei Sun 0016, Zongwei Wu, Radu Timofte, Yulun Zhang 0001, Xiangyu Kong, Xiaoxuan Yu, Hyunhee Park, Suejin Han, Hakjae Jeon, Dafeng Zhang, Hyung-Ju Chun, Donghun Ryou, Inju Ha, Bohyung Han, Lu Zhao, Yuyi Zhang, Pengyu Yan, Jiawei Hu, Pengwei Liu, Fengjun Guo, Hongyuan Yu, Pufan Xu, Zhijuan Huang, Shuyuan Cui, Peng Guo, Jiahui Liu, Dongkai Zhang, Heng Zhang, Huiyuan Fu, Huadong Ma, Yanhui Guo, Sisi Tian, Xin Li 0082, Jinwen Liang, Jie Liu 0040, Jie Tang 0006, Gangshan Wu, Zeyu Xiao, Zhuoyuan Li, Yinxiang Zhang, Wenxuan Cai, Vijayalaxmi Ashok Aralikatti, Nikhil Akalwadi, G. Gyaneshwar Rao, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Marcos V. Conde, Alejandro Merino, Bruno Longarela, Javier Abad, Weijun Yuan, Zhan Li 0004, Zhanglu Chen, Boyang Yao, Aagam Jain, Milan Kumar Singh, Ankit Kumar, Shubh Kawa, Divyavardhan Singh, Anjali Sarvaiya, Kishor P. Upla, Raghavendra Ramachandra, Chia-Ming Lee, Yu-Fan Lin, Chih-Chung Hsu, Risheek V. Hiremath, Palani Yashaswini, Yuxuan Jiang, Qiang Zhu, Siyue Teng, Fan Zhang 0017, Shuyuan Zhu, Bing Zeng, David Bull 0001, Jingwei Liao, YuQing Yang, Wenda Shao, Junyi Zhao, Qisheng Xu, Kele Xu, Sunder Ali Khowaja, Ik Hyun Lee, Snehal Singh Tomar, Rajarshi Ray, Klaus Mueller, Sachin Chaudhary, Surya Vashisth, Akshay Dudhane, Praful Hambarde, Satya Naryan Tazi, Prashant W. Patil, Santosh Kumar Vipparthi, Subrahmanyam Murala, Bilel Benjdira, Anas M. Ali, Wadii Boulila, Zahra Moammeri, Ahmad Mahmoudi Aznaveh, Ali Karbasi, Hossein Motamednia, Liangyan Li, Guanhua Zhao, Kevin Le, Yimo Ning, Haoxuan Huang, Jun Chen 0005. 1525-1535 [doi]

NTIRE 2025 Challenge on Real-World Face Restoration: Methods and ResultsZheng Chen 0014, Jingkai Wang 0003, Kai Liu, Jue Gong, Lei Sun 0016, Zongwei Wu, Radu Timofte, Yulun Zhang 0001, Jianxing Zhang, Jinlong Wu, Jun Wang, Zheng Xie, Hakjae Jeon, Suejin Han, Hyung-Ju Chun, Hyunhee Park, Zhicun Yin, Junjie Chen, Ming Liu 0018, Xiaoming Li 0002, Chao Zhou 0003, Wangmeng Zuo, Weixia Zhang, Dingquan Li, Kede Ma, Yun Zhang 0002, Zhuofan Zheng, Yuyue Liu, Shizhen Tang, Zihao Zhang, Yi Ning, Hao Jiang 0014, Wenjie An, Kangmeng Yu, Chenyang Wang 0002, Kui Jiang, Xianming Liu, Junjun Jiang, Yingfu Zhang, Gang He 0002, Siqi Wang, Kepeng Xu, Zhenyang Liu, Changxin Zhou, Shanlan Shen, Yubo Duan, Yiang Chen, Jin Guo, Mengru Yang, Jen-Wei Lee, Chia-Ming Lee, Chih-Chung Hsu, Hu Peng, Chunming He. 1536-1547 [doi]

Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object DetectionJiancheng Pan, Yanxing Liu, Xiao He, Long Peng 0003, Jiahao Li, Yuze Sun, Xiaomeng Huang. 1548-1556 [doi]

Multi-Dimensional Quality Assessment for UGC Videos via Modular Multi-Modal Vision-Language ModelsWeixia Zhang, Bingkun Zheng, JunLin Chen, Zhihua Wang. 1557-1566 [doi]

Instance Feature Caching for Cross-Domain Few-Shot Object DetectionYali Huang, Jie Mei, Yiming Yang, Mi Guo, Mingyuan Jiu, Mingliang Xu. 1567-1575 [doi]

Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality RobustnessChenfei Liao, Kaiyu Lei, Xu Zheng 0002, Junha Moon, Zhixiong Wang, Yixuan Wang, Danda Pani Paudel, Luc Van Gool, Xuming Hu. 1576-1586 [doi]

A Survey of State of the Art Large Vision Language Models: Benchmark Evaluations and ChallengesZongxia Li, Xiyang Wu, Hongyang Du, Fuxiao Liu, Huy Nghiem, Guangyao Shi. 1587-1606 [doi]

Attention-Guided Hierarchical Defense for Multimodal Attacks in Vision-Language ModelsLong Chen, Yuling Chen, Yun Luo, Hui Dou, Xinyang Zhong. 1607-1617 [doi]

On the Robustness of GUI Grounding Models Against Image AttacksHaoren Zhao, Tianyi Chen, Zhen Wang. 1618-1623 [doi]

IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased DecodingLanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu 0036. 1624-1633 [doi]

Multimodal Generalized Category DiscoveryYuchang Su, Renping Zhou, Siyu Huang, Xingjian Li 0002, Tianyang Wang, Ziyue Wang, Min Xu 0009. 1634-1643 [doi]

Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERUÀlex Pujol Vidal, Kamal Nasrollahi, Thomas B. Moeslund, Sergio Escalera. 1644-1653 [doi]

Prompt the Missing: Prompt-Based Robust Audio-Visual Classification under Uncertain ModalitiesEunju Park. 1654-1662 [doi]

HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language ModelsErum Mushtaq, Zalan Fabian, Yavuz Faruk Bakman, Anil Ramakrishna, Mahdi Soltanolkotabi, Salman Avestimehr. 1663-1668 [doi]

Vision Language Models for Massive MIMO Semantic CommunicationStephen D. Liang. 1669-1679 [doi]

Splat-SLAM: Globally Optimized RGB-only SLAM with 3D GaussiansErik Sandström, Ganlin Zhang, Keisuke Tateno, Michael Oechsle, Michael Niemeyer, Youmin Zhang 0008, Manthan Patel, Luc Van Gool, Martin R. Oswald, Federico Tombari. 1680-1691 [doi]

Salient Object Detection with Dynamic ConvolutionsRohit Venkata Sai Dulam, Chandra Kambhamettu. 1692-1702 [doi]

Feature Matching in the Dark: Homography-Based RGB-IR Feature Transformation for Low-Light VisionKyle O'donnell, Chandra Kambhamettu. 1703-1711 [doi]

Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning DifficultiesJisoo Jeong, Hong Cai, Jamie Menjay Lin, Fatih Porikli. 1712-1721 [doi]

D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object RecognitionRupayan Mallick, Sibo Dong, Nataniel Ruiz, Sarah Adel Bargal. 1722-1731 [doi]

WQLCP: Weighted Adaptive Conformal Prediction for Robust Uncertainty Quantification Under Distribution ShiftsShadi Alijani, Homayoun Najjaran. 1732-1741 [doi]

The Surprising Utility of Group Partitioning in Improving Conformal Prediction of Visual Classifiers under Distributional ShiftsKowshik Thopalli, Vivek Sivaraman Narayanaswamy, Jayaraman J. Thiagarajan. 1742-1751 [doi]

Uncertainty Quantification for Gradient-based Explanations in Neural NetworksMihir Mulye, Matias Valdenegro-Toro. 1752-1760 [doi]

GPT-FL: Generative Pre-trained Model-Assisted Federated LearningTuo Zhang, TianTian Feng, Samiul Alam, Dimitrios Dimitriadis, Sunwoo Lee 0001, Mi Zhang 0002, Shrikanth S. Narayanan, Salman Avestimehr. 1761-1770 [doi]

FedSECA: Sign Election and Coordinate-wise Aggregation of Gradients for Byzantine Tolerant Federated LearningJoseph Geo Benjamin, Mothilal Asokan, Mohammad Yaqub, Karthik Nandakumar. 1771-1780 [doi]

FedCAPR: Federated Camera-Aware Unsupervised Person Re-Identification with Identity-Distributed Equalization for Decentralized Data ClusteringYu-Syuan Tseng, Tzu-Chin Hsu, Chih-Ting Liu, Shao-Yi Chien. 1781-1790 [doi]

Forget Less, Learn More: Contrastive-Based Federated Class Incremental Learning with a Low-Dimensional Projection LayerEnsieh Khazaei, Dimitrios Hatzinakos. 1791-1800 [doi]

FedAlign: Federated Domain Generalization with Cross-Client Feature AlignmentSunny Gupta, Vinay Sutar, Varunav Singh, Amit Sethi. 1801-1810 [doi]

FedDG-MoE: Test-Time Mixture-of-Experts Fusion for Federated Domain GeneralizationAhmed Radwan, Mahmoud Soliman, Omar Abdelaziz, Mohamed S. Shehata. 1811-1820 [doi]

FedCIAL: Federated Color-Invariant Adversarial Learning for Enhancing Fairness and Performance in Skin Lesion ClassificationRahmat Izwan Heroza, John Q. Gan, Haider Raza. 1821-1828 [doi]

Sporadic Federated Learning Approach in Quantum Environment to Tackle Quantum NoiseRatun Rahman, Atit Pokharel, Dinh C. Nguyen. 1829-1838 [doi]

ActNAS : Generating Efficient YOLO Models using Activation NASSudhakar Sah, Ravish Kumar, Darshan C. Ganji, Ehsan Saboori. 1839-1847 [doi]

Robust 6DoF Pose Estimation Against Depth Noise and a Comprehensive Evaluation on a Mobile DatasetZixun Huang, Keling Yao, Zhihao Zhao, Chuanyu Pan, Allen Y. Yang. 1848-1857 [doi]

RepFC: Universal Structural Reparametrization Block for High Performance, Lightweight Deep Neural NetworksShambhavi Balamuthu Sampath, Judeson Anthony Fernando, Moritz Thoma, Nael Fasfous, Lukas Frickenstein, Pierpaolo Morì, Manoj Rohit Vemparala, Alexander Frickenstein, Ulf Schlichtmann, Walter Stechele. 1858-1866 [doi]

PETAH: Parameter Efficient Task Adaptation for Hybrid TransformersMaximilian Augustin, Syed Shakib Sarwar, Mostafa Elhoushi, Yuecheng Li, Sai Qian Zhang, Barbara De Salvo. 1867-1877 [doi]

Learned Lightweight Smartphone ISP with Unpaired DataAndrei Arhire, Radu Timofte. 1878-1887 [doi]

Cycle Training with Semi-Supervised Domain Adaptation: Bridging Accuracy and Efficiency for Real-Time Mobile Scene DetectionHuu-Phong Phan-Nguyen, Anh Dao, Tien-Huy Nguyen, Tuan Quang, Huu-Loc Tran, Tinh-Anh Nguyen-Nhu, Huy-Thach Pham, Quan Nguyen, Hoang M. Le, Quang Vinh Dinh. 1888-1897 [doi]

FLAR-SVD: Fast and Latency-Aware Singular Value Decomposition for Model CompressionMoritz Thoma, Jorge Villasante, Emad Aghajanzadeh, Shambhavi Balamuthu Sampath, Pierpaolo Morì, Maximilian Groetzinger, Daniil Dylkin, Manoj Rohit Vemparala, Nael Fasfous, Alexander Frickenstein, Daniel Mueller-Gritschneder, Ulf Schlichtmann. 1898-1907 [doi]

Quantized Image Super-Resolution on Mobile NPUs, Mobile AI 2025 Challenge: ReportAndrey Ignatov, Georgy Perevozchikov, Radu Timofte, Zhiyu Zhang, Tianxiao Gao, Yukun Yang, Shiai Zhu, Shihao Wang, Kihwan Yoon, Ganzorig Gankhuyag, Hyeon-Cheol Moon, Taehyun Jeong, Yumi Kim, Suhyeon Lee 0002, Jaehun Baek, Jinwoo Jeong, Eunjun Park, Jun Lee, Heejun Lee, Sungjei Kim, Dafeng Zhang, Yong Yang, Heo Myeong Cheol, Yonghyun Park, Jooho Jeong, Wontae Kim, Kanghwan Lee, Diankai Zhang, Biao Wu, Chengjian Zheng, Shaoli Liu, Si Gao, Ning Wang 0020, Mingshen Wang, Zhao Zhang 0001, Suiyi Zhao, Jinhan Guan, Bo Wang 0072, Yan Luo 0004. 1908-1921 [doi]

RGB Photo Enhancement on Mobile GPUs, Mobile AI 2025 Challenge: ReportAndrey Ignatov, Georgy Perevozchikov, Radu Timofte, Wu Pan, Song Wang, Dong Zhang, Zhao-ran, Xiaochen Li, Shichang Ju, Diankai Zhang, Biao Wu, Shaoli Liu, Si Gao, Chengjian Zheng, Ning Wang 0020, Yi Feng, Cailu Wan, Xiangji Wu, Hailong Yan, Ao Li 0007, Xiangtao Zhang, Zhe Liu 0019, Ce Zhu, Le Zhang 0001, Jinjie Zhou, Yang Lu, Feng Duo, Runhua Deng, Xuanyu Chen, Shuhui Xie, Guojie Xiao, Zhifeng Wang 0006, Long Peng 0003, Aiwen Jiang. 1922-1933 [doi]

Learned Smartphone ISP on Mobile GPUs, Mobile AI 2025 Challenge: ReportAndrey Ignatov, Georgy Perevozchikov, Radu Timofte, Cheng Li 0009, Lian Liu, Jun Cao, Heng Sun, Wu Pan, Song Wang, Keqiang Yu, Shuo Liu, Hongqin He, Zhenhao Dong, Jianke Chen, Dejun Hao, Keqiang Yu, Tingniao Wang, Xiaoqing Zhou, Dong Zhang, Chunxia Zhang, Jianguang He, Hailong Yan, Ao Li 0007, Xiangtao Zhang, Zhe Liu 0019, Ce Zhu, Le Zhang 0001, Andrei Arhire, Shuo Liu, Junpyo Seo, Fen Xie, Xiuzhi Fang, Chen Wu, Zhangsheng Wang, Pengbo Zhang, Jiazi Huang. 1934-1946 [doi]

CDVS: Compressed Domain On Device Memory Efficient 8K Video SlowMoJing Li, Chengyu Wang 0011, Hamid R. Sheikh, Seok-Jun Lee. 1947-1953 [doi]

Compressed Domain Multiframe ProcessingChengyu Wang 0011, Jing Li, Saurabh Kumar, Seok-Jun Lee, Hamid R. Sheikh. 1954-1963 [doi]

Learning to Drive from a World ModelMitchell Goff, Greg Hogan, George Hotz, Armand du Parc Locmaria, Kacper Raczy, Harald Schäfer, Adeeb Shihadeh, Weixing Zhang, Yassine Yousfi. 1964-1973 [doi]

MObI: Multimodal Object Inpainting Using Diffusion ModelsAlexandru Buburuzan, Anuj Sharma, John Redford, Puneet K. Dokania, Romain Mueller. 1974-1984 [doi]

NadirFloorNet: reconstructing multi-room floorplans from a small set of registered panoramic imagesGiovanni Pintore, Uzair Shah, Marco Agus, Enrico Gobbetti. 1985-1994 [doi]

CityGen: Infinite and Controllable City Layout GenerationJie Deng, Wenhao Chai, Jianshu Guo, Qixuan Huang, Junsheng Huang, Wenhao Hu 0002, Shengyu Hao, Jenq-Neng Hwang, Gaoang Wang. 1995-2005 [doi]

Proc-GS: Procedural Building Generation for City Assembly with 3D GaussiansYixuan Li 0002, Xingjian Ran, Linning Xu, Tao Lu 0005, Mulin Yu, Zhenzhi Wang 0001, Yuanbo Xiangli, Dahua Lin, Bo Dai 0002. 2006-2015 [doi]

Texture2LoD3: Enabling LoD3 Building Reconstruction With Panoramic ImagesWenzhao Tang, Weihang Li, Xiucheng Liang, Olaf Wysocki, Filip Biljecki, Christoph Holst, Boris Jutzi. 2016-2026 [doi]

Turin3D: Evaluating Adaptation Strategies under Label Scarcity in Urban LiDAR Segmentation with Semi-Supervised TechniquesLuca Barco, Giacomo Blanco, Gaetano Chiriaco, Alessia Intini, Luigi La Riccia, Vittorio Scolamiero, Piero Boccardo, Paolo Garza, Fabrizio Dominici. 2027-2035 [doi]

Near-incident detection in railroad environments: lateral distance estimation from train-mounted monocular cameraYilei Wang, Giacomo D'Amicantonio, Egor Bondarev. 2036-2045 [doi]

FungiTastic: A Multi-Modal Dataset and Benchmark for Image CategorizationLukás Picek, Klára Janousková, Vojtech Cermák, Jiri Matas. 2046-2056 [doi]

Fine-grained Few-Shot Classification with Part MatchingSamuel Black, Richard Souvenir. 2057-2067 [doi]

CYFLOD: Cyclic Filtering and Loss Damping for Alleviating Noisy Labels in Fine-grained Visual ClassificationNauman Ullah Gilal, Khaled A. Al-Thelaya, Fahad Majeed, Zhihe Lu, Sabri Boughorbel, Jens Schneider 0002, Marco Agus. 2068-2078 [doi]

Real-Time Ultra-Fine-Grained Surgical Instrument ClassificationMd. Atabuzzaman, Gino DiMatteo, Hani AlOmari, Chiawei Tang, Connor Hale, Adam E. Goode, David Ryan King, Chris Thomas 0004. 2079-2088 [doi]

A Visual RAG Pipeline for Few-Shot Fine-Grained Product ClassificationBianca Lamm, Janis Keuper. 2089-2098 [doi]

WildlifeReID-10k: Wildlife re-identification dataset with 10k individual animalsLukás Adam, Vojtech Cermák, Kostas Papafitsoros, Lukás Picek. 2099-2109 [doi]

Multi-entity Video Transformers for Fine-Grained Video Representation LearningMatthew Walmer, Rose Catherine Kanjirathinkal, Kai Sheng Tai, Keyur Muzumdar, Tai-Peng Tian, Abhinav Shrivastava. 2110-2120 [doi]

Multi-aspect Knowledge Distillation with Large Language ModelTaegyeong Lee, Jinsik Bang, Soyeong Kwon, Taehwan Kim. 2121-2130 [doi]

Self-Supervised Pretraining for Fine-Grained Plankton RecognitionJoona Kareinen, Tuomas Eerola, Kaisa Kraft, Lasse Lensu, Sanna Suikkanen, Heikki Kälviäinen. 2131-2141 [doi]

Combining Vision-Language Models and Weak Supervision for Nuanced Vision Classification TasksSeyed Mohamad Ali Tousi, Jacket Demby's, Ramy Farag, Gbenga Omotara, Guilherme N. DeSouza. 2142-2151 [doi]

Pseudo-labelling meets Label Smoothing for Noisy Partial Label LearningDarshana Saravanan, Naresh Manwani, Vineet Gandhi. 2152-2161 [doi]

A Fine-grained Artist Identification Method for Authentication and Attribution of Drawings using Hatching LinesShahrzad Ziaee, Ahmed Elgammal, Marian Mazzone. 2162-2173 [doi]

Predicting butterfly species presence from satellite imagery using soft contrastive regularisationThijs L. van der Plas, Stephen Law, Michael JO Pocock. 2174-2183 [doi]

Hybrid AI-Physical Modeling for Penetration Bias Correction in X-band InSAR DEMs: A Greenland Case StudyIslam Mansour, Georg Fischer 0002, Ronny Hänsch, Irena Hajnsek. 2184-2193 [doi]

CoDEx: Combining Domain Expertise for Spatial Generalization in Satellite Image AnalysisAbhishek Kuriyal, Elliot Vincent, Mathieu Aubry, Loïc Landrieu. 2194-2203 [doi]

Panopticon: Advancing Any-Sensor Foundation Models for Earth ObservationLeonard Waldmann, Ando Shah, Yi Wang 0072, Nils Lehmann, Adam J. Stewart, Zhitong Xiong, Xiao Xiang Zhu 0001, Stefan Bauer, John Chuang. 2204-2214 [doi]

Bridging Classical and Modern Computer Vision: PerceptiveNet for Tree Crown Semantic SegmentationGeorgios Voulgaris. 2215-2224 [doi]

SARFormer - An Acquisition Parameter Aware Vision Transformer for Synthetic Aperture Radar DataJonathan Prexl, Michael Recla, Michael Schmitt 0003. 2225-2234 [doi]

LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster ImagerySamuel Scheele, Katherine Picchione, Jeffrey Liu. 2235-2243 [doi]

Task-Informed Meta-Learning for Remote SensingGabriel Tseng, Hannah Kerner, David Rolnick. 2244-2253 [doi]

AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing ImagesSaikat Dutta, Akhil Vasim, Siddhant Gole, Hamid Rezatofighi, Biplab Banerjee. 2254-2264 [doi]

Distribution Shifts at Scale: Out-of-distribution Detection in Earth ObservationBurak Ekim, Girmaw Abebe Tadesse, Caleb Robinson, Gilles Quentin Hacheme, Michael Schmitt 0003, Rahul Dodhia, Juan M. Lavista Ferres. 2265-2274 [doi]

EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and WikipediaValérie Zermatten, Javiera Castillo-Navarro, Pallavi Jain 0004, Devis Tuia, Diego Marcos. 2275-2285 [doi]

Explainable Physical PolSAR Autoencoders for Soil Moisture EstimationNikita Basargin, Alberto Alonso-González, Irena Hajnsek. 2286-2295 [doi]

Detecting Looted Archaeological Sites from Satellite Image Time SeriesElliot Vincent, Mehraïl Saroufim, Jonathan Chemla, Yves Ubelmann, Philippe Marquis, Jean Ponce, Mathieu Aubry. 2296-2307 [doi]

Scale-Invariant Implicit Neural Representations For Object CountingSiyuan Xu, Yucheng Wang, Xihaier Luo, Byung-Jun Yoon, Xiaoning Qian. 2308-2318 [doi]

Visual Question Answering on Multiple Remote Sensing Image ModalitiesHichem Boussaid, Lucrezia Tosato, Flora Weissgerber, Camille Kurtz, Laurent Wendling, Sylvain Lobry. 2319-2328 [doi]

Better Coherence, Better Height: Fusing Physical Models and Deep Learning for Forest Height Estimation from Interferometric SAR DataRagini Bal Mahesh, Ronny Hänsch. 2329-2338 [doi]

s2p-hd: Gpu-Accelerated Binocular Stereo Pipeline for Large-Scale Same-Date StereoTristan Amadei, Enric Meinhardt-Llopis, Carlo De Franchis, Jérémy Anger, Thibaud Ehret, Gabriele Facciolo. 2339-2348 [doi]

Mapping biodiversity at very-high resolution in EuropeCésar Leblanc, Lukás Picek, Rémi Palard, Benjamin Deneu, Maximilien Servajean, Pierre Bonnet, Alexis Joly. 2349-2358 [doi]

FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote SensingHariseetharam Gunduboina, Muhammad Haris Khan, Biplab Banerjee. 2359-2372 [doi]

REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image RetrievalShabnam Choudhury, Yash Salunkhe, Sarthak Mehrotra, Biplab Banerjee. 2373-2382 [doi]

S-EO: A Large-Scale Dataset for Geometry-Aware Shadow Detection in Remote Sensing ApplicationsElías Masquil, Roger Marí, Thibaud Ehret, Enric Meinhardt-Llopis, Pablo Musé, Gabriele Facciolo. 2383-2393 [doi]

TerraMesh: A Planetary Mosaic of Multimodal Earth Observation DataBenedikt Blumenstiel, Paolo Fraccaro, Valerio Marsocci, Johannes Jakubik, Stefano Maurogiovanni, Mikolaj Czerkawski, Rocco Sedona, Gabriele Cavallaro, Thomas Brunschwiler, Juan Bernabé-Moreno, Nicolas Longépé. 2394-2402 [doi]

SSL4Eco: A Global Seasonal Dataset for Geospatial Foundation Models in EcologyElena Plekhanova, Damien Robert 0002, Johannes Dollinger, Emilia Arens, Philipp Brun, Jan Dirk Wegner, Niklaus E. Zimmermann. 2403-2414 [doi]

AttentiveGRU: Recurrent Spatio-Temporal Modeling for Advanced Radar-Based BEV Object DetectionLoveneet Saini, Mirko Meuter, Hasan Tercan, Tobias Meisen. 2415-2424 [doi]

Inferring Driving Maps by Deep Learning-based Trail Map ExtractionMichael Hubbertz, Pascal Colling, Qi Han, Tobias Meisen. 2425-2434 [doi]

LMFormer: Lane based Motion Prediction TransformerHarsh Yadav, Maximilian Schäfer, Kun Zhao, Tobias Meisen. 2435-2444 [doi]

TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/VideosKorawat Charoenpitaks, Van Quang Nguyen, Masanori Suganuma, Kentaro Arai, Seiji Totsuka, Hiroshi Ino, Takayuki Okatani. 2445-2455 [doi]

PatchContrast: Self-Supervised Pre-Training for 3D Object DetectionOren Shrout, Ori Nizan, Yizhak Ben-Shabat, Ayellet Tal. 2456-2466 [doi]

PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and OptimizationYezhi Shen, Qiuchen Zhai, Fengqing Zhu 0001. 2467-2476 [doi]

Exploring Semi-Supervised Learning for Online MappingAdam Lilja, Erik Wallin, Junsheng Fu, Lars Hammarstrand. 2477-2487 [doi]

NeuRadar: Neural Radiance Fields for Automotive Radar Point CloudsMahan Rafidashti, Ji Lan, Maryam Fatemi, Junsheng Fu, Lars Hammarstrand, Lennart Svensson. 2488-2498 [doi]

Multimodal 3D Object Detection on Unseen DomainsDeepti Hegde, Suhas Lohit, Kuan-Chuan Peng, Michael Jones 0002, Vishal Patel 0001. 2499-2509 [doi]

DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera VideosRajeev Yasarla, Shizhong Han, Hong Cai, Fatih Porikli. 2510-2519 [doi]

Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object ShapesNicola Marinello, Simen Cassiman, Jonas Heylen, Marc Proesmans, Luc Van Gool. 2520-2529 [doi]

What is the Added Value of UDA in the VFM Era?Brunó Bence Englert, Tommie Kerssies, Gijs Dubbelman. 2530-2540 [doi]

TrajGNAS: Heterogeneous Multiagent Trajectory Prediction Based on a Graph Neural Architecture SearchYunheng Xu, Jie Chen, Shuoheng Wang, Xinwen Wang. 2541-2550 [doi]

CE-NPBG: Connectivity Enhanced Neural Point-Based Graphics for Novel View Synthesis in Autonomous Driving ScenesMohammad Altillawi, Fengyi Shen, Liudi Yang, Sai Manoj Prakhya, Ziyuan Liu. 2551-2559 [doi]

DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object DetectionZhe Huang, Yizhe Zhao, Hao Xiao, Chenyan Wu, Lingting Ge. 2560-2570 [doi]

Data Scaling Laws for End-to-End Autonomous DrivingAlexander Naumann, Xunjiang Gu, Tolga Dimlioglu, Mariusz Bojarski, Alperen Degirmenci, Alexander Popov, Devansh Bisla, Marco Pavone 0001, Urs Muller, Boris Ivanovic. 2571-2582 [doi]

Nexar Dashcam Collision Prediction Dataset and ChallengeDaniel C. Moura, Shizhan Zhu, Orly Zvitia. 2583-2591 [doi]

REEF: Relevance-Aware and Efficient LLM Adapter for Video UnderstandingSakib Reza, Xiyun Song, Heather Yu, Zongfang Lin, Mohsen Moghaddam, Octavia I. Camps. 2592-2603 [doi]

M-Adaptor: Text-driven Whole-body Human Motion GenerationAlicia Li, Xiaodong Chen, Bohao Liang, Qian Bao, Wu Liu. 2604-2613 [doi]

Adversarially Domain-adaptive Latent Diffusion for Unsupervised Semantic SegmentationJongmin Yu, Zhongtian Sun, Chen Bene Chi, Jinhong Yang, Shan Luo 0001. 2614-2624 [doi]

OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action DetectionShuming Liu 0001, Chen Zhao 0002, Fatimah Zohra, Mattia Soldan, Alejandro Pardo, Mengmeng Xu, Lama Alssum, Merey Ramazanova, Juan León Alcázar, Anthony Cioppa, Silvio Giancola, Carlos Hinojosa, Bernard Ghanem. 2625-2635 [doi]

Studying Image Diffusion Features for Zero-Shot Video Object SegmentationThanos Delatolas, Vicky Kalogeiton, Dim P. Papadopoulos. 2636-2647 [doi]

MTA-VPS: A Large-scale Benchmark for Video-Based Person SearchDing Qi, Shuguang Dou, Jian Liu, Huaixuan Cao, Hao Zhang, Dongsheng Jiang, Cairong Zhao. 2648-2658 [doi]

Efficient VideoMAE via Temporal Progressive TrainingXianhang Li, Peng Wang, Xinyu Li, Heng Wang, Hongru Zhu, Cihang Xie. 2659-2668 [doi]

PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the WildHenghui Ding, Chang Liu 0072, Nikhila Ravi, Shuting He, Yunchao Wei, Song Bai 0001, Philip Torr 0001. 2669-2678 [doi]

Disentangling Visual Transformers: Patch-level Interpretability for Image ClassificationGuillaume Jeanneret, Loïc Simon, Frédéric Jurie. 2679-2689 [doi]

PCBEAR: Pose Concept Bottleneck for Explainable Action RecognitionJongseo Lee, Wooil Lee, Gyeong-Moon Park, Seong Tae Kim 0001, Jinwoo Choi 0001. 2690-2699 [doi]

ScoreCAM++: Gated Score-Weighted Visual Explanations for CNNsSoham Mitra, Atri Sukul, Swalpa Kumar Roy, Pravendra Singh, Vinay Kumar Verma. 2700-2709 [doi]

How does the Machine Perceive Depth for Indoor Single Images with CNN?Yihong Wu 0004, Yuwen Heng, Mahesan Niranjan, Hansung Kim. 2710-2719 [doi]

Towards Synthetic Concept Activation Vectors via Generative ModelsRiccardo Campi, Santiago Borrego, Antonio De Santis, Matteo Bianchi, Andrea Tocchetti, Marco Brambilla 0001. 2720-2728 [doi]

X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion ModelsValentina Bazyleva, Nicolò Bonettini, Gaurav Bharaj. 2729-2739 [doi]

PoseGuru: Landmarks for Explainable Pose Correction using Exemplar-Guided Algorithmic RecourseBhat Dittakavi, Bharathi Callepalli, Swarnim Maheshwari, Vineeth Balasubramanian. 2740-2749 [doi]

ExaM: Unsupervised Concept-Based Representation Learning to Better Explain Models in Vision TasksMaguelonne Heritier, Djebril Mekhazni, Cédric Leblond-Ménard, Benoit Godbout, Nathan Guilbaud, Mahdi Alehdaghi, Eric Granger. 2750-2759 [doi]

Visually Interpretable Subtask Reasoning for Visual Question AnsweringYu Cheng, Arushi Goel, Hakan Bilen. 2760-2780 [doi]

gMINT: Gradiant-based Membership Inference Test applied to Image ModelsDaniel DeAlcala, Aythami Morales, Julian Fierrez, Gonzalo Mancera, Ruben Tolosana. 2781-2790 [doi]

Explaining 3D Point Cloud Semantic Segmentation Models Through Adversarial AttacksJorge Francisco Ciprián-Sánchez, Josafat-Mattias Burmeister, Rico Richter, Jürgen Döllner. 2791-2800 [doi]

Rel-SA: Alzheimer's Disease Detection using Relevance-augmented Self Attention by Inducing Domain Priors in Vision TransformersMadhumitha V, Sunayna Padhye, Shanawaj S. Madarkar, Susmit Agrawal, Konda Reddy Mopuri. 2801-2810 [doi]

Less Biased Noise Scale Estimation for Threshold-Robust RANSACJohan Edstedt. 2811-2820 [doi]

Outlier-Robust Multi-Model Fitting on Quantum AnnealersSaurabh Pandey, Luca Magri, Federica Arrigoni, Vladislav Golyanik. 2821-2830 [doi]

Learning Optical Flow Field via Neural Ordinary Differential EquationLeyla Mirvakhabova, Hong Cai, Jisoo Jeong, Hanno Ackermann, Farhad G. Zanjani, Fatih Porikli. 2831-2840 [doi]

Detector-free Image Matching with Lightweight Backbone and Feature FilteringXiaolong Guo, Min Wang 0019, Hui Wu, Wengang Zhou 0001, Houqiang Li. 2841-2848 [doi]

To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place RecognitionDavide Sferrazza, Gabriele Moreno Berton, Gabriele Trivigno, Carlo Masone. 2849-2860 [doi]

MegaLoc: One Retrieval to Place Them AllGabriele Moreno Berton, Carlo Masone. 2861-2867 [doi]

Dyadic Mamba: Long-term Dyadic Human Motion SynthesisJulian Tanke, Takashi Shibuya 0001, Kengo Uchida, Koichi Saito, Yuki Mitsufuji. 2868-2877 [doi]

HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion ModelsXiaogang Peng, Yiming Xie, Zizhao Wu, Varun Jampani, Deqing Sun, Huaizu Jiang. 2878-2888 [doi]

MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertaintyLeo Bringer, Joey Wilson, Kira Barton, Maani Ghaffari. 2889-2899 [doi]

SILK: Smooth InterpoLation frameworK for motion in-betweeningElly Akhoundi, Hung Yu Ling, Anup Anand Deshmukh, Judith Bütepage. 2900-2909 [doi]

MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial TrainingKengo Uchida, Takashi Shibuya 0001, Yuhta Takida, Naoki Murata, Julian Tanke, Shusuke Takahashi, Yuki Mitsufuji. 2910-2919 [doi]

Goal-Driven Human Motion Synthesis in Diverse TaskInwoo Hwang, Jinseok Bae, Donggeun Lim, Young Min Kim 0001. 2920-2930 [doi]

MoCLIP Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion GenerationGabriel Maldonado, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi. 2931-2941 [doi]

Exemplar Masking for Multimodal Incremental LearningYi Lun Lee, Chen-Yu Lee, Wei-chen Chiu, Yi-Hsuan Tsai. 2942-2951 [doi]

Human vs. Machine Minds: Ego-Centric Action Recognition ComparedSadegh Rahmani-Boldaji, Filip Rybansky, Quoc Vuong, Frank Guerin, Andrew Gilbert. 2952-2962 [doi]

Autonomous Multimodal Reasoning via Implicit Chain-of-VisionYiqiao Huang, Qi He, Zhaorun Chen, Haopeng Zhang 0005, Hanchao Yu, Zhuokai Zhao. 2963-2972 [doi]

Comparison Visual Instruction TuningWei Lin 0019, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogério Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky. 2973-2983 [doi]

SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical ImagingTan-Hanh Pham, Trong-Duong Bui, Quang Minh Luu, Tan-Huong Pham, Chris Ngo, Truong-Son Hy. 2984-2994 [doi]

Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual IllusionsMohammadmostafa Rostamkhani, Baktash Ansari, Hoorieh Sabzevari, Farzan Rahmani, Sauleh Eetemadi. 2995-3004 [doi]

PAN-RSVQA: Vision Foundation Models as Pseudo-ANnotators for Remote Sensing Visual Question AnsweringChristel Chappuis, Gencer Sümbül, Syrielle Montariol, Sylvain Lobry, Devis Tuia. 3005-3016 [doi]

Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset CurationThomas Kerdreux, Alexandre Tuel, Quentin Febvre, Alexis Mouche, Bertrand Chapron. 3017-3027 [doi]

Foundation Models for Remote Sensing: An Analysis of MLLMs for Object LocalizationDarryl Hannan, John Cooper, Dylan White, Timothy Doster, Henry Kvinge, Yijing Watkins. 3028-3037 [doi]

Deep Diffusion Models and Unsupervised Hyperspectral Unmixing for Realistic Abundance Map SynthesisMartina Pastorino, Michael Alibani, Nicola Acito, Gabriele Moser. 3038-3046 [doi]

A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation via Synergistic Pseudo-Labeling and Generative LearningAnan Yaghmour, Melba M. Crawford, Saurabh Prasad. 3047-3056 [doi]

Bridging the Modality Gap: Training-free Adaptation of Vision-Language Models for Remote Sensing via Visual PrototypesClément Barbier, Baptiste Abeloss, Stéphane Herbin. 3057-3066 [doi]

MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus DataPaul Borne--Pons, Mikolaj Czerkawski, Rosalie Martin, Romain Rouffet. 3067-3075 [doi]

Dynamic State-Control Modeling for Generalized Remote Sensing Image Super-ResolutionChenyu Li 0002, Zhaojie Pan, Danfeng Hong. 3076-3084 [doi]

COP-GEN-Beta: Unified Generative Modelling of COPernicus Imagery ThumbnailsMiguel Espinosa, Valerio Marsocci, Yuru Jia, Elliot Crowley, Mikolaj Czerkawski. 3085-3095 [doi]

Towards Efficient Benchmarking of Foundation Models in Remote Sensing: A Capabilities Encoding ApproachPierre Adorni, Minh-Tan Pham, Stéphane May, Sébastien Lefèvre. 3096-3106 [doi]

NeIn: Telling What You Don't WantNhat-Tan Bui, Dinh-Hieu Hoang, Quoc-Huy Trinh, Minh-Triet Tran, Truong Nguyen, Susan Gauch. 3107-3115 [doi]

Noise Consistency Regularization for Improved Subject-Driven Image SynthesisYao Ni, Song Wen 0001, Piotr Koniusz, Anoop Cherian. 3116-3126 [doi]

AnomalyHybrid: A Domain-agnostic Generative Framework for General Anomaly DetectionYing Zhao. 3127-3136 [doi]

SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data AugmentationYonwoo Choi. 3137-3147 [doi]

good4cir: Generating Detailed Synthetic Captions for Composed Image RetrievalPranavi Kolouju, Eric Xing, Robert Pless, Nathan Jacobs, Abby Stylianou. 3148-3157 [doi]

Syn3DTxt: Embedding 3D Cues for Scene Text GenerationLi-Syun Hsiung, Jun-Kai Tu, Kuan-wu Chu, Yu-Hsuan Chiu, Yan-Tsung Peng, Sheng-Luen Chung, Gee-Sern Hsu. 3158-3166 [doi]

Eyes Tell the Truth: GazeVal Highlights Shortcomings of Generative AI in Medical ImagingDavid C. Wong 0005, Bin Wang 0068, Gorkem Durak, Marouane Tliba, Akshay Chaudhari, Aladine Chetouani, Ahmet Enis Çetin, Cagdas Topel, Nicolo Gennaro, Camila Lopes Vendrami, Tugce Agirlar Trabzonlu, Amir Ali Rahsepar, Laetitia Perronne, Matthew Antalek, Onural Ozturk, Gokcan Okur, Andrew C. Gordon, Ayis Pyrros, Frank H. Miller, Amir Borhani, Hatice Savas, Eric M. Hart, Drew A. Torigian, Jayaram K. Udupa, Elizabeth A. Krupinski, Ulas Bagci. 3167-3175 [doi]

ViDROP: Video Dense Representation through Spatio-Temporal SparsitySepehr Sameni, Simon Jenni, Paolo Favaro. 3176-3186 [doi]

Window Token Concatenation for Efficient Visual Large Language ModelsYifan Li, Wentao Bao, Botao Ye, Zhen Tan 0001, Tianlong Chen 0001, Huan Liu 0001, Yu Kong 0001. 3187-3197 [doi]

Prompt Categories Cluster for Weakly Supervised Semantic SegmentationWangyu Wu, Xianglin Qiu, Siqi Song, Zhenhong Chen, Xiaowei Huang 0001, Fei Ma 0002, Jimin Xiao. 3198-3207 [doi]

From Data to Design: Leveraging Frequency Statistics for Efficient Neural Network ArchitecturesMustafa Munir, Guihong Li, Md Mostafijur Rahman, Alex Zhang, Radu Marculescu. 3208-3218 [doi]

Rethinking the Role of Spatial MixingGeorge Cazenavette, Joel Julin, Simon Lucey. 3219-3228 [doi]

SmoothCache: A Universal Inference Acceleration Technique for Diffusion TransformersJoseph Liu 0001, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana. 3229-3238 [doi]

Efficient Image Generation with Variadic Attention HeadsSteven Walton 0001, Ali Hassani 0001, Xingqian Xu, Zhangyang Wang, Humphrey Shi. 3239-3250 [doi]

U-Shape Mamba: State Space Model for faster diffusionAlex Ergasti, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati 0001. 3251-3258 [doi]

Dual Precision Quantization for Efficient and Accurate Deep Neural Networks InferenceTomer Gafni, Asaf Karnieli, Yair Hanani. 3259-3269 [doi]

VisionCube: 3D-Aware Vision-Language Model for Multi-Step Spatial ReasoningFeiyang Wang, Nan Luo, Wangyu Wu. 3270-3279 [doi]

Mix-QSAM: Mixed-Precision Quantization of the Segment Anything ModelNavin Ranjan, Andreas E. Savakis. 3280-3290 [doi]

Effectiveness of Max-Pooling for Fine-Tuning CLIP on VideosFatimah Zohra, Chen Zhao 0002, Shuming Liu 0001, Bernard Ghanem. 3291-3300 [doi]

Efficiently Mitigating Video Content Misalignment on Large Vision Model with Time-Series Data AlignmentHanchen Xie, Rose Ma, Jiageng Zhu, Zheda Mai, Wael Abd-Almageed, Zubin Abraham. 3301-3307 [doi]

DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-TransformXingzi Xu, Qi Li, Shuwen Qiu, Julien Han, Karim Bouyarmane. 3308-3317 [doi]

CARN: Complexity-Aware Routing Network for Efficient and Adaptive InferenceRebati Raman Gaire, Arman Roohi. 3318-3326 [doi]

SimCache: Similarity Caching for Efficient VLM-based Scene UnderstandingSurya Selvam, Ravi K. Rajendran, Murugan Sankaradas, Anand Raghunathan, Srimat T. Chakradhar. 3327-3336 [doi]

Distilling Normalizing FlowsSteven Walton 0001, Valeriy Klyukin, Maksim Artemev, Denis Derkach, Nikita Orlov, Humphrey Shi. 3337-3346 [doi]

Video, How Do Your Tokens Merge?Sam Pollard, Michael Wray. 3347-3356 [doi]

On the Suitability of Reinforcement Fine-Tuning to Visual TasksXiaxu Chen, Wei Li 0044, Chunxu Liu, Chi Xie, Xiaoyan Hu, Chengqian Ma, Feng Zhu 0006, Rui Zhao 0001. 3357-3361 [doi]

TTGen: Incorporating Test-time Scaling to Diffusion ModelsYuming Qiao, Yuechen Wang, Xudong Zhang, Dan Meng. 3362-3366 [doi]

Get a GRIP on Test Time Adaptation! - Group Robust Inference-Time Policy Optimization for Vision ModelsPrabhav Sanga, Jaskaran Singh, Tapabrata Chakraborti. 3367-3376 [doi]

Enhanced Multi-View Pedestrian Detection Using Probabilistic Occupancy VolumeReef Alturki, Adrian Hilton 0001, Jean-Yves Guillemaut. 3377-3386 [doi]

Document Image Rectification using Stable Diffusion TransformerPooja Kumari 0001, Sukhendu Das. 3387-3396 [doi]

Uncertainty-guided Style-aware Perceptual Quality Assessment for AI-Generated ImagesTushar Shinde, Shivaanee Eswaran. 3397-3405 [doi]

LLaVA-SCo: Teach Vision Language Models to Self-CorrectZixuan Liu, Guangkai Jiang, Siavash H. Khajavi. 3406-3415 [doi]

Exploiting Adversarial Learning and Topology Augmentation for Open-Set Visual RecognitionRosa Zuccarà, Georgia Fargetta, Alessandro Ortis, Sebastiano Battiato. 3416-3424 [doi]

Improved Out-of-Distribution Detection with Additive Angular Margin LossDeepak Ravikumar, Efstathia Soufleri, Kaushik Roy 0001. 3425-3432 [doi]

Domain Adaptation for Skin Lesion: Evaluating Real-World GeneralisationNurjahan Sultana, Wenqi Lu, Xinqi Fan, Moi Hoon Yap. 3433-3443 [doi]

Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable ConvolutionsKavitha Viswanathan, Amit Sethi, Shashwat Pathak, Piyush Bharambe, Harsh Choudhary. 3444-3453 [doi]

IdolDanceNet: Indian Heritage idol Dance Pose ClassificationKanimozhi Soundararajan, Sabari Nathan, A. Sasithradevi. 3454-3463 [doi]

Leveraging Intermediate Features of Vision Transformer for Face Anti-SpoofingMika Feng, Koichi Ito 0001, Takafumi Aoki, Tetsushi Ohki, Masakatsu Nishigaki. 3464-3472 [doi]

Knowledge Distillation Approach for SOS Fusion Staging: Towards Fully Automated Skeletal Maturity AssessmentOmid Halimi Milani, Amanda Nikho, Marouane Tliba, Lauren Mills, Ahmet Enis Çetin, Mohammed H. Elnagar. 3473-3480 [doi]

Dust to Detail: Restoring Sand-dust Images with Frequency-Guided Attention and Multi-Scale FeaturesRomala Mishra, Sobhan Kanti Dhara. 3481-3490 [doi]

Leveraging Fixed and Dynamic Pseudo-Labels in Cross-Supervision Framework for Semi-Supervised Medical Image SegmentationSuruchi Kumari, Pravendra Singh. 3491-3501 [doi]

Training Data Reconstruction: Privacy due to Uncertainty?Christina Runkel, Kanchana Vaishnavi Gandikota, Jonas Geiping, Carola-Bibiane Schönlieb, Michael Moeller 0001. 3502-3510 [doi]

Trustworthy Multi-UAV Collaboration: A Self-Supervised Framework for Explainable and Adversarially Robust Decision-MakingYuwei Chen, Shiyong Chu. 3511-3522 [doi]

Defending Against Frequency-Based Attacks with Diffusion ModelsFatemeh Amerehi, Patrick Healy. 3523-3533 [doi]

Attacking Attention of Foundation Models Disrupts Downstream TasksHondamunige Prasanna Silva, Federico Becattini, Lorenzo Seidenari. 3534-3543 [doi]

Towards Evaluating the Robustness of Visual State Space ModelsHashmat Shadab Malik, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, Fahad Shahbaz Khan, Salman Khan 0001. 3544-3553 [doi]

FullCycle: Full Stage Adversarial Attack For Reinforcement Learning Robustness EvaluationZhenshu Ma, Xuan Cai, Changhang Tian, Yuqi Fan, Kemou Jiang, Gangfu Liu, Xuesong Bai, Aoyong Li, Yilong Ren, Haiyang Yu 0002. 3554-3560 [doi]

Probing Vulnerabilities of Vision-LiDAR Based Autonomous Driving SystemsSiwei Yang, Zeyu Wang 0008, Diego Ortiz Barbosa, Luis Burbano, Murat Kantarcioglu, Alvaro A. Cárdenas, Cihang Xie. 3561-3569 [doi]

Task-Agnostic Attacks Against Vision Foundation ModelsBrian Pulfer, Yury Belousov 0001, Vitaliy Kinakh, Teddy Furon, Slava Voloshynovskiy. 3570-3581 [doi]

EL-Attack: Explicit and Latent Space Hybrid Optimization based General and Effective Attack for Autonomous Driving Trajectory PredictionXuesong Bai, Changhang Tian, Wei Xia, Zhenshu Ma, Haiyang Yu 0002, Yilong Ren. 3582-3590 [doi]

Attention-Aware Temporal Adversarial Shadows on Traffic Sign SequencesPedram MohajerAnsari, Amir Salarpour, David Fernandez, Cigdem Kokenoz, Bing Li, Mert D. Pesé. 3591-3599 [doi]

UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual EncodingYang Jiao, Haibo Qiu, Zequn Jie, Shaoxiang Chen 0001, Jingjing Chen 0001, Lin Ma 0002, Yu-Gang Jiang 0001. 3600-3610 [doi]

Understanding Depth and Height Perception in Large Visual-Language ModelsShehreen Azad, Yash Jain, Rishit Garg, Vibhav Vineet, Yogesh S. Rawat. 3611-3620 [doi]

Repurposing SAM for User-Defined Semantics Aware SegmentationRohit Kundu, Sudipta Paul 0007, Arindam Dutta, Amit Roy-Chowdhury 0001. 3621-3631 [doi]

PLVM: A tuning-free approach for Personalized Large Vision-Language ModelChau Pham, Hoang Phan, David S. Doermann, Yunjie Tian. 3632-3641 [doi]

How Good is my Video-LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMsMuhammad Uzair Khattak, Muhammad Ferjad Naeem, Jameel Hassan, Muzammal Naseer, Federico Tombari, Fahad Shahbaz Khan, Salman Khan 0001. 3642-3651 [doi]

An Interactive Agent Foundation ModelZane Durante, Ran Gong, Bidipta Sarkar, Naoki Wake, Rohan Taori, Paul Tang, Shrinidhi Kowshika Lakshmikanth, Kevin A. Schulman, Arnold Milstein, Hoi Vo, Ehsan Adeli 0001, Demetri Terzopoulos, Li Fei-Fei 0001, Jianfeng Gao 0001. 3652-3662 [doi]

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation LearningNeha Mukund Kalibhat, Priyatham Kattakinda, Sumit Nawathe, Arman Zarei, Nikita Seleznev, Samuel Sharpe, Senthil Kumar, Soheil Feizi. 3663-3672 [doi]

Overview of the 1st International Workshop on Interactive Video Search and ExplorationLuca Rossetto, George Awad, Werner Bailer, Cathal Gurrin, Björn Þór Jónsson 0001, Jakub Lokoc, Stevan Rudinac, Klaus Schoeffmann. 3673-3678 [doi]

CadenceRAG: Context-Aware and Dependency-Enhanced Retrieval Augmented Generation for Holistic Video UnderstandingHeng Liu, Siru Jiang, Fangyun Duan, Yongzhe Lyu, Xiusong Wang, Hanlin Ge, Chao Liang. 3679-3688 [doi]

VRAG: Retrieval-Augmented Video Question Answering for Long-Form VideosBao Tran Gia, Khiem Le, Tien Do, Tien-Dung Mai, Thanh Duc Ngo, Duy-Dinh Le, Shin'ichi Satoh 0001. 3689-3698 [doi]

Toward Automation in Text-based Video Retrieval with LLM AssistanceKhanh-An C. Quan, Qui Ngoc Nguyen, Duc-Tuan Luu. 3699-3707 [doi]

A Lightweight Moment Retrieval System with Global Re-Ranking and Robust Adaptive Bidirectional Temporal SearchTinh-Anh Nguyen-Nhu, Huu-Loc Tran, Nguyen-Khang Le, Minh Nhat Nguyen, Tien-Huy Nguyen, Hoang-Long Nguyen-Huu, Huu-Phong Phan-Nguyen, Huy-Thach Pham, Quan Nguyen, Hoang M. Le, Quang Vinh Dinh. 3708-3718 [doi]

Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal RerankingHuu-Loc Tran, Tinh-Anh Nguyen-Nhu, Huu-Phong Phan-Nguyen, Tien-Huy Nguyen, Nhat-Minh Nguyen-Dich, Anh Dao, Huy-Duc Do, Quan Nguyen, Hoang M. Le, Quang Vinh Dinh. 3719-3729 [doi]

An LLM Framework for Long-form Video Retrieval and Audio-Visual Question Answering Using Qwen2/2.5Damianos Galanopoulos, Andreas Goulas, Antonios Leventakis, Ioannis Patras, Vasileios Mezaris. 3730-3739 [doi]

Can Relevance Feedback, Conversational Search and Foundation Models Work Together for Interactive Video Search and Exploration?Ujjwal Sharma 0001, Omar Shahbaz Khan, Stevan Rudinac, Björn Þór Jónsson 0001. 3740-3749 [doi]

AI-based Video Content Understanding for Automatic and Interactive Multimedia RetrievalKlaus Schoeffmann, Mario Leopold. 3750-3758 [doi]

Harmonizing Attention Fields with Knowledge Distillation for Multi-View 3D Object DetectionYafei Qi, Menghao Yang, Fan Wu, Chen Wang, Yongmin Zhang. 3759-3767 [doi]

ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous DrivingSheng Yang, Tong Zhan, Shichen Qiao, Jicheng Gong, Qing Yang, Jian Wang, Yanfeng Lu. 3768-3777 [doi]

PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D DetectorKaidong Li, Tianxiao Zhang, Kuan-Chuan Peng, Guanghui Wang. 3778-3787 [doi]

Talk2Traffic: Interactive and Editable Traffic Scenario Generation for Autonomous Driving with Multimodal Large Language ModelZihao Sheng, Zilin Huang, Yansong Qu, Yue Leng, Sikai Chen. 3788-3797 [doi]

CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map UpdatesAnkit Kumar Shaw, Kun Jiang 0002, Tuopu Wen, Chandan Kumar Sah, Yining Shi 0002, Mengmeng Yang 0001, Diange Yang, Xiaoli Lian. 3798-3807 [doi]

Fairness-Aware Boosting Model for Imbalanced 3D Point Cloud Segmentation in Autonomous DrivingElahe Yahyapour, Chengbo Ai. 3808-3816 [doi]

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from PeruDunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza. 3817-3828 [doi]

Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP DistillationLi Zhong, Ahmed Ghazal, Jun-Jun Wan, Frederik Zilly, Patrick Mackens, Joachim E. Vollrath, Bogdan Sorin Coseriu. 3829-3837 [doi]

RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous DrivingYujin Wang, Quanfeng Liu, Zhengxin Jiang, Tianyi Wang, Junfeng Jiao, Hongqing Chu, Bingzhao Gao, Hong Chen 0003. 3838-3848 [doi]

ReferGPT: Towards Zero-Shot Referring Multi-Object TrackingTzoulio Chamiti, Leandro Di Bella, Adrian Munteanu 0001, Nikos Deligiannis. 3849-3858 [doi]

Drive4C: A Closed-Loop Benchmark on What Foundation Models Really Need to Be Capable of for Language-Guided Autonomous DrivingTin Stribor Sohn, Maximilian Dillitzer, Johannes Bach, Jason J. Corso, Tim Brühl, Robin Schwager, Tim Dieter Eberhardt, Eric Sax. 3859-3869 [doi]

ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language ModelsAmirhosein Chahe, LiFeng Zhou. 3870-3879 [doi]

CondiMen: Conditional Multi-Person Mesh RecoveryRomain Brégier, Fabien Baradel, Thomas Lucas 0002, Salma Galaaoui, Matthieu Armando, Philippe Weinzaepfel, Grégory Rogez. 3880-3890 [doi]

Physics-based Human Pose Estimation from a Single Moving RGB CameraAyce Idil Aytekin, Chuqiao Li, Diogo C. Luvizon, Rishabh Dabral, Martin R. Oswald, Marc Habermann, Christian Theobalt. 3891-3900 [doi]

Short-term 3D Human Mesh Recovery with Virtual Markers DisentanglementXiyuan Kang, Yi Yuan, Xu Dong, Muhammad Awais 0001, Lilian Tang, Josef Kittler, Zhenhua Feng 0001. 3901-3911 [doi]

PoseSynViT: Lightweight and Scalable Vision Transformers for Human Pose EstimationSonain Jamil. 3912-3921 [doi]

Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly DetectionYeongHyeon Park, Sungho Kang 0002, Myung-Jin Kim, Hyeong-Seok Kim, Juneho Yi. 3922-3932 [doi]

Multi-Flow: Multi-View-Enriched Normalizing Flows for Industrial Anomaly DetectionMathis Kruse, Bodo Rosenhahn. 3933-3944 [doi]

SK-RD4AD : Skip-Connected Reverse Distillation For Robust One-Class Anomaly DetectionEun-Ju Park, Taekyung Kim, Minju Kim, Hojun Lee, Gil-Jun Lee. 3945-3953 [doi]

Multi-layer Radial Basis Function Networks for Out-of-distribution DetectionAmol Khanna, Chenyi Ling, Derek Everett, Edward Raff, Nathan Inkawhich. 3954-3963 [doi]

Automated Essential Concept Discovery for Few-Shot Out-of-Distribution DetectionGuangyao Chen, Kai A. Horstmann, Zhilong Wang, Fengqi You. 3964-3974 [doi]

SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language ModelsXinyi Zhao, Congjing Zhang, Pei Guo, Wei Li, Lin Chen, Chaoyue Zhao, Shuai Huang. 3975-3985 [doi]

No-MambAAD: Revitalizing Conv-Only Networks for Unsupervised Anomaly DetectionMasud An Nur Islam Fahim, Jani Boutellier. 3986-3994 [doi]

Scene-Specific Anomalous Relationship Detection Using Scene Graph SummarizationYu-Chen Lai, Motoharu Sonogashira, Itthisak Phueaksri, Yasutomo Kawanishi. 3995-4003 [doi]

Semi-supervised Object-Wise Anomaly Detection for Firearm and Firearm Component Detection in X-ray Security ImageryYona Falinie A. Gaus, Brian K. S. Isaac-Medina, Neelanjan Bhowmik, Yam T. Lee, Toby P. Breckon. 4004-4014 [doi]

Beyond Academic Benchmarks: Critical Analysis and Best Practices for Visual Industrial Anomaly DetectionAimira Baitieva, Yacine Bouaouni, Alexandre Briot, Dick Ameln, Souhaiel Khalfaoui, Samet Akcay. 4015-4025 [doi]

PaSTe: Improving the Efficiency of Visual Anomaly Detection at the EdgeManuel Barusco, Francesco Borsatti, Davide Dalle Pezze, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto. 4026-4035 [doi]

FusedVision: A Knowledge-Infusing Approach for Practical Anomaly Detection in Real-world Surveillance VideosKhaled Dawoud, Zaigham Zaheer, Mustaqeem Khan 0001, Karthik Nandakumar, Abdulmotaleb Elsaddik, Muhammad Haris Khan. 4036-4046 [doi]

Robust AD: A Real World Benchmark Dataset For Robustness in Industrial Anomaly DetectionLatha Pemula, DongQing Zhang, Onkar Dabeer. 4047-4057 [doi]

Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language ModelsSassan Mokhtar, Arian Mousakhan, Silvio Galesso, Jawad Tayyub, Thomas Brox. 4058-4067 [doi]

When Textures Deceive: Weakly Supervised Industrial Anomaly Detection with Adapted-Loss CycleGANTapan Ganatma Nakkina, Yuhao Zhong, Pete Sumethasorn, Haopeng Tian, Satish T. S. Bukkapatnam. 4068-4077 [doi]

Cross-Modal Consistency Learning for Sign Language RecognitionKepeng Wu, Zecheng Li 0002, Weichao Zhao, Hezhen Hu, Wengang Zhou 0001, Houqiang Li. 4078-4087 [doi]

Diffusion-Based Continuous Sign Language Generation with Cluster-Specific Fine-Tuning and Motion-Adapted TransformerRazieh Rastgoo, Kourosh Kiani, Sergio Escalera. 4088-4097 [doi]

CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language RecognitionSarah N. Alyami, Hamzah Luqman. 4098-4108 [doi]

SLRTP2025 Sign Language Production Challenge: Methodology, Results and Future WorkHarry Walsh, Edward Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li 0002, Weichao Zhao, Haodong Wang, Wengang Zhou 0001, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Sümeyye Meryem Tasyürek, Tugçe Kiziltepe, Hacer Yalim Keles. 4109-4119 [doi]

Hierarchical Semantic Segmentation with Autoregressive Language ModelingJosh Myers-Dean, Brian L. Price, Yifei Fan, Danna Gurari. 4120-4130 [doi]

Prompt-Guided Attention Head Selection for Focus-Oriented Image RetrievalYuji Nozawa, Yu-Chieh Lin 0002, Kazumoto Nakamura, Youyang Ng. 4131-4141 [doi]

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural EnhancementsM. Arda Aydin, Efe Mert Çirpar, Elvin Abdinli, Gozde Unal, Yusuf Hüseyin Sahin. 4142-4152 [doi]

Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic SegmentationGabriele Rosi, Fabio Cermelli. 4153-4163 [doi]

SwarmDiff: Swarm Robotic Trajectory Planning in Cluttered Environments via Diffusion TransformerKang Ding, Chunxuan Jiao, Yunze Hu, Kangjie Zhou, Pengying Wu, Yao Mu 0001, Chang Liu 0002. 4164-4173 [doi]

Efficient Task-specific Conditional Diffusion Policies: Shortcut Model Acceleration and SO(3) OptimizationHaiyong Yu, Yanqiong Jin, Yonghao He, Wei Sui. 4174-4183 [doi]

AI Hiring with LLMs: A Context-Aware and Explainable Multi-Agent Framework for Resume ScreeningFrank P.-W. Lo, Jianing Qiu, Zeyu Wang, Haibao Yu, Yeming Chen, Gao Zhang, Benny Lo. 4184-4193 [doi]

Multi-Agent Systems for Robotic Autonomy with LLMsJunhong Chen, Ziqi Yang, Haoyuan G. Xu, Dandan Zhang, George P. Mylonas. 4194-4204 [doi]

An LLM-enabled Multi-Agent Autonomous Mechatronics Design FrameworkZeyu Wang, Frank Po Wen Lo, Qian Chen, Yongqi Zhang, Chen Lin, Xu Chen, Zhenhua Yu 0004, Alexander J. Thompson 0001, Eric M. Yeatman, Benny P. L. Lo. 4205-4215 [doi]

Deciding the Path: Leveraging Multi-Agent Systems for Solving Complex TasksIman Abbasnejad, Xuefeng Liu, Atanu Roy. 4216-4225 [doi]

LangCoop: Collaborative Driving with LanguageXiangbo Gao, Yuheng Wu, Rujia Wang, Chenxi Liu, Yang Zhou 0019, Zhengzhong Tu. 4226-4237 [doi]

LNTransformer: Lung Nodule Transformer for Sparse CT SegmentationHooman Ramezani, Charlotte Vedrines, Dionne M. Aleman, Daniel Létourneau. 4238-4245 [doi]

HCS-DFC: A Diffusion Classifier for Mode of Action Prediction Using Morphological ProfilesJakub Kosciukiewicz, Dawid Rymarczyk, Bartosz Zielinski 0001. 4246-4251 [doi]

Revolutionizing Drug Discovery: Integrating Spatial Transcriptomics with Advanced Computer Vision TechniquesZichao Li, Shiqing Qiu, Zong Ke. 4252-4258 [doi]

Towards exploring continual learning for toxicologic pathology in pharmaceutical drug discoveryArijit Patra, Jinge Wu, Honghan Wu, Anshul Thakur. 4259-4268 [doi]

Drug Discovery Agent: An Automated Vision Detection System for Drug-Cell InteractionsAdib Bazgir, Yuwen Zhang. 4269-4277 [doi]

Bridging Self-Supervision and Mechanism of Action Discovery in Morphological ProfilingSyed Sameed Husain, Jan Bober, Amaia Irizar, Miroslaw Bober. 4278-4285 [doi]

Segment AnyNeuronTaha Razzaq, Ahmed Rashid Qazi, Asim Iqbal. 4286-4293 [doi]

Bridging Morphology and Molecular Signatures: Multi-Task Deep Learning for Multi-Omics Prediction from HistopathologyFatemeh Dashti Ahangar, Jiann-shiun Yuan. 4294-4302 [doi]

CellRep: A Multichannel Image Representation Learning ModelLawrence Phillips, Rory M. Donovan-Maiye. 4303-4309 [doi]

Out-of-Distribution Segmentation in Autonomous Driving: Problems and State of the ArtYoussef Shoeb, Azarm Nowzad, Hanno Gottschalk. 4310-4320 [doi]

Improving Weather-based OOD Generalisation in Lidar-based Object Detection Models via Adversarial TrainingBen Batten, Alessio Lomuscio. 4321-4329 [doi]

Universal Shape of Strong Remote Adversarial Patches for Object Detection with Convolutional Neural NetworksKento Oonishi, Tsunato Nakai. 4330-4340 [doi]

Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video RepresentationsTharun Anand, Siva Sankar, Pravin Nair. 4341-4351 [doi]

CTC: Contribution to Classification of Complex FeaturesSophia Kalanovska, Michael Luck, Christopher Hampson. 4352-4361 [doi]

Robustness Evaluation for Video Models with Reinforcement LearningAshwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Antonio Guillen, Ricardo Luna 0001, Soumyendu Sarkar. 4362-4370 [doi]

How Much Noise is there in Labels Generated by Humans? A Method to Validate Automatically Generated Bounding BoxesMariusz Karol Nowak, Jacek Cyranka, Natalia Maslany, Aleksander Kostuch, Jakub Derbisz, Mateusz Komorkiewicz, Patryk Siwek, Mateusz Wójcik, Dariusz Marchewka, Pawel Skruch. 4371-4380 [doi]

Traffic Sign Recognition Under Visual Perturbations: Shadows, Light Patches, and Simulated ObstructionsMuneeb Ahmed Khan, Yujin Choi, Jiho Eum, Heemin Park. 4381-4390 [doi]

Out-of-Distribution Detection with Adversarial Outlier ExposureThomas Botschen, Konstantin Kirchheim, Frank Ortmeier. 4391-4400 [doi]

Uncertainty Aware Training to Improve Uncertainty Active Learning for Semantic SegmentationMoritz Thoma, Tobias Preintner, Emad Aghajanzadeh, Shambhavi Balamuthu Sampath, Pierpaolo Morì, Nael Fasfous, Manoj Rohit Vemparala, Alexander Frickenstein, Daniel Mueller-Gritschneder, Ulf Schlichtmann. 4401-4411 [doi]

A True Hyperspectral Image Super-Resolution DatasetAlexander Ulrichsen, Thomas De Kerf, David Dunphy, Paul Murray, Steve Vanlanduit, Stephen Marshall. 4412-4421 [doi]

3D Face Reconstruction From Radar ImagesValentin Braeutigam, Vanessa Wirth 0001, Ingrid Ullmann, Christian Schüßler, Martin Vossiek, Matthias Berking 0002, Bernhard Egger 0001. 4422-4431 [doi]

Fusion or Confusion? A Look at Dataset Pooling for Infrared Object DetectionStefan Becker, Ann-Kristin Grosselfinger, Jens Bayer, David Münch, Wolfgang Hübner 0001, Michael Arens. 4432-4441 [doi]

ToF-360 - A Panoramic Time-of-flight RGB-D Dataset for Single Capture Indoor Semantic 3D ReconstructionHideaki Kanayama, Mahdi Chamseddine, Suresh Guttikonda, So Okumura, Soichiro Yokota, Didier Stricker, Jason R. Rambach. 4442-4451 [doi]

RADLER: Radar Object Detection Leveraging Semantic 3D City Models and Self-Supervised Radar-Image LearningYuan Luo, Rudolf Hoffmann, Yan Xia 0003, Olaf Wysocki, Benedikt Schwab, Thomas H. Kolbe, Daniel Cremers. 4452-4461 [doi]

Aerial Infrared Health Monitoring of Solar Photovoltaic Farms at ScaleIsaac Corley, Conor Wallace, Sourav Agrawal, Burton Putrah, Jonathan Lwowski. 4462-4470 [doi]

GaussianVideo: Efficient Video Representation and Compression by Gaussian SplattingInseo Lee, Youngyoon Choi, Joonseok Lee. 4471-4480 [doi]

XiEff Representation for Interpretable Near-Field ImagingVasyl Vasylenko, Ihor Tymchyshyn, Vitalii Tymchyshyn. 4481-4489 [doi]

LangGas: Introducing Language in Selective Zero-Shot Background Subtraction for Semi-Transparent Gas Leak Detection with a New DatasetWenqi Guo, Yiyang Du, Shan Du. 4490-4500 [doi]

Define, Refine, Align: Correspondence-free 3D Line Alignment with Attentional, Equivariant and Rotational LayersAlberto Pepe, Yuxin Yao, Joan Lasenby. 4501-4511 [doi]

Enhancing Multi-modal Automatic Target Recognition using Out-of-Distribution Exploitation (MATRODE)Hongzhi Guo, Paul T. Schrader, Erik Blasch. 4512-4520 [doi]

SmallGS: Gaussian Splatting-based Camera Pose Estimation for Small-Baseline VideosYuxin Yao, Yan Zhang, Zhening Huang, Joan Lasenby. 4521-4530 [doi]

S-Band SAR Target Classification via 2D and 3D Deep Learning MethodsTyler Rust, Michael Pergeorelis, Chandra Kambhamettu, Colin Kelly. 4531-4539 [doi]

A Strong Baseline for Multi-Person Tracking in Thermal Infrared ImageryDaniel Stadler, Andreas Specker. 4540-4550 [doi]

UPPET: Unified Pedestrian Pose Estimation in Thermal ImagingMickael Cormier, Andreas Specker, Jürgen Beyerer. 4551-4560 [doi]

Multi-Spectral Imaging and Data Fusion for Real-Time Bleeding DetectionGhazal Rouhafzay, Stephen Rowlands, Angel J. Valencia, Shengsong Yang, Pierre Payeur, Haitao Tian, James Dickens. 4561-4568 [doi]

Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDFAnirudh Nanduri, Siyuan Huang, Rama Chellappa. 4569-4577 [doi]

SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision SystemsManjunath D, Aniruddh Sikdar, Prajwal Gurunath, Sumanth Udupa, Suresh Sundaram 0002. 4578-4588 [doi]

SwinPaste: A Swin Transformer-Based Framework for RGB-Guided Thermal Image Super-ResolutionHang Zhong, Yu Wang, Shengjie Zhao. 4589-4594 [doi]

Open Dataset and Enhancement Method for Long-wave Thermal Diurnal Material ClassificationMichael Pergeorelis, Tyler Rust, Chandra Kambhamettu. 4595-4601 [doi]

Thermal Pedestrian Multiple Object Tracking Challenge (TP-MOT)Wassim A. El Ahmar, Ángel D. Sappa, Riad I. Hammoud. 4602-4609 [doi]

Dual-Input Frequency-Aware Network for High-Quality Thermal Image Super-ResolutionPriya Kansal, Sabari Nathan. 4610-4620 [doi]

Thermal Image Super-Resolution Challenge Results - PBVS 2025Rafael E. Rivadeneira, Ángel D. Sappa, Riad I. Hammoud, Jiyong Rao, Hang Zhong, Yu Wang, Shengjie Zhao, Zhiwei Zhong, Yung-hui Li, Shiqi Wang 0001, Qiangqiang Shen, Hanzhang Wang, Xuanqi Zhang. 4621-4630 [doi]

4th Multi-modal Aerial View Image Challenge: SAR Classification - PBVS 2025Nathan Inkawhich, Claire Thorp, Justice Wheelwright, Oliver Nina, Dylan Bowald, Ángel D. Sappa, Erik Blasch. 4631-4639 [doi]

3rd Multi-modal Aerial View Image Challenge: Sensor Domain Translation - PBVS 2025Dylan Bowald, Justice Wheelwright, Oliver Nina, Ángel D. Sappa, Riad I. Hammoud, Erik Blasch, Nathan Inkawhich. 4640-4649 [doi]

Probabilistic Perspective-n-lines for Indoor Camera Pose EstimationXiaowei Chen 0005, Guoliang Fan 0001. 4650-4659 [doi]

CSRN: Cross-Sensor Robust Recognition Network for Multi-modal Aerial View Object ClassificationHongli Liu, Wang Yu, Shengjie Zhao. 4660-4666 [doi]

Fast Sphericity and Roundness approximation in 2D and 3D using Local ThicknessPawel Tomasz Pieta, Peter Winkel Rasmussen, Anders Bjorholm Dahl, Anders Nymark Christensen. 4667-4677 [doi]

SAM4EM: Efficient memory-based two stage prompt-free segment anything model adapter for complex 3D neuroscience electron microscopy stacksUzair Shah, Marco Agus, Daniya Boges, Vanessa Chiappini, Mahmood Alzubaidi, Jens Schneider 0002, Markus Hadwiger, Pierre J. Magistretti, Mowafa S. Househ, Corrado Calì. 4678-4687 [doi]

Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training ImagesTristan Piater, Björn Barz, Alexander Freytag. 4688-4698 [doi]

A Novel 3D Decoder with Weighted and Learnable Triple Attention for 3D Microscopy Image SegmentationSiyavash Shabani, Sahar A. Mohammed, Bahram Parvin. 4699-4708 [doi]

Generalizable Unsupervised Microscopy Video Denoising via Weighted SpatioTemporal SamplingMary Damilola Aiyetigbo, Wanqi Yuan, Feng Luo 0001, Xin Li, Tong Ye, Nianyi Li. 4709-4718 [doi]

Zero-Shot Denoising for Fluorescence Lifetime Imaging Microscopy with Intensity-Guided LearningHao Chen, Julian Najera, Dagmawit Geresu, Meenal Datta, Cody J. Smith, Scott S. Howard. 4719-4728 [doi]

Low-Frame-Rate Cell Tracking: Unmet Needs and Future DirectionsMina Gachloo, Akhila Nangineedi, Mahsa Partovi, Fardifa Fathmiul Alam, Tzu-Yu Chu, James Schvaneveldt, Xiaoming Lu, Tirthankar Biswas, Marc R. Birtwistle, Federico Iuricich. 4729-4738 [doi]

IAUNet: Instance-Aware U-NetYaroslav Prytula, Illia Tsiporenko, Ali Zeynalli, Dmytro Fishman. 4739-4748 [doi]

CytoFM: The first cytology foundation modelVedrana Ivezic, Ashwath Radhachandran, Ekaterina Redekop, Shreeram Athreya, Dongwoo Lee, Vivek Sant, Corey W. Arnold, William Speier. 4749-4757 [doi]

Beyond Neurofibrillary Tangles: Explainable AI for Microscopic Tauopathy Classification in Immunofluorescence ImagingJesus Dassaef López-Barrios, Miguel Angel Ontiveros-Torres, Jose Antonio Cantoral-Ceballos. 4758-4768 [doi]

V3LMA: Visual 3D-enhanced Language Model for Autonomous DrivingJannik Lübberstedt, Esteban Rivera, Nico Uhlemann, Markus Lienkamp. 4769-4778 [doi]

Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous VehiclesTonko E. W. Bossen, Andreas Møgelmose, Ross Greer. 4779-4788 [doi]

Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic SegmentationJohannes Spöcklberger, Wei Lin 0019, Pedro Hermosilla, Sivan Doveh, Horst Possegger, Muhammad Jehanzeb Mirza. 4789-4798 [doi]

Disentangling Polysemantic Channels in Convolutional Neural NetworksRobin Hesse, Jonas Fischer, Simone Schaub-Meyer, Stefan Roth 0001. 4799-4803 [doi]

Naturally Computed Scale Invariance in the Residual Stream of ResNet18André Longon. 4804-4808 [doi]

Uncovering Branch-specialization in InceptionV1 using k sparse autoencodersMatthew Bozoukov. 4809-4813 [doi]

Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation LearningAshim Dahal, Saydul Akbar Murad, Nick Rahimi. 4814-4818 [doi]

Decoding Vision Transformers: the Diffusion Steering LensRyota Takatsuki, Sonia Joseph, Ippei Fujisawa, Ryota Kanai. 4819-4824 [doi]

Visualizing and Controlling Cortical Responses Using Voxel-Weighted Activation MaximizationMatthew W. Shinkle, Mark D. Lescroart. 4825-4829 [doi]

Wavelet-Based Mechanistic Interpretability of Vision Transformers via Frequency-Aware AblationsSophia J. Abraham, Jonathan D. Hauenstein, Walter J. Scheirer. 4830-4834 [doi]

Analyzing Hierarchical Structure in Vision Models with Sparse AutoencodersMatthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng. 4835-4839 [doi]

Leveraging Vision-Language Foundation Models to Reveal Hidden Image-Attribute Relationships in Medical ImagingAmar Kumar, Anita Kriz, Barak Pertzov, Tal Arbel. 4840-4845 [doi]

Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image GenerationZahra Tehraninasab, Amar Kumar, Tal Arbel. 4846-4851 [doi]

Investigating Mechanisms for In-Context Vision Language BindingDarshana Saravanan, Makarand Tapaswi, Vineet Gandhi. 4852-4856 [doi]

Probabilistic Online Event DownsamplingAndreu Girbau Xalabarder, Jun Nagata, Shinichi Sumiyoshi. 4857-4865 [doi]

Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view RGB and Event StreamsViktor Rudnev, Gereon Fox, Mohamed Elgharib, Christian Theobalt, Vladislav Golyanik. 4866-4876 [doi]

E-VLC: A Real-World Dataset for Event-based Visible Light Communication And LocalizationShintaro Shiba, Quan Kong, Norimasa Kobori. 4877-4886 [doi]

Augmented Reality Applications Using Active Markers With An Event CameraShintaro Shiba, Quan Kong, Norimasa Kobori. 4887-4888 [doi]

Quadrocular, Neuromorphic Stereo Triangulation and Asynchronous Data Fusion for 3D Object TrackingJonah Sengupta. 4889-4897 [doi]

DELTA: Dense Depth from Events and LiDAR using Transformer's AttentionVincent Brebion, Julien Moreau 0001, Franck Davoine. 4898-4907 [doi]

Best Linear Unbiased Estimation for 2D and 3D Flow with Event-based CamerasJuan Luis Valerdi, Xabier Iturbe. 4908-4917 [doi]

Iterative Event-based Motion Segmentation by Variational Contrast MaximizationRyo Yamaki, Shintaro Shiba, Guillermo Gallego 0002, Yoshimitsu Aoki. 4918-4927 [doi]

Nanoparticle Diameter Measurements With Event Camera TrackingMichael C. Daugherty, Matthew DiSalvo, Aaron Goldfain, Alexander Peterson, Edward Kwee, Thomas Germer, Gregory Cooksey, Jagat Budhathoki, Peter Bajcsy. 4928-4937 [doi]

Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-DronePietro Bonazzi, Christian Vogt 0002, Michael Jost 0003, Lyes Khacef, Federico Paredes-Vallés, Michele Magno. 4938-4946 [doi]

EV-Flying: an Event-based Dataset for In-The-Wild Recognition of Flying ObjectsGabriele Magrini, Federico Becattini, Giovanni Colombo, Pietro Pala. 4947-4955 [doi]

Demo : Point-Feature Tracking for Pixel Processor ArraysLaurie Bose, Piotr Dudek. 4956-4957 [doi]

Real-Time Pedestrian Detection at the Edge on a Fully Asynchronous Neuromorphic SystemHugo Bulzomi, Alimatou Sadia Memudu, Yuta Nakano, Jean Martinet. 4958-4967 [doi]

Event-based Continuous Color Video Decompression from Single FramesZiyun Wang 0001, Friedhelm Hamann, Kenneth Chaney, Wen Jiang 0008, Guillermo Gallego 0002, Kostas Daniilidis. 4968-4978 [doi]

Looking into the Shadow: Recording a Total Solar Eclipse with High-resolution Event CamerasFernando Cladera, Kenneth Chaney, Caroline Pritchard, M. Ani Hsieh, Vijay Kumar 0001, Camillo J. Taylor, Kostas Daniilidis. 4979-4983 [doi]

Seeing like a Cephalopod: Colour Vision with a Monochrome Event CameraSami Arja, Nimrod Kruger, Alexandre Marcireau, Nicholas Owen Ralph, Saeed Afshar, Gregory Cohen. 4984-4993 [doi]

BiasBench: A reproducible benchmark for tuning the biases of event camerasAndreas Ziegler 0006, David Joseph, Thomas Gossard, Emil Moldovan, Andreas Zell. 4994-5003 [doi]

Human-Robot Navigation using Event-based Cameras and Reinforcement LearningIgnacio G. Bugueño-Córdova, Javier Ruiz-del-Solar, Rodrigo Verschae. 5004-5012 [doi]

E-BARF: Bundle Adjusting Neural Radiance Fields from a Moving Event CameraZhipeng Tang, Shifan Zhu, Zezhou Cheng, Donghyun Kim 0002, Erik G. Learned-Miller. 5013-5022 [doi]

Live Demonstration: NeuroTouch - A Neuromorphic Vision-based Tactile Sensor for Real-Time Gesture RecognitionVictor Hoffmann, Valentina Cavinato, Kirk Y. W. Scheper. 5023-5024 [doi]

Egocentric Event-Based Vision for Ping Pong Ball Trajectory PredictionIvan Alberico, Marco Cannici, Giovanni Cioffi, Davide Scaramuzza 0001. 5025-5034 [doi]

Reading in the Dark with Foveated Event VisionCarl Brander, Giovanni Cioffi, Nico Messikommer, Davide Scaramuzza 0001. 5035-5043 [doi]

Making Every Event Count: Balancing Data Efficiency and Accuracy in Event Camera SubsamplingHesam Araghi, Jan van Gemert, Nergis Tomen. 5044-5054 [doi]

Event-Driven Dynamic Attention for Multi-Object Tracking on Neuromorphic HardwareMuhammad Aitsam, Sergio Davies, Alessandro G. Di Nuovo. 5055-5062 [doi]

MTevent: A Multi-Task Event Camera Dataset for 6D Pose Estimation and Moving Object DetectionShrutarv Awasthi, Anas Gouda, Sven Franke, Jérôme Rutinowski, Frank Hoffmann, Moritz Roidl. 5063-5071 [doi]

Perturbed State Space Feature Encoders for Optical Flow with Event CamerasGokul Raju Govinda Raju, Nikola Zubic, Marco Cannici, Davide Scaramuzza 0001. 5072-5081 [doi]

Spatio-Temporal State Space Model For Efficient Event-Based Optical FlowMuhammad Ahmed Humais, Xiaoqian Huang, Hussain M. Sajwani, Sajid Javed, Yahya H. Zweiri. 5082-5091 [doi]

Learning from Noise: Enhancing DNNs for Event-Based Vision through Controlled Noise InjectionMarcin Kowalczyk, Kamil Jeziorek, Tomasz Kryjak. 5092-5102 [doi]

Live Demonstration: Real-time event-data processing with Graph Convolutional Neural Networks and SoC FPGAPiotr Wzorek, Krzysztof Blachut, Kamil Jeziorek, Tomasz Kryjak. 5103-5104 [doi]

Event Quality Score (EQS): Assessing the Realism of Simulated Event Camera Streams via Distance in Latent SpaceKaustav Chanda, Aayush Atul Verma, Arpitsinh Vaghela, Yezhou Yang, Bharatesh Chakravarthi. 5105-5113 [doi]

Event-based Tracking and Imaging of Randomly Moving Objects in Dense Dynamical Scattering MediaNing Zhang, Timothy Shea, Arto V. Nurmikko. 5114-5125 [doi]

EV-LayerSegNet: Self-supervised Motion Segmentation using Event CamerasYoussef Farah, Federico Paredes-Vallés, Guido de Croon, Muhammad Ahmed Humais, Hussain M. Sajwani, Yahya H. Zweiri. 5126-5135 [doi]

BRAT: Bidirectional Relative Positional Attention Transformer for Event-based Eye trackingYuliang Wu, Han Han, Jinze Chen, Wei Zhai, Yang Cao 0010, Zhengjun Zha. 5136-5144 [doi]

Exploring Temporal Dynamics in Event-based Eye TrackerHongxiang Huang, Xiaopeng Lin, Hongwei Ren, Yue Zhou, Bojun Cheng. 5145-5154 [doi]

Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal ModelingHoang M. Truong, Vinh-Thuan Ly, Huy G. Tran, Thuan-Phat Nguyen, Tram T. Doan. 5155-5163 [doi]

Event-based eye tracking. Even-based Vision Workshop 2025Qinyu Chen, Chang Gao 0002, Min Liu, Daniele Perrone, Yan Ru Pei, Zuowen Wang, Zhuo Zou, Shihang Tan, Tao Han, Guorui Lu, Zhen Xu, Junyuan Ding, Ziteng Wang, Zongwei Wu, Han Han, Yuliang Wu, Jinze Chen, Wei Zhai, Yang Cao 0010, Zhengjun Zha, Nuwan Bandara, Thivya Kandappu, Archan Misra, Xiaopeng Lin, Hongxiang Huang, Hongwei Ren, Bojun Cheng, Hoang M. Truong, Vinh-Thuan Ly, Huy G. Tran, Thuan-Phat Nguyen, Tram T. Doan. 5164-5176 [doi]

CACP: Context-Aware Copy-Paste to Enrich Image Content for Data AugmentationQiushi Guo, Shaoxiang Wang, Chun-Peng Chang, Jason R. Rambach. 5177-5186 [doi]

Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical DataEkaterina Redekop, Mara Pleasure, Vedrana Ivezic, Zichen Wang, Kimberly Flores, Anthony Sisk, William Speier, Corey W. Arnold. 5187-5195 [doi]

Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language ModelsYuxiang Lin, Jingdong Sun, Zhi-Qi Cheng, Jue Wang, Haomin Liang, Zebang Cheng, Yifei Dong, Jun-Yan He, Xiaojiang Peng, Xian-Sheng Hua 0001. 5196-5206 [doi]

Enforcing View-Consistency in Class-Agnostic 3D Segmentation FieldsCorentin Dumery, Aoxiang Fan, Ren Li, Nicolas Talabot, Pascal Fua. 5207-5216 [doi]

DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian SplattingLuis Wiedmann, Luca Wiehe, Dávid Rozenberszki. 5217-5226 [doi]

Segment Any Primitive: Zero-Shot 3D Primitive Segmentation from Point CloudYushan Bai, Shaohu Wang, Rongtao Xu, Yuchuang Tong, Chaoran Xu, Zhengtao Zhang. 5227-5235 [doi]

ForesightNav: Learning Scene Imagination for Efficient ExplorationHardik Shah, Jiaxu Xing, Nico Messikommer, Boyang Sun, Marc Pollefeys, Davide Scaramuzza 0001. 5236-5245 [doi]

OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian SplattingJens Piekenbrinck, Christian Schmidt 0029, Alexander Hermans, Narunas Vaskevicius, Timm Linder, Bastian Leibe. 5246-5255 [doi]

HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph ClusteringAlexander Rusnak, Frédéric Kaplan. 5256-5265 [doi]

ECO-AI - Energy-Conscious Optimization for AI TrainingJános Horváth. 5266-5270 [doi]

Dynamic watermarks in images generated by diffusion modelsYunzhuo Chen, Jordan Vice, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian. 5271-5277 [doi]

Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVANahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Shayakh Islam. 5278-5282 [doi]

SRVP: Strong Recollection Video Prediction Model Using Attention-Based Spatiotemporal Correlation FusionYuseon Kim, Kyongseok Park. 5283-5292 [doi]

PRIMEDrive-CoT: A Precognitive Chain-of-Thought Framework for Uncertainty-Aware Object Interaction in Driving Scene ScenarioSriram Mandalika, Lalitha V, Athira Nambiar. 5293-5301 [doi]

BIMA: Bijective Maximum Likelihood Learning Approach to Hallucination Prediction and Mitigation in Large Vision-Language ModelsHuu-Thien Tran, Thanh-Dat Truong, Khoa Luu. 5302-5311 [doi]

IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation SchemeQuan Tran, Hoang-Thien Nguyen, Thanh Huy Nguyen, Gia-Van To, Tien-Huy Nguyen, Quan Nguyen. 5312-5321 [doi]

HDC: Hierarchical Distillation for Multi-level Noisy Consistency in Semi-Supervised Fetal Ultrasound SegmentationTran Quoc Khanh Le, Nguyen Lan Vi Vu, Ha-Hieu Pham, Xuan-Loc Huynh, Tien-Huy Nguyen, Minh Huu Nhat Le, Quan Nguyen, Hien D. Nguyen. 5322-5331 [doi]

Few-Shot Adaptation of Grounding DINO for Agricultural DomainRajhans Singh, Rafael Bidese-Puhl, Kshitiz Dhakal, Sudhir Sornapudi. 5332-5342 [doi]

Vit4V: a Video Classification Method for the Detection of Varroa Destructor from HoneybeesLuca Giovannesi, Paolo Russo 0001, Roberto Beraldi. 5343-5351 [doi]

Multiple Instance Learning for Visual Grain Quality Analysis Without Instance-level AnnotationBradley Ezard, Ling Li 0006, Senjian An. 5352-5359 [doi]

Wheat3DGS: In-field 3D Reconstruction, Instance Segmentation and Phenotyping of Wheat Heads with Gaussian SplattingDaiwei Zhang, Joaquin Gajardo, Tomislav Medic, Isinsu Katircioglu, Mike Boss, Norbert Kirchgeßner, Achim Walter, Lukas Roth. 5360-5370 [doi]

PhytoSynth: Leveraging Multi-modal Generative Model for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering ApproachNitin Rai, Arnold W. Schumann, Nathan Boyd. 5371-5380 [doi]

A Dataset for Semantic and Instance Segmentation of Modern Fruit OrchardsTieqiao Wang, Abhinav Jain, Liqiang He, Cindy Grimm, Sinisa Todorovic. 5381-5391 [doi]

AGILE: A Diffusion-Based Attention-Guided Image and Label Translation for Efficient Cross-Domain Plant Trait IdentificationEarl Ranario, Lars Lundqvist, Heesup Yun, Brian N. Bailey, J. Mason Earles. 5392-5401 [doi]

Maize ear sensing for on-farm yield predictionsPedro Cisdeli, Gustavo Nocera Santiago, German Mandrini, Ignacio Antonio Ciampitti. 5402-5411 [doi]

A Semi-Self-Supervised Approach for Dense-Pattern Video Object SegmentationKeyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness. 5412-5421 [doi]

MaskAdapt: Unsupervised Geometry-Aware Domain Adaptation Using Multimodal Contextual Learning and RGB-Depth MaskingNumair Nadeem, Muhammad Hamza Asad, Saeed Anwar, Abdul Bais. 5422-5432 [doi]

SemanticSugarBeets: A Multi-Task Framework and Dataset for Inspecting Harvest and Storage Characteristics of Sugar BeetsGerardus Croonen, Andreas Trondl, Julia Simon, Daniel Steininger. 5433-5442 [doi]

AppleGrowthVision: A large-scale stereo dataset for phenological analysis, fruit detection, and 3D reconstruction in apple orchardsLaura von Hirschhausen, Jannes S. Magnusson, Mykyta Kovalenko, Fredrik Boye, Tanay Rawat, Peter Eisert, Anna Hilsmann, Sebastian Pretzsch, Sebastian Bosse. 5443-5450 [doi]

Effectiveness of Training with Procedurally Generated Synthetic Images of Crop PlantsNazifa Azam Khan, Mikolaj Cieslak, Mark G. Eramian, Ian McQuillan. 5451-5461 [doi]

Weakly Supervised Panoptic Segmentation for Defect-Based Grading of Fresh ProduceManuel Knott 0001, Divinefavour Odion, Sameer Sontakke, Anup Karwa, Thijs Defraeye. 5462-5471 [doi]

SC-NeRF: NeRF-based Point Cloud Reconstruction using a Stationary Camera for Agricultural ApplicationsKibon Ku, Talukder Z. Jubery, Elijah Rodriguez, Aditya Balu, Soumik Sarkar, Adarsh Krishnamurthy, Baskar Ganapathysubramanian. 5472-5481 [doi]

Maximizing aerial detection of organic objects in non-exhaustively searchable survey areaAmir Ehsan Niaraki Asli, Jansel Herrera-Gerena, Jeremy Roghair, Ali Jannesari. 5482-5490 [doi]

California Crop Yield Benchmark: Combining Satellite Image, Climate, Evapotranspiration, and Soil Data Layers for County-Level Yield Forecasting of Over 70 CropsHamid Kamangir, Mona Hajiesmaeeli, J. Mason Earles. 5491-5500 [doi]

iNatAg: Multi-Class Classification Models Enabled by a Large-Scale Benchmark Dataset with 4.7M Images of 2, 959 Crop and Weed SpeciesNaitik Jain, Amogh Joshi 0004, Mason Earles. 5501-5510 [doi]

Agri-FM+: A Self-Supervised Foundation Model for Agricultural VisionMd Jaber Al Nahian, Tapotosh Ghosh, Farnaz Sheikhi, Farhad Maleki. 5511-5523 [doi]

SoyStageNet: Balancing Accuracy and Efficiency for Real-Time Soybean Growth Stage DetectionAbdellah Lakhssassi, Toqi Tahamid Sarker, Khaled R. Ahmed, Naoufal Lakhssassi, Khalid Meksem. 5524-5533 [doi]

An Efficient and Scalable Framework for Lightweight Crop Disease Recognition in Low-Resource SettingsTushar Shinde. 5534-5541 [doi]

Learning Pose-aware Representations in Vision Transformers for Understanding Activities of Daily LivingDominick Reilly, Srijita Das 0001, Srijan Das. 5542-5551 [doi]

Decoupling Identity Confounders for Enhanced Facial Expression Recognition: An Information-Theoretic ApproachMohd Aquib, Nishchal K. Verma, M. Jaleel Akhtar. 5552-5561 [doi]

Leveraging Synthetic Adult Datasets for Unsupervised Infant Pose EstimationSarosij Bose, Hannah Dela Cruz, Arindam Dutta, Elena Kokkoni, Konstantinos Karydis, Amit K. Roy Chowdhury. 5562-5571 [doi]

Advancements in Affective and Behavior Analysis: The 8th ABAW Workshop and CompetitionDimitrios Kollias, Panagiotis Tzirakis, Alan Cowen, Stefanos Zafeiriou, Irene Kotsia, Eric Granger, Marco Pedersoli, Simon Bacon, Alice Baird, Chris Gagne 0001, Chunchang Shao, Guanyu Hu, Soufiane Belharbi, Muhammad Haseeb Aslam. 5572-5583 [doi]

Face Reconstruction from Face Embeddings using Adapter to a Face Foundation ModelHatef Otroshi-Shahreza, Anjith George, Sébastien Marcel. 5584-5593 [doi]

DAF: Distillation, Augmentation and Filtering based Framework for Efficient Smartphone Human Activity RecognitionUjjal Kr Dutta, Guan-Ming Su. 5594-5602 [doi]

Is Multi-Person Gait Recognition Feasible under Mutual Occlusion? A Human Model Regression-based ApproachZiruo Li, Chi Xu 0003, Xiang Li 0028, Shuqiong Wu, Yasushi Yagi. 5603-5613 [doi]

Advancing Facial Age Progression for Occluded FacesAnkit Birla, Akshay Agarwal 0001. 5614-5622 [doi]

VRU-CIPI: Crossing Intention Prediction at Intersections for Improving Vulnerable Road Users SafetyAhmed S. Abdelrahman, Mohamed A. Abdel-Aty, Quoc Dai Tran. 5623-5632 [doi]

EmoVLM-KD: Fusing Distilled Expertise with Vision-Language Models for Visual Emotion AnalysisSangeun Lee, Yubeen Lee, Eunil Park. 5633-5642 [doi]

V-NAW: Video-based Noise-aware Adaptive Weighting for Facial Expression RecognitionJungyu Lee, Kunyoung Lee, Haesol Park, Ig-Jae Kim, Gi Pyo Nam. 5643-5650 [doi]

Mamba-VA: A Mamba-based Approach for Continuous Emotion Recognition in Valence-Arousal SpaceYuheng Liang, Zheyu Wang, Feng Liu, Mingzhou Liu, Yu Yao. 5651-5656 [doi]

Datasets for Valence and Arousal Inference: A SurveyHelen Schneider, Svetlana Pavlitska, Helen Gremmelmaier, Marius Zöllner 0001. 5657-5664 [doi]

Enhancing Facial Expression Recognition with LSTM through Dual-Direction Attention Mixed Feature Networks and CLIPJosep Cabacas-Maso, Elena Ortega Beltrán, Ismael Benito-Altamirano, Carles Ventura. 5665-5671 [doi]

Read My Ears! Horse Ear Movement Detection for Equine Affective State AssessmentJoão Alves, Pia Haubro Andersen, Rikke Gade. 5672-5680 [doi]

Multimodal Emotion Prediction in Interpersonal Videos Integrating Facial and Speech CuesHajer Guerdelli, Claudio Ferrari, Stefano Berretti, Alberto Del Bimbo. 5681-5690 [doi]

MMDrive: Multi-modal Remote Physiological Signal Measurement Dataset for Driver Status MonitoringJiho Choi, Sang-Jun Lee. 5691-5698 [doi]

Interactive Multimodal Framework with Temporal Modeling for Emotion RecognitionJun Yu 0001, Yongqi Wang, Lei Wang 0203, Yang Zheng, Shengfan Xu. 5699-5706 [doi]

Cross-Modal Facial Expression Recognition with Global Channel-Spatial Attention: Modal Enhancement and Proportional Criterion FusionJun Yu 0001, Yang Zheng, Lei Wang 0203, Yongqi Wang, Shengfan Xu. 5707-5714 [doi]

Semantic Matters: Multimodal Features for Affective AnalysisTobias Hallmen, Robin-Nico Kampa, Fabian Deuser, Norbert Oswald, Elisabeth André. 5715-5724 [doi]

Towards Robust Multimodal AU Detection: STN-Enhanced Visual Encoding and Audio-Visual Spatial-Temporal AlignmentJun Yu 0001, Yunxiang Zhang, Fengzhao Sun, LeiLei Wang, Renjie Lu, Lingsi Zhu, Xilong Lu, Yang Zheng, Yongqi Wang. 5725-5732 [doi]

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity EstimationJun Yu 0001, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zhen, Yongqi Wang, Xilong Lu. 5733-5740 [doi]

United we stand, Divided we fall: Handling Weak Complementarity for Audio-Visual Emotion Recognition in Valence-Arousal SpaceGnana Praveen Rajasekhar, Jahangir Alam 0001, Eric Charton. 5741-5751 [doi]

Shopformer: Transformer-Based Framework for Detecting Shoplifting via Human PoseNarges Rashvand, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Babak Rahimi Ardabili, Hamed Tabkhi. 5752-5761 [doi]

Neighbor-Based Feature and Index Enhancement for Person Re-IdentificationChao Yuan, Tianyi Zhang, Guanglin Niu. 5762-5769 [doi]

Robust Stage-Wise LVLM Adaptation: Multi-Phase Prompt Lora Fine-tuning for Compound Expression RecognitionXilong Lu, Jun Yu 0001, Yunxiang Zhang, Lingsi Zhu, Yang Zheng, Yongqi Wang, Qiang Ling 0001. 5770-5777 [doi]

Leveraging Lightweight Facial Models and Textual Modality in Audio-visual Emotional Understanding in-the-WildAndrey V. Savchenko, Lyudmila V. Savchenko. 5778-5788 [doi]

MAVEN: Multi-modal Attention for Valence-Arousal Emotion NetworkVrushank Ahire, Kunal Shah, Mudasir Nazir Khan, Nikhil Pakhale, Lownish Rai Sookha, Mudasir Ahmad Ganaie, Abhinav Dhall. 5789-5799 [doi]

Selective Test-time Domain Adaptation Using Fisher Information for Robust Facial Expression Recognition In-the-wildMohammadmahdi Honarmand, Onur Cezmi Mutlu, Parnian Azizian, Saimourya Surabhi, Dennis P. Wall. 5800-5810 [doi]

Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement TaskAviral Chharia, Tianyu Ren, Tomotake Furuhata, Kenji Shimada. 5811-5820 [doi]

TT3D: Table Tennis 3D ReconstructionThomas Gossard, Andreas Ziegler 0006, Andreas Zell. 5821-5831 [doi]

Multi-person Physics-based Pose Estimation for Combat SportsHossein Feizollah Zadeh Khoiee, David R. Labbé, Thomas Romeas, Jocelyn Faubert, Sheldon Andrews. 5832-5841 [doi]

Towards Ball Spin and Trajectory Analysis in Table Tennis Broadcast Videos via Physically Grounded Synthetic-to-Real TransferDaniel Kienzle, Robin Schön, Rainer Lienhart, Shin'ichi Satoh 0001. 5842-5851 [doi]

Efficient 2D to Full 3D Human Pose Uplifting including Joint RotationsKatja Ludwig, Yuliia Oksymets, Robin Schön, Daniel Kienzle, Rainer Lienhart. 5852-5861 [doi]

VNL-STES: A Benchmark Dataset and Model for Spatiotemporal Event Spotting in Volleyball AnalyticsHoang Quoc Nguyen, Ankhzaya Jamsrandorj, Vanyi Chao, Yin May Oo, Muhammad Amrulloh Robbani, Kyung-Ryoul Mun, Jinwook Kim. 5862-5871 [doi]

Leveraging Anthropometric Measurements to Improve Human Mesh Estimation and Ensure Consistent Body ShapesKatja Ludwig, Julian Lorenz, Daniel Kienzle, Tuan Bui, Rainer Lienhart. 5872-5881 [doi]

An End-to-End Pipeline for Virtual Banner Replacement in Football BroadcastsVictor Gaspar, Anthony Cioppa, Jan Held, Silvio Giancola, Marc Braham, Adrien Deliège, Bernard Ghanem, Marc Van Droogenbroeck. 5882-5893 [doi]

FieldMOT: A Field-Registered Multi-Object Tracking for Sports VideosHong-Qi Chen, Chao-Chi Liao, Yuan-Heng Sun, Cheng-Kuan Lin, Yu-Chee Tseng. 5894-5904 [doi]

From Beats to Scores: A Multi-Modal Framework for Comprehensive Figure Skating AssessmentFengshun Wang, Qiurui Wang, Dan Chen. 5905-5914 [doi]

Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview ConsistencyChristian Keilstrup Ingwersen, Rasmus Tirsgaard, Rasmus Nylander, Janus Nørtoft Jensen, Anders Bjorholm Dahl, Morten Rieger Hannemose. 5915-5925 [doi]

Virtual Pose Coach: A Motion-Retargeting Approach for Pose TrainingTzu-Chun Chiu, Ming-Han Lee, Kun-Ru Wu, Yu-Shuen Wang, Yu-Chee Tseng. 5926-5934 [doi]

Jump-Aware: Player Position Rectification and Identification in Dynamic Sports Using Jump Event SpottingYin May Oo, Ankhzaya Jamsrandorj, Vanyi Chao, Hoang Quoc Nguyen, Yewon Hwang, Kyung-Ryoul Mun, Jinwook Kim. 5935-5944 [doi]

AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic MovementsCalvin Yeung 0001, Tomohiro Suzuki, Ryota Tanaka, Zhuoer Yin, Keisuke Fujii 0001. 5945-5956 [doi]

Towards fine-grained spatial control for soccer game image generationAmadou S. Sangare, Adrien Maglo, Baptiste Engel, Mohamed Chaouch. 5957-5966 [doi]

Skor-xG: SKeleton-ORiented Expected Goal Estimation in SoccerYizhou Xu, Lars Bretzner, Tiesheng Wang, Atsuto Maki. 5967-5977 [doi]

SoccerNet-v3D: Leveraging Sports Broadcast Replays for 3D Scene UnderstandingMarc Gutiérrez-Pérez, Antonio Agudo. 5978-5987 [doi]

CaddieSet: A Golf Swing Dataset with Human Joint Features and Ball InformationSeunghyeon Jung, Seoyoung Hong, Jiwoo Jeong, Seungwon Jeong, Jaerim Choi, Hoki Kim, Woojin Lee. 5988-5996 [doi]

Sport Field Calibration with NeRF-guided Camera Optimization from a Single ImageLiang Fan, Xiaoqian Liu, Malcolm Roberts. 5997-6006 [doi]

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting TransformersLorenza Prospero, Abdullah Hamdi, João F. Henriques, Christian Rupprecht 0001. 6007-6017 [doi]

FineCausal: A Causal-Based Framework for Interpretable Fine-Grained Action Quality AssessmentRuisheng Han, Kanglei Zhou, Amir Atapour Abarghouei, Xiaohui Liang, Hubert P. H. Shum. 6018-6027 [doi]

From Broadcast to Minimap: Achieving State-of-the-Art SoccerNet Game State ReconstructionVladimir Golovkin, Nikolay Nemtsev, Vasyl Shandyba, Oleg Udin, Nikita Kasatkin, Pavel Kononov, Anton Afanasiev, Sergey Ulasen, Andrei Boiarov. 6028-6038 [doi]

No Train Yet Gain: Towards Generic Multi-Object Tracking in Sports and BeyondTomasz Stanczyk, Seongro Yoon, François Brémond. 6039-6048 [doi]

Human Mesh Reconstruction of Sports Players with Multiple Dynamic CamerasYamato Hokari, Ryosuke Hori, Hideo Saito. 6049-6059 [doi]

Ice Hockey Puck Localization Using Contextual CuesLiam Salass, Jerrin Bright, Amir Nazemi, Yuhao Chen 0001, John S. Zelek, David A. Clausi. 6060-6069 [doi]

Can Geometry Save Central Views for Sports Field Registration?Floriane Magera, Thomas Hoyoux, Martin Castin, Olivier Barnich, Anthony Cioppa, Marc Van Droogenbroeck. 6070-6079 [doi]

Action Anticipation from SoccerNet Football Video BroadcastsMohamad Dalal, Artur Xarles, Anthony Cioppa, Silvio Giancola, Marc Van Droogenbroeck, Bernard Ghanem, Albert Clapés, Sergio Escalera, Thomas B. Moeslund. 6080-6091 [doi]

Pose-to-Pose: A New Task and Benchmark for Human Pose Transition in YogaBhat Dittakavi, Swarnim Maheshwari, Vineeth N. Balasubramanian. 6092-6101 [doi]

Single-Stage Uncertainty-Aware Jersey Number Recognition in SoccerLukasz Grad. 6102-6110 [doi]

Domain Adaptation of VLM for Soccer Video UnderstandingTiancheng Jiang, Henry Wang, Md Sirajus Salekin, Parmida Atighehchian, Shinan Zhang. 6111-6121 [doi]

Where Is The Ball: 3D Ball Trajectory Estimation From 2D Monocular TrackingPuntawat Ponglertnapakorn, Supasorn Suwajanakorn. 6122-6131 [doi]

Action Valuation in Sports: A SurveyArtur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés. 6132-6142 [doi]

SportMamba: Adaptive Non-Linear Multi-Object Tracking with State Space Models for Team SportsDheeraj Khanna, Jerrin Bright, Yuhao Chen 0001, John S. Zelek. 6143-6153 [doi]

Polar Coordinate-Based 2D Pose Prior with Neural Distance FieldQi Gan, Sao Mai Nguyen, Eric Fenaux, Stéphan Clémençon, Mounim A. El-Yacoubi. 6154-6162 [doi]

The Way Up: A Dataset for Hold Usage Detection in Sport ClimbingAnna Maschek, David C. Schedl. 6163-6171 [doi]

Towards Unconstrained 2D Pose Estimation of the Human SpineMuhammad Saif Ullah Khan, Stephan Krauß, Didier Stricker. 6172-6181 [doi]

The Fourth Monocular Depth Estimation ChallengeAnton Obukhov, Matteo Poggi, Fabio Tosi, Ripudaman Singh Arora, Jaime Spencer, Chris Russell 0001, Simon Hadfield, Richard Bowden, Shuaihang Wang, Zhenxin Ma, Weijie Chen 0006, Baobei Xu, Fengyu Sun, Di Xie, Jiang Zhu, Mykola Lavreniuk, Haining Guan, Qun Wu, Yupei Zeng, Chao Lu, Huanran Wang, Guangyuan Zhou, Haotian Zhang, Jianxiong Wang, Qiang Rao, Chunjie Wang, Xiao Liu 0004, Zhiqiang Lou, Hualie Jiang, Yihao Chen, Rui Xu, Minglang Tan, Zihan Qin, Yifan Mao, Jiayang Liu, Jialei Xu, Yifan Yang 0007, Wenbo Zhao 0004, Junjun Jiang, Xianming Liu, Mingshuai Zhao, Anlong Ming, Wu Chen, Feng Xue, Mengying Yu, Shida Gao, Xiangfeng Wang, Gbenga Omotara, Ramy Farag, Jacket Demby's, Seyed Mohamad Ali Tousi, Guilherme N. DeSouza, Tuan-Anh Yang, Minh-Quang Nguyen, Thien Phuc Tran, Albert Luginov, Muhammad Shahzad. 6182-6195 [doi]

Geometry-Aware Texture Generation for 3D Head Modeling with Artist-driven ControlAmin Fadaeinejad, Abdallah Dib, Luiz Gustavo Hafemann, Emeline Got, Trevor Anderson, Amaury Depierre, Nikolaus F. Troje, Marcus A. Brubaker, Marc-André Carbonneau. 6196-6206 [doi]

Temporal Consistent Semantic Video Color Transfer from Multiple ReferencesAupendu Kar, Guan-Ming Su. 6207-6215 [doi]

Semantic-Aware Local Image Editing with a Single Mask OperationDongchao Wen, Zijian Chen, Weihong Deng, Yujiang Tian, Hongzhi Shi, Yingjie Zhang, Xingchen Cui, Jian Zhao, Lingyan Liang, Mei Wang. 6216-6225 [doi]

OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion ModelsMathis Koroglu, Hugo Caselles-Dupré, Guillaume Jeanneret, Matthieu Cord. 6226-6236 [doi]

Training-free Color-Style Disentanglement for Constrained Text-to-Image SynthesisAishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan. 6237-6246 [doi]

CLIPDraw++: Text-to-Sketch Synthesis with Simple PrimitivesNityanand Mathur, Shyam Marjit, Abhra Chaudhuri, Anjan Dutta 0001. 6247-6256 [doi]

Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent ManipulationAlessio Borgi, Luca Maiano, Irene Amerini. 6257-6266 [doi]

Generative AI for Film Creation: A Survey of Recent AdvancesRuihan Zhang, Borou Yu, Jiajian Min, Yetong Xin, Zheng Wei, Juncheng Nemo Shi, Mingzhen Huang, Xianghao Kong, Nix Liu Xin, Shanshan Jiang, Praagya Bahuguna, Mark Chan, Khushi Hora, Lijian Yang, Yongqi Liang, Runhe Bian, Yunlei Liu, Isabela Campillo Valencia, Patricia Morales Tredinick, Ilia Kozlov, Sijia Jiang, Peiwen Huang, Na Chen, Xuanxuan Liu, Anyi Rao. 6267-6279 [doi]

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and MeshAlan Dolhasz, Chen Ma, Dave Gausebeck, Kevin Chen, Gregor Miller, Lucas Hayne, Gunnar Hovden, Azwad Sabik, Olaf Brandt, Mira Slavcheva. 6280-6290 [doi]

PartStickers: Generating Parts of Objects for Rapid PrototypingMo Zhou, Josh Myers-Dean, Danna Gurari. 6291-6301 [doi]

LAPIS: A novel dataset for personalized image aesthetic assessmentAnne-Sofie Maerten, Li-Wei Chen, Stefanie De Winter, Christophe Bossens, Johan Wagemans. 6302-6311 [doi]

WaveDIF: Wavelet sub-band based Deepfake Identification in Frequency DomainAnurag Dutta, Arnab Kumar Das, Ruchira Naskar, Rajat Subhra Chakraborty. 6312-6321 [doi]

Progressive Autoregressive Video Diffusion ModelsDesai Xie, Zhan Xu, Yicong Hong, Hao Tan 0002, Difan Liu, Feng Liu 0015, Arie E. Kaufman, Yang Zhou. 6322-6332 [doi]

STAM: Zero-Shot Style Transfer using Diffusion Model via Attention ModulationMasud An Nur Islam Fahim, Nazmus Saqib, Jani Boutellier. 6333-6343 [doi]

HopNet: Harmonizing Object Placement Network for Realistic Image Generation via Object CompositionMatthew Poska, Sharon X. Huang, Bin Hwang. 6344-6354 [doi]

Scaling On-Device GPU Inference for Large Generative ModelsJiuqiang Tang, Raman Sorokin, Ekaterina Ignasheva, Grant Jensen, Lin Chen, Juhyun Lee, Andrei Kulik, Matthias Grundmann. 6355-6364 [doi]

ADAPTOR: Adaptive Token Reduction for Video Diffusion TransformersElia Peruzzo, Adil Karjauv, Nicu Sebe, Amir Ghodrati, AmirHossein Habibian. 6365-6371 [doi]

Latent Patched Efficient Diffusion Model For High Resolution Image SynthesisWeiyun Jiang, Devendra K. Jangid, Seok-Jun Lee, Hamid R. Sheikh. 6372-6378 [doi]

LLMPi: Optimizing LLMs for High-Throughput on Raspberry PiMahsa Ardakani, Jinendra Malekar, Ramtin Zand. 6379-6388 [doi]

AdaVid: Adaptive Video-Language PretrainingChaitanya Patel, Juan Carlos Niebles, Ehsan Adeli 0001. 6389-6398 [doi]

Geometric Consistency Refinement for Single Image Novel View Synthesis via Test-Time Adaptation of Diffusion ModelsJosef Bengtson, David Nilsson, Fredrik Kahl. 6399-6408 [doi]

FM-LoRA: Factorized Low-Rank Meta-Prompting for Continual LearningXiaobing Yu, Jin Yang, Xiao Wu, Peijie Qiu, Xiaofeng Liu. 6409-6418 [doi]

T-SAM: Transductive Learning for Segment Anything ModelRangel Daroya, Deepak Chandran, Subhransu Maji, Andrea Fanelli. 6419-6428 [doi]

Separating Shared and Domain-Specific LoRAs for Multi-Domain LearningYusaku Takama, Ning Ding, Tatsuya Yokota, Toru Tamaki. 6429-6437 [doi]

Improving Open-World Object Localization by Discovering BackgroundAshish Singh, Michael Jones 0002, Kuan-Chuan Peng, Anoop Cherian, Moitreya Chatterjee, Erik G. Learned-Miller. 6438-6447 [doi]

Mixture-of-Shape-Experts (MoSE): End-to-End Shape Dictionary Framework to Prompt SAM for Generalizable Medical SegmentationJia Wei, Xiaoqi Zhao, Jonghye Woo, Jinsong Ouyang, Georges El Fakhri, Qingyu Chen, Xiaofeng Liu 0001. 6448-6458 [doi]

Domain Generalization through Attenuation of Domain-Specific InformationReiji Saito, Kazuhiro Hotta. 6459-6468 [doi]

IMC: A Benchmark for Invariant Learning under Multiple CausesTaero Kim, Seonggyun Lee, Joonseong Kang, YoungJun Choi, Wonsang Yun, Nicole Hee-Yeon Kim, Ziyu Chen, Lexing Xie, Kyungwoo Song. 6469-6478 [doi]

Task-conditioned Ensemble of Expert Models for Continuous LearningRenu Sharma, Debasmita Pal, Arun Ross. 6479-6488 [doi]

Task-Level Contrastiveness for Cross-Domain Few-Shot LearningKristi Topollai, Anna Choromanska. 6489-6499 [doi]

MoPEFT: A Mixture-of-PEFTs for the Segment Anything ModelRajat Sahay, Andreas E. Savakis. 6500-6510 [doi]

Confidence-calibrated covariate shift correction for few-shot classification in Vision-Language ModelsBehraj Khan, Rizwan Qureshi, Nouman M. Durrani, Tahir Qasim Syed. 6511-6523 [doi]

ARDGen: Augmentation Regularization for Domain-Generalized Medical Report GenerationSyed Bilal Ahsan, Muhammad Ikhalas, Muhammad Muzamil Khan, Sana Ullah, Muhammad Zaigham Zaheer. 6524-6533 [doi]

PiCaZo: Pixel-Aligned Contrastive Learning for Zero-Shot Domain AdaptationAniruddh Sikdar, Arya Kishor, Ishika Kadam, Suresh Sundaram 0002. 6534-6544 [doi]

Prototype-Based Continual Learning with Label-free Replay Buffer and Cluster Preservation LossAgil Aghasanli, Yi Li 0047, Plamen Angelov 0001. 6545-6554 [doi]

VISTA-CLIP: Visual Incremental Self-Tuned Adaptation for Efficient Continual Panoptic SegmentationManjunath D, Shrikar Madhu, Aniruddh Sikdar, Suresh Sundaram 0002. 6555-6563 [doi]

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation ApplicationsTrisanth Srinivasan, Santosh V. Patapati. 6564-6572 [doi]

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReIDYu-Hsi Chen. 6573-6582 [doi]

PPTracker: Tracking UAV Swarms with Prior PromptHaolin Qin, Tianhao Li, Tingfa Xu, Jingxuan Xu, Yuqiang Fang, Jianan Li 0001. 6583-6590 [doi]

The Power of Augmentations in IR Object DetectionIhsan Emre Üstün, Cevahir Çigla. 6591-6600 [doi]

Dist-Tracker: A Small Object-aware Detector and Tracker for UAV TrackingWenzhen Wang, Jing Fu, Jiayi Song, Kaiyu Li, Hui Qiao, Jiang Liu, Hao Sun, Xiangyong Cao. 6601-6609 [doi]

Enhancing Few-Shot Class-Incremental Learning via Frozen Feature AugmentationShimou Ling, Shengkai Gan, Caoxin Wang, Lili Pan 0001, Hongliang Li 0001. 6610-6618 [doi]

StrongSiamTracker: A Siamese Tracker with Dynamic Global Detection for Robust Anti-UAV TrackingXiaolong Cui, Liu Wan, Lingqi Kong, Jimin Li, Chaojie Zhang, Ruohan Zhao, Panlong Wu, Shan He. 6619-6629 [doi]

A Simple Detector with Frame Dynamics is a Strong TrackerChenxu Peng, Chenxu Wang, Minrui Zou, Danyang Li, Zhengpeng Yang, Yimian Dai, Ming-Ming Cheng, Xiang Li 0041. 6630-6640 [doi]

DLST: Dual-Template Co-Evolution Learning for Robust Long-Term Drone Tracking in Dynamic EnvironmentsJiahao Zhang, Yixin Wei, Jinli Zhang, Zongli Jiang, Peiwen Yu, Yufei Ma, Runan Jin. 6641-6649 [doi]

Detection and Localization of Drones and UAVs Using Sound and VisionErik Tegler, Max Modig, Per Skarin, Kalle Åström, Magnus Oskarsson, Gabrielle Flood. 6650-6658 [doi]

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future DirectionsYifei Dong, Fengyi Wu, Sanjian Zhang, Guangyu Chen, Yuzhi Hu, Masumi Yano, Jingdong Sun, Siyu Huang, Feng Liu, Qi Dai 0001, Zhi-Qi Cheng. 6659-6673 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2025, Nashville, TN, USA, June 11-15, 2025

Abstract

Table of Contents