IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2025, Tucson, AZ, USA, February 26 - March 6, 2025

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2025, Tucson, AZ, USA, February 26 - March 6, 2025. IEEE, 2025. [doi]

Conference: wacv2025

Abstract is missing.

Latency Robust Cooperative Perception Using Asynchronous Feature FusionJunjie Wang, Tomas Nordström. 1-10 [doi]

U-MixFormer: UNet-Like Transformer with Mix-Attention for Efficient Semantic SegmentationSeul-Ki Yeom, Julian von Klitzing. 1-10 [doi]

VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual InferenceSeong Jong Yoo, Snehesh Shrestha, Irina Muresanu, Cornelia Fermüller. 1-12 [doi]

Temporally Streaming Audio-Visual Synchronization for Real-World VideosJordan Voas, Wei-Cheng Tseng, Layne Berry, Xixi Hu 0001, Puyuan Peng, James Stuedemann, David Harwath. 1-9 [doi]

LumiGauss: Relightable Gaussian Splatting in the WildJoanna Kaleta, Kacper Kania, Tomasz Trzcinski, Marek Kowalski. 1-10 [doi]

Sparse-View 3D Reconstruction of Clothed Humans via Normal MapsJane Wu, Diego Thomas, Ronald Fedkiw. 11-22 [doi]

A Versatile and Differentiable Hand-Object Interaction RepresentationThéo Morales, Omid Taheri, Gerard Lacey. 23-33 [doi]

Point Cloud Color Upsampling with Attention-Based Coarse Colorization and RefinementKohei Matsuzaki, Keisuke Nonaka. 34-43 [doi]

FaVoR: Features via Voxel Rendering for Camera RelocalizationVincenzo Polizzi, Marco Cannici, Davide Scaramuzza 0001, Jonathan Kelly. 44-53 [doi]

3D Shape Completion using Multi-resolution Spectral EncodingPallabjyoti Deka, Saumik Bhattacharya, Debashis Sen, Prabir Kumar Biswas. 54-63 [doi]

Cross-Domain and Cross-Dimension Learning for Image-to-Graph TransformersAlexander H. Berger, Laurin Lux, Suprosanna Shit, Ivan Ezhov, Georgios Kaissis, Martin J. Menten, Daniel Rueckert, Johannes C. Paetzold. 64-74 [doi]

Training-free Medical Image Inverses via Bi-level Guided Diffusion ModelsHossein Askari, Fred Roosta, Hongfu Sun. 75-84 [doi]

Volumetric Conditioning Module to Control Pretrained Diffusion Models for 3D Medical ImagesSuhyun Ahn, Wonjung Park, Jihoon Cho, Jinah Park. 85-95 [doi]

GazeSearch: Radiology Findings Search BenchmarkTrong-Thang Pham, Tien-Phat Nguyen, Yuki Ikebe, Akash Awasthi, Zhigang Deng 0001, Carol C. Wu, Hien Nguyen, Ngan Le. 96-106 [doi]

DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PETYitong Li, Morteza Ghahremani, Youssef Wally, Christian Wachinger. 107-116 [doi]

SeCo-INR: Semantically Conditioned Implicit Neural Representations for Improved Medical Image Super-ResolutionMevan Ekanayake, Zhifeng Chen, Gary F. Egan, Mehrtash Harandi, Zhaolin Chen. 117-126 [doi]

VerA: Versatile Anonymization Applicable to Clinical Facial PhotographsMajed El Helou, Doruk Cetin, Petar Stamenkovic, Niko Benjamin Huber, Fabio Zünd. 127-138 [doi]

Towards Privacy-Preserving Split Learning for ControlNetDixi Yao. 139-148 [doi]

DeCLIP: Decoding CLIP Representations for Deepfake LocalizationStefan Smeu, Elisabeta Oneata, Dan Oneata. 149-159 [doi]

Aggregated Attributions for Explanatory Analysis of 3D Segmentation ModelsMaciej Chrabaszcz, Hubert Baniecki, Piotr Komorowski, Szymon Plotka, Przemyslaw Biecek. 160-171 [doi]

Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAMXin Hu, Janet Wang, Jihun Hamm, Rie Roselyne Yotsu, Zhengming Ding. 172-181 [doi]

Evaluating Sensitivity Consistency of ExplanationsHanxiao Tan. 182-191 [doi]

Shift Equivariant Pose NetworkPengxiao Wang, Tzu-Heng Lin, Chunyu Wang, Yizhou Wang 0001. 192-201 [doi]

Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake DetectionYunfei Li, Yuezun Li, Xin Wang 0068, Baoyuan Wu, Jiaran Zhou, Junyu Dong. 202-211 [doi]

360PanT: Training-Free Text-Driven 360-Degree Panorama-to-Panorama TranslationHai Wang, Jing-Hao Xue. 212-221 [doi]

LIME: Localized Image Editing via Attention Regularization in Diffusion ModelsEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari. 222-231 [doi]

Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion ModelsRohit Jena, Ali Taghibakhshi, Sahil Jain, Gerald Shen, Nima Tajbakhsh, Arash Vahdat. 232-242 [doi]

Elucidating the Solution Space of Extended Reverse-Time SDE for Diffusion ModelsQinpeng Cui, Xinyi Zhang, Qiqi Bao, Qingmin Liao. 243-252 [doi]

Infant Action Generative ModelingXiaofei Huang, Elaheh Hatamimajoumerd, Amal Mathew, Sarah Ostadabbas. 253-265 [doi]

Test-Time Adaptation in Point Clouds: Leveraging Sampling Variation with Weight AveragingAli Bahri, Moslem Yazdanpanah, Mehrdad Noori, Sahar Dastani, Milad Cheraghalikhani, David Osowiechi, Farzad Beizaee, Gustavo Adolfo Vargas Hakim, Ismail Ben Ayed, Christian Desrosiers. 266-275 [doi]

Gaussian Déjà-vu: Creating Controllable 3D Gaussian Head-Avatars with Enhanced Generalization and Personalization AbilitiesPeizhi Yan, Rabab Ward, Qiang Tang 0002, Shan Du. 276-286 [doi]

Neural SDF for Shadow-Aware Unsupervised Structured LightKazuto Ichimaru, Diego Thomas, Takafumi Iwaguchi, Hiroshi Kawasaki. 287-296 [doi]

GeoGuide: Geometric Guidance of Diffusion ModelsMateusz Poleski, Jacek Tabor, Przemyslaw Spurek. 297-305 [doi]

OccFlowNet: Occupancy Estimation via Differentiable Rendering and Occupancy FlowSimon Boeder, Benjamin Risse. 306-316 [doi]

Precise Integral in NeRFs: Overcoming the Approximation Errors of Numerical QuadratureBoyuan Zhang, Zhenliang He, Meina Kan, Shiguang Shan. 317-326 [doi]

LLM-Generated Rewrite and Context Modulation for Enhanced Vision Language Models in Digital PathologyCagla Deniz Bahadir, Gozde Bozdagi Akar, Mert R. Sabuncu. 327-336 [doi]

DeepCA: Deep Learning-Based 3D Coronary Artery Tree Reconstruction from Two 2D Non-Simultaneous X-Ray Angiography ProjectionsYiying Wang, Abhirup Banerjee, Robin P. Choudhury, Vicente Grau. 337-346 [doi]

Improving Pelvic MR-CT Image Alignment with Self-Supervised Reference-Augmented Pseudo-CT Generation FrameworkDaniel Kim, Mohammed A. Al-masni, Jaehun Lee, Dong-hyun Kim, Kanghyun Ryu. 347-356 [doi]

Feasibility of Federated Learning from Client Databases with Different Brain Diseases and MRI ModalitiesFelix Wagner 0001, Wentian Xu, Pramit Saha, Ziyun Liang, Daniel Whitehouse, David K. Menon, Virginia F. J. Newcombe, Natalie Voets, J. Alison Noble, Konstantinos Kamnitsas. 357-367 [doi]

Self-Relaxed Joint Training: Sample Selection for Severity Estimation with Ordinal Noisy LabelsShumpei Takezaki, Kiyohito Tanaka, Seiichi Uchida. 368-377 [doi]

ORID: Organ-Regional Information Driven Framework for Radiology Report GenerationTiancheng Gu, Kaicheng Yang 0002, Xiang An, Ziyong Feng, Dongnan Liu, Tom Weidong Cai. 378-387 [doi]

Guess Future Anomalies from Normalcy: Forecasting Abnormal Behavior in Real-World VideosSnehashis Majhi, Mohammed Guermal, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Brémond. 388-398 [doi]

Reducing the Content Bias for AI-generated Image DetectionSeoyeon Gye, Junwon Ko, Hyounguk Shon, Minchan Kwon, Junmo Kim 0002. 399-408 [doi]

NarrAD: Automatic Generation of Audio Descriptions for Movies with Rich Narrative ContextJaehyeong Park, Juncheol Ye, Seungkook Lee, Hyun W. Ka, Dongsu Han. 409-419 [doi]

From Visual Explanations to Counterfactual Explanations with Latent DiffusionTung Luu, Nam Le 0004, Duc Le, Bac Le. 420-429 [doi]

BIV-Priv-Seg: Locating Private Content in Images Taken by People With Visual ImpairmentsYu-Yun Tseng, Tanusree Sharma, Lotus Zhang, Abigale Stangl, Leah Findlater, Yang Wang 0005, Danna Gurari. 430-440 [doi]

Dragtext: Rethinking Text Embedding in Point-Based Image EditingGayoon Choi, Taejin Jeong, Sujung Hong, Seong Jae Hwang. 441-450 [doi]

Dynamic Attention-Guided Diffusion for Image Super-ResolutionBrian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio, Andreas Dengel 0001. 451-460 [doi]

SEM-Net: Efficient Pixel Modelling for Image Inpainting with Spatially Enhanced SSMShuang Chen 0010, Haozheng Zhang, Amir Atapour Abarghouei, Hubert P. H. Shum. 461-471 [doi]

GeoDiffuser: Geometry-Based Image Editing with Diffusion ModelsRahul Sajnani, Jeroen van Baar, Jie Min, Kapil Katyal, Srinath Sridhar 0002. 472-482 [doi]

Zerocomp: Zero-Shot Object Compositing from Image Intrinsics via DiffusionZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde. 483-494 [doi]

VortSDF: 3D Modeling with Centroidal Voronoi Tessellation on Signed Distance FieldDiego Thomas, Briac Toussaint, Jean-Sébastien Franco, Edmond Boyer. 495-504 [doi]

VHS: High-Resolution Iterative Stereo Matching with Visual Hull PriorsMarkus Plack, Hannah Dröge, Leif Van Holland, Matthias B. Hullin. 505-514 [doi]

Polarization as Texture: Microscale 3D Shape from Polarized Light FocusRen Matsumoto, Takahiro Okabe, Ryo Kawahara. 515-524 [doi]

Self-Aligning Depth-Regularized Radiance Fields for Asynchronous RGB-D SequencesYuxin Huang, Andong Yang, Yuantao Chen, Runyi Yang, Zhenxin Zhu, Chao Hou, Hao Zhao 0002, Guyue Zhou. 525-534 [doi]

RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird's Eye View SegmentationHenrique Piñeiro Monteagudo, Leonardo Taccari, Aurel Pjetri, Francesco Sambo, Samuele Salti. 535-544 [doi]

Generalizable Single-View Object Pose Estimation by Two-Side Generating and MatchingYujing Sun 0001, Caiyi Sun, Yuan Liu 0025, Yuexin Ma, Siu-Ming Yiu. 545-556 [doi]

LQ-Adapter: ViT-Adapter with Learnable Queries for Gallbladder Cancer Detection from Ultrasound ImagesChetan Madan, Mayuna Gupta, Soumen Basu, Pankaj Gupta 0005, Chetan Arora 0001. 557-567 [doi]

J-Invariant Volume Shuffle for Self-Supervised Cryo-Electron Tomogram Denoising on Single Noisy VolumeXiwei Liu, Mohamad Kassab, Min Xu, Qirong Ho. 568-577 [doi]

Learning Keypoints for Multi-Agent Behavior Analysis using Self-SupervisionDaniel Khalil, Christina Liu, Pietro Perona, Jennifer J. Sun, Markus Marks. 578-588 [doi]

Uncertainty Awareness Enables Efficient Labeling for Cancer Subtyping in Digital PathologyNirhoshan Sivaroopan, Chamuditha Jayanga Galappaththige, Chalani Ekanayake, Hasindri Watawana, Ranga Rodrigo, Chamira U. S. Edussooriya, Dushan N. Wadduwage. 589-598 [doi]

Uncertainty-based Data-wise Label Smoothing for Calibrating Multiple Instance Learning in Histopathology Image ClassificationHyeongmin Park, Sungrae Hong, Chanjae Song, Jongwoo Kim, Mun Yong Yi. 599-608 [doi]

All-in-One Image Compression and RestorationHuimin Zeng, Jiacheng Li 0004, Ziqiang Zheng, Zhiwei Xiong. 609-619 [doi]

Improving Shift Invariance in Convolutional Neural Networks with Translation Invariant Polyphase SamplingSourajit Saha, Tejas Gokhale. 620-629 [doi]

Secrets of Edge-Informed Contrast Maximization for Event-Based VisionPritam Karmokar, Quan H. Nguyen, William J. Beksi. 630-639 [doi]

Stable Autofocus with Focal Consistency LossSangwon Lee, Myungsub Choi, Nagyeong Lee, Hyong-Euk Lee. 640-649 [doi]

LIPIDS: Learning-based Illumination Planning In Discretized (Light) Space for Photometric StereoAshish Tiwari 0005, Mihirkumar Sutariya, Shanmuganathan Raman. 650-659 [doi]

Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image EditingJiancheng Huang, Yi Huang, Jianzhuang Liu, Donghao Zhou, Yifan Liu 0001, Shifeng Chen. 660-669 [doi]

McCaD: Multi-Contrast MRI Conditioned, Adaptive Adversarial Diffusion Model for High-Fidelity MRI SynthesisSanuwani Dayarathna, Kh Tohidul Islam, Bohan Zhuang, Guang Yang 0006, Jianfei Cai 0001, Meng Law, Zhaolin Chen. 670-679 [doi]

Improving Detail in Pluralistic Image Inpainting with Feature DequantizationKyungri Park, Woohwan Jung. 680-689 [doi]

Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any ObjectsKyungmin Jo, Jaegul Choo. 690-699 [doi]

MRI Reconstruction with Regularized 3D Diffusion Model (R3DM)Arya Bangun, Zhuo Cao, Alessio Quercia, Hanno Scharr, Elisabeth Pfaehler. 700-710 [doi]

VADet: Multi-Frame LiDAR 3D Object Detection Using Variable AggregationChengjie Huang, Vahdat Abdelzad, Sean Sedwards, Krzysztof Czarnecki 0001. 711-720 [doi]

Towards Secure and Usable 3D Assets: A Novel Framework for Automatic Visible WatermarkingGursimran Singh, Tianxi Hu, Mohammad Akbari, Qiang Tang, Yong Zhang 0004. 721-730 [doi]

NeuManifold: Neural Watertight Manifold Reconstruction with Efficient and High-Quality Rendering SupportXinyue Wei, Fanbo Xiang, Sai Bi, Anpei Chen, Kalyan Sunkavalli, Zexiang Xu, Hao Su 0001. 731-741 [doi]

Adaptive and Temporally Consistent Gaussian Surfels for Multi-View Dynamic ReconstructionDecai Chen, Brianne Oberson, Ingo Feldmann, Oliver Schreer, Anna Hilsmann, Peter Eisert. 742-752 [doi]

Fine-Tuning Image-Conditional Diffusion Models is Easier than you ThinkGonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt 0019, Daan de Geus, Alexander Hermans, Bastian Leibe. 753-762 [doi]

Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-IdentificationMahdi Alehdaghi, Pourya Shamsolmoali, Rafael M. O. Cruz, Eric Granger. 763-773 [doi]

SplatFace: Gaussian Splat Face Reconstruction Leveraging an Optimizable SurfaceJiahao Luo, Jing Liu 0053, James Davis 0001. 774-783 [doi]

ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark DetectionJui-Che Chiang, Hou-Ning Hu, Bo-Syuan Hou, Chia-Yu Tseng, Yu-Lun Liu 0001, Min-Hung Chen, Yen-Yu Lin. 784-793 [doi]

STRIDE: Single-Video Based Temporally Continuous Occlusion-Robust 3D Pose EstimationRohit Lal, Saketh Bachu, Yash Garg, Arindam Dutta, Calvin-Khang Ta, Hannah Dela Cruz, Dripta S. Raychaudhuri, M. Salman Asif, Amit K. Roy Chowdhury. 794-803 [doi]

PETALface: Parameter Efficient Transfer Learning for Low-Resolution Face RecognitionKartik Narayan, Nithin Gopalakrishnan Nair, Jennifer Xu, Rama Chellappa, Vishal M. Patel. 804-814 [doi]

Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge TransferZengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras. 815-824 [doi]

Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language ModelsElaine Sui, Xiaohan Wang, Serena Yeung-Levy. 825-835 [doi]

Attention-Guided Masked Autoencoders for Learning Image RepresentationsLeon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski. 836-846 [doi]

Boosting Semi-Supervised Video Action Detection with Temporal ContextDonghyeon Kwon, Inho Kim, Suha Kwak. 847-858 [doi]

WiGNet: Windowed Vision Graph Neural NetworkGabriele Spadaro, Marco Grangetto, Attilio Fiandrotti, Enzo Tartaglione, Jhony H. Giraldo. 859-868 [doi]

Active Learning with Context Sampling and One-vs-Rest Entropy for Semantic SegmentationFei Wu, Pablo Márquez-Neila, Hedyeh Rafii-Tari, Raphael Sznitman. 869-878 [doi]

DeepMIM: Deep Supervision for Masked Image ModelingSucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu. 879-888 [doi]

ARD-VAE: A Statistical Formulation to Find the Relevant Latent Dimensions of Variational AutoencodersSurojit Saha, Sarang C. Joshi, Ross T. Whitaker. 889-898 [doi]

Counting Guidance for High Fidelity Text-to-Image SynthesisWonjun Kang, Kevin Galim, Hyung il Koo, Nam Ik Cho. 899-908 [doi]

InvisMark: Invisible and Robust Watermarking for AI-generated Image ProvenanceRui Xu, Mengya Hu, Deren Lei, Yaxi Li, David Lowe, Alex Gorevski, Mingyu Wang, Emily Ching, Alex Deng. 909-918 [doi]

Diffusion-based Visual Anagram as Multi-task LearningZhiyuan Xu, Yinhe Chen, Huan-ang Gao, Weiyan Zhao, Guiyu Zhang, Hao Zhao 0002. 919-928 [doi]

REEDIT: Multimodal Exemplar-Based Image EditingAshutosh Srivastava, Tarun Ram Menta, Abhinav Java, Avadhoot Jadhav, Silky Singh, Surgan Jandial, Balaji Krishnamurthy. 929-939 [doi]

Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion PriorTanvir Mahmud, Mustafa Munir, Radu Marculescu, Diana Marculescu. 940-949 [doi]

Event-Guided Fusion-Mamba for Context-Aware 3D Human Pose EstimationBo Lang, Mooi Choo Chuah. 950-960 [doi]

My3DGen: A Scalable Personalized 3D Generative ModelLuchao Qi, Jiaye Wu, Annie N. Wang, Shengze Wang 0002, Roni Sengupta. 961-972 [doi]

HybridDepth: Robust Metric Depth Fusion by Leveraging Depth from Focus and Single-Image PriorsAshkan Ganj, Hang Su 0005, Tian Guo 0001. 973-982 [doi]

Context-Aware Outlier Rejection for Robust Multi-View 3D Tracking of Similar Small Birds in An Outdoor AviaryKeon Moradi, Ethan Haque, Jasmeen Kaur, Alexandra B. Bentz, Eli S. Bridge, Golnaz Habibi. 983-991 [doi]

FitDiff: Robust Monocular 3D Facial Shape and Reflectance Estimation using Diffusion ModelsStathis Galanakis, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou. 992-1004 [doi]

Towards Generalized Face Anti-Spoofing from a Frequency Shortcut ViewJunyi Cao, Chao Ma 0004. 1005-1015 [doi]

Beyond Spatial Explanations: Explainable Face Recognition in the Frequency DomainMarco Huber, Naser Damer. 1016-1026 [doi]

Effective Backdoor Learning on Open-Set Face Recognition SystemsDiana Voth, Leonidas Dane, Jonas Grebe, Sebastian Peitz, Philipp Terhörst. 1027-1039 [doi]

Face Anonymization Made SimpleHanwei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe. 1040-1050 [doi]

GaitContour: Efficient Gait Recognition Based on a Contour-Pose RepresentationYuxiang Guo, Anshul Shah, Jiang Liu 0014, Ayush Gupta, Rama Chellappa, Cheng Peng 0008. 1051-1061 [doi]

Realistic and Efficient Face Swapping: A Unified Approach with Diffusion ModelsSanoojan Baliah, Qinliang Lin, ShengCai Liao, Xiaodan Liang, Muhammad Haris Khan. 1062-1071 [doi]

Flatness Improves Backbone Generalisation in Few-Shot ClassificationRui Li 0001, Martin Trapp 0001, Marcus Klasson, Arno Solin. 1072-1089 [doi]

STLight: A Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal Joint ProcessingAndrea Alfarano, Alberto Alfarano, Linda Friso, Andrea Bacciu, Irene Amerini, Fabrizio Silvestri. 1090-1100 [doi]

HOPE: A Memory-Based and Composition-Aware Framework for Zero-Shot Learning with Hopfield Network and Soft Mixture of ExpertsDo Huu Dat, Po Yuan Mao, Tien Hoang Nguyen, Wray L. Buntine, Mohammed Bennamoun. 1101-1110 [doi]

HEX: Hierarchical Emergence Exploitation in Self-Supervised AlgorithmsKiran Kokilepersaud, Seulgi Kim, Mohit Prabhushankar, Ghassan Alregib. 1111-1121 [doi]

OT-VP: Optimal Transport-Guided Visual Prompting for Test-Time AdaptationYunbei Zhang, Akshay Mehra, Jihun Hamm. 1122-1132 [doi]

A New Benchmark and Baseline for Real-Time High-Resolution Image Inpainting on Edge DevicesMarcelo Sanchez, Gil Triginer, Coloma Ballester, Ignacio Sarasua, Lara Raad. 1133-1143 [doi]

User-in-the-Loop Evaluation of Multimodal LLMs for Activity AssistanceMrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai. 1144-1154 [doi]

VMAs: Video-to-Music Generation via Semantic Alignment in Web Music VideosYan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang. 1155-1165 [doi]

CTIP: Towards Accurate Tabular-to-Image Generation for Tire Footprint GenerationDaeyoung Roh, Donghee Han, Jihyun Nam, Jungsoo Oh, YoungBin You, Jeongheon Park, Mun Yong Yi. 1166-1175 [doi]

PTQ4VM: Post-Training Quantization for Visual MambaYounghyun Cho, Changhun Lee, Seonggon Kim, Eunhyeok Park. 1176-1185 [doi]

A Mamba-Based Siamese Network for Remote Sensing Change DetectionJay N. Paranjape, Celso de Melo, Vishal M. Patel. 1186-1196 [doi]

CATALOG: A Camera Trap Language-Guided Contrastive Learning ModelJulian D. Santamaria, Claudia Isaza, Jhony H. Giraldo. 1197-1206 [doi]

Agtech Framework for Cranberry-Ripening Analysis Using Vision Foundation ModelsFaith M. Johnson, Ryan Meegan, Jack Lowry, Peter Oudemans, Kristin J. Dana. 1207-1216 [doi]

GMT: Guided Mask Transformer for Leaf Instance SegmentationFeng Chen, Sotirios A. Tsaftaris, Mario Valerio Giuffrida. 1217-1226 [doi]

A Pipeline and NIR-Enhanced Dataset for Parking Lot SegmentationShirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe. 1227-1236 [doi]

Boosting Diffusion Guidance via Learning Degradation-Aware Models for Blind Super ResolutionShao-Hao Lu, Ren Wang, Ching-Chun Huang, Wei-chen Chiu. 1237-1246 [doi]

HexaGen3D: StableDiffusion is One Step Away from Fast and Diverse Text-to-3D GenerationAntoine Mercier 0005, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger. 1247-1257 [doi]

Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec CompressionAli Mollaahmadi Dehaghi, Reza Razavi, Mohammad Moshirpour. 1258-1267 [doi]

ARTIST: Improving the Generation of Text-Rich Images with Disentangled Diffusion Models and Large Language ModelsJianyi Zhang, Yufan Zhou, Jiuxiang Gu, Curtis Wigington, Tong Yu 0001, Yiran Chen 0001, Tong Sun 0005, Ruiyi Zhang 0002. 1268-1278 [doi]

Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion ModelsLorenzo Mandelli, Stefano Berretti. 1279-1288 [doi]

Prior2Posterior: Model Prior Correction for Long-Tailed LearningS. Divakar Bhat, Amit More, Mudit Soni, Surbhi Agrawal. 1289-1298 [doi]

Feature Space Perturbation: A Panacea to Enhanced Transferability EstimationPrafful Kumar Khoba, Zijian Wang 0009, Chetan Arora 0001, Mahsa Baktashmotlagh. 1299-1308 [doi]

Design Principles of Multi-Scale J-Invariant Networks for Self-Supervised Image DenoisingHayeong Yu, Seungjae Han, Young-Gyu Yoon. 1309-1318 [doi]

AnomalyDINO: Boosting Patch-based Few-Shot Anomaly Detection with DINOv2Simon Damm, Mike Laszkiewicz, Johannes Lederer, Asja Fischer. 1319-1329 [doi]

EFFICIENTMORPH: Parameter-Efficient Transformer-Based Architecture for 3D Image RegistrationAbu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian. 1330-1341 [doi]

Towards Accurate Unified Anomaly SegmentationWenxin Ma, Qingsong Yao, Xiang Zhang, Zhelong Huang, Zihang Jiang, S. Kevin Zhou. 1342-1352 [doi]

Channel Propagation Networks for Refreshable Vision TransformerJunhyeong Go, Jongbin Ryu. 1353-1362 [doi]

COSNet: A Novel Semantic Segmentation Network using Enhanced Boundaries in Cluttered ScenesMuhammad Ali, Mamoona Javaid, Mubashir Noman, Mustansar Fiaz, Salman H. Khan 0001. 1363-1372 [doi]

A Conflict-Guided Evidential Multimodal Fusion for Semantic SegmentationLucas Deregnaucourt, Hind Laghmara, Alexis Lechervy, Samia Ainouz 0001. 1373-1382 [doi]

Swin-∇: Gradient-Based Image Restoration from Image Sequences using Video Swin-TransformersMonika Kwiatkowski, Simon Matern, Olaf Hellwich. 1383-1391 [doi]

Reframing Image Difference Captioning with BLIP2IDC and Synthetic AugmentationGautier Evennou, Antoine Chaffin, Vivien Chappelier, Ewa Kijak. 1392-1402 [doi]

Videogamebunny: Towards Vision Assistants for Video GamesMohammad Reza Taesiri, Cor-Paul Bezemer. 1403-1413 [doi]

Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person ImagesAiyu Cui, Jay Mahajan, Viraj Shah, Preeti Gomathinayagam, Chang Liu, Svetlana Lazebnik. 1414-1423 [doi]

ReBotNet: Fast Real-Time Video EnhancementJeya Maria Jose Valanarasu, Rahul Garg 0002, Andeep Toor, Xin Tong, Weijuan Xi, Andreas Lugmayr, Vishal M. Patel, Anne Menini. 1424-1435 [doi]

GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and ClassificationSouhail Bakkali, Sanket Biswas, Zuheng Ming, Mickaël Coustaty, Marçal Rusiñol, Oriol Ramos Terrades, Josep Lladós 0001. 1436-1446 [doi]

Towards Zero-shot 3D Anomaly LocalizationYizhou Wang, Kuan-Chuan Peng, Yun Fu. 1447-1456 [doi]

Label-Augmented Dataset DistillationSeoungyoon Kang, Youngsun Lim, Hyunjung Shim. 1457-1466 [doi]

MIP-GAF: A MLLM-Annotated Benchmark for Most Important Person Localization and Group Context UnderstandingS. Madan, S. Ghosh, Lownish Rai Sookha, M. A. Ganaie 0001, R. Subramanian, Abhinav Dhall, Tom Gedeon. 1467-1476 [doi]

Learning to Visually Connect Actions and Their EffectsParitosh Parmar, Eric Peh, Basura Fernando. 1477-1487 [doi]

WAFFLE: Multimodal Floorplan Understanding in the WildKeren Ganon, Morris Alper, Rachel Mikulinsky, Hadar Averbuch-Elor. 1488-1497 [doi]

CT to PET Translation: A Large-Scale Dataset and Domain-Knowledge-Guided Diffusion ApproachDac Thai Nguyen, Trung Thanh Nguyen, Huu Tien Nguyen, Thanh Trung Nguyen, Huy Hieu Pham 0001, Thanh-Hung Nguyen, Truong Thao Nguyen, Phi-Le Nguyen. 1498-1507 [doi]

Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model AggregationJiahao Xu, Zikai Zhang, Rui Hu. 1508-1517 [doi]

Improving Deep Detector Robustness via Detection-Related Discriminant Maximization and ReorganizationJung Im Choi, Qizhen Lan, Qing Tian 0003. 1518-1527 [doi]

SEMU-Net: A Segmentation-Based Corrector for Fabrication Process Variations of Nanophotonics with Microscopic ImagesRambod Azimi, Yijian Kong, Dusan Gostimirovic, James J. Clark, Odile Liboiron-Ladouceur. 1528-1536 [doi]

Metric Compatible Training for Online Backfilling in Large-Scale RetrievalSeonguk Seo, Mustafa Gökhan Uzunbas, Bohyung Han, Sara Cao, Ser-Nam Lim. 1537-1545 [doi]

Cross-Task Affinity Learning for Multitask Dense Scene PredictionsDimitrios Sinodinos, Narges Armanfard. 1546-1555 [doi]

Predicting Event Memorability Using Personalized Federated LearningSourasekhar Banerjee, Debaditya Roy, Vigneshwaran Subbaraju, Monowar H. Bhuyan. 1556-1565 [doi]

Test-Time Adaptation of 3D Point Clouds via Denoising Diffusion ModelsHamidreza Dastmalchi, Aijun An, Ali Cheraghian, Shafin Rahman, Sameera Ramasinghe. 1566-1576 [doi]

ECF-YOLOv7-Tiny: Improving Feature Fusion and the Receptive Field for Lightweight Object DetectorsDan-Sebastian Bacea, Florin Oniga. 1577-1586 [doi]

When Cars Meet Drones: Hyperbolic Federated Learning for Source-Free Domain Adaptation in Adverse WeatherGiulia Rizzoli, Matteo Caligiuri, Donald Shenaj, Francesco Barbato, Pietro Zanuttigh. 1587-1596 [doi]

SUM: Saliency Unification Through Mamba for Visual Attention ModelingAlireza Hosseini, Amirhossein Kazerouni, Saeed Akhavan, Michael Brudno, Babak Taati. 1597-1607 [doi]

DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-IdNyle Siddiqui, Florinel-Alin Croitoru, Gaurav Kumar Nayak, Radu-Tudor Ionescu, Mubarak Shah. 1608-1617 [doi]

CorrFill: Enhancing Faithfulness in Reference-Based Inpainting with Correspondence Guidance in Diffusion ModelsKuan-Hung Liu, Cheng-Kun Yang, Min-Hung Chen, Yu-Lun Liu 0001, Yen-Yu Lin. 1618-1627 [doi]

RT-DETRv3: Real-Time End-to-End Object Detection with Hierarchical Dense Positive SupervisionShuo Wang, Chunlong Xia, Feng Lv, Yifeng Shi. 1628-1636 [doi]

Language-Guided Instance-Aware Domain-Adaptive Panoptic SegmentationElham Amin Mansour, Ozan Unal, Suman Saha 0001, Benjamín Béjar, Luc Van Gool. 1637-1648 [doi]

Reflective Teacher: Semi-Supervised Multimodal 3D Object Detection in Bird's-Eye-View via Uncertainty MeasureSaheli Hazra, Sudip Das, Rohit Choudhary, Arindam Das, Ganesh Sistu, Ciarán Eising, Ujjwal Bhattacharya. 1649-1659 [doi]

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous DrivingMaciej K. Wozniak, Hariprasath Govindarajan, Marvin Klingner, Camille Maurice, Ravi Kiran, Senthil Kumar Yogamani. 1660-1670 [doi]

Mind the Map! Accounting for Existing Maps When Estimating Online HDMaps from SensorsRémy Sun, Li Yang, Diane Lingrand, Frédéric Precioso. 1671-1681 [doi]

Hierarchical Light Transformer Ensembles for Multimodal Trajectory ForecastingAdrien Lafage, Mathieu Barbier, Gianni Franchi, David Filliat. 1682-1691 [doi]

HeightLane: BEV Heightmap Guided 3D Lane DetectionChaesong Park, Eunbin Seo, Jongwoo Lim. 1692-1701 [doi]

Optimizing Vision-Language Model for Road Crossing Intention EstimationRoy Uziel, Oded Bialer. 1702-1712 [doi]

On-the-Fly Object-aware Representative Point Selection in Point CloudXiaoyu Zhang, Ziwei Wang, Hai Dong, Zhifeng Bao, Jiajun Liu. 1713-1722 [doi]

Composed Image Retrieval for Training-FREE DOMain ConversionNikos Efthymiadis, Bill Psomas, Zakaria Laskar, Konstantinos Karantzalos, Yannis Avrithis, Ondrej Chum, Giorgos Tolias. 1723-1733 [doi]

Sigma: Siamese Mamba Network for Multi-Modal Semantic SegmentationZifu Wan, Pingping Zhang, Yuhao Wang, Silong Yong, Simon Stepputtis, Katia P. Sycara, Yaqi Xie. 1734-1744 [doi]

Palo: A Polyglot Large Multimodal Model for 5B PeopleHanoona Abdul Rasheed, Muhammad Maaz 0001, Abdelrahman M. Shaker, Salman H. Khan 0001, Hisham Cholakkal, Rao Muhammad Anwer, Tim Baldwin, Michael Felsberg, Fahad Shahbaz Khan. 1745-1754 [doi]

Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal ModelsAnjishnu Mukherjee, Ziwei Zhu 0001, Antonios Anastasopoulos. 1755-1764 [doi]

TaxaBind: A Unified Embedding Space for Ecological ApplicationsSrikumar Sastry, Subash Khanal, Aayush Dhakal, Adeel Ahmad, Nathan Jacobs. 1765-1774 [doi]

GroundingMate: Aiding Object Grounding for Goal-Oriented Vision-and-Language NavigationQianyi Liu, Siqi Zhang, Yanyuan Qiao, Junyou Zhu, Xiang Li, Longteng Guo, Qunbo Wang, Xingjian He, Qi Wu, Jing Liu. 1775-1784 [doi]

On Neural BRDFs: A Thorough Comparison of State-of-the-Art ApproachesFlorian Hofherr, Bjoern Haefner, Daniel Cremers. 1785-1794 [doi]

NeRFs are Mirror Detectors: Using Structural Similarity for Multi-View Mirror Scene Reconstruction with 3D Surface PrimitivesLeif Van Holland, Michael Weinmann, Jan U. Müller, Patrick Stotko, Reinhard Klein. 1795-1807 [doi]

RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View SynthesisHugo Blanc, Jean-Emmanuel Deschaud, Alexis Paljic. 1808-1817 [doi]

Sun Off, Lights on: Photorealistic Monocular Nighttime Simulation for Robust Semantic PerceptionKonstantinos Tzevelekakis, Shutong Zhang, Luc Van Gool, Christos Sakaridis. 1818-1828 [doi]

Separating Direct and Global Components from Novel ViewpointsKengo Matsufuji, Lin Shi, Ryo Kawahara, Takahiro Okabe. 1829-1838 [doi]

Towards Unsupervised Blind Face Restoration Using Diffusion PriorTianshu Kuai, Sina Honari, Igor Gilitschenski, Alex Levinshtein. 1839-1849 [doi]

GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsamplingHuawei Sun, Zixu Wang, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille. 1850-1860 [doi]

Text-to-Image Synthesis for Domain Generalization in Face Anti-SpoofingNaeun Ko, Yonghyun Jeong, Jong Chul Ye. 1850-1860 [doi]

Towards Real-Time Open-Vocabulary Video Instance SegmentationBin Yan 0004, Martin Sundermeyer, David Joseph Tan, Huchuan Lu, Federico Tombari. 1861-1871 [doi]

Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection TransformerHakjin Lee, Minki Song 0002, Jamyoung Koo, Junghoon Seo. 1872-1882 [doi]

Crafting Distribution Shifts for Validation and Training in Single Source Domain GeneralizationNikos Efthymiadis, Giorgos Tolias, Ondrej Chum. 1883-1892 [doi]

CAMS: Convolution and Attention-Free Mamba-Based Cardiac Image SegmentationAbbas Khan, Muhammad Asad 0001, Martin Benning, Caroline H. Roney, Gregory G. Slabaugh. 1893-1903 [doi]

DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary LearningWenhao Gu, Li Gu, Ziqiang Wang, Ching Yee Suen, Yang Wang. 1904-1913 [doi]

Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label ClassificationWulin Xie, Lian Zhao, Jiang Long, Xiaohuan Lu, Bingyan Nie. 1914-1923 [doi]

DARDA: Domain-Aware Real-Time Dynamic Neural Network AdaptationShahriar Rifat, Jonathan D. Ashdown, Francesco Restuccia 0001. 1924-1932 [doi]

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous DrivingHidehisa Arai, Keita Miwa, Kento Sasaki, Kohei Watanabe, Yu Yamaguchi, Shunsuke Aoki 0001, Issei Yamamoto. 1933-1943 [doi]

FASTER: A Font-Agnostic Scene Text Editing and Rendering FrameworkAlloy Das, Sanket Biswas, Prasun Roy, Subhankar Ghosh, Umapada Pal 0001, Michael Blumenstein, Josep Lladós 0001, Saumik Bhattacharya. 1944-1954 [doi]

MaskVD: Region Masking for Efficient Video Object DetectionSreetama Sarkar, Gourav Datta, Souvik Kundu 0002, Kai Zheng, Chirayata Bhattacharyya, Peter A. Beerel. 1955-1964 [doi]

Calib3D: Calibrating Model Preferences for Reliable 3D Scene UnderstandingLingdong Kong, Xiang Xu 0009, Jun Cen, Wenwei Zhang, Liang Pan, Kai Chen 0026, Ziwei Liu 0002. 1965-1978 [doi]

EI-Nexus: Towards Unmediated and Flexible Inter-Modality Local Feature Extraction and Matching for Event-Image DataZhonghua Yi, Hao Shi, Qi Jiang, Kailun Yang 0001, Ze Wang 0009, Diyang Gu, Yufan Zhang, Kaiwei Wang. 1979-1988 [doi]

Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural NetworksMichael Schwingshackl, Fabio Francisco Oberweger, Markus Murschitz. 1989-1998 [doi]

Transferring Foundation Models for Generalizable Robotic ManipulationJiange Yang, Wenhui Tan, Chuhao Jin, Keling Yao, Bei Liu 0001, Jianlong Fu, Ruihua Song, Gangshan Wu, Limin Wang 0001. 1999-2010 [doi]

FlashMix: Fast Map-Free LiDAR Localization via Feature Mixing and Contrastive-Constrained Accelerated TrainingRaktim Gautam Goswami, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami. 2011-2020 [doi]

Multi-HexPlanes: A Lightweight Map Representation for Rendering and 3D ReconstructionJianhao Zheng, Gábor Valasek, Daniel Barath, Iro Armeni. 2021-2031 [doi]

FluoNeRF: Fluorescent Novel-View Synthesis Under Novel Light Source ColorsLin Shi, Kengo Matsufuji, Ryo Kawahara, Takahiro Okabe. 2032-2041 [doi]

Harmonizing Attention: Training-free Texture-aware Geometry TransferEito Ikuta, Yohan Lee, Akihiro Iohara, Yu Saito, Toshiyuki Tanaka. 2042-2051 [doi]

TaCOS: Task-Specific Camera Optimization with SimulationChengyang Yan, Donald G. Dansereau. 2052-2062 [doi]

Negative-Prompt Inversion: Fast Image Inversion for Editing with Text-Guided Diffusion ModelsDaiki Miyake, Akihiro Iohara, Yu Saito, Toshiyuki Tanaka. 2063-2072 [doi]

SpotDiffusion: A Fast Approach for Seamless Panorama Generation Over TimeStanislav Frolov, Brian B. Moser, Andreas Dengel 0001. 2073-2081 [doi]

Seeing Eye to AI: Comparing Human Gaze and Model Attention in Video MemorabilityPrajneya Kumar, Eshika Khandelwal, Makarand Tapaswi, Vishnu Sreekumar. 2082-2091 [doi]

LoSA: Long-Short-Range Adapter for Scaling End-to-End Temporal Action LocalizationAkshita Gupta, Gaurav Mittal, Ahmed Magooda, Ye Yu 0003, Graham W. Taylor, Mei Chen. 2092-2102 [doi]

DMPT: Decoupled Modality-Aware Prompt Tuning for Multi-Modal Object Re-IdentificationMinghui Lin, Shu Wang, Xiang Wang 0012, Jianhua Tang, Longbin Fu, Zhengrong Zuo, Nong Sang. 2103-2112 [doi]

CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image EnhancementRita Pucci, Niki Martinel. 2113-2123 [doi]

Contrastive Learning of Image Representations Guided by Spatial RelationsLogan Servant, Michaël Clément, Laurent Wendling, Camille Kurtz. 2124-2133 [doi]

I Spy with My Little Eye a Minimum Cost Multicut Investigation of Dataset FramesKatharina Prasse, Isaac Bravo, Stefanie Walter, Margret Keuper. 2134-2143 [doi]

Uncertainty Aware Interest Point Detection and DescriptionJingbo Zeng, Zaiwang Gu, Weide Liu, Lile Cai, Jun Cheng 0003. 2144-2153 [doi]

DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel AdaptationJiawei Yao, Jusheng Zhang, Xiaochao Pan, Tong Wu, Canran Xiao. 2154-2163 [doi]

Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from AudiosYongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu 0007. 2164-2173 [doi]

VIIS: Visible and Infrared Information Synthesis for Severe Low-Light Image EnhancementChen Zhao, Mengyuan Yu, Fan Yang, Peiguang Jing. 2174-2184 [doi]

ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels OnlySaad Lahlali, Nicolas Granger 0001, Hervé Le Borgne, Quoc-Cuong Pham. 2185-2194 [doi]

Scene-LLM: Extending Language Model for 3D Visual ReasoningRao Fu, Jingyu Liu, Xilun Chen 0002, Yixin Nie, Wenhan Xiong. 2195-2206 [doi]

MVFNet: Multipurpose Video Forensics Network using Multiple Forms of Forensic EvidenceTai D. Nguyen, Matthew C. Stamm. 2207-2217 [doi]

ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion ModelGaoge Han, Mingjiang Liang, Jinglei Tang, Yongkang Cheng, Wei Liu 0007, Shaoli Huang. 2218-2227 [doi]

Uni-SLAM: Uncertainty-Aware Neural Implicit SLAM for Real-Time Dense Indoor Scene ReconstructionShaoxiang Wang, Yaxu Xie, Chun-Peng Chang, Christen Millerdurai, Alain Pagani, Didier Stricker. 2228-2239 [doi]

Valid: Variable-Length Input Diffusion for Novel View SynthesisShijie Li, Farhad G. Zanjani, Haitam Ben Yahia, Yuki M. Asano, Jürgen Gall, AmirHossein Habibian. 2240-2249 [doi]

GaussianBeV: 3D Gaussian Representation meets Perception Models for BeV SegmentationFlorian Chabot, Nicolas Granger 0001, Guillaume Lapouge. 2250-2259 [doi]

OmniGS: Fast Radiance Field Reconstruction Using Omnidirectional Gaussian SplattingLongwei Li, Huajian Huang, Sai Kit Yeung, Hui Cheng. 2260-2268 [doi]

DreaMo: Articulated 3D Reconstruction from a Single Casual VideoTao Tu 0002, Ming-Feng Li, Chieh Hubert Lin, Yen-Chi Cheng, Min Sun 0001, Ming-Hsuan Yang 0001. 2269-2279 [doi]

Data Augmentation for Surgical Scene Segmentation with Anatomy-Aware Diffusion ModelsDanush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Fiona R. Kolbinger, Stefanie Speidel. 2280-2290 [doi]

NPL-MVPS: Neural Point-Light Multi-View Photometric StereoFotios Logothetis, Ignas Budvytis, Roberto Cipolla. 2291-2300 [doi]

ARF-Plus: Controlling Perceptual Factors in Artistic Radiance Fields for 3D Scene StylizationWenzhao Li, Tianhao Wu 0003, Fangcheng Zhong, Cengiz Öztireli. 2301-2310 [doi]

Treading Towards Privacy-Preserving Table Structure RecognitionSachin Raja, Ajoy Mandal, C. V. Jawahar. 2311-2321 [doi]

Breaking the Frame: Visual Place Recognition by Overlap PredictionTong Wei 0002, Philipp Lindenberger, Jirí Matas, Daniel Barath. 2322-2331 [doi]

Learning Semantic Part-Based Graph Structure for 3D Point Cloud Domain GeneralizationG. Ujwal Sai, Arkadipta De, Vartika Sengar, Anuj Rathore, Daksh Thapar, Manohar Kaul. 2332-2341 [doi]

Differential Privacy Mechanisms in Neural Tangent Kernel RegressionJiuxiang Gu, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song 0002. 2342-2356 [doi]

PrivateEye: In-Sensor Privacy Preservation Through Optical Feature SeparationAdith Boloor, Weikai Lin, Tianrui Ma, Yu Feng 0007, Yuhao Zhu 0001, Xuan Zhang 0001. 2357-2367 [doi]

Unsupervised Single-Image Intrinsic Image Decomposition with LiDAR Intensity Enhanced TrainingShogo Sato, Takuhiro Kaneko, Kazuhiko Murasaki, Taiga Yoshida, Ryuichi Tanida, Akisato Kimura. 2368-2378 [doi]

Unsupervised Denoising for Signal-Dependent and Row-Correlated Imaging NoiseBenjamin Salmon, Alexander Krull. 2379-2389 [doi]

Dropout the High-Rate Downsampling: A Novel Design Paradigm for UHD Image RestorationChen Wu 0006, Ling Wang, Long Peng, Dianjie Lu, Zhuoran Zheng. 2390-2399 [doi]

ChromaDistill: Colorizing Monochrome Radiance Fields with Knowledge DistillationAnkit Dhiman, R. Srinath, Srinjay Sarkar, Lokesh R. Boregowda, R. Venkatesh Babu. 2400-2410 [doi]

VipDiff: Towards Coherent and Diverse Video Inpainting via Training-Free Denoising Diffusion ModelsChaohao Xie, Kai Han 0001, Kwan-Yee K. Wong. 2411-2420 [doi]

DN-Splatter: Depth and Normal Priors for Gaussian Splatting and MeshingMatias Turkulainen, Xuqian Ren, Iaroslav Melekhov, Otto Seiskari, Esa Rahtu, Juho Kannala. 2421-2431 [doi]

NCAP: Scene Text Image Super-Resolution with Non-CAtegorical PriorDongwoo Park, Suk Pil Ko. 2432-2441 [doi]

High-Pass Kernel Prediction for Efficient Video DeblurringBo Ji 0004, Angela Yao. 2442-2452 [doi]

Retrieval Augmented Recipe GenerationGuoshan Liu, Hailong Yin, Bin Zhu 0006, Jingjing Chen 0001, Chong-Wah Ngo, Yu-Gang Jiang. 2453-2463 [doi]

Active Event Alignment for Monocular Distance EstimationNan Cai, Pia Bideau. 2464-2473 [doi]

ReMP: Reusable Motion Prior for Multi-domain 3D Human Pose Estimation and Motion InbetweeningHojun Jang, Young-Min Kim. 2474-2483 [doi]

LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-timestamp 3D Human Pose EstimationZhiyu Pan, Zhicheng Zhong 0001, Wenxuan Guo, Yifan Chen, Jianjiang Feng, Jie Zhou 0001. 2484-2494 [doi]

Towards Utilising a Range of Neural Activations for Comprehending Representational AssociationsLaura O'Mahony, Nikola S. Nikolov, David J. P. O'Sullivan. 2495-2506 [doi]

DiL: An Explainable and Practical Metric for Abnormal Uncertainty in Object DetectionAmit Giloni, Omer Hofman, Ikuya Morikawa, Toshiya Shimizu, Yuval Elovici, Asaf Shabtai. 2507-2516 [doi]

MSI-NeRF: Linking Omni-Depth with View Synthesis Through Multi-Sphere Image Aided Generalizable Neural Radiance FieldDongyu Yan, Guanyu Huang, Fengyu Quan, Haoyao Chen. 2517-2526 [doi]

Towards Unbiased Continual Learning: Avoiding Forgetting in the Presence of Spurious CorrelationsGiacomo Capitani, Lorenzo Bonicelli, Angelo Porrello, Federico Bolelli, Simone Calderara, Elisa Ficarra. 2527-2537 [doi]

TLDR: Text Based Last-Layer Retraining for Debiasing Image ClassifiersJuHyeon Park, Seokhyeon Jeong, Taesup Moon. 2538-2547 [doi]

Looking at Model Debiasing through the Lens of Anomaly DetectionVito Paolo Pastore, Massimiliano Ciranni, Davide Marinelli, Francesca Odone, Vittorio Murino. 2548-2557 [doi]

Global-Guided Focal Neural Radiance Field for Large-Scale Scene RenderingMingqi Shao, Feng Xiong, Hang Zhang, Shuang Yang, Mu Xu, Wei Bian, Xueqian Wang. 2558-2567 [doi]

DivAvatar: Diverse 3D Avatar Generation with a Single PromptWeijing Tao, Biwen Lei, Kunhao Liu, Shijian Lu, Miaomiao Cui, Xuansong Xie. 2568-2577 [doi]

CabNIR: A Benchmark for In-Vehicle Infrared Monocular Depth EstimationUgo Leone Cavalcanti, Matteo Poggi, Fabio Tosi, Valerio Cambareri, Vladimir Zlokolica, Stefano Mattoccia. 2578-2590 [doi]

ELMGS: Enhancing Memory and Computation Scalability Through coMpression for 3D Gaussian SplattingMuhammad Salman Ali, Sung-Ho Bae, Enzo Tartaglione. 2591-2600 [doi]

Navigating Heterogeneity and Privacy in One-Shot Federated Learning with Diffusion ModelsMatías Mendieta, Guangyu Sun, Chen Chen 0001. 2601-2610 [doi]

Facial Expression Recognition with Controlled Privacy Preservation and Feature CompensationFeng Xu, David Ahmedt-Aristizabal, Lars Petersson, Dadong Wang, Xun Li. 2611-2621 [doi]

Dense Scene Reconstruction from Light-Field Images Affected by Rolling ShutterHermes McGriff, Renato Martins, Nicolas Andreff, Cédric Demonceaux. 2622-2630 [doi]

Shadow Removal Refinement via Material-Consistent Shadow EdgesShilin Hu, Hieu Le 0001, Shahrukh Athar, Sagnik Das, Dimitris Samaras. 2631-2641 [doi]

GauFRe: Gaussian Deformation Fields for Real-Time Dynamic Novel View SynthesisYiqing Liang, Numair Khan, Zhengqin Li, Thu Nguyen-Phuoc, Douglas Lanman, James Tompkin 0001, Lei Xiao. 2642-2652 [doi]

Partial Filter-Sharing: Improved Parameter-sharing Method for Single Image Super-Resolution NetworksKaram Park, Nam Ik Cho. 2653-2663 [doi]

Radiance Field-Based Pose Estimation via Decoupled Optimization Under Challenging Initial ConditionsSi-Yu Lu, Yung-Yao Chen, Yi-Tong Wu, Hsin-Chun Lin, Sin-Ye Jhong, Wen-Huang Cheng. 2664-2673 [doi]

AiDe: Improving 3D Open-Vocabulary Semantic Segmentation by Aligned Vision-Language LearningYimu Wang, Krzysztof Czarnecki 0001. 2674-2685 [doi]

MFNeRF: Memory Efficient NeRF with Mixed-Feature Hash TableYongjae Lee, Li Yang 0009, Deliang Fan. 2686-2695 [doi]

Deep Joint Unrolling for Deblurring and Low-Light Image Enhancement (JUDE)Tu Vo, Chan Y. Park. 2696-2705 [doi]

ENAF: A Multi-Exit Network with an Adaptive Patch Fusion for Large Image Super ResolutionManh Duong Nguyen, Tuan Nghia Nguyen 0002, Xuan Truong Nguyen. 2706-2714 [doi]

Unified Framework for Open-World Compositional Zero-Shot LearningHirunima Jayasekara, Khoi Pham, Nirat Saini, Abhinav Shrivastava. 2706-2714 [doi]

Semantic Segmentation Method for Automated Indoor 3D Reconstruction based on Architectural-Knowledge-Aware FeaturesYahan Chen, Wenzheng Liu, Xiaowei Luo. 2715-2724 [doi]

Diffusion-Based Particle-DETR for BEV PerceptionAsen Nachkov, Danda Pani Paudel, Martin Danelljan, Luc Van Gool. 2725-2735 [doi]

VISIONARY: Novel Spatial-Spectral Attention Mechanism for Hyperspectral Image DenoisingAditya Dixit, Nischit Hosamani, Puneet Gupta 0002, Ankur Garg. 2736-2745 [doi]

PVP: Polar Representation Boost for 3D Semantic Occupancy PredictionYujing Xue, Jiaxiang Liu, Jiawei Du, Joey Tianyi Zhou. 2746-2755 [doi]

RefVSR++: Exploiting Reference Inputs for Reference-based Video Super-resolutionHan Zou, Masanori Suganuma, Takayuki Okatani. 2756-2765 [doi]

Frame by Familiar Frame: Understanding Replication in Video Diffusion ModelsAimon Rahman, Malsha V. Perera, Vishal M. Patel. 2766-2776 [doi]

MonoPP: Metric-Scaled Self-Supervised Monocular Depth Estimation by Planar-Parallax Geometry in Automotive ApplicationsGasser Elazab, Torben Gräber, Michael Unterreiner, Olaf Hellwich. 2777-2787 [doi]

Fairer Analysis and Demographically Balanced Face Generation for Fairer Face VerificationAlexandre Fournier-Montgieux, Michaël Soumm, Adrian Popescu 0001, Bertrand Luvison, Hervé Le Borgne. 2788-2798 [doi]

Bayesian Optimal Latent Projection for Noisy Image RestorationZiqiang Shi, Rujie Liu, Jun Takahashi, Takuma Yamamoto. 2799-2807 [doi]

Can Out-of-Domain Data Help to Learn Domain-Specific Prompts for Multimodal Misinformation Detection?Amartya Bhattacharya, Debarshi Brahma, Suraj Nagaje Mahadev, Anmol Asati, Vikas Verma, Soma Biswas. 2808-2817 [doi]

ShapeMorph: 3D Shape Completion via Blockwise Discrete DiffusionJiahui Li, Pourya Shamsolmoali, Yue Lu, Masoumeh Zareapoor. 2818-2827 [doi]

Anomaly Detection for People with Visual Impairments Using an Egocentric 360-Degree CameraInpyo Song, Sanghyeon Lee, Minjun Joo, Jangwon Lee 0002. 2828-2837 [doi]

XPose: Towards Extreme Low Light Hand Pose EstimationGreen Rosh K. S, Meghana Shankar, Prateek Kukreja, Anmol Namdev, B. H. Pawan Prasad. 2838-2848 [doi]

Gaitcloud: Leveraging Spatial-Temporal Information for Lidar-Base Gait Recognition With a True-3D Gait RepresentationShaoxiong Zhang, Hiromitsu Awano, Takashi Sato 0001. 2849-2858 [doi]

EmoVOCA: Speech-Driven Emotional 3D Talking HeadsFederico Nocentini, Claudio Ferrari, Stefano Berretti. 2859-2868 [doi]

Multi-Scale Grouped Prototypes for Interpretable Semantic SegmentationHugo Porta, Emanuele Dalsasso, Diego Marcos, Devis Tuia. 2869-2880 [doi]

ConDiSR: Contrastive Disentanglement and Style Regularization for Single Domain GeneralizationAleksandr Matsun, Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub. 2881-2889 [doi]

Towards a Training Free Approach for 3D Scene EditingVivek Madhavaram, Shivangana Rawat, Chaitanya Devaguptapu, Charu Sharma, Manohar Kaul. 2890-2899 [doi]

Neural Graph Map: Dense Mapping with Efficient Loop Closure IntegrationLeonard Bruns, Jun Zhang, Patric Jensfelt. 2900-2909 [doi]

ROSA: Reconstructing Object Shape and Appearance Textures by Adaptive Detail TransferJulian Kaltheuner, Patrick Stotko, Reinhard Klein. 2910-2920 [doi]

Continual Learning in 3D Point Clouds: Employing Spectral Techniques for Exemplar SelectionHossein Resani, Behrooz Nasihatkon, Mohammadreza Alimoradi Jazi. 2921-2931 [doi]

Adversarial Learning Based Knowledge Distillation on 3D Point CloudsSanjay S. J, Akash J, Sreehari Rajan, Dimple A Shajahan, Charu Sharma. 2932-2941 [doi]

Continual Learning of Personalized Generative Face Models with Experience ReplayAnnie N. Wang, Luchao Qi, Roni Sengupta. 2942-2951 [doi]

RGB2Point: 3D Point Cloud Generation from Single RGB ImagesJae Joong Lee, Bedrich Benes. 2952-2962 [doi]

Spatially-Adaptive Hash Encodings for Neural Surface ReconstructionThomas Walker, Octave Mariotti, Amir Vaxman, Hakan Bilen. 2963-2972 [doi]

MONAS-ESNN: Multi-Objective Neural Architecture Search for Efficient Spiking Neural NetworksEsmat Ghasemi Saghand, Susana K. Lai-Yuen. 2963-2972 [doi]

RopeTP: Global Human Motion Recovery via Integrating Robust Pose Estimation with Diffusion Trajectory PriorMingjiang Liang, Yongkang Cheng, Hualin Liang, Shaoli Huang, Wei Liu 0007. 2973-2982 [doi]

SMDAF: A Scalable Sidewalk Material Data Acquisition Framework with Bidirectional Cross-Modal Knowledge DistillationJiawei Liu, Wayne Lam, Zhigang Zhu 0001, Hao Tang 0011. 2983-2992 [doi]

SAND: Enhancing Open-Set Neuron Descriptions through Spatial AwarenessAnvita A. Srinivas, Tuomas P. Oikarinen, Divyansh Srivastava, Wei-Hung Weng, Tsui-Wei Weng. 2993-3002 [doi]

BASED: Bundle-Adjusting Surgical Endoscopic Dynamic Video Reconstruction Using Neural Radiance FieldsShreya Saha, Zekai Liang, Shan Lin, Jingpei Lu, Michael C. Yip, Sainan Liu. 3003-3012 [doi]

PVT: An Implicit Surface Reconstruction Framework via Point Voxel Geometric-Aware TransformerChuanmao Fan, Chenxi Zhao, Ye Duan. 3013-3023 [doi]

Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion ModelsKatherine Xu, Lingzhi Zhang, Jianbo Shi. 3024-3034 [doi]

LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity RecognitionNaga Venkata Sai Raviteja Chappa, Khoa Luu. 3035-3044 [doi]

Skyeyes: Ground Roaming using Aerial View ImagesZhiyuan Gao, Wenbin Teng, Gonglin Chen, Jinsen Wu, Ningli Xu, Rongjun Qin, Andrew Feng, Yajie Zhao. 3045-3054 [doi]

eLIR-Net: an Efficient AI Solution for Image RetouchingTingting Zhao, ChenGuang Liu, Kamal Jnawali, Chang Su. 3055-3063 [doi]

DSTR: Dual Scenes Transformer for Cross-Modal Fusion in 3D Object DetectionHaojie Cai, Dongfu Yin, Fei Richard Yu, Siting Xiong. 3064-3073 [doi]

AC-IND: Sparse CT Reconstruction Based on Attenuation Coefficient Estimation and Implicit Neural DistributionWangduo Xie, Richard Schoonhoven, Tristan van Leeuwen, Matthew B. Blaschko. 3074-3083 [doi]

MS-Glance: Bio-Inspired Non-Semantic Context Vectors and Their Applications in Supervising Image ReconstructionZiqi Gao, Wendi Yang, Yujia Li, Lei Xing, S. Kevin Zhou. 3084-3095 [doi]

OccLoff: Learning Optimized Feature Fusion for 3D Occupancy PredictionJi Zhang, Yiran Ding, Zixin Liu. 3096-3106 [doi]

Data-Efficient 3D Visual Grounding via Order-Aware ReferringTung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang. 3107-3117 [doi]

PRoGS: Progressive Rendering of Gaussian SplatsBrent Zoomers, Maarten Wijnants 0001, Ivan Molenaers, Joni Vanherck, Jeroen Put, Nick Michiels. 3118-3127 [doi]

EasyRet3D: Uncalibrated Multi-View Multi-Human 3D Reconstruction and TrackingJunjie Oscar Yin, Ting Li, Jiahao Wang 0001, Yi Zhang 0099, Alan L. Yuille. 3128-3137 [doi]

Dual-Representation Interaction Driven Image Quality Assessment with Restoration AssistanceJingtong Yue, Xin Lin, Zijiu Yang, Chao Ren. 3138-3147 [doi]

MVAD: A Multiple Visual Artifact Detector for Video StreamingChen Feng 0008, Duolikun Danier, Fan Zhang 0017, Alex Mackin, Andrew Collins 0007, David Bull 0001. 3148-3158 [doi]

Supplementary Material AnonyNoise: Anonymizing Event Data with Smart Noise to Outsmart Re-Identification and Preserve PrivacyKatharina Bendig, René Schuster, Nicole Thiemer, Karen Joisten, Didier Stricker. 3159-3161 [doi]

Wavelength- and Depth-Aware Deep Image Prior for Blind Hyperspectral Imagery Deblurring with Coarse Depth GuidanceJiahuan Li, Xiaoyu Dong, Wei He 0003, Naoto Yokoya. 3162-3171 [doi]

Personalized Mixture of Experts for Multi-Site Medical Image SegmentationMd Motiur Rahman, Mohamed Trabelsi, Hüseyin Uzunalioglu, Aidan Boyd. 3172-3184 [doi]

Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and TransparencyMaor Dikter, Tsachi Blau, Chaim Baskin. 3185-3195 [doi]

3D Edge Sketch from Multiview ImagesYilin Zheng, Chiang-Heng Chien, Ricardo Fabbri, Benjamin B. Kimia. 3196-3205 [doi]

Revisiting Machine Unlearning with Dimensional AlignmentSeonguk Seo, Dongwan Kim, Bohyung Han. 3206-3215 [doi]

Elemental Composite Prototypical Network: Few-Shot Object Detection on Outdoor 3D Point Cloud ScenesArkadipta De, Vartika Sengar, Daksh Thapar, Mahesh Chandran, Manohar Kaul. 3216-3226 [doi]

Debiasify: Self-Distillation for Unsupervised Bias MitigationNourhan Bayasi, Jamil Fayyad, Ghassan Hamarneh, Rafeef Garbi, Homayoun Najjaran. 3227-3236 [doi]

A Conic Transformation Approach for Solving the Perspective-Three-Point ProblemHaidong Wu, Snehal Bhayani, Janne Heikkilä. 3237-3245 [doi]

Instructive3D: Editing Large Reconstruction Models with Text InstructionsKunal Kathare, Ankit Dhiman, Vikas K. Gowda, Siddharth Aravindan, Shubham Monga, Basavaraja Shanthappa Vandrotti, Lokesh R. Boregowda. 3246-3256 [doi]

3D Part Segmentation via Geometric Aggregation of 2D Visual FeaturesMarco Garosi, Riccardo Tedoldi, Davide Boscaini, Massimiliano Mancini, Nicu Sebe, Fabio Poiesi. 3257-3267 [doi]

EdgeGaussians - 3D Edge Mapping via Gaussian SplattingKunal Chelani, Assia Benbihi, Torsten Sattler, Fredrik Kahl. 3268-3279 [doi]

UW-GS: Distractor-Aware 3D Gaussian Splatting for Enhanced Underwater Scene ReconstructionHaoran Wang, Nantheera Anantrasirichai, Fan Zhang 0017, David Bull 0001. 3280-3289 [doi]

A Recipe for Geometry-Aware 3D Mesh TransformersMohammad Farazi, Yalin Wang 0001. 3290-3300 [doi]

Balancing Shared and Task-Specific Representations: A Hybrid Approach to Depth-Aware Video Panoptic SegmentationKurt H. W. Stolle. 3301-3309 [doi]

Generating Visual Explanations from Deep Networks Using Implicit Neural RepresentationsMichal Byra, Henrik Skibbe. 3310-3319 [doi]

DisCo: Discovering Common Affordance from Large Models for Actionable Part PerceptionYoupeng Wen, Yi Zhu, Zhihao Zhan, Pengzhen Ren, Jianhua Han, Hang Xu, Shen Zhao, Xiaodan Liang. 3320-3329 [doi]

Event-Guided Low-Light Video Semantic SegmentationZhen Yao 0002, Mooi Choo Chuah. 3330-3341 [doi]

MDCN-PS: Monocular-Depth-Guided Coarse Normal Attention for Robust Photometric StereoMasahiro Yamaguchi, Takashi Shibata 0001, Shoji Yachida, Keiko Yokoyama, Toshinori Hosoi. 3342-3351 [doi]

A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and ProductionEui Jun Hwang, Sukmin Cho, Huije Lee, Youngwoo Yoon, Jong C. Park. 3352-3362 [doi]

FRAUD-Net: Fraud News Detection Using Sample Uncertainty & Domain Aware Generalized NetworkDevendra Patel, Vikas Verma, Shreyas Kumar Tah, Shwetabh Biswas, Soma Biswas. 3363-3371 [doi]

USWformer: Efficient Sparse Wavelet Transformer for Underwater Image EnhancementPriyanka Mishra, Nancy Mehta, Santosh Kumar Vipparthi, Subrahmanyam Murala. 3372-3382 [doi]

Psych-Occlusion: Using Visual Psychophysics for Aerial Detection of Occluded Persons During Search and RescueArturo Miguel Russell Bernal, Jane Cleland-Huang, Walter J. Scheirer. 3383-3395 [doi]

ReFu: Recursive Fusion for Exemplar-Free 3D Class-Incremental LearningYi Yang, Lei Zhong, Huiping Zhuang. 3396-3405 [doi]

FMD: Comprehensive Data Compression in Medical Domain via Fused Matching DistillationJuheon Son, Jang-Hwan Choi 0001. 3406-3415 [doi]

FALCON: Fair Face Recognition via Local Optimal Feature NormalizationRouqaiah Al-Refai, Philipp Hempel, Clara Biagi, Philipp Terhörst. 3416-3426 [doi]

CamoFA: A Learnable Fourier-Based Augmentation for Camouflage SegmentationMinh-Quan Le, Minh-Triet Tran, Trung-Nghia Le, Tam V. Nguyen 0002, Thanh-Toan Do. 3427-3436 [doi]

SynDRA: Synthetic Dataset for Railway ApplicationsGianluca D'Amico, Federico Nesti, Giulio Rossolini, Mauro Marinoni, Salvatore Sabina, Giorgio C. Buttazzo. 3437-3446 [doi]

Blind Image Deblurring with FFT-ReLU Sparsity PriorAbdul Mohaimen Al Radi, Prothito Shovon Majumder, Md. Mosaddek Khan. 3447-3456 [doi]

Assessing the Quality of 3D Reconstruction in the Absence of Ground Truth: Application to a Multimodal Archaeological DatasetBenjamin Coupry, Baptiste Brument, Antoine Laurent, Jean Mélou, Yvain Quéau, Jean-Denis Durou. 3457-3466 [doi]

On Explaining Knowledge Distillation: Measuring and Visualising the Knowledge Transfer ProcessGereziher Adhane, Mohammad Mahdi Dehshibi, Dennis Vetter, David Masip, Gemma Roig. 3467-3476 [doi]

DT-LSD: Deformable Transformer-Based Line Segment DetectionSebastian Janampa, Marios Pattichis. 3477-3486 [doi]

Point-GN: A Non-Parametric Network Using Gaussian Positional Encoding for Point Cloud ClassificationMarzieh Mohammadi, Amir Salarpour. 3487-3496 [doi]

Lifting by Gaussians: A Simple, Fast and Flexible Method for 3D Instance SegmentationRohan Chacko, Nicolai Häni, Eldar Khaliullin, Lin Sun, Douglas Lee. 3497-3507 [doi]

GStex: Per-Primitive Texturing of 2D Gaussian Splatting for Decoupled Appearance and Geometry ModelingVictor Rong, Jingxiang Chen, Sherwin Bahmani, Kiriakos N. Kutulakos, David B. Lindell. 3508-3518 [doi]

ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic ReconstructionSilvan Weder, Francis Engelmann, Johannes L. Schönberger, Akihito Seki, Marc Pollefeys, Martin R. Oswald. 3519-3528 [doi]

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion ModelsShyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen. 3529-3538 [doi]

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion ModelsPengxiang Li, Kai Chen 0023, Zhili Liu, Ruiyuan Gao 0001, Lanqing Hong, Dit-Yan Yeung, Huchuan Lu, Xu Jia 0012. 3539-3548 [doi]

A Novel Perspective for Multi-Modal Multi-Label Skin Lesion ClassificationYuan Zhang, Yutong Xie 0001, Hu Wang 0005, Jodie C. Avery, M. Louise Hull, Gustavo Carneiro 0001. 3549-3558 [doi]

Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion ModelsYoungjun Jun, Jiwoo Park, Kyobin Choo, Tae Eun Choi, Seong Jae Hwang. 3559-3569 [doi]

AutoProSAM: Automated Prompting SAM for 3D Multi-Organ SegmentationChengyin Li, Rafi Ibn Sultan, Prashant Khanduri, Yao Qiang, Chetty J. Indrin, Dongxiao Zhu. 3570-3580 [doi]

MulModSeg: Enhancing Unpaired Multi-Modal Medical Image Segmentation with Modality-Conditioned Text Embedding and Alternating TrainingChengyin Li, Hui Zhu, Rafi Ibn Sultan, Hassan Bagher-Ebadian, Prashant Khanduri, Chetty J. Indrin, Kundan Thind, Dongxiao Zhu. 3581-3591 [doi]

Generalizable Single-Source Cross-Modality Medical Image Segmentation via Invariant Causal MechanismsBoqi Chen, Yuanzhi Zhu, Yunke Ao, Sebastiano Caprara, Reto Sutter, Gunnar Rätsch, Ender Konukoglu, Anna Susmelj. 3592-3602 [doi]

Rethinking Cluster-Conditioned Diffusion Models for Label-Free Image SynthesisNikolas Adaloglou, Tim Kaiser, Felix Michels, Markus Kollmann. 3603-3613 [doi]

DreamBlend: Advancing Personalized Fine-Tuning of Text-to-Image Diffusion ModelsShwetha Ram, Tal Neiman, Qianli Feng, Andrew Stuart, Son Tran, Trishul Chilimbi. 3614-3623 [doi]

Sli2Vol+: Segmenting 3D Medical Images Based on an Object Estimation Guided Correspondence Flow NetworkDelin An, Pengfei Gu, Milan Sonka, Chaoli Wang 0001, Danny Z. Chen. 3624-3634 [doi]

Tumor Synthesis Conditioned on RadiomicsJonghun Kim, Inye Na, Eun Sook Ko, Hyunjin Park. 3635-3646 [doi]

Foundation X: Integrating Classification, Localization, and Segmentation Through Lock-Release Pretraining Strategy for Chest X-Ray AnalysisNahid Ul Islam, Dongao Ma, Jiaxuan Pang, Shivasakthi Senthil Velan, Michael B. Gotway, Jianming Liang. 3647-3656 [doi]

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video EditingYouyuan Zhang, Xuan Ju, James J. Clark. 3657-3666 [doi]

Divergent Domains, Convergent Grading: Enhancing Generalization in Diabetic Retinopathy GradingSharon Chokuwa, Muhammad Haris Khan. 3667-3677 [doi]

CusConcept: Customized Visual Concept Decomposition with Diffusion ModelsZhi Xu, Shaozhe Hao, Kai Han 0001. 3678-3687 [doi]

Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain AdaptationBenito Buchheim, Max Reimann, Jürgen Döllner. 3688-3697 [doi]

Fine-grained Controllable Video Generation via Object Appearance and ContextHsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang 0004, Xuhui Jia, Yukun Zhu, Ming-Hsuan Yang 0001. 3698-3708 [doi]

Generating Long-Take Videos via Effective Keyframes and GuidanceHsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang 0001. 3709-3720 [doi]

Attribute Diffusion: Diffusion Driven Diverse Attribute EditingRishubh Parihar, Prasanna Balaji, Raghav Magazine, Sarthak Vora, Varun Jampani, R. Venkatesh Babu. 3721-3731 [doi]

PK-YOLO: Pretrained Knowledge Guided YOLO for Brain Tumor Detection in Multiplanar MRI SlicesMing Kang 0002, Fung Fung Ting, Raphaël C.-W. Phan, Chee-Ming Ting. 3732-3741 [doi]

PixSwap: High-Resolution Face Swapping for Effective Reflection of Identity via Pixel-Level Supervision with Synthetic Paired DatasetTaewoo Kim, Geonsu Lee, Hyukgi Lee, Seongtae Kim, Younggun Lee. 3742-3751 [doi]

Federated-Continual Dynamic Segmentation of Histopathology Guided by Barlow ContinuityNiklas Babendererde, Haozhe Zhu, Moritz Fuchs, Jonathan Stieber, Anirban Mukhopadhyay 0003. 3752-3761 [doi]

GAUDA: Generative Adaptive Uncertainty-Guided Diffusion-Based Augmentation for Surgical SegmentationYannik Frisch, Christina Bornberg, Moritz Fuchs, Anirban Mukhopadhyay 0003. 3762-3771 [doi]

Automated Patient Positioning with Learned 3D Hand GesturesZhongpai Gao, Abhishek Sharma, Meng Zheng 0002, Benjamin Planche, Terrence Chen, Ziyan Wu 0001. 3772-3781 [doi]

A Data Perspective on Enhanced Identity Preservation for Diffusion PersonalizationXingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Kun Wan, Helge Rhodin, Ratheesh Kalarot. 3782-3791 [doi]

Improving Conditional Diffusion Models through Re-Noising from Unconditional Diffusion PriorsKangfu Mei, Nithin Gopalakrishnan Nair, Vishal M. Patel. 3792-3801 [doi]

Revisiting Deep Archetypal Analysis for Phenotype Discovery in High Content ImagingMario Wieser, Daniel Siegismund, Stephan Steigele. 3802-3811 [doi]

SGD: Street View Synthesis with Gaussian Splatting and Diffusion PriorZhongrui Yu, Haoran Wang 0004, Jinze Yang, Hanzhang Wang, Jiale Cao, Zhong Ji, Mingming Sun 0001. 3812-3822 [doi]

ACE: Anatomically Consistent Embeddings in Composition and DecompositionZiyu Zhou, Haozhe Luo, Mohammad Reza Hosseinzadeh Taher, Jiaxuan Pang, Xiaowei Ding, Michael B. Gotway, Jianming Liang. 3823-3833 [doi]

NCAdapt: Dynamic Adaptation with Domain-Specific Neural Cellular Automata for Continual Hippocampus SegmentationAmin Ranem, John Kalkhof, Anirban Mukhopadhyay 0003. 3834-3843 [doi]

Diffusion Model Guided Sampling with Pixel-Wise Aleatoric Uncertainty EstimationMichele De Vita, Vasileios Belagiannis. 3844-3854 [doi]

STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image GenerationRuyu Wang, Xuefeng Hou, Sabrina Schmedding, Marco F. Huber. 3855-3865 [doi]

Dataset Augmentation by Mixing Visual ConceptsAbdullah Al Rahat, Hemanth Venkateswara. 3866-3875 [doi]

CryoMAE: Few-Shot Cryo-EM Particle Picking with Masked AutoencodersChentianye Xu, Xueying Zhan, Min Xu 0009. 3876-3885 [doi]

Self-Supervised Pre-Training with Diffusion Model for Few-Shot Landmark Detection in X-Ray ImagesRoberto Di Via, Francesca Odone, Vito Paolo Pastore. 3886-3896 [doi]

Non-Cross Diffusion for Semantic ConsistencyZiyang Zheng, Ruiyuan Gao 0001, Qiang Xu 0001. 3897-3906 [doi]

Survival Prediction in Lung Cancer through Multi-Modal Representation LearningAiman Farooq, Deepak Mishra 0003, Santanu Chaudhury. 3907-3915 [doi]

Enhancing Image Layout Control with Loss-Guided Diffusion ModelsZakaria Patel, Kirill Serkh. 3916-3924 [doi]

HandCraft: Anatomically Correct Restoration of Malformed Hands in Diffusion Generated ImagesZhenyue Qin, Yiqun Zhang, Yang Liu 0249, Dylan Campbell. 3925-3933 [doi]

@BENCH: Benchmarking Vision-Language Models for Human-centered Assistive TechnologyXin Jiang, Junwei Zheng, Ruiping Liu, Jiahang Li, Jiaming Zhang 0001, Sven Matthiesen, Rainer Stiefelhagen. 3934-3943 [doi]

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further TuningHaoning Wu 0002, Shaocheng Shen, Qiang Hu 0003, Xiaoyun Zhang 0001, Ya Zhang 0002, Yanfeng Wang 0001. 3944-3953 [doi]

CharDiff: Improving Sampling Convergence via Characteristic Function Consistency in Diffusion ModelsAbhishek Kumar Sinha, S. Manthira Moorthi. 3955-3964 [doi]

Uncertainty-Aware Regularization for Image-to-Image TranslationAnuja Vats, Ivar Farup, Marius Pedersen, Kiran B. Raja. 3965-3974 [doi]

FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control InjectionHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz A. Graule, Nikhil Chavan Dafle, Volkan Isler. 3975-3984 [doi]

GANFusion: Feed-Forward Text-to-3D with Diffusion in GAN SpaceSouhaib Attaiki, Paul Guerrero 0001, Duygu Ceylan, Niloy J. Mitra, Maks Ovsjanikov. 3985-3995 [doi]

Oriented Cell Dataset: A Dataset and Benchmark for Oriented Cell Detection and ApplicationsLucas N. Kirsten, Angelo Angonezi, Jose Marques, Fernanda Oliveira, Juliano Faccioni, Camila Cassel, Débora Santos de Sousa, Samlai Vedovatto, Guido Lenz, Cláudio R. Jung. 3996-4005 [doi]

Endoscopic Scoring and Localization in Unconstrained Clinical Trial VideosJinlin Xiang, Hillol Sarker, Bozhao Qi, Ruisu Zhang, Roger Trullo, Salvatore Badalamenti, Maria Wiekowski, Annie Kruger, Etienne Pochet, Qi Tang, Wei Zhao. 4006-4015 [doi]

Context-Aware Optimal Transport Learning for Retinal Fundus Image EnhancementVamsi Krishna Vasa, Peijie Qiu, Wenhui Zhu, Yujian Xiong, Oana M. Dumitrascu, Yalin Wang 0001. 4016-4025 [doi]

Analyzing and Improving the Skin Tone Consistency and Bias in Implicit 3D Relightable Face GeneratorsLibing Zeng, Nima Khademi Kalantari. 4026-4035 [doi]

DMRN: A Dynamical Multi-Order Response Network for the Robust Lung Airway SegmentationSheng Zhang 0024, Jinge Wu, Junzhi Ning, Guang Yang 0006. 4036-4045 [doi]

TRUST: Time-Domain Residual Unsupervised Stability Technique for Improved Heart Rate EstimationShahzad Ahmad, Sania Bano, Sukalpa Chanda, Santosh Kumar Vipparthi, Subrahmanyam Murala. 4046-4055 [doi]

OpenCapBench: A Benchmark to Bridge Pose Estimation and BiomechanicsYoni Gozlan, Antoine Falisse, Scott D. Uhlrich, Anthony A. Gatti, Michael Black, Jennifer L. Hicks, Scott L. Delp, Akshay Chaudhari. 4056-4065 [doi]

MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated LearningJianyi Zhang, Hao Yang 0018, Ang Li 0005, Xin Guo 0008, Pu Wang, Haiming Wang 0002, Yiran Chen 0001, Hai Li 0001. 4066-4076 [doi]

Improving Faithfulness of Text-to-Image Diffusion Models through Inference InterventionDanfeng Guo, Sanchit Agarwal, Yu-Hsiang Lin, Jiun-Yu Kao, Tagyoung Chung, Nanyun Peng 0001, Mohit Bansal. 4077-4086 [doi]

Anchored Diffusion for Video Face ReenactmentIdan Kligvasser, Regev Cohen, George Leifman, Ehud Rivlin, Michael Elad. 4087-4097 [doi]

DiffuPT: Class Imbalance Mitigation for Glaucoma Detection via Diffusion Based Generation and Model PretrainingYoussof Nawar, Nouran Soliman, Moustafa Wassel, Mohamed ElHabebe, Noha Adly, Marwan Torki, Ahmed Elmassry, Islam Ahmed. 4098-4107 [doi]

GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text ContextsZoltán Ádám Milacski, Koichiro Niinuma, Ryosuke Kawamura, Fernando De la Torre, László A. Jeni. 4108-4118 [doi]

CRAFT: Class Ranking Aware Fine-Tuning for Enhanced Out-of-Distribution DetectionNaveen Karunanayake, Suranga Seneviratne, Sanjay Chawla. 4119-4128 [doi]

Learning Anatomy-Disease Entangled RepresentationFatemeh Haghighi, Michael B. Gotway, Jianming Liang. 4129-4141 [doi]

MambaRecon: MRI Reconstruction with Structured State Space ModelsYilmaz Korkmaz, Vishal M. Patel. 4142-4152 [doi]

Inverse Problems with Diffusion Models: A MAP Estimation PerspectiveSai Bharath Chandra Gutha, Ricardo Vinuesa, Hossein Azizpour. 4153-4162 [doi]

Joint Co-Speech Gesture and Expressive Talking Face Generation Using Diffusion with AdaptersSteven Hogue, Chenxu Zhang, Yapeng Tian, Xiaohu Guo. 4163-4172 [doi]

Data Augmentation for Image Classification Using Generative AIFazle Rahat, M. Shifat Hossain, Md Rubel Ahmed, Sumit Kumar Jha 0001, Rickard Ewetz. 4173-4182 [doi]

BeautyBank: Encoding Facial Makeup in Latent SpaceQianwen Lu, Xingchao Yang, Takafumi Taketomi. 4183-4193 [doi]

Image-Level Regression for Uncertainty-Aware Retinal Image SegmentationTrung Dinh Quoc Dang, Huy-Hoang Nguyen, Aleksei Tiulpin. 4194-4204 [doi]

SALVE: A 3D Reconstruction Benchmark of Wounds from Consumer-Grade VideosRemi Chierchia, Léo Lebrat, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Rodrigo Santa Cruz. 4205-4214 [doi]

Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models Using Stepwise Spectral AnalysisHaeil Lee, Hansang Lee, Seoyeon Gye, Junmo Kim 0002. 4215-4224 [doi]

Remote Blood Pressure Estimation from Facial Videos Using Transfer Learning: Leveraging PPG to rPPG ConversionChun-Hong Cheng, Jing Wei Chin, Kwan Long Wong, Tsz Tai Chan, Hau Ching Lo, Kwan Lok Pang, Richard Hau Yue So, Bryan Yan. 4225-4236 [doi]

Graph-Jigsaw Conditioned Diffusion Model for Skeleton-Based Video Anomaly DetectionAli Karami, Thi Kieu Khanh Ho, Narges Armanfard. 4237-4247 [doi]

CEMIL: Contextual Attention Based Efficient Weakly Supervised Approach for Histopathology Image ClassificationTawsifur Rahman, Alexander S. Baras, Rama Chellappa. 4248-4257 [doi]

Forensic Iris Image-Based Post-Mortem Interval EstimationRasel Ahmed Bhuiyan, Adam Czajka. 4258-4267 [doi]

SimuScope: Realistic Endoscopic Synthetic Dataset Generation Through Surgical Simulation and Diffusion ModelsSabina Martyniak, Joanna Kaleta, Diego Dall'Alba, Michal Naskret, Szymon Plotka, Przemyslaw Korzeniowski. 4268-4278 [doi]

Invariant Shape Representation Learning for Image ClassificationTonmoy Hossain, Jing Ma 0002, Jundong Li, Miaomiao Zhang. 4279-4289 [doi]

Ordinal Multiple-instance Learning for Ulcerative Colitis Severity Estimation with Selective Aggregated TransformerKaito Shiku, Kazuya Nishimura, Daiki Suehiro, Kiyohito Tanaka, Ryoma Bise. 4290-4299 [doi]

Optimizing Neural Network Effectiveness via Non-monotonicity RefinementKoushik Biswas, Amit Reza, Meghana Karri, Debesh Jha, Hongyi Pan, Nikhil Kumar Tomar, Aliza Subedi, Smriti Regmi, Ulas Bagci. 4300-4309 [doi]

Multi-View Image Diffusion via Coordinate Noise and Fourier AttentionJustin Theiss, Norman Müller, Daeil Kim, Aayush Prakash. 4310-4319 [doi]

Denoising Diffusion Models for High-Resolution Microscopy Image RestorationPamela Osuna-Vargas, Maren H. Wehrheim, Lucas Zinz, Johanna V. Rahm, Ashwin Balakrishnan, Alexandra Kaminer, Mike Heilemann, Matthias Kaschube. 4320-4330 [doi]

Deep Geometric Moments Promote Shape Consistency in Text-to-3D GenerationUtkarsh Nath, Rajeev Goel, Eun Som Jeon, Changhoon Kim, Kyle Min 0001, Yezhou Yang, Yingzhen Yang, Pavan K. Turaga. 4331-4341 [doi]

Multi-Resolution Guided 3D GANs for Medical Image TranslationJuhyung Ha, Jong-Sung Park, David Crandall, Eleftherios Garyfallidis, Xuhong Zhang 0001. 4342-4351 [doi]

Multi-Aperture Transformers for 3D (MAT3D) Segmentation of Clinical and Microscopic ImagesMuhammad Sohaib, Siyavash Shabani, Sahar A. Mohammed, Garrett Winkelmaier, Bahram Parvin. 4352-4361 [doi]

Multimodal Fusion Learning with Dual Attention for Medical ImagingJoy Dhar, Nayyar Zaidi, Maryam Haghighat, Sudipta Roy 0002, Puneet Goyal, Azadeh Alavi, Vikas Kumar. 4362-4371 [doi]

Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image GenerationSanyam Lakhanpal, Shivang Chopra, Vinija Jain, Aman Chadha, Man Luo. 4372-4381 [doi]

F2FLDM: Latent Diffusion Models with Histopathology Pre-Trained Embeddings for Unpaired Frozen Section to FFPE TranslationMan Minh Ho, Shikha Dubey, Yosep Chong, Beatrice Knudsen, Tolga Tasdizen. 4382-4391 [doi]

SmartKC++: Improving Performance of Smartphone-Based Corneal TopographersVaibhav Ganatra, Siddhartha Gairola, Pallavi Joshi, Anand Balasubramaniam, Kaushik Murali, Arivunithi Varadharajan, Bellamkonda Mallikarjuna, Nipun Kwatra, Mohit Jain. 4392-4399 [doi]

Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic ClassifierKai Wang 0060, Fei Yang 0004, Bogdan Raducanu, Joost van de Weijer 0001. 4400-4409 [doi]

Federated Voxel Scene Graph for Intracranial HemorrhageAntoine P. Sanner, Jonathan Stieber, Nils F. Grauhan, Suam Kim, Marc A. Brockmann, Ahmed E. Othman, Anirban Mukhopadhyay 0003. 4410-4419 [doi]

Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and EditingWenyi Mo, Tianyu Zhang, Yalong Bai, Bing Su 0001, Ji-Rong Wen. 4420-4429 [doi]

MAISI: Medical AI for Synthetic ImagingPengfei Guo, Can Zhao 0001, Dong Yang 0005, Ziyue Xu 0001, Vishwesh Nath, Yucheng Tang, Benjamin Simon, Mason Belue, Stephanie A. Harmon, Baris Turkbey, Daguang Xu. 4430-4441 [doi]

Investigating Imaging, Annotation and Self-Supervision for the Classification of Continuously Developing Cells in Histological Whole Slide ImagesSebastian Thiele, Jacqueline Kockwelp, Joachim Wistuba, Sabine Kliesch, Jörg Gromoll, Benjamin Risse. 4442-4451 [doi]

Structure-Aware Human Body Reshaping with Adaptive Affinity-Graph NetworkQiwen Deng, Yangcen Liu. 4452-4461 [doi]

Relaxing Binary Constraints in Contrastive Vision-Language Medical Representation LearningXiaoyang Wei, Camille Kurtz, Florence Cloppet. 4462-4471 [doi]

Diffusion-Based Conditional Image Editing Through Optimized Inference with GuidanceHyunsoo Lee, Minsoo Kang, Bohyung Han. 4472-4480 [doi]

Structured Human Assessment of Text-to-Image Generative ModelsCiprian A. Corneanu, Qianli Feng, Aleix M. Martínez. 4481-4490 [doi]

MemControl: Mitigating Memorization in Diffusion Models via Automated Parameter SelectionRaman Dutt, Ondrej Bohdal, Pedro Sanchez, Sotirios A. Tsaftaris, Timothy M. Hospedales. 4491-4501 [doi]

CUNSB-RFIE: Context-Aware Unpaired Neural Schrödinger Bridge in Retinal Fundus Image EnhancementXuanzhao Dong, Vamsi Krishna Vasa, Wenhui Zhu, Peijie Qiu, Xiwen Chen, Yi Su, Yujian Xiong, Zhangsihao Yang, Yanxi Chen, Yalin Wang 0001. 4502-4511 [doi]

Enhancing Predictive Imaging Biomarker Discovery Through Treatment Effect AnalysisShuhan Xiao, Lukas Klein, Jens Petersen, Philipp Vollmuth, Paul F. Jaeger, Klaus H. Maier-Hein. 4512-4522 [doi]

Inverting the Generation Process of Denoising Diffusion Implicit Models: Empirical Evaluation and a Novel MethodYan Zeng, Masanori Suganuma, Takayuki Okatani. 4516-4524 [doi]

WINE: Wavelet-Guided GAN Inversion and Editing for High-Fidelity RefinementChaewon Kim, Seung Jun Moon, Gyeong-Moon Park. 4523-4532 [doi]

AMNCutter: Affinity-Attention-Guided Multi-View Normalized Cutter for Unsupervised Surgical Instrument SegmentationMingyu Sheng, Jianan Fan, Dongnan Liu, Ron Kikinis, Weidong Cai 0001. 4533-4544 [doi]

Dense Depth from Event Focal StackKenta Horikawa, Mariko Isogawa, Hideo Saito, Shohei Mori. 4545-4553 [doi]

SyncDiff: Diffusion-Based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved SynchronizationXulin Fan, Heting Gao, Ziyi Chen 0005, Peng Chang 0002, Mei Han, Mark Hasegawa-Johnson. 4554-4563 [doi]

Morag - Multi-Fusion Retrieval Augmented Generation for Human MotionSai Shashank Kalakonda, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla. 4564-4573 [doi]

PULSE: Physiological Understanding with Liquid Signal ExtractionShahzad Ahmad, Sania Bano, Sachin Verma, Yogesh Singh Rawat, Sukalpa Chanda, Santosh Kumar Vipparthi, Subrahmanyam Murala. 4574-4584 [doi]

Corgi: Cached Memory Guided Video GenerationXindi Wu, Uriel Singer, Zhaojiang Lin, Andrea Madotto, Xide Xia, Yifan Xu, Paul A. Crook, Xin Luna Dong, Seungwhan Moon. 4585-4594 [doi]

MFTrans: A Multi-Resolution Fusion Transformer for Robust Tumor Segmentation in Whole Slide ImagesSungkyu Yang, Woohyun Park, Kwangil Yim, Mansu Kim. 4595-4605 [doi]

DiTAS: Quantizing Diffusion Transformers via Enhanced Activation SmoothingZhenyuan Dong, Sai Qian Zhang. 4606-4615 [doi]

TempA-VLP: Temporal-Aware Vision-Language Pretraining for Longitudinal Exploration in Chest X-Ray ImageZhuoyi Yang, Liyue Shen. 4625-4634 [doi]

DiffuCE: Expert-Level CBCT Image Enhancement Using a Novel Conditional Denoising Diffusion Model with Latent AlignmentFang-Yi Su, Tzu-Hung Chang, Jung-Hsien Chiang. 4635-4644 [doi]

Contrastive Sequential-Diffusion Learning: Non-Linear and Multi-Scene Instructional Video SynthesisVasco Ramos, Yonatan Bitton, Michal Yarom, Idan Szpektor, João Magalhães. 4645-4654 [doi]

SAM-Mamba: Mamba Guided SAM Architecture for Generalized Zero-Shot Polyp SegmentationTapas Kumar Dutta, Snehashis Majhi, Deepak Ranjan Nayak, Debesh Jha. 4655-4664 [doi]

SODA: Spectral Orthogonal Decomposition Adaptation for Diffusion ModelsXinxi Zhang, Song Wen 0001, Ligong Han, Felix Juefei-Xu, Akash Srivastava, JunZhou Huang, Vladimir Pavlovic 0001, Hao Wang 0014, Molei Tao, Dimitris N. Metaxas. 4665-4682 [doi]

Nestedmorph: Enhancing Deformable Medical Image Registration With Nested Attention MechanismsGurucharan Marthi Krishna Kumar, Janine D. Mendola, Amir Shmuel. 4683-4692 [doi]

2: Training-Free Mask Matching for Open-Vocabulary Semantic SegmentationYaoxin Zhuo, Zachary Bessinger, Lichen Wang, Naji Khosravan, Baoxin Li, Sing Bing Kang. 4693-4703 [doi]

Interactive Object Detection for Tiny Objects in Large Remotely Sensed ImagesMarvin Burges, Sebastian Zambanini, Robert Sablatnig. 4704-4713 [doi]

Cross-Modal Feature Alignment and MMD Improve Robustness of Prompt TuningJingchen Sun, Rohan Sharma, Vishnu Suresh Lokhande, Changyou Chen. 4714-4724 [doi]

GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-Grained Video-Language LearningYicheng Wang, Zhikang Zhang, Jue Wang, David Fan, Zhenlin Xu, Linda Liu, Xiang Hao, Vimal Bhat, Xinyu Li. 4725-4735 [doi]

Missiongnn: Hierarchical Multimodal GNN-Based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph GenerationSanggeon Yun, Ryozo Masukawa, Minhyoung Na, Mohsen Imani. 4736-4745 [doi]

PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh RecoveryWendi Yang, Zihang Jiang, Shang Zhao 0004, S. Kevin Zhou. 4746-4756 [doi]

MimicGait: A Model Agnostic approach for Occluded Gait Recognition Using Correlational Knowledge DistillationAyush Gupta, Rama Chellappa. 4757-4766 [doi]

WeedsGalore: A Multispectral and Multitemporal UAV-Based Dataset for Crop and Weed Segmentation in Agricultural Maize FieldsEkin Celikkan, Timo Kunzmann, Yertay Yeskaliyev, Sibylle Itzerott, Nadja Klein, Martin Herold 0001. 4767-4777 [doi]

CRAAC: Consistency Regularised Active Learning with Automatic Corrections for Real-Life Road Image AnnotationsPercy Lam, Sooyong Park, Weiwei Chen, Lavindra de Silva, Ioannis K. Brilakis. 4778-4787 [doi]

Benchmarking VLMs' Reasoning About Persuasive Atypical ImagesSina Malakouti, Aysan Aghazadeh, Ashmit Khandelwal, Adriana Kovashka. 4788-4798 [doi]

3D Synthesis for Architectural DesignI-Ting Tsai, Bharath Hariharan. 4799-4809 [doi]

Flowering Time Prediction of Wheat From DIA-MS DataYan Yang, Utpal Bose, James Broadbent, Sally Stockwell, Keren Byrne, Md. Zakir Hossain, Eric A. Stone, Shannon Dillon. 4810-4820 [doi]

FT2TF: First-Person Statement Text-to-Talking Face GenerationXingjian Diao, Ming Cheng 0004, Wayner Barrios, SouYoung Jin. 4821-4830 [doi]

Geometry-Aware Deep Learning for 3D Skeleton-Based Motion PredictionMayssa Zaier, Hazem Wannous, Hassen Drira. 4831-4840 [doi]

DisFlowEm : One-Shot Emotional Talking Head Generation Using Disentangled Pose and Expression Flow-GuidanceSanjana Sinha, Brojeshwar Bhowmick, Lokender Tiwari, Sushovan Chanda. 4841-4851 [doi]

Fine-Grained Spatial and Verbal Losses for 3D Visual GroundingSombit Dey, Ozan Unal, Christos Sakaridis, Luc Van Gool. 4852-4861 [doi]

Make-A-Texture: Fast Shape-Aware Texture Generation in 3 SecondsXiaoyu Xiang, Liat Sless Gorelik, Yuchen Fan, Omri Armstrong, Forrest N. Iandola, Yilei Li, Ita Lifshitz, Rakesh Ranjan. 4872-4881 [doi]

AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image ModelsAishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan. 4882-4890 [doi]

DiffMesh: A Motion-Aware Diffusion Framework for Human Mesh Recovery from VideosCe Zheng, Xianpeng Liu, Qucheng Peng, Tianfu Wu 0001, Pu Wang 0001, Chen Chen 0001. 4891-4901 [doi]

Active Learning for Vision-Language ModelsBardia Safaei 0002, Vishal M. Patel. 4902-4912 [doi]

A Multi-Task Supervised Compression Model for Split ComputingYoshitomo Matsubara, Matteo Mendula, Marco Levorato. 4913-4922 [doi]

EgoSonics: Generating Synchronized Audio for Silent Egocentric VideosAashish Rai, Srinath Sridhar 0002. 4935-4946 [doi]

SoundSil-DS: Deep Denoising and Segmentation of Sound-field Images with SilhouettesRisako Tanigawa, Kenji Ishikawa, Noboru Harada, Yasuhiro Oikawa. 4947-4956 [doi]

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmBingqing Zhang, Zhuo Cao, Heming Du, Xin Yu 0002, Xue Li 0001, Jiajun Liu, Sen Wang 0001. 4957-4967 [doi]

Semantically Conditioned Prompts for Visual Recognition Under Missing Modality ScenariosVittorio Pipoli, Federico Bolelli, Sara Sarto, Marcella Cornia, Lorenzo Baraldi 0002, Costantino Grana, Rita Cucchiara, Elisa Ficarra. 4968-4977 [doi]

WARLearn: Weather-Adaptive Representation LearningShubham Agarwal, Raz Birman, Ofer Hadar. 4978-4987 [doi]

Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context UnderstandingHai Nguyen-Truong, E-Ro Nguyen, Tuan Anh Vu, Minh-Triet Tran, Binh-Son Hua, Sai Kit Yeung. 4988-4998 [doi]

Partial Texture VAE: Color and Texture Encoder for Rock Particle ImagesTetsushi Yamada, Simone Di Santo. 4999-5008 [doi]

Talking Head Anime 4: Distillation for Real-Time PerformancePramook Khungurn. 5018-5029 [doi]

LATTECLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic TextsAnh-Quan Cao, Maximilian Jaritz, Matthieu Guillaumin, Raoul de Charette, Loris Bazzani. 5030-5040 [doi]

XR-MBT: Multi-Modal Full Body Tracking for XR Through Self-Supervision with Learned Depth Point Cloud RegistrationDenys Rozumnyi, Nadine Bertsch, Othman Sbai, Filippo Arcadu, Yuhua Chen, Artsiom Sanakoyeu, Manoj Kumar, Catherine Herold, Robin Kips. 5041-5050 [doi]

Similarity Over Factuality: Are we Making Progress on Multimodal Out-of-Context Misinformation Detection?Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis. 5041-5050 [doi]

Solar Multimodal Transformer: Intraday Solar Irradiance Predictor Using Public Cameras and Time SeriesYanan Niu, Roy Sarkis, Demetri Psaltis, Mario Paolone, Christophe Moser, Luisa Lambertini. 5051-5060 [doi]

Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic SegmentationSina Hajimiri, Ismail Ben Ayed, Jose Dolz. 5061-5071 [doi]

LORD: Large Models Based Opposite Reward Design for Autonomous DrivingXin Ye, Feng Tao, Abhirup Mallik, Burhaneddin Yaman, Liu Ren. 5072-5081 [doi]

CLFace: A Scalable and Resource-Efficient Continual Learning Framework for Lifelong Face RecognitionMd Mahedi Hasan, Shoaib Meraj Sami, Nasser M. Nasrabadi. 5082-5091 [doi]

ColorizeDiffusion: Improving Reference-Based Sketch Colorization with Latent Diffusion ModelDingkun Yan, Liang Yuan, Erwin Wu, Yuma Nishioka, Issei Fujishiro, Suguru Saito. 5092-5102 [doi]

Data Generation for Hardware-Friendly Post-Training QuantizationLior Dikstein, Ariel Lapid, Arnon Netzer, Hai Victor Habi. 5103-5113 [doi]

Event-Guided Video Transformer for End-to-End 3D Human Pose EstimationBo Lang, Mooi Choo Chuah. 5114-5124 [doi]

Deep Metric Learning for Unsupervised Remote Sensing Change DetectionWele Gedara Chaminda Bandara, Vishal M. Patel. 5125-5135 [doi]

Dance any Beat: Blending Beats with Visuals in Dance Video GenerationXuanchen Wang, Heng Wang 0007, Dongnan Liu, Weidong Cai 0001. 5136-5146 [doi]

OpenCity3D: What do Vision-Language Models Know About Urban Environments?Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann. 5147-5155 [doi]

Loose Social-Interaction Recognition in Real-World Therapy ScenariosAbid Ali 0002, Rui Dai 0001, Ashish Marisetty, Guillaume Astruc, Monique Thonnat, Jean-Marc Odobez, Susanne Thümmler, François Brémond. 5156-5165 [doi]

Detecting Wildfires on UAVs with Real-Time Segmentation Trained by Larger Teacher ModelsJulius Pesonen, Teemu Hakala, Väinö Karjalainen, Niko Koivumäki, Lauri Markelin, Anna-Maria Raita-Hakola, Juha Suomalainen, Ilkka Pölönen, Eija Honkavaara. 5166-5176 [doi]

ELBA: Learning by Asking for Embodied Visual Navigation and Task CompletionYing Shen 0006, Daniel Bis, Cynthia Lu, Ismini Lourentzou. 5177-5186 [doi]

Clarity Amidst Blur: A Deterministic Method for Synthetic Generation of Water Droplets on Camera LensesTim Dieter Eberhardt, Tim Brühl, Robin Schwager, Tin Stribor Sohn, Wilhelm Stork. 5187-5196 [doi]

PocoLoco: A Point Cloud Diffusion Model of Human Shape in Loose ClothingSiddharth Seth, Rishabh Dabral, Diogo C. Luvizon, Marc Habermann, Ming-Hsuan Yang 0001, Christian Theobalt, Adam Kortylewski. 5197-5206 [doi]

Localized Gaussian Splatting Editing with Contextual AwarenessHanyuan Xiao, Yingshu Chen, Huajian Huang, Haolin Xiong, Jing Yang, Pratusha Prasad, Yajie Zhao. 5207-5217 [doi]

Text Change Detection in Multilingual Documents Using Image ComparisonDoyoung Park, Naresh Reddy Yarram, Sunjin Kim, Minkyu Kim, Seongho Cho, Taehee Lee. 5218-5227 [doi]

FLAIR: A Conditional Diffusion Framework with Applications to Face Video RestorationZihao Zou, Jiaming Liu 0001, Shirin Shoushtari, Yubo Wang, Ulugbek S. Kamilov. 5228-5238 [doi]

Recoverable Anonymization for Pose Estimation: A Privacy-Enhancing ApproachWenjun Huang, Yang Ni 0001, Arghavan Rezvani, SungHeon Jeong 0001, Hanning Chen, Yezi Liu, Fei Wen, Mohsen Imani. 5239-5249 [doi]

DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Remote Sensing Change DetectionWele Gedara Chaminda Bandara, Nithin Gopalakrishnan Nair, Vishal M. Patel. 5250-5262 [doi]

ComFace: Facial Representation Learning with Synthetic Data for Comparing FacesYusuke Akamatsu, Terumi Umematsu, Hitoshi Imaoka, Shizuko Gomi, Hideo Tsurushima. 5263-5273 [doi]

Enhancing Visual Classification Using Comparative DescriptorsHankyeol Lee, Gawon Seo, Wonseok Choi 0014, Geunyoung Jung, Kyungwoo Song, Jiyoung Jung. 5274-5283 [doi]

ANTHROPOS-V: Benchmarking the Novel Task of Crowd Volume EstimationLuca Collorone, Stefano D'Arrigo, Massimiliano Pappa, Guido Maria D'Amely di Melendugno, Giovanni Ficarra, Fabio Galasso. 5284-5294 [doi]

Importance-Guided Interpretability and Pruning for Video Transformers in Driver Action RecognitionRaquel Panadero, Dominik Schörkhuber, Margrit Gelautz. 5295-5304 [doi]

Multimodal Interpretable Depression Analysis Using Visual, Physiological, Audio and Textual DataPuneet Kumar 0003, Shreshtha Misra, Zhuhong Shao, Bin Zhu, Balasubramanian Raman, Xiaobai Li. 5305-5315 [doi]

ColFigPhotoAttnNet: Reliable Finger Photo Presentation Attack Detection Leveraging Window-Attention on Color SpacesAnudeep Vurity, Emanuela Marasco, Raghavendra Ramachandra, Jongwoo Park. 5316-5325 [doi]

VM-Gait: Multi-Modal 3D Representation Based on Virtual Marker for Gait RecognitionZhao-Yang Wang, Jiang Liu 0014, Jieneng Chen, Rama Chellappa. 5326-5335 [doi]

Moment of Untruth: Dealing with Negative Queries in Video Moment RetrievalKevin Flanagan, Dima Damen, Michael Wray. 5336-5345 [doi]

CLIPScope: Enhancing Zero-Shot OOD Detection with Bayesian ScoringHao Fu, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami. 5346-5355 [doi]

Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text GuidanceAhmad Arrabi, Xiaohan Zhang, Waqas Sultani, Chen Chen 0001, Safwan Wshah. 5356-5366 [doi]

A Realistic Protocol for Evaluation of Weakly Supervised Object LocalizationShakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger. 5367-5376 [doi]

An Investigation on LLMs' Visual Understanding Ability Using SVG for Image-Text BridgingMu Cai, Zeyi Huang, Yuheng Li, Utkarsh Ojha, Haohan Wang, Yong Jae Lee. 5377-5386 [doi]

DashCop: Automated E-Ticket Generation for Two-Wheeler Traffic Violations Using Dashcam VideosDeepti Rawat, Keshav Gupta, Aryamaan Basu Roy, Ravi Kiran Sarvadevabhatla. 5387-5397 [doi]

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose InformationBumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo. 5398-5407 [doi]

SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic CameraYuhang He, Sangyun Shin, Anoop Cherian, Niki Trigoni, Andrew Markham. 5408-5418 [doi]

SyncViolinist: Music-Oriented Violin Motion Generation Based on Bowing and FingeringHiroki Nishizawa, Keitaro Tanaka, Asuka Hirata, Shugo Yamaguchi, Qi Feng, Masatoshi Hamanaka, Shigeo Morishima. 5419-5428 [doi]

UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain RetrievalHaoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, Jun-Yan He, Qi Dai 0001, Xian-Sheng Hua 0001. 5429-5438 [doi]

Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly DetectionJash Dalvi, Ali Dabouei, Gunjan Dhanuka, Min Xu. 5439-5448 [doi]

Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language ModelsRaza Imam, Hanan Gani, Muhammad Huzaifa, Karthik Nandakumar. 5449-5459 [doi]

Meta-Learning for Color-to-Infrared Cross-Modal Style TransferEvelyn A. Stump, Francesco Luzi, Leslie M. Collins, Jordan M. Malof. 5460-5469 [doi]

I3D-AE-LSTM: A 2-Stream Autoencoder for Action Quality Assessment Using a Newly Created Cricket Batsman Video DatasetTevin Moodley, Dustin van der Haar. 5470-5478 [doi]

Generative Model-Based Fusion for Improved Few-Shot Semantic Segmentation of Infrared ImagesJunno Yun, Mehmet Akçakaya. 5479-5488 [doi]

Q-TempFusion: Quantization-Aware Temporal Multi-Sensor Fusion on Bird's-Eye View RepresentationPinrui Yu, Zhenglun Kong, Pu Zhao 0001, Peiyan Dong, Hao Tang 0005, Fei Sun, Xue Lin 0001, Yanzhi Wang. 5489-5499 [doi]

Aerial Mirage: Unmasking Hallucinations in Large Vision Language ModelsDebolena Basak, Soham Bhatt, Sahith Kanduri, Maunendra Sankar Desarkar. 5500-5508 [doi]

SCOT: Self-Supervised Contrastive Pretraining for Zero-Shot Compositional RetrievalBhavin Jawade, João V. B. Soares, Kapil Thadani, Deen Dayal Mohan, Amir Erfan Eshratifar, Benjamin Culpepper, Paloma de Juan, Srirangaraj Setlur, Venu Govindaraju. 5509-5519 [doi]

CLASS: Conditional Latent Architecture for Search and Synthesis of Design LayoutsDipu Manandhar, Paul Guerrero 0001, Zhaowen Wang, John P. Collomosse. 5520-5529 [doi]

Now you see Me: Context-Aware Automatic Audio DescriptionSeon-Ho Lee, Jue Wang, David Fan, Zhikang Zhang, Linda Liu, Xiang Hao, Vimal Bhat, Xinyu Li. 5530-5539 [doi]

Modality-Incremental Learning with Disjoint Relevance Mapping Networks for Image-Based Semantic SegmentationNiharika Hegde, Shishir Muralidhara, René Schuster, Didier Stricker. 5540-5549 [doi]

Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt EnsemblingDonggeun Kim, Yujin Jo, Myungjoo Lee, Taesup Kim. 5550-5559 [doi]

Self-Supervised Learning with Probabilistic Density Labeling for Rainfall Probability EstimationJunha Lee, Sojung An, Sujeong You, Nam Ik Cho. 5560-5569 [doi]

Closing the Domain Gap in Manga Colorization via Aligned Paired DatasetMaksim Golyadkin, Ianis Plevokas, Ilya Makarov. 5580-5590 [doi]

VisualFusion: Enhancing Blog Content with Advanced Infographic PipelineAnurag Deo, Savita Bhat, Shirish S. Karande. 5591-5600 [doi]

TimberVision: A Multi-Task Dataset and Framework for Log-Component Segmentation and Tracking in Autonomous Forestry OperationsDaniel Steininger, Julia Simon, Andreas Trondl, Markus Murschitz. 5601-5610 [doi]

Differentially Private Integrated Decision Gradients (IDG-DP) for Radar-Based Human Activity RecognitionIdris Zakariyya, Linda Tran, Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni. 5611-5622 [doi]

The FineView Dataset: A 3D Scanned Multi-View Object Dataset of Fine-Grained Category InstancesSuguru Onda, Ryan Farrell. 5623-5634 [doi]

One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question AnsweringDeepayan Das, Davide Talon, Massimiliano Mancini, Yiming Wang 0002, Elisa Ricci 0001. 5635-5645 [doi]

Image Adaptation for Colour Vision Deficient Viewers Using Vision TransformersTom Gillooly, Jean-Baptiste Thomas, Jon Yngve Hardeberg, Giuseppe Claudio Guarnera. 5646-5655 [doi]

SenCLIP: Enhancing Zero-Shot Land-Use Mapping for Sentinel-2 with Ground-Level PromptingPallavi Jain 0004, Dino Ienco, Roberto Interdonato, Tristan Berchoux, Diego Marcos. 5656-5665 [doi]

Hyperdimensional Representation for Adaptive Information Association and MemorizationZhuowen Zou, Prathyush Poduval, Narayan Srinivasa, Mohsen Imani. 5666-5675 [doi]

Design-O-Meter: Towards Evaluating and Refining Graphic DesignsSahil Goyal, Abhinav Mahajan, Swasti Mishra, Prateksha Udhayanan, Tripti Shukla, K. J. Joseph, Balaji Vasan Srinivasan. 5676-5686 [doi]

AgroGPT : Efficient Agricultural Vision-Language Model with Expert TuningMuhammad Awais, Ali Husain Salem Abdulla Alharthi, Amandeep Kumar, Hisham Cholakkal, Rao Muhammad Anwer. 5687-5696 [doi]

Learning Visual-Semantic Hierarchical Attribute Space for Interpretable Open-Set RecognitionZhuo Xu, Xiang Xiang 0001. 5697-5706 [doi]

Long-Term Ad Memorability: Understanding & Generating Memorable AdsHarini S. I, Somesh Singh 0003, Yaman Kumar Singla, Aanisha Bhattacharyya, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Balaji Krishnamurthy. 5707-5718 [doi]

A Parametric Approach to Adversarial Augmentation for Cross-Domain Iris Presentation Attack DetectionDebasmita Pal, Redwan Sony, Arun Ross. 5719-5729 [doi]

Cross-Aligned Fusion For Multimodal UnderstandingAbhishek Rajora, Shubham Gupta, Suman Kundu. 5730-5740 [doi]

Advancing Chart Question Answering with Robust Chart Component RecognitionHanwen Zheng, Sijia Wang, Chris Thomas 0004, Lifu Huang. 5741-5750 [doi]

Unleashing Potentials of Vision-Language Models for Zero-Shot HOI DetectionMoyuru Yamada, Nimish Dharamshi, Ayushi Kohli, Prasad Kasu, Ainulla Khan, Manu Ghulyani. 5751-5760 [doi]

Robust Long-Range Perception Against Sensor Misalignment in Autonomous VehiclesZi-Xiang Xia, Sudeep Fadadu, Yi Shi, Louis Foucard. 5761-5770 [doi]

DocMatcher: Document Image Dewarping via Structural and Textual Line MatchingFelix Hertlein, Alexander Naumann, York Sure-Vetter. 5771-5780 [doi]

NeuroViG - Integrating Event Cameras for Resource-Efficient Video GroundingDulanga Weerakoon, Vigneshwaran Subbaraju, Joo-Hwee Lim, Archan Misra. 5781-5790 [doi]

LogicNet: A Logical Consistency Embedded Face Attribute Learning NetworkHaiyu Wu, Sicong Tian, Huayu Li, Kevin W. Bowyer. 5791-5800 [doi]

UAL-Bench: The First Comprehensive Unusual Activity Localization BenchmarkHasnat Md Abdullah, Tian Liu 0006, Kangda Wei, Shu Kong, Ruihong Huang. 5801-5811 [doi]

AdQuestA: Knowledge-Guided Visual Question Answer Framework for AdvertisementsNeha Choudhary, Poonam Goyal, Devashish Siwatch, Atharva Chandak, Harsh Mahajan, Varun Khurana, Yaman Kumar 0001. 5812-5821 [doi]

OPTIMUS: Observing Persistent Transformations in Multi-Temporal Unlabeled Satellite-DataRaymond Yu, Paul Han, Piper Wolters, Favyen Bastani. 5822-5830 [doi]

EgoCast: Forecasting Egocentric Human Pose in the WildMaría Escobar, Juanita Puentes, Cristhian Forigua, Jordi Pont-Tuset, Kevis-Kokitsi Maninis, Pablo Arbeláez. 5831-5841 [doi]

Patch Ranking: Token Pruning as Ranking Prediction for Efficient CLIPCheng-En Wu, Jinhong Lin, Yu Hen Hu, Pedro Morgado 0001. 5842-5851 [doi]

Utilizing Uncertainty in 2D Pose Detectors for Probabilistic 3D Human Mesh RecoveryTom Wehrbein, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt. 5852-5862 [doi]

PositiveCoOp: Rethinking Prompting Strategies for Multi-Label Recognition with Partial AnnotationsSamyak Rawlekar, Shubhang Bhatnagar, Narendra Ahuja. 5863-5872 [doi]

CardioSyntax: End-to-End SYNTAX Score Prediction - Dataset, Benchmark and MethodAlexander Ponomarchuk, Ivan Kruzhilov, Gleb Mazanov, Ruslan Utegenov, Artem Shadrin, Galina Zubkova, Ivan Bessonov, Pavel Blinov. 5873-5883 [doi]

Cascaded Dual Vision Transformer for Accurate Facial Landmark DetectionZiqiang Dang, Jianfang Li, Lin Liu. 5884-5894 [doi]

PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific ForestsCharles Gaydon, Floryne Roche. 5895-5904 [doi]

Enhancing Vision-Language Few-Shot Adaptation with Negative LearningCe Zhang 0009, Simon Stepputtis, Katia P. Sycara, Yaqi Xie. 5905-5915 [doi]

DiffQRCoder: Diffusion-Based Aesthetic QR Code Generation with Scanning Robustness Guided Iterative RefinementJia-Wei Liao, Winston Wang, Tzu-Sian Wang, Li-Xuan Peng, Ju-Hsuan Weng, Cheng-Fu Chou, Jun-Cheng Chen. 5916-5925 [doi]

DualCIR: Enhancing Training-Free Composed Image Retrieval via Dual-Directional DescriptionsJingjiao Zhao, Jiaju Li, Dongze Lian, Liguo Sun, Pin Lv. 5926-5936 [doi]

Deduce and Select Evidences with Language Models for Training-Free Video Goal InferenceEe Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando. 5937-5947 [doi]

Social EgoMesh EstimationLuca Scofano, Alessio Sampieri, Edoardo De Matteis, Indro Spinelli, Fabio Galasso. 5948-5958 [doi]

DyRoNet: Dynamic Routing and Low-Rank Adapters for Autonomous Driving Streaming PerceptionXiang Huang 0004, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Baigui Sun. 5959-5968 [doi]

VILLS: Video-Image Learning to Learn Semantics for Person Re-IdentificationSiyuan Huang, Ram Prabhakar, Yuxiang Guo, Rama Chellappa, Cheng Peng 0008. 5969-5979 [doi]

A Generic Vehicle-to-Sensor Calibration FrameworkSumin Hu, Youngmin Yoo, Jeeseong Kim, Changsoo Lim, Doohyun Cho, Bongnam Kang. 5980-5989 [doi]

Crackstructures and Crackensembles: The Power of Multi-View for 2.5D Crack DetectionChristian Benz, Volker Rodehorst. 5990-5999 [doi]

Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?Shuo Chen 0014, Zhen Han 0003, Bailan He, Jianzhe Liu, Mark Buckley, Yao Qin 0001, Philip Torr 0001, Volker Tresp, Jindong Gu. 6000-6010 [doi]

Click&Describe: Multimodal Grounding and Tracking for Aerial ObjectsRupanjali Kukal, Jay Patravali, Fuxun Yu, Simranjit Singh 0003, Nikolaos Karianakis, Rishi Madhok. 6011-6021 [doi]

HeightMapNet: Explicit Height Modeling for End-to-End HD Map LearningWenzhao Qiu, Shanmin Pang, Hao Zhang, Jianwu Fang, Jianru Xue. 6022-6031 [doi]

DiHuR: Diffusion-Guided Generalizable Human ReconstructionJinnan Chen, Chen Li 0038, Gim Hee Lee. 6032-6041 [doi]

ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual AdvertisingAshutosh Chaubey, Anoubhav Agrawal, Sartaki Sinha Roy, Aayush Agrawal, Susmita Ghose. 6042-6052 [doi]

An Image is Worth Multiple Words: Multi-Attribute Inversion for Constrained Text-To-Image SynthesisAishwarya Agarwal, Srikrishna Karanam, Tripti Shukla, Balaji Vasan Srinivasan. 6053-6062 [doi]

A Regional-Level Resource-Saving Model for Winter Road Surface Snow Detection in Extreme WeathersXinhao Zhou, Tong Wang, Zhaodong Liu, Hao Wei, Guangyuan Pan. 6063-6072 [doi]

I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask InpaintingNicola Fanelli, Gennaro Vessio, Giovanna Castellano. 6073-6082 [doi]

DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language ModelsEman Ali, Sathira Silva, Muhammad Haris Khan. 6083-6093 [doi]

Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental AttacksZijiao Yang 0002, Xiangxi Shi, Eric Slyman, Stefan Lee. 6094-6103 [doi]

UniTMGE: Uniform Text-Motion Generation and Editing Model via DiffusionRuoyu Wang, Yangfan He, Tengjiao Sun, Xiang Li, Tianyu Shi. 6104-6114 [doi]

Leveraging CLIP Encoder for Multimodal Emotion RecognitionYehun Song, Sunyoung Cho. 6115-6124 [doi]

Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality AnalysisPo-Hsuan Huang, Jeng-Lin Li, Chin-Po Chen, Ming-Ching Chang, Wei-Chao Chen. 6125-6135 [doi]

Can Location Embeddings Enhance Super-Resolution of Satellite Imagery?Daniel Panangian, Ksenia Bittner. 6136-6145 [doi]

Bandwidth-Efficient Communication Modelling for Autonomous Vehicle Collaborative PerceptionDinghao Jin, Yuan Zeng, Yi Gong. 6146-6155 [doi]

ConvMixFormer- A Resource-Efficient Convolution Mixer for Transformer-Based Dynamic Hand Gesture RecognitionMallika Garg, Debashis Ghosh, Pyari Mohan Pradhan. 6156-6166 [doi]

Uncertainty-Aware Online Extrinsic Calibration: A Conformal Prediction ApproachMathieu Cocheteux, Julien Moreau 0001, Franck Davoine. 6167-6176 [doi]

BroadTrack: Broadcast Camera Tracking for SoccerFloriane Magera, Thomas Hoyoux, Olivier Barnich, Marc Van Droogenbroeck. 6177-6187 [doi]

Towards High-fidelity Head Blending with Chroma Keying for Industrial ApplicationsHah Min Lew, Sahng-Min Yoo, Hyunwoo Kang, Gyeong-Moon Park. 6188-6196 [doi]

Multi-Modal Large Language Model with RAG Strategies in Soccer Commentary GenerationXiang Li, Yangfan He, Shuaishuai Zu, Zhengyang Li, Tianyu Shi, Yiting Xie, Kevin Zhang. 6197-6206 [doi]

Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language ModelsNiloufar Alipour Talemi, Hossein Kashiani, Fatemeh Afghah. 6207-6216 [doi]

Generalist YOLO: Towards Real-Time End-to-End Multi-Task Visual Language ModelsHung-Shuo Chang, Chien-Yao Wang, Richard Robert Wang, Gene Chou, Hong-Yuan Mark Liao. 6217-6227 [doi]

No Annotations for Object Detection in Art Through Stable DiffusionPatrick Ramos, Nicolas Gonthier, Selina Khan, Yuta Nakashima, Noa Garcia. 6228-6237 [doi]

On Which Data Distribution (Synthetic or Real) We Should Rely for Soft Biometric ClassificationManju R. A, Atul Kumar, Akshay Agarwal 0001. 6238-6247 [doi]

Unsupervised Domain Adaptive Visual Question Answering in the Era of Multi-Modal Large Language ModelsWeixi Weng, Rui Zhang, Xiaojun Meng, Jieming Zhu, Qun Liu 0001, Chun Yuan. 6248-6258 [doi]

Re-identifying People in Video via Learned Temporal Attention and Multi-modal Foundation ModelsCole Hill, Florence Yellin, Krishna Regmi, Dawei Du, Scott McCloskey. 6259-6268 [doi]

CL-Cross VQA: A Continual Learning Benchmark for Cross-Domain Visual Question AnsweringYao Zhang, Haokun Chen, Ahmed Frikha 0002, Denis Krompass, Gengyuan Zhang, Jindong Gu, Volker Tresp. 6269-6278 [doi]

EfficientCrackNet: A Lightweight Model for Crack SegmentationAbid Hasan Zim, Aquib Iqbal, Zaid Al-Huda, Asad Malik, Minoru Kuribayashi. 6279-6289 [doi]

Sifting Through the Haystack - Efficiently Finding Rare Animal Behaviors in Large-Scale DatasetsShir Bar, Or Hirschorn, Roi Holzman, Shai Avidan. 6290-6299 [doi]

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human PerformanceHuakun Shen, Boyue Caroline Hu, Krzysztof Czarnecki 0001, Lina Marsso, Marsha Chechik. 6300-6310 [doi]

PGRID: Power Grid Reconstruction in Informal Developments Using High-Resolution Aerial ImagerySimone Fobi Nsutezo, Amrita Gupta, Duncan Kebut, Seema Iyer, Luana Marotti, Rahul Dodhia, Juan M. Lavista Ferres, Anthony Ortiz. 6311-6319 [doi]

Leveraging Vision Language Models for Specialized Agricultural TasksMuhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar. 6320-6329 [doi]

BioPose: Biomechanically-Accurate 3D Pose Estimation from Monocular VideosFarnoosh Koleini, Muhammad Usama Saleem, Pu Wang 0001, Hongfei Xue, Ahmed Helmy, Abbey Fenwick. 6330-6339 [doi]

Information Extraction from Heterogeneous Documents Without Ground Truth Labels Using Synthetic Label Generation and Knowledge DistillationAniket Bhattacharyya, Anurag Tripathi. 6351-6361 [doi]

LLaVA-SpaceSGG: Visual Instruct Tuning for Open-Vocabulary Scene Graph Generation with Enhanced Spatial RelationsMingjie Xu, Mengyang Wu, Yuzhi Zhao, Jason Chun Lok Li, Weifeng Ou. 6362-6372 [doi]

DragonTrack: Transformer-Enhanced Graphical Multi-Person Tracking in Complex ScenariosBishoy Galoaa, Somaieh Amraee, Sarah Ostadabbas. 6373-6382 [doi]

Learning Semi-Supervised Medical Image Segmentation from Spatial RegistrationQianying Liu, Paul Henderson, Xiao Gu 0003, Hang Dai, Fani Deligianni. 6383-6393 [doi]

Strategic Base Representation Learning via Feature Augmentations for Few-Shot Class Incremental LearningParinita Nema, Vinod K. Kurmi. 6394-6403 [doi]

3D Understanding of Deformable Linear Objects: Datasets and Transferability BenchmarkBare Luka Zagar, Mingyu Liu, Tim Hertel, Ekim Yurtsever, Alois Knoll. 6404-6414 [doi]

PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language InterpretationRyozo Masukwa, Sanggeon Yun, Yoshiki Yamaguchi, Mohsen Imani. 6415-6424 [doi]

Memory-Efficient Pseudo-Labeling for Online Source-Free Universal Domain Adaptation using a Gaussian Mixture ModelPascal Schlachter, Simon Wagner, Bin Yang 0009. 6425-6434 [doi]

Enhancing Monocular Depth Estimation with Multi-Source Auxiliary TasksAlessio Quercia, Erenus Yildiz, Zhuo Cao, Kai Krajsek, Abigail Morrison, Ira Assent, Hanno Scharr. 6435-6445 [doi]

Label Calibration in Source Free Domain AdaptationShivangi Rai, Rini Smita Thakur, Kunal Jangid, Vinod K. Kurmi. 6446-6455 [doi]

Zero-Shot Class Unlearning in CLIP with Synthetic SamplesAlexey Kravets, Vinay P. Namboodiri. 6456-6464 [doi]

Defending Against Repetitive Backdoor Attacks on Semi-Supervised Learning Through Lens of Rate-Distortion-Perception Trade-OffCheng-Yi Lee, Ching-Chia Kao, Cheng-Han Yeh, Chun-Shien Lu, Chia-Mu Yu, Chu-Song Chen. 6465-6474 [doi]

PICASSO: A Feed-Forward Framework for Parametric Inference of CAD Sketches via Rendering Self-SupervisionAhmet Serdar Karadeniz, Dimitrios Mallis, Nesryne Mejri, Kseniya Cherenkova, Anis Kacem 0001, Djamila Aouada. 6475-6484 [doi]

Pixel-Wise Shuffling with Collaborative Sparsity for Melanoma Hyperspectral Image ClassificationFavour Ekong, Jun Zhou 0001, Kwabena Sarpong, Yongsheng Gao 0001. 6485-6494 [doi]

Domain-Guided Weight Modulation for Semi-Supervised Domain GeneralizationChamuditha Jayanga Galappaththige, Zachary Izzo, Xilin He, Honglu Zhou, Muhammad Haris Khan. 6495-6505 [doi]

Pre-trained Multiple Latent Variable Generative Models are Good Defenders Against Adversarial AttacksDario Serez, Marco Cristani, Alessio Del Bue, Vittorio Murino, Pietro Morerio. 6506-6516 [doi]

PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation LearningXiaoyu Liu, Beitong Zhou, Zuogong Yue, Cheng Cheng. 6517-6527 [doi]

Combining Inherent Knowledge of Vision-Language Models with Unsupervised Domain Adaptation Through Strong-Weak GuidanceThomas Westfechtel, Dexuan Zhang, Tatsuya Harada. 6528-6537 [doi]

Class-Conditioned Transformation for Enhanced Robust Image ClassificationTsachi Blau, Roy Ganz, Chaim Baskin, Michael Elad, Alex M. Bronstein. 6538-6547 [doi]

GeneralizeFormer: Layer-Adaptive Model Generation Across Test-Time Distribution ShiftsSameer Ambekar, Zehao Xiao, Xiantong Zhen, Cees G. M. Snoek. 6548-6558 [doi]

PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene RearrangementShutong Jin, Ruiyu Wang, Kuangyi Chen, Florian T. Pokorny. 6559-6569 [doi]

Cross-Domain Multi-Modal Few-Shot Object Detection via Rich TextZeyu Shangguan, Daniel Seita, Mohammad Rostami. 6570-6580 [doi]

2Mix: Adversarial and Adaptive Mixup for Unsupervised Domain AdaptationLei Zhu 0003, Yanyu Xu, Yong Liu 0026, Rick Siow Mong Goh, Xinxing Xu. 6581-6590 [doi]

A Video is Worth 10, 000 Words: Training and Benchmarking with Diverse Captions for Better Long Video RetrievalMatthew Gwilliam, Michael Cogswell, Meng Ye 0002, Karan Sikka, Abhinav Shrivastava, Ajay Divakaran. 6591-6601 [doi]

DiffPAD: Denoising Diffusion-Based Adversarial Patch DecontaminationJia Fu 0001, Xiao Zhang, Sepideh Pashami, Fatemeh Rahimian, Anders Holst. 6602-6611 [doi]

Removing Geometric Bias in One-Class Anomaly Detection with Adaptive Feature PerturbationRomain Hermary, Vincent Gaudillière, Abd El Rahman Shabayek, Djamila Aouada. 6612-6622 [doi]

Visual Robustness Benchmark for Visual Question Answering (VQA)Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md. Hamjajul Ashmafee, Abu Raihan Mostofa Kamal, Md. Azam Hossain. 6623-6633 [doi]

Online-LoRA: Task-Free Online Continual Learning via Low Rank AdaptationXiwen Wei, Guihong Li, Radu Marculescu. 6634-6645 [doi]

Task Configuration Impacts Annotation Quality and Model Training Performance in Crowdsourced Image SegmentationBenjamin Bauchwitz, Mary L. Cummings. 6646-6656 [doi]

Shapley Consensus Deep Learning for Ensemble PruningYoucef Djenouri, Ahmed Nabil Belbachir, Asma Belhadi, Nassim Belmecheri, Tomasz P. Michalak. 6657-6666 [doi]

VG-SSL: Benchmarking Self-Supervised Representation Learning Approaches for Visual Geo-LocalizationJiuhong Xiao, Gao Zhu, Giuseppe Loianno. 6667-6677 [doi]

MLLM-Tool: A Multimodal Large Language Model for Tool Agent LearningChenyu Wang, Weixin Luo, Sixun Dong, Xiaohua Xuan, Zhengxin Li, Lin Ma 0002, Shenghua Gao. 6678-6687 [doi]

CycleCrash: A Dataset of Bicycle Collision Videos for Collision Prediction and AnalysisNishq Poorav Desai, Ali Etemad, Michael A. Greenspan. 6688-6698 [doi]

ReC- Ttt: Contrastive Feature Reconstruction for Test-Time TrainingMarco Colussi, Sergio Mascetti, Jose Dolz, Christian Desrosiers. 6699-6708 [doi]

Bit-Flip Induced Latency Attacks in Object DetectionManojna Sistla, Yu Wen 0003, Aamir Bader Shah, Chenpei Huang, Lening Wang, Xuqing Wu 0001, Jiefu Chen, Miao Pan, Xin Fu. 6709-6718 [doi]

MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement LearningJiarui Sun, M. Ugur Akcal, Girish Chowdhary 0001, Wei Zhang 0189. 6719-6729 [doi]

QuantAttack: Exploiting Quantization Techniques to Attack Vision TransformersAmit Baras, Alon Zolfi, Yuval Elovici, Asaf Shabtai. 6730-6740 [doi]

Multi-task Learning of Classification and Generation for Set-structured DataFumioki Sato, Hideaki Hayashi, Hajime Nagahara. 6741-6751 [doi]

Feature Fusion Transferability Aware Transformer for Unsupervised Domain AdaptationXiaowei Yu, Zhe Huang, Zao Zhang. 6752-6761 [doi]

Distillation of Diffusion Features for Semantic CorrespondenceFrank Fundel, Johannes Schusterbauer, Vincent Tao Hu, Björn Ommer. 6762-6774 [doi]

SAM-DA: Decoder Adapter for Efficient Medical Domain AdaptationJavier Gamazo Tejero, Moritz Schmid, Pablo Márquez-Neila, Martin S. Zinkernagel, Sebastian Wolf 0005, Raphael Sznitman. 6775-6784 [doi]

Are Exemplar-Based Class Incremental Learning Models Victim of Black-Box Poison Attacks?Neeresh Kumar Perla, Md. Iqbal Hossain, Afia Sajeeda, Ming Shao. 6785-6794 [doi]

Towards On-the-Fly Novel Category Discovery in Dynamic Long-Tailed DistributionsHoin Jung, Xiaoqian Wang 0001. 6795-6804 [doi]

Dam: Dynamic Adapter Merging for Continual Video QA LearningFeng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius. 6805-6817 [doi]

Multi-Surrogate-Teacher Assistance for Representation Alignment in Fingerprint-Based Indoor LocalizationSon Minh Nguyen, Tran Duy Linh, Duc Viet Le 0002, Paul J. M. Havinga. 6818-6827 [doi]

AMP-ViT: Optimizing Vision Transformer Efficiency with Adaptive Mixed-Precision Post-Training QuantizationYu-Shan Tai, An-Yeu Andy Wu. 6828-6837 [doi]

Feature Augmentation Based Test-Time AdaptationYounggeol Cho, Youngrae Kim, Junho Yoon, Seunghoon Hong, Dongman Lee. 6838-6847 [doi]

Label Convergence: Defining an Upper Performance Bound in Object Recognition Through Contradictory AnnotationsDavid Tschirschwitz, Volker Rodehorst. 6848-6857 [doi]

SpaGBOL: Spatial-Graph-Based Orientated LocalisationTavis Shore, Oscar Mendez, Simon Hadfield. 6858-6867 [doi]

Learning to Identify Seen, Unseen and Unknown in the Open World: A Practical Setting for Zero-Shot LearningSethupathy Parameswaran, Yuan Fang 0001, Chandan Gautam, Savitha Ramasamy, Xiaoli Li 0001. 6868-6878 [doi]

Federated Source-Free Domain Adaptation for Classification: Weighted Cluster Aggregation for Unlabeled DataJunki Mori, Kosuke Kihara, Taiki Miyagawa, Akinori F. Ebihara, Isamu Teranishi, Hisashi Kashima. 6879-6889 [doi]

MAGMA: Manifold Regularization for MAEsAlin Dondera, Anuj Singh, Hadi Jamali Rad. 6890-6899 [doi]

DrIFT: Autonomous Drone Dataset with Integrated Real and Synthetic Data, Flexible Views, and Transformed DomainsFardad Dadboud, Hamid Azad, Varun Mehta, Miodrag Bolic, Iraj Mantegh. 6900-6910 [doi]

RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data SamplesXiwen Chen, Huayu Li, Peijie Qiu, Wenhui Zhu, Rahul Amin, Abolfazl Razi. 6911-6920 [doi]

Enhancing Embodied Object Detection with Spatial Feature MemoryNicolas Harvey Chapman, Christopher F. Lehnert, Will N. Browne, Feras Dayoub. 6921-6931 [doi]

Temporal Dynamics in Visual Data: Analyzing the Impact of Time on Classification AccuracyTom Pégeot, Eva Feillet, Adrian Popescu 0001, Inna Kucher, Bertrand Delezoide. 6932-6943 [doi]

TACLE: Task and Class-Aware Exemplar-Free Semi-Supervised Class Incremental LearningJayateja Kalla, Rohit Kumar, Soma Biswas. 6944-6954 [doi]

Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision TransformersTobias Christian Nauen, Sebastian Palacio, Federico Raue, Andreas Dengel 0001. 6955-6966 [doi]

SV-data2vec: Guiding Video Representation Learning with Latent Skeleton TargetsZorana Dozdor, Tomislav Hrkac, Zoran Kalafatic. 6967-6976 [doi]

Image-Caption Encoding for Improving Zero-Shot GeneralizationEric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis, Brian Kulis. 6977-6986 [doi]

Semantic Prompting with Image Token for Continual LearningJisu Han, Jaemin Na, Wonjun Hwang. 6987-6997 [doi]

Semantic Clustering of Image Retrieval Databases used for Visual LocalizationHenry Hölzemann, Torsten Fiolka. 6998-7007 [doi]

LowFormer: Hardware Efficient Design for Convolutional Transformer BackbonesMoritz Nottebaum, Matteo Dunnhofer, Christian Micheloni. 7008-7018 [doi]

Identity Curvature Laplace Approximation for Improved Out-of-Distribution DetectionMaksim Zhdanov, Stanislav Dereka, Sergey Kolesnikov. 7019-7028 [doi]

Uncertainty-Guided Metric Learning Without LabelsDhanunjaya Varma Devalraju, C. Chandra Sekhar. 7029-7038 [doi]

Uncertainty-Guided Cross Attention Ensemble Mean Teacher for Semi-Supervised Medical Image SegmentationMeghana Karri, Amit Soni Arya, Koushik Biswas, Nicolo Gennaro, Vedat Cicek, Gorkem Durak, Yuri S. Velichko, Ulas Bagci. 7039-7048 [doi]

Can Adversarial Examples be Parsed to Reveal Victim Model Information?Yuguang Yao, Jiancheng Liu, Yifan Gong 0004, Xiaoming Liu 0002, Yanzhi Wang, Xue Lin 0001, Sijia Liu 0001. 7049-7061 [doi]

Knockoff Branch: Model Stealing Attack via Adding Neurons in the Pre-Trained ModelLi-Ying Hung, Cooper Cheng-Yuan Ku. 7062-7070 [doi]

SwinIA: Self-Supervised Blind-Spot Image Denoising Without ConvolutionsMikhail Papkov, Pavel Chizhov, Leopold Parts. 7071-7080 [doi]

Needles & Haystacks: Dataset and Benchmark for Domain-Agnostic Image-Based Rigid Slice-to-Volume RegistrationAnton Frolov 0003, Florian Kleiner, Christiane Rößler, Volker Rodehorst. 7081-7091 [doi]

CLIPArTT: Adaptation of CLIP to New Domains at Test TimeGustavo Adolfo Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers. 7092-7101 [doi]

CLIPping Imbalances: A Novel Evaluation Baseline and PEARL Dataset for Pedestrian Attribute RecognitionKamalakar Vijay Thakare, Lalit Lohani, Kamakshya Prasad Nayak, Debi Prosad Dogra, Heeseung Choi, Hyungjoo Jung, Ig-Jae Kim. 7102-7111 [doi]

Decomposed Distribution Matching in Dataset CondensationSahar Rahimi Malakshan, Mohammad Saeed Ebrahimi Saadabadi, Ali Dabouei, Nasser M. Nasrabadi. 7112-7122 [doi]

Adversarial Attention Deficit: Fooling Deformable Vision Transformers with Collaborative Adversarial PatchesQuazi Mishkatul Alam, Bilel Tarchoun, Ihsen Alouani, Nael B. Abu-Ghazaleh. 7123-7132 [doi]

Multi-Level Feature Distillation of Joint Teachers Trained on Distinct Image DatasetsAdrian Iordache, Bogdan Alexe, Radu-Tudor Ionescu. 7133-7142 [doi]

OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray AnalysisVandan Gorade, Azad Singh, Deepak Mishra 0003. 7143-7152 [doi]

Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the EdgeNicholas John Eliopoulos, Purvish Jajal, James C. Davis 0001, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu. 7153-7162 [doi]

Multi-Label Continual Learning for the Medical Domain: A Novel BenchmarkMarina Ceccon, Davide Dalle Pezze, Alessandro Fabris, Gian Antonio Susto. 7163-7172 [doi]

PC-GZSL: Prior Correction for Generalized Zero Shot LearningS. Divakar Bhat, Amit More, Mudit Soni, Bhuvan Aggarwal. 7173-7183 [doi]

SPACE: SPAtial-Aware Consistency rEgularization for Anomaly Detection in Industrial ApplicationsDaehwan Kim, Hyungmin Kim, Daun Jeong, Sungho Suh, Hansang Cho. 7184-7194 [doi]

Deciphering the Complaint Aspects: Towards an Aspect-Based Complaint Identification Model with Video Complaint Dataset in FinanceSarmistha Das, Basha Mujavarsheik, R. E. Zera Lyngkhoi, Sriparna Saha, Alka Maurya. 7195-7204 [doi]

Guardian of the Ensembles: Introducing Pairwise Adversarially Robust Loss for Resisting Adversarial Attacks in DNN EnsemblesShubhi Shukla 0001, Subhadeep Dalui, Manaar Alam, Shubhajit Datta, Arijit Mondal, Debdeep Mukhopadhyay, Partha Pratim Chakrabarti. 7205-7214 [doi]

CRAFT: Designing Creative and Functional 3D ObjectsMichelle Guo, Mia Tang, Hannah Cha, Ruohan Zhang, C. Karen Liu, Jiajun Wu 0001. 7215-7224 [doi]

Tuned Contrastive LearningChaitanya Animesh, Manmohan Chandraker. 7225-7234 [doi]

IRIS-VIS: A New Dataset for Visibility Estimation in an Industrial EnvironmentFlavien Armangeon, Thibaud Ehret, Enric Meinhardt-Llopis, Rafael Grompone von Gioi, Guillaume Thibault, Marc Petit, Gabriele Facciolo. 7235-7243 [doi]

Advancing Weight and Channel Sparsification with Enhanced SaliencyXinglong Sun, Maying Shen, Hongxu Yin, Lei Mao, Pavlo Molchanov 0001, José M. Álvarez 0004. 7244-7255 [doi]

SHIP: Structural Hierarchies for Instance-Dependent Partial LabelsTushar Kadam, Utkarsh Mishra, Aakarsh Malhotra. 7256-7265 [doi]

Heterogeneous Datasets for Unsupervised Image Anomaly DetectionJuan Pablo Lagos, Haider Ali, Adnan Faroque, Esa Rahtu. 7266-7276 [doi]

LLM-RSPF: Large Language Model-Based Robotic System Planning Framework for Domain Specific Use-casesChandan Kumar Singh, Devesh Kumar, Vipul Sanap, Rajesh Sinha. 7277-7286 [doi]

GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural NetworksMehran Hosseini, Peyman Hosseini. 7287-7297 [doi]

AdaPrefix++: Integrating Adapters, Prefixes and Hypernetwork for Continual LearningSayanta Adhikari, Dupati Srikar Chandra, P. K. Srijith, Pankaj Wasnik, Naoyuki Onoe. 7298-7307 [doi]

A 0-Shot Self-Attention Mechanism for Accelerated Diagonal AttentionViti Mario, Nadiya Shvai, Arcadi Llanza, Amir Nakib. 7308-7315 [doi]

Relational Self-Supervised Distillation with Compact Descriptors for Image Copy DetectionJuntae Kim, Sungwon Woo, Jongho Nang. 7316-7325 [doi]

Learning Under Noisy Labels, Spurious Points, and Diverse Structures: TS40K, a 3D Point Cloud Dataset of Rural Terrain and Electrical Transmission SystemsDiogo Lavado, Ricardo Santos, André Coelho, João Santos, Alessandra Micheletti, Cláudia Soares. 7326-7336 [doi]

Cross Image Feature Perturbation with Pseudo Label Fusion for Semi-Supervised Medical Image SegmentationMinxia Xu, Han Yang, Bo Song, Weida Hu, Jinshui Miao, Erkang Cheng. 7337-7347 [doi]

Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point CloudAyumu Saito, Prachi Kudeshia, Jiju Poovvancheri. 7348-7357 [doi]

A Two-Head Loss Function for Deep Average-K ClassificationCamille Garcin, Maximilien Servajean, Alexis Joly, Joseph Salmon. 7358-7367 [doi]

Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision TransformersDiana-Nicoleta Grigore, Mariana-Iuliana Georgescu, Jon Álvarez Justo, Tor Arne Johansen, Andreea Iuliana Ionescu, Radu-Tudor Ionescu. 7368-7378 [doi]

CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction DatasetsTanay Agrawal, Mohammed Guermal, Michal Balazia, François Brémond. 7379-7388 [doi]

Fair Domain Generalization with Heterogeneous Sensitive Attributes Across DomainsRagja Palakkadavath, Hung Le 0002, Thanh Nguyen-Tang, Sunil Gupta 0001, Svetha Venkatesh. 7389-7398 [doi]

Data-Efficient Alignment in Medical Imaging via Reconfigurable Generative NetworksDivya Saxena, Jiannong Cao 0001, Jiahao Xu, Tarun Kulshrestha. 7399-7408 [doi]

Robust Novelty Detection Through Style-Conscious Feature RankingStefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu. 7409-7418 [doi]

When Visual State Space Model Meets Backdoor AttacksSankalp Nagaonkar, Achyut Mani Tripathi, Ashish Mishra. 7419-7428 [doi]

Learning Instance-Specific Parameters of Black-Box Models Using Differentiable SurrogatesArnisha Khondaker, Nilanjan Ray. 7429-7438 [doi]

ARTeFACT: Benchmarking Segmentation Models on Diverse Analogue Media DamageDaniela Ivanova, Marco Aversa, Paul Henderson, John Williamson 0001. 7439-7449 [doi]

CLIP-Fusion: A Spatio-Temporal Quality Metric for Frame InterpolationGöksel Mert Çökmez, Yang Zhang 0003, Christopher Schroers, Tunç Ozan Aydin. 7450-7459 [doi]

Socially-Informed Reconstruction for Pedestrian Trajectory ForecastingHaleh Damirchi, Ali Etemad, Michael A. Greenspan. 7460-7469 [doi]

MENTOR: Human Perception-Guided Pretraining for Increased GeneralizationColton R. Crum, Adam Czajka. 7470-7479 [doi]

To Ask or Not to Ask? Detecting Absence of Information in Vision and Language NavigationSavitha Sam Abraham, Sourav Garg, Feras Dayoub. 7480-7489 [doi]

Incorporating Task Progress Knowledge for Subgoal Generation in Robotic Manipulation through Image EditsXuhui Kang, Yen-ling Kuo. 7490-7499 [doi]

MixDiff: Mixing Natural and Synthetic Images for Robust Self-Supervised RepresentationsReza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi. 7500-7511 [doi]

AIC3DOD: Advancing Indoor Class-Incremental 3D Object Detection with Point Transformer Architecture and Room Layout ConstraintsZhongyao Cheng, Fang Wu, Peisheng Qian, Ziyuan Zhao, XuLei Yang. 7512-7521 [doi]

KDC-MAE: Knowledge Distilled Contrastive Mask Auto-EncoderMaheswar Bora, Saurabh Atreya, Aritra Mukherjee, Abhijit Das 0001. 7522-7532 [doi]

EvoCL: Continual Learning over Evolving DomainsVishnuprasadh Kumaravelu, P. K. Srijith, Sunil Gupta 0001. 7533-7541 [doi]

Difficulty, Diversity, and Plausibility: Dynamic Data-Free QuantizationCheeun Hong, Sungyong Baik, Junghun Oh, Kyoung Mu Lee. 7542-7551 [doi]

Semiotic-Based Construction of a Large Emotional Image Dataset with Neutral SamplesMarco Blanchini, Giovanna Maria Dimitri, Lydia Abady, Benedetta Tondi, Tarcisio Lancioni, Mauro Barni. 7552-7561 [doi]

Exploring the Stability Gap in Continual Learning: The Role of the Classification HeadWojciech Lapacz, Daniel Marczak, Filip Szatkowski, Tomasz Trzcinski. 7562-7571 [doi]

RiemStega: Covariance-Based Loss for Print-Proof Transmission of Data in ImagesAniana Cruz, Guilherme Schardong, Luiz Schirmer, João Marcos 0002, Farhad Shadmand, Nuno Gonçalves 0001. 7572-7581 [doi]

Low-Frequency Black-Box Backdoor Attack via Evolutionary AlgorithmYanqi Qiao, Dazhuang Liu, Rui Wang 0070, Kaitai Liang. 7582-7592 [doi]

NAT: Learning to Attack Neurons for Enhanced Adversarial TransferabilityKrishna Kanth Nakka, Alexandre Alahi. 7593-7604 [doi]

CISOL: An Open and Extensible Dataset for Table Structure Recognition in the Construction IndustryDavid Tschirschwitz, Volker Rodehorst. 7605-7613 [doi]

High-Fidelity Document Stain Removal via A Large-Scale Real-World Dataset and A Memory-Augmented TransformerMingxian Li, Hao Sun, Yingtie Lei, Xiaofeng Zhang, Yihang Dong, Yilin Zhou, Zimeng Li, Xuhang Chen 0002. 7614-7624 [doi]

A Reality Check on Pre-training for Exemplar-free Class-Incremental LearningEva Feillet, Adrian Popescu 0001, Céline Hudelot. 7625-7636 [doi]

SynDroneVision: A Synthetic Dataset for Image-Based Drone DetectionTamara R. Lenhard, Andreas Weinmann, Kai Franke, Tobias Koch 0004. 7637-7647 [doi]

ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark DatasetOlaf Wysocki, Yue Tan, Thomas Froech, Yan Xia 0003, Magdalena Wysocki, Ludwig Hoegner, Daniel Cremers, Christoph Holst. 7648-7658 [doi]

A Semantically Impactful Image Manipulation Dataset: Characterizing Image Manipulations Using Semantic SignificanceYuwei Chen, Ming-Ching Chang, Matthias Kirchner, Zhenfei Zhang, Xin Li 0005, Arslan Basharat, Anthony Hoogs. 7659-7668 [doi]

Comparative Evaluation of 3D Reconstruction Methods for Object Pose EstimationVarun Burde, Assia Benbihi, Pavel Burget, Torsten Sattler. 7669-7681 [doi]

EDMB: Edge Detector with MambaYachuan Li, Xavier Soria Poma, Yun Bai, Qian Xiao, Chaozhi Yang, Guanlin Li, Zongmin Li. 7682-7691 [doi]

Efficient Progressive Image Compression with Variance-Aware MaskingAlberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto, Pamela C. Cosman. 7692-7700 [doi]

Comparative Knowledge DistillationAlex Tianyi Xu, Alex Wilf, Paul Pu Liang, Alexander Obolenskiv, Daniel Fried, Louis-Philippe Morency. 7701-7710 [doi]

LiLMaps: Learnable Implicit Language MapsEvgenii Kruzhkov, Sven Behnke. 7711-7720 [doi]

SADDLe: Sharpness-Aware Decentralized Deep Learning with Heterogeneous DataSakshi Choudhary, Sai Aparna Aketi, Kaushik Roy 0001. 7731-7741 [doi]

A Rapid Test for Accuracy and Bias of Face Recognition TechnologyManuel Knott 0001, Ignacio Serna, Ethan Mann, Pietro Perona. 7742-7751 [doi]

SEED4D: A Synthetic Ego-Exo Dynamic 4D Data Generator, Driving Dataset and BenchmarkMarius Kästingschäfer, Théo Gieruc, Sebastian Bernhard, Dylan Campbell, Eldar Insafutdinov, Eyvaz Najafli, Thomas Brox. 7752-7764 [doi]

BioNet and NeFF: Crop Biomass Prediction from Point Clouds to Drone ImageryXuesong Li 0001, Zeeshan Hayder, Ali Zia, Connor Cassidy, Shiming Liu, Warwick Stiller, Eric A. Stone, Warren Conaty, Lars Petersson, Vivien Rolland. 7765-7775 [doi]

Information Theoretic Pruning of Coupled Channels in Deep Neural NetworksPeyman Rostami, Nilotpal Sinha, Nidhaleddine Chenni, Anis Kacem 0001, Abd El Rahman Shabayek, Carl Shneider, Djamila Aouada. 7776-7786 [doi]

Rethinking Low-Rank Adaptation in Vision: Exploring Head-Level Responsiveness across Diverse TasksYibo Zhong, Yao Zhou. 7787-7796 [doi]

Mamba-ST: State Space Model for Efficient Style TransferFilippo Botti, Alex Ergasti, Leonardo Rossi, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati 0001. 7797-7806 [doi]

LLS: Local Learning Rule for Deep Neural Networks Inspired by Neural Activity SynchronizationMarco Paul E. Apolinario, Arani Roy, Kaushik Roy 0001. 7807-7816 [doi]

Automated Evaluation of Large Vision-Language Models on Self-Driving Corner CasesKai Chen 0023, Yanze Li, Wenhua Zhang, Yanxin Liu, Pengxiang Li, Ruiyuan Gao 0001, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia 0012. 7817-7826 [doi]

FAIR-TAT: Improving Model Fairness Using Targeted Adversarial TrainingTejaswini Medi, Steffen Jung 0001, Margret Keuper. 7827-7836 [doi]

Towards Robust Training via Gradient-Diversified BackpropagationXilin He, Cheng Luo, Qinliang Lin, Weicheng Xie 0001, Muhammad Haris Khan, Siyang Song, LinLin Shen. 7847-7856 [doi]

Delta-NAS: Difference of Architecture Encoding for Predictor-Based Evolutionary Neural Architecture SearchArjun Sridhar, Yiran Chen 0001. 7857-7865 [doi]

SANPO: A Scene Understanding, Accessibility and Human Navigation DatasetSagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko. 7866-7875 [doi]

GTA-HDR: A Large-Scale Synthetic Dataset for HDR Image ReconstructionHrishav Bakul Barua, Kalin Stefanov, KokSheik Wong, Abhinav Dhall, Ganesh Krishnasamy. 7876-7886 [doi]

Sign Language Recognition: A Large-scale Multi-view Dataset and Comprehensive EvaluationNguyen Son Dinh, Tuan-Dung Nguyen, Duc Tri Tran, Nguyen Dang Huy Pham, Thuan Hieu Tran, Ngoc Anh Tong, Quang Huy Hoang, Phi-Le Nguyen. 7887-7897 [doi]

Token Turing Machines are Efficient Vision ModelsPurvish Jajal, Nick John Eliopoulos, Benjamin Shiue-Hal Chou, George K. Thiravathukal, James C. Davis 0001, Yung-Hsiang Lu. 7898-7907 [doi]

ROADS: Robust Prompt-Driven Multi-Class Anomaly Detection Under Domain ShiftHossein Kashiani, Niloufar Alipour Talemi, Fatemeh Afghah. 7908-7917 [doi]

PivotAlign: Improve Semi-Supervised Learning by Learning Intra-Class Heterogeneity and Aligning with PivotsLingjie Yi, Tao Sun 0009, Yikai Zhang 0003, Songzhu Zheng, Weimin Lyu, Haibin Ling, Chao Chen 0012. 7918-7927 [doi]

Self-Supervised Anomaly Segmentation via Diffusion Models with Dynamic Transformer UNetKomal Kumar, Snehashis Chakraborty, Dwarikanath Mahapatra, Behzad Bozorgtabar, Sudipta Roy 0002. 7928-7938 [doi]

Robot Instance Segmentation with Few Annotations for GraspingMoshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro. 7939-7949 [doi]

Memory-efficient Continual Learning with Neural Collapse ContrastiveTrung-Anh Dang, Vincent Nguyen, Ngoc-Son Vu, Christel Vrain. 7950-7959 [doi]

Identify Backdoored Model in Federated Learning via Individual UnlearningJiahao Xu, Zikai Zhang, Rui Hu. 7960-7969 [doi]

Mind the Prompt: A Novel Benchmark for Prompt-Based Class-Agnostic CountingLuca Ciampi, Nicola Messina, Matteo Pierucci, Giuseppe Amato 0001, Marco Avvenuti, Fabrizio Falchi. 7970-7979 [doi]

TRNeRF: Restoring Blurry, Rolling Shutter, and Noisy Thermal Images with Neural Radiance FieldsSpencer Carmichael, Manohar Bhat, Mani Ramanagopal, Austin Buchan, Ram Vasudevan, Katherine A. Skinner. 7980-7990 [doi]

Improving Uncertainty Estimation with Confidence-Aware Training DataSergey Korchagin, Ekaterina Zaychenkova, Aleksei Khalin, Aleksandr Yugay, Alexey Zaytsev 0002, Egor I. Ershov. 7991-8001 [doi]

Learning the Power of "No": Foundation Models with NegationsJaisidh Singh, Ishaan Shrivastava, Mayank Vatsa, Richa Singh 0001, Aparna Bharati. 8002-8012 [doi]

Disentangling Spatio-Temporal Knowledge for Weakly Supervised Object Detection and Segmentation in Surgical VideoGuiqiu Liao, Matjaz Jogan, Sai Koushik, Eric Eaton, Daniel A. Hashimoto. 8013-8023 [doi]

Disentangle Source and Target Knowledge for Continual Test-Time AdaptationTianyi Ma, Maoying Qiao. 8024-8034 [doi]

Uncertainty and Energy based Loss Guided Semi-Supervised Semantic SegmentationRini Smita Thakur, Vinod K. Kurmi. 8035-8045 [doi]

Local Masked Reconstruction for Efficient Self-Supervised Learning on High-Resolution ImagesJun Chen 0021, Faizan Farooq Khan, Ming Hu, Ammar Sherif, ZongYuan Ge, Boyang Li 0001, Mohamed Elhoseiny. 8046-8056 [doi]

Learning Visual Grounding from Generative Vision and Language ModelShijie Wang, Dahun Kim, Ali Taalimi, Chen Sun 0002, Weicheng Kuo. 8057-8067 [doi]

OmniDiffusion: Reformulating 360 Monocular Depth Estimation Using Semantic and Surface Normal Conditioned DiffusionPayal Mohadikar, Ye Duan. 8068-8078 [doi]

MFTIQ: Multi-Flow Tracker with Independent Matching Quality EstimationJonás Serých, Michal Neoral, Jiri Matas. 8079-8089 [doi]

MatSpectNet: Material Segmentation Network with Domain-Aware and Physically-Constrained Hyperspectral ReconstructionYuwen Heng, Yihong Wu 0004, Srinandan Dasmahapatra, Hansung Kim. 8090-8100 [doi]

Temporally Grounding Instructional Diagrams in Unconstrained VideosJiahao Zhang, Frederic Z. Zhang, Cristian Rodriguez, Yizhak Ben-Shabat, Anoop Cherian, Stephen Gould. 8101-8111 [doi]

An Encoder-Agnostic Weakly Supervised Method For Describing TexturesShangbo Mao, Deepu Rajan. 8112-8121 [doi]

Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object DetectionKhurram Azeem Hashmi, Talha Uddin Sheikh, Didier Stricker, Muhammad Zeshan Afzal. 8122-8133 [doi]

PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map ConstructionNan Peng, Xun Zhou, Mingming Wang, Xiaojun Yang, Songming Chen, Guisong Chen. 8134-8143 [doi]

Self-Supervised Incremental Learning of Object Representations from Arbitrary Image SetsGeorge Leotescu, Alin-Ionut Popa, Diana Grigore, Daniel Voinea, Pietro Perona. 8144-8154 [doi]

A Simple-but-Effective Baseline for Training-Free Class-Agnostic CountingYuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi. 8155-8164 [doi]

TreeFormer: Single-View Plant Skeleton Estimation via Tree-Constrained Graph GenerationXinpeng Liu 0007, Hiroaki Santo, Yosuke Toda, Fumio Okura. 8165-8175 [doi]

Dynamic Adapter Tuning for Long-Tailed Class-Incremental LearningYanan Gu, Muli Yang, Xu Yang, Kun Wei, Hongyuan Zhu, Gabriel James Goenawan, Cheng Deng. 8176-8185 [doi]

ReMix: Training Generalized Person Re-Identification on a Mixture of DataTimur Z. Mamedov, Anton Konushin, Vadim Konushin. 8186-8196 [doi]

Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain AdaptationShen Zheng, Anurag Ghosh, Srinivasa G. Narasimhan. 8197-8206 [doi]

Decoupled PROB: Decoupled Query Initialization Tasks and Objectness-Class Learning for Open World Object DetectionRiku Inoue, Masamitsu Tsuchiya, Yuji Yasui. 8207-8216 [doi]

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP InversionPhilipp Allgeuer, Kyra Ahrens, Stefan Wermter. 8217-8228 [doi]

CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density ForecastingRyo Fujii, Ryo Hachiuma, Hideo Saito. 8229-8238 [doi]

Paladin: Understanding Video Intentions in Political Advertisement VideosHong Liu, Yuta Nakashima, Noboru Babaguchi. 8239-8248 [doi]

Inferring Past Human Actions in Homes with Abductive ReasoningClement Tan, Chai Kiat Yeo, Cheston Tan, Basura Fernando. 8249-8258 [doi]

Domain Generalization using Large Pretrained Models with Mixture-of-AdaptersGyuseong Lee, Wooseok Jang, Jinhyeon Kim, Jaewoo Jung, Seungryong Kim. 8259-8269 [doi]

Enriching Local Patterns with Multi-Token Attention for Broad-Sight Neural NetworksHankyul Kang, Jongbin Ryu. 8270-8279 [doi]

AH-OCDA: Amplitude-Based Curriculum Learning and Hopfield Segmentation Model for Open Compound Domain AdaptationJaehyun Choi, Junwon Ko, Dong-Jae Lee, Junmo Kim. 8280-8290 [doi]

Exploiting VLM Localizability and Semantics for Open Vocabulary Action DetectionWentao Bao, Kai Li 0012, Yuxiao Chen 0002, Deep Patel, Martin Renqiang Min, Yu Kong 0001. 8291-8301 [doi]

RapidNet: Multi-Level Dilated Convolution Based Mobile BackboneMustafa Munir, Md Mostafijur Rahman, Radu Marculescu. 8302-8312 [doi]

CIRCOD: Co-Saliency Inspired Referring Camouflaged Object DiscoveryAvi Gupta, Koteswar Rao Jerripothula, Tammam Tillo. 8313-8323 [doi]

Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional VideosTakehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto 0001, Yoshitaka Ushiku, Yoichi Sato. 8324-8335 [doi]

TAM-VT: Transformation-Aware Multi-Scale Video Transformer for Segmentation and TrackingRaghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal. 8336-8345 [doi]

Dropout Connects Transformers and CNNs: Transfer General Knowledge for Knowledge DistillationBokyeung Lee, Jonghwan Hong, Hyunuk Shin, Bonhwa Ku, Hanseok Ko. 8346-8355 [doi]

CACE: Sim-to-Real Indoor 3D Semantic Segmentation via Context-Aware Augmentation and Consistency EnforcementTsung-Yu Chen, Luyu Yang, Tzu-Yu Chuang, Shang-Hong Lai. 8356-8367 [doi]

Feature Design for Bridging SAM and CLIP Toward Referring Image SegmentationKoichiro Ito. 8368-8378 [doi]

Re-Evaluating Group Robustness via Adaptive Class-Specific ScalingSeonguk Seo, Bohyung Han. 8379-8388 [doi]

Revisiting Disparity from Dual-Pixel Images: Physics-Informed Lightweight Depth EstimationTeppei Kurita, Yuhi Kondo, Legong Sun, Takayuki Sasaki, Sho Nitta, Yasuhiro Hashimoto, Yoshinori Muramatsu, Yusuke Moriuchi. 8389-8399 [doi]

Multi-Spectral Image Color ReproductionJiacheng Li 0004, Chang Chen, Xue Hu, Fenglong Song, Youliang Yan, Zhiwei Xiong. 8400-8409 [doi]

uLayout: Unified Room Layout Estimation for Perspective and Panoramic ImagesJonathan Lee, Bolivar Solarte, Chin-Hsuan Wu, Jin-Cheng Jhang, Fu-En Wang, Yi-Hsuan Tsai, Min Sun 0001. 8410-8419 [doi]

Effective Scene Graph Generation by Statistical Relation DistillationThanh-Son Nguyen 0001, Hong Yang, Basura Fernando. 8420-8430 [doi]

RAW-Diffusion: RGB-Guided Diffusion Models for High-Fidelity RAW Image GenerationChristoph Reinders, Radu Berdan, Beril Besbinar, Junji Otsuka, Daisuke Iso. 8431-8443 [doi]

Class-Agnostic Visio-Temporal Scene Sketch Semantic SegmentationAleyna Kütük, Tevfik Metin Sezgin. 8444-8453 [doi]

SensorFlow: Sensor and Image Fused Video StabilizationJiyang Yu, Tianhao Zhang, Fuhao Shi, Lei He, Chia-Kai Liang. 8454-8463 [doi]

Explicit Guidance for Robust Video Frame Interpolation Against Discontinuous MotionsJaehyun Park, Nam Ik Cho. 8464-8473 [doi]

Finding Dino: A Plug-and-Play Framework for Zero-Shot Detection of Out-of-Distribution Objects Using PrototypesPoulami Sinhamahapatra, Franziska Schwaiger, Shirsha Bose, Huiyu Wang, Karsten Roscher, Stephan Günnemann. 8474-8483 [doi]

Pix2Poly: A Sequence Prediction Method for End-to-End Polygonal Building Footprint Extraction from Remote Sensing ImageryYeshwanth Kumar Adimoolam, Charalambos Poullis, Melinos Averkiou. 8484-8493 [doi]

SegBuilder: A Semi-Automatic Annotation Tool for SegmentationMd Alimoor Reza, Eric Manley, Sean Chen, Sameer Chaudhary, Jacob Elafros. 8494-8503 [doi]

FDS: Feedback-Guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain GeneralizationAli Bahri, Mehrdad Noori, Gustavo Adolfo Vargas Hakim, Ismail Ben Ayed, Milad Cheraghalikhani, David Osowiechi, Christian Desrosiers, Moslem Yazdanpanah. 8504-8514 [doi]

EchoDFKD: Data-Free Knowledge Distillation for Cardiac Ultrasound Segmentation Using Synthetic DataGrégoire Petit, Nathan Palluau, Axel Bauer, Clemens Dlaska. 8515-8524 [doi]

ERM++: An Improved Baseline for Domain GeneralizationPiotr Teterwak, Kuniaki Saito, Theodoros Tsiligkaridis, Kate Saenko, Bryan A. Plummer. 8525-8535 [doi]

Beyond Grids: Exploring Elastic Input Sampling for Vision TransformersAdam Pardyl, Grzegorz Kurzejamski, Jan Olszewski, Tomasz Trzcinski, Bartosz Zielinski 0001. 8536-8545 [doi]

Exploiting Inter-Sample Information for Long-Tailed Out-of-Distribution DetectionNimeshika Udayangani, Hadi M. Dolatabadi, Sarah M. Erfani, Christopher Leckie. 8546-8555 [doi]

EgoPoints: Advancing Point Tracking for Egocentric VideosAhmad Darkhalil, Rhodri Guerrier, Adam W. Harley, Dima Damen. 8556-8565 [doi]

Attention-Based Class-Conditioned Alignment for Multi-Source Domain Adaptation of Object DetectorsAtif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger. 8566-8575 [doi]

MetaVIn: Meteorological and Visual Integration for Atmospheric Turbulence Strength EstimationRipon Kumar Saha, Scott McCloskey, Suren Jayasuriya. 8576-8585 [doi]

Background-Aware Moment Detection for Video Moment RetrievalMinjoon Jung, Youwon Jang, Seongho Choi 0001, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang. 8586-8596 [doi]

ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive ProcessingYuka Ogino, Yuho Shoji, Takahiro Toizumi, Atsushi Ito. 8597-8605 [doi]

TORE: Token Recycling in Vision Transformers for Efficient Active Visual ExplorationJan Olszewski, Dawid Rymarczyk, Piotr Wójcik, Mateusz Pach, Bartosz Zielinski 0001. 8606-8616 [doi]

Multi-Modal Large Language Models are Effective Vision LearnersLi Sun 0010, Chaitanya Ahuja, Peng Chen, Matt D'Zmura, Kayhan Batmanghelich, Philip Bontrager. 8617-8626 [doi]

SpiralMLP: A Lightweight Vision MLP ArchitectureHaojie Mu, Burhan Ul Tayyab, Nicholas Chua. 8627-8637 [doi]

HDPNet: Hourglass Vision Transformer with Dual-Path Feature Pyramid for Camouflaged Object DetectionJinpeng He, Biyuan Liu, Huaixin Chen. 8638-8647 [doi]

Recognizing Unseen States of Unknown Objects by Leveraging Knowledge GraphsFilippos Gouidis, Konstantinos E. Papoutsakis, Theodore Patkos, Antonis A. Argyros, Dimitris Plexousakis. 8648-8659 [doi]

Epipolar Attention Field Transformers for Bird's Eye View Semantic SegmentationChristian Witte, Jens Behley, Cyrill Stachniss, Marvin Raaijmakers. 8660-8669 [doi]

DarSwin-Unet: Distortion Aware ArchitectureAkshaya Athwale, Ichrak Shili, Émile Bergeron, Ola Ahmad, Jean-François Lalonde. 8670-8680 [doi]

Efficient Video Object Segmentation via Modulated Cross-Attention MemoryAbdelrahman M. Shaker, Syed Talal Wasim, Martin Danelljan, Salman H. Khan 0001, Ming-Hsuan Yang 0001, Fahad Shahbaz Khan. 8681-8690 [doi]

Transferable-Guided Attention Is All You Need for Video Domain AdaptationAndré Sacilotti, Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida. 8691-8701 [doi]

Unsupervised Video Highlight Detection by Learning from Audio and Visual RecurrenceZahidul Islam, Sujoy Paul, Mrigank Rochan. 8702-8711 [doi]

Feature-Level and Spatial-Level Activation Expansion for Weakly-Supervised Semantic SegmentationJunsu Choi, Jin-Seop Lee, Noo-ri Kim, SuHyun Yoon, Jee-Hyong Lee 0001. 8712-8722 [doi]

Transientangelo: Few-Viewpoint Surface Reconstruction Using Single-Photon LidarWeihan Luo, Anagh Malik, David B. Lindell. 8723-8733 [doi]

Detective Networks: Enhancing Disaster Recognition in Images Through Attention Shifting Using Optimal MaskingNarongthat Thanyawet, Photchara Ratsamee, Yuki Uranishi, Haruo Takemura. 8734-8743 [doi]

ElasticLaneNet: An Efficient Geometry-Flexible Lane Detection FrameworkYaxin Feng, Yuan Lan, Luchan Zhang, Yang Xiang 0002. 8744-8753 [doi]

Learning to Count from Pseudo-Labeled SegmentationJingyi Xu, Hieu Le 0001, Dimitris Samaras. 8754-8763 [doi]

Semantic Prompt Learning for Weakly-Supervised Semantic SegmentationCi-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen. 8764-8774 [doi]

Detecting Origin Attribution for Text-to-Image Diffusion ModelsKatherine Xu, Lingzhi Zhang, Jianbo Shi. 8775-8785 [doi]

TPP-Gaze: Modelling Gaze Dynamics in Space and Time with Neural Temporal Point ProcessesAlessandro D'Amelio, Giuseppe Cartella, Vittorio Cuculo, Manuele Lucchi, Marcella Cornia, Rita Cucchiara, Giuseppe Boccignone. 8786-8795 [doi]

DASC-SPT: Towards Self-Supervised Panoramic Semantic SegmentationTianlong Tan, Bin Chen 0021, Hongliang Cao, Chenggang Yan 0001, Yike Ma, Feng Dai. 8796-8805 [doi]

Shape-Biased Texture Agnostic Representations for Improved Textureless and Metallic Object Detection and 6D Pose EstimationPeter Hönig, Stefan Thalhammer, Jean-Baptiste Weibel, Matthias Hirschmanner, Markus Vincze. 8806-8815 [doi]

ActionDiffusion: An Action-Aware Diffusion Model for Procedure Planning in Instructional VideosLei Shi 0032, Paul C. Bürkner, Andreas Bulling. 8816-8825 [doi]

Improving Zero-Shot Object-Level Change Detection by Incorporating Visual CorrespondenceHung Huy Nguyen, Pooyan Rahmanzadehgervi, Long Mai, Anh Totti Nguyen. 8826-8833 [doi]

HSDA: High-Frequency Shuffle Data Augmentation for Bird's-Eye-View Map SegmentationCalvin Glisson, Qiuxiao Chen. 8834-8843 [doi]

TRH2TQA: Table Recognition with Hierarchical Relationships to Table Question-Answering on Business Table ImagesPongsakorn Jirachanchaisiri, Nam Tuan Ly, Atsuhiro Takasu. 8844-8852 [doi]

Perceive. Query & Reason: Enhancing Video QA with Question-Guided Temporal QueriesRoberto Amoroso, Gengyuan Zhang, Rajat Koner, Lorenzo Baraldi 0002, Rita Cucchiara, Volker Tresp. 8853-8862 [doi]

Adaptive Deviation Learning for Visual Anomaly Detection with Data ContaminationAnindya Sundar Das 0002, Guansong Pang, Monowar H. Bhuyan. 8863-8872 [doi]

Physiology-Aware PolySnake for Coronary Vessel SegmentationYizhe Ruan, Lin Gu 0003, Yusuke Kurose, Junichi Iho, Youji Tokunaga, Makoto Horie, Yusaku Hayashi, Keisuke Nishizawa, Yasushi Koyama, Tatsuya Harada. 8873-8882 [doi]

Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense KnowledgeBowen Jiang, Zhijun Zhuang, Shreyas S. Shivakumar, Camillo J. Taylor. 8883-8894 [doi]

Learning Deep Illumination-Robust Features from Multispectral Filter Array ImagesAnis Amziane. 8895-8904 [doi]

Planar Gaussian SplattingFarhad G. Zanjani, Hong Cai, Hanno Ackermann, Leyla Mirvakhabova, Fatih Porikli. 8905-8914 [doi]

Diffusion-Based Generative Regularization for Supervised Discriminative LearningTakuya Asakura, Nakamasa Inoue, Koichi Shinoda. 8915-8926 [doi]

Recurrence-Based Vanishing Point DetectionSkanda Bharadwaj, Robert T. Collins, Yanxi Liu 0001. 8927-8936 [doi]

Domain-Generalized Object Anti-Spoofing: Bridging Gaps and Patch Selection for Robust Detection Across DomainsGeonu Lee, Yonghyun Jeong, Haneol Jang, Youngjoon Yoo. 8937-8946 [doi]

CAMEL: Confidence-Aware Multi-Task Ensemble Learning with Spatial Information for Retina OCT Image Classification and SegmentationJuho Jung, Migyeong Yang, Hyunseon Won, Jiwon Kim, Jeong Mo Han, Joon Seo Hwang, Daniel Duck-Jin Hwang, Jinyoung Han. 8947-8957 [doi]

TPD-STR: Text Polygon Detection with Split TransformersSangyeon Kim, Sangkuk Lee, Jeesoo Kim, Nojun Kwak. 8958-8967 [doi]

FOR: Finetuning for Object Level Open Vocabulary Image RetrievalHila Levi, Guy Heller, Dan Levi. 8968-8979 [doi]

Single-Layer Distillation with Fourier Convolutions for Texture Anomaly DetectionSimon Thomine, Hichem Snoussi. 8980-8989 [doi]

Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text RecognitionKha Nhat Le, Hoang-Tuan Nguyen, Hung Tien Tran, Thanh Duc Ngo. 8990-9000 [doi]

UnDIVE: Generalized Underwater Video Enhancement Using Generative PriorsSuhas Srinath, Aditya Chandrasekar, Hemang Jamadagni, Rajiv Soundararajan, Prathosh A P. 9001-9012 [doi]

Optimizing Dense Visual Predictions Through Multi-Task Coherence and PrioritizationMaxime Fontana, Michael W. Spratling, Miaojing Shi. 9013-9022 [doi]

Mixed Patch Visible-Infrared Modality Agnostic Object DetectionHeitor Rapela Medeiros, David Latortue, Eric Granger, Marco Pedersoli. 9023-9032 [doi]

InDistill: Information flow-preserving knowledge distillation for model compressionIoannis Sarridis, Christos Koutlis, Giorgos Kordopatis-Zilos, Ioannis Kompatsiaris, Symeon Papadopoulos. 9033-9042 [doi]

Enhancing Novel Object Detection via Cooperative Foundational ModelsRohit K. Bharadwaj 0001, Muzammal Naseer, Salman Khan 0001, Fahad Shahbaz Khan. 9043-9052 [doi]

Pre-capture Privacy via Adaptive Single-Pixel ImagingYoko Sogabe, Shiori Sugimoto, Ayumi Matsumoto, Masaki Kitahara. 9053-9062 [doi]

SIGNN - Star Identification Using Graph Neural NetworksFloyd Hepburn-Dickins, Mark W. Jones 0001, Mike Edwards, Jay Paul Morgan, Steve Bell. 9063-9072 [doi]

Disentangling Subject-Irrelevant Elements in Personalized Text-to-Image Diffusion via Filtered Self-DistillationSeunghwan Choi, Jooyeol Yun, Jeonghoon Park, Jaegul Choo. 9073-9082 [doi]

Spatio-Temporal Context Prompting for Zero-Shot Action DetectionWei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai. 9083-9092 [doi]

SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain AdaptationSachin Verma, Frank Lindseth, Gabriel Kiss. 9093-9104 [doi]

Rubric-Constrained Figure Skating ScoringArushi Rai, Adriana Kovashka. 9105-9113 [doi]

D2FP: Learning Implicit Prior for Human ParsingJunyoung Hong, Hyeri Yang, Ye Ju Kim, Haerim Kim, Shinwoong Kim, Euna Shim, Kyungjae Lee. 9114-9124 [doi]

Cap2Aug: Caption Guided Image data AugmentationAniket Roy, Anshul Shah, Ketul Shah, Anirban Roy, Rama Chellappa. 9125-9135 [doi]

Self-supervised Learning with Spectral Low-Rank Prior for Hyperspectral Image ReconstructionZijun He, Lishun Wang, Ziyi Meng, Xin Yuan 0002. 9136-9145 [doi]

PatchFinder: Leveraging Visual Language Models for Accurate Information Retrieval Using Model UncertaintyRoman Colman, Minh Vu, Manish Bhattarai, Martin Ma, Hari S. Viswanathan, Daniel O'Malley, Javier E. Santos. 9146-9155 [doi]

Active Learning for Image Segmentation with Binary User FeedbackDebanjan Goswami, Shayok Chakraborty. 9156-9165 [doi]

Per-Pixel Solution of Multispectral Photometric StereoShin Ishihara, Imari Sato. 9166-9175 [doi]

Frequency-Domain Refinement of Vision Transformers for Robust Medical Image Segmentation Under DegradationSanaz Karimijafarbigloo, Sina Ghorbani Kolahi, Reza Azad, Ulas Bagci, Dorit Merhof. 9176-9185 [doi]

Zero-Shot Detection of Out-of-Context Objects Using Foundation ModelsAnirban Roy, Adam D. Cobb, Ramneet Kaur, Susmit Jha, Nathaniel D. Bastian, Alexander M. Berenbeim, Robert H. Thomson, Iain Cruickshank, Alvaro Velasquez, Susmit Jha. 9186-9195 [doi]

D-LUT: Photorealistic Style Transfer via Diffusion ProcessMujing Li, Guanjie Wang, Xingguang Zhang, Qifeng Liao, Chenxi Xiao. 9206-9214 [doi]

Situational Scene Graph for Structured Human-Centric Situation UnderstandingChinthani Sugandhika, Chen Li, Deepu Rajan, Basura Fernando. 9215-9225 [doi]

FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal GroundingZhuo Cao, Bingqing Zhang, Heming Du, Xin Yu 0002, Xue Li 0001, Sen Wang 0001. 9226-9236 [doi]

SADA: Semantic Adversarial Unsupervised Domain Adaptation for Temporal Action LocalizationDavid Pujol-Perich, Albert Clapés, Sergio Escalera. 9237-9247 [doi]

MemFusionMap: Working Memory Fusion for Online Vectorized HD Map ConstructionJingyu Song, Xudong Chen, Liupei Lu, Jie Li 0017, Katherine A. Skinner. 9248-9257 [doi]

Ego-VPA: Egocentric Video Understanding with Parameter-Efficient AdaptationTz-Ying Wu, Kyle Min 0001, Subarna Tripathi, Nuno Vasconcelos. 9258-9268 [doi]

Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question AnsweringSai Bhargav Rongali, Mohamad Hassan N C, Ankit Jha, Neha Bhargava, Saurabh Prasad, Biplab Banerjee. 9269-9279 [doi]

Distribution Optimization Under Gaussian Hypothesis for Domain Adaptive Semantic SegmentationLiang Chen, Weihua Chen, Xin Zhao, Junyan Wang 0001, Lijun Cao, Junge Zhang. 9280-9290 [doi]

Swap Path Network for Robust Person Search Pre-trainingLucas Jaffe, Avideh Zakhor. 9291-9301 [doi]

Segment Anything Meets Point TrackingFrano Rajic, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu 0001. 9302-9311 [doi]

PoolAtnRes: Towards Generalisable Differential Morphing Attack DetectionRaghavendra Ramachandra, Sushma Venkatesh, Guoqiang Li 0007. 9312-9321 [doi]

Noise-Aware Evaluation of Object DetectorsJeffri Murrugarra-Llerena, Cláudio R. Jung. 9322-9331 [doi]

MVMD: A Multi-View Approach for Enhanced Mirror DetectionYidan Shen, Yu Wen, Chen Zhang, Xin Fu, Renjie Hu. 9332-9341 [doi]

Spk2ImgMamba: Spiking Camera Image Reconstruction with Multi-Scale State Space ModelsJiaoyang Yin, Bin Fan 0002, Chao Xu 0006, Tiejun Huang 0001, Boxin Shi. 9342-9352 [doi]

VLTP: Vision-Language Guided Token Pruning for Task-Oriented SegmentationHanning Chen, Yang Ni 0001, Wenjun Huang, Yezi Liu, SungHeon Jeong 0001, Fei Wen, Nathaniel D. Bastian, Hugo Latapie, Mohsen Imani. 9353-9363 [doi]

Reviving Poor Object Segmentations in OOD Medical Images using Variational-Deep-PCA Modeling on Segmentation Maps with Sampling-Free LearningJimut B. Pal, Shantanu Welling, Himali Saini, Suyash P. Awate. 9364-9373 [doi]

Learning Unified Distance Metric Across Diverse Data Distributions with Parameter-Efficient Transfer LearningSungyeon Kim, Donghyun Kim 0006, Suha Kwak. 9374-9384 [doi]

MagicStick: Controllable Video Editing via Control Handle TransformationsYue Ma, Xiaodong Cun, Sen Liang, Jinbo Xing, Yingqing He, Chenyang Qi, Siran Chen, Qifeng Chen. 9385-9395 [doi]

Effective and Efficient Medical Image Segmentation with Hierarchical Context InteractionZehua Cheng, Di Yuan, Wenhu Zhang, Thomas Lukasiewicz. 9396-9405 [doi]

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action LocalizationJeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim. 9406-9415 [doi]

Focusing on what to Decode and what to Train: SOV Decoding with Specific Target Guided DeNoising and Vision Language AdvisorJunwen Chen, Yingcheng Wang, Keiji Yanai. 9416-9425 [doi]

On the Importance of Dual-Space Augmentation for Domain Generalized Object DetectionHayoung Park, Choongsang Cho, Guisik Kim. 9426-9436 [doi]

Multispectral Object Detection Enhanced by Cross-Modal Information Complementary and Cosine Similarity Channel Resampling ModulesJunbo Jang, Chanyeong Park, Heegwang Kim, Jiyoon Lee, Joonki Paik. 9437-9446 [doi]

FUN-AD: Fully Unsupervised Learning for Anomaly Detection with Noisy Training DataJiin Im, Yongho Son, Je Hyeong Hong. 9447-9456 [doi]

F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image DeblurringSubhajit Paul, Sahil Kumawat, Ashutosh Gupta, Deepak Mishra. 9457-9467 [doi]

Improving Accuracy and Generalization for Efficient Visual TrackingRam J. Zaveri, Shivang Patel, Yu Gu, Gianfranco Doretto. 9468-9478 [doi]

CCASeg: Decoding Multi-Scale Context with Convolutional Cross-Attention for Semantic SegmentationJiwon Yoo, Dami Ko, Gyeonghwan Kim. 9479-9488 [doi]

Compositional Segmentation of Cardiac Images Leveraging MetadataAbbas Khan, Muhammad Asad 0001, Martin Benning, Caroline H. Roney, Gregory G. Slabaugh. 9489-9498 [doi]

GANESH: Generalizable NeRF for Lensless ImagingRakesh Raj Madavan, Akshat Kaimal, Badhrinarayanan K. V, Vinayak Gupta, Rohit Choudhary, Chandrakala Shanmuganathan, Kaushik Mitra. 9499-9508 [doi]

Unifying Low-Resolution and High-Resolution Alignment by Event Cameras for Space-Time Video Super-ResolutionHoonhee Cho, Jae-Young Kang, Taewoo Kim 0003, Yuhwan Jeong, Kuk-Jin Yoon. 9509-9520 [doi]

ACE: Action Concept Enhancement of Video-Language Models in Procedural VideosReza Ghoddoosian, Nakul Agarwal, Isht Dwivedi, Behzad Darisuh. 9521-9531 [doi]

Continuous Spatio-Temporal Memory Networks for 4D Cardiac Cine MRI SegmentationMeng Ye 0003, Bingyu Xin, Leon Axel, Dimitris N. Metaxas. 9532-9542 [doi]

SpectFormer: Frequency and Attention is what you need in a Vision TransformerBadri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran. 9543-9554 [doi]

Learning Multiple Object States from Actions via Large Language ModelsMasatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato. 9555-9565 [doi]

Covariance-Based Space Regularization for Few-Shot Class Incremental LearningYijie Hu, Guanyu Yang 0002, Zhaorui Tan, Xiaowei Huang 0001, Kaizhu Huang, Qiu-Feng Wang. 9566-9576 [doi]

V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D AnnotationsJin-Cheng Jhang, Tao Tu 0002, Fu-En Wang, Ke Zhang, Min Sun 0001, Cheng-Hao Kuo. 9577-9586 [doi]

Discriminative Score Suppression for Weakly Supervised Video Anomaly DetectionChen Xu, Chunguo Li, Hongjie Xing. 9587-9596 [doi]

Bandit-based Attention Mechanism in Vision TransformersAmartya Roy Chowdhury, Raghuram Bharadwaj Diddigi, Prabuchandran K. J., Achyut Mani Tripathi. 9597-9606 [doi]

Robust Portrait Image Matting and Depth-of-field Synthesis via Multiplane ImagesZhefan Rao, Tianjia Zhang, Yuen-Fui Lau, Qifeng Chen. 9607-9617 [doi]

Phaseformer: Phase-Based Attention Mechanism for Underwater Image Restoration and BeyondMD Raqib Khan, Anshul Negi, Ashutosh Kulkarni, Shruti S. Phutke, Santosh Kumar Vipparthi, Subrahmanyam Murala. 9618-9629 [doi]

Dequantization and Color Transfer with Diffusion ModelsVaibhav Vavilala, Faaris Shaik, David A. Forsyth. 9630-9639 [doi]

RGB-D Video Mirror DetectionMingchen Xu, Peter Herbert, Yu-Kun Lai, Ze Ji, Jing Wu 0004. 9640-9649 [doi]

Through the Curved Cover: Synthesizing Cover Aberrated Scenes with Refractive FieldLiuyue Xie, Jiancong Guo, László A. Jeni, Zhiheng Jia, Mingyang Li, Yunwen Zhou, Chao Guo. 9650-9659 [doi]

Copy or Not? Reference-Based Face Image Restoration with Fine DetailsMin Jin Chong, Dejia Xu, Yi Zhang, Zhangyang Wang, David A. Forsyth, Gurunandan Krishnan, Yicheng Wu, Jian Wang. 9660-9669 [doi]

DDS: Decoupled Dynamic Scene-Graph Generation NetworkA S. M. Iftekhar, Raphael Ruschel, Satish Kumar, Suya You, B. S. Manjunath. 9670-9680 [doi]

Vision-Based Landing Guidance Through Tracking and Orientation EstimationJoão P. K. Ferreira, João P. L. Pinto, Júlia S. Moura, Yi Li, Cristiano Leite Castro, Plamen Angelov 0001. 9681-9689 [doi]

Autoregressive Adaptive Hypergraph Transformer for Skeleton-Based Activity RecognitionAbhisek Ray, Ayush Raj, Maheshkumar H. Kolekar. 9690-9699 [doi]

DTA: Dual Temporal-channel-wise Attention for Spiking Neural NetworksMinje Kim, MinJun Kim, Xu Yang. 9700-9710 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2025, Tucson, AZ, USA, February 26 - March 6, 2025

Abstract

Table of Contents