IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024 - Workshops, Seattle, WA, USA, June 17-18, 2024

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024 - Workshops, Seattle, WA, USA, June 17-18, 2024. IEEE, 2024. [doi]

Conference: cvpr2024

Abstract is missing.

The Third Monocular Depth Estimation ChallengeJaime Spencer, Fabio Tosi, Matteo Poggi, Ripudaman Singh Arora, Chris Russell 0001, Simon Hadfield, Richard Bowden, Guangyuan Zhou, Zhengxin Li, Qiang Rao, Yiping Bao, Xiao Liu 0004, Dohyeong Kim, Jinseong Kim, MyungHyun Kim, Mykola Lavreniuk, Rui Li 0013, Qing Mao, Jiang Wu, Yu Zhu 0004, Jinqiu Sun, Yanning Zhang, Suraj Patni, Aradhye Agarwal, Chetan Arora 0002, Pihai Sun, Kui Jiang, Gang Wu 0010, Jian Liu, Xianming Liu, Junjun Jiang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan, Jiabao Wang, Albert Luginov, Muhammad Shahzad, Seyed-Hosseini, Aleksander Trajcevski, James H. Elder. 1-14 [doi]

UAV-Rain1k: A Benchmark for Raindrop Removal from UAV Aerial ImageryWenhui Chang, Hongming Chen, Xin He, Xiang Chen, Liangduo Shen. 15-22 [doi]

Feature Corrective Transfer Learning: End-to-End Solutions to Object Detection in Non-Ideal Visual ConditionsChuheng Wei, Guoyuan Wu 0001, Matthew J. Barth. 23-32 [doi]

Source-Free Domain Adaptation of Weakly-Supervised Object Localization Models for HistologyAlexis Guichemerre, Soufiane Belharbi, Tsiry Mayet, Shakeeb Murtaza, Pourya Shamsolmoali, Luke McCaffrey, Eric Granger. 33-43 [doi]

Mobile Aware Denoiser Network (MADNet) for Quad Bayer ImagesPavan C. Madhusudana, Jing Li, Zeeshan Nadir, Hamid R. Sheikh, Seok-Jun Lee. 44-52 [doi]

VolRAFT: Volumetric Optical Flow Network for Digital Volume Correlation of Synchrotron Radiation-based Micro-CT Images of Bone-Implant InterfacesTak Ming Wong, Julian Moosmann, Berit Zeller-Plumhoff. 53-62 [doi]

Damage Detection and Localization by Learning Deep Features of Elastic Waves in Piezoelectric Ceramic Using Point Contact MethodPragyan Banerjee, Pranjal Saxena, Nur M. M. Kalimullah, Amit Shelke, Anowarul Habib. 63-70 [doi]

Self-Supervised Learning with Generative Adversarial Networks for Electron MicroscopyBashir Kazimi, Karina Ruzaeva, Stefan Sandfeld. 71-81 [doi]

Towards Explainable Visual Vessel Recognition Using Fine-Grained Classification and Image RetrievalHeiko Karus, Friedhelm Schwenker, Michael Munz 0001, Michael Teutsch. 82-92 [doi]

Towards Efficient Machine Unlearning with Data Augmentation: Guided Loss-Increasing (GLI) to Prevent the Catastrophic Model Utility DropDasol Choi, Soora Choi, Eunsun Lee, Jinwoo Seo, Dongbin Na. 93-102 [doi]

Enforcing Conditional Independence for Fair Representation Learning and Causal Image GenerationJensen Hwa, Qingyu Zhao, Aditya Lahiri, Adnan Masood, Babak Salimi, Ehsan Adeli 0001. 103-112 [doi]

Improving the Robustness of 3D Human Pose Estimation: A Benchmark Dataset and Learning from Noisy InputTrung-Hieu Hoang, Mona Zehni, Huy Phan, Duc Minh Vo, Minh N. Do. 113-123 [doi]

DIA: Diffusion based Inverse Network Attack on Collaborative InferenceDake Chen, Shiduo Li, Yuke Zhang, Chenghao Li, Souvik Kundu 0002, Peter A. Beerel. 124-130 [doi]

ReweightOOD: Loss Reweighting for Distance-based OOD DetectionSudarshan Regmi, Bibek Panthi, Yifei Ming, Prashnna K. Gyawali, Danail Stoyanov, Binod Bhattarai. 131-141 [doi]

Our Deep CNN Face Matchers Have Developed AchromatopsiaAman Bhatta, Domingo Mery, Haiyu Wu, Joyce Annan, Michael C. King, Kevin W. Bowyer. 142-152 [doi]

T2FNorm: Train-time Feature Normalization for OOD Detection in Image ClassificationSudarshan Regmi, Bibek Panthi, Sakar Dotel, Prashnna K. Gyawali, Danail Stoyanov, Binod Bhattarai. 153-162 [doi]

Fractals as Pre-training Datasets for Anomaly Detection and LocalizationCynthia Ifeyinwa Ugwu, Sofia Casarin, Oswald Lanz. 163-172 [doi]

Test-time Assessment of a Model's Performance on Unseen Domains via Optimal TransportAkshay Mehra, Yunbei Zhang, Jihun Hamm. 173-182 [doi]

Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway FrameworkZheming Zuo, Joseph Smith, Jonathan Stonehouse, Boguslaw Obara. 183-193 [doi]

Practical Region-level Attack against Segment Anything ModelsYifan Shen, Zhengyuan Li, Gang Wang. 194-203 [doi]

SkipPLUS: Skip the First Few Layers to Better Explain Vision TransformersFaridoun Mehri, Mohsen Fayyaz, Mahdieh Soleymani Baghshah, Mohammad Taher Pilehvar. 204-215 [doi]

AR-CP: Uncertainty-Aware Perception in Adverse Conditions with Conformal Prediction and Augmented Reality For Assisted DrivingAchref Doula, Max Mühlhäuser, Alejandro Sánchez Guinea. 216-226 [doi]

Fast-NTK: Parameter-Efficient Unlearning for Large-Scale ModelsGuihong Li, Hsiang Hsu, Chun-Fu Richard Chen, Radu Marculescu. 227-234 [doi]

Mitigating Bias Using Model-Agnostic Data AttributionSander De Coninck, Sam Leroux, Pieter Simoens. 235-243 [doi]

RLNet: Robust Linearized Networks for Efficient Private InferenceSreetama Sarkar, Souvik Kundu 0002, Peter A. Beerel. 244-253 [doi]

Data-free Defense of Black Box Models Against Adversarial AttacksGaurav Kumar Nayak, Inder Khatri, Ruchit Rawal, Anirban Chakraborty 0001. 254-263 [doi]

An End-to-End Approach for Handwriting Recognition: From Handwritten Text Lines to Complete PagesDayvid Castro, Byron Leite Dantas Bezerra, Cleber Zanchettin. 264-273 [doi]

Enhancing Image Classification Robustness through Adversarial Sampling with Delta Data Augmentation (DDA)Iván Reyes-Amezcua, Gilberto Ochoa-Ruiz, Andres Mendez-Vazquez. 274-283 [doi]

High-Resolution Detection of Earth Structural Heterogeneities from Seismic Amplitudes using Convolutional Neural Networks with Attention layersLuiz Schirmer, Guilherme G. Schardong, Vinícius da Silva, Rogério Santos, Hélio Lopes 0001. 284-292 [doi]

Beyond Appearances: Material Segmentation with Embedded Spectral Information from RGB-D imageryFabian Perez, Hoover Rueda-Chacon. 293-301 [doi]

ST-Gait++: Leveraging spatio-temporal convolutions for gait-based emotion recognition on videosMaria Luísa Lima, Willams de Lima Costa, Estefania Talavera Martínez, Veronica Teichrieb. 302-310 [doi]

The Myth of the PyramidRamon Izquierdo-Cordova, Walterio W. Mayol-Cuevas. 311-321 [doi]

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective ComputingHao Lu 0009, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang 0005, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, ShuiGuang Deng, Hao Chen, Yingcong Chen, Shiguang Shan. 322-331 [doi]

NurtureNet: A Multi-task Video-based Approach for Newborn AnthropometryYash Khandelwal, Mayur Arvind, Sriram Kumar, Ashish Gupta, Sachin Kumar Danisetty, Piyush Bagad, Anish Madan, Mayank Lunayach, Aditya Annavajjala, Abhishek Maiti, Sansiddh Jain, Aman Dalmia, Namrata Deka, Jerome White, Jigar Doshi, Angjoo Kanazawa, Rahul Panicker, Alpan Raval, Srinivas Rana, Makarand Tapaswi. 332-342 [doi]

Vision-language models for decoding provider attention during neonatal resuscitationFelipe Parodi, Jordan K. Matelsky, Alejandra Regla-Vargas, Elizabeth E. Foglia, Charis Lim, Danielle Weinberg, Konrad P. Kording, Heidi M. Herrick, Michael L. Platt. 343-353 [doi]

Orientation-conditioned Facial Texture Mapping for Video-based Facial Remote Photoplethysmography EstimationSam Cantrill, David Ahmedt-Aristizabal, Lars Petersson, Hanna Suominen, Mohammad Ali Armin. 354-363 [doi]

Paediatric Pulse Rate Measurements: a Comparison of Methods using Remote PhotoplethysmographySimon Wegerif, Ivan Veleslavov, Lieke Dorine van Putten, Kate Emily Bamford, Gauri Misra, Niall Mullen. 364-370 [doi]

DECNet: A Non-Contacting Dual-Modality Emotion Classification Network for Driver Health MonitoringZhekang Dong, Chenhao Hu, Shiqi Zhou, Liyan Zhu, Junfan Wang, Yi Chen, Xudong Lv, Xiaoyue Ji. 371-379 [doi]

Refining Remote Photoplethysmography Architectures using CKA and Empirical MethodsNathan Vance, Patrick J. Flynn. 380-388 [doi]

Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral FeaturesAlexander Vedernikov, Zhaodong Sun, Virpi-Liisa Kykyri, Mikko Pohjola, Miriam Nokia, Xiaobai Li. 389-399 [doi]

Video Based Computational Coding of Movement Anomalies in ASD ChildrenPriya Singh, Abhishek Pathak, Umer Jon Ganai, Braj Bhushan, Venkatesh K. Subramanian. 400-409 [doi]

How Suboptimal is Training rPPG Models with Videos and Targets from Different Body Sites?Björn Braun, Daniel McDuff, Christian Holz 0001. 410-418 [doi]

UrbanSARFloods: Sentinel-1 SLC-Based Benchmark Dataset for Urban and Open-Area Flood MappingJie Zhao, Zhitong Xiong, Xiaoxiang Zhu 0001. 419-429 [doi]

Exploring Robust Features for Few-Shot Object Detection in Satellite ImageryXavier Bou, Gabriele Facciolo, Rafael Grompone von Gioi, Jean-Michel Morel, Thibaud Ehret. 430-439 [doi]

Efficient local correlation volume for unsupervised optical flow estimation on small moving objects in large satellite imagesSarra Khairi, Etienne Meunier, Renaud Fraisse, Patrick Bouthemy. 440-448 [doi]

Deep Generative Data Assimilation in Multimodal SettingYongquan Qu, Juan Nathaniel, Shuolin Li, Pierre Gentine. 449-459 [doi]

GeoSynth: Contextually-Aware High-Resolution Satellite Image SynthesisSrikumar Sastry, Subash Khanal, Aayush Dhakal, Nathan Jacobs. 460-470 [doi]

Implicit Assimilation of Sparse In Situ Data for Dense & Global Storm Surge ForecastingPatrick Ebel 0002, Brandon Victor, Peter Naylor, Gabriele Meoni, Federico Serva, Rochelle Schneider. 471-480 [doi]

Detecting Out-Of-Distribution Earth Observation Images with Diffusion ModelsGeorges Le Bellier, Nicolas Audebert. 481-491 [doi]

(Street) Lights Will Guide You: Georeferencing Nighttime Astronaut Photography of EarthAlex Stoken, Peter Ilhardt, Mark Lambert, Kenton Fisher. 492-501 [doi]

Cross-sensor super-resolution of irregularly sampled Sentinel-2 time seriesAimi Okabayashi, Nicolas Audebert, Simon Donike, Charlotte Pelletier. 502-511 [doi]

SyntStereo2Real: Edge-Aware GAN for Remote Sensing Image-to-Image Translation while Maintaining Stereo ConstraintVasudha Venkatesan, Daniel Panangian, Mario Fuentes Reyes, Ksenia Bittner. 512-521 [doi]

SUNDIAL: 3D Satellite Understanding through Direct, Ambient, and Complex Lighting DecompositionNikhil Behari, Akshat Dave, Kushagra Tiwary, William Yang, Ramesh Raskar. 522-532 [doi]

Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite ImagesAayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Hannah Kerner, Nathan Jacobs. 533-542 [doi]

Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover MappingClifford Broni-Bediako, Junshi Xia, Naoto Yokoya. 543-553 [doi]

Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMsJonathan Roberts, Timo Lüddecke, Rehan Sheikh, Kai Han 0001, Samuel Albanie. 554-563 [doi]

Radar Fields: An Extension of Radiance Fields to SARThibaud Ehret, Roger Marí, Dawa Derksen, Nicolas Gasnier, Gabriele Facciolo. 564-574 [doi]

Contrastive Pretraining for Visual Concept Explanations of Socioeconomic OutcomesIvica Obadic, Alex Levering, Lars Pennig, Dário A. B. Oliveira, Diego Marcos, Xiaoxiang Zhu 0001. 575-584 [doi]

GeoLLM-Engine: A Realistic Environment for Building Geospatial CopilotsSimranjit Singh 0003, Michael Fore, Dimitrios Stamoulis. 585-594 [doi]

Let me show you how it's done - Cross-modal knowledge distillation as pretext task for semantic segmentationRudhishna Narayanan Nair, Ronny Hänsch. 595-603 [doi]

Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze EstimationSwati Jindal, Mohit Yadav, Roberto Manduchi. 604-614 [doi]

Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze FollowingAnshul Gupta, Pierre Vuillecard, Arya Farkhondeh, Jean-Marc Odobez. 615-624 [doi]

Gaze Scanpath Transformer: Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze ScanpathTakumi Nishiyasu, Yoichi Sato. 625-635 [doi]

GESCAM : A Dataset and Method on Gaze Estimation for Classroom Attention MeasurementAthul M. Mathew, Arshad Ali Khan, Thariq Khalid, Riad Souissi. 636-645 [doi]

Semi-Stereo: A Universal Stereo Matching Framework for Imperfect Data via Semi-supervised LearningXin Yue, Zongqing Lu, Xiangru Lin, Wenjia Ren, Zhijing Shao, Haonan Hu, Yu Zhang 0166, Qingmin Liao. 646-655 [doi]

MonoSelfRecon: Purely Self-Supervised Explicit Generalizable 3D Reconstruction of Indoor Scenes from Monocular RGB ViewsRunfa Li, Upal Mahbub, Vasudev Bhaskaran, Truong Q. Nguyen. 656-666 [doi]

Lifting Multi-View Detection and Tracking to the Bird's Eye ViewTorben Teepe, Philipp Wolters, Johannes Gilg, Fabian Herzog, Gerhard Rigoll. 667-676 [doi]

3D Clothed Human Reconstruction from Sparse Multi-View ImagesJin Gyu Hong, Seung Young Noh, Hee-Kyung Lee, Won-Sik Cheong, Ju Yong Chang. 677-687 [doi]

SACReg: Scene-Agnostic Coordinate Regression for Visual LocalizationJérôme Revaud, Yohann Cabon, Romain Brégier, Jongmin Lee, Philippe Weinzaepfel. 688-698 [doi]

DepthVoting: A Few-Shot Point Cloud Classification Model Incorporating a Projection-Based Voting MechanismYunhui Zhu, Jiajing Chen, Senem Velipasalar. 699-707 [doi]

Cross-Modal Self-Training: Aligning Images and Pointclouds to learn Classification without LabelsAmaya Dharmasiri, Muzammal Naseer, Salman Khan 0001, Fahad Shahbaz Khan. 708-717 [doi]

MIMIC: Masked Image Modeling with Image CorrespondencesKalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Patrick Howe, Sharan Ranjit S, Anand Bhattad, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna. 718-727 [doi]

Selective Multi-View Deep Model for 3D Object ClassificationMona Saleh Alzahrani, Muhammad Usman, Saeed Anwar, Tarek Helmy. 728-736 [doi]

From 2D Portraits to 3D Realities: Advancing GAN Inversion for Enhanced Image SynthesisWonseok Oh, Youngjoo Jo. 737-746 [doi]

DGBD: Depth Guided Branched Diffusion for Comprehensive Controllability in Multi-View GenerationHovhannes Margaryan, Daniil Hayrapetyan, Wenyan Cong, Zhangyang Wang, Humphrey Shi. 747-756 [doi]

2T-UNET: A Two-Tower UNet with Depth Clues for Robust Stereo Depth EstimationMansi Sharma, Rohit Choudhary, Rithvik Anil. 757-764 [doi]

AgileGAN3D: Few-Shot 3D Portrait Stylization by Augmented Transfer LearningGuoxian Song. 765-774 [doi]

Color-cued Efficient Densification Method for 3D Gaussian SplattingSieun Kim, Kyungjin Lee, Youngki Lee. 775-783 [doi]

PointOfView: A Multi-modal Network for Few-shot 3D Point Cloud Classification Fusing Point and Multi-view Image FeaturesHuantao Ren, Jiyang Wang, Minmin Yang, Senem Velipasalar. 784-793 [doi]

OGRMPI: An Efficient Multiview Integrated Multiplane Image based on Occlusion Guided ResidualsDae Yeol Lee, Guan-Ming Su, Peng Yin 0002. 794-802 [doi]

Sparse multi-view hand-object reconstruction for unseen environmentsYik Lung Pang, Changjae Oh, Andrea Cavallaro. 803-810 [doi]

Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot ImagesJaeyoung Chung, Jeongtaek Oh, Kyoung Mu Lee. 811-820 [doi]

LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic InsightsThibault Castells, Hyoung-Kyu Song, Bo-kyeong Kim, Shinkook Choi. 821-830 [doi]

EdgeRelight360: Text-Conditioned 360-Degree HDR Image Generation for Real-Time On-Device Video Portrait RelightingMin-Hui Lin 0003, Mahesh Reddy, Guillaume Berger, Michel Sarkis, Fatih Porikli, Ning Bi. 831-840 [doi]

Camera Motion Estimation from RGB-D-Inertial Scene FlowSamuel Cerezo, Javier Civera 0001. 841-849 [doi]

BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics PrimitivesSainan Liu, Shan Lin, Jingpei Lu, Alexey Supikov, Michael C. Yip. 850-857 [doi]

Weakly Supervised End2End Deep Visual OdometryAmin Abouee, Ashwanth Ravi, Lars Hinneburg, Mateusz Dziwulski, Florian Ölsner, Jürgen Hess 0005, Stefan Milz, Patrick Mäder. 858-865 [doi]

Connecting NeRFs, Images, and TextFrancesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi di Stefano. 866-876 [doi]

Contextualising Implicit Representations for Semantic TasksTheo W. Costain, Kejie Li, Victor Adrian Prisacariu. 877-887 [doi]

StegaNeRV: Video Steganography using Implicit Neural RepresentationMonsij Biswal, Tong Shao, Kenneth Rose, Peng Yin 0002, Sean McCarthy. 888-898 [doi]

ImplicitTerrain: a Continuous Surface Model for Terrain Data AnalysisHaoan Feng, Xin Xu, Leila De Floriani. 899-909 [doi]

Reference-based GAN Evaluation by Adaptive InversionJianbo Wang, Heliang Zheng, Toshihiko Yamasaki. 910-918 [doi]

Unified Physical-Digital Attack Detection ChallengeHaocheng Yuan, Ajian Liu, Junze Zheng, Jun Wan 0001, Jiankang deng, Sergio Escalera, Hugo Jair Escalante, Isabelle Guyon, Zhen Lei 0001. 919-929 [doi]

Multi-angle Consistent Generative NeRF with Additive Angular Margin Momentum Contrastive LearningHang Zou, Hui Zhang, Yuan Zhang, Hui Ma, Dexin Zhao, Qi Zhang, Qi Li. 930-939 [doi]

Rethinking the Domain Gap in Near-infrared Face RecognitionMichail Tarasiou, Jiankang deng, Stefanos Zafeiriou. 940-949 [doi]

IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image ModelsSiying Cui, Jia Guo, Xiang An, Jiankang deng, Yongle Zhao, Xinyu Wei, Ziyong Feng. 950-959 [doi]

Unified Face Attack Detection with Micro Disturbance and a Two-Stage Training StrategyJiaruo Yu, Dagong Lu, Xingyue Shi, Chenfan Qu, Fengjun Guo. 960-969 [doi]

Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights, Design, and MetricsHyoJin Kim, Jiyoon Lee, Yonghyun Jeong, Haneol Jang, Youngjoon Yoo. 970-979 [doi]

Supervised Contrastive Learning for Snapshot Spectral Imaging Face Anti-SpoofingChuanbiao Song, Yan Hong, Jun Lan, Huijia Zhu, Weiqiang Wang, Jianfu Zhang 0003. 980-985 [doi]

A visualization method for data domain changes in CNN networks and the optimization method for selecting thresholds in classification tasksMinzhe Huang, Changwei Nie, Weihong Zhong. 986-994 [doi]

Joint Physical-Digital Facial Attack Detection Via Simulating Spoofing CluesXianhua He, Dashuang Liang, Song Yang, Zhanlong Hao, Hui Ma, Binjie Mao, Xi Li, Yao Wang, Pengfei Yan, Ajian Liu. 995-1004 [doi]

Snapshot Spectral Imaging for Face Anti-Spoofing: Addressing Data Challenges with Advanced Processing and TrainingHui Li, Yaowen Xu, Zhaofan Zou, Zhixiang He. 1005-1012 [doi]

Multiattention-Net: A Novel Approach to Face Anti-Spoofing with Modified Squeezed Residual BlocksSabari Nathan, M. Parisa Beham, A Nagaraj, S. Mohamed Mansoor Roomi. 1013-1020 [doi]

Assessing the Performance of Efficient Face Anti-Spoofing Detection Against Physical and Digital Presentation AttacksLuis S. Luevano, Yoanna Martínez-Díaz, Heydi Méndez-Vázquez, Miguel González-Mendoza 0001, Davide Frey. 1021-1028 [doi]

MixStyle-Based Contrastive Test-Time Adaptation: Pathway to Domain GeneralizationKota Yamashita, Kazuhiro Hotta. 1029-1037 [doi]

Fully Test-time Adaptation for Object DetectionXiaoqian Ruan, Wei Tang. 1038-1047 [doi]

Test-time Specialization of Dynamic Neural NetworksSam Leroux, Dewant Katare, Aaron Yi Ding, Pieter Simoens. 1048-1056 [doi]

ST2ST: Self-Supervised Test-time Adaptation for Video Action RecognitionMasud An Nur Islam Fahim, Mohammed Innat, Jani Boutellier. 1057-1066 [doi]

Unknown Sample Discovery for Source Free Open Set Domain AdaptationChowdhury Sadman Jahan, Andreas E. Savakis. 1067-1076 [doi]

UDAC: Under-Display Array CamerasChengyu Wang 0011, Jing Li, Pavan C. Madhusudanarao, Jinhan Hu, Jitesh K. Singh, WooJhon Choi, Seok-Jun Lee, Hamid R. Sheikh. 1077-1084 [doi]

2NM: Extremely Low-light Noise Modeling Through Diffusion IterationJiahao Qin, Pinle Qin, Rui Chai, Jia Qin, Zanxia Jin. 1085-1094 [doi]

Event Camera Demosaicing via Swin Transformer and Pixel-focus LossYunfan Lu, Yijie Xu, Wenzong Ma, Weiyu Guo, Hui Xiong 0001. 1095-1105 [doi]

From Synthetic to Real: A Calibration-free Pipeline for Few-shot Raw Image DenoisingRuoqi Li, Chang Liu 0030, Ziyi Wang 0006, Yao Du, Jingjing Yang, Long Bao, Heng Sun. 1106-1114 [doi]

LaDiffGAN: Training GANs with Diffusion Supervision in Latent SpacesXuhui Liu, Bohan Zeng, Sicheng Gao, Shanglin Li, Yutang Feng, Hong Li, Boyu Liu, Jianzhuang Liu, Baochang Zhang 0001. 1115-1125 [doi]

DemosaicFormer: Coarse-to-Fine Demosaicing Network for HybridEVS CameraSenyan Xu, Zhijing Sun, Jiaying Zhu, Yurui Zhu, Xueyang Fu, Zheng-Jun Zha. 1126-1135 [doi]

MIPI 2024 Challenge on Demosaic for Hybridevs Camera: Methods and ResultsYaqi Wu, Zhihao Fan, Xiaofeng Chu, Jimmy S. Ren, Xiaoming Li 0002, Zongsheng Yue, Chongyi Li, Shangcheng Zhou, Ruicheng Feng, Yuekun Dai, Peiqing Yang, Chen Change Loy, Senyan Xu, Zhijing Sun, Jiaying Zhu, Yurui Zhu, Xueyang Fu, Zheng-Jun Zha, Jun Cao, Cheng Li 0009, Shu Chen, Liang Ma, Shiyang Zhou, Haijin Zeng, Kai-Feng, Yongyong Chen, Jingyong Su, Xianyu Guan, Hongyuan Yu, Cheng Wan 0006, Jiamin Lin, Binnan Han, Yajun Zou, Zhuoyuan Wu, Yuan Huang, Yongsheng Yu, Daoan Zhang, JiZhe Li, Xuanwu Yin, Kunlong Zuo, Yunfan Lu, Yijie Xu, Wenzong Ma, Weiyu Guo, Hui Xiong 0001, Wei Yu, Bingchun Luo, Sabari Nathan, Priya Kansal. 1136-1143 [doi]

MIPI 2024 Challenge on Nighttime Flare Removal: Methods and ResultsYuekun Dai, Dafeng Zhang, Xiaoming Li 0002, Zongsheng Yue, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Peiqing Yang, Zhezhu Jin, Guanqun Liu 0005, Chen Change Loy. 1144-1152 [doi]

MIPI 2024 Challenge on Few-shot RAW Image Denoising: Methods and ResultsXin Jin 0005, Chunle Guo, Xiaoming Li 0002, Zongsheng Yue, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yuekun Dai, Peiqing Yang, Chen Change Loy, Ruoqi Li, Chang Liu 0030, Ziyi Wang 0006, Yao Du, Jingjing Yang, Long Bao, Heng Sun, Xiangyu Kong, Xiaoxia Xing, Jinlong Wu, Yuanyang Xue, Hyunhee Park, Sejun Song, Changho Kim, Jingfan Tan, Wenhan Luo, Zikun Liu, Mingde Qiao, Junjun Jiang, Kui Jiang, Yao Xiao, Chuyang Sun, Jinhui Hu, Weijian Ruan, Yubo Dong, Kai Chen 0026, Hyejeong Jo, Jiahao Qin, Bingjie Han, Pinle Qin, Rui Chai, Pengyuan Wang. 1153-1161 [doi]

How to Benchmark Vision Foundation Models for Semantic Segmentation?Tommie Kerssies, Daan de Geus, Gijs Dubbelman. 1162-1171 [doi]

Exploring the Benefits of Vision Foundation Models for Unsupervised Domain AdaptationBrunó Bence Englert, Fabrizio J. Piva, Tommie Kerssies, Daan de Geus, Gijs Dubbelman. 1172-1180 [doi]

Towards Learning Image Similarity from General Triplet LabelsRadu Dondera. 1181-1190 [doi]

Coarse or Fine? Recognising Action End States without LabelsDavide Moltisanti, Hakan Bilen, Laura Sevilla-Lara, Frank Keller. 1191-1200 [doi]

Leveraging Large Language Models for Multimodal SearchOriol Barbany, Michael Huang, Xinliang Zhu, Arnab Dhua. 1201-1210 [doi]

ConceptHash: Interpretable Fine-Grained Hashing via Concept DiscoveryKam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang 0002. 1211-1223 [doi]

Making use of unlabeled data: Comparing strategies for marine animal detection in long-tailed datasets using self-supervised and semi-supervised pre-trainingTarun Sharma, Danelle E. Cline, Duane Edgington. 1224-1233 [doi]

HyperLeaf2024 - A Hyperspectral Imaging Dataset for Classification and Regression of Wheat LeavesWilliam Michael Laprade, Pawel Pieta, Svetlana Kutuzova, Jesper Cairo Westergaard, Mads Nielsen, Svend Christensen, Anders Bjorholm Dahl. 1234-1243 [doi]

Monitoring Social Insect Activity with Minimal Human SupervisionTarun Sharma, Julian Morgan Wagner, Sara Beery, William B. Dickson, Michael H. Dickinson, Joseph Parker. 1244-1253 [doi]

Sensor Equivariance: A Framework for Semantic Segmentation with Diverse Camera ModelsHannes Reichert, Manuel Hetzel, Andreas Hubert, Konrad Doll, Bernhard Sick. 1254-1261 [doi]

Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical RepresentationsJingguo Liu, Yijun Xu, Shigang Li 0001, Jianfeng Li 0003. 1262-1271 [doi]

BGDNet: Background-guided Indoor Panorama Depth EstimationJiajing Chen, Zhiqiang Wan, Manjunath Narayana, Yuguang Li, Will Hutchcroft, Senem Velipasalar, Sing Bing Kang. 1272-1281 [doi]

DQ-HorizonNet: Enhancing Door Detection Accuracy in Panoramic Images via Dynamic QuantizationCing-Jia Lin, Jheng-Wei Su, Kai-Wen Hsiao, Ting-Yu Yen, Chih-Yuan Yao, Hung-Kuo Chu. 1282-1289 [doi]

Cross-Domain Synthetic-to-Real In-the-Wild Depth and Normal Estimation for 3D Scene UnderstandingJay Bhanushali, Manivannan Muniyandi, Praneeth Chakravarthula. 1290-1300 [doi]

Impact of Video Compression Artifacts on Fisheye Camera Visual Perception TasksMadhumitha Sakthi, Louis Kerofsky, Varun Ravi Kumar, Senthil Kumar Yogamani. 1301-1310 [doi]

MultiPanoWise: holistic deep architecture for multi-task dense prediction from a single panoramic imageUzair Shah, Muhammad Tukur, Mahmood Alzubaidi, Giovanni Pintore, Enrico Gobbetti, Mowafa S. Househ, Jens Schneider 0002, Marco Agus. 1311-1321 [doi]

Multi-scale Attention-Based Inclination Angles Estimation for Panoramic CameraYuhao Shan, Heyu Chen, Jiaying Zhang, Shigang Li 0001, Jianfeng Li 0003. 1322-1330 [doi]

FisheyeBEVSeg: Surround View Fisheye Cameras based Bird's-Eye View Segmentation for Autonomous DrivingSenthil Kumar Yogamani, David Unger, Venkatraman Narayanan, Varun Ravi Kumar. 1331-1334 [doi]

Exploring the Limits: Applying State-of-the-Art Stereo Matching Algorithms to Rectified Ultra-Wide StereoFilip Slezak, Morten Stigaard Laursen, Thomas B. Moeslund. 1335-1344 [doi]

Gain-first or Exposure-first: Benchmark for Better Low-light Video Photography and EnhancementHaiyang Jiang 0002, Zhihang Zhong, Yinqiang Zheng. 1345-1356 [doi]

Point-Supervised Semantic Segmentation of Natural Scenes via Hyperspectral ImagingTianqi Ren, Qiu Shen, Ying Fu 0001, Shaodi You. 1357-1367 [doi]

Computational Spectral Imaging with Unified Encoding Model and BeyondXinyuan Liu, Lingen Li, Lin Zhu, Lizhi Wang. 1368-1378 [doi]

ViTKD: Feature-based Knowledge Distillation for Vision TransformersZhendong Yang, Zhe Li, Ailing Zeng, Zexian Li, Chun Yuan, Yu Li 0003. 1379-1388 [doi]

Generalized Foggy-Scene Semantic Segmentation by Frequency DecouplingQi Bi, Shaodi You, Theo Gevers. 1389-1399 [doi]

Generating Material-Aware 3D Models from Sparse ViewsShi Mao, Chenming Wu, Ran Yi, Zhelun Shen, Liangjun Zhang, Wolfgang Heidrich. 1400-1409 [doi]

Physics Based Camera Privacy: Lens and Network Co-Design to the RescueMarius Dufraisse, Marcela Carvalho, Pauline Trouvé-Peloux, Frédéric Champagnat. 1410-1419 [doi]

Imaging Signal Recovery Using Neural Network Priors Under Uncertain Forward Model ParametersXiwen Chen, Wenhui Zhu, Peijie Qiu, Abolfazl Razi. 1420-1429 [doi]

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT PlanningJiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu 0001, Yafei Wen, Xiaoxin Chen, Shifeng Chen. 1430-1440 [doi]

3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training DataZhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang. 1441-1450 [doi]

Outsmarting Biometric Imposters: Enhancing Iris-Recognition System Security through Physical Adversarial Example Generation and PAD Fine-TuningYuka Ogino, Kazuya Kakizaki, Takahiro Toizumi, Atsushi Ito. 1451-1461 [doi]

FIQA-FAS: Face Image Quality Assessment Based Face Anti-SpoofingYa-Chi Liang, Min-Xuan Qiu, Shang-Hong Lai. 1462-1470 [doi]

Adversarial Identity Injection for Semantic Face Image SynthesisGiuseppe Tarollo, Tomaso Fontanini, Claudio Ferrari, Guido Borghi, Andrea Prati 0001. 1471-1480 [doi]

Confidence-Aware RGB-D Face Recognition via Virtual Depth SynthesisZijian Chen, Mei Wang, Weihong Deng, Hongzhi Shi, Dongchao Wen, Yingjie Zhang, Xingchen Cui, Jian Zhao. 1481-1489 [doi]

GraFIQs: Face Image Quality Assessment Using Gradient MagnitudesJan Niklas Kolf, Naser Damer, Fadi Boutros. 1490-1499 [doi]

One Embedding to Predict Them All: Visible and Thermal Universal Face Representations for Soft Biometric Estimation via Vision TransformersNélida Mirabet Herranz, Chiara Galdi, Jean-Luc Dugelay. 1500-1509 [doi]

Generalized Single-Image-Based Morphing Attack Detection Using Deep Representations from Vision TransformerHaoyu Zhang, Raghavendra Ramachandra, Kiran B. Raja, Christoph Busch 0001. 1510-1518 [doi]

Can the accuracy bias by facial hairstyle be reduced through balancing the training data?Kagan Öztürk, Haiyu Wu, Kevin W. Bowyer. 1519-1528 [doi]

TattTRN: Template Reconstruction Network for Tattoo RetrievalLázaro Janier González-Soler, Maciej Salwowski, Christian Rathgeb, Daniel Fischer. 1529-1538 [doi]

What Makes Multimodal In-Context Learning Work?Folco Bertini Baldassini, Mustafa Shukor, Matthieu Cord, Laure Soulier, Benjamin Piwowarski. 1539-1550 [doi]

Conv-Adapter: Exploring Parameter Efficient Transfer Learning for ConvNetsHao Chen 0102, Ran Tao 0013, Han Zhang 0048, Yidong Wang, Xiang Li 0106, Wei Ye 0004, Jindong Wang 0001, Guosheng Hu, Marios Savvides. 1551-1561 [doi]

Enhancing Visual Question Answering through Question-Driven Image Captions as PromptsÖvgü Özdemir, Erdem Akagündüz. 1562-1571 [doi]

AAPL: Adding Attributes to Prompt Learning for Vision-Language ModelsGahyeon Kim, Sohee Kim, SeokJu Lee. 1572-1582 [doi]

Prompting Foundational Models for Omni-supervised Instance SegmentationArnav M. Das, Ritwick Chaudhry, Kaustav Kundu, Davide Modolo. 1583-1592 [doi]

Low-Rank Few-Shot Adaptation of Vision-Language ModelsMaxime Zanella, Ismail Ben Ayed. 1593-1603 [doi]

PointPrompt: A Multi-modal Prompting Dataset for Segment Anything ModelJorge Quesada, Mohammad AlOtaibi, Mohit Prabhushankar, Ghassan Alregib. 1604-1610 [doi]

Uncovering the Hidden Cost of Model CompressionDiganta Misra, Muawiz Chaudhary, Agam Goyal, Bharat Runwal, Pin-Yu Chen. 1611-1621 [doi]

MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D KeypointsBedirhan Uguz, Ozhan Suat, Batuhan Karagöz, Emre Akbas. 1622-1632 [doi]

V-VIPE: Variational View Invariant Pose EmbeddingMara Levy, Abhinav Shrivastava. 1633-1642 [doi]

A Survey on 3D Egocentric Human Pose EstimationMd Mushfiqur Azam, Kevin Desai. 1643-1654 [doi]

CycleGANAS: Differentiable Neural Architecture Search for CycleGANTaegun An, Changhee Joo. 1655-1664 [doi]

The devil is in discretization discrepancy. Robustifying Differentiable NAS with Single-Stage Searching ProtocolKonstanty Subbotko, Wojciech Jablonski, Piotr Bilinski. 1665-1674 [doi]

UP-NAS: Unified Proxy for Neural Architecture SearchYi-Cheng Huang, Wei-Hua Li, Chih-Han Tsou, Jun-Cheng Chen, Chu-Song Chen. 1675-1684 [doi]

CSCO: Connectivity Search of Convolutional OperatorsTunhou Zhang, Shiyu Li, Hsin-Pai Cheng, Feng Yan 0001, Hai Li 0001, Yiran Chen 0001. 1685-1694 [doi]

GRASP-GCN: Graph-Shape Prioritization for Neural Architecture Search under Distribution ShiftsSofia Casarin, Oswald Lanz, Sergio Escalera. 1695-1703 [doi]

QuantNAS: Quantization-aware Neural Architecture Search For Efficient Deployment On Mobile DeviceTianxiao Gao, Li Guo 0006, Shanwei Zhao, Peihan Xu, Yukun Yang, Xionghao Liu, Shihao Wang, Shiai Zhu, Dajiang Zhou. 1704-1713 [doi]

Strategies to Leverage Foundational Model Knowledge in Object Affordance GroundingArushi Rai, Kyle Buettner, Adriana Kovashka. 1714-1723 [doi]

Recognize Anything: A Strong Image Tagging ModelYoucai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang. 1724-1732 [doi]

ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval ModelsAvinash Madasu, Vasudev Lal. 1733-1743 [doi]

Continual Diffusion with STAMINA: STack-And-Mask INcremental AdaptersJames Seale Smith, Yen-Chang Hsu, Zsolt Kira, Yilin Shen, Hongxia Jin. 1744-1754 [doi]

Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion ModelsGong Zhang 0011, Kai Wang 0058, Xingqian Xu, Zhangyang Wang, Humphrey Shi. 1755-1764 [doi]

LLM-Seg: Bridging Image Segmentation and Large Language Model ReasoningJunchi Wang, Lei Ke. 1765-1774 [doi]

Matting AnythingJiachen Li 0003, Jitesh Jain, Humphrey Shi. 1775-1785 [doi]

Robustness Analysis on Foundational Segmentation ModelsMadeline Chantry Schiappa, Shehreen Azad, Sachidanand VS, Yunhao Ge, Ondrej Miksik, Yogesh S. Rawat, Vibhav Vineet. 1786-1796 [doi]

Probing Conceptual Understanding of Large Visual-Language ModelsMadeline Schiappa, Raiyaan Abdullah, Shehreen Azad, Jared Claypoole, Michael Cogswell, Ajay Divakaran, Yogesh S. Rawat. 1797-1807 [doi]

Show, Think, and Tell: Thought-Augmented Fine-Tuning of Large Language Models for Video CaptioningByoungjip Kim, Dasol Hwang, Sungjun Cho, Youngsoo Jang, Honglak Lee, Moontae Lee. 1808-1817 [doi]

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMsDavide Caffagni, Federico Cocchi, Nicholas Moratelli, Sara Sarto, Marcella Cornia, Lorenzo Baraldi 0002, Rita Cucchiara. 1818-1826 [doi]

Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and SpecificityZhenlin Xu, Yi Zhu, Siqi Deng, Abhay Mittal, Yanbei Chen, Manchen Wang, Paolo Favaro, Joseph Tighe, Davide Modolo. 1827-1836 [doi]

Towards Efficient Audio-Visual Learners via Empowering Pre-trained Vision Transformers with Cross-Modal AdaptationKai Wang 0036, Yapeng Tian, Dimitrios Hatzinakos. 1837-1846 [doi]

ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language ModelsMengxue Qu, Xiaodong Chen, Wu Liu, Alicia Li, Yao Zhao 0001. 1847-1856 [doi]

SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal AttentionMuhammad Nawfal Meeran, Gokul Adethya T, Bhanu Pratyush Mantha. 1857-1866 [doi]

T2LM: Long-Term 3D Human Motion Generation from Multiple SentencesTaeryung Lee, Fabien Baradel, Thomas Lucas 0002, Kyoung Mu Lee, Grégory Rogez. 1867-1876 [doi]

Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable InputsUttaran Bhattacharya, Aniket Bera, Dinesh Manocha. 1877-1887 [doi]

Exploring Text-to-Motion Generation with Human PreferenceJenny Sheng, Matthieu Lin, Andrew Zhao, Kevin Pruvost, Yu-Hui Wen, Yangguang Li, Gao Huang 0001, Yong-Jin Liu. 1888-1899 [doi]

Two-Person Interaction Augmentation with Skeleton PriorsBaiyi Li, Edmond S. L. Ho, Hubert P. H. Shum, He Wang 0002. 1900-1910 [doi]

Multi-Track Timeline Control for Text-Driven 3D Human Motion GenerationMathis Petrovich, Or Litany, Umar Iqbal 0001, Michael J. Black, Gül Varol, Xue Bin Peng, Davis Rempe. 1911-1921 [doi]

DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech GesturesSteven Hogue, Chenxu Zhang, Hamza Daruger, Yapeng Tian, Xiaohu Guo. 1922-1931 [doi]

A Cross-Dataset Study for Text-based 3D Human Motion RetrievalLéore Bensabath, Mathis Petrovich, Gül Varol. 1932-1940 [doi]

in2IN: Leveraging individual Information to Generate Human INteractionsPablo Ruiz-Ponce, Germán Barquero, Cristina Palmero, Sergio Escalera, José García Rodríguez 0001. 1941-1951 [doi]

Fake it to make it: Using synthetic data to remedy the data shortage in joint multi-modal speech-and-gesture synthesisShivam Mehta, Anna Deichler, Jim O'Regan, Birger Moëll, Jonas Beskow, Gustav Eje Henter, Simon Alexanderson. 1952-1964 [doi]

Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly DetectionAyush Ghadiya, Purbayan Kar, Vishal M. Chudasama, Pankaj Wasnik. 1965-1974 [doi]

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint LearningZaber Ibn Abdul Hakim, Najibul Haque Sarker, Rahul Pratap Singh, Bishmoy Paul, Ali Dabouei, Min Xu. 1975-1985 [doi]

De-noised Vision-language Fusion Guided by Visual Cues for E-commerce Product SearchZhizhang Hu, Shasha Li 0001, Ming Du, Arnab Dhua, Douglas Gray 0001. 1986-1996 [doi]

RGB-D Cube R-CNN: 3D Object Detection with Selective Modality DropoutJens Piekenbrinck, Alexander Hermans, Narunas Vaskevicius, Timm Linder, Bastian Leibe. 1997-2006 [doi]

Multimodal Understanding of Memes with Fair ExplanationsYang Zhong, Bhiman Kumar Baghel. 2007-2017 [doi]

Listen Then See: Video Alignment with Speaker AttentionAviral Agrawal, Carlos Mateo Samudio Lezcano, Iqui Balam Heredia-Marin, Prabhdeep Singh Sethi. 2018-2027 [doi]

InVERGe: Intelligent Visual Encoder for Bridging Modalities in Report GenerationAnkan Deria, Komal Kumar, Snehashis Chakraborty, Dwarikanath Mahapatra, Sudipta Roy 0002. 2028-2038 [doi]

LAformer: Trajectory Prediction for Autonomous Driving with Lane-Aware Scene ConstraintsMengmeng Liu, Hao Cheng 0008, Lin Chen, Hellward Broszio, Jiangtao Li, Runjiang Zhao, Monika Sester, Michael Ying Yang. 2039-2049 [doi]

ZInD-Tell: Towards Translating Indoor Panoramas into DescriptionsTonmoay Deb, Lichen Wang, Zachary Bessinger, Naji Khosravan, Eric Penner, Sing Bing Kang. 2050-2059 [doi]

VMCML: Video and Music Matching via Cross-Modality LiftingYi-Shan Lee, Wei-Cheng Tseng, Fu-En Wang, Min Sun 0001. 2060-2069 [doi]

AIGeN: An Adversarial Approach for Instruction Generation in VLNNiyati Rawal, Roberto Bigazzi, Lorenzo Baraldi 0002, Rita Cucchiara. 2070-2080 [doi]

Multi-Modal Fusion of Event and RGB for Monocular Depth Estimation Using a Unified Transformer-based ArchitectureAnusha Devulapally, Md Fahim Faysal Khan, Siddharth Advani, Vijaykrishnan Narayanan. 2081-2089 [doi]

Exploring the Role of Audio in Video CaptioningYuhan Shen, Linjie Yang, Longyin Wen, Haichao Yu, Ehsan Elhamifar, Heng Wang. 2090-2100 [doi]

Dedicated Inference Engine and Binary-Weight Neural Networks for Lightweight Instance SegmentationTse-Wei Chen 0001, Wei Tao 0001, Dongyue Zhao, Kazuhiro Mima, Tadayuki Ito, Kinya Osa, Masami Kato. 2101-2110 [doi]

Lightweight Maize Disease Detection through Post-Training Quantization with Similarity PreservationCarlos Victorino Padeiro, Tse-Wei Chen 0004, Takahiro Komamizu, Ichiro Ide. 2111-2120 [doi]

Multi-bit, Black-box Watermarking of Deep Neural Networks in Embedded ApplicationsSam Leroux, Stijn Vanassche, Pieter Simoens. 2121-2130 [doi]

Pruning as a Binarization TechniqueLukas Frickenstein, Pierpaolo Morì, Shambhavi Balamuthu Sampath, Moritz Thoma, Nael Fasfous, Manoj Rohit Vemparala, Alexander Frickenstein, Christian Unger, Claudio Passerone, Walter Stechele. 2131-2140 [doi]

Neuromorphic Lip-Reading with Signed Spiking Gated Recurrent UnitsManon Dampfhoffer, Thomas Mesquida. 2141-2151 [doi]

Efficient Video Stabilization via Partial Block Phase Correlation on Edge GPUsCevahir Çigla. 2152-2161 [doi]

SciFlow: Empowering Lightweight Optical Flow Models with Self-Cleaning IterationsJamie Menjay Lin, Jisoo Jeong, Hong Cai, Risheek Garrepalli, Kai Wang, Fatih Porikli. 2162-2171 [doi]

Structured Sparse Back-propagation for Lightweight On-Device Continual Learning on Microcontroller UnitsFrancesco Paissan, Davide Nadalini, Manuele Rusci, Alberto Ancilotto, Francesco Conti 0001, Luca Benini, Elisabetta Farella. 2172-2181 [doi]

Multi-resolution Rescored ByteTrack for Video Object Detection on Ultra-low-power Embedded SystemsLuca Bompani, Manuele Rusci, Daniele Palossi, Francesco Conti 0001, Luca Benini. 2182-2190 [doi]

ED-DCFNet: an unsupervised encoder-decoder neural model for event-driven feature extraction and object trackingRaz Ramon, Hadar Cohen-Duwek, Elishai Ezra Tsur. 2191-2199 [doi]

RAVN: Reinforcement Aided Adaptive Vector Quantization of Deep Neural NetworksAnamika Jha, Aratrik Chattopadhyay, Mrinal Banerji, Disha Jain. 2200-2209 [doi]

Prune Efficiently by Soft PruningParakh Agarwal, Manu Mathew, Kunal Ranjan Patel, Varun Tripathi, Pramod Swami. 2210-2217 [doi]

Content-aware Input Scaling and Deep Learning Computation Offloading for Low-Latency Embedded VisionOmkar Prabhune, Tianen Chen, Younghyun Kim 0001. 2218-2226 [doi]

Using Language-Aligned Gesture Embeddings for Understanding Gestures Accompanying Math TermsTristan Maidment, Purav J. Patel, Erin Walker, Adriana Kovashka. 2227-2237 [doi]

What does CLIP know about peeling a banana?Claudia Cuttano, Gabriele Rosi, Gabriele Trivigno, Giuseppe Averta. 2238-2247 [doi]

Task Navigator: Decomposing Complex Tasks for Multimodal Large Language ModelsFeipeng Ma, Yizhou Zhou, Yueyi Zhang, Siying Wu, Zheyu Zhang 0002, Zilong He, Fengyun Rao, Xiaoyan Sun 0001. 2248-2257 [doi]

Multi-Explainable TemporalNet: An Interpretable Multimodal Approach using Temporal Convolutional Network for User-level Depression DetectionAnas Zafar, Danyal Aftab, Rizwan Qureshi, Yaofeng Wang, Hong Yan 0001. 2258-2265 [doi]

ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based Video Analysis SystemMd. Adnan Arefeen, Biplob Debnath, Md. Yusuf Sarwar Uddin, Srimat Chakradhar. 2266-2274 [doi]

Strategies to Improve Real-World Applicability of Laparoscopic Anatomy Segmentation ModelsFiona R. Kolbinger, Jiangpeng He, Jinge Ma, Fengqing Zhu 0001. 2275-2284 [doi]

nnMobileNet: Rethinking CNN for Retinopathy ResearchWenhui Zhu, Peijie Qiu, Xiwen Chen, Xin Li, Natasha Leporé, Oana M. Dumitrascu, Yalin Wang 0001. 2285-2294 [doi]

Distribution-Aware Multi-Label FixMatch for Semi-Supervised Learning on CheXpertSontje Ihler, Felix Kuhnke, Timo Kuhlgatz, Thomas Seel. 2295-2304 [doi]

Repurposing the Image Generative Potential: Exploiting GANs to Grade Diabetic RetinopathyIsabella Poles, Eleonora D'Arnese, Luca G. Cellamare, Marco D. Santambrogio, Darvin Yi. 2305-2314 [doi]

Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative ModelingAbril Corona-Figueroa, Hubert P. H. Shum, Chris G. Willcocks. 2315-2324 [doi]

ControlPolypNet: Towards Controlled Colon Polyp Synthesis for Improved Polyp SegmentationVanshali Sharma, Abhishek Kumar, Debesh Jha, Manas Kamal Bhuyan, Pradip K. Das, Ulas Bagci. 2325-2334 [doi]

Generation of Structurally Realistic Retinal Fundus Images with Diffusion ModelsSojung Go, Younghoon Ji, Sang-Jun Park, Soochahn Lee. 2335-2344 [doi]

A Comparative Analysis of Implicit Augmentation Techniques for Breast Cancer Diagnosis Using Multiple ViewsYumnah Hasan, Talhat Khan, Darian Reyes Fernández de Bulnes, Juan F. H. Albarracín, Conor Ryan. 2345-2354 [doi]

Creating a Digital Twin of Spinal Surgery: A Proof of ConceptJonas Hein, Frédéric Giraud, Lilian Calvet, Alexander Schwarz, Nicola Alessandro Cavalcanti, Sergey Prokudin, Mazda Farshad, Siyu Tang 0001, Marc Pollefeys, Fabio Carrillo, Philipp Fürnstahl. 2355-2364 [doi]

Codebook VQ-VAE Approach for Prostate Cancer Diagnosis using Multiparametric MRIEkaterina Redekop, Mara Pleasure, Zichen Wang, Karthik V. Sarma, Adam Kinnaird, William Speier, Corey W. Arnold. 2365-2372 [doi]

Advancing Brain Tumor Analysis: Curating a High-Quality MRI Dataset for Deep Learning-Based Molecular Marker ProfilingDivya D. Reddy, Niloufar Saadat, James M. Holcomb, Benjamin C. Wagner, Nghi C. Truong, Jason Bowerman, Kimmo J. Hatanpaa, Toral R. Patel, Marco C. Pinho, Ananth J. Madhuranthakam, Chandan Ganesh Bangalore Yogananda, Joseph A. Maldjian. 2373-2379 [doi]

Privacy-Preserving Collaboration for Multi-Organ Segmentation via Federated Learning from Sites with Partial LabelsAdway U. Kanhere, Pranav Kulkarni, Paul H. Yi, Vishwa S. Parekh. 2380-2387 [doi]

GSAM+Cutie: Text-Promptable Tool Mask Annotation for Endoscopic VideoRoger D. Soberanis-Mukul, Jiahuan Cheng, Jan Emily Mangulabnan, S. Swaroop Vedula, Masaru Ishii, Gregory D. Hager, Russell H. Taylor, Mathias Unberath. 2388-2394 [doi]

MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal SystemsTiago Mota, Maria Rita Verdelho, Diogo J. Araújo, Alceu Bissoto, Carlos Santiago, Catarina Barata. 2395-2403 [doi]

Hairy Ground Truth Enhancement for Semantic SegmentationSophie Fischer, Irina Voiculescu. 2404-2412 [doi]

Beyond respiratory models: a physics-enhanced synthetic data generation method for 2D-3D deformable registrationFrançois Lecomte, Pablo Alvarez 0001, Stéphane Cotin, Jean-Louis Dillenseger. 2413-2421 [doi]

UltraAugment: Fan-shape and Artifact-based Data Augmentation for 2D Ultrasound ImagesFlorian Ramakers, Tom Vercauteren, Jan Deprest, Helena Williams. 2422-2431 [doi]

PARASOL: Parametric Style Control for Diffusion Image SynthesisGemma Canet Tarres, Dan Ruta, Tu Bui, John P. Collomosse. 2432-2442 [doi]

Extending global-local view alignment for self-supervised learning with remote sensing imageryXinye Wanyan, Sachith Seneviratne, Shuchang Shen, Michael Kirley. 2443-2453 [doi]

RetinaLiteNet: A Lightweight Transformer based CNN for Retinal Feature SegmentationMehwish Mehmood, Majed Alsharari, Shahzaib Iqbal, Ivor Spence, Muhammad Fahim. 2454-2463 [doi]

ABC-CapsNet: Attention based Cascaded Capsule Network for Audio Deepfake DetectionTaiba Majid Wani, Reeva Gulzar, Irene Amerini. 2464-2472 [doi]

GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture RecognitionMallika Garg, Debashis Ghosh, Pyari Mohan Pradhan. 2473-2483 [doi]

Unsupervised Domain Adaptation for Weed Segmentation Using Greedy Pseudo-labellingYingchao Huang, Abdul Bais. 2484-2494 [doi]

RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image SynthesisAnant Khandelwal. 2495-2504 [doi]

Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic ImagesKrishnakant Singh, Thanush Navaratnam, Jannik Holmer, Simone Schaub-Meyer, Stefan Roth 0001. 2505-2515 [doi]

FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation DebiasingAnant Khandelwal. 2516-2526 [doi]

VideoSAGE: Video Summarization with Graph Representation LearningJose M. Rojas Chaves, Subarna Tripathi. 2527-2534 [doi]

EgoSG: Learning 3D Scene Graphs from Egocentric RGB-D SequencesChaoyi Zhang, Xitong Yang, Ji Hou, Kris Kitani, Weidong Cai 0001, Fu-Jen Chu. 2535-2545 [doi]

Efflex: Efficient and Flexible Pipeline for Spatio-Temporal Trajectory Graph Modeling and Representation LearningMing Cheng, Ziyi Zhou, Bowen Zhang, Ziyu Wang, Jiaqi Gan, Ziang Ren, Weiqi Feng, Yi Lyu, Hefan Zhang, Xingjian Diao. 2546-2555 [doi]

Segment Anything Model for Road Network Graph ExtractionCongrui Hetang, Haoru Xue, Cindy X. Le, Tianwei Yue, Wenping Wang, Yihui He. 2556-2566 [doi]

A Review and Efficient Implementation of Scene Graph Generation MetricsJulian Lorenz, Robin Schön, Katja Ludwig, Rainer Lienhart. 2567-2575 [doi]

SemiGPC: Distribution-Aware Label Refinement for Imbalanced Semi-Supervised Learning Using Gaussian ProcessesAbdelhak Lemkhenter, Manchen Wang, Luca Zancato, Gurumurthy Swaminathan, Paolo Favaro, Davide Modolo. 2576-2585 [doi]

Uncertainty-based Forgetting Mitigation for Generalized Few-Shot Object DetectionKarim Guirguis, George Eskandar, Mingyang Wang, Matthias Kayser, Eduardo Monari, Bin Yang 0009, Jürgen Beyerer. 2586-2595 [doi]

Image-caption difficulty for efficient weakly-supervised object detection from in-the-wild dataGiacomo Nebbia, Adriana Kovashka. 2596-2605 [doi]

Learning Tracking Representations from Single Point AnnotationsQiangqiang Wu, Antoni B. Chan. 2606-2615 [doi]

CDAD-Net: Bridging Domain Gaps in Generalized Category DiscoverySai Bhargav Rongali, Sarthak Mehrotra, Ankit Jha, Mohamad Hassan N. C, Shirsha Bose, Tanisha Gupta, Mainak Singha, Biplab Banerjee. 2616-2626 [doi]

Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal ModelsDavid Kurzendörfer, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata. 2627-2638 [doi]

Latent-based Diffusion Model for Long-tailed RecognitionPengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li. 2639-2648 [doi]

MoDA: Leveraging Motion Priors from Videos for Advancing Unsupervised Domain Adaptation in Semantic SegmentationFei Pan, Xu Yin, SeokJu Lee, Axi Niu, Sung-Eui Yoon, In-So Kweon. 2649-2658 [doi]

Active Transferability EstimationTarun Ram Menta, Surgan Jandial, Akash Patil, Saketh Bachu, Vimal K. B., Balaji Krishnamurthy, Vineeth N. Balasubramanian, Mausoom Sarkar, Chirag Agarwal. 2659-2670 [doi]

What is Point Supervision Worth in Video Instance Segmentation?Shuaiyi Huang, De-An Huang, Zhiding Yu, Shiyi Lan, Subhashree Radhakrishnan, José M. Álvarez 0004, Abhinav Shrivastava, Anima Anandkumar. 2671-2681 [doi]

UVIS: Unsupervised Video Instance SegmentationShuaiyi Huang, Saksham Suri, Kamal Gupta 0002, Sai Saketh Rambhatla, Ser-Nam Lim, Abhinav Shrivastava. 2682-2692 [doi]

Open-world Instance Segmentation: Top-down Learning with Bottom-up SupervisionTarun Kalluri, Weiyao Wang 0001, Heng Wang, Manmohan Chandraker, Lorenzo Torresani, Du Tran. 2693-2703 [doi]

Weakly-Supervised Temporal Action Localization with Multi-Modal Plateau TransformersXin Hu, Kai Li 0012, Deep Patel, Erik Kruus, Martin Renqiang Min, Zhengming Ding. 2704-2713 [doi]

On Accuracy and Speed of Geodesic Regression: Do Geometric Priors Improve Learning on Small Datasets?Adele Myers, Nina Miolane. 2714-2722 [doi]

Human-in-the-Loop Segmentation of Multi-species Coral ImageryScarlett Raine, Ross Marchant, Brano Kusy, Frédéric Maire, Niko Sünderhauf, Tobias Fischer 0001. 2723-2732 [doi]

Zero-Shot Monocular Motion Segmentation in the Wild by Combining Deep Learning with Geometric Motion Model FusionYuxiang Huang, Yuhao Chen, John Zelek. 2733-2743 [doi]

Generalized Few-Shot Meets Remote Sensing: Discovering Novel Classes in Land Cover Mapping via Hybrid Semantic Segmentation FrameworkZhuohong Li, Fangxiao Lu, Jiaqi Zou, Lei Hu, Hongyan Zhang 0001. 2744-2754 [doi]

Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing DomainSteve Andreas Immanuel, Hagai Raja Sinulingga. 2755-2761 [doi]

Class Similarity Transition: Decoupling Class Similarities and Imbalance from Generalized Few-shot SegmentationShihong Wang, Ruixun Liu, Kaiyu Li, Jiawei Jiang, Xiangyong Cao. 2762-2770 [doi]

Enrich, Distill and Fuse: Generalized Few-Shot Semantic Segmentation in Remote Sensing Leveraging Foundation Model's AssistanceTianyi Gao, Wei Ao, Xing-Ao Wang, Yuanhao Zhao, Ping Ma, Mengjie Xie, Hang Fu, Jinchang Ren, Zhi Gao. 2771-2780 [doi]

Dynamic Knowledge Adapter with Probabilistic Calibration for Generalized Few-Shot Semantic SegmentationJintao Tong, Haichen Zhou, Yicong Liu, Yiman Hu, Yixiong Zou. 2781-2790 [doi]

Localised-NeRF: Specular Highlights and Colour Gradient Localising in NeRFDharmendra Selvaratnam, Dena Bazazian. 2791-2801 [doi]

Recon3D: High Quality 3D Reconstruction from a Single Image Using Generated Back-View Explicit PriorsRuiyang Chen, Mohan Yin, Jiawei Shen, Wei Ma. 2802-2811 [doi]

GHNeRF: Learning Generalizable Human Features with Efficient Neural Radiance FieldsArnab Dey, Di Yang 0002, Rohith Agaram, Antitza Dantcheva, Andrew I. Comport, Srinath Sridhar 0002, Jean Martinet. 2812-2821 [doi]

Analyzing the Internals of Neural Radiance FieldsLukas Radl, Andreas Kurz, Michael Steiner 0011, Markus Steinberger. 2822-2831 [doi]

Unveiling the Ambiguity in Neural Inverse Rendering: A Parameter Compensation AnalysisGeorgios Kouros, Minye Wu, Sushruth Nagesh, Xianling Zhang, Tinne Tuytelaars. 2832-2841 [doi]

SAD-GS: Shape-aligned Depth-supervised Gaussian SplattingPou-Chun Kung, Seth Isaacson, Ram Vasudevan, Katherine A. Skinner. 2842-2851 [doi]

CoLa-SDF: Controllable Latent StyleSDF for Disentangled 3D Face GenerationRahul Dey, Bernhard Egger 0001, Vishnu Naresh Boddeti, Ye Wang 0001, Tim K. Marks. 2852-2861 [doi]

SLAIM: Robust Dense Neural SLAM for Online Tracking and MappingVincent Cartillier, Grant Schindler, Irfan Essa. 2862-2871 [doi]

NeRF as Pretraining at Scale: Generalizable 3D-Aware Semantic Representation Learning from View PredictionWenyan Cong, Hanxue Liang, Zhiwen Fan, Peihao Wang, Yifan Jiang 0001, Dejia Xu, A. Cengiz Öztireli, Zhangyang Wang. 2872-2882 [doi]

Neural Fields for Co-Reconstructing 3D Objects from Incidental 2D DataDylan Campbell, Eldar Insafutdinov, João F. Henriques, Andrea Vedaldi. 2883-2893 [doi]

Large Language Models in Wargaming: Methodology, Application, and RobustnessYuwei Chen, Shiyong Chu. 2894-2903 [doi]

Enhancing Targeted Attack Transferability via Diversified Weight PruningHung-Jui Wang, Yu-Yu Wu, Shang-Tse Chen. 2904-2914 [doi]

Enhancing the Transferability of Adversarial Attacks with Stealth PreservationXinwei Zhang, Tianyuan Zhang 0004, Yitong Zhang, Shuangcheng Liu. 2915-2925 [doi]

Benchmarking Robustness in Neural Radiance FieldsChen Wang 0049, Angtian Wang, Junbo Li, Alan L. Yuille, Cihang Xie. 2926-2936 [doi]

Sharpness-Aware Optimization for Real-World Adversarial Attacks for Diverse Compute Platforms with Enhanced TransferabilityMuchao Ye, Xiang Xu, Qin Zhang, Jonathan Wu 0002. 2937-2946 [doi]

Red-Teaming Segment Anything ModelKrzysztof Jankowski, Bartlomiej Sobieski, Mateusz Kwiatkowski, Jakub Szulc, Michal Janik, Hubert Baniecki, Przemyslaw Biecek. 2947-2956 [doi]

Learning to Schedule Resistant to Adversarial Attacks in Diffusion Probabilistic Models Under the Threat of Lipschitz SingularitiesSanghwa Hong. 2957-2966 [doi]

Multimodal Attack Detection for Action Recognition ModelsFurkan Mumcu, Yasin Yilmaz. 2967-2976 [doi]

Deep Learning-Based Identification of Arctic Ocean Boundaries and Near-Surface Phenomena in Underwater EchogramsFemina Senjaliya, Melissa Cote, Amanda Dash, Alexandra Branzan Albu, Andrea Niemi, Stéphane Gauthier, Julek Chawarski, Steve Pearce, Kaan Ersahin, Keath Borg. 2977-2986 [doi]

BiMAE - A Bimodal Masked Autoencoder Architecture for Single-Label Hyperspectral Image ClassificationMaksim Kukushkin, Martin Bogdan, Thomas Schmid 0003. 2987-2996 [doi]

DaFF: Dual Attentive Feature Fusion for Multispectral Pedestrian DetectionAfnan Althoupety, Li-Yun Wang, Wu-chi Feng, Banafsheh Rekabdar. 2997-3006 [doi]

HNN: Hierarchical Noise-Deinterlace Net Towards Image DenoisingAmogh Joshi, Nikhil Akalwadi, Chinmayee Mandi, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi. 3007-3016 [doi]

Seeing the Vibration from Fiber-Optic Cables: Rain Intensity Monitoring using Deep Frequency FilteringZhuocheng Jiang, Yangmin Ding, Junhui Zhao, Yue Tian, Shaobo Han, Sarper Ozharar, Ting Wang 0016, James M. Moore. 3017-3026 [doi]

SwinFuSR: an image fusion-inspired model for RGB-guided thermal image super-resolutionCyprien Arnold, Philippe Jouvet, Lama Seoud. 3027-3036 [doi]

CAFF-DINO: Multi-spectral object detection transformers with cross-attention features fusionKevin Helvig, Baptiste Abeloos, Pauline Trouvé-Peloux. 3037-3046 [doi]

Learning Surface Terrain Classifications from Ground Penetrating RadarAnja Sheppard, Jason Brown, Nilton O. Renno, Katherine A. Skinner. 3047-3055 [doi]

Scattering Prompt Tuning: A Fine-tuned Foundation Model for SAR Object RecognitionWeilong Guo, Shengyang Li, Jian Yang. 3056-3065 [doi]

MvAV-pix2pixHD: Multi-view Aerial View Image TranslationJun Yu, Keda Lu, Shenshen Du, Lin Xu, Peng Chang, Houde Liu, Bin Lan, Tianyu Liu. 3066-3075 [doi]

Flexible Window-based Self-attention Transformer in Thermal Image Super-ResolutionHongcheng Jiang, Zhiqiang Chen. 3076-3085 [doi]

Multi-Scale Feature Fusion using Channel Transformers for Guided Thermal Image Super ResolutionRaghunath Sai Puttagunta, Birendra Kathariya, Zhu Li 0001, George York. 3086-3095 [doi]

Multi-modal Aerial View Image Challenge: Sensor Domain TranslationSpencer Low, Oliver Nina, Dylan Bowald, Angel Domingo Sappa, Nathan Inkawhich, Peter Bruns. 3096-3104 [doi]

Multi-modal Aerial View Image Challenge: SAR ClassificationSpencer Low, Oliver Nina, Dylan Bowald, Angel Domingo Sappa, Nathan Inkawhich, Peter Bruns. 3105-3112 [doi]

Thermal Image Super-Resolution Challenge Results - PBVS 2024Rafael E. Rivadeneira, Angel Domingo Sappa, Chenyang Wang 0002, Junjun Jiang, Zhiwei Zhong, Peilin Chen, Shiqi Wang 0001. 3113-3122 [doi]

Exploring the usage of diffusion models for thermal image super-resolution: a generic, uncertainty-aware approach for guided and non-guided schemesCarlos Cortés-Mendez, Jean-Bernard Hayet. 3123-3130 [doi]

Narrowing the Synthetic-to-Real Gap for Thermal Infrared Semantic Image Segmentation Using Diffusion-based Conditional Image SynthesisChristian Mayr 0004, Christian Kübler, Norbert Haala, Michael Teutsch. 3131-3141 [doi]

Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum ImageryYona Falinie A. Gaus, Neelanjan Bhowmik, Brian K. S. Isaac-Medina, Toby P. Breckon. 3142-3152 [doi]

Forward-Forward Algorithm for Hyperspectral Image ClassificationAbel A. Reyes Angulo, Sidike Paheding. 3153-3161 [doi]

Revisiting pre-trained remote sensing model benchmarks: resizing and normalization mattersIsaac Corley, Caleb Robinson, Rahul Dodhia, Juan M. Lavista Ferres, Peyman Najafirad. 3162-3172 [doi]

Second Edition FRCSyn Challenge at CVPR 2024: Face Recognition Challenge in the Era of Synthetic DataIvan DeAndres-Tame, Ruben Tolosana, Pietro Melzi, Rubén Vera-Rodríguez, Minchul Kim, Christian Rathgeb, Xiaoming Liu 0002, Aythami Morales, Julian Fiérrez, Javier Ortega-Garcia, Zhizhou Zhong, Yuge Huang, Yuxi Mi, Shouhong Ding, Shuigeng Zhou, Shuai He, Lingzhi Fu, Heng Cong, Rongyu Zhang, Zhihong Xiao, Evgeny Smirnov, Anton Pimenov, Aleksei Grigorev, Denis Timoshenko, Kaleb Mesfin Asfaw, Cheng-Yaw Low, Hao Liu, Chuyi Wang, Qing Zuo, Zhixiang He, Hatef Otroshi-Shahreza, Anjith George, Alexander Unnervik, Parsa Rahimi, Sébastien Marcel, Pedro C. Neto, Marco Huber, Jan Niklas Kolf, Naser Damer, Fadi Boutros, Jaime S. Cardoso 0001, Ana Filipa Sequeira, Andrea Atzori, Gianni Fenu, Mirko Marras, Vitomir Struc, Jiang Yu, Zhangjie Li, Jichun Li, Weisong Zhao, Zhen Lei 0001, Xiangyu Zhu 0001, Xiao-Yu Zhang, Bernardo Biesseck, Pedro Vidal 0001, Luiz Coelho, Roger Granada, David Menotti. 3173-3183 [doi]

FineRehab: A Multi-modality and Multi-task Dataset for Rehabilitation AnalysisJianwei Li, Jun Xue, Rui Cao, Xiaoxia Du, Siyu Mo, Kehao Ran, Zeyan Zhang. 3184-3193 [doi]

Augmenting Pass Prediction via Imitation Learning in Soccer SimulationsTakeshi Kaneko, Rei Kawakami, Takeshi Naemura, Nakamasa Inoue. 3194-3203 [doi]

Hierarchical NeuroSymbolic Approach for Comprehensive and Explainable Action Quality AssessmentLauren Okamoto, Paritosh Parmar. 3204-3213 [doi]

AutoSoccerPose: Automated 3D posture Analysis of Soccer Shot MovementsCalvin C. K. Yeung, Kenjiro Ide, Keisuke Fujii 0001. 3214-3224 [doi]

Video Interaction Recognition using an Attention Augmented Relational Network and Skeleton DataFarzaneh Askari, Cyril Yared, Rohit Ramaprasad, Devin Garg, Anjun Hu, James J. Clark. 3225-3234 [doi]

A General Framework for Jersey Number Recognition in Sports VideoMaria Koshkina, James H. Elder. 3235-3244 [doi]

MV-Soccer: Motion-Vector Augmented Instance Segmentation for Soccer Player TrackingFahad Majeed, Nauman Ullah Gilal, Khaled A. Al-Thelaya, Yin Yang 0001, Marco Agus, Jens Schneider 0002. 3245-3255 [doi]

Rugby Scene Classification Enhanced by Vision Language ModelNaoki Nonaka, Ryo Fujihira, Toshiki Koshiba, Akira Maeda, Jun Seita. 3256-3266 [doi]

X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language ModelsJan Held, Hani Itani, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck. 3267-3279 [doi]

SoccerNet-Depth: a Scalable Dataset for Monocular Depth Estimation in Sports VideosArnaud Leduc, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck. 3280-3282 [doi]

SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification on a MinimapVladimir Somers, Victor Joos, Anthony Cioppa, Silvio Giancola, Seyed Abolfazl Ghasemzadeh, Floriane Magera, Baptiste Standaert, Amir M. Mansourian, Xin Zhou 0024, Shohreh Kasaei, Bernard Ghanem, Alexandre Alahi, Marc Van Droogenbroeck, Christophe De Vleeschouwer. 3293-3305 [doi]

Multi-Modal Hit Detection and Positional Analysis in Padel CompetitionsRobbe Decorte, Martin Paré, Jelle Vanhaeverbeke, Joachim Taelman, Maarten Slembrouck, Steven Verstockt. 3306-3314 [doi]

Pseudo-label based unsupervised fine-tuning of a monocular 3D pose estimation model for sports motionsTomohiro Suzuki, Ryota Tanaka, Kazuya Takeda, Keisuke Fujii 0001. 3315-3324 [doi]

No Bells, Just Whistles: Sports Field Registration by Leveraging Geometric PropertiesMarc Gutiérrez-Pérez, Antonio Agudo. 3325-3334 [doi]

A Universal Protocol to Benchmark Camera Calibration for SportsFloriane Magera, Thomas Hoyoux, Olivier Barnich, Marc Van Droogenbroeck. 3335-3346 [doi]

Table tennis ball spin estimation with an event cameraThomas Gossard, Julian Krismer, Andreas Ziegler 0006, Jonas Tebbe, Andreas Zell. 3347-3356 [doi]

TeamTrack: A Dataset for Multi-Sport Multi-Object Tracking in Full-pitch VideosAtom Scott, Ikuma Uchida, Ning Ding, Rikuhei Umemoto, Rory P. Bunker, Ren Kobayashi, Takeshi Koyama, Masaki Onishi, Yoshinari Kameda, Keisuke Fujii 0001. 3357-3366 [doi]

Event-based Ball Spin Estimation in SportsTakuya Nakabayashi, Kyota Higa, Masahiro Yamaguchi, Ryo Fujiwara, Hideo Saito. 3367-3375 [doi]

A stroke of genius: Predicting the next move in badmintonMagnus Ibh, Stella Graßhof, Dan Witzner Hansen. 3376-3385 [doi]

Beyond the Premier: Assessing Action Spotting Transfer Capability Across Diverse DomainsBruno Cabado, Anthony Cioppa, Silvio Giancola, Andrés Villa, Bertha Guijarro-Berdiñas, Emilio J. Padrón 0001, Bernard Ghanem, Marc Van Droogenbroeck. 3386-3398 [doi]

Medium Scale Benchmark for Cricket Excited Actions UnderstandingAltaf Hussain, Noman Khan, Muhammad Munsif, Min Je Kim, Sung Wook Baik. 3399-3409 [doi]

T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports VideosArtur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés. 3410-3419 [doi]

PitcherNet: Powering the Moneyball Evolution in Baseball Video AnalyticsJerrin Bright, Bavesh Balaji, Yuhao Chen, David A. Clausi, John S. Zelek. 3420-3429 [doi]

ExerAIde: AI-assisted Multimodal Diagnosis for Enhanced Sports Performance and Personalised RehabilitationAhmed Qazi, Asim Iqbal. 3430-3438 [doi]

Look, Listen, and Attack: Backdoor Attacks Against Video Action RecognitionHasan Abed Al Kader Hammoud, Shuming Liu, Mohammed Alkhrashi, Fahad Albalawi, Bernard Ghanem. 3439-3450 [doi]

Understanding ReLU Network Robustness Through Test Set Certification PerformanceNicola Franco, Jeanette Miriam Lorenz, Karsten Roscher, Stephan Günnemann. 3451-3460 [doi]

Reliable Trajectory Prediction and Uncertainty Quantification with Conditioned Diffusion ModelsMarion Neumeier, Sebastian Dorn, Michael Botsch, Wolfgang Utschick. 3461-3470 [doi]

Hinge-Wasserstein: Estimating Multimodal Aleatoric Uncertainty in Regression TasksZiliang Xiong, Arvi Jonnarth, Abdelrahman Eldesokey, Joakim Johnander, Bastian Wandt, Per-Erik Forssén. 3471-3480 [doi]

AdvDenoise: Fast Generation Framework of Universal and Robust Adversarial Patches Using DenoiseJing Li, Zigan Wang, Jinliang Li. 3481-3490 [doi]

Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based ExplanationsMaximilian Dreyer, Reduan Achtibat, Wojciech Samek, Sebastian Lapuschkin. 3491-3501 [doi]

Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object DetectionSyed Sha Qutub, Michael Paulitsch, Kay-Ulrich Scholl, Neslihan Köse Cihangir, Korbinian Hagn, Fabian Oboril, Gereon Hinz, Alois Knoll. 3502-3511 [doi]

The Penalized Inverse Probability Measure for Conformal ClassificationPaul Melki, Lionel Bombrun, Boubacar Diallo, Jérôme Dias, Jean Pierre Da Costa. 3512-3521 [doi]

Run-time Monitoring of 3D Object Detection in Automated Driving Systems Using Early Layer Neural Activation PatternsHakan Yekta Yatbaz, Mehrdad Dianati, Konstantinos Koufos, Roger Woodman. 3522-3531 [doi]

Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias SuppressionDilyara Bareeva, Maximilian Dreyer, Frederik Pahde, Wojciech Samek, Sebastian Lapuschkin. 3532-3541 [doi]

Investigating Calibration and Corruption Robustness of Post-hoc Pruned Perception CNNs: An Image Classification Benchmark StudyPallavi Mitra, Gesina Schwalbe, Nadja Klein. 3542-3552 [doi]

Towards Weakly-Supervised Domain Adaptation for Lane DetectionJingxing Zhou, Chongzhe Zhang, Jürgen Beyerer. 3553-3563 [doi]

Towards Engineered Safe AI with Modular Concept ModelsLena Heidemann, Iwo Kurzidem, Maureen Monnet, Karsten Roscher, Stephan Günnemann. 3564-3573 [doi]

Conformal Semantic Image Segmentation: Post-hoc Quantification of Predictive UncertaintyLuca Mossina, Joseba Dalmau, Léo Andéol. 3574-3584 [doi]

A Comprehensive Analysis of Factors Impacting Membership InferenceDaniel DeAlcala, Gonzalo Mancera, Aythami Morales, Julian Fiérrez, Ruben Tolosana, Javier Ortega-Garcia. 3585-3593 [doi]

Exploiting CLIP Self-Consistency to Automate Image Augmentation for Safety Critical ScenariosSujan Sai Gannamaneni, Frederic Klein, Michael Mock, Maram Akila. 3594-3604 [doi]

Adaptive Memory Replay for Continual LearningJames Seale Smith, Lazar Valkov, Shaunak Halbe, Vyshnavi Gutta, Rogério Feris, Zsolt Kira, Leonid Karlinsky. 3605-3615 [doi]

Adapting the Segment Anything Model During Usage in Novel SituationsRobin Schön, Julian Lorenz, Katja Ludwig, Rainer Lienhart. 3616-3626 [doi]

PMAFusion: Projection-Based Multi-Modal Alignment for 3D Semantic Occupancy PredictionShiyao Li, Wenming Yang, Qingmin Liao. 3627-3634 [doi]

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial UnderstandingHaoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari. 3635-3647 [doi]

QAttn: Efficient GPU Kernels for mixed-precision Vision TransformersPiotr Kluska, Adrián Castelló 0001, Florian Scheidegger, A. Cristiano I. Malossi, Enrique S. Quintana-Ortí. 3648-3657 [doi]

Efficient Transformer Adaptation with Soft Token MergingXin Yuan, Hongliang Fei, Jinoo Baek. 3658-3668 [doi]

HaLViT: Half of the Weights are EnoughOnur Can Koyun, Behçet Ugur Töreyin. 3669-3678 [doi]

Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic ForgettingReza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi. 3679-3684 [doi]

Automatic Recognition of Food Ingestion Environment from the AIM-2 Wearable SensorYuning Huang, M. A Hassan, Jiangpeng He, Janine A. Higgins, Megan A. Mccrory, Heather A. Eicher-Miller, J. Graham Thomas, Edward Sazonov, Fengqing Zhu 0001. 3685-3694 [doi]

Learning to Classify New Foods Incrementally Via Compressed ExemplarsJustin Yang, Zhihao Duan, Jiangpeng He, Fengqing Zhu 0001. 3695-3704 [doi]

MP-PolarMask: A Faster and Finer Instance Segmentation for Concave ImagesKe-Lei Wang, Pin-Hsuan Chou, Young-Ching Chou, Chia-Jen Liu, Cheng-Kuan Lin, Yu-Chee Tseng. 3705-3714 [doi]

Segment Anything in Food ImagesSaeed S. Alahmari, Michael Gardner, Tawfiq Salem. 3715-3720 [doi]

Shape-Preserving Generation of Food Images for Automatic Dietary AssessmentGuangzong Chen, Zhi-Hong Mao, Mingui Sun, Kangni Liu, Wenyan Jia. 3721-3731 [doi]

A Generative Exploration of Cuisine TransferPhilip Wootaek Shin, Ajay Narayanan Sridhar, Jack Sampson, Vijaykrishnan Narayanan. 3732-3740 [doi]

Food Portion Estimation via 3D Object ScalingGautham Vinod, Jiangpeng He, Zeman Shao, Fengqing Zhu 0001. 3741-3749 [doi]

LOFI: LOng-tailed FIne-Grained Network for Food RecognitionJesús M. Rodríguez-de-Vera, Imanol G. Estepa, Marc Bolaños, Bhalaji Nagarajan, Petia Radeva. 3750-3760 [doi]

How Much You Ate? Food Portion Estimation on SpoonsAaryam Sharma, Chris Czarnecki, Yuhao Chen, Pengcheng Xi, Linlin Xu, Alexander Wong. 3761-3770 [doi]

Faster Than Lies: Real-time Deepfake Detection using Binary Neural NetworksRomeo Lanzino, Federico Fontana, Anxhelo Diko, Marco Raoul Marini, Luigi Cinque. 3771-3780 [doi]

Latent Flow Diffusion for Deepfake Video GenerationAashish Chandra K, Aashutosh A V, Srijan Das, Abhijit Das 0001. 3781-3790 [doi]

Deepfake Catcher: Can a Simple Fusion be Effective and Outperform Complex DNNs?Akshay Agarwal 0001, Nalini K. Ratha. 3791-3801 [doi]

DiffSeg: Towards Detecting Diffusion-Based Inpainting Attacks Using Multi-Feature SegmentationRaphael Antonius Frick, Martin Steinebach. 3802-3808 [doi]

PUDD: Towards Robust Multi-modal Prototype-based Deepfake DetectionAlvaro Lopez Pellcier, Yi Li, Plamen Angelov 0001. 3809-3817 [doi]

Demographic Bias Effects on Face Image SynthesisRoberto Leyva, Victor Sanchez, Gregory Epiphaniou, Carsten Maple. 3818-3826 [doi]

Evaluating the Integration of Morph Attack Detection in Automated Face Recognition SystemsAndrea Panzino, Simone Maurizio La Cava, Giulia Orrù, Gian Luca Marcialis. 3827-3836 [doi]

Temporal surface frame anomalies for deepfake video detectionAndrea Ciamarra, Roberto Caldelli, Alberto Del Bimbo. 3837-3844 [doi]

Quality-based Artifact Modeling for Facial Deepfake Detection in VideosSara Concas, Simone Maurizio La Cava, Roberto Casula, Giulia Orrù, Giovanni Puglisi, Gian Luca Marcialis. 3845-3854 [doi]

MaskSim: Detection of synthetic images by masked spectrum similarity analysisYanhao Li, Quentin Bammey, Marina Gardella, Tina Nikoukhah, Jean-Michel Morel, Miguel Colom, Rafael Grompone von Gioi. 3855-3865 [doi]

Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled EnsembleBlaz Rolih, Dick Ameln, Ashwin Vaidya, Samet Akcay. 3866-3875 [doi]

Omni-Crack30k: A Benchmark for Crack Segmentation and the Reasonable Effectiveness of Transfer LearningChristian Benz, Volker Rodehorst. 3876-3886 [doi]

Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified ApproachAyush K. Rai, Tarun Krishna, Feiyan Hu, Alexandru Drimbarean, Kevin McGuinness, Alan F. Smeaton, Noel E. O'Connor. 3887-3899 [doi]

Blind Localization and Clustering of Anomalies in TexturesAndrei-Timotei Ardelean, Tim Weyrich. 3900-3909 [doi]

Test Time Training for Industrial Anomaly SegmentationAlex Costanzino, Pierluigi Zama Ramirez, Mirko Del Moro, Agostino Aiezzo, Giuseppe Lisanti, Samuele Salti, Luigi di Stefano. 3910-3920 [doi]

TAB: Text-Align Anomaly Backbone Model for Industrial Inspection TasksHo-Weng Lee, Shang-Hong Lai. 3921-3929 [doi]

Tri-VAE: Triplet Variational Autoencoder for Unsupervised Anomaly Detection in Brain Tumor MRIHansen Wijanarko, Evelyne Calista, Li-Fen Chen, Yong-Sheng Chen. 3930-3939 [doi]

Dynamic Addition of Noise in a Diffusion Model for Anomaly DetectionJustin Tebbe, Jawad Tayyub. 3940-3949 [doi]

SplatPose & Detect: Pose-Agnostic 3D Anomaly DetectionMathis Kruse, Marco Rudolph, Dominik Woiwode, Bodo Rosenhahn. 3950-3960 [doi]

Dynamic Distinction Learning: Adaptive Pseudo Anomalies for Video Anomaly DetectionDemetris Lappas, Vasileios Argyriou, Dimitrios Makris 0001. 3961-3970 [doi]

COOD: Combined out-of-distribution detection using multiple measures for anomaly & novel class detection in large-scale hierarchical classificationLaurens E. Hogeweg, Rajesh Gangireddy, Django Brunink, Vincent J. Kalkman, Ludo Cornelissen, Jacob W. Kamminga. 3971-3980 [doi]

Model-guided contrastive fine-tuning for industrial anomaly detectionAitor Artola, Yannis Kolodziej, Jean-Michel Morel, Thibaud Ehret. 3981-3991 [doi]

Tracklet-based Explainable Video Anomaly LocalizationAshish Singh, Michael J. Jones 0001, Erik G. Learned-Miller. 3992-4001 [doi]

Context-aware Video Anomaly Detection in Long-Term DatasetsZhengye Yang, Richard J. Radke. 4002-4011 [doi]

Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label NoiseFahimeh Fooladgar, Minh Nguyen Nhat To, Parvin Mousavi, Purang Abolmaesumi. 4012-4021 [doi]

LogicAL: Towards logical anomaly synthesis for unsupervised anomaly localizationYing Zhao. 4022-4031 [doi]

DMR: Disentangling Marginal Representations for Out-of-Distribution DetectionDasol Choi, Dongbin Na. 4032-4041 [doi]

BMAD: Benchmarks for Medical Anomaly DetectionJinan Bao, Hanshi Sun, Hanqiu Deng, Yinsheng He, Zhaoxiang Zhang 0003, Xingyu Li. 4042-4053 [doi]

DELTA: Decoupling Long-Tailed Online Continual LearningSiddeshwar Raghavan, Jiangpeng He, Fengqing Zhu 0001. 4054-4064 [doi]

Unveiling the Anomalies in an Ever-Changing World: A Benchmark for Pixel-Level Anomaly Detection in Continual LearningNikola Bugarin, Jovana Bugaric, Manuel Barusco, Davide Dalle Pezze, Gian Antonio Susto. 4065-4074 [doi]

Calibrating Higher-Order Statistics for Few-Shot Class-Incremental Learning with Pre-trained Vision TransformersDipam Goswami, Bartlomiej Twardowski, Joost van de Weijer 0001. 4075-4084 [doi]

Active Data Collection and Management for Real-World Continual Learning via Pretrained OracleVivek Chavan, Paul Koch, Marian Schlüter, Clemens Briese, Jörg Krüger. 4085-4096 [doi]

Class-Incremental Mixture of Gaussians for Deep Continual LearningLukasz Korycki, Bartosz Krawczyk. 4097-4106 [doi]

MultIOD: Rehearsal-free Multihead Incremental Object DetectorEden Belouadah, Arnaud Dapogny, Kevin Bailly. 4107-4117 [doi]

Wake-Sleep Energy Based Models for Continual LearningVaibhav Singh, Anna Choromanska, Shuang Li 0013, Yilun Du. 4118-4127 [doi]

Continual-Zoo: Leveraging Zoo Models for Continual Classification of Medical ImagesNourhan Bayasi, Ghassan Hamarneh, Rafeef Garbi. 4128-4138 [doi]

TAME: Task Agnostic Continual Learning using Multiple ExpertsHaoran Zhu, Maryam Majzoubi, Arihant Jain, Anna Choromanska. 4139-4148 [doi]

Tackling Domain Shifts in Person Re-Identification: A Survey and AnalysisVuong D. Nguyen, Samiha Mirza, Abdollah Zakeri, Ayush Gupta, Khadija Khaldi, Rahma Aloui, Pranav Mantini, Shishir K. Shah, Fatima A. Merchant. 4149-4159 [doi]

Calibration of Continual Learning ModelsLanpei Li, Elia Piccoli, Andrea Cossu, Davide Bacciu, Vincenzo Lomonaco. 4160-4169 [doi]

VLM-PL: Advanced Pseudo Labeling approach for Class Incremental Object Detection via Vision-Language ModelJunsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, SeungRyul Baek. 4170-4181 [doi]

The Expanding Scope of the Stability Gap: Unveiling its Presence in Joint Incremental Learning of Homogeneous TasksSandesh Kamath, Albin Soutif-Cormerais, Joost van de Weijer 0001, Bogdan Raducanu. 4182-4186 [doi]

Continual Learning with Weight InterpolationJedrzej Kozal, Jan Wasilewski, Bartosz Krawczyk, Michal Wozniak 0001. 4187-4195 [doi]

An analysis of best-practice strategies for replay and rehearsal in continual learningAlexander Krawczyk, Alexander Gepperth. 4196-4204 [doi]

FedProK: Trustworthy Federated Class-Incremental Learning via Prototypical Feature Knowledge TransferXin Gao, Xin Yang 0012, Hao Yu, Yan Kang 0001, Tianrui Li 0001. 4205-4214 [doi]

Collaborative Visual Place Recognition through Federated LearningMattia Dutto, Gabriele Moreno Berton, Debora Caldarola, Eros Fanì, Gabriele Trivigno, Carlo Masone. 4215-4225 [doi]

On the Efficiency of Privacy Attacks in Federated LearningNawrin Tabassum, Ka Ho Chow, Xuyu Wang, Wenbin Zhang 0002, Yanzhao Wu 0001. 4226-4235 [doi]

Federated Hyperparameter Optimization through Reward-Based Strategies: Challenges and InsightsKrishna Kanth Nakka, Ahmed Frikha 0002, Ricardo Mendes, Xue Jiang, Xuebing Zhou. 4236-4244 [doi]

DeDoDe v2: Analyzing and Improving the DeDoDe Keypoint DetectorJohan Edstedt, Georg Bökman, Zhenjun Zhao. 4245-4253 [doi]

Affine-based Deformable Attention and Selective Fusion for Semi-dense Matchinghongkai Chen, Zixin Luo, Yurun Tian, Xuyang Bai, Ziyu Wang, Lei Zhou, Mingmin Zhen, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan. 4254-4263 [doi]

EarthMatch: Iterative Coregistration for Fine-grained Localization of Astronaut PhotographyGabriele Moreno Berton, Gabriele Goletto, Gabriele Trivigno, Alex Stoken, Barbara Caputo, Carlo Masone. 4264-4274 [doi]

XoFTR: Cross-modal Feature Matching TransformerÖnder Tuzcuoglu, Aybora Köksal, Bugra Sofu, Sinan Kalkan, A. Aydin Alatan. 4275-4286 [doi]

Are Deep Learning Models Pre-trained on RGB Data Good Enough for RGB-Thermal Image Retrieval?Amulya Pendota, Sumohana S. Channappayya. 4287-4296 [doi]

Finding AI-Generated Faces in the WildGonzalo J. Aniano Porcile, Jack Gindi, Shivansh Mundra, James R. Verbus, Hany Farid. 4297-4305 [doi]

An Investigation into the Impact of AI-Powered Image Enhancement on Forensic Facial RecognitionJustin Norman, Hany Farid. 4306-4314 [doi]

Lost in Translation: Lip-Sync Deepfake Detection from Audio-Video MismatchMatyas Bohacek, Hany Farid. 4315-4323 [doi]

Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media ForensicsShan Jia, Reilin Lyu, Kangran Zhao, Yize Chen, Zhiyuan Yan 0002, Yan Ju, Chuanbo Hu, Xin Li 0005, Baoyuan Wu, Siwei Lyu. 4324-4333 [doi]

E3: Ensemble of Expert Embedders for Adapting Synthetic Image Detectors to New Generators Using Limited DataAref Azizpour, Tai D. Nguyen, Manil Shrestha, Kaidi Xu, Edward Kim, Matthew C. Stamm. 4334-4344 [doi]

Fusion Transformer with Object Mask Guidance for Image Forgery AnalysisDimitrios Karageorgiou, Giorgos Kordopatis-Zilos, Symeon Papadopoulos. 4345-4355 [doi]

Raising the Bar of AI-generated Image Detection with CLIPDavide Cozzolino, Giovanni Poggi, Riccardo Corvi, Matthias Nießner, Luisa Verdoliva. 4356-4366 [doi]

StampOne: Addressing Frequency Balance in Printer-proof SteganographyFarhad Shadmand, Iurii Medvedev, Luiz Schirmer, João Marcos 0002, Nuno Gonçalves 0001. 4367-4376 [doi]

Building Secure and Engaging Video Communication by Using Monitor IlluminationJun Myeong Choi, Johnathan Leung, Noah Frahm, Max Christman, Gedas Bertasius, Roni Sengupta. 4377-4386 [doi]

Audio Provenance Analysis in Heterogeneous Media SetsMilica Gerhardt, Luca Cuccovillo, Patrick Aichroth. 4387-4396 [doi]

Beyond Deepfake Images: Detecting AI-Generated VideosDanial Samadi Vahdati, Tai D. Nguyen, Aref Azizpour, Matthew C. Stamm. 4397-4408 [doi]

Audio Transformer for Synthetic Speech Detection via Multi-Formant AnalysisLuca Cuccovillo, Milica Gerhardt, Patrick Aichroth. 4409-4417 [doi]

FairSSD: Understanding Bias in Synthetic Speech DetectorsAmit Kumar Singh Yadav, Kratika Bhagtani, Davide Salvi, Paolo Bestagini, Edward J. Delp. 4418-4428 [doi]

Beyond the Screen: Evaluating Deepfake Detectors under Moiré Pattern EffectsRazaib Tariq, Minji Heo, Simon S. Woo, Shahroz Tariq. 4429-4439 [doi]

Do More With What You Have: Transferring Depth-Scale from Labeled to Unlabeled DomainsAlexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela, Tomer Peleg. 4440-4450 [doi]

CenterPoint Transformer for BEV Object Detection with Automotive RadarLoveneet Saini, Yu Su, Hasan Tercan, Tobias Meisen. 4451-4460 [doi]

Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gapCarl Lindström, Georg Hess, Adam Lilja, Maryam Fatemi, Lars Hammarstrand, Christoffer Petersson, Lennart Svensson. 4461-4471 [doi]

Multi-Stream Cellular Test-Time Adaptation of Real-Time Models Evolving in Dynamic EnvironmentsBenoît Gérin, Anaïs Halin, Anthony Cioppa, Maxim Henry, Bernard Ghanem, Benoît Macq, Christophe De Vleeschouwer, Marc Van Droogenbroeck. 4472-4482 [doi]

TrajFine: Predicted Trajectory Refinement for Pedestrian Trajectory ForecastingKuan-Lin Wang, Li-Wu Tsao, Jhih-Ciang Wu, Hong-Han Shuai, Wen-Huang Cheng. 4483-4492 [doi]

OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation NetworksSophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonín Vobecký, Patrick Pérez, Renaud Marlet. 4493-4503 [doi]

Potential Risk Localization via Weak Labeling out of Blind SpotKota Shimomura, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi. 4504-4513 [doi]

Click, Crop & Detect: One-Click Offline Annotation for Human-in-the-Loop 3D Object Detection on Point CloudsNitin Kumar Saravana Kannan, Matthias Reuse, Martin Simon. 4514-4525 [doi]

Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformersJames Gunn, Zygmunt Lenyk, Anuj Sharma, Andrea Donati, Alexandru Buburuzan, John Redford, Romain Mueller. 4526-4536 [doi]

DuST: Dual Swin Transformer for Multi-modal Video and Time-Series ModelingLiang Shi, Yixin Chen, Meimei Liu, Feng Guo. 4537-4546 [doi]

TFNet: Exploiting Temporal Cues for Fast and Accurate LiDAR Semantic SegmentationRong Li, Shijie Li, Xieyuanli Chen, Teli Ma, Juergen Gall, Junwei Liang 0001. 4547-4556 [doi]

CaBins: CLIP-based Adaptive Bins for Monocular Depth EstimationEunjin Son, Sang-Jun Lee. 4557-4567 [doi]

Exploring Real World Map Change Generalization of Prior-Informed HD Map Prediction ModelsSamuel M. Bateman, Ning Xu, H. Charles Zhao, Yael Ben Shalom, Vince Gong, Greg Long, Will Maddern. 4568-4578 [doi]

MULi-Ev: Maintaining Unperturbed LiDAR-Event CalibrationMathieu Cocheteux, Julien Moreau 0001, Franck Davoine. 4579-4586 [doi]

The 6th Affective Behavior Analysis in-the-wild (ABAW) CompetitionDimitrios Kollias, Panagiotis Tzirakis, Alan Cowen, Stefanos Zafeiriou, Irene Kotsia, Alice Baird, Chris Gagne 0001, Chunchang Shao, Guanyu Hu. 4587-4598 [doi]

Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses AlonePeter Hardy, Hansung Kim. 4599-4603 [doi]

Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression RecognitionMarah Halawa, Florian Blume, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich. 4604-4614 [doi]

Purposeful Regularization with Reinforcement Learning for Facial Expression Recognition In-the-WildSanghwa Hong. 4615-4624 [doi]

Joint Multimodal Transformer for Emotion Recognition in the WildPaul Waligora, Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger. 4625-4635 [doi]

CMOSE: Comprehensive Multi-Modality Online Student Engagement Dataset with High-Quality LabelsChi-Hsuan Wu, Shih-Yang Liu, Xijie Huang, Xingbo Wang, Rong Zhang, Luca Minciullo, Wong Kai Yiu, Kenny Kwan, Kwang-Ting Cheng. 4636-4645 [doi]

3D Human Pose Estimation with Occlusions: Introducing BlendMimic3D Dataset and GCN RefinementFilipa Lino, Carlos Santiago, Manuel Marques. 4646-4656 [doi]

Unimodal Multi-Task Fusion for Emotional Mimicry Intensity PredictionTobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André. 4657-4665 [doi]

Enhancing Emotion Recognition with Pre-trained Masked Autoencoders and Sequential LearningWeiwei Zhou, Jiada Lu, Chenkun Ling, Weifeng Wang, Shaowei Liu. 4666-4672 [doi]

MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wildKateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj. 4673-4682 [doi]

CAGE: Circumplex Affect Guided Expression InferenceNiklas Wagner, Felix Mätzler, Samed Rouven Vossberg, Helen Schneider, Svetlana Pavlitska, J. Marius Zöllner. 4683-4692 [doi]

Video Representation Learning for Conversational Facial Expression Recognition Guided by Multiple View ReconstructionValeriya Strizhkova, Laura M. Ferrari, Hadi Kachmar, Antitza Dantcheva, François Brémond. 4693-4702 [doi]

Leveraging Pre-trained Multi-task Deep Models for Trustworthy Facial Analysis in Affective Behaviour Analysis in-the-WildAndrey V. Savchenko. 4703-4712 [doi]

Drone-HAT: Hybrid Attention Transformer for Complex Action Recognition in Drone Surveillance VideosMustaqeem Khan 0001, Jamil Ahmad, Abdulmotaleb El-Saddik, Wail Gueaieb, Giulia De Masi, Fakhri Karray. 4713-4722 [doi]

TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature SignalsAlexander Vedernikov, Puneet Kumar 0003, Haoyu Chen 0001, Tapio Seppänen, Xiaobai Li. 4723-4732 [doi]

Learning Transferable Compound Expressions from Masked AutoEncoder PretrainingFeng Qiu, Heming Du, Wei Zhang, Chen Liu, Lincheng Li, Tianchen Guo, Xin Yu. 4733-4741 [doi]

Language-guided Multi-modal Emotional Mimicry Intensity EstimationFeng Qiu, Wei Zhang, Chen Liu, Lincheng Li, Heming Du, Tianchen Guo, Xin Yu. 4742-4751 [doi]

Zero-Shot Audio-Visual Compound Expression Recognition Method based on Emotion Probability FusionElena Ryumina, Maxim Markitantov, Dmitry Ryumin, Heysem Kaya, Alexey Karpov 0001. 4752-4760 [doi]

An Effective Ensemble Learning Framework for Affective Behaviour AnalysisWei Zhang, Feng Qiu, Chen Liu, Lincheng Li, Heming Du, Tianchen Guo, Xin Yu. 4761-4772 [doi]

Multi-modal Arousal and Valence Estimation under Noisy ConditionsDenis Dresvyanskiy, Maxim Markitantov, Jiawei Yu, Heysem Kaya, Alexey Karpov 0001. 4773-4783 [doi]

Emotic Masked Autoencoder on Dual-views with Attention Fusion for Facial Expression RecognitionXuan-Bach Nguyen, Hoang-Thien Nguyen, Thanh Huy Nguyen, Nhu-Tai Do, Quang Vinh Dinh. 4784-4792 [doi]

REFA: Real-time Egocentric Facial Animations for Virtual RealityQiang Zhang 0008, Tong Xiao, Haroun Habeeb, Larissa Laich, Sofien Bouaziz, Patrick Snape, Wenjing Zhang, Matthew Cioffi, Peizhao Zhang, Pavel Pidlypenskyi, Winnie Lin, Luming Ma, Mengjiao Wang 0002, Kunpeng Li, Chengjiang Long, Steven Song, Martin Prazák, Alexander Sjoholm, Ajinkya Deogade, Jaebong Lee, Julio Delgado Mangas, Amaury Aubel. 4793-4802 [doi]

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion RecognitionR. Gnana Praveen, Jahangir Alam 0001. 4803-4813 [doi]

AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual ContextsJun Yu, Zerui Zhang, Zhihong Wei, Gongpeng Zhao, Zhongpeng Cai, Yongqi Wang, Guochen Xie, Jichao Zhu, Wangyuan Zhu, Qingsong Liu, Jiaen Liang. 4814-4821 [doi]

Uncovering Hidden Emotions with Adaptive Multi-Attention Graph NetworksAnkith Jain Rakesh Kumar, Bir Bhanu. 4822-4831 [doi]

Evaluating the Effectiveness of Video Anomaly Detection in the Wild Online Learning and Inference for Real-world DeploymentShanle Yao, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi. 4832-4841 [doi]

Unravelling Robustness of Deep Face Recognition Networks Against Illicit Drug Abuse ImagesHruturaj Dhake, Akshay Agarwal 0001. 4842-4848 [doi]

EmotiEffNet and Temporal Convolutional Networks in Video-based Facial Expression Recognition and Action Unit DetectionAndrey V. Savchenko, Anna P. Sidorova. 4849-4859 [doi]

Emotion Recognition Using Transformers with Random MaskingSeongjae Min, Junseok Yang, Sejoon Lim. 4860-4865 [doi]

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity EstimationJun Yu, Wangyuan Zhu, Jichao Zhu, Zhongpeng Cai, Gongpeng Zhao, Zerui Zhang, Guochen Xie, Zhihong Wei, Qingsong Liu, Jiaen Liang. 4866-4872 [doi]

Multi Model Ensemble for Compound Expression RecognitionJun Yu, Jichao Zhu, Wangyuan Zhu, Zhongpeng Cai, Gongpeng Zhao, Zhihong Wei, Guochen Xie, Zerui Zhang, Qingsong Liu, Jiaen Liang. 4873-4879 [doi]

Exploring Facial Expression Recognition through Semi-Supervised Pre-training and Temporal ModelingJun Yu, Zhihong Wei, Zhongpeng Cai, Gongpeng Zhao, Zerui Zhang, Yongqi Wang, Guochen Xie, Jichao Zhu, Wangyuan Zhu, Qingsong Liu, Jiaen Liang. 4880-4887 [doi]

CUE-Net: Violence Detection Video Analytics with Spatial Cropping, Enhanced UniformerV2 and Modified Efficient Additive AttentionDamith Chamalke Senadeera, Xiaoyun Yang, Dimitrios Kollias, Gregory G. Slabaugh. 4888-4897 [doi]

One class classification-based quality assurance of organs-at-risk delineation in radiotherapyYihao Zhao, Cuiyun Yuan, Ying Liang, Yang Li, Chunxia Li, Man Zhao, Jun Hu, Ningze Zhong, Chenbin Liu. 4898-4906 [doi]

Domain adaptation, Explainability & Fairness in AI for Medical Image Analysis: Diagnosis of COVID-19 based on 3-D Chest CT-scansDimitrios D. Kollias, Anastasios Arsenos, Stefanos Kollias. 4907-4914 [doi]

Comparative Analysis of Generalization and Harmonization Methods for 3D Brain fMRI Images: A Case Study on OpenBHB DatasetSoroosh Safari Loaliyan, Greg Ver Steeg. 4915-4923 [doi]

A Closer Look at Spatial-Slice Features Learning for COVID-19 DetectionChih-Chung Hsu, Chia-Ming Lee, Yang Fan Chiang, Yi-Shiuan Chou, Chih-Yu Jiang, Shen-Chieh Tai, Chi-Han Tsai. 4924-4934 [doi]

Interpreting COVID Lateral Flow Tests' Results with Foundation ModelsStuti Pandey, Josh Myers-Dean, Jarek Reynolds, Danna Gurari. 4935-4942 [doi]

Fetal ECG Extraction on Time-Frequency Domain using Conditional GANVuong D. Nguyen. 4943-4949 [doi]

Focusing on What Matters: Fine-grained Medical Activity Recognition for Trauma Resuscitation via Actor TrackingWenjin Zhang, Keyi Li, Sen Yang 0002, Sifan Yuan, Ivan Marsic, Genevieve J. Sippel, Mary S. Kim, Randall S. Burd. 4950-4958 [doi]

How SAM Perceives Different mp-MRI Brain Tumor Domains?Cecilia Diana-Albelda, Roberto Alcover-Couso, Álvaro García-Martín, Jesús Bescós. 4959-4970 [doi]

LaPA: Latent Prompt Assist Model for Medical Visual Question AnsweringTiancheng Gu, Kaicheng Yang, Dongnan Liu, Weidong Cai 0001. 4971-4980 [doi]

SegFormer3D: an Efficient Transformer for 3D Medical Image SegmentationShehan Perera, Pouyan Navard, Alper Yilmaz. 4981-4988 [doi]

PP-SAM: Perturbed Prompts for Robust Adaption of Segment Anything Model for Polyp SegmentationMd Mostafijur Rahman, Mustafa Munir, Debesh Jha, Ulas Bagci, Radu Marculescu. 4989-4995 [doi]

Using Counterfactual Information for Breast Classification DiagnosisMiguel Cardoso, Carlos Santiago, Jacinto C. Nascimento. 4996-5002 [doi]

FPN-IAIA-BL: A Multi-Scale Interpretable Deep Learning Model for Classification of Mass Margins in Digital MammographyJulia Yang, Alina Jade Barnett, Jon Donnelly, Satvik Kishore, Jerry Fang, Fides Regina Schwartz, Chaofan Chen, Joseph Y. Lo, Cynthia Rudin. 5003-5009 [doi]

Source-free Domain Adaptation for Video Object Detection Under Adverse Image ConditionsXingguang Zhang, Chih-Hsien Chou. 5010-5019 [doi]

Evaluating Confidence Calibration in Endoscopic Diagnosis ModelsNikoo Dehghani, Ayla Thijssen, Quirine E. W. van der Zander, Ramon-Michel Schreuder, Erik J. Schoon, Fons van der Sommen, Peter H. N. de With. 5020-5025 [doi]

Enhancing Ki-67 Cell Segmentation with Dual U-Net Models: A Step Towards Uncertainty-Informed Active LearningDavid Anglada-Rotger, Julia Sala, Ferran Marqués, Philippe Salembier, Montse Pardàs. 5026-5035 [doi]

Complex Style Image Transformations for Domain Generalization in Medical ImagesNikolaos Spanos, Anastasios Arsenos, Paraskevi Antonia Theofilou, Paraskevi K. Tzouveli, Athanasios Voulodimos, Stefanos D. Kollias. 5036-5045 [doi]

Medical Image Segmentation with InTEnt: Integrated Entropy Weighting for Single Image Test-Time AdaptationHaoyu Dong 0003, Nicholas Konz, Hanxue Gu, Maciej A. Mazurowski. 5046-5055 [doi]

Prototype-based Interpretable Model for Glaucoma DetectionMohana Singh, Vivek B. S., Jayavardhana Gubbi, Arpan Pal 0001. 5056-5065 [doi]

Unsupervised Domain Adaptation for Multi-Stain Cell Detection in Breast Cancer with TransformersOscar Pina, Verónica Vilaplana. 5066-5074 [doi]

A Deep Biclustering Framework for Brain Network AnalysisMd Abdur Rahaman, Zening Fu, Armin Iraji, Vince D. Calhoun. 5075-5085 [doi]

Residual-based Language Models are Free Boosters for Biomedical Imaging TasksZhixin Lai, Jing Wu 0020, Suiyao Chen, Yucheng Zhou, Naira Hovakimyan. 5086-5096 [doi]

ConPro: Learning Severity Representation for Medical Images using Contrastive Learning and Preference OptimizationHong Nguyen, Hoang Nguyen, Melinda Chang, Hieu Pham, Shrikanth Narayanan, Michael Pazzani. 5105-5112 [doi]

Dr-SAM: An End-to-End Framework for Vascular Segmentation, Diameter Estimation, and Anomaly Detection on Angiography ImagesVazgen Zohranyan, Vagner Navasardyan, Hayk Navasardyan, Jan Borggrefe, Shant Navasardyan. 5113-5121 [doi]

Cluster Triplet Loss for Unsupervised Domain Adaptation on Histology ImagesRuby Wood, Enric Domingo, Viktor Hendrik Koelzer, Timothy S. Maughan, Jens Rittscher. 5122-5131 [doi]

Bridging Domains in Melanoma Diagnostics: Predicting BRAF Mutations and Sentinel Lymph Node Positivity with Attention-Based Models in Histological ImagesCarlos Hernández-Pérez, Lauren Jimenez-Martin, Verónica Vilaplana. 5132-5140 [doi]

Domain Adaptation Using Pseudo Labels for COVID-19 DetectionRuntian Yuan, Qingqiu Li, Junlin Hou, Jilan Xu, Yuejie Zhang, Rui Feng, Hao Chen. 5141-5148 [doi]

Advancing COVID-19 Detection in 3D CT ScansQingqiu Li, Runtian Yuan, Junlin Hou, Jilan Xu, Yuejie Zhang, Rui Feng, Hao Chen. 5149-5156 [doi]

Achieving Reliable and Fair Skin Lesion Diagnosis via Unsupervised Domain AdaptationJanet Wang, Yunbei Zhang, Zhengming Ding, Jihun Hamm. 5157-5166 [doi]

Classification of 2D Ultrasound Breast Cancer Images with Deep LearningJack Ellis, Kofi Appiah, Emmanuel Amankwaa-Frempong, Sze Chai Kwok. 5167-5173 [doi]

DCE-diff: Diffusion Model for Synthesis of Early and Late Dynamic Contrast-Enhanced MR Images from Non-Contrast Multimodal InputsKishore Kumar M, Sriprabha Ramanarayanan, Sadhana S, Arunima Sarkar, Matcha Naga Gayathri, Keerthi Ram, Mohanasankar Sivaprakasam. 5174-5183 [doi]

Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero-shot Medical Image SegmentationSidra Aleem, Fangyijie Wang, Mayug Maniparambil, Eric Arazo, Julia Dietlmeier, Kathleen M. Curran, Noel E. O'Connor, Suzanne Little. 5184-5193 [doi]

Improving Consistency in Cardiovascular Disease Risk Assessment: Cross-Camera Adaptation for Retinal ImagesWeiyi Zhang 0004, Danli Shi, Mingguang He. 5194-5199 [doi]

EfficientNet-SAM: A Novel EffecientNet with Spatial Attention Mechanism for COVID-19 Detection in Pulmonary CT ScansRamy Farag, Parth Upadhay, Jacket Demby's, Yixiang Gao, Katherin Garces Montoya, Seyed Mohamad Ali Tousi, Gbenga Omotara, Guilherme N. DeSouza. 5200-5206 [doi]

A Multimodal Approach Integrating Convolutional and Recurrent Neural Networks for Alzheimer's Disease Temporal Progression PredictionDurga Supriya HL, Swetha Mary Thomas, Sowmya Kamath S. 5207-5215 [doi]

Separating lungs in CT scans for improved COVID19 detectionRobert Turnbull, Simon Mutch. 5216-5222 [doi]

Blurry-Consistency Segmentation Framework with Selective Stacking on Differential Interference Contrast 3D Breast Cancer SpheroidThanh Huy Nguyen, Thi Kim Ngan Ngo, Mai-Anh Vu, Ting-Yuan Tu. 5223-5230 [doi]

Key Patches Are All You Need: A Multiple Instance Learning Framework For Robust Medical DiagnosisD. J. Araújo, Maria Rita Verdelho, Alceu Bissoto, J. C. Nascimento, C. Santiago, Catarina Barata. 5231-5240 [doi]

IMIL: Interactive Medical Image Learning FrameworkAdrit Rao, Andrea Fisher, Ken Chang, John Christopher Panagides, Katherine McNamara, Joon-Young Lee, Oliver O. Aalami. 5241-5250 [doi]

RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D ImagesZong-Wei Hong, Yen-Yang Hung, Chu-Song Chen. 5251-5260 [doi]

LGAfford-Net: A Local Geometry Aware Affordance Detection Network for 3D Point CloudsRamesh Ashok Tabib, Dikshit Hegde, Uma Mudenagudi. 5261-5270 [doi]

SDFConnect: Neural Implicit Surface Reconstruction of a Sparse Point Cloud with Topological ConstraintsAnushrut Jignasu, Aditya Balu, Soumik Sarkar, Chinmay Hegde, Baskar Ganapathysubramanian, Adarsh Krishnamurthy. 5271-5279 [doi]

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image GenerationJaemin Cho 0001, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal. 5280-5289 [doi]

Evaluating and Improving Compositional Text-to-Visual GenerationBaiqi Li, Zhiqiu Lin, Deepak Pathak, Jiayao Li, Yixin Fei, Kewen Wu 0005, Xide Xia, Pengchuan Zhang, Graham Neubig, Deva Ramanan. 5290-5301 [doi]

TlTScore: Towards Long-Tail Effects in Text-to-Visual Evaluation with Generative Foundation ModelsPengliang Ji, Junchen Liu. 5302-5313 [doi]

Evaluating Multimodal Large Language Models across Distribution Shifts and AugmentationsAayush Atul Verma, Amir Saeidi, Shamanthak Hegde, Ajay Therala, Fenil Denish Bardoliya, Nagaraju Machavarapu, Shri Ajay Kumar Ravindhiran, Srija Malyala, Agneet Chatterjee, Yezhou Yang, Chitta Baral. 5314-5324 [doi]

T2VBench: Benchmarking Temporal Dynamics for Text-to-Video GenerationPengliang Ji, Chuyang Xiao, Huilin Tai, Mingxiao Huo. 5325-5335 [doi]

Improved Crop and Weed Detection with Diverse Data Ensemble LearningMuhammad Hamza Asad, Saeed Anwar, Abdul Bais. 5336-5345 [doi]

The New Agronomists: Language Models are Experts in Crop ManagementJing Wu 0020, Zhixin Lai, Suiyao Chen, Ran Tao, Pan Zhao 0003, Naira Hovakimyan. 5346-5356 [doi]

Energy-Efficient Uncertainty-Aware Biomass Composition Prediction at the EdgeMuhammad Zawish, Paul Albert, Flavio Esposito, Steven Davy, Lizy Abraham. 5357-5365 [doi]

HarvestNet: A Dataset for Detecting Smallholder Farming Activity Using Harvest Piles and Remote SensingJonathan Xu, Amna Elmustafa, Liya Weldegebriel, Emnet Negash, Richard Lee, Chenlin Meng, Stefano Ermon, David B. Lobell. 5366-5374 [doi]

Domain Targeted Synthetic Plant Style Transfer using Stable Diffusion, LoRA and ControlNetZane K. J. Hartley, Rob J. Lind, Michael P. Pound, Andrew P. French. 5375-5383 [doi]

Lacunarity Pooling Layers for Plant Image Classification using Texture AnalysisAkshatha Mohan, Joshua Peeples. 5384-5392 [doi]

Label Efficient Lifelong Multi-View Broiler DetectionThorsten Cardoen, Sam Leroux, Pieter Simoens. 5393-5402 [doi]

End-to-End Deep Learning Models for Gap Identification in Maize FieldsRana Waqar, Zeljana Grbovic, Maryam Khan, Nina Pajevic, Dimitrije Stefanovic, Vladan Filipovic, Marko Panic, Nemanja Djuric. 5403-5412 [doi]

Tracking and Counting Apples in Orchards Under Intermittent Occlusions and Low Frame RatesGonçalo P. Matos, Carlos Santiago, João Paulo Costeira, Ricardo L. Saldanha, Ernesto M. Morgado. 5413-5421 [doi]

Generating Diverse Agricultural Data for Vision-Based Farming ApplicationsMikolaj Cieslak, Umabharathi Govindarajan, Alejandro Garcia, Anuradha Chandrashekar, Torsten Hädrich, Aleksander Mendoza-Drosik, Dominik L. Michels, Sören Pirk, Chia-Chun Fu, Wojciech Palubicki. 5422-5431 [doi]

Knowledge Distillation for Efficient Instance Semantic Segmentation with TransformersMaohui Li, Michael Halstead, Chris McCool. 5432-5439 [doi]

Label-free Anomaly Detection in Aerial Agricultural Images with Masked Image ModelingSambal Shikhar, Anupam Sobti. 5440-5449 [doi]

Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge DistillationSimone Angarano, Mauro Martini, Alessandro Navone, Marcello Chiaberge. 5450-5459 [doi]

IrrNet: Advancing Irrigation Mapping with Incremental Patch Size Training on Remote Sensing ImageryOishee Bintey Hoque, Samarth Swarup, Abhijin Adiga, Sayjro Kossi Nouwakpo, Madhav V. Marathe. 5460-5469 [doi]

VisTA-SR: Improving the Accuracy and Resolution of Low-Cost Thermal Imaging Cameras for AgricultureHeesup Yun, Sassoum Lo, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles. 5470-5479 [doi]

Photorealistic Arm Robot Simulation for 3D Plant Reconstruction and Automatic Annotation using Unreal Engine 5Xingjian Li 0008, Jeremy Park, Chris Reberg-Horton, Steven B. Mirsky, Edgar J. Lobaton, Lirong Xiang. 5480-5488 [doi]

Gasformer: A Transformer-based Architecture for Segmenting Methane Emissions from Livestock in Optical Gas ImagingToqi Tahamid Sarker, Mohamed G. Embaby, Khaled R. Ahmed, Amer AbuGhazaleh. 5489-5497 [doi]

End-to-end Solution for Tenebrio Molitor Rearing Monitoring with Uncertainty Estimation and Domain Shift DetectionPawel Majewski, Piotr Lampa, Robert Burduk, Jacek Reiner. 5498-5507 [doi]

InViG: Benchmarking Open-Ended Interactive Visual Grounding with 500K DialoguesHanbo Zhang, Jie Xu, Yuchen Mo, Tao Kong. 5508-5518 [doi]

Must Unsupervised Continual Learning Relies on Previous Information?Haoyang Cheng, Haitao Wen, Heqian Qiu, Lanxiao Wang, Minjian Zhang 0003, Hongliang Li 0001. 5519-5529 [doi]

HumanFormer: Human-centric Prompting Multi-modal Perception Transformer for Referring Crowd DetectionHeqian Qiu, Lanxiao Wang, Taijin Zhao, Fanman Meng, Hongliang Li 0001. 5530-5540 [doi]

GM-DETR: Generalized Muiltispectral DEtection TRansformer with Efficient Fusion Encoder for Visible-Infrared DetectionYiming Xiao, Fanman Meng, Qingbo Wu 0001, Linfeng Xu 0001, Mingzhou He, Hongliang Li 0001. 5541-5549 [doi]

Pre-trained Bidirectional Dynamic Memory Network For Long Video Question AnsweringJinmeng Wu, PengCheng Shu, Hanyu Hong, Lei Ma, Ying Zhu, Lei Wang. 5550-5557 [doi]

DSTCFuse: A Method based on Dual-cycled Cross-awareness of Structure Tensor for Semantic Segmentation via Infrared and Visible Image FusionXuan Li, Rongfu Chen, Jie Wang, Lei Ma, Li Cheng, Haiwen Yuan. 5558-5567 [doi]

Is Our Continual Learner Reliable? Investigating Its Decision Attribution Stability through SHAP Value ConsistencyYusong Cai, Shimou Ling, Liang Zhang, Lili Pan 0001, Hongliang Li 0001. 5568-5575 [doi]

GRIB: Combining Global Reception and Inductive Bias For Human Segmentation and MattingYezhi Shen, Weichen Xu, Qian Lin 0001, Jan P. Allebach, Fengqing Zhu 0001. 5576-5585 [doi]

3D Human Scan With A Moving Event CameraKai Kohyama, Shintaro Shiba, Yoshimitsu Aoki. 5586-5596 [doi]

BOP Challenge 2023 on Detection, Segmentation and Pose Estimation of Seen and Unseen Rigid ObjectsTomas Hodan, Martin Sundermeyer, Yann Labbé, Van Nguyen Nguyen, Gu Wang 0001, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Jiri Matas. 5610-5619 [doi]

Modeling Detailed Human Geometry with Adaptive Local RefinementBang Du, Kunyao Chen, Haochen Zhang, Fei Yin, Baichuan Wu, Truong Nguyen. 5620-5630 [doi]

3Net: Irregular Posture Detection by Understanding Human Character and Core StructuresSeungha Noh, Kangmin Bae, Yuseok Bae, Byong-Dai Lee. 5631-5641 [doi]

CONDA: Continual Unsupervised Domain Adaptation Learning in Visual Perception for Self-Driving CarsThanh-Dat Truong, Pierce Helton, Ahmed Moustafa, Jackson David Cothren, Khoa Luu. 5642-5650 [doi]

VT-Former: An Exploratory Study on Vehicle Trajectory Prediction for Highway Surveillance through Graph Isomorphism and TransformerArmin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi. 5651-5662 [doi]

VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal ForecastingYujin Tang, Peijie Dong, Zhenheng Tang, Xiaowen Chu 0001, Junwei Liang 0001. 5663-5673 [doi]

Exploration of Data Augmentation Techniques for Bush Detection in Blueberry OrchardsBoris Culjak, Nina Pajevic, Vladan Filipovic, Dimitrije Stefanovic, Zeljana Grbovic, Nemanja Djuric, Marko Panic. 5674-5683 [doi]

Retina : Low-Power Eye Tracking with Event Camera and Spiking HardwarePietro Bonazzi, Sizhen Bian, Giovanni Lippolis, Yawei Li 0001, Sadique Sheik, Michele Magno. 5684-5692 [doi]

Joint Motion Detection in Neural Videos TrainingNiloufar Pourian, Alexey Supikov. 5693-5700 [doi]

A Hybrid ANN-SNN Architecture for Low-Power and Low-Latency Visual PerceptionAsude Aydin, Mathias Gehrig, Daniel Gehrig, Davide Scaramuzza 0001. 5701-5711 [doi]

A Perspective on Deep Vision Performance with Standard Image and Video CodecsChristoph Reich, Oliver Hahn, Daniel Cremers, Stefan Roth 0001, Biplob Debnath. 5712-5721 [doi]

One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic TeleconferencingYueyu Hu, Onur G. Guleryuz, Philip A. Chou, Danhang Tang, Jonathan Taylor 0001, Rus Maxham, Yao Wang 0001. 5722-5731 [doi]

Deep Video Codec Control for Vision ModelsChristoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Daniel Cremers, Srimat Chakradhar. 5732-5741 [doi]

Adaptive Render-Video Streaming for Virtual EnvironmentsJia Jie Lim, Matthias Sebastian Treder, Aaron Chadha, Yiannis Andreopoulos. 5742-5751 [doi]

Low Latency Point Cloud Rendering with Learned SplattingYueyu Hu, Ran Gong, Qi Sun, Yao Wang. 5752-5761 [doi]

MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye trackingZhong Wang, Zengyu Wan, Han Han, Bohao Liao, Yuliang Wu, Wei Zhai, Yang Cao 0010, Zheng-Jun Zha. 5762-5770 [doi]

Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNNBaoheng Zhang, Yizhao Gao, Jingyuan Li, Hayden Kwok-Hay So. 5771-5779 [doi]

A Lightweight Spatiotemporal Network for Online Eye Tracking with Event CameraYan Ru Pei, Sasskia Brüers, Sébastien M. Crouzet, Douglas McLelland, Olivier Coenen. 5780-5788 [doi]

FAPNet: An Effective Frequency Adaptive Point-based Eye TrackerXiaopeng Lin, Hongwei Ren, Bojun Cheng. 5789-5798 [doi]

COVER: A Comprehensive Video Quality EvaluatorChenlong He, Qi Zheng, Ruoxi Zhu, Xiaoyang Zeng, Yibo Fan, Zhengzhong Tu. 5799-5809 [doi]

Event-Based Eye Tracking. AIS 2024 Challenge SurveyZuowen Wang, Chang Gao 0002, Zongwei Wu, Marcos V. Conde, Radu Timofte, Shih-Chii Liu, Qinyu Chen, Zhengjun Zha, Wei Zhai, Han Han, Bohao Liao, Yuliang Wu, Zengyu Wan, Zhong Wang, Yang Cao 0010, Ganchao Tan, Jinze Chen, Yan Ru Pei, Sasskia Brüers, Sébastien M. Crouzet, Douglas McLelland, Olivier Coenen, Baoheng Zhang, Yizhao Gao, Jingyuan Li, Hayden Kwok-Hay So, Philippe Bich, Chiara Boretti, Luciano Prono, Mircea Lica, David Dinucu-Jianu, Catalin Grîu, Xiaopeng Lin, Hongwei Ren, Bojun Cheng, Xinan Zhang, Valentin Vial, Anthony Yezzi, James Tsai. 5810-5825 [doi]

AIS 2024 Challenge on Video Quality Assessment of User-Generated Content: Methods and ResultsMarcos V. Conde, Saman Zadtootaghaj, Nabajeet Barman, Radu Timofte, Chenlong He, Qi Zheng, Ruoxi Zhu, Zhengzhong Tu, Haiqiang Wang, Xiangguang Chen, Wenhui Meng, Xiang Pan, Huiying Shi, Han Zhu 0003, Xiaozhong Xu, Lei Sun 0009, Zhenzhong Chen, Shan Liu 0001, Zicheng Zhang, Haoning Wu 0001, Yingjie Zhou, Chunyi Li, Xiaohong Liu 0001, Weisi Lin, Guangtao Zhai, Wei Sun 0029, Yuqin Cao, Yanwei Jiang, Jun Jia, Zhichao Zhang, Zijian Chen 0001, Weixia Zhang, Xiongkuo Min, Steve Göring, Zihao Qi, Chen Feng 0008. 5826-5837 [doi]

Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge SurveyMarcos V. Conde, Zhijun Lei, Wen Li, Ioannis Katsavounidis, Radu Timofte, Min Yan, Xin Liu, Qian Wang, Xiaoqian Ye, Zhan Du, Tiansen Zhang, Zhiyuan Li, Hao Wei, Chenyang Ge, Jiangtao Lv, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang 0001, Menghan Zhou, Yiqiang Yan, Kihwan Yoon, Ganzorig Gankhuyag, Jae-Hyeon Lee, Ui-Jin Choi, Hyeon-Cheol Moon, Tae Hyun Jeong, Yoonmo Yang, Jae-Gon Kim, Jinwoo Jeong, Sunjei Kim, Xintao Qiu, Yuanbo Zhou, Kongxian Wu, Xinwei Dai, Hui Tang, Wei Deng, Qingquan Gao, Tong Tong 0001, Long Peng, Jiaming Guo, Xin Di, Bohao Liao, Zhibo Du, Peize Xia, Renjing Pei, Yang Wang, Yang Cao, Zhengjun Zha, Bingnan Han, Hongyuan Yu, Zhuoyuan Wu, Cheng Wan 0006, Yuqing Liu, Haodong Yu, JiZhe Li, Zhijuan Huang, Yuan Huang, Yajun Zou, Xianyu Guan, Qi Jia, Heng Zhang, Xuanwu Yin, Kunlong Zuo, Dongyang Zhang, Tianle Liu, Huaian Chen, Yi Jin 0002. 5838-5856 [doi]

Scaling Graph Convolutions for Mobile VisionWilliam Avery, Mustafa Munir, Radu Marculescu. 5857-5865 [doi]

End-to-End Neural Network Compression via l1/l2 Regularized Latency SurrogatesAnshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain 0002. 5866-5877 [doi]

CoDISP: Exploring Compressed Domain Camera ISP with RGB-guided EncoderMolin Zhang, Soumendu Majee, Chengyu Wang 0011, Seok-Jun Lee, Hamid R. Sheikh. 5878-5888 [doi]

Efficient Skeleton-Based Action Recognition for Real-Time Embedded SystemsNadhira Noor, Fabianaugie Jametoni, Jinbeom Kim, HyunSu Hong, In Kyu Park. 5889-5897 [doi]

S3R-Net: A Single-Stage Approach to Self-Supervised Shadow RemovalNikolina Kubiak, Armin Mustafa, Graeme Phillipson, Stephen Jolly, Simon Hadfield. 5898-5908 [doi]

DCDR-UNet: Deformable Convolution Based Detail Restoration via U-shape Network for Single Image HDR ReconstructionJoonsoo Kim, Zhe Zhu, Tien Bau, ChenGuang Liu. 5909-5918 [doi]

Image restoration refinement with Uformer GANXu Ouyang, Ying Chen, Kaiyue Zhu, Gady Agam. 5919-5928 [doi]

Towards Real-world Video Face Restoration: A New BenchmarkZiyan Chen, Jingwen He, Xinqi Lin, Yu Qiao 0001, Chao Dong 0005. 5929-5939 [doi]

Burst Image Super-Resolution with Base Frame SelectionSanghyun Kim, Min-Jung Lee, Woohyeok Kim, Deunsol Jung, Jaesung Rim, Sunghyun Cho, Minsu Cho. 5940-5949 [doi]

Multi-scale Attention Network for Single Image Super-ResolutionYan Wang 0086, Yusen Li, Gang Wang 0001, Xiaoguang Liu 0001. 5950-5960 [doi]

Semantic Pre-supplement for Exposure CorrectionZhen Zou, Wei Yu, Jie Huang, Feng Zhao. 5961-5970 [doi]

Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image EnhancementIgor Morawski, Kai He, Shusil Dangi, Winston H. Hsu. 5971-5981 [doi]

Diffusion-Based Adaptation for Classification of Unknown Degraded ImagesDinesh Daultani, Masayuki Tanaka 0001, Masatoshi Okutomi, Kazuki Endo. 5982-5991 [doi]

Reciprocal Attention Mixing Transformer for Lightweight Image RestorationHaram Choi, Cheolwoong Na, JiHyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee 0003, Taehoon Kim, Jihoon Yang. 5992-6002 [doi]

Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and EvaluationDogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Seymanur Akti, Hazim Kemal Ekenel, Alexander Waibel. 6003-6013 [doi]

Fourier Prior-Based Two-Stage Architecture for Image RestorationHemkant Nehete, Amit Monga, Partha Kaushik, Brajesh Kumar Kaushik. 6014-6023 [doi]

Sketch-guided Image Inpainting with Partial Discrete Diffusion ProcessNakul Sharma, Aditay Tripathi, Anirban Chakraborty 0001, Anand Mishra 0001. 6024-6034 [doi]

Towards Online Real-Time Memory-based Video Inpainting TransformersGuillaume Thiry, Hao Tang 0005, Radu Timofte, Luc Van Gool. 6035-6044 [doi]

Shadow Removal based on Diffusion, Segmentation and Super-resolution ModelsChenghua Li, Bo Yang, Zhiqi Wu, Gao Chen, Yihan Yu, Shengxiao Zhou. 6045-6054 [doi]

Hybrid Cross-View Attention Network for Lightweight Stereo Image Super-ResolutionYuqiang Yang, Zhiming Zhang, Yao Du, Jingjing Yang, Long Bao, Heng Sun. 6055-6064 [doi]

IDENet: Implicit Degradation Estimation Network for Efficient Blind Super ResolutionAsif Hussain Khan, Christian Micheloni, Niki Martinel. 6065-6075 [doi]

ISSR-DIL: Image Specific Super-Resolution Using Deep Identity LearningSree Rama Vamsidhar S., Jayadeep D, Rama Krishna Gorthi. 6076-6085 [doi]

CRNet: A Detail-Preserving Network for Unified Image Restoration and Enhancement TaskKangzhen Yang, Tao Hu, Kexin Dai, Genggeng Chen, Yu Cao, Wei Dong 0010, Peng Wu, Yanning Zhang, Qingsen Yan. 6086-6096 [doi]

Bracketing Image Restoration and Enhancement with High-Low Frequency DecompositionGenggeng Chen, Kexin Dai, Kangzhen Yang, Tao Hu, Xiangyu Chen 0006, Yongqing Yang, Wei Dong 0010, Peng Wu, Yanning Zhang, Qingsen Yan. 6097-6107 [doi]

NTIRE 2024 Challenge on Image Super-Resolution (×4): Methods and ResultsZheng Chen 0014, Zongwei Wu, Eduard Zamfir, Kai Zhang 0008, Yulun Zhang, Radu Timofte, Xiaokang Yang, Hongyuan Yu, Cheng Wan 0006, Yuxin Hong, Zhijuan Huang, Yajun Zou, Yuan Huang, Jiamin Lin, Bingnan Han, Xianyu Guan, Yongsheng Yu, Daoan Zhang, Xuanwu Yin, Kunlong Zuo, Jinhua Hao, Kai Zhao, Kun Yuan, Ming Sun, Chao Zhou, Hongyu An, Xinfeng Zhang 0002, Zhiyuan Song, Ziyue Dong, Qing Zhao, Xiaogang Xu, Pengxu Wei, Zhi-Chao Dou, Gui-Ling Wang, Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, Cansu Korkmaz, A. Murat Tekalp, Yubin Wei, Xiaole Yan, Binren Li, Haonan Chen, Siqi Zhang, Sihan Chen, Amogh Joshi, Nikhil Akalwadi, Sampada Malagi, Palani Yashaswini, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi, Anjali Sarvaiya, Pooja Choksy, Jagrit Joshi, Shubh Kawa, Kishor P. Upla, Sushrut Patwardhan, Raghavendra Ramachandra, Sadat Hossain, Geongi Park, S. M. Nadim Uddin, Hao Xu, Yanhui Guo, Aman Urumbekov, Xingzhuo Yan, Wei Hao, Minghan Fu, Isaac Orais, Samuel Smith, Ying Liu, Wangwang Jia, Qisheng Xu, Kele Xu, Weijun Yuan, Zhan Li 0004, Wenqing Kuang, Ruijin Guan, Ruting Deng, Zhao Zhang 0001, Bo Wang 0011, Suiyi Zhao, Yan Luo, Yanyan Wei, Asif Hussain Khan, Christian Micheloni, Niki Martinel. 6108-6132 [doi]

DRCT: Saving Image Super-Resolution away from Information BottleneckChih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou. 6133-6142 [doi]

DiffLight: Integrating Content and Detail for Low-light Image EnhancementYixu Feng, Shuo Hou, Haotian Lin 0005, Yu Zhu 0004, Peng Wu, Wei Dong 0010, Jinqiu Sun, Qingsen Yan, Yanning Zhang. 6143-6152 [doi]

NTIRE 2024 Challenge on Bracketing Image Restoration and Enhancement: Datasets, Methods and ResultsZhilu Zhang, Shuohao Zhang, Renlong Wu, Wangmeng Zuo, Radu Timofte, Xiaoxia Xing, Hyunhee Park, Sejun Song, Changho Kim, Xiangyu Kong, Jinlong Wu, Jianxing Zhang, Jingfan Tan, Zikun Liu, Wenhan Luo, Wenjie Lin, Chengzhi Jiang, Mingyan Han, Zhen Liu, Ting Jiang, Jinting Luo, Shen Cheng, Linze Li 0001, Xinhan Niu, Shuaicheng Liu, Kexin Dai, Kangzhen Yang, Tao Hu, Xiangyu Chen 0006, Yu Cao, Qingsen Yan, Yanning Zhang, Genggeng Chen, Yongqing Yang, Wei Dong 0010, Xinwei Dai, Yuanbo Zhou, Xintao Qiu, Hui Tang, Wei Deng, Qingquan Gao, Tong Tong 0001, Peng Zhang 0005, Yifei Chen, Wenbo Xiong, Zhijun Song, Pu Cheng, Taolue Feng, Yunqing He, Daiguo Zhou, Ying Huang, Xiaowen Ma, Peng Wu. 6153-6166 [doi]

PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt ConditionXi Fang, Weigang Wang, Xiaoxin Lv, Jun Yan. 6167-6176 [doi]

Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation?Dmitry Ignatov, Andrey Ignatov, Radu Timofte. 6177-6186 [doi]

BigEPIT: Scaling EPIT for Light Field Image Super-ResolutionWentao Chao, Yiming Kan, Xuechun Wang, Fuqing Duan, Guanghui Wang. 6187-6197 [doi]

NTIRE 2024 Challenge on Stereo Image Super-Resolution: Methods and ResultsLongguang Wang, Yulan Guo, Juncheng Li 0003, Hongda Liu, Yang Zhao, Yingqian Wang 0002, Zhi Jin, Shuhang Gu, Radu Timofte. 6198-6207 [doi]

ShadowRefiner: Towards Mask-free Shadow Removal via Fast Fourier TransformerWei Dong 0010, Han Zhou 0003, Yuqiong Tian, Jingke Sun, Xiaohong Liu 0001, Guangtao Zhai, Jun Chen 0006. 6208-6217 [doi]

NTIRE 2024 Challenge on Light Field Image Super-Resolution: Methods and ResultsYingqian Wang 0002, Zhengyu Liang, Qianyu Chen, Longguang Wang, Jungang Yang 0001, Radu Timofte, Yulan Guo, Wentao Chao, Yiming Kan, Xuechun Wang, Fuqing Duan, Guanghui Wang 0001, Wang Xia, Ziqi Wang, Yue Yan, Peiqi Xia, Shunzhou Wang, Yao Lu, Angulia Yang, Kai Jin, Zeqiang Wei, Sha Guo, Mingzhi Gao, Xiuzhuang Zhou, ZhongXin Yu, Shaofei Luo, Cheng Zhong, Shaorui Chen, Long Peng, Yuhong He, Gaosheng Liu, Huanjing Yue, Jingyu Yang 0002, Zhengjian Yao, Jiakui Hu, Lujia Jin, Zhi-Song Liu, Chenhang He, Jun Xiao, Xiuyuan Wang, Zonglin Tian, Yifan Mao, Deyang Liu, Shizheng Li, Ping An. 6218-6234 [doi]

Learnable Global Spatio-Temporal Adaptive Aggregation for Bracketing Image Restoration and EnhancementXinwei Dai, Yuanbo Zhou, Xintao Qiu, Hui Tang, Wei Deng, Qingquan Gao, Tong Tong 0001. 6235-6245 [doi]

Swift Parameter-free Attention Network for Efficient Super-ResolutionCheng Wan 0006, Hongyuan Yu, Zhiqi Li, Yihang Chen, Yajun Zou, Yuqing Liu, Xuanwu Yin, Kunlong Zuo. 6246-6256 [doi]

HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-ResolutionShu-Chuan Chu, Zhi-Chao Dou, Jeng-Shyang Pan 0001, ShaoWei Weng, Junbao Li. 6257-6266 [doi]

High Quality Reference Feature for Two Stage Bracketing Image Restoration and EnhancementXiaoxia Xing, Hyunhee Park, Fan Wang 0005, Ying Zhang, Sejun Song, Changho Kim, Xiangyu Kong. 6267-6276 [doi]

Efficient Light Field Image Super-Resolution via Progressive DisentanglingGaosheng Liu, Huanjing Yue, Jingyu Yang 0002. 6277-6286 [doi]

Attention Guidance Distillation Network for Efficient Image Super-ResolutionHongyuan Wang, Ziyan Wei, Qingting Tang, Shuli Cheng, Liejun Wang, Yongming Li. 6287-6296 [doi]

Short-form UGC Video Quality Assessment Based on Multi-Level Video Fusion with Rank-AwareHaoran Xu, Mengduo Yang, Jie Zhou, Jiaze Li. 6297-6306 [doi]

Shadow Removal via Global Residual Free Unet and Shadow GenerationDong Li, Xin Lu 0006, Yurui Zhu, Xi Wang, Jie Xiao 0002, Yunpeng Zhang, Xueyang Fu, Zheng-Jun Zha. 6307-6316 [doi]

Large Kernel Frequency-enhanced Network for Efficient Single Image Super-ResolutionJiadi Chen, Chunjiang Duanmu, Huanhuan Long. 6317-6326 [doi]

AIGIQA-20K: A Large Database for AI-Generated Image Quality AssessmentChunyi Li, Tengchuan Kou, Yixuan Gao, Yuqin Cao, Wei Sun 0029, Zicheng Zhang, Yingjie Zhou, Zhichao Zhang, Weixia Zhang, Haoning Wu 0001, Xiaohong Liu 0001, Xiongkuo Min, Guangtao Zhai. 6327-6336 [doi]

NTIRE 2024 Quality Assessment of AI-Generated Content ChallengeXiaohong Liu 0001, Xiongkuo Min, Guangtao Zhai, Chunyi Li, Tengchuan Kou, Wei Sun 0029, Haoning Wu 0001, Yixuan Gao, Yuqin Cao, Zicheng Zhang, Xiele Wu, Radu Timofte, Fei Peng, Huiyuan Fu, Anlong Ming, Chuanming Wang, Huadong Ma, Shuai He, Zifei Dou, Shu Chen, Huacong Zhang, Haiyi Xie, Chengwei Wang, Baoying Chen, Jishen Zeng, Jianquan Yang, Weigang Wang, Xi Fang, Xiaoxin Lv, Jun Yan, Tianwu Zhi, Yabin Zhang 0002, Yaohui Li, Yang Li 0041, Jingwen Xu, JianZhao Liu, Yiting Liao, Junlin Li, Zihao Yu, Fengbin Guan, Yiting Lu, Xin Li 0082, Hossein Motamednia, S. Farhad Hosseini-Benvidi, Ahmad Mahmoudi Aznaveh, Azadeh Mansouri, Ganzorig Gankhuyag, Kihwan Yoon, Yifang Xu, Haotian Fan, Fangyuan Kong, Shiling Zhao, Weifeng Dong, Haibing Yin, Li Zhu, Zhiling Wang, Bingchen Huang, Avinab Saha, Sandeep Mishra, Shashank Gupta, Rajesh Sureddi, Oindrila Saha, Luigi Celona, Simone Bianco 0001, Paolo Napoletano, Raimondo Schettini, Junfeng Yang, Jing Fu, Wei Zhang 0196, Wenzhi Cao, Limei Liu, Han Peng, Weijun Yuan, Zhan Li 0004, Yihang Cheng 0007, Yifan Deng, Haohui Li, Bowen Qu, Yao Li, Shuqing Luo, Shunzhou Wang, Wei Gao 0003, Zihao Lu, Marcos V. Conde, Radu Timofte, Xinrui Wang, Zhibo Chen 0001, Ruling Liao, Yan Ye, Qiulin Wang, Bing Li 0024, Zhaokun Zhou, Miao Geng, Rui Chen, Xin Tao 0001, Xiaoyu Liang, Shangkun Sun, Xingyuan Ma, Jiaze Li, Mengduo Yang, Haoran Xu, Jie Zhou, Shiding Zhu, Bohan Yu, Pengfei Chen 0003, Xinrui Xu, Jiabin Shen, Zhichao Duan, Erfan Asadi, Jiahe Liu, Qi Yan, Youran Qu, Xiaohui Zeng, Lele Wang 0001, Renjie Liao. 6337-6362 [doi]

Dformer: Learning Efficient Image Restoration with Perceptual GuidanceNodirkhuja Khudjaev, Roman Tsoy, Sharif S. M. A, Azamat Myrzabekov, Seongwan Kim, Jaeho Lee. 6363-6372 [doi]

Learning Optimized Low-Light Image Enhancement for Edge Vision TasksSharif S. M. A, Azamat Myrzabekov, Nodirkhuja Khujaev, Roman Tsoy, Seongwan Kim, Jaeho Lee. 6373-6383 [doi]

AIGC-VQA: A Holistic Perception Metric for AIGC Video Quality AssessmentYiting Lu, Xin Li 0082, Bingchen Li, Zihao Yu, Fengbin Guan, Xinrui Wang, Ruling Liao, Yan Ye, Zhibo Chen 0001. 6384-6394 [doi]

MoE-AGIQA: Mixture-of-Experts Boosted Visual Perception-Driven and Semantic-Aware Quality Assessment for AI-Generated ImagesJunfeng Yang, Jing Fu, Wei Zhang, Wenzhi Cao, Limei Liu, Han Peng. 6395-6404 [doi]

DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional TransformerWei Dong 0010, Han Zhou 0003, Ruiyi Wang, Xiaohong Liu 0001, Guangtao Zhai, Jun Chen 0005. 6405-6414 [doi]

NTIRE 2024 Challenge on Short-form UGC Video Quality Assessment: Methods and ResultsXin Li 0082, Kun Yuan, Yajing Pei, Yiting Lu, Ming Sun, Chao Zhou, Zhibo Chen 0001, Radu Timofte, Wei Sun 0029, Haoning Wu 0001, Zicheng Zhang, Jun Jia, Zhichao Zhang, Linhan Cao, Qiubo Chen, Xiongkuo Min, Weisi Lin, Guangtao Zhai, Jianhui Sun, Tianyi Wang, Lei Li 0009, Han Kong, Wenxuan Wang, Bing Li 0024, Cheng Luo, Haiqiang Wang, Xiangguang Chen, Wenhui Meng, Xiang Pan, Huiying Shi, Han Zhu 0003, Xiaozhong Xu, Lei Sun 0009, Zhenzhong Chen, Shan Liu 0001, Fangyuan Kong, Haotian Fan, Yifang Xu, Haoran Xu, Mengduo Yang, Jie Zhou, Jiaze Li, ShiJie Wen, Mai Xu, Da Li, Shunyu Yao, Jiazhi Du, Wangmeng Zuo, Zhibo Li, Shuai He, Anlong Ming, Huiyuan Fu, Huadong Ma, Yong Wu, Fie Xue, Guozhi Zhao, Lina Du, Jie Guo, Yu Zhang, Huimin Zheng, Junhao Chen, Yue Liu, Dulan Zhou, Kele Xu, Qisheng Xu, Tao Sun, Zhixiang Ding, Yuhang Hu. 6415-6431 [doi]

AIGC Image Quality Assessment via Image-Prompt CorrespondenceFei Peng, Huiyuan Fu, Anlong Ming, Chuanming Wang, Huadong Ma, Shuai He, Zifei Dou, Shu Chen. 6432-6441 [doi]

PromptCIR: Blind Compressed Image Restoration with Prompt LearningBingchen Li, Xin Li 0082, Yiting Lu, Ruoyu Feng, Mengxi Guo, Shijie Zhao 0001, Li Zhang, Zhibo Chen 0001. 6442-6452 [doi]

NTIRE 2024 Dense and Non-Homogeneous Dehazing Challenge ReportCodruta O. Ancuti, Cosmin Ancuti, Florin-Alexandru Vasluianu, Radu Timofte, Yidi Liu, Xingbo Wang, Yurui Zhu, Gege Shi, Xin Lu 0006, Xueyang Fu, Zheng-Jun Zha, Wei Dong 0010, Han Zhou 0003, Ruiyi Wang, Xiaohong Liu 0001, Guangtao Zhai, Jun Chen 0005, Wei Song, Yichang Gao, Jiahao Xiong, Hualiang Lin, Xianger Li, Dong Li, Mohab Kishawy, Ruibin Li, Seyed Amirreza Mousavi, Rana Rauf, Yangyi Liu, Huan Liu 0014, MingSheng Tu, Kele Xu, Jiawen Chen, Qisheng Xu, Tao Sun, Jin Guo, Ben Shao, Tianli Liu, Mohao Wu, Xingzhuo Yan, Minghan Fu, Lehan Yang, Xin Lin, Lu Qi, Jincen Song, Xiaoqian Hu, Linwei Tao, Hongming Chen 0004, Xiang Chen 0015, Chuanlong Xie, Zhao Zhang 0001, Junhu Wang, Yanyan Wei, Suiyi Zhao, Shengeng Tang, Sampada Malagi, Amogh Joshi, Nikhil Akalwadi, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Wenjing Jiang, Jagadeesh Kalyanshetti, Vijayalaxmi Ashok Aralikatti, Palani Yashaswini, Nitish Upasi, Dikshit Hegde, Ujwala Patil, Sujata C. 6453-6468 [doi]

Cross-view Aggregation Network For Stereo Image Super-ResolutionZhitao Chen, Tao Lu, Kanghui Zhao, Bolin Zhu, Zhen Li, Jiaming Wang, Yanduo Zhang. 6469-6478 [doi]

RBSFormer: Enhanced Transformer Network for Raw Image Super-ResolutionSiyuan Jiang, Senyan Xu, Xingfu Wang. 6479-6488 [doi]

Multi-Level Feature Fusion Network for Lightweight Stereo Image Super-ResolutionYunxiang Li, Wenbin Zou, Qiaomu Wei, Feng Huang, Jing Wu. 6489-6498 [doi]

NTIRE 2024 Challenge on HR Depth from Images of Specular and Transparent SurfacesPierluigi Zama Ramirez, Fabio Tosi, Luigi di Stefano, Radu Timofte, Alex Costanzino, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Yangyang Zhang, Cailin Wu, Zhuangda He, Shuangshuang Yin, Jiaxu Dong, Yangchenxu Liu, Hao Jiang, Jun Shi 0004, Yong A, Yixiang Jin, Dingzhe Li, Bingxin Ke, Anton Obukhov, Tinafu Wang, Nando Metzger, Shengyu Huang, Konrad Schindler, Yachuan Huang, Jiaqi Li 0007, Junrui Zhang, Yiran Wang 0005, Zihao Huang 0001, Tianqi Liu 0003, Zhiguo Cao 0001, Pengzhi Li, Jui-Lin Wang, Wenjie Zhu, Hui Geng, Yuxin Zhang, Long Lan, Kele Xu, Tao Sun, Qisheng Xu, Sourav Saini, Aashray Gupta, Sahaj K. Mistry, Aryan Shukla, Vinit Jakhetiya, Sunil Prasad Jaiswal, Yuejin Sun, Zhuofan Zheng, Yi Ning, Jen-Hao Cheng, Hou-I Liu, Hsiang-Wei Huang, Cheng-Yen Yang, Zhongyu Jiang, Yi-Hao Peng, Aishi Huang, Jenq-Neng Hwang. 6499-6512 [doi]

HirFormer: Dynamic High Resolution Transformer for Large-Scale Image Shadow RemovalXin Lu 0006, Yurui Zhu, Xi Wang, Dong Li, Jie Xiao 0002, Yunpeng Zhang, Xueyang Fu, Zheng-Jun Zha. 6513-6523 [doi]

NTIRE 2024 Challenge on Blind Enhancement of Compressed Image: Methods and ResultsRen Yang, Radu Timofte, Bingchen Li, Xin Li, Mengxi Guo, Shijie Zhao, Li Zhang, Zhibo Chen 0001, Dongyang Zhang, Yash Arora, Aditya Arora, Yuanbin Chen, Hui Tang, Tao Wang, Longxuan Zhao, Bin Chen, Tong Tong 0001, Qiao Mo, Jingwei Bao, Jinhua Hao, Yukang Ding, Hantang Li, Ming Sun, Chao Zhou, Shuyuan Zhu, Zhi Jin, Wei Wang, Dandan Zhan, Jiawei Wu, Jiahao Wu, Luwei Tu, Hongyu An, Xinfeng Zhang, Woon-Ha Yeo, Wang-Taek Oh, Young-Il Kim, Han-Cheol Ryu, Long Sun, Mingjun Zhen, Jinshan Pan, Jiangxin Dong, Jinhui Tang 0001, Yapeng Du, Ao Li, Ziyang He, Lei Luo, Ce Zhu, Xin Yao, Sunder Ali Khowaja, Ikhyun Lee, Jaeho Lee, Seongwan Kim, Sharif S. M. A, Nodirkhuja Khujaev, Roman Tsoy. 6524-6535 [doi]

DVMSR: Distillated Vision Mamba for Efficient Super-ResolutionXiaoyan Lei, Wenlong Zhang, Weifeng Cao. 6536-6546 [doi]

NTIRE 2024 Image Shadow Removal Challenge ReportFlorin-Alexandru Vasluianu, Tim Seizinger, Zhuyun Zhou, Zongwei Wu, Cailian Chen, Radu Timofte, Wei Dong, Han Zhou, Yuqiong Tian, Jun Chen, Xueyang Fu, Xin Lu, Yurui Zhu, Xi Wang, Dong Li, Jie Xiao, Yunpeng Zhang, Zheng-Jun Zha, Zhao Zhang, Suiyi Zhao, Bo Wang, Yan Luo, Yanyan Wei, Zhihao Zhao, Long Sun, Tingting Yang, Jinshan Pan, Jiangxin Dong, Jinhui Tang 0001, Bilel Benjdira, Mohammed Nassif, Anis Koubaa, Ahmed Elhayek, Anas M. Ali, Kyotaro Tokoro, Kento Kawai, Kaname Yokoyama, Takuya Seno, Yuki Kondo, Norimichi Ukita, Chenghua Li, Bo Yang, Zhiqi Wu, Gao Chen, Yihan Yu, Sixiang Chen, Kai Zhang, Tian Ye 0001, Wenbin Zou, Yunlong Lin, Zhaohu Xing, Jinbin Bai, Wenhao Chai, Lei Zhu, Ritik Maheshwari, Rakshank Verma, Rahul Tekchandani, Praful Hambarde, Satya Narayan Tazi, Santosh Kumar Vipparthi, Subrahmanyam Murala, Jaeho Lee, Seongwan Kim, Sharif S. M. A, Nodirkhuja Khujaev, Roman Tsoy, Fan Gao, Weidan Yan, Wenze Shao, Dengyin Zhang, Bin Chen, Siqi Zhang, Yanxin Qian, Yuanbin Chen, Yuanbo Zhou, Tong Tong 0001, Rongfeng Wei, Ruiqi Sun, Yue Liu, Nikhil Akalwadi, Amogh Joshi, Sampada Malagi, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Ali Murtaza, Uswah Khairuddin, Ahmad 'Athif Mohd Faudzi, Adinath Dukre, Vivek Deshmukh, Shruti S. Phutke, Ashutosh Kulkarni, Santosh Kumar Vipparthi, Anil Gonde, Subrahmanyam Murala, Arun karthik K, Manasa N, Shri Hari Priya, Wei Hao, Xingzhuo Yan, Minghan Fu. 6547-6570 [doi]

NTIRE 2024 Challenge on Low Light Image Enhancement: Methods and ResultsXiaoning Liu 0003, Zongwei Wu, Ao Li 0007, Florin-Alexandru Vasluianu, Yulun Zhang, Shuhang Gu, Le Zhang 0001, Ce Zhu, Radu Timofte, Zhi Jin, Hongjun Wu, Chenxi Wang, Haitao Ling, Yuanhao Cai, Hao Bian, Yuxin Zheng, Jing Lin, Alan L. Yuille, Ben Shao, Jin Guo, Tianli Liu, Mohao Wu, Yixu Feng, Shuo Hou, Haotian Lin 0005, Yu Zhu 0004, Peng Wu, Wei Dong 0010, Jinqiu Sun, Yanning Zhang, Qingsen Yan, Wenbin Zou, Weipeng Yang, Yunxiang Li, Qiaomu Wei, Tian Ye 0001, Sixiang Chen, Zhao Zhang 0001, Suiyi Zhao, Bo Wang 0011, Yan Luo, Zhichao Zuo, Mingshen Wang, Junhu Wang, Yanyan Wei, Xiaopeng Sun, Yu Gao, Jiancheng Huang, Hongming Chen 0004, Xiang Chen 0015, Hui Tang, Yuanbin Chen, Yuanbo Zhou, Xinwei Dai, Xintao Qiu, Wei Deng, Qinquan Gao, Tong Tong 0001, Mingjia Li, Jin Hu, Xinyu He, Xiaojie Guo, Sabarinathan, K. Uma, A. Sasithradevi, B. Sathya Bama 0001, S. Mohamed Mansoor Roomi, V. Srivatsav, Jinjuan Wang, Long Sun, Qiuying Chen, Jiahong Shao, Yizhi Zhang, Marcos V. Conde, Daniel Feijoo, Juan C. Benito, Alvaro García, Jaeho Lee, Seongwan Kim, Sharif S. M. A, Nodirkhuja Khujaev, Roman Tsoy, Ali Murtaza, Uswah Khairuddin, Ahmad 'Athif Mohd Faudzi, Sampada Malagi, Amogh Joshi, Nikhil Akalwadi, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Wenyi Lian, Wenjing Lian, Jagadeesh Kalyanshetti, Vijayalaxmi Ashok Aralikatti, Palani Yashaswini, Nitish Upasi, Dikshit Hegde, Ujwala Patil, Sujata C, Xingzhuo Yan, Wei Hao, Minghan Fu, Pooja Choksy, Anjali Sarvaiya, Kishor P. Upla, Kiran B. Raja, Hailong Yan, Yunkai Zhang, Baiang Li, Jingyi Zhang, Huan Zheng. 6571-6594 [doi]

The Ninth NTIRE 2024 Efficient Super-Resolution Challenge ReportBin Ren, Yawei Li, Nancy Mehta, Radu Timofte, Hongyuan Yu, Cheng Wan, Yuxin Hong, Bingnan Han, Zhuoyuan Wu, Yajun Zou, Yuqing Liu, JiZhe Li, Keji He, Chao Fan, Heng Zhang, Xiaolin Zhang, Xuanwu Yin, Kunlong Zuo, Bohao Liao, Peizhe Xia, Long Peng, Zhibo Du, Xin Di, Wangkai Li, Yang Wang, Wei Zhai, Renjing Pei, Jiaming Guo, Songcen Xu, Yang Cao, Zhengjun Zha, Yan Wang, Yi Liu, Qing Wang, Gang Zhang, Liou Zhang, Shijie Zhao, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang 0001, Xin Liu, Min Yan, Qian Wang, Menghan Zhou, Yiqiang Yan, Yixuan Liu, Wensong Chan, Dehua Tang, Dong Zhou, Li Wang, Lu Tian, Barsoum Emad, Bohan Jia, Junbo Qiao, Yunshuai Zhou, Yun Zhang, Wei Li, Shaohui Lin, Shenglong Zhou 0002, Binbin Chen, Jincheng Liao, Suiyi Zhao, Zhao Zhang, Bo Wang, Yan Luo, Yanyan Wei, Feng Li, Mingshen Wang, Yawei Li, Jinhan Guan, Dehua Hu, Jiawei Yu, Qisheng Xu, Tao Sun, Long Lan, Kele Xu, Xin Lin, Jingtong Yue, Lehan Yang, Shiyi Du, Lu Qi, Chao Ren, Zeyu Han, Yuhan Wang, Chaolin Chen, Haobo Li, Mingjun Zheng, Zhongbao Yang, Lianhong Song, Xingzhuo Yan, Minghan Fu, Jingyi Zhang, Baiang Li, Qi Zhu, Xiaogang Xu, Dan Guo, Chunle Guo, Jiadi Chen, Huanhuan Long, Chunjiang Duanmu, Xiaoyan Lei, Jie Liu, Weilin Jia, Weifeng Cao, Wenlong Zhang, Yanyu Mao, Ruilong Guo, Nihao Zhang, Qian Wang, Manoj Pandey, Maksym Chernozhukov, Giang Le, Shuli Cheng, Hongyuan Wang, Ziyan Wei, Qingting Tang, Liejun Wang, Yongming Li, Yanhui Guo, Hao Xu, Akram Khatami-Rizi, Ahmad Mahmoudi Aznaveh, Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, Amogh Joshi, Nikhil Akalwadi, Sampada Malagi, Palani Yashaswini, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi. 6595-6631 [doi]

NTIRE 2024 Restore Any Image Model (RAIM) in the Wild ChallengeJie Liang 0007, Radu Timofte, Qiaosi Yi, Shuaizheng Liu, Lingchen Sun, Rongyuan Wu, Xindong Zhang, Hui Zeng, Lei Zhang 0006, Yibin Huang, Shuai Liu 0009, Yongqiang Li, Chaoyu Feng, Xiaotao Wang, Lei Lei, Yuxiang Chen, Xiangyu Chen 0006, Qiubo Chen, Fengyu Sun, Mengying Cui, Jiaxu Chen, ZhenYu Hu, Jingyun Liu, Wenzhuo Ma, Ce Wang, Hanyou Zheng, Wanjie Sun, Zhenzhong Chen, Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao 0004, Jens Sjölund, Thomas B. Schön, Xiong Dun, Pengzhou Ji, Yujie Xing, Xuquan Wang, Zhanshan Wang, Xinbin Cheng, Jun Xiao, Chenhang He, Xiuyuan Wang, Zhi-Song Liu, Zimeng Miao, Zhicun Yin, Ming Liu 0018, Wangmeng Zuo, Shuai Li 0014. 6632-6640 [doi]

Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language ModelsZiwei Luo, Fredrik K. Gustafsson, Zheng Zhao 0004, Jens Sjölund, Thomas B. Schön. 6641-6651 [doi]

Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution GapBowen Qu, Xiaoyu Liang, Shangkun Sun, Wei Gao 0003. 6652-6660 [doi]

Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-ResolutionCansu Korkmaz, A. Murat Tekalp. 6661-6670 [doi]

Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image EnhancementWenyi Lian, Wenjing Lian, Ziwei Luo. 6671-6681 [doi]

SDCNet: Spatially-Adaptive Deformable Convolution Networks for HR NonHomogeneous DehazingYidi Liu, Xingbo Wang, Yurui Zhu, Xueyang Fu, Zheng-Jun Zha. 6682-6691 [doi]

SF-IQA: Quality and Similarity Integration for AI Generated Image Quality AssessmentZihao Yu, Fengbin Guan, Yiting Lu, Xin Li 0082, Zhibo Chen 0001. 6692-6701 [doi]

NTIRE 2024 Challenge on Night Photography RenderingEgor I. Ershov, Artyom Panshin, Oleg Karasev, Sergey Korchagin, Shepelev Lev, Alexandr Startsev, Daniil Vladimirov, Ekaterina Zaychenkova, Nikola Banic, Dmitrii Iarchuk, Maria Efimova, Radu Timofte, Arseniy P. Terekhin. 6702-6711 [doi]

LGFN: Lightweight Light Field Image Super-Resolution using Local Convolution Modulation and Global Attention Feature ExtractionZhongXin Yu, Liang Chen, Zhiyun Zeng, Kunping Yang, Shaofei Luo, Shaorui Chen, Cheng Zhong. 6712-6721 [doi]

Two Stage Dehazing Framework for Dense and Non-Homogeneous DehazingWei Song, Yichang Gao, Jiahao Xiong, Hualiang Lin, Dong Li, Yun Zhang. 6722-6731 [doi]

Deep Portrait Quality Assessment. A NTIRE 2024 Challenge SurveyNicolas Chahine, Marcos V. Conde, Daniela Carfora, Gabriel Pacianotto, Benoit Pochon, Sira Ferradans, Radu Timofte, Zhichao Duan, Xinrui Xu, Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang 0013, Leida Li, Haotian Fan, Fangyuan Kong, Yifang Xu, Wei Sun 0029, Weixia Zhang, Yanwei Jiang, Haoning Wu 0001, Zicheng Zhang, Jun Jia, Yingjie Zhou, Zhongpeng Ji, Xiongkuo Min, Weisi Lin, Guangtao Zhai, Xiaoqi Wang, Junqi Liu, Zixi Guo, Yun Zhang 0002, Zewen Chen, Wen Wang, Juan Wang, Bing Li 0024, Zhichao Duan, Xinrui Xu, Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang 0013, Leida Li, Haotian Fan, Fangyuan Kong, Yifang Xu, Wei Sun 0029, Weixia Zhang, Yanwei Jiang, Haoning Wu 0001, Zicheng Zhang, Jun Jia, Yingjie Zhou, Zhongpeng Ji, Xiongkuo Min, Weisi Lin, Guangtao Zhai, Zewen Chen, Wen Wang, Juan Wang, Bing Li 0024, Xiaoqi Wang, Junqi Liu, Zixi Guo, Yun Zhang 0002. 6732-6744 [doi]

Deep RAW Image Super-Resolution. A NTIRE 2024 Challenge SurveyMarcos V. Conde, Florin-Alexandru Vasluianu, Radu Timofte, Jianxing Zhang, Jia Li 0044, Fan Wang 0005, Xiaopeng Li, Zikun Liu, Hyunhee Park, Sejun Song, Changho Kim, Zhijuan Huang, Hongyuan Yu, Cheng Wan 0006, Wending Xiang, Jiamin Lin, Hang Zhong, Qiaosong Zhang, Yue Sun, Xuanwu Yin, Kunlong Zuo, Senyan Xu, Siyuan Jiang, Zhijing Sun, Jiaying Zhu, Liangyan Li, Ke Chen, Yunzhe Li, Yimo Ning, Guanhua Zhao, Jun Chen 0005, Jinyang Yu, Kele Xu, Qisheng Xu, Yong Dou, Jianxing Zhang, Jia Li 0044, Fan Wang 0005, Xiaopeng Li, Zikun Liu, Hyunhee Park, Sejun Song, Changho Kim, Zhijuan Huang, Hongyuan Yu, Cheng Wan 0006, Wending Xiang, Jiamin Lin, Hang Zhong, Qiaosong Zhang, Yue Sun, Xuanwu Yin, Kunlong Zuo, Senyan Xu, Siyuan Jiang, Zhijing Sun, Jiaying Zhu, Liangyan Li, Ke Chen, Yunzhe Li, Yimo Ning, Guanhua Zhao, Jun Chen 0005, Jinyang Yu, Kele Xu, Qisheng Xu, Yong Dou. 6745-6759 [doi]

Robust Perspective-n-Crater for Crater-based Camera Pose EstimationSofia McLeod, Chee Kheng Chng, Tatsuharu Ono, Yuta Shimizu, Ryodo Hemmi, Lachlan Holden, Matthew Rodda, Feras Dayoub, Hirdy Miyamoto, Yukihiro Takahashi, Yasuko Kasai, Tat-Jun Chin. 6760-6769 [doi]

Exploring AI-Based Satellite Pose Estimation: from Novel Synthetic Dataset to In-Depth Performance EvaluationFabien Gallet, Christophe Marabotto, Thomas Chambon. 6770-6778 [doi]

Optimized Martian Dust Displacement Detection Using Explainable Machine LearningAna Lomashvili, Kristin Rammelkamp, Olivier Gasnault, Protim Bhattacharjee, Elise Clavé, Christoph H. Egerland, Susanne Schröder, Begüm Demir, Nina L. Lanza. 6779-6788 [doi]

Mitigating Challenges of the Space Environment for Onboard Artificial Intelligence: Design Overview of the Imaging Payload on SpIRITMiguel Ortiz Del Castillo, Jonathan Morgan, Jack McRobbie, Clint Therakam, Zaher Joukhadar, Robert Mearns, Simon Barraclough, Richard O. Sinnott, Andrew Woods, Chris Bayliss, Kris Ehinger, Benjamin I. P. Rubinstein, James Bailey 0001, Airlie Chapman, Michele Trenti. 6789-6798 [doi]

A Dual-Mode Approach for Vision-Based Navigation in a Lunar Landing ScenarioLuca Ostrogovich, Roberto Del Prete, Giuseppe Tomasicchio, Nicolas Longépé, Alfredo Renga. 6799-6808 [doi]

Tackling the Satellite Downlink Bottleneck with Federated Onboard Learning of Image CompressionPablo Gómez, Gabriele Meoni. 6809-6818 [doi]

Transformers for Orbit Determination Anomaly Detection and ClassificationNathan Parrish Ré, Matthew Popplewell, Michael Caudill, Timothy Sullivan, Tyler Hanf, Benjamin Tatman, Kanak Parmar, Tyler Presser, Sai Chikine, Michael Grant, Richard Poulson. 6819-6827 [doi]

Deploying Machine Learning Anomaly Detection Models to Flight Ready AI BoardsJames Murphy, Maria Buckley, Léonie Buckley, Adam Taylor, Jake O'Brien, Brian Mac Namee. 6828-6836 [doi]

Cross-Temporal Spectrogram Autoencoder (CTSAE): Unsupervised Dimensionality Reduction for Clustering Gravitational Wave GlitchesYi Li, Yunan Wu, Aggelos K. Katsaggelos. 6837-6846 [doi]

Monocular 6-DoF Pose Estimation of Spacecrafts Utilizing Self-iterative Optimization and Motion ConsistencyYunfeng Zhang, Linjing You, Luyu Yang, Zhiwei Zhang, Xiangli Nie, Bo Zhang. 6847-6856 [doi]

CroSpace6D: Leveraging Geometric and Motion Cues for High-Precision Cross-Domain 6DoF Pose Estimation for Non-Cooperative SpacecraftsJianhong Zuo, Shengyang Zhang, Qianyu Zhang, Yutao Zhao, Baichuan Liu, Aodi Wu, Xue Wan, Leizheng Shu, Guohua Kang. 6857-6863 [doi]

Revisiting the Domain Gap Issue in Non-cooperative Spacecraft Pose TrackingKun Liu, Yongjun Yu. 6864-6873 [doi]

Unsupervised Microscopy Video DenoisingMary Damilola Aiyetigbo, Alexander Korte, Ethan Anderson, Reda Chalhoub, Peter Kalivas, Feng Luo, Nianyi Li. 6874-6883 [doi]

Discovering interpretable models of scientific image data with deep learningChristopher J. Soelistyo, Alan R. Lowe. 6884-6893 [doi]

Vim4Path: Self-Supervised Vision Mamba for Histopathology ImagesAli Nasiri-Sarvi, Vincent Quoc-Huy Trinh, Hassan Rivaz, Mahdi S. Hosseini. 6894-6903 [doi]

Refining Biologically Inconsistent Segmentation Masks with Masked AutoencodersAlexander Sauer, Yuan Tian, Joerg Bewersdorf, Jens Rittscher. 6904-6912 [doi]

Histopathological Image Classification with Cell Morphology Aware Deep Neural NetworksAndrey Ignatov, Josephine Yates, Valentina Boeva. 6913-6925 [doi]

NOISe: Nuclei-Aware Osteoclast Instance Segmentation for Mouse-to-Human Domain TransferSai Kumar Reddy Manne, Brendan Martin, Tyler Roy, Ryan Neilson, Rebecca Peters, Meghana Chillara, Christine W. Lary, Katherine J. Motyl, Michael Wan. 6926-6935 [doi]

Low-Resolution-Only Microscopy Super-Resolution Models Generalizing to Non-Periodicities at Atomic ScaleBjörn Möller, Zhengyang Li, Markus Etzkorn, Tim Fingscheidt. 6936-6945 [doi]

Uncertainty Estimation for Tumor Prediction with Unlabeled DataJuyoung Yun, Shahira Abousamra, Chen Li 0045, Rajarsi Gupta 0001, Tahsin M. Kurç, Dimitris Samaras, Alison L. Van Dyke, Joel H. Saltz, Chao Chen 0012. 6946-6954 [doi]

Triage of 3D pathology data via 2.5D multiple-instance learning to guide pathologist assessmentsGan Gao, Andrew H. Song, Fiona Wang, David Brenes, Rui Wang, Sarah S. L. Chow, Kevin W. Bishop, Lawrence D. True, Faisal Mahmood, Jonathan T. C. Liu. 6955-6965 [doi]

Super-resolution of biomedical volumes with 2D supervisionCheng Jiang 0003, Alexander Gedeon, Yiwei Lyu, Eric Landgraf, Yufeng Zhang, Xinhai Hou, Akhil Kondepudi, Asadur Chowdury, Honglak Lee, Todd C. Hollon. 6966-6977 [doi]

Weakly Supervised Set-Consistency Learning Improves Morphological Profiling of Single-Cell ImagesHeming Yao, Phil Hanslovsky, Jan-Christian Huetter, Burkhard Hoeckendorf, David Richmond. 6978-6987 [doi]

Grad-CAMO: Learning Interpretable Single-Cell Morphological Profiles from 3D Cell Painting ImagesVivek Gopalakrishnan, Jingzhe Ma, Zhiyong Xie. 6988-6996 [doi]

An End-to-End Vision Transformer Approach for Image Copy DetectionJiahe Steven Lee, Wynne Hsu, Mong-Li Lee. 6997-7006 [doi]

A Robust Online Multi-Camera People Tracking System With Geometric Consistency and State-aware Re-ID CorrectionZhenyu Xie, Zelin Ni, Wenjie Yang, Yuang Zhang, Yihang Chen, Yang Zhang, Xiao Ma. 7007-7016 [doi]

Robust Data Augmentation and Ensemble Method for Object Detection in Fisheye Camera ImagesViet Hung Duong, Duc Quyen Nguyen, Thien Van Luong, Huan Vu, Tien Cuong Nguyen. 7017-7026 [doi]

Motorcyclist Helmet Violation Detection Framework by Leveraging Robust Ensemble and Augmentation MethodsThien Van Luong, Huu Si Phuc Nguyen, Duy Khanh Dinh, Viet Hung Duong, Duy Hong Sam Vo, Huan Vu, Minh Tuan Hoang, Tien Cuong Nguyen. 7027-7036 [doi]

An Online Approach and Evaluation Method for Tracking People Across Cameras in Extremely Long Video SequenceCheng-Yen Yang, Hsiang-Wei Huang, Pyong-Kun Kim, Zhongyu Jiang, Kwang-Ju Kim, Chung-I Huang, Haiqing Du, Jenq-Neng Hwang. 7037-7045 [doi]

Divide and Conquer Boosting for Enhanced Traffic Safety Description and Analysis with Large Vision Language ModelKhai Trinh Xuan, Khoi Nguyen Nguyen, Bach Hoang Ngo, Vu Dinh Xuan, Minh-Hung An, Quang Vinh Dinh. 7046-7055 [doi]

Low-Light Image Enhancement Framework for Improved Object Detection in Fisheye Lens DatasetsDai Quoc Tran, Armstrong Aboah, Yuntae Jeon, Maged Shoman, Minsoo Park, Seunghee Park. 7056-7065 [doi]

A Coarse-to-fine Two-stage Helmet Detection Method for MotorcyclistsHongpu Zhang, Zhe Cui, Fei Su. 7066-7074 [doi]

Multi-perspective Traffic Video Description Model with Fine-grained Refinement ApproachTuan-An To, Minh-Nam Tran, Trong-Bao Ho, Thien-Loc Ha, Quang Tan Nguyen, Hoang-Chau Luong, Thanh-Duy Cao, Minh-Triet Tran. 7075-7084 [doi]

An Effective Method for Detecting Violation of Helmet Rule for MotorcyclistsYunliang Chen, Wei Zhou, Zicen Zhou, Bing Ma, Chen Wang, Yingda Shang, An Guo, Tianshu Chu. 7085-7090 [doi]

FE-Det: An Effective Traffic Object Detection Framework for Fish-Eye CamerasXingshuang Luo, Zhe Cui, Fei Su. 7091-7099 [doi]

Improving Object Detection to Fisheye Cameras with Open-Vocabulary Pseudo-Label ApproachLong Hoang Pham, Quoc Pham-Nam Ho, Duong Nguyen-Ngoc Tran, Tai Huu-Phuong Tran, Huy Hung Nguyen, Duong Khac Vu, Chi Dai Tran, Ngoc Doan-Minh Huynh, Hyung-Min Jeon, Hyung Joon Jeon, Jae Wook Jeon. 7100-7107 [doi]

Augmented Self-Mask Attention Transformer for Naturalistic Driving Action RecognitionTiantian Zhang, Qingtian Wang, Xiaodong Dong, Wenqing Yu, Hao Sun, Xuyang Zhou, Aigong Zhen, Shun Cui, Dong Wu, Zhongjiang He. 7108-7114 [doi]

KI-GAN: Knowledge-Informed Generative Adversarial Networks for Enhanced Multi-Vehicle Trajectory Forecasting at Signalized IntersectionsChuheng Wei, Guoyuan Wu 0001, Matthew J. Barth, Amr Abdelraouf, Rohit Gupta, Kyungtae Han. 7115-7124 [doi]

Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event AnalysisMaged Shoman, Dongdong Wang, Armstrong Aboah, Mohamed A. Abdel-Aty. 7125-7133 [doi]

TrafficVLM: A Controllable Visual Language Model for Traffic Video CaptioningQuang Minh Dinh, Minh Khoi Ho, Anh Quan Dang, Hung Phong Tran. 7134-7143 [doi]

Multi-View Spatial-Temporal Learning for Understanding Unusual Behaviors in Untrimmed Naturalistic Driving VideosHuy Hung Nguyen, Chi Dai Tran, Long Hoang Pham, Duong Nguyen-Ngoc Tran, Tai Huu-Phuong Tran, Duong Khac Vu, Quoc Pham-Nam Ho, Ngoc Doan-Minh Huynh, Hyung-Min Jeon, Hyung Joon Jeon, Jae Wook Jeon. 7144-7152 [doi]

Overlap Suppression Clustering for Offline Multi-Camera People TrackingRyuto Yoshida, Junichi Okubo, Junichiro Fujii, Masazumi Amakata, Takayoshi Yamashita. 7153-7162 [doi]

Robust Motorcycle Helmet Detection in Real-World Scenarios: Using Co-DETR and Minority Class EnhancementHao Vo, Sieu Tran, Duc-Minh Nguyen, Thua Nguyen, Tien Do, Duy-Dinh Le, Thanh Duc Ngo. 7163-7171 [doi]

Multi-View Action Recognition for Distracted Driver Behavior LocalizationYuehuan Xu, Shuai Jiang, Zhe Cui, Fei Su. 7172-7179 [doi]

CityLLaVA: Efficient Fine-Tuning for VLMs in City ScenarioZhizhao Duan, Hao Cheng, Duo Xu, Xi Wu, Xiangxie Zhang, Xi Ye, Zhen Xie. 7180-7189 [doi]

Cluster Self-Refinement for Enhanced Online Multi-Camera People TrackingJeongho Kim, Wooksu Shin, Hancheol Park, Donghyuk Choi. 7190-7197 [doi]

Online Multi-camera People Tracking with Spatial-temporal Mechanism and Anchor-feature Hierarchical ClusteringRiu Cherdchusakulchai, Sasin Phimsiri, Visarut Trairattanapa, Suchat Tungjitnob, Wasu Kudisthalert, Pornprom Kiawjak, Ek Thamwiwatthana, Phawat Borisuitsawat, Teepakorn Tosawadi, Pakcheera Choppradit, Kasisdis Mahakijdechachai, Supawit Vatathanavaro, Worawit Saetan, Vasin Suttichaya. 7198-7207 [doi]

Simple In-place Data Augmentation for Surveillance Object DetectionMunkh-Erdene Otgonbold, Ganzorig Batnasan, Munkhjargal Gochoo. 7208-7216 [doi]

Efficient Online Multi-Camera Tracking with Memory-Efficient Accumulated Appearance Features and Trajectory ValidationLap Quoc Tran, Huan Duc Vi. 7217-7226 [doi]

Enhancing Road Object Detection in Fisheye Cameras: An Effective Framework Integrating SAHI and Hybrid InferenceBao Tran Gia, Tuong Bui Cong Khanh, Hien Ho Trong, Thuyen Tran Doan, Tien Do, Duy-Dinh Le, Thanh Duc Ngo. 7227-7235 [doi]

OCMCTrack: Online Multi-Target Multi-Camera Tracking with Corrective Matching CascadeAndreas Specker. 7236-7244 [doi]

Road Object Detection Robust to Distorted Objects at the Edge Regions of ImagesWooksu Shin, Donghyuk Choi, Hancheol Park, Jeongho Kim. 7245-7251 [doi]

DeepLocalization: Using change point detection for Temporal Action LocalizationMohammed Shaiqur Rahman, Ibne Farabi Shihab, Lynna Chu, Anuj Sharma. 7252-7260 [doi]

The 8th AI City ChallengeShuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Yue Yao, Liang Zheng 0001, Mohammed Shaiqur Rahman, Meenakshi S. Arya, Anuj Sharma, Pranamesh Chakraborty, Sanjita Prajapati, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Fady Alnajjar, Ganzorig Batnasan, Ping-Yang Chen, Jun-Wei Hsieh, Xunlei Wu, Sameer Satish Pusegaonkar, Yizhou Wang 0001, Sujit Biswas, Rama Chellappa. 7261-7272 [doi]

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLMXuchen Li, Xiaokun Feng, Shiyu Hu, Meiqi Wu, Dailing Zhang, Jing Zhang, Kaiqi Huang. 7283-7292 [doi]

ALINA: Advanced Line Identification and Notation AlgorithmMohammed Abdul Hafeez Khan, Parth Ganeriwala, Siddhartha Bhattacharyya, Natasha A. Neogi, Raja Muthalagu. 7293-7302 [doi]

Grounding Stylistic Domain Generalization with Quantitative Domain Shift Measures and Synthetic Scene ImagesYiran Luo, Joshua Feinglass, Tejas Gokhale, Kuan-Cheng Lee, Chitta Baral, Yezhou Yang. 7303-7313 [doi]

A Survey of Video Datasets for Grounded Event UnderstandingKate Sanders 0002, Benjamin Van Durme. 7314-7327 [doi]

DDOS: The Drone Depth and Obstacle Segmentation DatasetBenedikt Kolbeinsson, Krystian Mikolajczyk. 7328-7337 [doi]

Classifier Guided Cluster Density Reduction for Dataset SelectionCheng Chang, Keyu Long, Zijian Li, Himanshu Rai. 7338-7347 [doi]

Optimizing Object Detection via Metric-driven Training Data SelectionChangyuan Zhou, Yumin Guo, Qinxue Lv, Ji Yuan. 7348-7355 [doi]

NICE: CVPR 2023 Challenge on Zero-shot Image CaptioningTaehoon Kim, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Mark Marsden, Alessandra Sala, Seung Hwan Kim, Bohyung Han, Kyoung Mu Lee, Honglak Lee, Kyounghoon Bae, Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu, Youngtaek Oh, Jae-Won Cho, Dong-Jin Kim 0003, In-So Kweon, Junmo Kim 0002, Wooyoung Kang, Won Young Jhoo, Byungseok Roh, Jonghwan Mun, Solgil Oh, Kenan Emir Ak, Gwang-Gook Lee, Yan Xu, Mingwei Shen 0001, Kyomin Hwang, Wonsik Shin, Kamin Lee, Wonhark Park, Dongkwan Lee, Nojun Kwak, Yujin Wang, Yimu Wang, Tiancheng Gu, Xingchang Lv, Mingmao Sun. 7356-7365 [doi]

Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus ScoresKiyoon Jeong, Woojun Lee, Woongchan Nam, Minjeong Ma, Pilsung Kang 0001. 7366-7372 [doi]

Large-Scale Bidirectional Training for Zero-Shot Image CaptioningTaehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim. 7373-7383 [doi]

An Empty Room is All We Want: Automatic Defurnishing of Indoor PanoramasMira Slavcheva, Dave Gausebeck, Kevin Chen, David Buchhofer, Azwad Sabik, Chen Ma, Sachal Dhillon, Olaf Brandt, Alan Dolhasz. 7384-7394 [doi]

ART•V: Auto-Regressive Text-to-Video Generation with Diffusion ModelsWenming Weng, Ruoyu Feng, Yanhui Wang, Qi Dai, Chunyu Wang, Dacheng Yin, Zhiyuan Zhao, Kai Qiu, Jianmin Bao, Yuhui Yuan, Chong Luo, Yueyi Zhang, Zhiwei Xiong. 7395-7405 [doi]

Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion ModelsSaman Motamed, Wouter Van Gansbeke, Luc Van Gool. 7406-7415 [doi]

StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion ModelsLezhong Wang, Jeppe Revall Frisvad, Mark Bo Jensen, Siavash Arjomand Bigdeli. 7416-7425 [doi]

iEdit: Localised Text-guided Image Editing with Weak SupervisionRumeysa Bodur, Erhan Gundogdu, Binod Bhattarai, Tae-Kyun Kim 0001, Michael Donoser, Loris Bazzani. 7426-7435 [doi]

OmniControlNet: Dual-stage Integration for Conditional Image GenerationYilin Wang, Haiyang Xu, Xiang Zhang 0015, Zeyuan Chen, Zhizhou Sha, Zirui Wang, Zhuowen Tu. 7436-7448 [doi]

Robust Disaster Assessment from Aerial Imagery Using Text-to-Image Synthetic DataTarun Kalluri, Jihyeon Lee, Kihyuk Sohn, Sahil Singla 0005, Manmohan Chandraker, Joseph Xu, Jeremiah Z. Liu. 7449-7459 [doi]

MixSyn: Compositional Image Synthesis with Fuzzy Masks and Style FusionIlke Demir, Umur Aybars Ciftci. 7460-7469 [doi]

AI Art Neural Constellation: Revealing the Collective and Contrastive State of AI-Generated and Human ArtFaizan Farooq Khan, Diana Kim, Divyansh Jha, Youssef Mohamed, Hanna H. Chang, Ahmed Elgammal, Luba Elliott, Mohamed Elhoseiny. 7470-7478 [doi]

GeoGen: Geometry-Aware Generative Modeling via Signed Distance FunctionsSalvatore Esposito, Qingshan Xu, Kacper Kania, Charlie Hewitt, Octave Mariotti, Lohit Petikam, Julien Valentin, Arno Onken, Oisin Mac Aodha. 7479-7488 [doi]

Salient Object-Aware Background Generation using Text-Guided Diffusion ModelsAmir Erfan Eshratifar, João V. B. Soares, Kapil Thadani, Shaunak Mishra, Mikhail Kuznetsov, Yueh-Ning Ku, Paloma de Juan. 7489-7499 [doi]

Style Transfer for 2D Talking Head GenerationTrong-Thang Pham, Tuong Do, Nhat Le, Ngan Le, Hung Nguyen, Erman Tjiputra, Quang Tran, Anh Nguyen 0003. 7500-7509 [doi]

LatentMan : Generating Consistent Animated Characters using Image Diffusion ModelsAbdelrahman Eldesokey, Peter Wonka. 7510-7519 [doi]

Segmentation-Free Guidance for Text-to-Image Diffusion ModelsKambiz Azarian, Debasmit Das, Qiqi Hou, Fatih Porikli. 7520-7529 [doi]

Can Synthetic Plant Images From Generative Models Facilitate Rare Species Identification and Classification?Debajyoti Dasgupta, Arijit Mondal, Partha P. Chakrabarti. 7530-7540 [doi]

Contrastive Clothing and Pose Generation for Cloth-Changing Person Re-IdentificationVuong D. Nguyen, Pranav Mantini, Shishir K. Shah. 7541-7549 [doi]

PQ-VAE: Learning Hierarchical Discrete Representations with Progressive QuantizationLun Huang, Qiang Qiu, Guillermo Sapiro. 7550-7558 [doi]

GenVideo: One-shot target-image and shape aware video editing using T2I diffusion modelsSai Sree Harsha, Ambareesh Revanur, Dhwanit Agarwal, Shradha Agrawal. 7559-7568 [doi]

Efficient Exploration of Image Classifier Failures with Bayesian Optimization and Text-to-Image ModelsAdrien Le-Coz, Houssem Ouertatani, Stéphane Herbin, Faouzi Adjed. 7569-7578 [doi]

MVDiff: Scalable and Flexible Multi-view Diffusion for 3D Object Reconstruction from Single-ViewEmmanuelle Bourigault, Pauline Bourigault. 7579-7586 [doi]

AffordanceLLM: Grounding Affordance from Vision Language ModelsShengyi Qian 0001, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li. 7587-7597 [doi]

Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance SegmentationTri Ton, Ji Woo Hong, SooHwan Eom, Jun Yeop Shim, Junyeong Kim, Chang D. Yoo. 7598-7607 [doi]

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic SegmentationSiqi Du, Weixi Wang, Renzhong Guo, Ruisheng Wang, Shengjun Tang. 7608-7615 [doi]

SimpliCity: Reconstructing Buildings with Simple Regularized 3D ModelsJean-Philippe Bauchet, Raphael Sulzer, Florent Lafarge, Yuliya Tarabalka. 7616-7626 [doi]

ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic SegmentationIaroslav Melekhov, Anand Umashankar, Hyeong-Jin Kim, Vladislav Serkov, Dusty Argyle. 7627-7637 [doi]

uTRAND: Unsupervised Anomaly Detection in Traffic TrajectoriesGiacomo D'Amicantonio, Egor Bondarau, Peter H. N. de With. 7638-7645 [doi]

OpenTrench3D: A Photogrammetric 3D Point Cloud Dataset for Semantic Segmentation of Underground UtilitiesLasse H. Hansen, Simon Buus Jensen, Mark P. Philipsen, Andreas Møgelmose, Lars Bodum, Thomas B. Moeslund. 7646-7655 [doi]

Exploring the Impact of Dataset Bias on Dataset DistillationYao Lu, Jianyang Gu, Xuguang Chen, Saeed Vahidian, Qi Xuan. 7656-7663 [doi]

Generative Dataset Distillation: Balancing Global Structure and Local DetailsLongzhen Li, Guang Li 0008, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 7664-7671 [doi]

AugData Distillation for Monocular 3D Human Pose EstimationJiman Kim. 7672-7681 [doi]

Coreset Selection for Object DetectionHojun Lee, Suyoung Kim, Junhoo Lee, Jaeyoung Yoo, Nojun Kwak. 7682-7691 [doi]

ATOM: Attention Mixer for Efficient Dataset DistillationSamir Khaki, Ahmad Sajedi, Kai Wang 0036, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis. 7692-7702 [doi]

Dataset condensation with latent quantile matchingWei Wei, Tom De Schepper, Kevin Mets. 7703-7712 [doi]

Large-scale Dataset Pruning with Dynamic UncertaintyMuyang He, Shuo Yang, Tiejun Huang 0001, Bo Zhao. 7713-7722 [doi]

DeepDistAL: Deepfake Dataset Distillation using Active LearningMd. Shohel Rana, Mohammad Nur Nobi, Andrew H. Sung. 7723-7730 [doi]

Data-free Model Fusion with Generator AssistantsLuyao Shi, Prashanth Vijayaraghavan, Ehsan Degan. 7731-7739 [doi]

i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable?Kevin Zhang, Zhiqiang Shen. 7740-7749 [doi]

Enhancing 2D Representation Learning with a 3D PriorMehmet Aygün, Prithviraj Dhar, Zhicheng Yan, Oisin Mac Aodha, Rakesh Ranjan. 7750-7760 [doi]

Prompt Learning with One-Shot Setting based Feature Space Analysis in Vision-and-Language ModelsYuki Hirohashi, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi. 7761-7770 [doi]

POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One ReferenceZhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang 0001, Dejia Xu, Zhangyang Wang. 7771-7781 [doi]

Federated Learning with a Single Shared ImageSunny Soni, Aaqib Saeed, Yuki M. Asano. 7782-7790 [doi]

'Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot LearningJoshua Feinglass, Jayaraman J. Thiagarajan, Rushil Anirudh, T. S. Jayram, Yezhou Yang. 7791-7798 [doi]

Vision-Language Pseudo-Labels for Single-Positive Multi-Label LearningXin Xing 0002, Zhexiao Xiong, Abby Stylianou, Srikumar Sastry, Liyu Gong, Nathan Jacobs. 7799-7808 [doi]

A Method of Moments Embedding Constraint and its Application to Semi-Supervised LearningMichael Majurski, Sumeet Menon, Parniyan Farvardin, David Chapman 0001. 7809-7818 [doi]

PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and DiscriminationAnant Khandelwal. 7819-7828 [doi]

Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmographyPengfei Zhao, Qigong Sun, Xiaolin Tian, Yige Yang, Shuo Tao, Jie Cheng, Jiantong Chen. 7829-7838 [doi]

Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation dataChenhui Zhang, Sherrie Wang. 7839-7849 [doi]

DiCo-NeRF: Difference of Cosine Similarity for Neural Rendering of Fisheye Driving ScenesJiho Choi, Gyutae Hwang, Sang-Jun Lee. 7850-7858 [doi]

EfficientViT-SAM: Accelerated Segment Anything Model Without Performance LossZhuoyang Zhang, Han Cai, Song Han 0003. 7859-7863 [doi]

Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic ForgettingReza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi. 7864-7869 [doi]

Advanced Facial Analysis in Multi-Modal Data with Cascaded Cross-Attention based TransformerJun-Hwa Kim, Namho Kim, Minsoo Hong, Chee Sun Won. 7870-7877 [doi]

Improving Valence-Arousal Estimation with Spatiotemporal Relationship Learning and Multimodal FusionJun Yu, Gongpeng Zhao, Yongqi Wang, Zhihong Wei, Zerui Zhang, Zhongpeng Cai, Guochen Xie, Jichao Zhu, Wangyuan Zhu, Shuoping Yang, Yang Zheng, Qingsong Liu, Jiaen Liang. 7878-7885 [doi]

Motion-aware Needle Segmentation in Ultrasound ImagesRaghavv Goel, Cecilia G. Morales, Manpreet Singh, Artur Dubrawski, Jonh Galeotti, Howie Choset. 7886-7891 [doi]

Towards Quantitative Evaluation Metrics for Image Editing ApproachesDana Cohen Hochberg, Oron Anschel, Alon Shoshan, Igor Kviatkovsky, Manoj Aggarwal, Gérard Guy Medioni. 7892-7900 [doi]

ReMOVE: A Reference-free Metric for Object ErasureAditya Chandrasekar, Goirik Chakrabarty, Jai Bardhan, Ramya Hebbalaguppe, Prathosh AP. 7901-7910 [doi]

CASR: Efficient Cascade Network Structure with Channel Aligned method for 4K Real-Time Single Image Super-ResolutionKihwan Yoon, Ganzorig Gankhuyag, Jinman Park, Haengseon Son, Kyoungwon Min. 7911-7920 [doi]

Gene-Level Representation Learning via Interventional Style Transfer in Optical Pooled ScreeningMahtab Bigverdi, Burkhard Höckendorf, Heming Yao, Phil Hanslovsky, Romain Lopez, David Richmond. 7921-7931 [doi]

PV-Cap: 3D Dynamic Scene Understanding Through Open Physics-based VocabularyHidetomo Sakaino, Thao Nguyen Phuong, Vinh Nguyen Duy. 7932-7942 [doi]

Collaborative Blind Image DeblurringThomas Eboli, Jean-Michel Morel, Gabriele Facciolo. 7943-7952 [doi]

OpenStory: A Large-Scale Open-Domain Dataset for Subject-Driven Visual StorytellingZilyu Ye, Jinxiu Liu, Jinjin Cao, Zhiyang Chen, Ziwei Xuan, Mingyuan Zhou, Qi Liu, Guo-Jun Qi. 7953-7962 [doi]

Gaussian Splatting Decoder for 3D-aware Generative Adversarial NetworksFlorian Barthel, Arian Beckmann, Wieland Morgenstern, Anna Hilsmann, Peter Eisert. 7963-7972 [doi]

AnimalFormer: Multimodal Vision Framework for Behavior-based Precision Livestock FarmingAhmed Qazi, Taha Razzaq, Asim Iqbal. 7973-7982 [doi]

IrrNet: Spatio-Temporal Segmentation guided Classification for Irrigation MappingOishee Bintey Hoque. 7983-7985 [doi]

Masked Autoencoders are Secretly Efficient LearnersZihao Wei, Chen Wei 0005, Jieru Mei, Yutong Bai, Zeyu Wang 0008, Xianhang Li, Hongru Zhu, Huiyu Wang, Alan L. Yuille, Yuyin Zhou, Cihang Xie. 7986-7995 [doi]

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual TransformersTanvir Mahmud, Shentong Mo, Yapeng Tian, Diana Marculescu. 7996-8005 [doi]

ELSA: Exploiting Layer-wise N: M Sparsity for Vision Transformer AccelerationNing-Chi Huang, Chi-Chih Chang, Wei-Cheng Lin, Endri Taka, Diana Marculescu, Kai-Chiang Wu. 8006-8015 [doi]

FlowIBR: Leveraging Pre-Training for Efficient Neural Image-Based Rendering of Dynamic ScenesMarcel Büsching, Josef Bengtson, David Nilsson, Mårten Björkman. 8016-8026 [doi]

Improving the Efficiency-Accuracy Trade-off of DETR-Style Models in PracticeYumin Suh, Dongwan Kim, Abhishek Aich, Samuel Schulter, Jong-Chyi Su, Bohyung Han, Manmohan Chandraker. 8027-8031 [doi]

Multi-Objective Hardware Aware Neural Architecture Search using Hardware Cost DiversityNilotpal Sinha, Peyman Rostami, Abd El Rahman Shabayek, Anis Kacem 0001, Djamila Aouada. 8032-8039 [doi]

Cache and Reuse: Rethinking the Efficiency of On-device Transfer LearningYuedong Yang, Hung-Yueh Chiang, Guihong Li, Diana Marculescu, Radu Marculescu. 8040-8049 [doi]

SuperLoRA: Parameter-Efficient Unified Adaptation for Large Vision ModelsXiangyu Chen, Jing Liu, Ye Wang 0001, Pu (Perry) Wang, Matthew Brand, Guanghui Wang 0001, Toshiaki Koike-Akino. 8050-8055 [doi]

Data-Efficient and Robust Task Selection for Meta-LearningDonglin Zhan, James Anderson 0001. 8056-8065 [doi]

The revenge of BiSeNet: Efficient Multi-Task Image SegmentationGabriele Rosi, Claudia Cuttano, Niccolò Cavagnero, Giuseppe Averta, Fabio Cermelli. 8066-8074 [doi]

ShiftAddAug: Augment Multiplication-Free Tiny Neural Network with Hybrid ComputationYipin Guo, Zihao Li, Yilin Lang, Qinyuan Ren. 8075-8084 [doi]

LVS: A Learned Video Storage for Fast and Efficient Video UnderstandingYunghee Lee, Jongse Park. 8085-8093 [doi]

Block Selective Reprogramming for On-device Training of Vision TransformersSreetama Sarkar, Souvik Kundu 0002, Kai Zheng, Peter A. Beerel. 8094-8103 [doi]

Selectively Dilated Convolution for Accuracy-Preserving Sparse Pillar-based Embedded 3D Object DetectionSeongmin Park, MinJae Lee, Junwon Choi, Jungwook Choi. 8104-8113 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2024 - Workshops, Seattle, WA, USA, June 17-18, 2024

Abstract

Table of Contents