IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2024, Waikoloa, HI, USA, January 3-8, 2024

researchr

You are not signed in
Sign in
Sign up

IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2024, Waikoloa, HI, USA, January 3-8, 2024. IEEE, 2024. [doi]

Conference: wacv2024

Abstract is missing.

Hybrid Sample Synthesis-based Debiasing of Classifier in Limited Data SettingPiyush Arora, Pratik Mazumder. [doi]

Estimating Fog Parameters from an Image Sequence using Non-linear OptimisationYining Ding, Andrew M. Wallace, Sen Wang 0002. [doi]

Asymmetric Image Retrieval with Cross Model Compatible EnsemblesAlon Shoshan, Ori Linial, Nadav Bhonker, Elad Hirsch, Lior Zamir, Igor Kviatkovsky, Gérard G. Medioni. 1-11 [doi]

Cross-feature Contrastive Loss for Decentralized Deep Learning on Heterogeneous DataSai Aparna Aketi, Kaushik Roy 0001. 12-21 [doi]

Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality AssessmentSuhas Srinath, Shankhanil Mitra, Shika Rao, Rajiv Soundararajan. 22-31 [doi]

Robust Feature Learning and Global Variance-Driven Classifier Alignment for Long-Tail Class Incremental LearningJayateja Kalla, Soma Biswas. 32-41 [doi]

PECoP: Parameter Efficient Continual Pretraining for Action Quality AssessmentAmirhossein Dadashzadeh, Shuchao Duan, Alan L. Whone, Majid Mirmehdi. 42-52 [doi]

Wino Vidi Vici: Conquering Numerical Instability of 8-bit Winograd Convolution for Accurate Inference Acceleration on EdgePierpaolo Morì, Lukas Frickenstein, Shambhavi Balamuthu Sampath, Moritz Thoma, Nael Fasfous, Manoj Rohit Vemparala, Alexander Frickenstein, Christian Unger, Walter Stechele, Daniel Mueller-Gritschneder, Claudio Passerone. 53-62 [doi]

Data-Centric Debugging: mitigating model failures via targeted image retrievalSahil Singla 0002, Atoosa Malemir Chegini, Mazda Moayeri, Soheil Feizi. 63-74 [doi]

Distortion-Disentangled Contrastive LearningJinfeng Wang, Sifan Song, Jionglong Su, S. Kevin Zhou. 75-85 [doi]

GTP-ViT: Efficient Vision Transformers via Graph-based Token PropagationXuwei Xu, Sen Wang, Yudong Chen, Yanping Zheng, Zhewei Wei, Jiajun Liu. 86-95 [doi]

SequenceMatch Revisiting the design of weak-strong augmentations for Semi-supervised learningKhanh-Binh Nguyen. 96-105 [doi]

Stochastic Binary Network for Universal Domain AdaptationSaurabh Kumar Jain, Sukhendu Das. 106-115 [doi]

Location-Aware Self-Supervised Transformers for Semantic SegmentationMathilde Caron, Neil Houlsby, Cordelia Schmid. 116-126 [doi]

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level LatenciesKilian Batzner, Lars Heckler, Rebecca König. 127-137 [doi]

Efficient Semantic Matching with Hypercolumn CorrelationSeungwook Kim, Juhong Min, Minsu Cho. 138-147 [doi]

Contextual Affinity Distillation for Image Anomaly DetectionJie Zhang, Masanori Suganuma, Takayuki Okatani. 148-157 [doi]

Offline-to-Online Knowledge Distillation for Video Instance SegmentationHojin Kim, Seunghun Lee, Hyeon Kang, Sunghoon Im. 158-167 [doi]

Disentangled Pre-training for Image MattingYanda Li, Zilong Huang, Gang Yu, Ling Chen, Yunchao Wei, Jianbo Jiao. 168-177 [doi]

Conditional Velocity Score Estimation for Image RestorationZiqiang Shi, Rujie Liu. 178-187 [doi]

ARNIQA: Learning Distortion Manifold for Image Quality AssessmentLorenzo Agnolucci, Leonardo Galteri, Marco Bertini 0001, Alberto Del Bimbo. 188-197 [doi]

Hard Sample-aware Consistency for Low-resolution Facial Expression RecognitionBokyeung Lee, Kyungdeuk Ko, Jonghwan Hong, Hanseok Ko. 198-207 [doi]

ArcGeo: Localizing Limited Field-of-View Images using Cross-view MatchingMaxim Shugaev, Ilya Semenov, Kyle Ashley, Michael Klaczynski, Naresh Cuntoor, Mun Wai Lee, Nathan Jacobs. 208-217 [doi]

Open-Set Object Detection By Aligning Known Class RepresentationsHiran Sarkar, Vishal M. Chudasama, Naoyuki Onoe, Pankaj Wasnik, Vineeth N. Balasubramanian. 218-227 [doi]

Video-kMaX: A Simple Unified Approach for Online and Near-Online Video Panoptic SegmentationInkyu Shin, Dahun Kim, Qihang Yu, Jun Xie, Hong-seok Kim, Bradley Green, In-So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen. 228-238 [doi]

DeVOS: Flow-Guided Deformable Transformer for Video Object SegmentationVolodymyr Fedynyak, Yaroslav Romanus, Bohdan Hlovatskyi, Bohdan Sydor, Oles Dobosevych, Igor Babin, Roman Riazantsev. 239-248 [doi]

Semi-Supervised Semantic Depth Estimation using Symbiotic Transformer and NearFarMix AugmentationMd Awsafur Rahman, Shaikh Anowarul Fattah. 249-258 [doi]

Training Ensembles with Inliers and Outliers for Semi-supervised Active LearningVladan Stojnic, Zakaria Laskar, Giorgos Tolias. 259-268 [doi]

Multi-view Classification Using Hybrid Fusion and Mutual DistillationSamuel Black, Richard Souvenir. 269-279 [doi]

Amodal Intra-class Instance Segmentation: Synthetic Datasets and BenchmarkJiayang Ao, Qiuhong Ke, Krista A. Ehinger. 280-289 [doi]

Prompting classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic SegmentationBalamurali Murugesan, Rukhshanda Hussain, Rajarshi Bhattacharya, Ismail Ben Ayed, Jose Dolz. 290-301 [doi]

RSMPNet: Relationship Guided Semantic Map PredictionJingwen Sun, Jing Wu, Ze Ji, Yu-Kun Lai. 302-311 [doi]

3SD: Self-Supervised Saliency Detection With No LabelsRajeev Yasarla, Renliang Weng, Wongun Choi, Vishal M. Patel 0001, Amir Sadeghian. 312-321 [doi]

Training-free Object Counting with PromptsZenglin Shi, Ying Sun 0001, Mengmi Zhang. 322-330 [doi]

Unsupervised and semi-supervised co-salient object detection via segmentation frequency statisticsSouradeep Chakraborty, Shujon Naha, Muhammet Bastan, Amit Kumar K. C, Dimitris Samaras. 331-341 [doi]

Glance to Count: Learning to Rank with Anchors for Weakly-supervised Crowd CountingZheng Xiong, Liangyu Chai, Wenxi Liu, Yongtuo Liu, Sucheng Ren, Shengfeng He. 342-351 [doi]

TransRadar: Adaptive-Directional Transformer for Real-Time Multi-View Radar Semantic SegmentationYahia Dalbah, Jean Lahoud, Hisham Cholakkal. 352-361 [doi]

Booster-SHOT: Boosting Stacked Homography Transformations for Multiview Pedestrian Detection with AttentionJinwoo Hwang, Philipp Benz, Pete Kim. 362-371 [doi]

360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye ViewZhifeng Teng, Jiaming Zhang, Kailun Yang 0001, Kunyu Peng, Hao Shi, Simon Reiß, Ke Cao, Rainer Stiefelhagen. 372-381 [doi]

Learning Saliency From FixationsYasser Abdelaziz Dahou Djilali, Kevin McGuinness, Noel E. O'Connor. 382-392 [doi]

Mitigate Domain Shift by Primary-Auxiliary Objectives Association for Generalizing Person ReIDQilei Li, Shaogang Gong. 393-402 [doi]

MIST: Medical Image Segmentation Transformer with Convolutional Attention Mixing (CAM) DecoderMd Motiur Rahman, Shiva Shokouhmand, Smriti Bhatt, Miad Faezipour. 403-412 [doi]

Small Objects Matters in Weakly-supervised Semantic SegmentationCheolhyun Mun, Sanghuk Lee, Youngjung Uh, Junsuk Choe, Hyeran Byun. 413-422 [doi]

Gradient-Guided Knowledge Distillation for Object DetectorsQizhen Lan, Qing Tian. 423-432 [doi]

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic SegmentationBeoungwoo Kang, Seunghun Moon, Yubin Cho, Hyunwoo Yu, Suk-Ju Kang. 433-442 [doi]

Panelformer: Sewing Pattern Reconstruction from 2D Garment ImagesCheng-Hsiu Chen, Jheng-Wei Su, Min-Chun Hu 0001, Chih-Yuan Yao, Hung-Kuo Chu. 443-452 [doi]

From Denoising Training to Test-Time Adaptation: Enhancing Domain Generalization for Medical Image SegmentationRuxue Wen, Hangjie Yuan, Dong Ni 0002, Wenbo Xiao, Yaoyao Wu. 453-463 [doi]

Guided Distillation for Semi-Supervised Instance SegmentationTariq Berrada, Camille Couprie, Karteek Alahari, Jakob Verbeek. 464-472 [doi]

Real-Time User-guided Adaptive Colorization with Vision TransformerGwanghan Lee, Saebyeol Shin, Taeyoung Na, Simon S. Woo. 473-482 [doi]

Mining and Unifying Heterogeneous Contrastive Relations for Weakly-Supervised Actor-Action SegmentationBin Duan, Hao Tang 0005, Changchang Sun, Ye Zhu, Yan Yan 0002. 483-492 [doi]

Graph Neural Networks for End-to-End Information Extraction from Handwritten DocumentsYessine Khanfir, Marwa Dhiaf, Emna Ghodhbani, Ahmed Cheikh Rouhou, Yousri Kessentini. 493-501 [doi]

CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought Language PromptingLei Li. 502-511 [doi]

Foundation Model Assisted Weakly Supervised Semantic SegmentationXiaobo Yang, Xiaojin Gong. 512-521 [doi]

On the Importance of Large Objects in CNN Based Object Detection AlgorithmsAhmed Ben Saad, Gabriele Facciolo, Axel Davy. 522-531 [doi]

Deep Metric Learning with Chance ConstraintsYeti Ziya Gürbüz, Ogul Can, A. Aydin Alatan. 532-542 [doi]

TransFed: A way to epitomize Focal Modulation using Transformer-based Federated LearningTajamul Ashraf, Fuzayil Bin Afzal Mir, Iqra Altaf Gillani. 543-552 [doi]

Learning Better Keypoints for Multi-Object 6DoF Pose EstimationYangzheng Wu, Michael A. Greenspan. 553-563 [doi]

Object Aware Contrastive Prior for Interactive Image SegmentationPraful Mathur, Shashi Kumar Parwani, Mrinmoy Sen, Roopa Sheshadri, Aman Sharma. 564-573 [doi]

Beyond Classification: Definition and Density-based Estimation of Calibration in Object DetectionTeodora Popordanoska, Aleksei Tiulpin, Matthew B. Blaschko. 574-583 [doi]

FAKD: Feature Augmented Knowledge Distillation for Semantic SegmentationJianlong Yuan, Minh-Hieu Phan, Liyang Liu, Yifan Liu. 584-594 [doi]

Efficient MAE towards Large-Scale Vision TransformersHan Qiu 0008, Gongjie Zhang, Jiaxing Huang 0001, Peng Gao, Zhang Wei, Shijian Lu. 595-604 [doi]

MS-EVS: Multispectral event-based vision for deep learning based face detectionSaad Himmi, Vincent Parret, Ajad Chhatkuli, Luc Van Gool. 605-614 [doi]

Interactive Network Perturbation between Teacher and Students for Semi-Supervised Semantic SegmentationHyuna Cho, Injun Choi, Suha Kwak, Won Hwa Kim. 615-624 [doi]

Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location ReasoningGengyuan Zhang, Yurui Zhang, Kerui Zhang, Volker Tresp. 625-634 [doi]

USDN: A Unified Sample-wise Dynamic Network with Mixed-Precision and Early-ExitJi-Ye Jeon, Xuan Truong Nguyen, Soojung Ryu, Hyuk-Jae Lee. 635-643 [doi]

Beyond Fusion: Modality Hallucination-based Multispectral Fusion for Pedestrian DetectionQian Xie, Ta Ying Cheng, Jia-Xing Zhong, Kaichen Zhou, Andrew Markham, Niki Trigoni. 644-653 [doi]

DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point PredictionFangchen Yu, Yina Xie, Lei Wu, Yafei Wen, Guozhi Wang, Shuai Ren, Xiaoxin Chen, Jianfeng Mao, Wenye Li 0001. 654-663 [doi]

Learning to Recognize Occluded and Small Objects with Partial InputsHasib Zunair, A. Ben Hamza. 664-673 [doi]

Temporally-Consistent Video Semantic Segmentation with Bidirectional Occlusion-guided Feature PropagationRazieh Kaviani Baghbaderani, Yuanxin Li, Shuangquan Wang, Hairong Qi 0001. 674-684 [doi]

Domain-Aware Knowledge Distillation for Continual Model GeneralizationNikhil Reddy, Mahsa Baktashmotlagh, Chetan Arora 0001. 685-696 [doi]

Let's Observe Them Over Time: An Improved Pedestrian Attribute Recognition ApproachKamalakar Vijay Thakare, Debi Prosad Dogra, Heeseung Choi, Haksub Kim, Ig-Jae Kim. 697-706 [doi]

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting PerformanceAlloy Das, Sanket Biswas, Ayan Banerjee 0002, Josep Lladós 0001, Umapada Pal 0001, Saumik Bhattacharya. 707-717 [doi]

Patch-based Selection and Refinement for Early Object DetectionTianyi Zhang, Kishore Kasichainula, Yaoxin Zhuo, Baoxin Li, Jae-sun Seo, Yu Cao 0001. 718-727 [doi]

Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated DepthCagri Gungor, Adriana Kovashka. 728-737 [doi]

2AIR: Consolidated Compact Aerial Image Haze RemovalAshutosh Kulkarni, Shruti S. Phutke, Santosh Kumar Vipparthi, Subrahmanyam Murala. 738-747 [doi]

Favoring One Among Equals - Not a Good Idea: Many-to-one Matching for Robust Transformer based Pedestrian DetectionK. N. Ajay Shastry, K. Ravi Sri Teja, Aditya Nigam, Chetan Arora 0001. 748-757 [doi]

Improving Vision-and-Language Reasoning via Spatial Relations ModelingCheng Yang, Rui Xu, Ye Guo, Peixiang Huang, Yiru Chen, Wenkui Ding, Zhongyuan Wang 0006, Hong Zhou. 758-767 [doi]

LP-OVOD: Open-Vocabulary Object Detection by Linear ProbingChau Pham 0002, Truong Vu, Khoi Nguyen 0001. 768-777 [doi]

Continuous Adaptation for Interactive Segmentation Using Teacher-Student ArchitectureBarsegh Atanyan, Levon Khachatryan, Shant Navasardyan, Yunchao Wei, Humphrey Shi. 778-788 [doi]

Interpretable Object Recognition by Semantic Prototype AnalysisQiyang Wan, Ruiping Wang 0001, Xilin Chen 0001. 789-798 [doi]

RecycleNet: Latent Feature Recycling Leads to Iterative Decision RefinementGregor Köhler, Tassilo Wald, Constantin Ulrich, David Zimmerer, Paul F. Jaeger, Jörg K. H. Franke, Simon Kohl, Fabian Isensee, Klaus H. Maier-Hein. 799-807 [doi]

Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic SegmentationJunehyoung Kwon, Eunju Lee, Yunsung Cho, Youngbin Kim. 808-817 [doi]

Elusive Images: Beyond Coarse Analysis for Fine-Grained RecognitionConnor Anderson 0001, Matthew Gwilliam, Evelyn Gaskin, Ryan Farrell. 818-828 [doi]

Understanding Dark Scenes by Contrasting Multi-Modal ObservationsXiaoyu Dong, Naoto Yokoya. 829-839 [doi]

MaskConver: Revisiting Pure Convolution Model for Panoptic SegmentationAbdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li. 840-850 [doi]

Masked Collaborative Contrast for Weakly Supervised Semantic SegmentationFangwen Wu, Jingxuan He, Yufei Yin, Yanbin Hao, Gang Huang, Lechao Cheng. 851-860 [doi]

Universal Semi-supervised Model Adaptation via Collaborative Consistency TrainingZizheng Yan, Yushuang Wu, Yipeng Qin, Xiaoguang Han 0001, Shuguang Cui, Guanbin Li. 861-871 [doi]

STEP - Towards Structured Scene-Text SpottingSergi Garcia-Bordils, Dimosthenis Karatzas, Marçal Rusiñol. 872-881 [doi]

Efficient Feature Distillation for Zero-shot Annotation Object DetectionZhuoming Liu, Xuefeng Hu, Ram Nevatia. 882-891 [doi]

Hierarchical Text Spotter for Joint Text Spotting and Layout AnalysisShangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco, Michalis Raptis. 892-902 [doi]

iBARLE: imBalance-Aware Room Layout EstimationTaotao Jing, Lichen Wang, Naji Khosravan, Zhiqiang Wan, Zachary Bessinger, Zhengming Ding, Sing Bing Kang. 903-913 [doi]

TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic Scene UnderstandingShuo Wang, Jing Li, Zibo Zhao, Dongze Lian, Binbin Huang, Xiaomei Wang, Zhengxin Li, Shenghua Gao. 914-923 [doi]

Implicit neural representation for change detectionPeter Naylor, Diego Di Carlo, Arianna Traviglia, Makoto Yamada, Marco Fiorucci. 924-934 [doi]

Label-Free Synthetic Pretraining of Object DetectorsHei Law, Jia Deng 0001. 935-945 [doi]

Improved Techniques for Quantizing Deep Networks with Adaptive Bit-WidthsXimeng Sun, Rameswar Panda, Chun-Fu Richard Chen, Naigang Wang, Bowen Pan, Aude Oliva, Rogério Feris, Kate Saenko. 946-956 [doi]

What's Outside the Intersection? Fine-grained Error Analysis for Semantic Segmentation Beyond IoUMaximilian Bernhard, Roberto Amoroso, Yannic Kindermann, Lorenzo Baraldi 0001, Rita Cucchiara, Volker Tresp, Matthias Schubert. 957-966 [doi]

Pixel Matching Network for Cross-Domain Few-Shot SegmentationHao Chen, Yonghan Dong, Zheming Lu, Yunlong Yu, Jungong Han. 967-976 [doi]

EResFD: Rediscovery of the Effectiveness of Standard Convolution for Lightweight Face DetectionJoonhyun Jeong, Beomyoung Kim, Joonsang Yu, Youngjoon Yoo. 977-987 [doi]

Framework-agnostic Semantically-aware Global Reasoning for SegmentationMir Rayat Imtiaz Hossain, Leonid Sigal, James J. Little. 988-998 [doi]

High-fidelity Pseudo-labels for Boosting Weakly-Supervised SegmentationArvi Jonnarth, Yushan Zhang, Michael Felsberg. 999-1008 [doi]

Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic SegmentationHarsh Maheshwari, Yen-Cheng Liu, Zsolt Kira. 1009-1019 [doi]

Unsupervised Graphic Layout Grouping with TransformersJialiang Zhu, Danqing Huang, Chunyu Wang, Mingxi Cheng, Ji Li, Han Hu 0001, Xin Geng 0001, Baining Guo. 1020-1029 [doi]

Contrastive Viewpoint-aware Shape Learning for Long-term Person Re-IdentificationVuong D. Nguyen, Khadija Khaldi, Dung Nguyen, Pranav Mantini, Shishir K. Shah. 1030-1038 [doi]

PolyMaX: General Dense Prediction with Mask TransformerXuan Yang, Liangzhe Yuan, Kimberly Wilber, Astuti Sharma, Xiuye Gu, Siyuan Qiao, Stephanie Debats, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Liang-Chieh Chen. 1039-1050 [doi]

BPKD: Boundary Privileged Knowledge Distillation For Semantic SegmentationLiyang Liu, Zihan Wang, Minh-Hieu Phan, Bowen Zhang 0009, Jinchao Ge, Yifan Liu. 1051-1061 [doi]

Label Shift Estimation for Class-Imbalance Problem: A Bayesian ApproachChangkun Ye, Russell Tsuchida, Lars Petersson, Nick Barnes. 1062-1071 [doi]

Query-guided Attention in Vision Transformers for Localizing Objects Using a Single SketchAditay Tripathi, Anand Mishra 0001, Anirban Chakraborty 0001. 1072-1081 [doi]

PromptAD: Zero-shot Anomaly Detection using Text PromptsYiting Li, Adam David Goodge, Fayao Liu, Chuan-Sheng Foo. 1082-1091 [doi]

Learning Quality Labels for Robust Image ClassificationXiaosong Wang, Ziyue Xu 0001, Dong Yang, Leo K. Tam, Holger Roth, Daguang Xu. 1092-1101 [doi]

Learning Transferable Representations for Image Anomaly Localization Using Dense PretrainingHaitian He, Sarah M. Erfani, Mingming Gong, Qiuhong Ke. 1102-1111 [doi]

SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board ComputersXiangyong Lu, Masanori Suganuma, Takayuki Okatani. 1112-1122 [doi]

High-Fidelity Zero-Shot Texture Anomaly Localization Using Feature Correspondence AnalysisAndrei-Timotei Ardelean, Tim Weyrich. 1123-1133 [doi]

Grafting Vision TransformersJongwoo Park 0003, Kumara Kahatapitiya, Donghyun Kim, Shivchander Sudalairaj, Quanfu Fan, Michael S. Ryoo. 1134-1143 [doi]

Rethinking Knowledge Distillation with Raw Features for Semantic SegmentationTao Liu, Chenshu Chen, Xi Yang, Wenming Tan. 1144-1153 [doi]

Efficient Expansion and Gradient Based Task Inference for Replay Free Incremental LearningSoumya Roy, Vinay Kumar Verma, Deepak Gupta. 1154-1164 [doi]

CLRerNet: Improving Confidence of Lane Detection with LaneIoUHiroto Honda, Yusuke Uchida. 1165-1174 [doi]

Multi-Modal Gaze Following in Conversational ScenariosYuqi Hou, Zhongqun Zhang, Nora Horanyi, JaeWon Moon, Yihua Cheng, Hyung Jin Chang. 1175-1184 [doi]

Enhancing Multi-view Pedestrian Detection Through Generalized 3D Feature PullingSithu Aung, Haesol Park, Hyungjoo Jung, Junghyun Cho. 1185-1194 [doi]

Self-Supervised Learning for Visual Relationship Detection through Masked Bounding Box ReconstructionZacharias Anastasakis, Dimitrios Mallis, Markos Diomataris, George Alexandridis, Stefanos Kollias, Vassilis Pitsikalis. 1195-1204 [doi]

The Background Also Matters: Background-Aware Motion-Guided Objects DiscoverySandra Kara, Hejer Ammar, Florian Chabot, Quoc-Cuong Pham. 1205-1214 [doi]

Semi-Supervised Scene Change Detection by Distillation from Feature-metric AlignmentSeonhoon Lee, Jong-Hwan Kim. 1215-1224 [doi]

OmniVec: Learning robust representations with cross modal sharingSiddharth Srivastava 0004, Gaurav Sharma 0004. 1225-1237 [doi]

Cross-Attention Between Satellite and Ground Views for Enhanced Fine-Grained Robot Geo-LocalizationDong Yuan, Frédéric Maire, Feras Dayoub. 1238-1245 [doi]

Data Augmentation for Object Detection via Controllable Diffusion ModelsHaoyang Fang, Boran Han, Shuai Zhang, Su Zhou, Cuixiong Hu, Wen-Ming Ye. 1246-1255 [doi]

Physical-space Multi-body Mesh Detection Achieved by Local Alignment and Global Dense LearningHaoye Dong, Tiange Xiang, Sravan Chittupalli, Jun Liu, Dong Huang. 1256-1265 [doi]

Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean TeacherAtif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger. 1266-1275 [doi]

Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image SegmentationReza Azad, Leon Niggemeier, Michael Hüttemann, Amirhossein Kazerouni, Ehsan Khodapanah Aghdam, Yury Velichko, Ulas Bagci, Dorit Merhof. 1276-1286 [doi]

INCODE: Implicit Neural Conditioning with Prior Knowledge EmbeddingsAmirhossein Kazerouni, Reza Azad, Alireza Hosseini, Dorit Merhof, Ulas Bagci. 1287-1296 [doi]

ProcSim: Proxy-based Confidence for Robust Similarity LearningOriol Barbany, Xiaofan Lin, Muhammet Bastan, Arnab Dhua. 1297-1306 [doi]

Refine and Redistribute: Multi-Domain Fusion and Dynamic Label Assignment for Unbiased Scene Graph GenerationYujie Zang, Yaochen Li, Yuan Gao, Yimou Guo, Wenneng Tang, Yanxue Li, Meklit Atlaw. 1307-1316 [doi]

Joint Depth Prediction and Semantic Segmentation with Multi-View SAMMykhailo Shvets, Dongxu Zhao 0001, Marc Niethammer, Roni Sengupta, Alexander C. Berg. 1317-1327 [doi]

Self-Supervised Relation Alignment for Scene Graph GenerationBicheng Xu, Renjie Liao, Leonid Sigal. 1328-1338 [doi]

Semantic Transfer from Head to Tail: Enlarging Tail Margin for Long-Tailed Visual RecognitionShan Zhang, Yao Ni, Jinhao Du, Yanxia Liu, Piotr Koniusz. 1339-1349 [doi]

PatchRefineNet: Improving Binary Segmentation by Incorporating Signals from Optimal Patch-wise BinarizationSavinay Nagendra, Daniel Kifer. 1350-1361 [doi]

Adaptive Deep Neural Network Inference Optimization with EENetFatih Ilhan, Ka Ho Chow, Sihao Hu, Tiansheng Huang, Selim F. Tekin, Wenqi Wei, Yanzhao Wu 0001, Myungjin Lee, Ramana Kompella, Hugo Latapie, Gaowen Liu, Ling Liu 0001. 1362-1371 [doi]

Token Fusion: Bridging the Gap between Token Pruning and Token MergingMinchul Kim, Shangqian Gao, Yen-Chang Hsu, Yilin Shen, Hongxia Jin. 1372-1381 [doi]

Pruning from Scratch via Shared Pruning Module and Nuclear norm-based RegularizationDonghyeon Lee, Eunho Lee, Youngbae Hwang. 1382-1391 [doi]

CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-FreeMonika Wysoczanska, Michaël Ramamonjisoa, Tomasz Trzcinski, Oriane Siméoni. 1392-1402 [doi]

Layer-wise Auto-Weighting for Non-Stationary Test-Time AdaptationJunyoung Park, Jin Kim, Hyeongjun Kwon, Ilhoon Yoon, Kwanghoon Sohn. 1403-1412 [doi]

Uncertainty Estimation in Instance Segmentation with Star-convex ShapesQasim M. K. Siddiqui, Sebastian Starke, Peter Steinbach. 1413-1422 [doi]

CamoFocus: Enhancing Camouflage Object Detection with Split-Feature Focal Modulation and Context RefinementAbbas Khan, Mustaqeem Khan 0001, Wail Gueaieb, Abdulmotaleb El-Saddik, Giulia De Masi, Fakhri Karray. 1423-1432 [doi]

HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged InformationHeitor Rapela Medeiros, Fidel A. Guerrero-Peña, Masih Aminbeidokhti, Thomas Dubail, Eric Granger, Marco Pedersoli. 1433-1442 [doi]

Spectroformer: Multi-Domain Query Cascaded Transformer Network For Underwater Image EnhancementMD Raqib Khan, Priyanka Mishra, Nancy Mehta, Shruti S. Phutke, Santosh Kumar Vipparthi, Sukumar Nandi, Subrahmanyam Murala. 1443-1452 [doi]

FOSSIL: Free Open-Vocabulary Semantic Segmentation through Synthetic References RetrievalLuca Barsellotti, Roberto Amoroso, Lorenzo Baraldi 0001, Rita Cucchiara. 1453-1462 [doi]

Self-Supervised Denoising Transformer with Gaussian ProcessRajeev Yasarla, Jeya Maria Jose Valanarasu, Vishwanath S, Vishal M. Patel 0001. 1463-1473 [doi]

Scene Text Image Super-resolution based on Text-conditional Diffusion ModelsChihiro Noguchi, Shun Fukuda, Masao Yamanaka. 1474-1484 [doi]

Meta-Learned Kernel For Blind Super-Resolution Kernel EstimationRoyson Lee, Rui Li 0052, Stylianos I. Venieris, Timothy M. Hospedales, Ferenc Huszár, Nicholas D. Lane. 1485-1494 [doi]

PhISH-Net: Physics Inspired System for High Resolution Underwater Image EnhancementAditya Chandrasekar, Manogna Sreenivas, Soma Biswas. 1495-1505 [doi]

Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed Video Quality EnhancementMax Ehrlich, Jon Barker, Namitha Padmanabhan, Larry Davis 0001, Andrew Tao, Bryan Catanzaro, Abhinav Shrivastava. 1506-1516 [doi]

Image Denoising and the Generative Accumulation of PhotonsAlexander Krull, Hector Basevi, Benjamin Salmon, Andre Zeug, Franziska Müller 0004, Samuel Tonks, Leela Muppala, Ales Leonardis. 1517-1526 [doi]

Deep Plug-and-play Nighttime Non-blind Deblurring with Saturated Pixel Handling SchemesHung-Yu Shu, Yi-Hsien Lin, Yi-Chang Lu. 1527-1535 [doi]

Best of Both Worlds: Learning Arbitrary-scale Blind Super-Resolution via Dual Degradation Representations and Cycle-ConsistencyShao-Yu Weng, Hsuan Yuan, Yu-Syuan Xu, Ching-Chun Huang, Wei-chen Chiu. 1536-1545 [doi]

ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised Real-world Single Image Super-ResolutionReyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son 0002, Kyoung Mu Lee. 1546-1556 [doi]

A Neural Height-Map Approach for the Binocular Photometric Stereo ProblemFotios Logothetis, Ignas Budvytis, Roberto Cipolla. 1557-1566 [doi]

4K-Resolution Photo Exposure Correction at 125 FPS with ~8K ParametersYijie Zhou, Chao Li, Jin Liang, Tianyi Xu, Xin Liu, Jun Xu. 1576-1586 [doi]

UGPNet: Universal Generative Prior for Image RestorationHwayoon Lee, Kyoungkook Kang, Hyeongmin Lee, Seung-Hwan Baek, Sunghyun Cho. 1587-1597 [doi]

Fully-Automatic Reflection Removal for 360-Degree ImagesJonghyuk Park, HyeonA Kim, Eunpil Park, Jae-Young Sim. 1598-1606 [doi]

PETIT-GAN: Physically Enhanced Thermal Image-Translating Generative Adversarial NetworkOmri Berman, Navot Oz, David Mendlovic, Nir A. Sochen, Yafit Cohen, Iftach Klapp. 1607-1616 [doi]

Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image FusionXilai Li, Xiaosong Li, Tao Ye 0002, Xiaoqi Cheng, Wuyang Liu, Haishu Tan. 1617-1626 [doi]

BoostRad: Enhancing Object Detection by Boosting Radar ReflectionsYuval Haitman, Oded Bialer. 1627-1636 [doi]

RankDVQA: Deep VQA based on Ranking-inspired Hybrid TrainingChen Feng, Duolikun Danier, Fan Zhang 0017, David R. Bull. 1637-1647 [doi]

Reference-based Restoration of Digitized Analog VideotapesLorenzo Agnolucci, Leonardo Galteri, Marco Bertini 0001, Alberto Del Bimbo. 1648-1657 [doi]

Fixed Pattern Noise Removal For Multi-View Single-Sensor Infrared CameraArnaud Barral, Pablo Arias 0001, Axel Davy. 1658-1667 [doi]

Efficient Transferability Assessment for Selection of Pre-trained DetectorsZhao Wang, Aoxue Li, Zhenguo Li, Qi Dou 0001. 1668-1678 [doi]

Plasticity-Optimized Complementary Networks for Unsupervised Continual LearningAlex Gomez-Villa, Bartlomiej Twardowski, Kai Wang 0060, Joost van de Weijer 0001. 1679-1689 [doi]

Continual Test-time Domain Adaptation via Dynamic Sample SelectionYanshuo Wang, Jie Hong, Ali Cheraghian, Shafin Rahman, David Ahmedt-Aristizabal, Lars Petersson, Mehrtash Harandi. 1690-1699 [doi]

Source-Guided Similarity Preservation for Online Person Re-IdentificationHamza Rami, Jhony H. Giraldo, Nicolas Winckler, Stéphane Lathuilière. 1700-1709 [doi]

CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot LearningZhaoheng Zheng, Haidong Zhu, Ram Nevatia. 1710-1720 [doi]

Mini but Mighty: Finetuning ViTs with Mini AdaptersImad Eddine Marouf, Enzo Tartaglione, Stéphane Lathuilière. 1721-1730 [doi]

Recognition of Unseen Bird Species by Learning from Field GuidesAndrés C. Rodríguez, Stefano D'Aronco, Rodrigo Caye Daudt, Jan D. Wegner, Konrad Schindler. 1731-1740 [doi]

Single Domain Generalization via Normalised Cross-correlation Based ConvolutionsWeiqin Chuah, Ruwan B. Tennakoon, Reza Hoseinnezhad, David Suter, Alireza Bab-Hadiashar. 1741-1750 [doi]

MoP-CLIP: A Mixture of Prompt-Tuned CLIP Models for Domain Incremental LearningJulien Nicolas, Florent Chiaroni, Imtiaz Masud Ziko, Ola Ahmad, Christian Desrosiers, Jose Dolz. 1751-1761 [doi]

Self-Supervised Representation Learning with Cross-Context Learning between Global and Hypercolumn FeaturesZheng Gao, Chen Feng, Ioannis Patras. 1762-1772 [doi]

Revisiting Pixel-Level Contrastive Pre-Training on Scene ImagesZongshang Pang, Yuta Nakashima, Mayu Otani, Hajime Nagahara. 1773-1782 [doi]

Improving Graph Networks through Selection-based ConvolutionDavid Hart, Bryan S. Morse. 1783-1793 [doi]

Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple LevelsBo Wan, Tinne Tuytelaars. 1794-1804 [doi]

Learning Class and Domain Augmentations for Single-Source Open-Domain GeneralizationPrathmesh Bele, Valay Bundele, Avigyan Bhattacharya, Ankit Jha, Gemma Roig, Biplab Banerjee. 1805-1815 [doi]

Dynamic Token-Pass Transformers for Semantic SegmentationYuang Liu, Qiang Zhou, Jing Wang, Zhibin Wang, Fan Wang, Jun Wang, Wei Zhang 0056. 1816-1825 [doi]

An Analysis of Initial Training Strategies for Exemplar-Free Class-Incremental LearningGrégoire Petit, Michaël Soumm, Eva Feillet, Adrian Popescu 0001, Bertrand Delezoide, David Picard, Céline Hudelot. 1826-1836 [doi]

Few-shot Shape Recognition by Learning Deep Shape-aware FeaturesWenlong Shi, Changsheng Lu, Ming Shao, Yinjie Zhang, Siyu Xia, Piotr Koniusz. 1837-1848 [doi]

Active Learning for Single-Stage Object Detection in UAV ImagesAsma Yamani, Albandari Alyami, Hamzah Luqman, Bernard Ghanem, Silvio Giancola. 1849-1858 [doi]

Learning Intra-class Multimodal Distributions with Orthonormal MatricesJumpei Goto, Yohei Nakata, Kiyofumi Abe, Yasunori Ishii, Takayoshi Yamashita. 1859-1868 [doi]

Active Transfer Learning for Efficient Video-Specific Human Pose EstimationHiromu Taketsugu, Norimichi Ukita. 1869-1879 [doi]

Understanding Hyperbolic Metric Learning through Hard Negative SamplingYun Yue, Fangzhou Lin, Guanyi Mou, Ziming Zhang. 1880-1892 [doi]

Aligning Non-Causal Factors for Transformer-Based Source-Free Domain AdaptationSunandini Sanyal, Ashish Ramayee Asokan, Suvaansh Bhambri, Pradyumna YM, Akshay R. Kulkarni, Jogendra Nath Kundu, R. Venkatesh Babu. 1893-1902 [doi]

Diverse Imagenet Models Transfer BetterNiv Nayman, Avram Golbert, Asaf Noy, Lihi Zelnik-Manor. 1903-1914 [doi]

Design Choices for Enhancing Noisy Student Self-TrainingAswathnarayan Radhakrishnan, Jim Davis, Zachary Rabin, Benjamin Lewis, Matthew Scherreik, Roman Ilin. 1915-1924 [doi]

Bag of Tricks for Fully Test-Time AdaptationSaypraseuth Mounsaveng, Florent Chiaroni, Malik Boudiaf, Marco Pedersoli, Ismail Ben Ayed. 1925-1934 [doi]

Gradual Source Domain Expansion for Unsupervised Domain AdaptationThomas Westfechtel, Hao-Wei Yeh, Dexuan Zhang, Tatsuya Harada. 1935-1944 [doi]

OOD Aware Supervised Contrastive LearningSoroush Seifi, Daniel Olmeda Reino, Nikolay Chumerin, Rahaf Aljundi. 1945-1955 [doi]

Expanding Hyperspherical Space for Few-Shot Class-Incremental LearningYao Deng, Xiang Xiang 0001. 1956-1965 [doi]

Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual LearningFilip Szatkowski, Mateusz Pyla, Marcin Przewiezlikowski, Sebastian Cygert, Bartlomiej Twardowski, Tomasz Trzcinski. 1966-1976 [doi]

Tunable Hybrid Proposal Networks for the Open WorldMatthew Inkawhich, Nathan Inkawhich, Hai Li, Yiran Chen 0001. 1977-1988 [doi]

Domain Generalization with Correlated Style UncertaintyZheyuan Zhang, Bin Wang, Debesh Jha, Ugur Demir, Ulas Bagci. 1989-1998 [doi]

Correlation-aware active learning for surgery video segmentationFei Wu, Pablo Márquez-Neila, Mingyi Zheng, Hedyeh Rafii-Tari, Raphael Sznitman. 1999-2009 [doi]

A Multimodal Benchmark and Improved Architecture for Zero Shot LearningKeval Doshi, Amanmeet Garg, Burak Uzkent, Xiaolong Wang, Mohamed Omar. 2010-2019 [doi]

TCP: Triplet Contrastive-relationship Preserving for Class-Incremental LearningShiyao Li, Xuefei Ning, Shanghang Zhang, Lidong Guo, Tianchen Zhao, Huazhong Yang, Yu Wang 0002. 2020-2029 [doi]

Improving Normalization with the James-Stein EstimatorSeyedalireza Khoshsirat, Chandra Kambhamettu. 2030-2040 [doi]

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly DetectionJeeho Hyun, Sangyun Kim, Giyoung Jeon, Seung Hwan Kim, Kyunghoon Bae, Byung Jun Kang. 2041-2050 [doi]

REALM: Robust Entropy Adaptive Loss Minimization for Improved Single-Sample Test-Time AdaptationSkyler Seto, Barry-John Theobald, Federico Danieli, Navdeep Jaitly, Dan Busbridge. 2051-2060 [doi]

On the Quantification of Image Reconstruction Uncertainty without Training DataJiaxin Zhang 0005, Sirui Bi, Victor Fung. 2061-2070 [doi]

Hyperbolic vs Euclidean Embeddings in Few-Shot Learning: Two Sides of the Same CoinGabriel Moreira, Manuel Marques, João Paulo Costeira, Alexander G. Hauptmann. 2071-2079 [doi]

Effective Restoration of Source Knowledge in Continual Test Time AdaptationFahim Faisal Niloy, Sk Miraj Ahmed, Dripta S. Raychaudhuri, Samet Oymak, Amit K. Roy Chowdhury. 2080-2089 [doi]

AMEND: Adaptive Margin and Expanded Neighborhood for Efficient Generalized Category DiscoveryAnwesha Banerjee, Liyana Sahir Kallooriyakath, Soma Biswas. 2090-2099 [doi]

Optical Flow Domain Adaptation via Target Style TransferJeongbeen Yoon, Sanghyun Kim, Suha Kwak, Minsu Cho. 2100-2110 [doi]

Out-of-Distribution Detection with Logical ReasoningKonstantin Kirchheim, Tim Gonschorek, Frank Ortmeier. 2111-2120 [doi]

Evidential Uncertainty Quantification: A Variance-Based PerspectiveRuxiao Duan, Brian Caffo, Harrison X. Bai, Haris I. Sair, Craig Jones. 2121-2130 [doi]

Self-supervised Learning of Semantic Correspondence Using Web VideosDonghyeon Kwon, Minsu Cho, Suha Kwak. 2131-2141 [doi]

Opinion Unaware Image Quality Assessment via Adversarial Convolutional Variational AutoencoderAnkit Shukla, Avinash Upadhyay, Swati Bhugra, Manoj Sharma. 2142-2152 [doi]

Cheating Depth: Enhancing 3D Surface Anomaly Detection via Depth SimulationVitjan Zavrtanik, Matej Kristan, Danijel Skocaj. 2153-2161 [doi]

HELA-VFA: A Hellinger Distance-Attention-based Feature Aggregation Network for Few-Shot ClassificationGao Yu Lee, Tanmoy Dam, Daniel Puiu Poenar, Vu N. Duong, Md Meftahul Ferdaus. 2162-2172 [doi]

Late to the party? On-demand unlabeled personalized federated learningOhad Amosy, Gal Eyal, Gal Chechik. 2173-2182 [doi]

GazeGNN: A Gaze-Guided Graph Neural Network for Chest X-ray ClassificationBin Wang, Hongyi Pan, Armstrong Aboah, Zheyuan Zhang, Elif Keles, Drew A. Torigian, Baris Turkbey, Elizabeth A. Krupinski, Jayaram K. Udupa, Ulas Bagci. 2183-2192 [doi]

Towards Better Structured Pruning Saliency by Reorganizing ConvolutionXinglong Sun, Humphrey Shi. 2193-2203 [doi]

Domain Generalization by Rejecting Extreme AugmentationsMasih Aminbeidokhti, Fidel A. Guerrero-Peña, Heitor Rapela Medeiros, Thomas Dubail, Eric Granger, Marco Pedersoli. 2204-2214 [doi]

Wakening Past Concepts without Past Data: Class-Incremental Learning from Online PlacebosYaoyao Liu 0001, Yingying Li, Bernt Schiele, Qianru Sun. 2215-2224 [doi]

MICS: Midpoint Interpolation to Learn Compact and Separated Representations for Few-Shot Class-Incremental LearningSolang Kim, Yuho Jeong, Joon-Sung Park, Sung Whan Yoon. 2225-2234 [doi]

Group-wise Contrastive Bottleneck for Weakly-Supervised Visual Representation LearningBoon Peng Yap, Beng-Koon Ng. 2235-2244 [doi]

Training-Based Model Refinement and Representation Disagreement for Semi-Supervised Object DetectionSeyed Mojtaba Marvasti-Zadeh, Nilanjan Ray, Nadir Erbilgin. 2245-2254 [doi]

DPPMask: Masked Image Modeling with Determinantal Point ProcessesJunde Xu, Zikai Lin, Donghao Zhou, Yaodong Yang, Xiangyun Liao, Qiong Wang, Bian Wu, Guangyong Chen, Pheng-Ann Heng. 2255-2265 [doi]

Frequency Attention for Knowledge DistillationCuong Pham 0007, Van-Anh Nguyen, Trung Le, Dinh Q. Phung, Gustavo Carneiro 0001, Thanh-Toan Do. 2266-2275 [doi]

Minimizing Layerwise Activation Norm Improves Generalization in Federated LearningM. Yashwanth, Gaurav Kumar Nayak, Harsh Rangwani, Arya Singh, R. Venkatesh Babu, Anirban Chakraborty 0001. 2276-2285 [doi]

Adaptive manifold for imbalanced transductive few-shot learningMichalis Lazarou, Yannis Avrithis, Tania Stathaki. 2286-295 [doi]

Cross-Domain Few-Shot Incremental Learning for Point-Cloud RecognitionYuwen Tan, Xiang Xiang 0001. 2296-2305 [doi]

Randomized Adversarial Style Perturbations for Domain GeneralizationTaehoon Kim, Bohyung Han. 2306-2314 [doi]

Shape-biased CNNs are Not Always Superior in Out-of-Distribution RobustnessXinkuan Qiu, Meina Kan, Yongbin Zhou, Yanchao Bi, Shiguang Shan. 2315-2324 [doi]

Partial Binarization of Neural Networks for Budget-Aware Efficient LearningUdbhav Bamba, Neeraj Anand, Saksham Aggarwal, Dilip K. Prasad, Deepak K. Gupta. 2325-2334 [doi]

Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active LearningAral Hekimoglu, Michael Schmidt 0015, Alvaro Marcos-Ramiro. 2335-2344 [doi]

Improving Open-Set Semi-Supervised Learning with Self-SupervisionErik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand. 2345-2354 [doi]

Evolve: Enhancing Unsupervised Continual Learning with Multiple ExpertsXiaofan Yu, Tajana Rosing, Yunhui Guo. 2355-2366 [doi]

Masked Event Modeling: Self-Supervised Pretraining for Event CamerasSimon Klenk, David Bonello, Lukas Koestler, Nikita Araslanov, Daniel Cremers. 2367-2377 [doi]

Overcoming Catastrophic Forgetting for Multi-Label Class-Incremental LearningXiang Song 0005, Kuang Shu, Songlin Dong, Jie Cheng, Xing Wei, Yihong Gong. 2378-2387 [doi]

Unsupervised Domain Adaptation for Semantic Segmentation with Pseudo Label Self-RefinementXingchen Zhao, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han-Pang Chiu, Supun Samarasekera. 2388-2398 [doi]

HyperMix: Out-of-Distribution Detection and Classification in Few-Shot SettingsNikhil Mehta, Kevin J. Liang, Jing Huang 0020, Fu-Jen Chu, Li Yin, Tal Hassner. 2399-2409 [doi]

PrivObfNet: A Weakly Supervised Semantic Segmentation Model for Data ProtectionChiatPin Tay, Vigneshwaran Subbaraju, Thivya Kandappu. 2410-2420 [doi]

DISCO: Distributed Inference with Sparse CommunicationsMinghai Qin, Chao Sun, Jaco Hofmann, Dejan Vucinic. 2421-2429 [doi]

Debiasing, calibrating, and improving Semi-supervised Learning performance via simple Ensemble ProjectorKhanh-Binh Nguyen. 2430-2439 [doi]

Reducing the Side-Effects of Oscillations in Training of Quantized YOLO NetworksKartik Gupta, Akshay Asthana. 2440-2449 [doi]

Robust Unsupervised Domain Adaptation through Negative-View RegularizationJoonhyeok Jang, Sunhyeok Lee, Seonghak Kim, Jung-Un Kim, Seonghyun Kim, Daeshik Kim. 2450-2459 [doi]

Link Prediction for Flow-Driven Spatial NetworksBastian Wittmann, Johannes C. Paetzold, Chinmay Prabhakar, Daniel Rueckert, Bjoern H. Menze. 2460-2469 [doi]

FLORA: Fine-grained Low-Rank Architecture Search for Vision TransformerChi-Chih Chang, Yuan-Yao Sung, Shixing Yu, Ning-Chi Huang, Diana Marculescu, Kai-Chiang Wu. 2470-2479 [doi]

CL-MAE: Curriculum-Learned Masked AutoencodersNeelu Madan, Nicolae-Catalin Ristea, Kamal Nasrollahi, Thomas B. Moeslund, Radu-Tudor Ionescu. 2480-2490 [doi]

Active Learning with Task Consistency and Diversity in Multi-Task NetworksAral Hekimoglu, Michael Schmidt 0015, Alvaro Marcos-Ramiro. 2491-2500 [doi]

Enhancing Diverse Intra-identity Representation for Visible-Infrared Person Re-IdentificationSejun Kim, Soonyong Gwon, Kisung Seo. 2501-2510 [doi]

Steering Prototypes with Prompt-tuning for Rehearsal-free Continual LearningZhuowei Li 0002, Long Zhao 0003, Zizhao Zhang, Han Zhang 0010, Di Liu, Ting Liu, Dimitris N. Metaxas. 2511-2521 [doi]

Active Batch Sampling for Multi-label Classification with Binary User FeedbackDebanjan Goswami, Shayok Chakraborty. 2522-2531 [doi]

33D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understandingMuhammad Abdullah Jamal, Omid Mohareri. 2532-2542 [doi]

Universal Test-time Adaptation through Weight Ensembling, Diversity Weighting, and Prior CorrectionRobert A. Marsden, Mario Döbler, Bin Yang 0009. 2543-2553 [doi]

SLoSH: Set Locality Sensitive Hashing via Sliced-Wasserstein EmbeddingsYuzhe Lu, Xinran Liu, Andrea Soltoggio, Soheil Kolouri. 2554-2564 [doi]

3GU: Multi-target Active Domain Adaptation via Enhancing Domain AlignmentLin Zhang, Linghan Xu, Saman Motamed, Shayok Chakraborty, Fernando De la Torre. 2565-2574 [doi]

MetaVers: Meta-Learned Versatile Representations for Personalized Federated LearningJin Hyuk Lim, SeungBum Ha, Sung Whan Yoon. 2575-2584 [doi]

Instruct Me More! Random Prompting for Visual In-Context LearningJiahao Zhang, Bowen Wang, Liangzhi Li 0001, Yuta Nakashima, Hajime Nagahara. 2585-2594 [doi]

SimA: Simple Softmax-free Attention for Vision TransformersSoroush Abbasi Koohpayegani, Hamed Pirsiavash. 2595-2605 [doi]

Guided Cluster Aggregation: A Hierarchical Approach to Generalized Category DiscoveryJona Otholt, Christoph Meinel, Haojin Yang. 2606-2615 [doi]

Hardware Aware Evolutionary Neural Architecture Search using Representation Similarity MetricNilotpal Sinha, Abd El Rahman Shabayek, Anis Kacem 0001, Peyman Rostami, Carl Shneider, Djamila Aouada. 2616-2625 [doi]

Using Early Readouts to Mediate Featural Bias in DistillationRishabh Tiwari, Durga Sivasubramanian, Anmol Reddy Mekala, Ganesh Ramakrishnan, Pradeep Shenoy. 2626-2635 [doi]

Gradient Coreset for Federated LearningDurga Sivasubramanian, Lokesh Nagalapatti, Rishabh K. Iyer, Ganesh Ramakrishnan. 2636-2645 [doi]

Revisiting Token Pruning for Object Detection and Instance SegmentationYiFei Liu, Mathias Gehrig, Nico Messikommer, Marco Cannici, Davide Scaramuzza 0001. 2646-2656 [doi]

LatentDR: Improving Model Generalization Through Sample-Aware Latent Degradation and RestorationRan Liu, Sahil Khose, Jingyun Xiao, Lakshmi Sathidevi, Keerthan Ramnath, Zsolt Kira, Eva L. Dyer. 2657-2667 [doi]

Fixing Overconfidence in Dynamic Neural NetworksLassi Meronen, Martin Trapp 0001, Andrea Pilzer, Le Yang, Arno Solin. 2668-2678 [doi]

Empowering Unsupervised Domain Adaptation with Large-scale Pre-trained Vision-Language ModelsZhengfeng Lai, Haoping Bai, Haotian Zhang, Xianzhi Du, Jiulong Shan, Yinfei Yang, Chen-Nee Chuah, Meng Cao. 2679-2689 [doi]

pSTarC: Pseudo Source Guided Target Clustering for Fully Test-Time AdaptationManogna Sreenivas, Goirik Chakrabarty, Soma Biswas. 2690-2698 [doi]

Torque based Structured Pruning for Deep Neural NetworkArshita Gupta, Tien Bau, Joonsoo Kim, Zhe Zhu, Sumit Jha, Hrishikesh Garud. 2699-2708 [doi]

Meta-Learned Attribute Self-Interaction Network for Continual and Generalized Zero-Shot LearningVinay Verma, Nikhil Mehta, Kevin J. Liang, Aakansha Mishra, Lawrence Carin. 2709-2719 [doi]

Letting 3D Guide the Way: 3D Guided 2D Few-Shot Image ClassificationJiajing Chen, Minmin Yang, Senem Velipasalar. 2720-2728 [doi]

Robust Learning via Conditional Prevalence AdjustmentMinh Nguyen 0002, Alan Q. Wang, Heejong Kim, Mert R. Sabuncu. 2729-2738 [doi]

Learning to Compose SuperWeights for Neural Parameter Allocation SearchPiotr Teterwak, Soren Nelson, Nikoli Dryden, Dina Bashkirova, Kate Saenko, Bryan A. Plummer. 2739-2748 [doi]

Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You WhereZhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-chen Chiu. 2749-2758 [doi]

Critical Gap Between Generalization Error and Empirical Error in Active LearningYusuke Kanebako. 2759-2767 [doi]

Appearance-Based Curriculum for Semi-Supervised Learning with Multi-Angle Unlabeled DataYuki Tanaka, Shuhei M. Yoshida, Takashi Shibata 0001, Makoto Terao, Takayuki Okatani, Masashi Sugiyama. 2768-2777 [doi]

Domain Generalisation via Risk Distribution MatchingToan Nguyen, Kien Do, Bao Duong, Thin Nguyen. 2778-2787 [doi]

MixtureGrowth: Growing Neural Networks by Recombining Learned ParametersChau Pham 0001, Piotr Teterwak, Soren Nelson, Bryan A. Plummer. 2788-2797 [doi]

Increasing biases can be more efficient than increasing weightsCarlo Metta, Marco Fantozzi, Andrea Papini, Gianluca Amato, Matteo Bergamaschi, Silvia Giulia Galfrè, Alessandro Marchetti, Michelangelo Vegliò, Maurizio Parton, Francesco Morandin. 2798-2807 [doi]

Deep Subdomain Alignment for Cross-domain Image ClassificationYewei Zhao, Hu Han 0001, Shiguang Shan, Xilin Chen 0001. 2808-2817 [doi]

Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic SegmentationJoshua Niemeijer, Manuel Schwonberg, Jan-Aike Termöhlen, Nico M. Schmidt, Tim Fingscheidt. 2818-2828 [doi]

Kaizen: Practical self-supervised continual learning with continual fine-tuningChi Ian Tang, Lorena Qendro, Dimitris Spathis, Fahim Kawsar, Cecilia Mascolo, Akhil Mathur. 2829-2838 [doi]

Learning Low-Rank Latent Spaces with Simple Deterministic Autoencoder: Theoretical and Empirical InsightsAlokendu Mazumder, Tirthajit Baruah, Bhartendu Kumar, Rishab Sharma, Vishwajeet Pattanaik, Punit Rathore. 2839-2848 [doi]

CycleCL: Self-supervised Learning for Periodic VideosMatteo Destro, Michael Gygli. 2849-2858 [doi]

Textron: Weakly Supervised Multilingual Text Detection through Data ProgrammingDhruv Kudale, Badri Vishal Kasuba, Venkatapathy Subramanian, Parag Chaudhuri, Ganesh Ramakrishnan. 2859-2868 [doi]

Beyond Active Learning: Leveraging the Full Potential of Human Interaction via Auto-Labeling, Human Correction, and Human VerificationNathan Beck, KrishnaTeja Killamsetty, Suraj Kothawade, Rishabh K. Iyer. 2869-2877 [doi]

TIAM - A Metric for Evaluating Alignment in Text-to-Image GenerationPaul Grimal, Hervé Le Borgne, Olivier Ferret, Julien Tourille. 2878-2887 [doi]

Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression ModelShoma Iwai, Tomo Miyazaki, Shinichiro Omachi. 2888-2897 [doi]

Improving the Fairness of the Min-Max Game in GANs TrainingZhaoyu Zhang, Yang Hua, Hui Wang, Seán McLoone. 2898-2907 [doi]

Synthesizing Coherent Story with Auto-Regressive Latent Diffusion ModelsXichen Pan, Pengda Qin, Yuhong Li, Hui Xue 0001, Wenhu Chen. 2908-2918 [doi]

Textual Alchemy: CoFormer for Scene Text UnderstandingGayatri Deshmukh, Onkar Susladkar, Dhruv Makwana, Sparsh Mittal, R. Sai Chandra Teja. 2919-2929 [doi]

Synergizing Contrastive Learning and Optimal Transport for 3D Point Cloud Domain AdaptationSiddharth Katageri, Arkadipta De, Chaitanya Devaguptapu, V. S. S. V. Prasad, Charu Sharma, Manohar Kaul. 2930-2939 [doi]

Assessing Neural Network Robustness via Adversarial Pivotal TuningPeter Ebert Christensen, Vésteinn Snæbjarnarson, Andrea Dittadi, Serge J. Belongie, Sagie Benaim. 2940-2949 [doi]

Beyond Document Page Classification: Design, Datasets, and ChallengesJordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko, Marie-Francine Moens. 2950-2960 [doi]

InfraParis: A multi-modal and multi-task autonomous driving datasetGianni Franchi, Marwane Hariat, Xuanlong Yu, Nacim Belkhir, Antoine Manzanera, David Filliat. 2961-2971 [doi]

Discovering and Mitigating Biases in CLIP-based Image EditingMd. Mehrab Tanjim, Krishna Kumar Singh, Kushal Kafle, Ritwik Sinha, Garrison W. Cottrell. 2972-2981 [doi]

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain AdaptationXuefeng Hu, Ke Zhang, Lu Xia, Albert Chen, Jiajia Luo, Yuyin Sun, Ken Wang, Nan Qiao 0009, Xiao Zeng, Min Sun, Cheng-Hao Kuo, Ram Nevatia. 2982-2991 [doi]

UNSPAT: Uncertainty-Guided SpatioTemporal Transformer for 3D Human Pose and Shape Estimation on VideosMinsoo Lee, Hyunmin Lee, Bumsoo Kim, Seunghwan Kim. 2992-3001 [doi]

Visually Guided Audio Source Separation with Meta Consistency LearningMd. Amirul Islam, Seyed shahabeddin Nabavi, Irina Kezele, Yang Wang, Yuanhao Yu, Jin Tang. 3002-3011 [doi]

Sign Language Production with Latent Motion TransformerPan Xie, Taiying Peng, Yao Du, Qipeng Zhang. 3012-3022 [doi]

Task-Oriented Human-Object Interactions Generation with Implicit Neural RepresentationsQuanzhou Li, Jingbo Wang 0003, Chen Change Loy, Bo Dai 0002. 3023-3032 [doi]

Depth from Asymmetric Frame-Event Stereo: A Divide-and-Conquer ApproachXihao Chen, Wenming Weng, Yueyi Zhang, Zhiwei Xiong. 3033-3042 [doi]

TriPlaneNet: An Encoder for EG3D InversionAnanta R. Bhattarai, Matthias Nießner, Artem Sevastopolsky. 3043-3053 [doi]

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object DetectionDeepti Hegde, Vishal M. Patel 0001. 3054-3064 [doi]

FIRe: Fast Inverse Rendering using Directional and Signed Distance FunctionsTarun Yenamandra, Ayush Tewari, Nan Yang 0007, Florian Bernard, Christian Theobalt, Daniel Cremers. 3065-3075 [doi]

A generic and flexible regularization framework for NeRFsThibaud Ehret, Roger Marí, Gabriele Facciolo. 3076-3085 [doi]

Multi-view 3D Object Reconstruction and Uncertainty Modelling with Neural Shape PriorZiwei Liao, Steven L. Waslander. 3086-3095 [doi]

Neural Textured Deformable Meshes for Robust Analysis-by-SynthesisAngtian Wang, Wufei Ma, Alan L. Yuille, Adam Kortylewski. 3096-3105 [doi]

Ray Deformation Networks for Novel View Synthesis of Refractive ObjectsWeijian Deng, Dylan Campbell, Chunyi Sun, Shubham Kanitkar, Matthew Shaffer, Stephen Gould. 3106-3116 [doi]

Registered and Segmented Deformable Object Reconstruction from a Single View Point CloudPit Henrich, Balázs Gyenes, Paul Maria Scheikl, Gerhard Neumann, Franziska Mathis-Ullrich. 3117-3126 [doi]

SupeRVol: Super-Resolution Shape and Reflectance Estimation in Inverse Volume RenderingMohammed Brahimi 0002, Bjoern Haefner, Tarun Yenamandra, Bastian Goldluecke, Daniel Cremers. 3127-3137 [doi]

RIMeshGNN: A Rotation-Invariant Graph Neural Network for Mesh ClassificationBahareh Shakibajahromi, Edward Kim, David E. Breen. 3138-3148 [doi]

OptFlow: Fast Optimization-based Scene Flow Estimation without SupervisionRahul Ahuja, Chris Baker, Wilko Schwarting. 3149-3158 [doi]

Point-DynRF: Point-based Dynamic Radiance Fields from a Monocular VideoByeongjun Park, Changick Kim. 3159-3169 [doi]

LensNeRF: Rethinking Volume Rendering based on Thin-Lens Camera ModelMin-Jung Kim 0001, Gyojung Gu, Jaegul Choo. 3170-3179 [doi]

Domain Adaptive 3D Shape Retrieval from Monocular ImagesHarsh Pal, Ritwik Khandelwal, Shivam Pande, Biplab Banerjee, Srikrishna Karanam. 3180-3189 [doi]

HD-Fusion: Detailed Text-to-3D Generation Leveraging Multiple Noise EstimationJinbo Wu, Xiaobo Gao, Xing Liu, Zhengyang Shen, Chen Zhao, Haocheng Feng, Jingtuo Liu, Errui Ding. 3190-3199 [doi]

Sparse Convolutional Networks for Surface Reconstruction from Noisy Point CloudsTao Wang, Jing Wu, Ze Ji, Yu-Kun Lai. 3200-3209 [doi]

Single Frame Semantic Segmentation Using Multi-Modal Spherical ImagesSuresh Guttikonda, Jason R. Rambach. 3210-3219 [doi]

Context-based Interpretable Spatio-Temporal Graph Convolutional Network for Human Motion ForecastingEdgar Medina, Leyong Loh, Namrata Gurung, Kyung Hun Oh, Niels Heller. 3220-3229 [doi]

GC-MVSNet: Multi-View, Multi-Scale, Geometrically-Consistent Multi-View StereoVibhas K. Vats, Sripad Joshi, David J. Crandall, Md. Alimoor Reza, Soon-heung Jung. 3230-3240 [doi]

SAM Fewshot Finetuning for Anatomical Segmentation in Medical ImagesWeiyi Xie, Nathalie Willems, Shubham Patil, Yang Li, Mayank Kumar. 3241-3249 [doi]

MSCC: Multi-Scale Transformers for Camera CalibrationXu Song, Hao Kang, Atsunori Moteki, Genta Suzuki, Yoshie Kobayashi, Zhiming Tan. 3250-3259 [doi]

A Geometry Loss Combination for 3D Human Pose EstimationAi Matsune, Shichen Hu, Guangquan Li, Sihan Wen, Xiantan Zhu, Zhiming Tan. 3260-3269 [doi]

A Robust Diffusion Modeling Framework for Radar Camera 3D Object DetectionZizhang Wu, Yunzhe Wu, Xiaoquan Wang, Yuanzhu Gan, Jian Pu. 3270-3280 [doi]

WalkFormer: Point Cloud Completion via Guided WalksMohang Zhang, Yushi Li, Rong Chen, Yushan Pan, Jia Wang, Yunzhe Wang, Rong Xiang. 3281-3290 [doi]

MGM-AE: Self-Supervised Learning on 3D Shape Using Mesh Graph Masked AutoencodersZhangsihao Yang, Kaize Ding, Huan Liu, Yalin Wang 0001. 3291-3301 [doi]

Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion ModelingHaorui Ji, Hui Deng, Yuchao Dai, Hongdong Li. 3302-3311 [doi]

Residual Graph Convolutional Network for Bird's-Eye-View Semantic SegmentationQiuxiao Chen, Xiaojun Qi. 3312-3319 [doi]

3D Human Pose Estimation with Two-step Mixed-Training StrategyYingfeng Wang, Zhengwei Wang, Muyu Li, Hong Yan. 3320-3329 [doi]

RGB-D Mapping and Tracking in a Plenoxel Radiance FieldAndreas Langeland Teigen, Yeonsoo Park, Annette Stahl, Rudolf Mester. 3330-3339 [doi]

SOAP: Cross-sensor Domain Adaptation for 3D Object Detection Using Stationary Object Aggregation Pseudo-labellingChengjie Huang, Vahdat Abdelzad, Sean Sedwards, Krzysztof Czarnecki 0001. 3340-3349 [doi]

BALF: Simple and Efficient Blur Aware Local Feature DetectorZhenjun Zhao. 3350-3360 [doi]

MACP: Efficient Model Adaptation for Cooperative PerceptionYunsheng Ma, Juanwu Lu, Can Cui, Sicheng Zhao, Xu Cao, Wenqian Ye, Ziran Wang. 3361-3370 [doi]

MAELi: Masked Autoencoder for Large-Scale LiDAR Point CloudsGeorg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof. 3371-3380 [doi]

HDMNet: A Hierarchical Matching Network with Double Attention for Large-scale Outdoor LiDAR Point Cloud RegistrationWeiyi Xue, Fan Lu 0001, Guang Chen. 3381-3391 [doi]

SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene ReconstructionSebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski. 3392-3402 [doi]

MPT: Mesh Pre-Training with Transformers for Human Pose and Mesh ReconstructionKevin Lin, Chung-Ching Lin, Lin Liang, Zicheng Liu 0001, Lijuan Wang. 3403-3413 [doi]

LInKs "Lifting Independent Keypoints" - Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose EstimationPeter Hardy, Hansung Kim. 3414-3423 [doi]

ECSIC: Epipolar Cross Attention for Stereo Image CompressionMatthias Wödlinger, Jan Kotera, Manuel Keglevic, Jan Xu, Robert Sablatnig. 3424-3433 [doi]

Robust Category-Level 3D Pose Estimation from Diffusion-Enhanced Synthetic DataJiahao Yang, Wufei Ma, Angtian Wang, Xiaoding Yuan, Alan L. Yuille, Adam Kortylewski. 3434-3443 [doi]

Open-NeRF: Towards Open Vocabulary NeRF DecompositionHao Zhang, Fang Li, Narendra Ahuja. 3444-3453 [doi]

HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View StereoRafael Weilharter, Friedrich Fraundorfer. 3454-3463 [doi]

Polarimetric PatchMatch Multi-View StereoJinyu Zhao, Jumpei Oishi, Yusuke Monno, Masatoshi Okutomi. 3464-3472 [doi]

Solving the Plane-Sphere Ambiguity in Top-Down Structure-from-MotionLars Haalck, Benjamin Risse. 3473-3481 [doi]

Self-Annotated 3D Geometric Learning for Smeared Points RemovalMiaowei Wang, Daniel D. Morris. 3482-3491 [doi]

3D Face Style Transfer with a Hybrid Solution of NeRF and Mesh RasterizationJianwei Feng, Prateek Singhal. 3492-3501 [doi]

A Sequential Learning-based Approach for Monocular Human Performance CaptureJianchun Chen, Jayakorn Vongkulbhisal, Fernando De la Torre Frade. 3502-3511 [doi]

ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D ScenesAhmed Abdelreheem 0002, Kyle Olszewski, Hsin-Ying Lee 0001, Peter Wonka, Panos Achlioptas. 3512-3522 [doi]

Global Occlusion-Aware Transformer for Robust Stereo MatchingZihua Liu, Yizhou Li, Masatoshi Okutomi. 3523-3532 [doi]

MoRF: Mobile Realistic Fullbody Avatars from a Monocular VideoRenat Bashirov, Alexey Larionov, Evgeniya Ustinova, Mikhail Sidorenko, David Svitov, Ilya Zakharkin, Victor Lempitsky. 3533-3543 [doi]

PointCT: Point Central Transformer Network for Weakly-supervised Point Cloud Semantic SegmentationAnh-Thuan Tran, Hoanh Su Le, Suk Hwan Lee, Ki-Ryong Kwon. 3544-3553 [doi]

Top-Down Beats Bottom-Up in 3D Instance SegmentationMaksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin 0001, Danila Rukhovich. 3554-3562 [doi]

LongFormer: Longitudinal Transformer for Alzheimer's Disease Classification with Structural MRIsQiuhui Chen, Qiang Fu, Hao Bai, Yi Hong. 3563-3572 [doi]

TEGLO: High Fidelity Canonical Texture Mapping from Single-View ImagesVishal Vinod, Tanmay Shah, Dmitry Lagun. 3573-3583 [doi]

DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D ClassificationSitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu. 3584-3593 [doi]

FocusTune: Tuning Visual Localization through Focus-Guided SamplingSon Tung Nguyen, Alejandro Fontán, Michael Milford, Tobias Fischer 0001. 3594-3603 [doi]

Indoor Visual Localization using Point and Line Correspondences in dense colored point cloudYuya Matsumoto, Gaku Nakano, Kazumine Ogura. 3604-3613 [doi]

Fast Sun-aligned Outdoor Scene Relighting based on TensoRFYeonjin Chang, Yearim Kim, Seunghyeon Seo, Jung Yi, Nojun Kwak. 3614-3624 [doi]

MonoProb: Self-Supervised Monocular Depth Estimation with Interpretable UncertaintyRémi Marsal, Florian Chabot, Angelique Loesch, William Grolleau, Hichem Sahbi. 3625-3634 [doi]

AvatarOne: Monocular 3D Human AnimationAkash Karthikeyan, Robert Ren, Yash Kant, Igor Gilitschenski. 3635-3645 [doi]

Deblur-NSFF: Neural Scene Flow Fields for Blurry Dynamic ScenesAchleshwar Luthra, Shiva Souhith Gantha, Xiyun Song, Heather Yu, Zongfang Lin, Liang Peng. 3646-3655 [doi]

SimpliMix: A Simplified Manifold Mixup for Few-shot Point Cloud ClassificationMinmin Yang, Weiheng Chai, Jiyang Wang, Senem Velipasalar. 3656-3665 [doi]

PMVC: Promoting Multi-View Consistency for 3D Scene ReconstructionChushan Zhang, Jinguang Tong, Tao Jun Lin, Chuong Nguyen, Hongdong Li. 3666-3676 [doi]

Hyb-NeRF: A Multiresolution Hybrid Encoding for Neural Radiance FieldsYifan Wang, Yi Gong 0001, Yuan Zeng. 3677-3686 [doi]

Joint 3D Shape and Motion Estimation from Rolling Shutter Light-Field ImagesHermes McGriff, Renato Martins, Nicolas Andreff, Cédric Demonceaux. 3687-3696 [doi]

Sharp-NeRF: Grid-based Fast Deblurring Neural Radiance Fields using Sharpness PriorByeonghyeon Lee, Howoong Lee, Usman Ali, Eunbyung Park. 3697-3706 [doi]

When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy SupervisionQingtao Yu, Heming Du, Chen Liu, Xin Yu 0002. 3707-3716 [doi]

Auto-BPA: An Enhanced Ball-Pivoting Algorithm with Adaptive Radius using Contextual BanditsHouda Saffi, Naima Otberdout, Youssef Hmamouche, Amal El Fallah-Seghrouchni. 3717-3725 [doi]

Towards Realistic Generative 3D Face ModelsAashish Rai, Hiresh Gupta, Ayush Pandey, Francisco Vicente-Carrasco, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Aayush Prakash, Fernando De la Torre. 3726-3736 [doi]

Camera-Independent Single Image Depth Estimation from Defocus BlurLahiru N. S. Wijayasingha, Homa Alemzadeh, John A. Stankovic. 3737-3746 [doi]

3: Unsupervised 3D Semantic Scene SegmentationJiaxu Liu, Zhengdi Yu, Toby P. Breckon, Hubert P. H. Shum. 3747-3756 [doi]

SSP: Semi-signed prioritized neural fitting for surface reconstruction from unoriented point cloudsRunsong Zhu, Di Kang, Ka-Hei Hui, Yue Qian, Shi Qiu, Zhen Dong, Linchao Bao, Pheng-Ann Heng, Chi-Wing Fu. 3757-3766 [doi]

Adversarial Likelihood Estimation With One-Way FlowsOmri Ben-Dov, Pravir Singh Gupta, Victoria Fernández Abrevaya, Michael J. Black, Partha Ghosh. 3767-3776 [doi]

NCIS: Neural Contextual Iterative Smoothing for Purifying Adversarial PerturbationsSungmin Cha, Naeun Ko, Heewoong Choi, Youngjoon Yoo, Taesup Moon. 3777-3787 [doi]

On the Fly Neural Style Smoothing for Risk-Averse Domain GeneralizationAkshay Mehra, Yunbei Zhang, Bhavya Kailkhura, Jihun Hamm. 3788-3799 [doi]

D4: Detection of Adversarial Diffusion Deepfakes Using Disjoint EnsemblesAshish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash 0001. 3800-3810 [doi]

Army of Thieves: Enhancing Black-Box Model Extraction via Ensemble based sample selectionAkshit Jindal, Vikram Goyal, Saket Anand, Chetan Arora 0001. 3811-3820 [doi]

Assist Is Just as Important as the Goal: Image Resurfacing to Aid Model's Robust PredictionAbhijith Sharma, Phil Munz, Apurva Narayan. 3821-3830 [doi]

CLIPAG: Towards Generator-Free Text-to-Image GenerationRoy Ganz, Michael Elad. 3831-3841 [doi]

Defending Object Detection Models against Image DistortionsMark Ofori-Oduro, Maria A. Amer. 3842-3851 [doi]

ATS: Adaptive Temperature Scaling for Enhancing Out-of-Distribution Detection MethodsGerhard Krumpl, Henning Avenhaus, Horst Possegger, Horst Bischof. 3852-3861 [doi]

A Closer Look at Robustness of Vision Transformers to Backdoor AttacksAkshayvarun Subramanya, Soroush Abbasi Koohpayegani, Aniruddha Saha, Ajinkya Tejankar, Hamed Pirsiavash. 3862-3871 [doi]

Maximum Knowledge Orthogonality Reconstruction with Gradients in Federated LearningFeng Wang, Senem Velipasalar, Mustafa Cenk Gursoy. 3872-3881 [doi]

Learning to generate training datasets for robust semantic segmentationMarwane Hariat, Olivier Laurent 0002, Rémi Kazmierczak, Shihao Zhang, Andrei Bursuc, Angela Yao, Gianni Franchi. 3882-3893 [doi]

Uncertainty-weighted Loss Functions for Improved Adversarial Attacks on Semantic SegmentationKira Maag, Asja Fischer. 3894-3902 [doi]

Natural Light Can Also be Dangerous: Traffic Sign Misinterpretation Under Adversarial Natural Light AttacksTeng-Fang Hsiao, Bo-Lun Huang, Zi-Xiang Ni, Yan-Ting Lin, Hong-Han Shuai, Yung-hui Li, Wen-Huang Cheng. 3903-3912 [doi]

Diffusion models meet image counter-forensicsMatías Tailanián, Marina Gardella, Álvaro Pardo, Pablo Musé. 3913-3923 [doi]

Discriminator-free Unsupervised Domain Adaptation for Multi-label Image ClassificationInder Pal Singh, Enjie Ghorbel, Anis Kacem 0001, Arunkumar Rathinam, Djamila Aouada. 3924-3933 [doi]

Few-shot generative model for skeleton-based human action synthesis using cross-domain adversarial learningKenichiro Fukushi, Yoshitaka Nozaki, Kosuke Nishihara, Kentaro Nakahara. 3934-3943 [doi]

Mixing Gradients in Neural Networks as a Strategy to Enhance Privacy in Federated LearningShaltiel Eloul, Fran Silavong, Sanket Kamthe, Antonios Georgiadis, Sean J. Moran. 3944-3953 [doi]

Neural Style Protection: Counteracting Unauthorized Neural Style TransferYaxin Li, Jie Ren, Han Xu, Hui Liu. 3954-3963 [doi]

Exploring Adversarial Robustness of Vision Transformers in the Spectral PerspectiveGihyun Kim, Juyeop Kim, Jong-Seok Lee. 3964-3973 [doi]

Hard-label based Small Query Black-box Adversarial AttackJeonghwan Park, Paul Miller 0003, Niall McLaughlin. 3974-3983 [doi]

Simple Post-Training Robustness using Test Time Augmentations and Random ForestGilad Cohen, Raja Giryes. 3984-3994 [doi]

Co-Speech Gesture Detection through Multi-Phase Sequence LabelingEsam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim T. J. L. Pouw, Peter Uhrig, Judith Holler, Ivan Toni, Asli Özyürek, Raquel Fernández. 3995-4003 [doi]

Learning Residual Elastic Warps for Image Stitching under Dirichlet Boundary ConditionMinsu Kim, Yongjun Lee, Woo Kyoung Han, Kyong Hwan Jin. 4004-4012 [doi]

Exploiting the Signal-Leak Bias in Diffusion ModelsMartin Nicolas Everaert, Athanasios Fitsios, Marco Bocchio, Sami Arpa, Sabine Süsstrunk, Radhakrishna Achanta. 4013-4022 [doi]

Synthesizing Anyone, Anywhere, in Any PoseHåkon Hukkelås, Frank Lindseth. 4023-4034 [doi]

Specular Object Reconstruction Behind Frosted Glass by Differentiable RenderingTakafumi Iwaguchi, Hiroyuki Kubo, Hiroshi Kawasaki. 4035-4044 [doi]

Multi-level Attention Aggregation for Aesthetic Face RelightingHemanth Pidaparthy, Abhay Chauhan, Pavan Sudheendra. 4045-4054 [doi]

Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage AnalysisSergey Sinitsa, Ohad Fried. 4055-4064 [doi]

StyleGenes: Discrete and Efficient Latent Distributions for GANsEvangelos Ntavelis, Mohamad Shahbazi, Iason Kastanis, Martin Danelljan, Luc Van Gool. 4065-4074 [doi]

Implicit Neural Image Stitching With Enhanced and Blended Feature ReconstructionMinsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin. 4075-4084 [doi]

PDA-RWSR: Pixel-Wise Degradation Adaptive Real-World Super-ResolutionAndreas Aakerberg, Majed El Helou, Kamal Nasrollahi, Thomas B. Moeslund. 4085-4095 [doi]

Real Time GAZED: Online Shot Selection and Editing of Virtual Cameras from Wide-Angle Monocular Video RecordingsSudheer Achary, Rohit Girmaji, Adhiraj Anil Deshmukh, Vineet Gandhi. 4096-4104 [doi]

Unsupervised Model-based Learning for Simultaneous Video Deflickering and DeblotchingAnuj Fulari, Satish Mulleti, Ajit Rajwade 0001. 4105-4113 [doi]

Differentiable JPEG: The Devil is in the DetailsChristoph Reich, Biplob Debnath, Deep Patel, Srimat Chakradhar. 4114-4123 [doi]

2: Temporal Segment Adaptation and Aggregation for Video HarmonizationZeyu Xiao, Yurui Zhu, Xueyang Fu, Zhiwei Xiong. 4124-4133 [doi]

Diffusion in the Dark: A Diffusion Model for Low-Light Text RecognitionCindy M. Nguyen, Eric R. Chan, Alexander W. Bergman, Gordon Wetzstein. 4134-4145 [doi]

Lightweight Portrait Matting via Regional Attention and RefinementYatao Zhong, Ilya Zharkov. 4146-4155 [doi]

RADIO: Reference-Agnostic Dubbing Video SynthesisDongyeun Lee, Chaewon Kim, Sangjoon Yu, Jaejun Yoo, Gyeong-Moon Park. 4156-4166 [doi]

Unsupervised Event-Based Video ReconstructionGereon Fox, Xingang Pan, Ayush Tewari, Mohamed Elgharib, Christian Theobalt. 4167-4176 [doi]

Neural Image Compression Using Masked Sparse Visual RepresentationWei Jiang, Wei Wang, Yue Chen. 4177-4185 [doi]

Shape-Guided Diffusion with Inside-Outside AttentionDong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell. 4186-4195 [doi]

Collage DiffusionVishnu Sarukkai, Linden Li, Arden Ma, Christopher Ré, Kayvon Fatahalian. 4196-4205 [doi]

Learning-based Spotlight Position Optimization for Non-Line-of-Sight Human Localization and Posture ClassificationSreenithy Chandran, Tatsuya Yatagawa, Hiroyuki Kubo, Suren Jayasuriya. 4206-4215 [doi]

Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-ResolutionZhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou 0001. 4216-4227 [doi]

What Decreases Editing Capability? Domain-Specific Hybrid Refinement for Improved GAN InversionPu Cao, Lu Yang, Dongxv Liu, Xiaoya Yang, Tianrui Huang, Qing Song 0006. 4228-4237 [doi]

Latent-Guided Exemplar-Based Image Re-ColorizationWenjie Yang, Ning Xu 0007, Yifei Fan. 4238-4247 [doi]

Stereo Conversion with Disparity-Aware Warping, Compositing and InpaintingLukas Mehl, Andrés Bruhn, Markus H. Gross, Christopher Schroers. 4248-4257 [doi]

Arbitrary-Resolution and Arbitrary-Scale Face Super-Resolution with Implicit Representation NetworksYi-Ting Tsai, Yu-Wei Chen, Hong-Han Shuai, Ching-Chun Huang. 4258-4267 [doi]

Blurry Video Compression A Trade-off between Visual Enhancement and Data CompressionDawit Mureja Argaw, Junsik Kim 0001, In-So Kweon. 4268-4278 [doi]

ProxEdit: Improving Tuning-Free Real Image Editing with Proximal GuidanceLigong Han, Song Wen 0001, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei Ren, Ruijiang Gao, Anastasis Stathopoulos, Xiaoxiao He, Yuxiao Chen 0002, Di Liu 0003, Qilong Zhangli, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris Metaxas. 4279-4289 [doi]

VCISR: Blind Single Image Super-Resolution with Video Compression Synthetic DataBoyang Wang, Bowen Liu, Shiyu Liu, Fengyu Yang. 4290-4300 [doi]

Latent Feature-Guided Diffusion Models for Shadow RemovalKangfu Mei, Luis Figueroa, Zhe Lin, Zhihong Ding, Scott Cohen, Vishal M. Patel 0001. 4301-4310 [doi]

MobileNVC: Real-time 1080p Neural Video Compression on a Mobile DeviceTies van Rozendaal, Tushar Singhal, Hoang Le, Guillaume Sautière, Amir Said, Krishna Buska, Anjuman Raha, Dimitris Kalatzis, Hitarth Mehta, Frank Mayer, Liang Zhang, Markus Nagel, Auke Wiggers. 4311-4321 [doi]

LatentPaint: Image Inpainting in Latent Space with Diffusion ModelsCiprian A. Corneanu, Raghudeep Gadde, Aleix M. Martínez. 4322-4331 [doi]

Beyond RGB: A Real World Dataset for Multispectral Imaging in Mobile DevicesOrtal Glatt, Yotam Ater, Woo-Shik Kim, Shira Werman, Oded Berby, Yael Zini, Shay Zelinger, Sangyoon Lee, Heejin Choi, Evgeny Soloveichik. 4332-4342 [doi]

IKEA Ego 3D Dataset: Understanding furniture assembly actions from ego-view 3D Point CloudsYizhak Ben-Shabat, Jonathan Paul, Eviatar Segev, Oren Shrout, Stephen Gould. 4343-4352 [doi]

IndustReal: A Dataset for Procedure Step Recognition Handling Execution Errors in Egocentric Videos in an Industrial-Like SettingTim J. Schoonbeek, Tim Houben, Hans Onvlee, Peter H. N. de With, Fons van der Sommen. 4353-4362 [doi]

Ego2HandsPose: A Dataset for Egocentric Two-hand 3D Global Pose EstimationFanqing Lin, Tony R. Martinez. 4363-4371 [doi]

ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation and Re-IdentificationNicolas Gorlo, Kenneth Blomqvist, Francesco Milano 0001, Roland Siegwart. 4372-4384 [doi]

Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic GroundingJoshua Feinglass, Yezhou Yang. 4385-4395 [doi]

SphereCraft: A Dataset for Spherical Keypoint Detection, Matching and Camera Pose EstimationChristiano Couto Gava, Yunmin Cho, Federico Raue, Sebastian Palacio, Alain Pagani, Andreas Dengel 0001. 4396-4405 [doi]

Benchmark Generation Framework with Customizable Distortions for Image Classifier RobustnessSoumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Zachariah Carmichael, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna Gutierrez, Antonio Guillen, Avisek Naug. 4406-4415 [doi]

UOW-Vessel: A Benchmark Dataset of High-Resolution Optical Satellite Images for Vessel Detection and SegmentationLy Bui, Son Lam Phung, Yang Di, Hoang Thanh Le 0001, Tran Thanh Phong Nguyen, Sandy Burden, Abdesselam Bouzerdoum. 4416-4424 [doi]

NITEC: Versatile Hand-Annotated Eye Contact Dataset for Ego-Vision InteractionThorsten Hempel, Magnus Jung, Ahmed A. Abdelrahman, Ayoub Al-Hamadi. 4425-4434 [doi]

Time to Shine: Fine-Tuning Object Detection Models with Synthetic Adverse Weather ImagesThomas Rothmeier, Werner Huber, Alois C. Knoll. 4435-4444 [doi]

Effects of Markers in Training Datasets on the Accuracy of 6D Pose EstimationJanis Rosskamp, René Weller, Gabriel Zachmann. 4445-4454 [doi]

VEATIC: Video-based Emotion and Affect Tracking in Context DatasetZhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, Yunhui Guo, Stella X. Yu, David Whitney. 4455-4465 [doi]

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-AnsweringXiulong Liu, Zhikang Dong, Peng Zhang. 4466-4475 [doi]

An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image ClassificationPrakhar Ganesh. 4476-4485 [doi]

Can you even tell left from right? Presenting a new challenge for VQASai Raam Venkataraman, Rishi Sridhar Rao, S. Balasubramanian, R. Raghunatha Sarma, Chandra Sekhar Vorugunti. 4486-4495 [doi]

MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View SynthesisXuqian Ren, Wenjia Wang, Dingding Cai, Tuuli Tuominen, Juho Kannala, Esa Rahtu. 4496-4505 [doi]

RobustCLEVR: A Benchmark and Framework for Evaluating Robustness in Object-centric LearningNathan Drenkow, Mathias Unberath. 4506-4515 [doi]

So you think you can track?Derek Gloudemans, Gergely Zachár, Yanbing Wang, Junyi Ji, Matthew Nice, Matt Bunting, William Barbour, Jonathan Sprinkle, Benedetto Piccoli, Maria Laura Delle Monache, Alexandre M. Bayen, Benjamin Seibold, Daniel B. Work. 4516-4526 [doi]

Estimating Blood Alcohol Level Through Facial Features for Driver Impairment AssessmentEnsiyeh Keshtkaran, Brodie von Berg, Grant Regan, David Suter, Syed Zulqarnain Gilani. 4527-4536 [doi]

ENIGMA-51: Towards a Fine-Grained Understanding of Human Behavior in Industrial ScenariosFrancesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Claudia Bonanno, Rosario Scavo, Antonino Furnari, Giovanni Maria Farinella. 4537-4547 [doi]

SciOL and MuLMS-Img: Introducing A Large-Scale Multimodal Scientific Dataset and Models for Image-Text Tasks in the Scientific DomainTim Tarsi, Heike Adel, Jan Hendrik Metzen, Dan Zhang, Matteo Finco, Annemarie Friedrich. 4548-4559 [doi]

HaGRID - HAnd Gesture Recognition Image DatasetKapitanov Alexander, Kvanchiani Karina, Nagaev Alexander, Kraynov Roman, Makhliarchuk Andrei. 4560-4569 [doi]

Identifying Label Errors in Object Detection Datasets by Loss InspectionMarius Schubert, Tobias Riedlinger, Karsten Kahl, Daniel Kröll, Sebastian Schoenen, Sinisa Segvic, Matthias Rottmann. 4570-4579 [doi]

Exploring the Impact of Rendering Method and Motion Quality on Model Performance when Using Multi-view Synthetic Data for Action RecognitionStanislav Panev, Emily Kim, Sai Abhishek Si Namburu, Desislava Nikolova, Celso de Melo, Fernando De la Torre, Jessica K. Hodgins. 4580-4590 [doi]

PsyMo: A Dataset for Estimating Self-Reported Psychological Traits from GaitAdrian Cosma, Ion Emilian Radoi. 4591-4601 [doi]

IDD-AW: A Benchmark for Safe and Robust Segmentation of Drive Scenes in Unstructured Traffic and Adverse WeatherFurqan Ahmed Shaik, Abhishek Reddy Malreddy, Nikhil Reddy Billa, Kunal Chaudhary, Sunny Manchanda, Girish Varma. 4602-4611 [doi]

CrashCar101: Procedural Generation for Damage AssessmentJens Parslov, Erik Riise, Dim P. Papadopoulos. 4612-4622 [doi]

ZRG: A Dataset for Multimodal 3D Residential Rooftop UnderstandingIsaac Corley, Jonathan Lwowski, Peyman Najafirad. 4623-4631 [doi]

Taming Normalizing FlowsShimon Malnick, Shai Avidan, Ohad Fried. 4632-4642 [doi]

Improving Fairness in Deepfake DetectionYan Ju, Shu Hu, Shan Jia, George H. Chen, Siwei Lyu. 4643-4653 [doi]

Causal Feature Alignment: Learning to Ignore Spurious Background FeaturesRahul Venkataramani, Parag Dutta, Vikram Melapudi, Ambedkar Dukkipati. 4654-4662 [doi]

Localization and Manipulation of Immoral Visual Cues for Safe Text-to-Image GenerationSeongbeom Park, Suhong Moon, Seunghyun Park, Jinkyu Kim. 4663-4672 [doi]

Causal Analysis for Robust Interpretability of Neural NetworksOla Ahmad, Nicolas Béreux, Loïc Baret, Vahid Hashemi, Freddy Lécué. 4673-4682 [doi]

Improving Fairness using Vision-Language Driven Image AugmentationMoreno D'incà, Christos Tzelepis, Ioannis Patras, Nicu Sebe. 4683-4692 [doi]

Linking convolutional kernel size to generalization bias in face analysis CNNsHao Liang, Josue Ortega Caro, Vikram Maheshri, Ankit B. Patel, Guha Balakrishnan. 4693-4703 [doi]

PATROL: Privacy-Oriented Pruning for Collaborative Inference Against Model Inversion AttacksShiwei Ding, Lan Zhang 0005, Miao Pan, Xiaoyong Yuan. 4704-4713 [doi]

Towards Visual Saliency Explanations of Face VerificationYuhang Lu, Zewei Xu, Touradj Ebrahimi. 4714-4723 [doi]

Efficient Explainable Face Verification based on Similarity Score Argument BackpropagationMarco Huber, Anh Thi Luu, Philipp Terhörst, Naser Damer. 4724-4733 [doi]

SynthProv: Interpretable Framework for Profiling Identity LeakageJaisidh Singh, Harshil Bhatia, Mayank Vatsa, Richa Singh 0001, Aparna Bharati. 4734-4744 [doi]

Text-to-Image Models for Counterfactual Explanations: a Black-Box ApproachGuillaume Jeanneret, Loïc Simon, Frédéric Jurie. 4745-4755 [doi]

Pixel-Grounded Prototypical Part NetworksZachariah Carmichael, Suhas Lohit, Anoop Cherian, Michael J. Jones 0001, Walter J. Scheirer. 4756-4767 [doi]

How Do Deepfakes Move? Motion Magnification for Deepfake Source DetectionIlke Demir, Umur Aybars Ciftci. 4768-4778 [doi]

Analyzing the Domain Shift Immunity of Deep Homography EstimationMingzhen Shao, Tolga Tasdizen, Sarang C. Joshi. 4788-4796 [doi]

RPCANet: Deep Unfolding RPCA Based Infrared Small Target DetectionFengyi Wu, Tianfang Zhang, Lei Li, Yian Huang, Zhenming Peng. 4797-4806 [doi]

Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient ProjectionTuan Hoang, Santu Rana, Sunil Gupta 0001, Svetha Venkatesh. 4807-4816 [doi]

Occlusion Sensitivity Analysis with Augmentation Subspace Perturbation in Deep Feature SpacePedro H. V. Valois, Koichiro Niinuma, Kazuhiro Fukui. 4817-4826 [doi]

Generated Distributions Are All You Need for Membership Inference Attacks Against Generative ModelsMinxing Zhang, Ning Yu, Rui Wen, Michael Backes 0001, Yang Zhang. 4827-4837 [doi]

Do We Still Need Non-Maximum Suppression? Accurate Confidence Estimates and Implicit Duplication Modeling with IoU-Aware CalibrationJohannes Gilg, Torben Teepe, Fabian Herzog, Philipp Wolters, Gerhard Rigoll. 4838-4847 [doi]

Towards More Realistic Membership Inference Attacks on Large Diffusion ModelsJan Dubinski, Antoni Kowalczuk, Stanislaw Pawlak, Przemyslaw Rokita, Tomasz Trzcinski, Pawel Morawiecki. 4848-4857 [doi]

ClusterFix: A Cluster-Based Debiasing Approach without Protected-Group SupervisionGiacomo Capitani, Federico Bolelli, Angelo Porrello, Simone Calderara, Elisa Ficarra. 4858-4867 [doi]

Concept-Centric Transformers: Enhancing Model Interpretability through Object-Centric Concept Learning within a Shared Global WorkspaceJinyung Hong, Keun Hee Park, Theodore P. Pavlic. 4868-4879 [doi]

Membership Inference Attack Using Self Influence FunctionsGilad Cohen, Raja Giryes. 4880-4889 [doi]

CARE: Counterfactual-based Algorithmic Recourse for Explainable Pose CorrectionBhat Dittakavi, Bharathi Callepalli, Aleti Vardhan, Sai Vikas Desai, Vineeth N. Balasubramanian. 4890-4899 [doi]

Spiking Denoising Diffusion Probabilistic ModelsJiahang Cao, Ziqing Wang, Hanzhong Guo, Hao Cheng, Qiang Zhang, Renjing Xu. 4900-4909 [doi]

Improving the Effectiveness of Deep Generative DataRuyu Wang, Sabrina Schmedding, Marco F. Huber. 4910-4920 [doi]

Customizing 360-Degree Panoramas through Text-to-Image Diffusion ModelsHai Wang, Xiaoyu Xiang, Yuchen Fan, Jing-Hao Xue. 4921-4931 [doi]

Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced DataKai Katsumata, Duc Minh Vo, Hideki Nakayama. 4932-4941 [doi]

3D-Aware Talking-Head Video Motion TransferHaomiao Ni, Jiachen Liu, Yuan Xue 0002, Sharon X. Huang. 4942-4952 [doi]

GRIT: GAN Residuals for Paired Image-to-Image TranslationSaksham Suri, Moustafa Meshry, Larry S. Davis, Abhinav Shrivastava. 4953-4963 [doi]

Multimodality-guided Image Style Transfer using Cross-modal GAN InversionHanyu Wang 0002, Pengxiang Wu, Kevin Dela Rosa, Chen Wang, Abhinav Shrivastava. 4964-4973 [doi]

ZIGNeRF: Zero-shot 3D Scene Representation with Invertible Generative Neural Radiance FieldsKanghyeok Ko, Minhyeok Lee. 4974-4983 [doi]

GraphFill: Deep Image Inpainting using GraphsShashikant Verma, Aman Sharma, Roopa Sheshadri, Shanmuganathan Raman. 4984-4994 [doi]

Nested Diffusion Processes for Anytime Image GenerationNoam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad. 4995-5004 [doi]

PoseDiff: Pose-conditioned Multimodal Diffusion Model for Unbounded Scene Synthesis from Sparse InputsSeoyoung Lee, Joonseok Lee. 5005-5015 [doi]

Expanding Expressiveness of Diffusion Models with Limited Data via Self-Distillation based Fine-TuningJiwan Hur, Jaehyun Choi, Gyojin Han, Dong-Jae Lee, Junmo Kim. 5016-5025 [doi]

One Style is All You Need to Generate a VideoSandeep Manandhar, Auguste Genovesio. 5026-5035 [doi]

Consistent Multimodal Generation via A Unified GAN FrameworkZhen Zhu, Yijun Li, Weijie Lyu, Krishna Kumar Singh, Zhixin Shu, Sören Pirk, Derek Hoiem. 5036-5045 [doi]

Unsupervised Co-generation of Foreground-Background Segmentation from Text-to-Image SynthesisYeruru Asrar Ahmed, Anurag Mittal. 5046-5057 [doi]

MotionGPT: Human Motion Synthesis with Improved Diversity and Realism via GPT-3 PromptingJosé Ribeiro-Gomes, Tianhui Cai, Zoltán Ádám Milacski, Chen Wu, Aayush Prakash, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Alexandre Bernardino, Fernando De la Torre. 5058-5068 [doi]

Human Motion Aware Text-to-Video Generation with Explicit Camera ControlTaehoon Kim, Chanhee Kang, Jaehyuk Park, Daun Jeong, ChangHee Yang, Suk-Ju Kang, Kyeongbo Kong. 5069-5078 [doi]

Second-Order Graph ODEs for Multi-Agent Trajectory ForecastingSong Wen 0001, Hao Wang 0014, Di Liu 0003, Qilong Zhangli, Dimitris Metaxas. 5079-5088 [doi]

Diffused Heads: Diffusion Models Beat GANs on Talking-Face GenerationMichal Stypulkowski, Konstantinos Vougioukas, Sen He 0001, Maciej Zieba, Stavros Petridis, Maja Pantic. 5089-5098 [doi]

Unified Concept Editing in Diffusion ModelsRohit Gandikota, Hadas Orgad, Yonatan Belinkov, Joanna Materzynska, David Bau. 5099-5108 [doi]

SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a Spectral PerspectiveZipeng Xu, Songlong Xing, Enver Sangineto, Nicu Sebe. 5109-5118 [doi]

Diffusion-based generation of Histopathological Whole Slide Images at a Gigapixel scaleRobert Harb, Thomas Pock, Heimo Müller. 5119-5128 [doi]

Painterly Image Harmonization via Adversarial Residual LearningXudong Wang, Li Niu 0002, Junyan Cao, Yan Hong, Liqing Zhang 0001. 5129-5138 [doi]

Training-free Content Injection using h-space in Diffusion ModelsJaeseok Jeong, Mingi Kwon, Youngjung Uh. 5139-5149 [doi]

ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face RestorationYuen-Fui Lau, Tianjia Zhang, Zhefan Rao, Qifeng Chen. 5150-5159 [doi]

PIDiffu: Pixel-aligned Diffusion Model for High-Fidelity Clothed Human ReconstructionJungeun Lee, Sanghun Kim, Hansol Lee, Tserendorj Adiya, Hwasup Lim. 5160-5169 [doi]

PathLDM: Text conditioned Latent Diffusion Model for HistopathologySrikar Yellapragada, Alexandros Graikos, Prateek Prasanna, Tahsin M. Kurç, Joel H. Saltz, Dimitris Samaras. 5170-5179 [doi]

Content-Aware Image Color Editing with Auxiliary Color Restoration TasksYixuan Ren, Jing Shi, Zhifei Zhang, Yifei Fan, Zhe Lin, Bo He 0004, Abhinav Shrivastava. 5180-5189 [doi]

On Manipulating Scene Text in the Wild with Diffusion ModelsJoshua Santoso, Christian Simon, Williem 0001. 5190-5199 [doi]

CXR-IRGen: An Integrated Vision and Language Model for the Generation of Clinically Accurate Chest X-Ray Image-Report PairsJunjie Shentu, Noura Al Moubayed. 5200-5209 [doi]

Face Identity-Aware Disentanglement in StyleGANAdrian Suwala, Bartosz Wójcik, Magdalena Proszewska, Jacek Tabor, Przemyslaw Spurek, Marek Smieja. 5210-5219 [doi]

Text-to-image Editing by Image Information RemovalZhongping Zhang, Jian Zheng, Jacob Zhiyuan Fang, Bryan A. Plummer. 5220-5229 [doi]

Preserving Image Properties Through Initializations in Diffusion ModelsJeffrey Zhang 0004, Shao-Yu Chang, Kedan Li, David A. Forsyth. 5230-5238 [doi]

GC-VTON: Predicting Globally Consistent and Occlusion Aware Local Flows with Neighborhood Integrity Preservation for Virtual Try-onHamza Rawal, Muhammad Junaid Ahmad, Farooq Zaman. 5239-5248 [doi]

Generation of Upright Panoramic Image from Non-upright Panoramic ImageJingguo Liu, Heyu Chen, Shigang Li 0001, Jianfeng Li 0003. 5249-5258 [doi]

Fast Diffusion EM: a diffusion model for blind inverse problems with application to deconvolutionCharles Laroche, Andrés Almansa, Eva Coupeté. 5259-5269 [doi]

Enforcing Sparsity on Latent Space for Robust and Explainable RepresentationsHanao Li, Tian Han. 5270-5279 [doi]

Diff2Lip: Audio Conditioned Diffusion Models for Lip-SynchronizationSoumik Mukhopadhyay 0001, Saksham Suri, Ravi Teja Gadde, Abhinav Shrivastava. 5280-5290 [doi]

3D Reconstruction of Interacting Multi-Person in Clothing from a Single ImageJunuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, SeungRyul Baek. 5291-5300 [doi]

Revisiting Latent Space of GAN Inversion for Robust Real Image EditingKai Katsumata, Duc Minh Vo, Bei Liu 0001, Hideki Nakayama. 5301-5310 [doi]

Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled DataKai Katsumata, Duc Minh Vo, Tatsuya Harada, Hideki Nakayama. 5311-5320 [doi]

Bipartite Graph Diffusion Model for Human Interaction GenerationBaptiste Chopin, Hao Tang 0005, Mohamed Daoudi. 5321-5330 [doi]

Training-Free Layout Control with Cross-Attention GuidanceMinghao Chen, Iro Laina, Andrea Vedaldi. 5331-5341 [doi]

Controllable Image Synthesis of Industrial Data using Stable DiffusionGabriele Valvano, Antonino Agostino, Giovanni De Magistris, Antonino Graziano, Giacomo Veneri. 5342-5351 [doi]

Removing the Quality Tax in Controllable Face GenerationYiwen Huang, Zhiqiu Yu, Xinjie Yi, Yue Wang, James Tompkin 0001. 5353-5361 [doi]

Hierarchical Diffusion Autoencoders and Disentangled Image ManipulationZeyu Lu, Chengyue Wu, Xinyuan Chen, Yaohui Wang 0004, Lei Bai 0001, Yu Qiao, Xihui Liu. 5362-5371 [doi]

FacadeNet: Conditional Facade Synthesis via Selective EditingYiangos Georgiou, Marios Loizou, Tom Kelly, Melinos Averkiou. 5372-5381 [doi]

TPSeNCE: Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in RainShen Zheng, Changjie Lu, Srinivasa G. Narasimhan. 5382-5391 [doi]

Common Diffusion Noise Schedules and Sample Steps are FlawedShanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang. 5392-5399 [doi]

Improving the Leaking of Augmentations in Data-Efficient GANs via Adaptive Negative Data AugmentationZhaoyu Zhang, Yang Hua, Guanxiong Sun, Hui Wang, Seán McLoone. 5400-5409 [doi]

P2D: Plug and Play Discriminator for accelerating GAN frameworksMin Jin Chong, Krishna Kumar Singh, Yijun Li, Jingwan Lu, David A. Forsyth. 5410-5419 [doi]

Personalized Face Inpainting with Diffusion Models by Parallel Visual AttentionJianjin Xu, Saman Motamed, Praneetha Vaddamanu, Chen Henry Wu, Christian Häne, Jean Charles Bazin, Fernando De la Torre. 5420-5430 [doi]

Semantic Generative Augmentations for Few-Shot CountingPerla Doubinsky, Nicolas Audebert, Michel Crucianu, Hervé Le Borgne. 5431-5440 [doi]

StyleGAN-Fusion: Diffusion Guided Domain Adaptation of Image GeneratorsKunpeng Song, Ligong Han, Bingchen Liu, Dimitris N. Metaxas, Ahmed Elgammal. 5441-5451 [doi]

Zero-Shot Video Moment Retrieval from Frozen Vision-Language ModelsDezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu. 5452-5461 [doi]

Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and DetectionKyle Buettner, Adriana Kovashka. 5462-5472 [doi]

Benchmarking Out-of-Distribution Detection in Visual Question AnsweringXiangxi Shi, Stefan Lee. 5473-5483 [doi]

Sound3DVDet: 3D Sound Source Detection using Multiview Microphone Array and RGB ImagesYuhang He, Sangyun Shin, Anoop Cherian, Niki Trigoni, Andrew Markham. 5484-5495 [doi]

LAVSS: Location-Guided Audio-Visual Spatial Audio SeparationYuxin Ye, Wenming Yang, Yapeng Tian. 5496-5507 [doi]

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language ModelsJingru Yi, Burak Uzkent, Oana Ignat, Zili Li 0014, Amanmeet Garg, Xiang Yu, Linda Liu. 5508-5518 [doi]

CLID: Controlled-Length Image Descriptions with Limited DataElad Hirsch, Ayellet Tal. 5519-5529 [doi]

StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain GeneralizationShirsha Bose, Ankit Jha, Enrico Fini, Mainak Singha, Elisa Ricci 0001, Biplab Banerjee. 5530-5540 [doi]

THInImg: Cross-modal Steganography for Presenting Talking Heads in ImagesLin Zhao, Hongxuan Li, Xuefei Ning, Xinru Jiang. 5541-5550 [doi]

Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative MiningUgur Sahin, Hang Li 0010, Qadeer Khan, Daniel Cremers, Volker Tresp. 5551-5561 [doi]

Temporal Context Enhanced Referring Video Object SegmentationXiao Hu 0008, Basavaraj Hampiholi, Heiko Neumann, Jochen Lang 0001. 5562-5571 [doi]

Fine-Grained Alignment for Cross-Modal Recipe RetrievalMuntasir Wahed, Xiaona Zhou, Tianjiao Yu, Ismini Lourentzou. 5572-5581 [doi]

Learning to Adapt CLIP for Few-Shot Monocular Depth EstimationXueting Hu, Ce Zhang 0009, Yi Zhang, Bowen Hai, Ke Yu, Zhihai He. 5582-5591 [doi]

Annotation-free Audio-Visual SegmentationJinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie. 5592-5602 [doi]

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video ParsingYating Xu, Conghui Hu, Gim Hee Lee. 5603-5612 [doi]

SDNet: An Extremely Efficient Portrait Matting Model via Self-DistillationZiwen Li, Bo Xu, Jiake Xie, Yong Tang, Cheng Lu. 5613-5622 [doi]

FELGA: Unsupervised Fragment Embedding for Fine-Grained Cross-Modal AssociationYaoxin Zhuo, Baoxin Li. 5623-5633 [doi]

Modality-Aware Representation Learning for Zero-shot Sketch-based Image RetrievalEunyi Lyou, Doyeon Lee, Jooeun Kim, Joonseok Lee. 5634-5643 [doi]

Multitask Vision-Language Prompt TuningSheng Shen, Shijia Yang, Tianjun Zhang, Bohan Zhai, Joseph E. Gonzalez, Kurt Keutzer, Trevor Darrell. 5644-5655 [doi]

EASUM: Enhancing Affective State Understanding through Joint Sentiment and Emotion Modeling for Multimodal TasksYewon Hwang, Jong-Hwan Kim 0001. 5656-5666 [doi]

Complementary-Contradictory Feature Regularization against Multimodal OverfittingAntonio Tejero-de-Pablos. 5667-5676 [doi]

FuseCap: Leveraging Large Language Models for Enriched Fused Image CaptionsNoam Rotstein, David Bensaïd, Shaked Brody, Roy Ganz, Ron Kimmel. 5677-5688 [doi]

Describe Images in a Boring Way: Towards Cross-Modal Sarcasm GenerationJie Ruan, Yue Wu, Xiaojun Wan 0001, Yuesheng Zhu. 5689-5698 [doi]

Can CLIP Help Sound Source Localization?Sooyoung Park, Arda Senocak, Joon Son Chung. 5699-5708 [doi]

Domain Aligned CLIP for Few-shot ClassificationMuhammad Waleed Gondal, Jochen Gast, Inigo Alonso Ruiz, Richard Droste, Tommaso Macrì, Suren Kumar, Luitpold Staudigl. 5709-5718 [doi]

SCoRD: Subject-Conditional Relation Detection with Text-Augmented DataZiyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding, Vicente Ordonez. 5719-5729 [doi]

Simple Token-Level Confidence Improves Caption CorrectnessSuzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach. 5730-5740 [doi]

Bi-directional Training for Composed Image Retrieval via Text Prompt LearningZheyuan Liu 0002, Weixuan Sun, Yicong Hong, Damien Teney, Stephen Gould. 5741-5750 [doi]

MOPA: Modular Object Navigation with PointGoal AgentsSonia Raychaudhuri, Tommaso Campari, Unnat Jain, Manolis Savva, Angel X. Chang. 5751-5761 [doi]

GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot LearningGuangyue Xu, Joyce Chai, Parisa KordJamshidi. 5762-5771 [doi]

Text-Guided Face Recognition using Multi-Granularity Cross-Modal Contrastive LearningMd. Mahedi Hasan, Shoaib Meraj Sami, Nasser M. Nasrabadi. 5772-5781 [doi]

Leveraging Task-Specific Pre-Training to Reason across Images and VideosArka Sadhu, Ram Nevatia. 5782-5792 [doi]

VD-GR: Boosting Visual Dialog with Cascaded Spatial-Temporal Multi-Modal GRaphsAdnen Abdessaied, Lei Shi, Andreas Bulling. 5793-5802 [doi]

TriCoLo: Trimodal Contrastive Loss for Text to Shape RetrievalYue Ruan, Han-Hung Lee, Yiming Zhang 0019, Ke Zhang, Angel X. Chang. 5803-5813 [doi]

3D Super-Resolution Model for Vehicle Flow Field EnrichmentThanh Luan Trinh, Fangge Chen, Takuya Nanri, Kei Akasaka. 5814-5823 [doi]

AssemblyNet: A Point Cloud Dataset and Benchmark for Predicting Part Directions in an Exploded LayoutJesper Gaarsdal, Joakim Bruslund Haurum, Sune Wolff, Claus Brøndgaard Madsen. 5824-5833 [doi]

EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance FieldsAnish Bhattacharya, Ratnesh Madaan, Fernando Cladera Ojeda, Sai Vemprala, Rogerio Bonatti, Kostas Daniilidis, Ashish Kapoor, Vijay Kumar 0001, Nikolai Matni, Jayesh K. Gupta. 5834-5843 [doi]

LIVENet: A novel network for real-world low-light image denoising and enhancementDhruv Makwana, Gayatri Deshmukh, Onkar Susladkar, Sparsh Mittal, R. Sai Chandra Teja. 5844-5853 [doi]

Controlling Virtual Try-on Pipeline Through Rendering PoliciesKedan Li, Jeffrey Zhang 0004, Shao-Yu Chang, David A. Forsyth. 5854-5836 [doi]

Automated Camera Calibration via Homography Estimation with GNNsGiacomo D'Amicantonio, Egor Bondarev, Peter H. N. de With. 5864-5471 [doi]

WaveMixSR: Resource-efficient Neural Network for Image Super-resolutionPranav Jeevan, Akella Srinidhi, Pasunuri Prathiba, Amit Sethi. 5872-5880 [doi]

You Can Run but not Hide: Improving Gait Recognition with Intrinsic Occlusion Type AwarenessAyush Gupta, Rama Chellappa. 5881-5890 [doi]

Rethinking Visibility in Human Pose Estimation: Occluded Pose Reasoning via TransformersPengzhan Sun 0001, Kerui Gu, Yunsong Wang, Linlin Yang, Angela Yao. 5891-5900 [doi]

RMFER: Semi-supervised Contrastive Learning for Facial Expression Recognition with Reaction Mashup VideoYunseong Cho, Chanwoo Kim, Hoseong Cho, Yunhoe Ku, Eunseo Kim, Muhammadjon Boboev, Joonseok Lee, SeungRyul Baek. 5901-5910 [doi]

CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image SegmentationAlex Ling Yu Hung, Haoxin Zheng, Kai Zhao, Xiaoxi Du, Kaifeng Pang, Qi Miao, Steven S. Raman, Demetri Terzopoulos, Kyunghyun Sung. 5911-5920 [doi]

Motion Matters: Neural Motion Transfer for Better Camera Physiological MeasurementAkshay Paruchuri, Xin Liu, Yulu Pan, Shwetak N. Patel, Daniel McDuff, Soumyadip Sengupta. 5921-5930 [doi]

Image Labels Are All You Need for Coarse Seagrass SegmentationScarlett Raine, Ross Marchant, Brano Kusy, Frédéric Maire, Tobias Fischer 0001. 5931-5940 [doi]

WildlifeDatasets: An open-source toolkit for animal re-identificationVojtech Cermák, Lukás Picek, Lukás Adam, Kostas Papafitsoros. 5941-5951 [doi]

HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event ModalitiesShristi Das Biswas, Adarsh Kosta, Chamika M. Liyanagedera, Marco Paul E. Apolinario, Kaushik Roy 0001. 5952-5962 [doi]

ParticleNeRF: A Particle-Based Encoding for Online Neural Radiance FieldsJad Abou-Chakra, Feras Dayoub, Niko Sünderhauf. 5963-5972 [doi]

Rotation-Constrained Cross-View Feature Fusion for Multi-View Appearance-based Gaze EstimationYoichiro Hisadome, Tianyi Wu, Jiawei Qin, Yusuke Sugano. 5973-5982 [doi]

SICKLE: A Multi-Sensor Satellite Imagery Dataset Annotated with Multiple Key Cropping ParametersDepanshu Sani, Sandeep Mahato, Sourabh Saini, Harsh Kumar Agarwal, Charu Chandra Devshali, Saket Anand, Gaurav Arora, Thiagarajan Jayaraman. 5983-5992 [doi]

Re-Evaluating LiDAR Scene FlowNathaniel Chodosh, Deva Ramanan, Simon Lucey. 5993-6003 [doi]

Semantic Labels-Aware Transformer Model for Searching over a Large Collection of Lecture-SlidesK. V. Jobin, Anand Mishra 0001, C. V. Jawahar. 6004-6013 [doi]

ConeQuest: A Benchmark for Cone Segmentation on MarsMirali Purohit, Jacob B. Adler, Hannah Kerner. 6014-6023 [doi]

FastSR-NeRF: Improving NeRF Efficiency on Consumer Devices with A Simple Super-Resolution PipelineChien-Yu Lin, Qichen Fu, Thomas Merth, Karren D. Yang, Anurag Ranjan. 6024-6033 [doi]

HashReID: Dynamic Network with Binary Codes for Efficient Person Re-identificationKshitij Nikhal, Yujunrong Ma, Shuvra S. Bhattacharyya, Benjamin S. Riggan. 6034-6043 [doi]

RGBT-Dog: A Parametric Model and Pose Prior For Canine Body Analysis Data CreationJake Deane, Sinead Kearney, Kwang In Kim, Darren Cosker. 6044-6054 [doi]

FPGAN-Control: A Controllable Fingerprint Generator for Training with Synthetic DataAlon Shoshan, Nadav Bhonker, Emanuel Ben Baruch, Ori Nizan, Igor Kviatkovsky, Joshua J. Engelsma, Manoj Aggarwal, Gérard G. Medioni. 6055-6064 [doi]

Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on Facial Action Unit DetectionXiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li, Lijun Yin 0001. 6065-6074 [doi]

ProS: Facial Omni-Representation Learning via Prototype-based Self-DistillationXing Di, Yiyu Zheng, Xiaoming Liu, Yu Cheng 0001. 6075-6086 [doi]

FG-Net: Facial Action Unit Detection with Generalizable Pyramidal FeaturesYufeng Yin 0002, Di Chang, Guoxian Song, Shen Sang, Tiancheng Zhi, Jing Liu, Linjie Luo, Mohammad Soleymani 0001. 6087-6096 [doi]

Watch Where You Head: A View-biased Domain Gap in Gait Recognition and Unsupervised AdaptationGavriel Habib, Noa Barzilay, Or Shimshi, Rami Ben-Ari, Nir Darshan. 6097-6107 [doi]

Intrinsic Hand Avatar: Illumination-aware Hand Appearance and Shape Reconstruction from Monocular RGB VideoPratik Kalshetti, Parag Chaudhuri. 6108-6118 [doi]

CVTHead: One-shot Controllable Head Avatar with Vertex-feature TransformerHaoyu Ma, Tong Zhang, Shanlin Sun, Xiangyi Yan, Kun Han, Xiaohui Xie. 6119-6129 [doi]

Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose EstimationZhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang. 6130-6140 [doi]

POISE: Pose Guided Human Silhouette Extraction under OcclusionsArindam Dutta, Rohit Lal, Dripta S. Raychaudhuri, Calvin-Khang Ta, Amit K. Roy Chowdhury. 6141-6151 [doi]

Incorporating Physics Principles for Precise Human Motion PredictionYufei Zhang, Jeffrey O. Kephart, Qiang Ji. 6152-6162 [doi]

Fingervein Verification using Convolutional Multi-Head Attention NetworkRaghavendra Ramachandra, Sushma Venkatesh. 6163-6172 [doi]

Multispectral Imaging for Differential Face Morphing Attack Detection: A Preliminary StudyRaghavendra Ramachandra, Sushma Venkatesh, Naser Damer, Narayan Vetrekar, Rajendra S. Gad. 6173-6181 [doi]

Controlling Character Motions without Observable Driving SourceWeiyuan Li, Bin Dai, Ziyi Zhou, Qi Yao, Baoyuan Wang. 6182-6191 [doi]

2: Disentangled Recurrent Representation Learning for Data-efficient Speech Video SynthesisChenxu Zhang, Chao Wang, Yifan Zhao, Shuo Cheng, Linjie Luo, Xiaohu Guo. 6192-6202 [doi]

Bias and Diversity in Synthetic-based Face RecognitionMarco Huber, Anh Thi Luu, Fadi Boutros, Arjan Kuijper, Naser Damer. 6203-6214 [doi]

FarSight: A Physics-Driven Whole-Body Biometric System at Large Distance and AltitudeFeng Liu 0037, Ryan Ashbaugh, Nicholas Chimitt, Najmul Hassan, Ali Hassani 0001, Ajay Jaiswal, Minchul Kim, Zhiyuan Mao, Christopher Perry, Zhiyuan Ren, Yiyang Su, Pegah Varghaei, Kai Wang, Stanley H. Chan, Arun Ross, Humphrey Shi, Zhangyang Wang, Anil Jain, Xiaoming Liu. 6215-6224 [doi]

AU-Aware Dynamic 3D Face Reconstruction from Videos with TransformerChenyi Kuang, Jeffrey O. Kephart, Qiang Ji. 6225-6235 [doi]

Handformer2T: A Lightweight Regression-based Model for Interacting Hands Pose Estimation from A Single RGB ImagePengfei Zhang, Deying Kong. 6236-6245 [doi]

Weakly-supervised deepfake localization in diffusion-generated imagesDragos-Constantin Tântaru, Elisabeta Oneata, Dan Oneata. 6246-6256 [doi]

Face Presentation Attack Detection by Excavating Causal Clues and Adapting Embedding StatisticsMeiling Fang, Naser Damer. 6257-6267 [doi]

Denoising and Selecting Pseudo-Heatmaps for Semi-Supervised Human Pose EstimationZhuoran Yu, Manchen Wang, Yanbei Chen, Paolo Favaro, Davide Modolo. 6268-6277 [doi]

ShARc: Shape and Appearance Recognition for Person Identification In-the-wildHaidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia. 6278-6288 [doi]

Fast and Interpretable Face Identification for Out-Of-Distribution Data Using Vision TransformersHai Phan, Cindy X. Le, Vu Le, Yihui He, Anh Totti Nguyen. 6289-6299 [doi]

SigmML: Metric meta-learning for Writer Independent Offline Signature Verification in the Space of SPD MatricesAlexios Giazitzis, Elias N. Zois. 6300-6310 [doi]

Progressive Hypothesis Transformer for 3D Human Mesh RecoveryHuang-Ru Liao, Jen-Chun Lin, Chun-Yi Lee. 6311-6320 [doi]

DiffBody: Diffusion-based Pose and Shape Editing of Human ImagesYuta Okuyama, Yuki Endo, Yoshihiro Kanamori. 6321-6330 [doi]

Diffuse and Restore: A Region-Adaptive Diffusion Model for Identity-Preserving Blind Face RestorationMaitreya Suin, Nithin Gopalakrishnan Nair, Chun Pong Lau 0001, Vishal M. Patel 0001, Rama Chellappa. 6331-6340 [doi]

HMP: Hand Motion Priors for Pose and Shape Estimation from VideoEnes Duran, Muhammed Kocabas, Vasileios Choutas, Zicong Fan, Michael J. Black. 6341-6351 [doi]

Approximating Intersections and Differences Between Linear Statistical Shape Models Using Markov Chain Monte CarloMaximilian Weiherer, Finn Klein, Bernhard Egger. 6352-6361 [doi]

Robust Eye Blink Detection Using Dual Embedding Video Vision TransformerJeongmin Hong, Joseph Shin, Juhee Choi, Minsam Ko. 6362-6372 [doi]

EmoStyle: One-Shot Facial Expression Editing Using Continuous Emotion ParametersBita Azari, Angelica Lim. 6373-6382 [doi]

Vikriti-ID: A Novel Approach For Real Looking Fingerprint Data-set GenerationRishabh Shukla, Aditya Sinha, Vansh Singh, Harkeerat Kaur. 6383-6391 [doi]

LaughTalk: Expressive 3D Talking Head Generation with LaughterKim Sung-Bin, Lee Hyun, Da Hye Hong, Suekyeong Nam, Janghoon Ju, Tae Hyun Oh. 6392-6401 [doi]

Detecting Content Segments from Online Sports Streaming Events: Challenges and SolutionsZongyi Liu, Yarong Feng, Shunyan Luo, Yuan Ling, Shujing Dong, Shuyi Wang. 6402-6411 [doi]

Permutation-Aware Activity Segmentation via Unsupervised Frame-to-Segment AlignmentQuoc Huy Tran, Ahmed Mehmood, Muhammad Ahmed 0003, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia. 6412-6422 [doi]

OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action SegmentationYuerong Li, Zhengrong Xue, Huazhe Xu. 6423-6432 [doi]

Embodied Human Activity RecognitionSha Hu, Yu Gong, Greg Mori. 6433-6443 [doi]

Semantic-aware Video Representation for Few-shot Action RecognitionYutao Tang, Benjamín Béjar, René Vidal. 6444-6454 [doi]

Leveraging the Power of Data Augmentation for Transformer-based TrackingJie Zhao, Johan Edstedt, Michael Felsberg, Dong Wang 0004, Huchuan Lu. 6455-6464 [doi]

CAMOT: Camera Angle-aware Multi-Object TrackingFelix Limanta, Kuniaki Uto, Koichi Shinoda. 6465-6474 [doi]

Detection Defenses: An Empty Promise against Adversarial Patch Attacks on Optical FlowErik Scheurer, Jenny Schmalfuss, Alexander Lis, Andrés Bruhn. 6475-6484 [doi]

Repetitive Action Counting with Motion Feature LearningXinjie Li, Huijuan Xu 0001. 6485-6494 [doi]

United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure Learning from VideosSiddhant Bansal, Chetan Arora 0001, C. V. Jawahar. 6495-6505 [doi]

Sequential Transformer for End-to-End Video Text DetectionJun-Bo Zhang, Mengbiao Zhao, Fei Yin, Cheng-Lin Liu 0001. 6506-6516 [doi]

Context in Human Action through Motion ComplementarityEadom Dessalene, Michael Maynord, Cornelia Fermüller, Yiannis Aloimonos. 6517-6526 [doi]

Egocentric Action Recognition by Capturing Hand-Object Contact and Object StateTsukasa Shiota, Motohiro Takagi, Kaori Kumagai, Hitoshi Seshimo, Yushi Aono. 6527-6537 [doi]

MIDAS: Mixing Ambiguous Data with Soft Labels for Dynamic Facial Expression RecognitionRyosuke Kawamura, Hideaki Hayashi, Noriko Takemura, Hajime Nagahara. 6538-6548 [doi]

FRoG-MOT: Fast and Robust Generic Multiple-Object Tracking by IoU and Motion-State AssociationsTakuya Ogawa, Takashi Shibata 0001, Toshinori Hosoi. 6549-6558 [doi]

Density-Based Flow Mask Integration via Deformable Convolution for Video People Flux EstimationChang-Lin Wan, Feng-Kai Huang, Hong-Han Shuai. 6559-6568 [doi]

ConfTrack: Kalman Filter-based Multi-Person Tracking by Utilizing Confidence Score of Detection BoxHyeonchul Jung, Seokjun Kang, Takgen Kim, HyeongKi Kim. 6569-6578 [doi]

CGAPoseNet+GCAN: A Geometric Clifford Algebra Network for Geometry-aware Camera Pose RegressionAlberto Pepe, Joan Lasenby, Sven Buchholz 0003. 6579-6589 [doi]

Embedding Task Structure for Action DetectionMichael Peven, Gregory D. Hager. 6590-6599 [doi]

Random Walks for Temporal Action Segmentation with Timestamp SupervisionRoy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman, Ehud Rivlin. 6600-6610 [doi]

MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action RecognitionRuiqi Xian, Xijun Wang, Dinesh Manocha. 6611-6620 [doi]

Do VSR Models Generalize Beyond LRS3?Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan, Haithem Boussaid, Ebtesam Almazrouei, Mérouane Debbah. 6621-6630 [doi]

PGVT: Pose-Guided Video Transformer for Fine-Grained Action RecognitionHaosong Zhang 0001, Mei Chee Leong, Liyuan Li, Weisi Lin. 6631-6642 [doi]

Differentially Private Video Activity RecognitionZelun Luo, Yuliang Zou, Yijin Yang, Zane Durante, De-An Huang, Zhiding Yu, Chaowei Xiao, Li Fei-Fei 0001, Animashree Anandkumar. 6643-6653 [doi]

Video Instance MattingJiachen Li 0003, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi. 6654-6663 [doi]

VMFormer: End-to-End Video Matting with TransformerJiachen Li 0003, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Yunchao Wei, Humphrey Shi. 6664-6673 [doi]

DDAM-PS: Diligent Domain Adaptive Mixer for Person SearchMohammed Khaleed Almansoori, Mustansar Fiaz, Hisham Cholakkal. 6674-6683 [doi]

Think before You Simulate: Symbolic Reasoning to Orchestrate Neural Computation for Counterfactual Question AnsweringAdam Ishay, Zhun Yang, Joohyung Lee 0002, Ilgu Kang, Dongjae Lim. 6684-6693 [doi]

Separable Self and Mixed Attention Transformers for Efficient Object TrackingGoutam Yelluru Gopal, Maria A. Amer. 6694-6703 [doi]

Restoring Degraded Old Films with Recursive Recurrent Transformer NetworksShan Lin, Edgar Simo-Serra. 6704-6714 [doi]

Holistic Representation Learning for Multitask Trajectory Anomaly DetectionAlexandros Stergiou, Brent De Weerdt, Nikos Deligiannis. 6715-6725 [doi]

Interaction Region Visual Transformer for Egocentric Action AnticipationDebaditya Roy, Ramanathan Rajendiran, Basura Fernando. 6726-6736 [doi]

Object-centric Video Representation for Long-term Action AnticipationCe Zhang 0010, Changcheng Fu, Shijie Wang, Nakul Agarwal, Kwonjoon Lee, Chiho Choi, Chen Sun 0009. 6737-6747 [doi]

A Hybrid Graph Network for Complex Activity Detection in VideoSalman Khan 0004, Izzeddin Teeti, Andrew Bradley, Mohamed Elhoseiny, Fabio Cuzzolin. 6748-6758 [doi]

SSVOD: Semi-Supervised Video Object Detection with Sparse AnnotationsTanvir Mahmud, Chun-Hao Liu, Burhaneddin Yaman, Diana Marculescu. 6759-6768 [doi]

Semantic Fusion Augmentation and Semantic Boundary Detection: A Novel Approach to Multi-Target Video Moment RetrievalCheng Huang, Yi-Lun Wu, Hong-Han Shuai, Ching-Chun Huang. 6769-6778 [doi]

A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised Video Anomaly DetectionAnas Al-Lahham, Nurbek Tastan, Muhammad Zaigham Zaheer, Karthik Nandakumar. 6779-6788 [doi]

PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene DataRoei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson. 6789-6801 [doi]

GLAD: Global-Local View Alignment and Background Debiasing for Unsupervised Video Domain Adaptation with Large Domain GapHyogun Lee, Kyungho Bae, Seong Jong Ha, Yumin Ko, Gyeong-Moon Park, Jinwoo Choi 0001. 6802-6811 [doi]

Beyond SOT: Tracking Multiple Generic Objects at OnceChristoph Mayer 0007, Martin Danelljan, Ming-Hsuan Yang 0001, Vittorio Ferrari, Luc Van Gool, Alina Kuznetsova. 6812-6822 [doi]

MFT: Long-Term Tracking of Every PixelMichal Neoral, Jonás Serých, Jirí Matas. 6823-6833 [doi]

Real-Time Weakly Supervised Video Anomaly DetectionHamza Karim, Keval Doshi, Yasin Yilmaz. 6834-6842 [doi]

Single-Image Deblurring, Trajectory and Shape Recovery of Fast Moving Objects with Denoising Diffusion Probabilistic ModelsRadim Spetlík, Denys Rozumnyi, Jirí Matas. 6843-6852 [doi]

Contrastive Learning for Multi-Object Tracking with TransformersPierre-François De Plaen, Nicola Marinello, Marc Proesmans, Tinne Tuytelaars, Luc Van Gool. 6853-6863 [doi]

Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked AutoencodersSrijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit Karmakar, Shyam Marjit, Xiang Li, Abhijit Das 0001, Michael S. Ryoo. 6864-6874 [doi]

JOADAA: joint online action detection and action anticipationMohammed Guermal, Abid Ali 0002, Rui Dai 0001, François Brémond. 6875-6884 [doi]

CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine Context-Guided Motion ReasoningAzin Jahedi, Maximilian Luz, Marc Rivinius, Andrés Bruhn. 6885-6894 [doi]

Weakly-Supervised Representation Learning for Video Alignment and AnalysisGuy Bar-Shalom, George Leifman, Michael Elad. 6895-6904 [doi]

MotionAGFormer: Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer NetworkSoroush Mehraban, Vida Adeli, Babak Taati. 6905-6915 [doi]

Leveraging Synthetic Data to Learn Video Stabilization Under Adverse ConditionsAbdulrahman Kerim, Washington L. S. Ramos, Leandro Soriano Marcolino, Erickson R. Nascimento, Richard Jiang 0001. 6916-6925 [doi]

What's in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary DetectionSourabh Vasant Gothe, Vibhav Agarwal, Sourav Ghosh, Jayesh Rajkumar Vachhani, Pranay Kashyap, Barath Raj Kandur Raja. 6926-6935 [doi]

Learning the What and How of Annotation in Video Object SegmentationThanos Delatolas, Vicky Kalogeiton, Dim P. Papadopoulos. 6936-6946 [doi]

Lightweight Delivery Detection on Doorbell CamerasPirazh Khorramshahi, Zhe Wu, Tianchen Wang, Luke Deluccia, Hongcheng Wang. 6947-6956 [doi]

Spatio-temporal Filter Analysis Improves 3D-CNN For Action ClassificationTakumi Kobayashi 0001, Jiaxing Ye. 6957-6966 [doi]

PMI Sampler: Patch Similarity Guided Frame Selection For Aerial Action RecognitionRuiqi Xian, Xijun Wang, Divya Kothandaraman, Dinesh Manocha. 6967-6976 [doi]

Optimizing Long-Term Robot Tracking with Multi-Platform Sensor FusionGiuliano Albanese, Arka Mitra, Jan-Nico Zaech, Yupeng Zhao, Ajad Chhatkuli, Luc Van Gool. 6977-6987 [doi]

Learnable Cube-based Video Encryption for Privacy-Preserving Action RecognitionYuchi Ishikawa, Masayoshi Kondo, Hirokatsu Kataoka. 6988-6998 [doi]

A*: Atrous Spatial Temporal Action Recognition for Real Time ApplicationsMyeongjun Kim, Federica Spinola, Philipp Benz, Tae Hoon Kim. 6999-7000 [doi]

SEMA: Semantic Attention for Capturing Long-Range Dependencies in Egocentric LifelogsPravin Nagar, K. N. Ajay Shastry, Jayesh Chaudhari, Chetan Arora 0001. 7010-7020 [doi]

Triplet Attention Transformer for Spatiotemporal Predictive LearningXuesong Nie, Xi Chen, Haoyuan Jin, Zhihang Zhu, Yunfeng Yan, Donglian Qi. 7021-7030 [doi]

ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action DetectionThinh Phan, Khoa Vo 0001, Duy Le, Gianfranco Doretto, Donald A. Adjeroh, Ngan Le. 7031-7040 [doi]

Computer Vision on the Edge: Individual Cattle Identification in Real-time with ReadMyCow SystemMoniek Smink, Haotian Liu, Dörte Döpfer, Yong Jae Lee. 7041-7050 [doi]

PlantPlotGAN: A Physics-Informed Generative Adversarial Network for Plant Disease PredictionFelipe A. Lopes, Vasit Sagan, Flavio Esposito. 7051-7060 [doi]

3AD: Semi-supervised Small Apple Detection in Orchard EnvironmentsRobert Johanson, Christian Wilms, Ole Johannsen, Simone Frintrop. 7061-7070 [doi]

Towards Accurate Disease Segmentation in Plant Images: A Comprehensive Dataset Creation and Network EvaluationKomuravelli Prashanth, Jaladi Sri Harsha, Sivapuram Arun Kumar, Jaladi Srilekha. 7071-7079 [doi]

Automated Monitoring of Ear Biting in Pigs by Tracking Individuals and EventsAnicetus Odo, Niall McLaughlin, Ilias Kyriazakis. 7080-7088 [doi]

The Growing Strawberries Dataset: Tracking Multiple Objects with Biological Development over an Extended PeriodJunhan Wen, Camiel R. Verschoor, Chengming Feng, Irina-Mona Epure, Thomas Abeel, Mathijs de Weerdt. 7089-7099 [doi]

Deep Visual-Genetic Biometrics for Taxonomic Classification of Rare SpeciesTayfun Karaderi, Tilo Burghardt, Raphael Morard, Daniela N. Schmidt. 7100-7110 [doi]

Tracking Tiny Insects in Cluttered Natural Environments using Refinable Recurrent Neural NetworksLars Haalck, Sebastian Thiele, Benjamin Risse. 7111-7120 [doi]

BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species Classification and MappingSrikumar Sastry, Subash Khanal, Aayush Dhakal, Di Huang, Nathan Jacobs. 7121-7130 [doi]

SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identificationLukás Adam, Vojtech Cermák, Kostas Papafitsoros, Lukás Picek. 7131-7141 [doi]

Towards a Dynamic Vision Sensor-based Insect Camera TrapEike Gebauer, Sebastian Thiele, Pierre Ouvrard, Adrien Sicard, Benjamin Risse. 7142-7151 [doi]

FishTrack23: An Ensemble Underwater Dataset for Multi-Object TrackingMatthew Dawkins, Jack Prior, Bryon Lewis, Robin Faillettaz, Thompson Banez, Mary Salvi, Audrey K. Rollo, Julien Simon, Matthew D. Campbell, Matthew Lucero, Aashish Chaudhary, Benjamin L. Richards, Anthony Hoogs. 7152-7161 [doi]

Let the Beat Follow You - Creating Interactive Drum Sounds From Body RhythmXiulong Liu, Kun Su, Eli Shlizerman. 7162-7172 [doi]

Interactive Segmentation for Diverse Gesture Types Without ContextJosh Myers-Dean, Yifei Fan, Brian Price, Wilson Chan, Danna Gurari. 7173-7183 [doi]

SemST: Semantically Consistent Multi-Scale Image Translation via Structure-Texture AlignmentGanning Zhao, Wenhui Cui, Suya You, C. C. Jay Kuo. 7184-7194 [doi]

Visual Narratives: Large-scale Hierarchical Classification of Art-historical ImagesMatthias Springstein, Stefanie Schneider, Javad Rahnama, Julian Stalter, Maximilian Kristen, Eric Müller-Budack, Ralph Ewerth. 7195-7205 [doi]

Composite Diffusion: whole >= ΣpartsVikram Jamwal, Ramaneswaran S. 7206-7215 [doi]

The Paleographer's Eye ex machina: Using Computer Vision to Assist Humanists in Scribal Hand IdentificationSamuel Grieggs, C. E. M. Henderson, Sebastian Sobecki, Alexandra Gillespie, Walter J. Scheirer. 7216-7225 [doi]

C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative GapWilliam Theisen, Walter J. Scheirer. 7226-7235 [doi]

CAD - Contextual Multi-modal Alignment for Dynamic AVQAAsmar Nadeem, Adrian Hilton 0001, Robert Dawes, Graham Thomas, Armin Mustafa. 7236-7248 [doi]

ArcAid: Analysis of Archaeological Artifacts using DrawingsOffry Hayon, Stefan Münger, Ilan Shimshoni, Ayellet Tal. 7249-7259 [doi]

Movie Genre Classification by Language Augmentation and Shot SamplingZhongping Zhang, Yiwen Gu, Bryan A. Plummer, Xin Miao, Jiayi Liu, Huayan Wang. 7260-7270 [doi]

Few-Shot Event Classification in Images using Knowledge Graphs for PromptingGolsa Tahmasebzadeh, Matthias Springstein, Ralph Ewerth, Eric Müller-Budack. 7271-7280 [doi]

Towards Diverse and Consistent Typography GenerationWataru Shimoda, Daichi Haraguchi, Seiichi Uchida, Kota Yamaguchi. 7281-7290 [doi]

NeRFEditor: Differentiable Style Decomposition for 3D Scene EditingChunyi Sun, Yanbin Liu, Junlin Han, Stephen Gould. 7291-7300 [doi]

FastCLIPstyler: Optimisation-free Text-based Image Style Transfer Using Style RepresentationsAnanda Padhmanabhan Suresh, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Ukrit Watchareeruetai, Aubin Samacoïts. 7301-7310 [doi]

ArtQuest: Countering Hidden Language Biases in ArtVQATibor Bleidt, Sedigheh Eslami, Gerard de Melo. 7311-7320 [doi]

2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic SegmentationOzan Unal, Dengxin Dai, Lukas Hoyer, Yigit Baran Can, Luc Van Gool. 7321-7330 [doi]

Driving through the Concept Gridlock: Unraveling Explainability Bottlenecks in Automated DrivingJessica Maria Echterhoff, An Yan 0003, Kyungtae Han, Amr Abdelraouf, Rohit Gupta, Julian J. McAuley. 7331-7340 [doi]

StreamMapNet: Streaming Mapping Network for Vectorized Online HD Map ConstructionTianyuan Yuan, Yicheng Liu, Yue Wang 0041, Yilun Wang, Hang Zhao. 7341-7350 [doi]

RGB-X Object Detection via Scene-Specific Fusion ModulesSri Aditya Deevi, Connor Lee, Lu Gan 0006, Sushruth Nagesh, Gaurav Pandey 0004, Soon Jo Chung. 7351-7360 [doi]

NVAutoNet: Fast and Accurate 360° 3D Visual Perception For Self DrivingTrung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank Jujjavarapu, Mehdi Sajjadi, Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang Truong, Chao Fang, Junghyun Kwon, Minwoo Park. 7361-7370 [doi]

MagneticPillars: Efficient Point Cloud Registration through Hierarchized Birds-Eye-View Cell Correspondence RefinementKai Fischer, Martin Simon, Stefan Milz, Patrick Mäder. 7371-7380 [doi]

Have We Ever Encountered This Before? Retrieving Out-of-Distribution Road Obstacles from Driving ScenesYoussef Shoeb, R. Chan, Gesina Schwalbe, Azarm Nowzad, Fatma Güney, Hanno Gottschalk. 7381-7391 [doi]

OVeNet: Offset Vector Network for Semantic SegmentationStamatis Alexandropoulos, Christos Sakaridis, Petros Maragos. 7392-7403 [doi]

BEVMap: Map-Aware BEV Modeling for 3D PerceptionMincheol Chang, Seokha Moon, Reza Mahjourian, Jinkyu Kim. 7404-7413 [doi]

Evaluation of Video Masked Autoencoders' Performance and Uncertainty Estimations for Driver Action and Intention RecognitionKoen Vellenga, H. Joe Steinhauer, Göran Falkman, Tomas Björklund. 7414-7422 [doi]

LidarCLIP or: How I Learned to Talk to Point CloudsGeorg Hess, Adam Tonderski, Christoffer Petersson, Kalle Åström, Lennart Svensson. 7423-7432 [doi]

Self-Supervised Learning for Place Representation Generalization across Appearance ChangesMohamed Adel Musallam, Vincent Gaudillière, Djamila Aouada. 7433-7443 [doi]

PAIR : Perception Aided Image Restoration for Natural Driving ConditionsPranjay Shyam, Hyunjin Yoo. 7444-7455 [doi]

Lightweight Thermal Super-Resolution and Object Detection for Robust Perception in Adverse Weather ConditionsPranjay Shyam, Hyunjin Yoo. 7456-7467 [doi]

Concurrent Band Selection and Traversability Estimation from Long-Wave Hyperspectral Imagery in Off-Road SettingsFlorence Yellin, Scott McCloskey, Cole Hill, Eric Smith, Brian Clipp. 7468-7477 [doi]

RS2G: Data-Driven Scene-Graph Extraction and Embedding for Robust Autonomous Perception and Scenario UnderstandingJunyao Wang, Arnav Vaibhav Malawade, Junhong Zhou, Shih-Yuan Yu, Mohammad Abdullah Al Faruque. 7478-7487 [doi]

Re-VoxelDet: Rethinking Neck and Head Architectures for High-Performance Voxel-based 3D DetectionJae-Keun Lee, Jin-Hee Lee, Joohyun Lee, Soon Kwon, Heechul Jung. 7488-7497 [doi]

Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and ReasoningEnna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li 0001, Mykel J. Kochenderfer, Chiho Choi, Behzad Dariush. 7498-7507 [doi]

Robust Object Detection in Challenging Weather ConditionsHimanshu Gupta, Oleksandr Kotlyar, Henrik Andreasson, Achim J. Lilienthal. 7508-7517 [doi]

Graph(Graph): A Nested Graph-Based Framework for Early Accident AnticipationNupur Thakur, PrasanthSai Gouripeddi, Baoxin Li. 7518-7526 [doi]

Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D Object DetectionWeijia Zhang, Dongnan Liu, Chao Ma, Tom Weidong Cai. 7527-7537 [doi]

Learning Robust Deep Visual Representations from EEG Brain RecordingsPrajwal Singh, Dwip Dalal, Gautam Vashishtha, Krishna P. Miyapuram, Shanmuganathan Raman. 7538-7547 [doi]

Continual atlas-based segmentation of prostate MRIAmin Ranem, Camila González, Daniel Pinto dos Santos, Andreas M. Bucher, Ahmed E. Othman, Anirban Mukhopadhyay 0003. 7548-7557 [doi]

Brainomaly: Unsupervised Neurologic Disease Detection Utilizing Unannotated T1-weighted Brain MR ImagesMd Mahfuzur Rahman Siddiquee, Jay Shah, Teresa Wu, Catherine D. Chong, Todd J. Schwedt, Gina Dumkrieger, Simona Nikolova, Baoxin Li. 7558-7567 [doi]

*Yaopeng Peng, Hongxiao Wang, Milan Sonka, Danny Z. Chen. 7568-7577 [doi]

AnyStar: Domain randomized universal star-convex 3D instance segmentationNeel Dey, S. Mazdak Abulnaga, Benjamin Billot, Esra Abaci Turk, Patricia Ellen Grant, Adrian V. Dalca, Polina Golland. 7578-7588 [doi]

Adaptive Latent Diffusion Model for 3D Medical Image to Image Translation: Multi-modal Magnetic Resonance Imaging StudyJonghun Kim, Hyunjin Park. 7589-7598 [doi]

Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric ImagesWonwoo Cho, Dongmin Choi, Hyesu Lim, Jinho Choi 0005, Saemee Choi, Hyunseok Min, Sungbin Lim, Jaegul Choo. 7599-7608 [doi]

Attention-Guided Prototype Mixing: Diversifying Minority Context on Imbalanced Whole Slide Images Classification LearningFarchan Hakim Raswa, Chun-Shien Lu, Jia-Ching Wang. 7609-7618 [doi]

Are Natural Domain Foundation Models Useful for Medical Image Classification?Joana Palés Huix, Adithya Raju Ganeshan, Johan Fredin Haslum, Magnus Söderberg, Christos Matsoukas, Kevin Smith 0001. 7619-7628 [doi]

Unsupervised Exemplar-Based Image-to-Image Translation and Cascaded Vision Transformers for Tagged and Untagged Cardiac Cine MRI RegistrationMeng Ye 0003, Mikael Kanski, Dong Yang 0005, Leon Axel, Dimitris N. Metaxas. 7629-7639 [doi]

IR-FRestormer: Iterative Refinement with Fourier-Based Restormer for Accelerated MRI ReconstructionMohammad Zalbagi Darestani, Vishwesh Nath, Wenqi Li 0001, Yufan He, Holger R. Roth, Ziyue Xu 0001, Daguang Xu, Reinhard Heckel, Can Zhao 0001. 7640-7649 [doi]

Constrained Probabilistic Mask Learning for Task-specific Undersampled MRI ReconstructionTobias Weber, Michael Ingrisch, Bernd Bischl, David Rügamer. 7650-7659 [doi]

Automated Sperm Assessment Framework and Neural Network Specialized for Sperm Video RecognitionTakuro Fujii, Hayato Nakagawa, Teppei Takeshima, Yasushi Yumura, Tomoki Hamagami. 7660-7669 [doi]

Generalizing to Unseen Domains in Diabetic Retinopathy ClassificationChamuditha Jayanga Galappaththige, Gayal Kuruppu, Muhammad Haris Khan. 7670-7680 [doi]

Dynamic Multimodal Information Bottleneck for Multimodality ClassificationYingying Fang, Shuang Wu, Sheng Zhang, Chaoyan Huang, Tieyong Zeng, Xiaodan Xing, Simon Walsh, Guang Yang 0006. 7681-7691 [doi]

Hybrid Neural Diffeomorphic Flow for Shape Representation and Generation via TriplaneKun Han, Shanlin Sun, Thanh Tung Le, Xiangyi Yan, Haoyu Ma, Chenyu You, Xiaohui Xie. 7692-7702 [doi]

Unsupervised Domain Adaptation of MRI Skull-stripping Trained on Adult Data to NewbornsAbbas Omidi, Aida Mohammadshahi, Neha Gianchandani, Regan King, Lara Leijser, Roberto Souza 0001. 7703-7712 [doi]

G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image SegmentationMd Mostafijur Rahman, Radu Marculescu. 7713-7722 [doi]

Bridging Generalization Gaps in High Content Imaging Through Online Self-Supervised Domain AdaptationJohan Fredin Haslum, Christos Matsoukas, Karl-Johan Leuchowius, Kevin Smith 0001. 7723-7732 [doi]

DR10K: Transfer Learning Using Weak Labels for Grading Diabetic Retinopathy on DR10K DatasetMohamed ElHabebe, Shereen Elkordi, Ahmed Gamal-Eldin, Noha Adly, Marwan Torki, Ahmed Elmasry, Islam SH Ahmed. 7733-7743 [doi]

SCUNet++: Swin-UNet and CNN Bottleneck Hybrid Architecture with Multi-Fusion Dense Skip Connection for Pulmonary Embolism CT Image SegmentationYifei Chen, Binfeng Zou, Zhaoxin Guo, Yiyu Huang, Yifan Huang, Feiwei Qin, Qinhai Li, Changmiao Wang. 7744-7752 [doi]

SynergyNet: Bridging the Gap between Discrete and Continuous Representations for Precise Medical Image SegmentationVandan Gorade, Sparsh Mittal, Debesh Jha, Ulas Bagci. 7753-7762 [doi]

Reverse Knowledge Distillation: Training a Large Model using a Small One for Retinal Image Matching on Limited DataSahar Almahfouz Nasser, Nihar Gupte, Amit Sethi. 7763-7772 [doi]

Activity-based Early Autism Diagnosis Using A Multi-Dataset Supervised Contrastive Learning ApproachAsha Rani, Yashaswi Verma. 7773-7782 [doi]

Convolutional Masked Image Modeling for Dense Prediction Tasks on Pathology ImagesYan Yang, Liyuan Pan, Liu Liu 0009, Eric A. Stone. 7783-7793 [doi]

Real-Time Polyp Detection in Colonoscopy using Lightweight TransformerYoungbeom Yoo, Jae Young Lee, Dong-Jae Lee, Jiwoon Jeon, Junmo Kim. 7794-7804 [doi]

Self-Supervised Learning with Masked Autoencoders for Teeth Segmentation from Intra-oral 3D ScansAmani Almalki, Longin Jan Latecki. 7805-7815 [doi]

Self-Supervised Edge Detection Reconstruction for Topology-Informed 3D Axon Segmentation and Centerline DetectionAlec S. Xu, Nina I. Shamsi, Lars A. Gjesteby, Laura J. Brattain. 7816-7824 [doi]

Robust Source-Free Domain Adaptation for Fundus Image SegmentationLingrui Li, Yanfeng Zhou, Ge Yang 0002. 7825-7834 [doi]

I-AI: A Controllable & Interpretable AI System for Decoding Radiologists' Intense Focus for Accurate CXR DiagnosesTrong-Thang Pham, Jacob Brecheisen, Anh Nguyen 0003, Hien Nguyen, Ngan Le. 7835-7844 [doi]

FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image SegmentationWenxuan Wang, Jing Wang, Chen Chen 0001, Jianbo Jiao, Yuanxiu Cai, Shanshan Song, Jiangyun Li. 7845-7855 [doi]

Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical Volumetric SegmentationHaoran Shen, Yifu Zhang, Wenxuan Wang, Chen Chen, Jing Liu, Shanshan Song, Jiangyun Li. 7856-7866 [doi]

Ordinal Classification with Distance Regularization for Robust Brain Age PredictionJay Shah, Md Mahfuzur Rahman Siddiquee, Yi Su, Teresa Wu, Baoxin Li. 7867-7876 [doi]

CryoRL: Reinforcement Learning Enables Efficient Cryo-EM Data CollectionQuanfu Fan, Yilai Li, Yuguang Yao, John Cohn, Sijia Liu 0001, Ziping Xu, Seychelle M. Vos, Michael A. Cianfrocco. 7877-7887 [doi]

Prototype Learning for Explainable Brain Age PredictionLinde S. Hesse, Nicola K. Dinsdale, Ana I. L. Namburete. 7888-7898 [doi]

BigSmall: Efficient Multi-Task Learning for Disparate Spatial and Temporal Physiological MeasurementsGirish Narayanswamy, Yujia Liu, Yuzhe Yang, Chengqian Ma, Xin Liu, Daniel McDuff, Shwetak N. Patel. 7899-7909 [doi]

Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-LearningTianang Leng, Yiming Zhang, Kun Han, Xiaohui Xie. 7910-7920 [doi]

Controllable Text-to-Image Synthesis for Multi-Modality MR ImagesKyuri Kim, Yoonho Na, Sung-Joon Ye, Jimin Lee, Sungsoo Ahn, Ji Eun Park, Hwiyoung Kim. 7921-7930 [doi]

SC-MIL: Supervised Contrastive Multiple Instance Learning for Imbalanced Classification in PathologyDinkar Juyal, Siddhant Shingi, Syed Ashar Javed, Harshith Padigela, Chintan Shah, Anand Sampat, Archit Khosla, John Abel, Amaro Taylor-Weiner. 7931-7940 [doi]

FATE: Feature-Agnostic Transformer-based Encoder for learning generalized embedding spaces in flow cytometry dataLisa Weijler, Florian Kowarsch, Michael Reiter, Pedro Hermosilla, Margarita Maurer-Granofszky, Michael N. Dworzak. 7941-7949 [doi]

Dual Domain Diffusion Guidance for 3D CBCT Metal Artifact ReductionYongjin Choi, Doeyoung Kwon, Seung Jun Baek. 7950-7959 [doi]

AFTer-SAM: Adapting SAM with Axial Fusion Transformer for Medical Imaging SegmentationXiangyi Yan, Shanlin Sun, Kun Han, Thanh Tung Le, Haoyu Ma, Chenyu You, Xiaohui Xie. 7960-7969 [doi]

MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp SegmentationNhat-Tan Bui, Dinh-Hieu Hoang, Quang-Thuc Nguyen, Minh-Triet Tran, Ngan Le. 7970-7979 [doi]

Complex Organ Mask Guided Radiology Report GenerationTiancheng Gu, Dongnan Liu, Zhiyuan Li, Weidong Cai 0001. 7980-7989 [doi]

Improved Topological Preservation in 3D Axon Segmentation and Centerline Detection using Geometric Assessment-driven Topological Smoothing (GATS)Nina I. Shamsi, Alec S. Xu, Lars A. Gjesteby, Laura J. Brattain. 7990-7999 [doi]

CoD: Coherent Detection of Entities from Images with Multiple ModalitiesVinay Kumar Verma, Dween Rabius Sanny, Abhishek Singh, Deepak Gupta. 8000-8009 [doi]

DTrOCR: Decoder-only Transformer for Optical Character RecognitionMasato Fujitake. 8010-8020 [doi]

DECDM: Document Enhancement using Cycle-Consistent Diffusion ModelsJiaxin Zhang, Joy Rimchala, Lalla Mouatadid, Kamalika Das, Kumar Sricharan. 8021-8030 [doi]

LipAT: Beyond Style Transfer for Controllable Neural Simulation of Lipstick using Cosmetic AttributesAmila Silva, Olga Moskvyak, Alexander Long, Ravi Garg, Stephen Gould, Gil Avraham, Anton van den Hengel. 8031-8040 [doi]

Learning Visual Body-shape-Aware Embeddings for Fashion CompatibilityKaicheng Pang, Xingxing Zou, Waikeung Wong. 8041-8050 [doi]

Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit RetrievalJunKyu Jang, Eugene Hwang, Sung Hyuk Park. 8051-8060 [doi]

TAMPAR: Visual Tampering Detection for Parcel Logistics in Postal Supply ChainsAlexander Naumann, Felix Hertlein, Laura Dörr, Kai Furmans. 8061-8071 [doi]

MAdVerse: A Hierarchical Dataset of Multi-Lingual Ads from Diverse Sources and CategoriesAmruth Sagar, Rishabh Srivastava, Rakshitha R. T, Venkata Kesav Venna, Ravi Kiran Sarvadevabhatla. 8072-8081 [doi]

FOUND: Foot Optimization with Uncertain Normals for Surface Deformation Using Synthetic DataOliver Boyne, Gwangbin Bae, James Charles, Roberto Cipolla. 8082-8091 [doi]

Iterative Multi-granular Image Editing using Diffusion ModelsK. J. Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal, Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan. 8092-8101 [doi]

MIVC: Multiple Instance Visual Component for Visual-Language ModelsWenyi Wu, Qi Li, Wenliang Zhong, JunZhou Huang. 8102-8111 [doi]

A One-Shot Learning Approach to Document Layout Segmentation of Ancient Arabic ManuscriptsAxel De Nardin, Silvia Zottin, Claudio Piciarelli, Emanuela Colombi, Gian Luca Foresti. 8112-8121 [doi]

Real-time 6-DoF Pose Estimation by an Event-based Camera using Active LED MarkersGerald Ebmer, Adam Loch, Minh Nhat Vu, Roberto Mecca, Germain Haessig, Christian Hartl-Nesic, Markus Vincze, Andreas Kugi. 8122-8131 [doi]

Spiking Neural Networks for Active Time-Resolved SPAD ImagingYang Lin, Edoardo Charbon. 8132-8141 [doi]

Robust TRISO-fueled Pebble Identification by Digit RecognitionRoshan Kenia, Jihane Mendil, Ahmed Jasim, Muthanna Al-Dahhan, Zhaozheng Yin. 8142-8150 [doi]

CATS: Combined Activation and Temporal Suppression for Efficient Network InferenceZeqi Zhu, Arash Pourtaherian, Luc Waeijen, Ibrahim Batuhan Akkaya, Egor Bondarev, Orlando Moreira. 8151-8160 [doi]

*Ryan Rad. 8161-8168 [doi]

FIRE: Food Image to REcipe generationPrateek Chhikara, Dhiraj Chaurasia, Yifan Jiang 0001, Omkar Masur, Filip Ilievski. 8169-8179 [doi]

Online Class-Incremental Learning For Real-World Food Image ClassificationSiddeshwar Raghavan, Jiangpeng He, Fengqing Zhu 0001. 8180-8189 [doi]

LibreFace: An Open-Source Toolkit for Deep Facial Expression AnalysisDi Chang, Yufeng Yin 0002, Zongjian Li, Minh Tran 0004, Mohammad Soleymani 0001. 8190-8200 [doi]

Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive FieldsZahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu. 8201-8210 [doi]

DREAM: Visual Decoding from REversing HumAn Visual SysteMWeihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue. 8211-8220 [doi]

MarsLS-Net: Martian Landslides Segmentation Network and Benchmark DatasetSidike Paheding, Abel A. Reyes, A. Rajaneesh, K. S. Sajinkumar, Thomas Oommen. 8221-8230 [doi]

Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection: A DifferNet Case StudyAndré Luiz Buarque Vieira e Silva, Francisco Simões, Danny Kowerko, Tobias Schlosser, Felipe Battisti, Veronica Teichrieb. 8231-8240 [doi]

CHAI: Craters in Historical Aerial ImagesMarvin Burges, Sebastian Zambanini, Philipp Pirker. 8241-8250 [doi]

ShadowSense: Unsupervised Domain Adaptation and Feature Fusion for Shadow-Agnostic Tree Crown Detection from RGB-Thermal Drone ImageryRudraksh Kapil, Seyed Mojtaba Marvasti-Zadeh, Nadir Erbilgin, Nilanjan Ray. 8251-8261 [doi]

WATCH: Wide-Area Terrestrial Change HypercubeConnor Greenwell, Jon Crall, Matthew Purri, Kristin J. Dana, Nathan Jacobs, Armin Hadzic, Scott Workman, Matthew J. Leotta. 8262-8271 [doi]

SyntheWorld: A Large-Scale Synthetic Dataset for Land Cover Mapping and Building Change DetectionJian Song, Hongruixuan Chen, Naoto Yokoya. 8272-8281 [doi]

Seeing Stars: Learned Star Localization for Narrow-Field AstrometryViolet Felt, Justin Fletcher. 8282-8290 [doi]

Deep Optics for Optomechanical Control Policy DesignJustin Fletcher. 8291-8300 [doi]

A Visual Active Search Framework for Geospatial ExplorationAnindya Sarkar, Michael Lanier, Scott Alfeld, Jiarui Feng, Roman Garnett, Nathan Jacobs, Yevgeniy Vorobeychik. 8301-8310 [doi]

Revolutionize the Oceanic Drone RGB Imagery with Pioneering Sun Glint Detection and Removal TechniquesJiangying Qin, Ming Li, Jie Zhao, Jiageng Zhong, Hanqi Zhang. 8311-8320 [doi]

Multimodal Deep Learning for Remote Stress Estimation Using CCT-LSTMSayyedjavad Ziaratnia, Tipporn Laohakangvalvit, Midori Sugaya, Peeraya Sripian. 8321-8329 [doi]

Defense against Adversarial Cloud Attack on Remote Sensing Salient Object DetectionHuiming Sun, Lan Fu, Jinlong Li, Qing Guo 0005, Zibo Meng, Tianyun Zhang, Yuewei Lin, Hongkai Yu. 8330-8339 [doi]

Segment anything, from space?Simiao Ren, Francesco Luzi, Saad Lahrichi, Kaleb Kassaw, Leslie M. Collins, Kyle Bradbury, Jordan M. Malof. 8340-8350 [doi]

Prototypical Contrastive Network for Imbalanced Aerial Image SegmentationKeiller Nogueira, Mayara Maezano Faita Pinheiro, Ana Paula Marques Ramos, Wesley Nunes Gonçalves, José Marcato Junior, Jefersson A. dos Santos. 8351-8361 [doi]

Object Re-Identification from Point CloudsBenjamin Thérien, Chengjie Huang, Adrian Chow, Krzysztof Czarnecki 0001. 8362-8373 [doi]

Shape from Shading for Robotic ManipulationArkadeep Narayan Chaudhury, Leonid Keselman, Christopher G. Atkeson. 8374-8383 [doi]

FinderNet: A Data Augmentation Free Canonicalization aided Loop Detection and Closure technique for Point clouds in 6-DOF separationSudarshan S. Harithas, Gurkirat Singh, Aneesh Chavan, Sarthak Sharma, Suraj Patni, Chetan Arora 0001, K. Madhava Krishna. 8384-8393 [doi]

From Chaos to Calibration: A Geometric Mutual Information Approach to Target-Free Camera LiDAR Extrinsic CalibrationJack Borer, Jeremy Tschirner, Florian Ölsner, Stefan Milz. 8394-8403 [doi]

Continual Learning of Unsupervised Monocular Depth from VideosHemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz. 8404-8414 [doi]

Classifying Cable Tendency with Semantic Segmentation by Utilizing Real and Simulated RGB DataPei-Chun Chien, Powei Liao, Eiji Fukuzawa, Jun Ohya. 8415-8423 [doi]

Multi-Class Segmentation from Aerial Views using Recursive Noise DiffusionBenedikt Kolbeinsson, Krystian Mikolajczyk. 8424-8434 [doi]

Efficient Layout-Guided Image Inpainting for Mobile UseWenbo Li 0001, Yi Wei, Yilin Shen, Hongxia Jin. 8435-8444 [doi]

Edge Inference with Fully Differentiable Quantized Mixed Precision Neural NetworksClemens J. S. Schaefer, Siddharth Joshi, Shan Li, Raúl Blázquez. 8445-8454 [doi]

POP-VQA - Privacy preserving, On-device, Personalized Visual Question AnsweringPragya Paramita Sahu, Abhishek Raut, Jagdish Singh Samant, Mahesh Gorijala, Vignesh Lakshminarayanan, Pinaki Bhaskar. 8455-8464 [doi]

Sketch-based Video Object LocalizationSangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee, Changick Kim. 8465-8474 [doi]

Feed-Forward Latent Domain AdaptationOndrej Bohdal, Da Li 0001, Shell Xu Hu, Timothy M. Hospedales. 8475-8484 [doi]

BSRAW: Improving Blind RAW Image Super-ResolutionMarcos V. Conde, Florin-Alexandru Vasluianu, Radu Timofte. 8485-8495 [doi]

Tracking Skiers from the Top to the BottomMatteo Dunnhofer, Luca Sordi, Niki Martinel, Christian Micheloni. 8496-8506 [doi]

Salient Object Detection for Images Taken by People With Vision ImpairmentsJarek Reynolds, Chandra Kanth Nagesh, Danna Gurari. 8507-8516 [doi]

Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modalityJialin Yuan, Ye Yu 0003, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei Chen. 8517-8527 [doi]

Privacy-Enhancing Person Re-identification Framework - A Dual-Stage ApproachKajal Kansal, Yongkang Wong, Mohan S. Kankanhalli. 8528-8537 [doi]

Toward Planet-Wide Traffic Camera CalibrationKhiem Vuong, Robert Tamburo, Srinivasa G. Narasimhan. 8538-8547 [doi]

VideoFACT: Detecting Video Forgeries Using Attention, Scene Context, and Forensic TracesTai D. Nguyen, Shengbang Fang, Matthew C. Stamm. 8548-8558 [doi]

OE-CTST: Outlier-Embedded Cross Temporal Scale Transformer for Weakly-supervised Video Anomaly DetectionSnehashis Majhi, Rui Dai 0001, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Brémond. 8559-8568 [doi]

NOMAD: A Natural, Occluded, Multi-scale Aerial Dataset, for Emergency Response ScenariosArturo Miguel Russell Bernal, Walter J. Scheirer, Jane Cleland-Huang. 8569-8580 [doi]

PreciseDebias: An Automatic Prompt Engineering Approach for Generative AI to Mitigate Image Demographic BiasesColton Clemmer, Junhua Ding, Yunhe Feng. 8581-8590 [doi]

P-Age: Pexels Dataset for Robust Spatio-Temporal Apparent Age ClassificationAbid Ali 0002, Ashish Marisetty, François Brémond. 8591-8600 [doi]

Learning to Read Analog Gauges from Synthetic DataJuan Leon Alcazar, Yazeed Alnumay, Cheng Zheng 0003, Hassane Trigui, Sahejad Patel, Bernard Ghanem. 8601-8610 [doi]

dacl10k: Benchmark for Semantic Bridge Damage SegmentationJohannes Flotzinger, Philipp Jonas Rösch, Thomas Braml. 8611-8620 [doi]

Designing a Hybrid Neural System to Learn Real-world Crack Segmentation from Fractal-based SimulationAchref Jaziri, Martin Mundt, Andres Fernandez Rodriguez, Visvanathan Ramesh. 8621-8631 [doi]

Zero-shot Building Attribute Extraction from Large-Scale Vision and Language ModelsFei Pan, Sangryul Jeon, Brian Wang, Frank McKenna, Stella X. Yu. 8632-8641 [doi]

Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric VideosSanket Kumar Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue. 8642-8651 [doi]

Volumetric Disentanglement for 3D Scene ManipulationSagie Benaim, Frederik Warburg, Peter Ebert Christensen, Serge J. Belongie. 8652-8662 [doi]

StyleAvatar: Stylizing Animatable Head AvatarsJuan C. Pérez, Thu Nguyen-Phuoc, Chen Cao, Artsiom Sanakoyeu, Tomas Simon, Pablo Arbeláez, Bernard Ghanem, Ali K. Thabet, Albert Pumarola. 8663-8672 [doi]

Show Your Face: Restoring Complete Facial Images from Partial Observations for VR MeetingZheng Chen, Zhiqi Zhang, Junsong Yuan, Yi Xu, Lantao Liu. 8673-8682 [doi]

PressureVision++: Estimating Fingertip Pressure from Diverse RGB ImagesPatrick Grady, Jeremy A. Collins, Chengcheng Tang, Christopher D. Twigg, Kunal Aneja, James Hays, Charles C. Kemp. 8683-8693 [doi]

A Generative Multi-Resolution Pyramid and Normal-Conditioning 3D Cloth DrapingHunor Laczkó, Meysam Madadi, Sergio Escalera, Jordi Gonzàlez 0001. 8694-8703 [doi]

Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended RealityZiang Cheng, Jiayu Yang, Hongdong Li. 8704-8713 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2024, Waikoloa, HI, USA, January 3-8, 2024

Abstract

Table of Contents