Proceedings of the 2024 International Conference on Multimedia Retrieval, ICMR 2024, Phuket, Thailand, June 10-14, 2024 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Cathal Gurrin, Rachada Kongkachandra, Klaus Schoeffmann, Duc-Tien Dang-Nguyen, Luca Rossetto, Shin'ichi Satoh 0001, Liting Zhou, editors, Proceedings of the 2024 International Conference on Multimedia Retrieval, ICMR 2024, Phuket, Thailand, June 10-14, 2024. ACM, 2024. [doi]

Conference: mir2024

Abstract is missing.

Multimodal Prototype-Enhanced Network for Few-Shot Action RecognitionXinzhe Ni, Yong Liu, Hao Wen 0005, Yatai Ji, Jing Xiao 0006, Yujiu Yang. 1-10 [doi]

BeatDance: A Beat-Based Model-Agnostic Contrastive Learning Framework for Music-Dance RetrievalKaiXing Yang, Xukun Zhou, Xulong Tang, Ran Diao, Hongyan Liu 0002, Jun He 0008, Zhaoxin Fan. 11-19 [doi]

Triadic Elastic Structure Representation for Open-Set Incremental 3D Object RetrievalYang Xu, Yifan Feng, Lin Bie. 20-28 [doi]

Dynamic Segmentation for Efficient Retrieval of Podcasts: The Repping AlgorithmStephan Repp, Ernst Georg Haffner. 29-36 [doi]

PoseRec: 3D Human Pose Driven Online Advertisement Recommendation for Micro-videosZhaoxin Fan, Fengxin Li, Hongyan Liu 0002, Jun He 0008, Xiaoyong Du 0001. 37-45 [doi]

Progressive Multi-modal Conditional Prompt TuningXiaoyu Qiu, Hao Feng, Yuechen Wang, Wengang Zhou, Houqiang Li. 46-54 [doi]

ACR-Pose: Adversarial Canonical Representation Reconstruction Network for Category Level 6D Object Pose EstimationZhaoxin Fan, Zhenbo Song, Zhicheng Wang, Jian Xu, Kejian Wu, Hongyan Liu 0002, Jun He 0008. 55-63 [doi]

GSD-GNN: Generalizable and Scalable Algorithms for Decoupled Graph Neural NetworksYunfeng Yu, Longlong Lin, Qiyu Liu, Zeli Wang, Xi Ou, Tao Jia. 64-72 [doi]

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept BankJiaxin Wu, Chong-Wah Ngo, Wing Kwong Chan. 73-82 [doi]

HashNeck is a Boosting Tool for Deep Learning to HashingHua Gao, Chenchen Hu, Guang Han 0002, Jiafa Mao, Wei Huang, Kaiyuan Wan. 83-91 [doi]

Fine-grained Semantics-aware Representation Learning for Text-based Person RetrievalDi Wang, Feng Yan, Yifeng Wang, Lin Zhao, Xiao Liang, Haodi Zhong, Ronghua Zhang. 92-100 [doi]

CMFF-Face: Attention-Based Cross-Modal Feature Fusion for High-Quality Audio-Driven Talking Face GenerationGuangzhe Zhao, Yanan Liu, Xueping Wang, Feihu Yan. 101-110 [doi]

Learning from Reduced Labels for Long-Tailed DataMeng Wei, Zhongnian Li, Yong Zhou, Xinzheng Xu. 111-119 [doi]

Fingerprinting in EEG Model IP Protection Using Diffusion ModelTianyi Wang 0007, Shenghua Zhong. 120-128 [doi]

MarginFinger: Controlling Generated Fingerprint Distance to Classification boundary Using Conditional GANsWeixing Liu, Shenghua Zhong. 129-136 [doi]

Improve Deep Hashing with Language Guidance for Unsupervised Image RetrievalChuang Zhao, Hefei Ling, Shijie Lu, Yuxuan Shi, Jiazhong Chen, Ping Li 0021. 137-145 [doi]

Exploiting Degradation Prior for Personalized Federated Learning in Real-World Image Super-ResolutionYue Yang, Liangjun Ke. 146-154 [doi]

QAVidCap: Enhancing Video Captioning through Question Answering TechniquesHui Liu, Xiaojun Wan 0001. 155-164 [doi]

Targeted Universal Adversarial Attack on Deep Hash NetworksFanlei Meng, Xiangru Chen, Yuan Cao. 165-174 [doi]

Enhancing Class-Incremental Learning for Image Classification via Bidirectional Transport and Selective MomentumFeifei Fu, Yizhao Gao, Zhiwu Lu 0001. 175-183 [doi]

Smart Fitting Room: A One-stop Framework for Matching-aware Virtual Try-OnMingzhe Yu, Yunshan Ma, Lei Wu, Kai Cheng, Xue Li, Lei Meng, Tat-Seng Chua. 184-192 [doi]

Secure Verification Encrypted Image Retrieval Scheme with Addition Homomorphic Bitmap IndexMingyue Li, Yuting Zhu, Ruizhong Du, Chunfu Jia. 193-201 [doi]

A Novel Auxiliary Task Framework in 3D Human Pose Estimation for Opera VideosXingquan Cai, Haoyu Zhang, Shanshan He, Haoyu Song 0005, Haiyan Sun. 202-210 [doi]

Anchor-aware Deep Metric Learning for Audio-visual RetrievalDonghuo Zeng, Yanan Wang 0002, Kazushi Ikeda, Yi Yu 0001. 211-219 [doi]

Dynamic Soft Labeling for Visual Semantic EmbeddingJiaao Yu, Yunlai Ding, Junyu Dong, Yuezun Li. 220-228 [doi]

Navigating Style Variations in Scene Text Image Super-Resolution through Multi-Scale PerceptionFeifei Xu, Ziheng Yu. 229-238 [doi]

ExpoGenius: Robust Personalized Human Image Generation using Diffusion Model for Exposure Variation and Pose TransferDepei Liu, Hongjie Fan, Junfei Liu. 239-247 [doi]

Vector-Aware Anisotropic Gauge Equivariant Mesh Convolution Network for 3D Aneurysm DetectionXudong Ru, Haichuan Zhao, Xingce Wang, Zhongke Wu, Shaolong Liu, Yi-Cheng Zhu, Alejandro F. Frangi. 248-256 [doi]

NeurNCD: Novel Class Discovery via Implicit Neural RepresentationJunming Wang, Yi Shi. 257-265 [doi]

Image-to-Point Registration via Cross-Modality Correspondence RetrievalLin Bie, Siqi Li, Kai Cheng. 266-274 [doi]

TWIST: Text-only Weakly Supervised Scene Text Spotting Using Pseudo LabelsLilong Wen, Xiu Tang, Dongxiang Zhang. 275-284 [doi]

A Graph Convolution Network with a POS-aware Filter and Context Enhancement Mechanism for Event DetectionXintao Jiao, Jiansheng Chen, Jiale Liu. 285-292 [doi]

Bringing Video Browsing to Virtual Reality: Empirical Evaluation of a Novel Multimedia DrawerFlorian Spiess 0001, Nicolas Scharowski, Ariane Haller, Zgjim Memeti, Heiko Schuldt, Florian Brühlmann. 293-301 [doi]

Generative Data Augmentation with Liveness Information Preserving for Face Anti-SpoofingChanggu Chen, Yang Li, Jian Zhang, Jiali Liu, Changbo Wang. 302-310 [doi]

Known-Item Search in Video: An Eye Tracking-Based StudyLucas Joos, Bastian Jäckl, Daniel A. Keim, Maximilian T. Fischer, Ladislav Peska, Jakub Lokoc. 311-319 [doi]

Pseudo Content Hallucination for Unpaired Image CaptioningHuixia Ben, Shuo Wang, Meng Wang, Richang Hong. 320-329 [doi]

Deep Image Clustering Based on Curriculum Learning and Density InformationHaiyang Zheng, Ruilin Zhang, Hongpeng Wang. 330-338 [doi]

CodeDetector: Revealing Forgery Traces with Codebook for Generalized Deepfake DetectionJiaxin Li, Zhihan Yu, Guibo Luo, Yuesheng Zhu. 339-347 [doi]

Text Adversarial Defense via Granular-Ball Sample EnhancementZeli Wang, Jian Li, Shuyin Xia, Longlong Lin, Guoyin Wang 0001. 348-356 [doi]

RAIN: Combating Textual Label Noise by Granular-ball based Robust TrainingZeli Wang, Tuo Zhang, Shuyin Xia, Longlong Lin, Guoyin Wang. 357-365 [doi]

Multi-modal Entity Alignment via Position-enhanced Multi-label PropagationWei Tang 0013, Yuanyi Wang. 366-375 [doi]

Retrieval-Augmented Audio Deepfake DetectionZuheng Kang, Yayun He, Botao Zhao 0001, Xiaoyang Qu, Junqing Peng, Jing Xiao 0006, Jianzong Wang. 376-384 [doi]

Multi-view Counterfactual Contrastive Learning for Fact-checking Fake News DetectionYongcheng Zhang, Lingou Kong, sheng Tian, Hao Fei, Changpeng Xiang, Huan Wang, Xiaomei Wei. 385-393 [doi]

Improving Video Corpus Moment Retrieval with Partial Relevance EnhancementDanyang Hou, Liang Pang, Huawei Shen, Xueqi Cheng. 394-403 [doi]

Context or Clutter? Efficiently Matching Objects Across ScenesAlbatool Wazzan, Imtiaz Ahmad, Stephen MacNeil, Richard Souvenir. 404-413 [doi]

A Lightweight Surface Defect Segmentation Network with External Semantics and High-frequency InformationTianpeng Zhang, Xuesong Jiang. 414-422 [doi]

Monocular Expressive 3D Human Reconstruction of Multiple PeopleZhenghao Zhao, Hao Tang, Joy Wan, Yan Yan 0002. 423-432 [doi]

A Causal View for Multi-Interest User Modeling in News RecommendationMei Yu, Xiaoxi Zhou, Mankun Zhao, Tianyi Xu, Yue Zhao, Ruiguo Yu, Xuewei Li 0001. 433-441 [doi]

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor DetectionYang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li, Guodong Zhou. 442-450 [doi]

Calibration & Reconstruction: Deeply Integrated Language for Referring Image SegmentationYichen Yan, Xingjian He, Sihan Chen, Jing Liu. 451-459 [doi]

A Parallel Transformer Framework for Video Moment RetrievalThao-Nhu Nguyen, Zongyao Li, Satoshi Yamazaki, Jianquan Liu, Cathal Gurrin. 460-468 [doi]

VEC-MNER: Hybrid Transformer with Visual-Enhanced Cross-Modal Multi-level Interaction for Multimodal NERPengfei Wei, Hongjun Ouyang, Qintai Hu, Bi Zeng, Guang Feng, Qingpeng Wen. 469-477 [doi]

Causal Inference-based Few-Shot Class-Incremental LearningWeiwei Zhou, Guoqiang Xiao 0001, Michael S. Lew, Song Wu 0003. 478-487 [doi]

ELSEIR: A Privacy-Preserving Large-Scale Image Retrieval Framework for Outsourced Data SharingZixin Tang, Haihui Fan, Xiaoyan Gu, Yang Li, Bo Li, Xin Wang. 488-496 [doi]

S2F-Net: Shared-Specific Fusion Network for Infrared and Visible Image FusionYijing Zhao, Yuchao Xia, Yi Ding, Yumeng Liu, Shuai Liu, Hongan Wang. 497-505 [doi]

Identification of Speaker Roles and Situation Types in News VideosGullal S. Cheema, Judi Arafat, Chiao-I Tseng, John A. Bateman, Ralph Ewerth, Eric Müller-Budack. 506-514 [doi]

Retrieving Emotional Stimuli in ArtworksTianwei Chen, Noa Garcia, Liangzhi Li 0001, Yuta Nakashima. 515-523 [doi]

CGI-MRE: A Comprehensive Genetic-Inspired Model For Multimodal Relation ExtractionPengfei Wei, Zhaokang Huang, Hongjun Ouyang, Qintai Hu, Bi Zeng, Guang Feng. 524-532 [doi]

Speak From Heart: An Emotion-Guided LLM-Based Multimodal Method for Emotional Dialogue GenerationChenxiao Liu, Zheyong Xie, Sirui Zhao, Jin Zhou, Tong Xu, Minglei Li, Enhong Chen. 533-542 [doi]

Multi-Source Augmentation and Composite Prompts for Visual Recognition with Missing ModalityZhirui Kuai, Yulu Zhou, Qi Xie, Li Kuang. 543-551 [doi]

TriMPL: Masked Multi-Prompt Learning with Knowledge Mixing for Vision-Language Few-shot LearningXiangyu Liu, Yanlei Shang, Yong Chen. 552-560 [doi]

Prompt Expending for Single Positive Multi-Label Learning with Global Unannotated CategoriesZhongnian Li, Peng Ying, Meng Wei, Tongfeng Sun, Xinzheng Xu. 561-569 [doi]

Semantic-guided RGB-Thermal Crowd Counting with Segment Anything ModelYaqun Fang, Yi Shi, Jia Bei, Tongwei Ren. 570-578 [doi]

Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt LearningRuiqi Wu, Bingliang Jiao, Wenxuan Wang, Meng Liu, Peng Wang. 579-588 [doi]

Visibility-guided Human Body Reconstruction from Uncalibrated Multi-view CamerasZhenyu Xie, Huanyu He, Gui Zou, Jie Wu, Guoliang Liu, Jun Zhao, Yingxue Wang, Hui Lin, Weiyao Lin. 589-598 [doi]

FEST: A Multi-way Framework with Enhanced Spatial-Temporal Modeling for Traffic ForecastingYilin Li, Tszyin Guo, Ying Qiao, Zitong Bo, Hongan Wang. 599-607 [doi]

SamCap: Energy-based Controllable Image Captioning by Gradient-Based SamplingYuchen Niu, Min Zhu, Zhihua Wei. 608-617 [doi]

PTAN: Principal Token-aware Adjacent Network for Compositional Temporal GroundingZhuoyuan Wei, Xun Jiang, Zheng Wang, Fumin Shen, Xing Xu 0001. 618-627 [doi]

A Hybrid Few-Shot Image Classification Framework Combining Gaussian Modeling and Label PropagationChao Ye, Qian Wang, Lanfang Dong. 628-637 [doi]

A Sentimental Prompt Framework with Visual Text Encoder for Multimodal Sentiment AnalysisShizhou Huang, Bo Xu, Changqun Li, Jiabo Ye, Xin Lin. 638-646 [doi]

Component-Level Oracle Bone Inscription RetrievalZhikai Hu, Yiu-ming Cheung, Yonggang Zhang, Peiying Zhang, Pui-ling Tang. 647-656 [doi]

An Exploration Graph with Continuous Refinement for Efficient Multimedia RetrievalNico Hezel, Kai-Uwe Barthel, Konstantin Schall, Klaus Jung. 657-665 [doi]

Intra and Inter-modality Incongruity Modeling and Adversarial Contrastive Learning for Multimodal Fake News DetectionSiqi Wei, Bin Wu 0001. 666-674 [doi]

CoDancers: Music-Driven Coherent Group Dance Generation with Choreographic UnitKaiXing Yang, Xulong Tang, Ran Diao, Hongyan Liu 0002, Jun He 0008, Zhaoxin Fan. 675-683 [doi]

Federated Multi-Task Learning on Non-IID Data Silos: An Experimental StudyYuwen Yang, Yuxiang Lu, Suizhi Huang, Shalayiding Sirejiding, Hongtao Lu, Yue Ding 0001. 684-693 [doi]

Refracting Once is Enough: Neural Radiance Fields for Novel-View Synthesis of Real Refractive ObjectsXiaoqian Liang, Jianji Wang, Yuanliang Lu, Xubin Duan, Xichun Liu, Nanning Zheng 0001. 694-703 [doi]

Team HUGE: Image-Text Matching via Hierarchical and Unified Graph EnhancingBo Li, You Wu, Zhixin Li 0001. 704-712 [doi]

MFVG: A Visual Grounding Network with Multi-scale FusionPeijia Chen, Ke Qi, Xi Tao, Wenhao Xu, Jingdong Zhang 0002. 713-721 [doi]

When Handcrafted Filter Meets CNN: A Lightweight Conv-Filter Mixer Network for Efficient Image Super-ResolutionZhijian Wu, Wenhui Liu, Dingjiang Huang. 722-730 [doi]

Modality-specific and -shared Contrastive Learning for Sentiment AnalysisDahuang Liu, Jiuxiang You, Guobo Xie, Lap-Kei Lee, Fu Lee Wang, Zhenguo Yang. 731-739 [doi]

Pyramidal Cross-Modal Transformer with Sustained Visual Guidance for Multi-Label Image ClassificationZhuohua Li, Ruyun Wang, Fuqing Zhu, Jizhong Han, Songlin Hu. 740-748 [doi]

SFAM: Lightweight Spectrum Unreferenced Attention NetworkXuanhao Qi, Min Zhi, Yanjun Yin, Ping Ping, Yuening Zhang. 749-757 [doi]

FaceX: Understanding Face Attribute Classifiers through Summary Model ExplanationsIoannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Christos Diou. 758-766 [doi]

Low-Light Image Enhancement via Weighted Low-Rank Tensor Regularized Retinex ModelWeipeng Yang, Hongxia Gao, Wenbin Zou, Tongtong Liu, Shasha Huang, Jianliang Ma. 767-775 [doi]

Multi-view Subspace Clustering via An Adaptive Consensus Graph FilterLai Wei, Shanshan Song. 776-784 [doi]

Pattern4Ego: Learning Egocentric Video Representation Using Cross-video Activity PatternsRuihai Wu, Yourong Zhang, Yu Qi, Andy Guanhong Chen, Hao Dong 0003. 785-794 [doi]

Contrastive Pre-training with Multi-level Alignment for Grounded Multimodal Named Entity RecognitionXigang Bao, Mengyuan Tian, Luyao Wang, Zhiyuan Zha, Biao Qin. 795-803 [doi]

Neural Parametric Human Hand Modeling with Point Cloud RepresentationJian Yang, Weize Quan, Zhen Shen, Dong-Ming Yan 0001, Huaiyu Wu. 804-813 [doi]

MSI: Multi-modal Recommendation via Superfluous Semantics Discarding and Interaction PreservingYi Li, Qingmeng Zhu, Changwen Zheng, Jiangmeng Li. 814-823 [doi]

HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image RetrievalChao He, Hongxi Wei. 824-832 [doi]

Modeling Multi-Task Joint Training of Aggregate Networks for Multi-Modal Sarcasm DetectionLisong Ou, Zhixin Li 0001. 833-841 [doi]

2MG-VLCR: A Multimodal LLM Guided Zero-shot Method for Visio-linguistic Compositional Reasoning with Autoregressive Generative Language ModelZiyu Gong, Chengcheng Mai, Yihua Huang 0001. 842-850 [doi]

Deep Scaling Factor Quantization Network for Large-scale Image RetrievalZiqing Deng, Zhihui Lai, Yujuan Ding, Heng Kong, Xu Wu. 851-859 [doi]

RetrievalMMT: Retrieval-Constrained Multi-Modal Prompt Learning for Multi-Modal Machine TranslationYan Wang, Yawen Zeng, Junjie Liang, Xiaofen Xing, Jin Xu, Xiangmin Xu. 860-868 [doi]

DualStyle3D: Real-time Exemplar-based Artistic Portrait View Synthesis Based on Radiance FieldRunlai Hao, Jinlong Li, Qiuju Chen, Huanhuan Chen. 869-877 [doi]

SBCR: Stochasticity Beats Content Restriction Problem in Training and Tuning Free Image EditingJiancheng Huang, Mingfu Yan, Yifan Liu, Shifeng Chen. 878-887 [doi]

TrustGo: Trust Mining and Multi-semantic Regularization in Social RecommendationShenghao Liu, Yuqin Lan, Xianjun Deng, Lingzhi Yi, Chenlu Zhu, Laurence T. Yang, Jong Hyuk Park. 888-896 [doi]

SkeletonFormer: Point Cloud Completion with Dynamic Selective Skeleton PointsBeiqi Liu, Fuqing Duan, Junli Zhao. 897-905 [doi]

Research on Epilepsy Classification Model Based on Variational Mode Quadratic DecompositionChen Huang, Zhijun Fan, Kui Xiao, Yan Zhang, Shihui Wang, Jianhua Song, Wei Wu, Chao Liu. 906-914 [doi]

STDG: Semi-Teacher-Student Training Paradigm for Depth-guided One-stage Scene Graph GenerationXukun Zhou, Zhenbo Song, Jun He 0008, Hongyan Liu 0002, Zhaoxin Fan. 915-924 [doi]

BFIDet: A YOLOv7-improved Vehicle and Pedestrian Detector via Balancing Feature IntegrationAnrui Wang, Libo Weng, Fei Gao 0014. 925-933 [doi]

Self-Supervised Multi-Label Classification with Global Context and Local AttentionChun-Yen Chen, Mei-Chen Yeh. 934-942 [doi]

Semi-Parametric Style Transfer with Multi-Perspective Feature Fusion and Information-Guided AlignmentTianlong Zhang, Jing Lv, Ming Yang 0014. 943-950 [doi]

End-to-End Thai Text-to-Speech with Linguistic UnitKontawat Wisetpaitoon, Sattaya Singkul, Theerat Sakdejayont, Tawunrat Chalothorn. 951-959 [doi]

Discovering Multi-Relational Integration for Knowledge Tracing with Retentive NetworksLinhao Zhou, Sheng-hua Zhong, Zhijiao Xiao. 960-968 [doi]

DeepEnhancer: Temporally Consistent Focal Transformer for Comprehensive Video EnhancementQin Jiang, Qinglin Wang, Lihua Chi, Wentao Ma, Feng Li, Jie Liu. 969-977 [doi]

Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language ModelsHongyi Zhu, Jia-Hong Huang, Stevan Rudinac, Evangelos Kanoulas. 978-987 [doi]

Lifelong Visible-Infrared Person Re-Identification via a Tri-Token Transformer with a Query-Key MechanismYitong Xing, Guoqiang Xiao 0001, Michael S. Lew, Song Wu 0003. 988-997 [doi]

Wireless Capsule Endoscope Low-light Image Enhancement with Balanced Brightness and SaturationWenzhuo Li, YingHui Wang, Wei Li, Liangyi Huang, Kamoliddin Shukurov, Mingfeng Wang. 998-1005 [doi]

CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake DetectionSohail Ahmed Khan, Duc-Tien Dang-Nguyen. 1006-1015 [doi]

RGB-D Video Object Segmentation via Enhanced Multi-store Feature MemoryBoyue Xu, Ruichao Hou, Tongwei Ren, Gangshan Wu. 1016-1024 [doi]

Multidimensional Semantic Disentanglement Network for Clothes-Changing Person Re-IdentificationYongkang Ding, Anqi Wang, Liyan Zhang 0001. 1025-1033 [doi]

UBiSS: A Unified Framework for Bimodal Semantic Summarization of VideosYuting Mei, Linli Yao, Qin Jin. 1034-1042 [doi]

AdOCTeRA: Adaptive Optimization Constraints for improved Text-guided Retrieval of ApartmentsAli Abdari, Alex Falcon, Giuseppe Serra 0001. 1043-1050 [doi]

G-SAP: Graph-based Structure-Aware Prompt Learning over Heterogeneous Knowledge for Commonsense ReasoningRuiting Dai, Yuqiao Tan, Lisi Mo, Shuang Liang, Guohao Huo, Jiayi Luo, Yao Cheng. 1051-1060 [doi]

Parametric CAD Primitive Retrieval via Multi-Modal Fusion and Deep HashingMinyang Xu, Yunzhong Lou, Weijian Ma, Xueyang Li, Xiangdong Zhou. 1061-1069 [doi]

Subspace Clustering with A Hybrid Adaptive Graph FilterLai Wei, Mingyuan Xi. 1070-1078 [doi]

Knowledge Distillation for Single Image Super-Resolution via Contrastive LearningCencen Liu, Dongyang Zhang, Ke Qin. 1079-1083 [doi]

Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum LearningYuhang Zheng, Zhen Wang, Long Chen. 1084-1088 [doi]

CLCP: Realtime Text-Image Retrieval for Retailing via Pre-trained Clustering and Priority QueueShuyang Zhang, Liangwu Wei, Qingyu Wang, Yuntao Wei, Yanzhi Song. 1089-1093 [doi]

Robust Video Hashing with Non-negative Tensor Factorization for Copy DetectionMengzhu Yu, Zhenjun Tang, Huijiang Zhuang, Xiaoping Liang, Zhixin Li 0001, Xianquan Zhang. 1094-1098 [doi]

Unifying Pictorial and Textual Features for Screen Content Image Quality EvaluationYihua Chen, Xiaoping Liang, Mengzhu Yu, Zhenjun Tang. 1099-1103 [doi]

CLIP-ProbCR: CLIP-based Probability embedding Combination RetrievalMingyong Li, Zongwei Zhao, Xiaolong Jiang, Zheng Jiang. 1104-1109 [doi]

Proactive Privacy and Intellectual Property Protection of Multimedia Retrieval Models in Edge IntelligencePeihao Li 0002, Jie Huang 0016, Shuaishuai Zhang, Chunyang Qi. 1110-1114 [doi]

Sketch-aided Interactive Fusion Point Cloud Place RecognitionRuonan Zhang, XiaoHang Liu, Ge Li 0002, Thomas H. Li, Pengjun Zhao. 1115-1119 [doi]

TIM: Temporal Interaction Model in Notification SystemHuxiao Ji, Haitao Yang, Linchuan Li, Shunyu Zhang, Cunyi Zhang, Xuanping Li, Wenwu Ou. 1120-1124 [doi]

Local Deep Learning Quantization for Approximate Nearest Neighbor SearchQuan Li, Xike Xie, Chao Wang, Jiali Weng. 1125-1129 [doi]

DiffHarmony: Latent Diffusion Model Meets Image HarmonizationPengfei Zhou, Fangxiang Feng, Xiaojie Wang. 1130-1134 [doi]

Directly Locating Actions in Video with Single Frame AnnotationHaoran Tong, Xinyan Liu, Guorong Li, Laiyun Qing. 1135-1139 [doi]

YawnNet: A Visual-Centric Approach for Yawning DetectionRuoxi Sun, Xinyu Yang, Cong Qian, Chenyu Zhu, Wei Sui, Zeyd Boukhers, Cong Yang. 1140-1144 [doi]

Content-Based Exclusion Queries in Keyword-Based Image RetrievalEisaku Yoshikawa, Keishi Tajima. 1145-1149 [doi]

Octree-Retention Fusion: A High-Performance Context Model for Point Cloud Geometry CompressionZhikang Zhang, Zhongjie Zhu, Yongqiang Bai, Ming Wang, Zhijing Yu. 1150-1154 [doi]

A GAN based Video Summarization Method with Representation LossZhuo Lei, Qiang Yu, Lidan Shou, Shengquan Li, Yunqing Mao. 1155-1159 [doi]

Unveiling Global Narratives: A Multilingual Twitter Dataset of News Media on the Russo-Ukrainian ConflictSherzod Hakimov, Gullal S. Cheema. 1160-1164 [doi]

Near-Miss Accident Prediction on the Edge: A Real-Time System for Safer DrivingMinh-Son Dao, Koji Zettsu. 1165-1169 [doi]

Extending CLIP for Text-to-font RetrievalQinghua Sun, Jia Cui, Zhenyu Gu. 1170-1174 [doi]

CLTalk: Speech-Driven 3D Facial Animation with Contrastive LearningXitie Zhang, Suping Wu. 1175-1179 [doi]

PiCoGen: Generate Piano Covers with a Two-stage ApproachChih-Pin Tan, Shuen-Huei Guan, Yi-Hsuan Yang. 1180-1184 [doi]

FedPAM: Federated Personalized Augmentation Model for Text-to-Image RetrievalYueying Feng, Fan Ma, Wang Lin, Chang Yao, Jingyuan Chen, Yi Yang. 1185-1189 [doi]

Reconciling the Rift Between Recognition and Recall: Insights from a Video Memorability Drawing ExperimentLorin Sweeney, Graham Healy, Alan F. Smeaton. 1190-1198 [doi]

Creating Sorted Grid Layouts with Gradient-based OptimizationKai-Uwe Barthel, Florian Tim Barthel, Peter Eisert, Nico Hezel, Konstantin Schall. 1199-1206 [doi]

Mapping the Audio Landscape for Innovative Music Sample GenerationChristian Limberg, Zhe Zhang. 1207-1213 [doi]

Multi-modal Video SummarizationJia-Hong Huang. 1214-1218 [doi]

Multimodality in Media RetrievalMaria Eirini Pegia. 1219-1223 [doi]

Reproducibility Companion Paper: Recommendation of Mix-and-Match Clothing by Modeling Indirect Personal CompatibilityShuiying Liao, Yujuan Ding, P. Y. Mok 0001, Qiushi Huang, Jialun Cao. 1224-1227 [doi]

Reproducibility Companion Paper: Stable Diffusion for Content-Style Disentanglement in Art AnalysisYankun Wu, Yuta Nakashima, Noa Garcia, Sheng Li, Zhaoyang Zeng. 1228-1231 [doi]

Reproducibility Companion Paper of "MMSF: A Multimodal Sentiment-Fused Method to Recognize Video Speaking Style"Fan Yu, Beibei Zhang, Yaqun Fang, Jia Bei, Tongwei Ren, Jiyi Li, Luca Rossetto. 1232-1235 [doi]

OpenLifelogCam - A Low-Cost Open-Source Wearable Camera PlatformLuca Rossetto. 1236-1240 [doi]

CarAI: Car Inspection with Artificial IntelligencePanumate Chetprayoon, Sakol Tasanangam, Gayatri Tirumalasetty, Thanatwit Angsarawanee, Paveen Virameteekul, Wadeepas Lertwatanawanich, Theerat Sakdejayont. 1241-1245 [doi]

AI Batting Buddy: A Computational and Kinematic Approach for Enhancing Batting Performance and Analysis in BaseballKuo-Yu Liu, Ting-Yu Guo, Ta-Shan Pan, Ping-Yi Tung, Yi-Rou Lin. 1246-1250 [doi]

A Web Demo Interface for Super-Resolution Reconstruction with Parametric Regularization LossSupatta Viriyavisuthisakul, Parinya Sanguansat, Toshihiko Yamasaki. 1251-1254 [doi]

MemoriLens: a Low-cost Lifelog Camera Using Raspberry Pi ZeroQuang-Linh Tran, Binh T. Nguyen 0001, Gareth J. F. Jones, Cathal Gurrin. 1255-1259 [doi]

3DMSE: An Interactive 3D Media Search EngineMaria Eirini Pegia, Dimitris Georgalis, Nick Pantelidis, Björn Þór Jónsson 0001, Anastasia Moumtzidou, Sotiris Diplaris, Ilias Gialampoukidis, Stefanos Vrochidis, Ioannis Kompatsiaris. 1260-1264 [doi]

Conversational Image Search: A Sketch-based ApproachDaniel D. Braghis, Haiming Liu 0002. 1265-1269 [doi]

RE-IDVIS: Person Re-Identification System based on Interactive VisualizationWang Xia, Guodao Sun, Zihao Zhu, Pan Liang, Sujia Zhu, Yiming Wu 0005, Haoran Liang, Ronghua Liang. 1270-1274 [doi]

Overview of the Grand Challenge on Detecting Cheapfakes at ACM ICMR 2024Duc-Tien Dang-Nguyen, Sohail Ahmed Khan, Michael Riegler 0001, Pål Halvorsen, Anh Duy Tran, Minh-Son Dao, Minh-Triet Tran. 1275-1281 [doi]

Detecting Out-of-Context Media with LLaMa-Adapter V2 and RoBERTa: An Effective Method for Cheapfakes DetectionHoa-Vien Vo-Hoang, Long-Khanh Pham, Minh-Son Dao. 1282-1287 [doi]

A Generative Adaptive Context Learning Framework for Large Language Models in Cheapfake DetectionLong-Khanh Pham, Hoa-Vien Vo-Hoang, Anh Duy Tran. 1288-1293 [doi]

TeGA: A Text-Guided Generative-based Approach in Cheapfake DetectionAnh-Thu Le, Minh Dat Nguyen, Minh-Son Dao, Anh Duy Tran, Duc-Tien Dang-Nguyen. 1294-1299 [doi]

A Unified Network for Detecting Out-Of-Context Information Using Generative Synthetic DataVan Loc Nguyen, Bao-Tin Nguyen, Thanh Son Nguyen, Duc-Tien Dang-Nguyen, Minh-Triet Tran. 1300-1305 [doi]

Enhancing Cheapfake Detection: An Approach Using Prompt Engineering and Interleaved Text-Image ModelDang-Vu, Minh Nhat Nguyen, Quoc-Trung Nguyen. 1306-1311 [doi]

A Multi-Stage Deep Learning Approach Incorporating Text-Image and Image-Image Comparisons for Cheapfake DetectionJangwon Seo, Hyo-Seok Hwang, Jiyoung Lee, Minhyeok Lee, Wonsuk Kim, Junhee Seok. 1312-1316 [doi]

The LLM Wrecking Ball: Are We About to Lose Decades of Work in Multimedia because of MM-LLMs?Alan F. Smeaton. 1317 [doi]

Diversity in MultimediaYi-Ping Phoebe Chen. 1318 [doi]

Fine-Tuning Large Language Models for Private Document Retrieval: A TutorialFrank Sommers, Alisa Kongthon, Sarawoot Kongyoung. 1319-1320 [doi]

Detecting Misinformation in Photos Utilizing Reverse Image SearchVinh Dang, Thanh Son Nguyen, Minh-Triet Tran, Duc-Tien Dang-Nguyen. 1321-1323 [doi]

Multimedia Retrieval in and for XRMaria Pegia, Sotiris Diplaris, Stefanos Vrochidis, Heiko Schuldt, Florian Spiess 0001, Rahel Arnold, Werner Bailer. 1324-1325 [doi]

Compact Visual Data Representation for Multimedia Search and AnalyticsShiqi Wang, Xinfeng Zhang. 1326-1327 [doi]

The First ACM Workshop on AI-Powered Question Answering Systems for MultimediaTai Tan Mai, Quang-Linh Tran, Ly-Duyen Tran, Tu V. Ninh, Duc-Tien Dang-Nguyen, Cathal Gurrin. 1328-1329 [doi]

AI-SIPM 2024: International Workshop on Artificial Intelligence for Signal, Image Processing and MultimediaMahasak Ketcham, Kanyalag Phodong, Patiyuth Pramkeaw, Worawut Yimyam, Narumol Chumuang, Pokpong Songmuang, Thittaporn Ganokratanaa. 1330-1331 [doi]

ICDAR 24: Intelligent Cross-Data Analysis and RetrievalMinh-Son Dao, Michael Alexander Riegler, Duc-Tien Dang-Nguyen, Hanh Nhi Tran, Rage Uday Kiran, Takahiro Komamizu. 1332-1333 [doi]

Introduction to the Seventh Annual Lifelog Search Challenge, LSC'24Cathal Gurrin, Liting Zhou, Graham Healy, Werner Bailer, Duc-Tien Dang-Nguyen, Steve Hodges, Björn Þór Jónsson 0001, Jakub Lokoc, Luca Rossetto, Minh-Triet Tran, Klaus Schöffmann. 1334-1335 [doi]

MORE'24 Multimedia Object Re-ID: Advancements, Challenges, and OpportunitiesZhedong Zheng, Yaxiong Wang, Xuelin Qian, Zhun Zhong, Zheng Wang, Liang Zheng. 1336-1338 [doi]

MAD '24 Workshop: Multimedia AI against DisinformationCristian Lucian Stanciu, Bogdan Ionescu, Luca Cuccovillo, Symeon Papadopoulos, Giorgos Kordopatis-Zilos, Adrian Popescu 0001, Roberto Caldelli. 1339-1341 [doi]

MUWS 2024: The 3rd International Workshop on Multimodal Human Understanding for the Web and Social MediaMarc A. Kastner 0001, Gullal S. Cheema, Sherzod Hakimov, Noa Garcia. 1342-1344 [doi]

MVRMLM 2024: Multimodal Video Retrieval and Multimodal Language ModellingHui Wang, Josef Kittler, Mark J. F. Gales, Rob Cooper, Maurice D. Mulvenna, Wing Ng, Yang Hua, Richard Gault, Abbas Haider, Guanfeng Wu. 1345-1346 [doi]

A Knowledge-Driven Approach to Enhance Topic Modeling with Multi-Modal Representation LearningHongzhang Mu, Shuili Zhang, Hongbo Xu. 1347-1355 [doi]

runs on WebDSL