Proceedings of the 2023 ACM International Conference on Multimedia Retrieval, ICMR 2023, Thessaloniki, Greece, June 12-15, 2023 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Ioannis Kompatsiaris, Jiebo Luo, Nicu Sebe, Angela Yao, Vasileios Mazaris, Symeon Papadopoulos, Adrian Popescu 0001, Zi Helen Huang, editors, Proceedings of the 2023 ACM International Conference on Multimedia Retrieval, ICMR 2023, Thessaloniki, Greece, June 12-15, 2023. ACM, 2023. [doi]

Conference: mir2023

Abstract is missing.

Integrative Multi-Modal Computing for Personal Health NavigationNitish Nag, Hyungik Oh, Mengfan Tang, Mingshu Shi, Ramesh C. Jain. 1-9 [doi]

Raising User Awareness about the Consequences of Online Photo SharingHugo Schindler, Adrian Popescu 0001, Van-Khoa Nguyen, Jerome Deshayes-Chossart. 10-19 [doi]

Explaining Image Aesthetics Assessment: An Interactive ApproachSven Schultze, Ani Withöft, Larbi Abdenebaoui, Susanne Boll. 20-28 [doi]

Explicit Knowledge Integration for Knowledge-Aware Visual Question Answering about Named EntitiesOmar Adjali, Paul Grimal, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. 29-38 [doi]

Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph GenerationShuo Chen 0010, Ying-jun Du, Pascal Mettes, Cees G. M. Snoek. 39-47 [doi]

Cross-View Sample-Enriched Graph Contrastive Learning Network for Personalized Micro-video RecommendationYing He 0008, Gongqing Wu, Desheng Cai, Xuegang Hu. 48-56 [doi]

Improving Image Encoders for General-Purpose Nearest Neighbor Search and ClassificationKonstantin Schall, Kai-Uwe Barthel, Nico Hezel, Klaus Jung. 57-66 [doi]

Hypernymization of named entity-rich captions for grounding-based multi-modal pretrainingGiacomo Nebbia, Adriana Kovashka. 67-75 [doi]

CMMT: Cross-Modal Meta-Transformer for Video-Text RetrievalYizhao Gao, Zhiwu Lu 0001. 76-84 [doi]

Dual-Modality Co-Learning for Unveiling Deepfake in Spatio-Temporal SpaceJiazhi Guan, Hang Zhou, Zhizhi Guo, Tianshu Hu, Lirui Deng, Chengbin Quan, Meng Fang, Youjian Zhao. 85-94 [doi]

A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph DatasetJiaxin Deng, Dong Shen, Haojie Pan, Xiangyu Wu, Ximan Liu, Gaofeng Meng, Fan Yang, Tingting Gao, Ruiji Fu, Zhongyuan Wang 0006. 95-104 [doi]

Edge Enhanced Image Style Transfer via TransformersChiyu Zhang, Zaiyan Dai, Peng Cao, Jun Yang. 105-114 [doi]

Unlocking Potential of 3D-aware GAN for More Expressive Face GenerationJuheon Hwang, Jiwoo Kang, Kyoungoh Lee, Sanghoon Lee 0001. 115-124 [doi]

RIP-NeRF: Learning Rotation-Invariant Point-based Neural Radiance Field for Fine-grained Editing and CompositingYuze Wang, Junyi Wang, Yansong Qu, Yue Qi. 125-134 [doi]

A Multi-Teacher Assisted Knowledge Distillation Approach for Enhanced Face Image AuthenticationTiancong Cheng, Ying Zhang 0047, Yifang Yin, Roger Zimmermann, Zhiwen Yu 0001, Bin Guo 0001. 135-143 [doi]

FaceLivePlus: A Unified System for Face Liveness Detection and Face VerificationYing Zhang, Lilei Zheng, Vrizlynn L. L. Thing, Roger Zimmermann, Bin Guo 0001, Zhiwen Yu 0001. 144-152 [doi]

SIGMA-DF: Single-Side Guided Meta-Learning for Deepfake DetectionBing Han, Jianshu Li, Wenqi Ren, Man Luo, Jian Liu, Xiaochun Cao. 153-161 [doi]

AVForensics: Audio-driven Deepfake Video Detection with Masking Strategy in Self-supervisionYizhe Zhu, Jialin Gao, Xi Zhou. 162-171 [doi]

Predicting Tweet Engagement with Graph Neural NetworksMarco Arazzi, Marco Cotogni, Antonino Nocera, Luca Virgili. 172-180 [doi]

A Recurrent Neural Network based Generative Adversarial Network for Long Multivariate Time Series ForecastingPeiwang Tang, Qinghua Zhang, Xianchao Zhang. 181-189 [doi]

Multi-channel Convolutional Neural Network for Precise Meme ClassificationVictoria Sherratt, Kevin Pimbblet, Nina Dethlefs. 190-198 [doi]

Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art AnalysisYankun Wu, Yuta Nakashima, Noa Garcia. 199-208 [doi]

Attention-based Video Virtual Try-OnWen-Jiin Tsai, Yi-Cheng Tien. 209-216 [doi]

Intra-inter Modal Attention Blocks for RGB-D Semantic SegmentationSoyun Choi, Youjia Zhang, Sungeun Hong. 217-225 [doi]

Joint Geometric-Semantic Driven Character Line Drawing GenerationCheng-Yu Fang, Xian-Feng Han. 226-233 [doi]

CurveSDF: Binary Image Vectorization Using Signed Distance FieldsZeqing Xia, Zhouhui Lian. 234-242 [doi]

EMP: Emotion-guided Multi-modal Fusion and Contrastive Learning for Personality Traits RecognitionYusong Wang, Dongyuan Li, Kotaro Funakoshi, Manabu Okumura. 243-252 [doi]

Knowledge-Aware Causal Inference Network for Visual DialogZefan Zhang, Yi Ji 0001, Chunping Liu. 253-261 [doi]

Less is More: Decoupled High-Semantic Encoding for Action RecognitionChun Zhang, Keyan Ren, Qingyun Bian, Yu Shi. 262-271 [doi]

Dual-Stream Multimodal Learning for Topic-Adaptive Video Highlight DetectionZiwei Xiong, Han Wang. 272-279 [doi]

TDEC: Deep Embedded Image Clustering with Transformer and Distribution InformationRuilin Zhang, Haiyang Zheng, Hongpeng Wang. 280-288 [doi]

MMSF: A Multimodal Sentiment-Fused Method to Recognize Video Speaking StyleBeibei Zhang, Yaqun Fang, Fan Yu, Jia Bei, Tongwei Ren. 289-297 [doi]

Shot Retrieval and Assembly with Text Script for Video Montage GenerationGuoxing Yang, Haoyu Lu, Zelong Sun, Zhiwu Lu 0001. 298-306 [doi]

Multi-granularity Separation Network for Text-Based Person Retrieval with Bidirectional Refinement RegularizationShenshen Li, Xing Xu, Fumin Shen, Yang Yang 0002. 307-315 [doi]

Graph Interactive Network with Adaptive Gradient for Multi-Modal Rumor DetectionTiening Sun, Zhong Qian, Peifeng Li, Qiaoming Zhu. 316-324 [doi]

Towards Shape-regularized Learning for Mitigating Texture Bias in CNNsHarsh Sinha, Adriana Kovashka. 325-334 [doi]

ASCS-Reinforcement Learning: A Cascaded Framework for Accurate 3D Hand Pose EstimationMingqi Chen, Feng Shuang 0002, Shaodong Li, Xi Liu. 335-342 [doi]

Multi-modal Fake News Detection on Social Media via Multi-grained Information FusionYangming Zhou, Yuzhou Yang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang 0001. 343-352 [doi]

Learning and Fusing Multi-Scale Representations for Accurate Arbitrary-Shaped Scene Text RecognitionMingjun Li, Shuo Xu, Feng Su. 353-361 [doi]

Modeling Functional Brain Networks with Multi-Head Attention-based Region-Enhancement for ADHD ClassificationChunhong Cao, Huawei Fu, Gai Li, Mengyang Wang, Xieping Gao. 362-369 [doi]

SPAE: Spatial Preservation-based Autoencoder for ADHD functional brain networks modellingChunhong Cao, Gai Li, Huawei Fu, Xingxing Li, Xieping Gao. 370-377 [doi]

We Are Not So Similar: Alleviating User Representation Collapse in Social RecommendationBingchao Wu, Yangyuxuan Kang, Bei Guan, Yongji Wang. 378-387 [doi]

Towards Practical Consistent Video Depth EstimationPengzhi Li, Yikang Ding, Linge Li, Jingwei Guan, Zhiheng Li. 388-397 [doi]

Reducing Semantic Confusion: Scene-aware Aggregation Network for Remote Sensing Cross-modal RetrievalJiancheng Pan, Qing Ma, Cong Bai. 398-406 [doi]

Zero-shot Sketch-based Image Retrieval with Adaptive Balanced Discriminability and GeneralizabilityJialin Tian, Xing Xu, Zuo Cao, Gong Zhang, Fumin Shen, Yang Yang. 407-415 [doi]

Label-wise Deep Semantic-Alignment Hashing for Cross-Modal RetrievalLiang Li, Weiwei Sun. 416-424 [doi]

TsP-Tran: Two-Stage Pure Transformer for Multi-Label Image RetrievalYing Li, Chunming Guan, Jiaquan Gao. 425-433 [doi]

MuseHash: Supervised Bayesian Hashing for Multimodal Image RepresentationMaria Pegia, Björn Þór Jónsson 0001, Anastasia Moumtzidou, Ilias Gialampoukidis, Stefanos Vrochidis, Ioannis Kompatsiaris. 434-442 [doi]

Reference-Limited Compositional Zero-Shot LearningSiteng Huang, Qiyao Wei, Donglin Wang. 443-451 [doi]

Exploration of Lightweight Single Image Denoising with Transformers and Truly Fair TrainingHaram Choi, Cheolwoong Na, Jinseop Kim, Jihoon Yang. 452-461 [doi]

TAGM: Task-Aware Graph Model for Few-shot Node ClassificationFeng Zhao, Min Zhang, Tiancheng Huang, Donglin Wang. 462-471 [doi]

Learning with Adaptive Knowledge for Continual Image-Text ModelingYutian Luo, Yizhao Gao, Zhiwu Lu 0001. 472-480 [doi]

A Dual-branch Enhanced Multi-task Learning Network for Multimodal Sentiment AnalysisWenxiu Geng, Xiangxian Li, Yulong Bian. 481-489 [doi]

FedPcf : An Integrated Federated Learning Framework with Multi-Level Prospective Correction FactorYu Zang, Zhe Xue, Shilong Ou, Yunfei Long, Hai Zhou, Junping Du. 490-498 [doi]

Learning From Expert: Vision-Language Knowledge Distillation for Unsupervised Cross-Modal Hashing RetrievalLina Sun, Yewen Li, Yumin Dong. 499-507 [doi]

A Robust Deep Learning Enhanced Monocular SLAM System for Dynamic EnvironmentsYaoqing Li, Sheng-hua Zhong, Shuai Li, Yan Liu 0004. 508-515 [doi]

Symbol Location-Aware Network for Improving Handwritten Mathematical Expression RecognitionYingnan Fu, Wenyuan Cai, Ming Gao 0001, Aoying Zhou. 516-524 [doi]

Text-to-Image Fashion Retrieval with Fabric TexturesDaichi Suzuki, Go Irie, Kiyoharu Aizawa. 525-529 [doi]

Escaping local minima in deep reinforcement learning for video summarizationPanagiota Alexoudi, Ioannis Mademlis, Ioannis Pitas. 530-534 [doi]

A Comparison of Video Browsing Performance between Desktop and Virtual Reality InterfacesFlorian Spiess, Ralph Gasser, Silvan Heller, Heiko Schuldt, Luca Rossetto. 535-539 [doi]

More Than Simply Masking: Exploring Pre-training Strategies for Symbolic Music UnderstandingZhexu Shen, Liang Yang 0003, Zhihan Yang, Hongfei Lin. 540-544 [doi]

SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarksPu Ching, Hung-Kuo Chu, Min-Chun Hu 0001. 545-549 [doi]

Strong-Weak Cross-View Interaction Network for Stereo Image Super-ResolutionKun He, Changyu Li, Jie Shao. 550-554 [doi]

Multi-view Contrastive Learning with Additive Margin for Adaptive Nasopharyngeal Carcinoma Radiotherapy PredictionJiabao Sheng, Saikit Lam, Zhe Li, Jiang Zhang, Xinzhi Teng, Yuanpeng Zhang, Jing Cai. 555-559 [doi]

Recommendation of Mix-and-Match Clothing by Modeling Indirect Personal CompatibilityShuiying Liao, Yujuan Ding, P. Y. Mok. 560-564 [doi]

Video Retrieval for Everyday Scenes With Common ObjectsArun Zachariah, Praveen Rao 0001. 565-570 [doi]

Offensive Tactics Recognition in Broadcast Basketball Videos Based on 2D Camera View Player Heatmapssubst Nico, Tse-Yu Pan, Herman Prawiro, Jian-Wei Peng, Wen-Cheng Chen, Hung-Kuo Chu, Min-Chun Hu 0001. 571-575 [doi]

Graph Contrastive Learning on Complementary Embedding for RecommendationMeishan Liu, Meng Jian, Ge Shi 0002, Ye Xiang, Lifang Wu. 576-580 [doi]

Improving Generalization for Multimodal Fake News DetectionSahar Tahmasebi, Sherzod Hakimov, Ralph Ewerth, Eric Müller-Budack. 581-585 [doi]

MemeFier: Dual-stage Modality Fusion for Image Meme ClassificationChristos Koutlis, Manos Schinas, Symeon Papadopoulos. 586-591 [doi]

CNNs with Multi-Level Attention for Domain GeneralizationAristotelis Ballas, Christos Diou. 592-596 [doi]

Improving Query and Assessment Quality in Text-Based Interactive Video Retrieval EvaluationWerner Bailer, Rahel Arnold, Vera Benz, Davide Coccomini, Anastasios Gkagkas, Gylfi Þór Guðmundsson, Silvan Heller, Björn Þór Jónsson 0001, Jakub Lokoc, Nicola Messina, Nick Pantelidis, Jiaxin Wu. 597-601 [doi]

Multimodal Topic Segmentation of Podcast Shows with Pre-trained Neural EncodersIacopo Ghinassi, Lin Wang, Chris Newell, Matthew Purver. 602-606 [doi]

Tweaking EfficientDet for frugal trainingGeorgios Orfanidis, Konstantinos Ioannidis, Anastasios Tefas, Stefanos Vrochidis, Ioannis Kompatsiaris. 607-611 [doi]

Deep Enhanced-Similarity Attention Cross-modal Hashing LearningMingyuan Ge, Yewen Li, Longfei Ma, Mingyong Li. 612-616 [doi]

TNOD: Transformer Network with Object Detection for Tag RecommendationKai-Feng, Tao Liu, Heng Zhang, Zihao Meng, Zemin Miao. 617-621 [doi]

CLAP: Contrastive Language-Audio Pre-training Model for Multi-modal Sentiment AnalysisTianqi Zhao, Ming Kong, Tian Liang, Qiang Zhu, Kun Kuang, Fei Wu 0001. 622-626 [doi]

Framing the News: From Human Perception to Large Language Model InferencesDavid Alonso del Barrio, Daniel Gatica-Perez. 627-635 [doi]

Dual-Path Semantic Construction Network for Composed Query-Based Image RetrievalShenshen Li. 636-639 [doi]

Reproducibility Companion Paper: MeTILDA - Platform for Melodic Transcription in Language Documentation and ApplicationMitchell Lee, Chris Lee, Sanjay Penmetsa, Min Chen 0009, Mizuki Miyashita, Naatosi Fish, Bo Wu, Omar Khan. 640-643 [doi]

CalorieCam360: Simultaneous Eating Action Recognition of Multiple People Using an Omnidirectional CameraKento Terauchi, Keiji Yanai. 644-648 [doi]

VISIONE: A Large-Scale Video Retrieval System with Advanced Search FunctionalitiesGiuseppe Amato 0001, Paolo Bolettieri, Fabio Carrara, Fabrizio Falchi, Claudio Gennaro, Nicola Messina, Lucia Vadicamo, Claudio Vairo. 649-653 [doi]

navigu.net: NAvigation in Visual Image Graphs gets User-friendlyKai-Uwe Barthel, Nico Hezel, Konstantin Schall, Klaus Jung. 654-658 [doi]

MAAM: Media Asset Annotation and ManagementManos Schinas, Panagiotis Galopoulos, Symeon Papadopoulos. 659-663 [doi]

Cross-Language Music Recommendation ExplorationStefanos Stoikos, David Kauchak, Douglas Turnbull, Alexandra Papoutsaki. 664-668 [doi]

How Responsible LLMs are beneficial to search and exploration in Retail industryNozha Boujemaa, Abdelrahman Hassan, Giorgi Kokaia, Pratyush Kumar Sinha. 669 [doi]

Efficient CNNs and Transformers for Video Understanding and Image SynthesisJürgen Gall. 670 [doi]

Recognizing Actions in Videos under Domain ShiftElisa Ricci 0001. 671 [doi]

Algorithms for Generating and Evaluating Visually Sorted Grid LayoutsKai-Uwe Barthel. 672-673 [doi]

ICDAR'23: Intelligent Cross-Data Analysis and RetrievalGuillaume Habault, Minh-Son Dao, Michael Alexander Riegler, Duc-Tien Dang-Nguyen, Yuta Nakashima, Cathal Gurrin. 674-675 [doi]

MAD '23 Workshop: Multimedia AI against DisinformationLuca Cuccovillo, Bogdan Ionescu, Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Adrian Popescu 0001. 676-677 [doi]

Introduction to the Sixth Annual Lifelog Search Challenge, LSC'23Cathal Gurrin, Björn Þór Jónsson 0001, Duc-Tien Dang-Nguyen, Graham Healy, Jakub Lokoc, Liting Zhou, Luca Rossetto, Minh-Triet Tran, Wolfgang Hürst, Werner Bailer, Klaus Schoeffmann. 678-679 [doi]

runs on WebDSL