MultiMedia Modeling - 29th International Conference, MMM 2023, Bergen, Norway, January 9-12, 2023, Proceedings, Part I - researchr publication

researchr

You are not signed in
Sign in
Sign up

Duc-Tien Dang-Nguyen, Cathal Gurrin, Martha A. Larson, Alan F. Smeaton, Stevan Rudinac, Minh-Son Dao, Christoph Trattner, Phoebe Chen, editors, MultiMedia Modeling - 29th International Conference, MMM 2023, Bergen, Norway, January 9-12, 2023, Proceedings, Part I. Volume 13833 of Lecture Notes in Computer Science, Springer, 2023. [doi]

Conference: mmm2023

Abstract is missing.

MMM-GCN: Multi-Level Multi-Modal Graph Convolution Network for Video-Based Person IdentificationZiyan Liao, Dening Di, Jingsong Hao, Jiang Zhang, Shulei Zhu, Jun Yin. 3-15 [doi]

Feature Enhancement and Reconstruction for Small Object DetectionChong-Jian Zhang, Song-Lu Chen, Qi Liu, Zhi-yong Huang, Feng Chen 0040, Xu-Cheng Yin. 16-27 [doi]

Toward More Accurate Heterogeneous Iris Recognition with Transformers and CapsulesZhiyong Zhou, Yuanning Liu, Xiaodong Zhu 0001, Shuai Liu 0006, Shaoqiang Zhang, Zhen Liu. 28-40 [doi]

MCANet: Multiscale Cross-Modality Attention Network for Multispectral Pedestrian DetectionXiaotian Wang, Letian Zhao, Wei Wu, Xi Jin 0002. 41-53 [doi]

Overall-Distinctive GCN for Social Relation Recognition on VideosYibo Hu 0005, Chenyu Cao, Fangtao Li, Chenghao Yan, Jinsheng Qi, Bin Wu 0001. 57-68 [doi]

Weakly-Supervised Temporal Action Localization with Regional Similarity ConsistencyHaoran Ren, Hao Ren, Hong Lu 0001, Cheng Jin. 69-81 [doi]

A Spatio-Temporal Identity Verification Method for Person-Action Instance Search in MoviesYanrui Niu, Jingyao Yang, Chao Liang, Baojin Huang, Zhongyuan Wang 0001. 82-94 [doi]

Binary Neural Network for Video Action RecognitionHongfeng Han, Zhiwu Lu 0001, Ji-Rong Wen. 95-106 [doi]

STN: Stochastic Triplet Neighboring Approach to Self-supervised Denoising from Limited Noisy ImagesBowen Wan, Daming Shi 0001, Yukun Liu. 109-120 [doi]

Fusion-Based Low-Light Image EnhancementHaodian Wang, Yang Wang, Yang Cao 0010, Zheng-Jun Zha. 121-133 [doi]

Towards Interactive Facial Image Inpainting by Text or Exemplar ImageAilin Li, Lei Zhao, Zhiwen Zuo, Zhizhong Wang, Wei Xing, Dongming Lu. 134-148 [doi]

Dual-Feature Aggregation Network for No-Reference Image Quality AssessmentYihua Chen, Zhiyuan Chen, Mengzhu Yu, Zhenjun Tang. 149-161 [doi]

Single Cross-domain Semantic Guidance Network for Multimodal Unsupervised Image TranslationJiaying Lan, Lianglun Cheng, Guoheng Huang, Chi-Man Pun, Xiaochen Yuan, Shangyu Lai, Hongrui Liu, Wing-kuen Ling. 165-177 [doi]

Towards Captioning an Image Collection from a Combined Scene Graph Representation ApproachItthisak Phueaksri, Marc A. Kastner 0001, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide. 178-190 [doi]

Health-Oriented Multimodal Food Question AnsweringJianghai Wang, Menghao Hu, Yaguang Song, Xiaoshan Yang. 191-203 [doi]

MM-Locate-News: Multimodal Focus Location Estimation in NewsGolsa Tahmasebzadeh, Eric Müller-Budack, Sherzod Hakimov, Ralph Ewerth. 204-216 [doi]

C-GZS: Controllable Person Image Synthesis Based on Group-Supervised Zero-Shot LearningJiyun Li, Yuan Gao, Chen Qian, Jiachen Lu, Zhongqin Chen. 219-230 [doi]

DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion ModelFan Zhang, Naye Ji, Fuxing Gao, Yongping Li. 231-242 [doi]

TG-Dance: TransGAN-Based Intelligent Dance Generation with MusicDongjin Huang, Yue Zhang, Zhenyan Li, Jinhua Liu. 243-254 [doi]

Visual Question Generation Under Multi-granularity Cross-Modal InteractionZi Chai, Xiaojun Wan 0001, Soyeon Caren Han, Josiah Poon. 255-266 [doi]

Optimizing Local Feature Representations of 3D Point Clouds with Anisotropic Edge ModelingHaoyi Xiu, Xin Liu 0020, Weimin Wang 0007, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka. 269-281 [doi]

Floor Plan Analysis and Vectorization with Multimodal InformationTao Wen, Chao Liang, You-Ming Fu, Chun-Xia Xiao, Hai-Ming Xiang. 282-293 [doi]

Safe Contrastive ClusteringPengwei Tang, Huayi Tang, Wei Wang, Yong Liu. 294-305 [doi]

SRes-NeRF: Improved Neural Radiance Fields for Realism and Accuracy of Specular ReflectionsShufan Dai, Yangjie Cao, Pengsong Duan, Xianfu Chen. 306-317 [doi]

LiteHandNet: A Lightweight Hand Pose Estimation Network via Structural Feature EnhancementZhi-yong Huang, Song-Lu Chen, Qi Liu, Chong-Jian Zhang, Feng Chen 0040, Xu-Cheng Yin. 321-333 [doi]

DilatedSegNet: A Deep Dilated Segmentation Network for Polyp SegmentationNikhil Kumar Tomar, Debesh Jha, Ulas Bagci. 334-344 [doi]

Music Instrument Classification ReprogrammedHsin-Hung Chen, Alexander Lerch 0001. 345-357 [doi]

Cascading CNNs with S-DQN: A Parameter-Parsimonious Strategy for 3D Hand Pose EstimationMingqi Chen, Shaodong Li, Feng Shuang 0002, Kai Luo. 358-369 [doi]

EvIs-Kitchen: Egocentric Human Activities Recognition with Video and Inertial Sensor DataYuzhe Hao, Kuniaki Uto, Asako Kanezaki, Ikuro Sato, Rei Kawakami, Koichi Shinoda. 373-384 [doi]

COMIM-GAN: Improved Text-to-Image Generation via Condition Optimization and Mutual Information MaximizationLonglong Zhou, Xiaojun Wu 0001, Tianyang Xu. 385-396 [doi]

A Study of a Cross-modal Interactive Search Tool Using CLIP and Temporal FusionJakub Lokoc, Ladislav Peska. 397-408 [doi]

A Cross-modal Attention Model for Fine-Grained Incident Retrieval from Dashcam VideosDinh-Duy Pham, Minh-Son Dao, Thanh Binh Nguyen. 409-420 [doi]

Textual Concept Expansion with Commonsense Knowledge to Improve Dual-Stream Image-Text MatchingMingliang Liang, Zhuoran Liu 0001, Martha A. Larson. 421-433 [doi]

Generation of Synthetic Tabular Healthcare Data Using Generative Adversarial NetworksAlireza Hossein Zadeh Nik, Michael A. Riegler, Pål Halvorsen, Andrea M. Storås. 434-446 [doi]

FL-Former: Flood Level Estimation with Vision Transformer for Images from Cameras in Urban AreasQuoc-Cuong Le, Minh-Quan Le, Mai-Khiem Tran, Ngoc-Quyen Le, Minh-Triet Tran. 447-459 [doi]

The NCKU-VTF Dataset and a Multi-scale Thermal-to-Visible Face Synthesis SystemTsung Han Ho, Chen-Yin Yu, Tsai-Yen Ko, Wei-Ta Chu. 463-475 [doi]

Link-Rot in Web-Sourced Multimedia DatasetsViktor Lakic, Luca Rossetto, Abraham Bernstein. 476-488 [doi]

People@Places and ToDY: Two Datasets for Scene Classification in Media Production and ArchivingWerner Bailer, Hannes Fassold. 489-501 [doi]

ScopeSense: An 8.5-Month Sport, Nutrition, and Lifestyle Lifelogging DatasetMichael A. Riegler, Vajira Thambawita, Ayan Chatterjee, Binh T. Nguyen 0001, Steven Alexander Hicks, Vibeke Telle-Hansen, Svein Arne Pettersen, Dag Johansen, Ramesh C. Jain, Pål Halvorsen. 502-514 [doi]

Fast Accurate Fish Recognition with Deep Learning Based on a Domain-Specific Large-Scale Fish DatasetYuan Lin, Zhaoqi Chu, Jari Korhonen, Jiayi Xu, Xiangrong Liu, Juan Liu 0003, Min Liu, Lvping Fang, Weidi Yang, Debasish Ghose, Junyong You. 515-526 [doi]

GIGO, Garbage In, Garbage Out: An Urban Garbage Classification DatasetMaarten Sukel, Stevan Rudinac, Marcel Worring. 527-538 [doi]

Marine Video Kit: A New Marine Video Dataset for Content-Based Analysis and RetrievalQuang-Trung Truong, Tuan Anh Vu, Tan-Sang Ha, Jakub Lokoc, Yue Him Wong Tim, Ajay Joneja, Sai Kit Yeung. 539-550 [doi]

Arctic HARE: A Machine Learning-Based System for Performance Analysis of Cross-Country SkiersTor-Arne S. Nordmo, Michael A. Riegler, Håvard D. Johansen, Dag Johansen. 553-564 [doi]

Soccer Athlete Data Visualization and Analysis with an Interactive DashboardMatthias Boeker, Cise Midoglu. 565-576 [doi]

Sport and Nutrition Digital Analysis: A Legal AssessmentBjørn Aslak Juliussen, Jon Petter Rui, Dag Johansen. 577-588 [doi]

Towards Deep Personal Lifestyle Models Using Multimodal N-of-1 DataNitish Nagesh, Iman Azimi, Tom Andriola, Amir M. Rahmani, Ramesh C. Jain. 589-600 [doi]

Capturing Nutrition Data for Sports: Challenges and Ethical IssuesAakash Sharma, Katja Pauline Czerwinska, Dag Johansen, Håvard D. Johansen. 601-612 [doi]

VISIONE at Video Browser Showdown 2023Giuseppe Amato 0001, Paolo Bolettieri, Fabio Carrara, Fabrizio Falchi, Claudio Gennaro, Nicola Messina, Lucia Vadicamo, Claudio Vairo. 615-621 [doi]

Traceable Asynchronous Workflows in Video Retrieval with vitrivr-VRFlorian Spiess, Silvan Heller, Luca Rossetto, Loris Sauter, Philipp Weber, Heiko Schuldt. 622-627 [doi]

Video Search with CLIP and Interactive Text Query ReformulationJakub Lokoc, Zuzana Vopálková, Patrik Dokoupil, Ladislav Peska. 628-633 [doi]

Perfect Match in Video RetrievalSebastian Lubos, Massimiliano Rubino, Christian Tautschnig, Markus Tautschnig, Boda Wen, Klaus Schoeffmann, Alexander Felfernig. 634-639 [doi]

QIVISE: A Quantum-Inspired Interactive Video Search Engine in VBS2023Weixi Song, Jiangshan He, Xinghan Li, Shiwei Feng, Chao Liang. 640-645 [doi]

Exploring Effective Interactive Text-Based Video Search in vitrivrLoris Sauter, Ralph Gasser, Silvan Heller, Luca Rossetto, Colin Saladin, Florian Spiess, Heiko Schuldt. 646-651 [doi]

V-FIRST 2.0: Video Event Retrieval with Flexible Textual-Visual Intermediary for VBS 2023Nhat Hoang-Xuan, E.-Ro Nguyen, Thang-Long Nguyen-Ho, Minh-Khoi Pham, Quang-Thuc Nguyen, Hoang-Phuc Trang-Trung, Van-Tu Ninh, Tu-Khiem Le, Cathal Gurrin, Minh-Triet Tran. 652-657 [doi]

VERGE in VBS 2023Nick Pantelidis, Stelios Andreadis, Maria Pegia, Anastasia Moumtzidou, Damianos Galanopoulos, Konstantinos Apostolidis, Despoina Touska, Konstantinos Gkountakos, Ilias Gialampoukidis, Stefanos Vrochidis, Vasileios Mezaris, Ioannis Kompatsiaris. 658-664 [doi]

Vibro: Video Browsing with Semantic and Visual Image EmbeddingsKonstantin Schall, Nico Hezel, Klaus Jung, Kai-Uwe Barthel. 665-670 [doi]

VideoCLIP: An Interactive CLIP-based Video Retrieval System at VBS2023Thao-Nhu Nguyen, Bunyarit Puangthamawathanakun, Annalina Caputo, Graham Healy, Binh T. Nguyen 0001, Chonlameth Arpnikanondt, Cathal Gurrin. 671-677 [doi]

Free-Form Multi-Modal Multimedia Retrieval (4MR)Rahel Arnold, Loris Sauter, Heiko Schuldt. 678-683 [doi]

diveXplore at the Video Browser Showdown 2023Klaus Schoeffmann, Daniela Stefanics, Andreas Leibetseder. 684-689 [doi]

Reinforcement Learning Enhanced PicHunter for Interactive SearchZhixin Ma, Jiaxin Wu, Weixiong Loo, Chong-Wah Ngo. 690-696 [doi]

runs on WebDSL