MultiMedia Modeling - 30th International Conference, MMM 2024, Amsterdam, The Netherlands, January 29 - February 2, 2024, Proceedings, Part II - researchr publication

researchr

You are not signed in
Sign in
Sign up

Stevan Rudinac, Alan Hanjalic, Cynthia C. S. Liem, Marcel Worring, Björn Þór Jónsson 0001, Bei Liu, Yoko Yamakata, editors, MultiMedia Modeling - 30th International Conference, MMM 2024, Amsterdam, The Netherlands, January 29 - February 2, 2024, Proceedings, Part II. Volume 14555 of Lecture Notes in Computer Science, Springer, 2024. [doi]

Conference: mmm2024

Abstract is missing.

Self-distillation Enhanced Vertical Wavelet Spatial Attention for Person Re-identificationYuxuan Zhang, Huibin Tan, Long Lan, Xiao Teng, Jing Ren, Yongjun Zhang. 1-13 [doi]

High Capacity Reversible Data Hiding in Encrypted Images Based on Pixel Value Preprocessing and Block ClassificationTao Zhang, Ju Zhang, Yicheng Zou, Yu Zhang. 14-27 [doi]

HPattack: An Effective Adversarial Attack for Human ParsingXin Dong, Rui Wang 0032, Sanyi Zhang, Lihua Jing. 28-41 [doi]

Dynamic-Static Graph Convolutional Network for Video-Based Facial Expression RecognitionFahong Wang, Zhao Liu, Jie Lei 0002, Zeyu Zou, Wentao Han, Juan Xu, Xuan Li, Zunlei Feng, Ronghua Liang. 42-55 [doi]

Hierarchical Supervised Contrastive Learning for Multimodal Sentiment AnalysisKezhou Chen, Shuo Wang, Yanbin Hao. 56-69 [doi]

Semantic Importance-Based Deep Image Compression Using a Generative ApproachXi Gu, Yuanyuan Xu, Kun Zhu. 70-81 [doi]

Drive-CLIP: Cross-Modal Contrastive Safety-Critical Driving Scenario Representation Learning and Zero-Shot Driving Risk AnalysisWenbin Gan, Minh-Son Dao, Koji Zettsu. 82-97 [doi]

MRHF: Multi-stage Retrieval and Hierarchical Fusion for Textbook Question AnsweringPeide Zhu, Zhen Wang, Manabu Okumura, Jie Yang. 98-111 [doi]

Multi-scale Decomposition Dehazing with Polarimetric VisionTongwei Ma, Lilian Zhang, Bo Sun, Chen Fan. 112-126 [doi]

CLF-Net: A Few-Shot Cross-Language Font Generation MethodQianqian Jin, Fazhi He, Wei Tang. 127-140 [doi]

Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image SegmentationYixing Lu, Zhaoxin Fan, Min Xu 0009. 141-155 [doi]

Audio-Visual Segmentation by Leveraging Multi-scaled Features LearningSze An Peter Tan, Guangyu Gao, Jia Zhao. 156-169 [doi]

Multi-head Hashing with Orthogonal Decomposition for Cross-modal RetrievalWei Liu, Jun Li, Zhijian Wu, Jianhua Xu, Bo Yang. 170-183 [doi]

Fusion Boundary and Gradient Enhancement Network for Camouflage Object DetectionGuangrui Liu, Wei Wu. 184-198 [doi]

Find the Cliffhanger: Multi-modal Trailerness in Soap OperasCarlo Bretti, Pascal Mettes, Hendrik Vincent Koops, Daan Odijk, Nanne van Noord. 199-212 [doi]

SM-GAN: Single-Stage and Multi-object Text Guided Image EditingRuichen Li, Lei Wu 0002, Pei-Dong, Minggang He. 213-226 [doi]

MAVAR-SE: Multi-scale Audio-Visual Association Representation Network for End-to-End Speaker ExtractionShilong Yu, Chenhui Yang. 227-238 [doi]

NearbyPatchCL: Leveraging Nearby Patches for Self-supervised Patch-Level Multi-class Classification in Whole-Slide ImagesGia-Bao Le, Van Tien Nguyen, Trung-Nghia Le, Minh-Triet Tran. 239-252 [doi]

Improving Small License Plate Detection with Bidirectional Vehicle-Plate RelationSongkang Dai, Song-Lu Chen, Qi Liu 0041, Chao Zhu 0003, Yan Liu, Feng Chen 0040, Xu-Cheng Yin. 253-266 [doi]

A Purified Stacking Ensemble Framework for Cytology ClassificationLinyi Qian, Qian Huang, Yulin Chen, Junzhou Chen. 267-280 [doi]

SEAS-Net: Segment Exchange Augmentation for Semi-supervised Brain Tumor SegmentationJing Zhang, Wei Wu. 281-295 [doi]

Super-Resolution-Assisted Feature Refined Extraction for Small Objects in Remote Sensing ImagesLihua Du, Wei Wu, Chen Li. 296-309 [doi]

Lightweight Image Captioning Model Based on Knowledge DistillationZhenlei Cui, Zhenhua Tang, Jianze Li, Kai Chen. 310-324 [doi]

Irregular License Plate Recognition via Global Information IntegrationYuan-yuan Liu, Qi Liu 0041, Song-Lu Chen, Feng Chen 0040, Xu-Cheng Yin. 325-339 [doi]

TNT-Net: Point Cloud Completion by Transformer in TransformerXiaohai Zhang, Jinming Zhang, Jianliang Li, Ming Chen. 340-352 [doi]

Fourier Transformer for Joint Super-Resolution and Reconstruction of MR ImageJiacheng Chen, Fei Wu, Wanliang Wang, Haoxin Sheng. 353-364 [doi]

MVD-NeRF: Resolving Shape-Radiance Ambiguity via Mitigating View DependencyYangjie Cao, Bo Wang, Zhenqiang Li, Jie Li. 365-378 [doi]

DPM-Det: Diffusion Model Object Detection Based on DPM-Solver++ Guided SamplingJingzhi Zhang, Xudong Li, Linghui Sun, Chengjie Bai. 379-393 [doi]

CT-MVSNet: Efficient Multi-view Stereo with Cross-Scale TransformerSicheng Wang, Hao Jiang, Lei Xiang. 394-408 [doi]

A Coarse and Fine Grained Masking Approach for Video-Grounded DialogueFeifei Xu, Wang Zhou, Tao Sun, Jiahao Lu, Ziheng Yu, Guangzhen Li. 409-422 [doi]

Deep Self-supervised Subspace Clustering with Triple LossXiaotong Bu, Jiwen Dong, Mengjiao Zhang, Guang Feng, Xizhan Gao, Sijie Niu. 423-436 [doi]

LigCDnet:Remote Sensing Image Cloud Detection Based on Lightweight FrameworkBaotong Su, Wenguang Zheng. 437-450 [doi]

Gait Recognition Based on Temporal Gait Information EnhancingQizhen Chen, Xin Chen 0021, Xiaoling Deng, Yubin Lan. 451-463 [doi]

Learning Complementary Instance Representation with Parallel Adaptive Graph-Based Network for Action DetectionYanyan Jiao, Wenzhu Yang, Wenjie Xing. 464-478 [doi]

CESegNet:Context-Enhancement Semantic Segmentation Network Based on TransformerXu Chen, Zhibin Zhang. 479-493 [doi]

MoCap-Video Data Retrieval with Deep Cross-Modal LearningLu Zhang, Jingliang Peng, Na Lv. 494-506 [doi]

LRATNet: Local-Relationship-Aware Transformer Network for Table Structure RecognitionGuangjie Yang, Dajian Zhong, Yu-Jie Xiong, Hongjian Zhan. 507-520 [doi]

runs on WebDSL