International Symposium on Multimedia, ISM 2025, Naples, Italy, December 8-10, 2025

researchr

You are not signed in
Sign in
Sign up

International Symposium on Multimedia, ISM 2025, Naples, Italy, December 8-10, 2025. IEEE, 2025. [doi]

Conference: ism

Abstract is missing.

High-Fidelity Semantic Video Communication with Controllable Image-To-Video Diffusion ModelsCem Eteke, Alexander Griessel, Wolfgang Kellerer, Eckehard G. Steinbach. 1-5 [doi]

Facial Similarity-Guided Fine-Tuning for Hand Shape Correction in AI-Generated Human ImagesYuki Ryu, Akira Kubota. 1 [doi]

Diversity-Aware Active Learning for Object Detection Utilizing Time-of-Day MetadataFumiya Higashide, Akira Kubota. 2 [doi]

LPConv: Laplacian Pyramid Convolutions for Parameter-Efficient Receptive Field ExpansionNaoki Nishiya, Akira Kubota. 3 [doi]

Smarter Traps: Neural Network-Driven Classification of Small MammalsWilliam Menz, Ralf Dittrich, Rakesh Rao Ramachandra Rao, Steve Göring, Alexander Raake. 4 [doi]

Exploring Privacy and Security Risks in LLMs: Data Leakage, Prompt Injection, and Membership InferenceGiancarlo Sperlí. 5-12 [doi]

DWT Domain Precinct-Wise Scrambling for Encryption-then-Compression with JPEG XSTakayuki Nakachi, Park Cheolhwan, Yasuhisa Kato, Mitsuru Maruyama. 13-16 [doi]

Machine Learning Techniques for the Diagnosis and Monitoring of Nevi and MelanomasGiulia Di Flamminio, Fabio Persia, Daniela D'Auria, Ciro Esposito, Vincenzo Coppola. 17-20 [doi]

Fewer-Shot Self-Supervised Image Recoloring for Deutan Deficiency Based on Laplacian PyramidOnhi Kato, Akira Kubota. 21-22 [doi]

QoE Evaluation of BPP Packet Wash Using ROI-Based Scalable Video CodingMohammadreza Ghafari, Thibault Cholez, Olivier Festor. 23-30 [doi]

Evaluation of AR-Based Blind Spot Monitoring Across Diverse Driving Scenarios Using a VR SimulatorYohei Sakai, Tomokazu Ishikawa. 31-38 [doi]

A Forearm-Worn Haptic Device for Integrated Tactile and Kinaesthetic Feedback via Skin StretchSelin Nur Özsert, Daniel Rodriguez-Guevara, Leonardo Franco, Wenxuan Wei, Eckehard G. Steinbach, Domenico Prattichizzo. 39-45 [doi]

Prompted Vs. Organic Customer Insight: Comparing the Value of Focus Groups and Online Reviews in Product and Service InnovationMaren Schnieder, Ana Isabel Canhoto, Ramin Behbehani, Ahmad Beltagui, Niraj Kumar 0002, Amirreza Alizamani. 46-53 [doi]

Low-Light Image Enhancement with Adaptive Brightness Transform Models for Video See-Through ARYingen Xiong, Christopher Peri. 54-55 [doi]

Video Classification of Marchantia Polymorpha Using a Video Vision Transformer with Emphasized Channel InformationHaruhiko Murata, Naoki Minamino, Takashi Ueda, Yohei Kondo, Kazuhiro Hotta. 56-59 [doi]

Syntax-Aware Transformer for Sentiment Analysis of Japanese SNS TextSotaro Shiozawa, Akira Kubota. 60-63 [doi]

Coding Gaussian Splat Scenes with V3C/V-PCCPatrice Rondao-Alface, Lauri Ilola, Lukasz Kondrad. 64-68 [doi]

Comparative Evaluation of Deep Learning Methods for Wood Surface Defect Detection: A Comprehensive Study of Semantic Segmentation ApproachesYuki Yanai, Tomokazu Ishikawa. 69-72 [doi]

Exploiting LLMs for Metadata-Based Video Quality PredictionSteve Göring, Rakesh Rao Ramachandra Rao, Alexander Raake. 73-74 [doi]

Lightweight High-Accuracy Tomato Detection and Classification by Efficientnet-Enhanced YOLOv8Hayato Tsukada, Akira Kubota. 75 [doi]

Evaluation of a Floating-Head Communication Prototype for Video-ConferencingWilliam Menz, Alexander Zoubarev, David Kutschke, Rakesh Rao Ramachandra Rao, Louay Bassbouss, Sven Bliedung von der Heide, Steve Göring, Alexander Raake. 76 [doi]

Rendering Compressed Point Clouds with a Voxel-Based MethodHyungwoo Kang, YeoJun Yoon, Joong-Hwan Baek, Byung Tae Oh. 77 [doi]

Application of Computer Vision Research (ISVP.AI) in the Development of the Comprehensive Stellis One Platform for Sports OrganizationsLukasz Gasiorowski, Jagoda Lazarek, Sebastian Purtak, Pawel Góra. 78 [doi]

Recognition of Pitching Habits Using Multimodal Data of RGB Video and SkeletonSatoki Hidaka, Kazuhiro Hotta. 79-82 [doi]

Layout-Aware Self-Correcting Prompts for Multimodal LLM Parking Lot MonitoringViviana Crescitelli. 83-86 [doi]

Comparative Analysis of Face Recognition Models: Runtime Environments and Compute Units on EdgeLukasz Grzymkowski, Tomasz P. Stefanski. 87-90 [doi]

An Agent-Driven Architecture for Harmful Meme Detection through Multimodal DecompositionGian Marco Orlando, Marco Perillo, Diego Russo, Vincenzo Moscato. 91-97 [doi]

Attention-Enhanced Multi-Branch Spiking Neural Network for Event Stream Super-ResolutionAhmadreza Sezavar, Catarina Brites, João Ascenso. 98-102 [doi]

SynthMed: Generating and Detecting Multimodal Deepfakes for Healthcare CommunicationMariano Barone, Francesco Di Serio, Vincenzo Moscato, Marco Postiglione, Giuseppe Riccio 0002, Antonio Romano 0001. 108-115 [doi]

Secure AI-Driven Super-Resolution for Real-Time Mixed Reality ApplicationsMohammad Waquas Usmani, Sankalpa Timilsina, Michael Zink, Susmit Shannigrahi. 116-123 [doi]

Personalised Stress Detection: An Exploration of Temporal Multimodal Late Fusion StrategiesMisha Libman, Gelareh Mohammadi. 124-132 [doi]

Extrinsic Calibration of RGB-D Cameras Using Depth RefinementPeter O. Fasogbon. 133-140 [doi]

Evaluating the Emerging MPEG Video Coding for Machines in Semantic SegmentationKhoa Dang Pham, Farhad Pakdaman, Honglei Zhang 0001, Hamed Rezazadegan Tavakoli, Nam Le 0003, Jukka I. Ahonen, Moncef Gabbouj. 141-148 [doi]

Adaptive Obfuscation for Reusing RGB Datasets for Privacy-Preserving Human Pose EstimationFrancesco Pistolesi, Matteo Mugnai, Beatrice Lazzerini. 149-155 [doi]

Dialogue-Pseudo: A Speaker Pseudonymization Framework for Privacy Protection in Dialogue Speech DataAoi Ito, Katunobu Itou. 156-163 [doi]

Opt360: QoE Optimization for 360° Video StreamingReza Hedayati, Mea Wang, Logan Rakai. 164-171 [doi]

Foot-Strike Pattern Recognition from Inertial Data with Machine LearningMichele Baldassini, Francesco Pistolesi, Beatrice Lazzerini. 172-179 [doi]

The Sustainability Card: Measuring Sustainability of Multimedia AI ModelsFrancesco Pistolesi, Michele Baldassini, Matteo Mugnai, Beatrice Lazzerini. 180-181 [doi]

One Size Doesn't Fit All: Age-Aware Gamification Mechanics for Multimedia Learning EnvironmentsSarah Kaißer, Markus Kleffmann, Kristina Schaaff. 182-189 [doi]

An Influence Analysis of Hybrid Lectures with a Simple Setup on the Student ExperienceFlorian Schimanke, Robert Mertens 0002, Felix Prankel. 190-195 [doi]

RAG Chatbots for Educational Virtual Field TripsSuryaprakash Reddy Kalvakolu, Heinrich Söbke, Florian Wehking, Mukesh Chandra Kumar Mamidala, Eckhard Kraft. 196-201 [doi]

An Efficient Optimization Criterion for Multi-View Feature Representation LearningLei Gao 0001, Kai Liu 0032, Kevin Tang, Ling Guan. 202-207 [doi]

AMICO: A Semantic and Multimodal Framework for AI-Assisted Clinical ReportingAntonio Laudante, Mariano Barone, Giuseppe Riccio, Antonio Romano 0001, Francesco Di Serio, Antonio Scialdone, Francesco Porciello, Nicola Rainone, Vincenzo Moscato. 208-213 [doi]

Empowering Access to Public Services: An Analysis on Multimodal, Retrieval-Augmented Chatbots for Indic Language Support to FarmersMohsina Bilal, Gopakumar G. 214-217 [doi]

Analysis of Multimodal LLMs in VQA in the Field of RadiologyCristovão Pessoa Cândido Neto, Cláudio de Souza Baptista, André Luiz Firmino Alves, Vivek Swarnakar, Anselmo Cardoso de Paiva. 218-225 [doi]

Extending Visual Dialog Beyond English: An Analysis of Monolingual and Multilingual ModelsMilena M. Adão, Silvio Jamil Ferzoli Guimarães, Zenilton Kleber G. do Patrocínio Jr.. 226-233 [doi]

On the Suitability of Perceptual Quality Metrics for Learning-Based Screen Content CompressionH. Burak Dogaroglu, Hongjie You, Atanas Boev, Elena Alshina, Eckehard G. Steinbach. 234-237 [doi]

Multiscale RGB-Thermal Fusion for Vulnerable Road User Detection with ScaleFuseIbrahim Tinas, Yavuz Selim Bostanci, Müjdat Soytürk. 238-243 [doi]

Graph-Based Evaluation of Visual Brain Decoding from fMRI DataMohammad Moradi 0001, Morteza Moradi 0001, Marco Grassia, Giuseppe Mangioni. 244-251 [doi]

CCAFF: Object Tracking Under Heavy OcclusionAbdul Bhutta, Naimul Khan 0001, Ling Guan. 252-257 [doi]

Physics-Guided Exposure Parameter Estimation for Image Metadata VerificationSharmilee Rajkumar Rajan, Ming-Ching Chang, Pradeep K. Atrey. 258-262 [doi]

Extracting Player Speed from Football VideosOle Kristian Rustebakke, Mehdi Houshmand Sarkhoosh, Cise Midoglu, Pål Halvorsen. 266-273 [doi]

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports BroadcastsMehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie, Nam Hoang Vu, Dag Johansen, Cise Midoglu, Tomas Kupka, Pål Halvorsen. 274-279 [doi]

MCAD: Multimodal Context-Aware Audio Description Generation for SoccerLipisha Chaudhary, Trisha Mittal, Subhadra Gopalakrishnan, Ifeoma Nwogu, Jaclyn Pytlarz. 280-287 [doi]

Knowledge-Based Behavioral Biometrics for Secure Authentication in Virtual RealityNuman Zafar, Priyo Ranjan Kundu Prosun, Shafique Ahmad Chaudhry. 288-291 [doi]

From 2D to 3D: How Discrete Dependencies Enable Cross-Dimensional Inference in Neural Networks in Defiance of Euclidean GeometryGerald Friedland, Robert Mertens 0003. 292-299 [doi]

Forecasting "Neg Storms": Time-Aware Modeling of Toxic Situations in Social MediaIrien Akter, Vivek K. Singh 0001, Pradeep K. Atrey. 300-307 [doi]

Personalized Adaptive Magnification in Gaze-Based InteractionFlorian Eggenkemper, Jana Swerew, Teresa Rehers, Manuel Hanhoff, Constantin A. Rothkopf, Robert Mertens 0002. 308-314 [doi]

Adaptation of CDN at the Edge Using Cloud-Native Network Telemetry Across Media ScenariosJavier Iglesias, Juan Felipe Mogollón, Iñigo Tamayo, Zaloa Fernández, Olov Danielsson, Ivan Pretel, Asier Lopez. 315-322 [doi]

Quality Assessment of Dynamic 3D Model in Virtual Reality: Effects of Level of Detail and Viewing DistanceDuc V. Nguyen, Nguyen Thi Quynh Ly, Truong Thu Huong. 323-326 [doi]

3GPP PDU Set Framework: Release 19 UpdatesSerhan Gül, Igor D. D. Curcio. 327-330 [doi]

A One-Class Structural Similarity-Based Autoencoder for the Detection of Malaria-Infected CellsMoses Omondi, Yassine Belkhouche. 331-335 [doi]

Comparison of Multimodal Fall Detection StrategiesReema Maheshbhai Gadhia, Nasim Hajari. 336-339 [doi]

Emotion Detection and Classification of Different Saudi DialectsRehab K. Qarout, Joud Y. Samkari, Rahaf M. ALFudhayl, Ruba H. ALSulami, Shada M. Basudan, Ghadi K. AlJuhani, Nuha Zamzami. 340-345 [doi]

AR in HbbTV-Based Hybrid TV ServicesFernando Boronat, Lluc Simó, Rubén Prieto, Almanzor Sapena. 346-353 [doi]

A Hybrid Noise Perturbation-Based Denoising Autoencoder for Machine Sound Anomaly DetectionKadir Torun, Mustafa Sert. 354-357 [doi]

A First Look at Open-GoP Streaming with Av1 S-FramesAkram Ansari, Ali John Naqvi, Mea Wang, Emir Halepovic. 358-365 [doi]

On Progressive Compressed Neural Model StorageHamed R. Tavakoli, Homayun Afrabadpey. 366-369 [doi]

Metadata-Guided Hot Swapping of Specialized Super-Resolution Models in Streaming SystemsAlperen F. Zengin, Ekrem Çetinkaya, Ali C. Begen, Saba Ahsan, Serhan Gül, Kashyap Kammachi Sreedhar, Emre Aksu. 370-374 [doi]

TARS: Temporal-Spatial Adaptation for Volumetric Video StreamingHadi Heidarirad, Amir Allahveran, Mea Wang. 375-382 [doi]

Cost-Optimal Design of Hybrid Broadcast - Unicast Video Delivery SystemsYuriy A. Reznik. 383-389 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

International Symposium on Multimedia, ISM 2025, Naples, Italy, December 8-10, 2025

Abstract

Table of Contents