Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2025, Singapore, October 22-24, 2025

researchr

You are not signed in
Sign in
Sign up

Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2025, Singapore, October 22-24, 2025. IEEE, 2025. [doi]

Conference: apsipa2025

Abstract is missing.

Enhanced Sliding Discrete Fourier Transform (eSDFT) With Error-Bound Control for Real-Time Parallel ProcessingJetsada Arnin, Danial Kahani, Bernard A. Conway. 1-5 [doi]

Single-Channel Speech Enhancement in Spherical-Mapped Short-Time Spectral DomainYu Morinaga, Naoto Kotake, Iori Hashimoto, Suehiro Shimauchi, Shigeaki Aoki. 1-5 [doi]

On LSTM-Based Behavioral Modeling of Radio-Frequency Power Amplifiers with a Small Training DatasetRyoki Yamaguchi, Satoshi Miyata, Suehiro Shimauchi, Eiji Mochida, Seiji Fujiwara. 1-5 [doi]

You Only Touch Once: One-Touch System for Personalized 3D Music Video GenerationKyungjune Lee, Youngjin Shin, Jungwoo Huh, Sanghoon Lee 0001. 1-5 [doi]

A Reinforcement Learning-Based Approach to Cooperative Multi-UAV Task AllocationNaohiro Kubota, Hideyoshi Miura, Tomotaka Kimura, Kouji Hirata. 1-4 [doi]

Dialospeech: Dual-Speaker Dialogue Generation with LLM and Flow MatchingHanke Xie, Dake Guo, Chengyou Wang, Yue Li, WenJie Tian, Xinfa Zhu, Xinsheng Wang, Xiulin Li, Guanqiong Miao, Bo Liu, Lei Xie 0001. 1-6 [doi]

Training Acoustic Scene Classification Models Robust to Asynchrony in Distributed Microphone ArraysTakao Kawamura, Nobutaka Ono. 1-6 [doi]

GoP-to-Frame Encoder Adaptation for Learned Video CompressionXiaohan Pan, Runsen Feng, Henan Wang, Yixin Gao, Zhibo Chen 0001. 1-5 [doi]

Equivalence of Graph Signal Processing Using a Hermitian Graph Laplacian and its Corresponding Graph Laplacian with Duplicated NodesAkira Tanaka. 1-5 [doi]

Evaluation of Low-Resource and High-Efficiency Deep Learning Accelerator for Clinical Dental DiagnosisYuan-Jin Lin, Yu-Jen Chang, Chin-Hao Liang, Sung-Tsun Wei, Jia-Hong Weng, Shih-Lun Chen, Wei-Chen Tu. 1-4 [doi]

MVDR Beamforming for Underdetermined Sound Source Separation using Iterative PSD Estimation in BeamspaceJin Xuan Teh, Yusuke Hioka. 1-6 [doi]

Algorithm-Architecture Co-Exploration of Systolic Arrays Using High-Level SynthesisChu-Chun Yang, Gwo Giun Lee, Tsung-Ying Tsai, Jie-Ren Zheng, Yue-Cong Kuo, Wei-Chieh Lee, Ryan Karthik Pary. 1-5 [doi]

Exploring Dual-Mode Training for Real-Time Target Speaker ExtractionLi Li 0063, Shogo Seki. 7-12 [doi]

Switching Constant Separating Vector for Moving Source Extraction with Geometric ConstraintsChangda Chen, Yichen Yang 0010, Yuehao Zhao, Shoji Makino, Jingdong Chen. 13-18 [doi]

Neural Network-Assisted Joint DOA Estimation and Beamforming with First-Order Reflection ModelingYichen Yang 0010, Chao Pan 0001, Qiang Gao, Jacob Benesty, Shoji Makino, Jingdong Chen. 19-23 [doi]

Speaker Localization in Classroom Environments Using GCC-PHAT Features and Mamba State Space Models with Ad-Hoc Microphone ArraysRashed Iqbal, Christian H. Ritz, Jack Yang 0003, Sarah K. Howard. 24-29 [doi]

Joint Separation and Tracking of Moving Sources with Distributed Microphone Arrays Based on Time-Varying Inertial Spatial ModelsRyunosuke Nihei, Yoshiaki Bando, Aditya Arie Nugraha, Diego Di Carlo, Hiroyuki Ueda, Yosuke Ito, Kazuyoshi Yoshii. 30-35 [doi]

Visually-Informed Multichannel Sound Source Separation Based on 3D Gaussian PrimitivesHaruaki Asano, Ryunosuke Nihei, Yoshiaki Bando, Aditya Arie Nugraha, Diego Di Carlo, Hiroyuki Ueda, Yosuke Ito, Kazuyoshi Yoshii. 36-41 [doi]

Joint Optimization of Sampling Rate Offsets and Demixing Filters Using Auxiliary Function MethodHayato Takeuchi, Takao Kawamura, Nobutaka Ono, Shoko Araki. 42-47 [doi]

First Demonstration of Acoustic Scene Classification Based on Trained Sound-to-Light ConversionShun Kotsugi, Takao Kawamura, Nobutaka Ono. 48-53 [doi]

Auxiliary-Function-Based Decentralized Independent Vector Analysis for Distributed Microphone ArraysKouei Yamaoka, Katsuhiro Morita, Norihiro Takamune, Hiroshi Saruwatari. 54-59 [doi]

Interactive Spatial Audio Rendering on Mobile Devices: A Two-Stage User Interface with Adaptive HRTF Selection and Real-Time Room Acoustics SimulationShravan Raghunath, Kanishk AL, Sailesh S, Rishabh Gupta, Saurav Gupta, Ramesh R. 60-65 [doi]

Are Identical Sounds Present in Distributed Recordings to Serve as Spatio-Temporal Anchors? A Case Study using the SINS DatabaseTakao Kawamura, Nobutaka Ono. 66-71 [doi]

Evaluation of Auditory and Tactile Perception for Augmented Sound-Image Enhancement Using Pre-Virtual-Leading Hypersonic SignalsRyota Imanaka, Yuting Geng, Masato Nakayama, Takanobu Nishiura. 72-77 [doi]

Improvement in Variance Estimation in Variable-Step-Size Shared-Error NLMS Algorithm for Acoustic Echo and Noise CancellerKenta Iwai. 78-82 [doi]

Hierarchical Sparse Sound Field Reconstruction with Spherical and Linear Microphone ArraysShunxi Xu, Craig T. Jin. 83-88 [doi]

Robust Superdirective Beamforming Using a Uniform Circular Array with Directional MicrophonesWeilong Huang, Longfei Felix Yan 0001, Emanuël A. P. Habets. 89-94 [doi]

Towards Robust Stereo 3-D SELD: A Study of Perceptual Features and Data AugmentationJunwei Yeow, Ee-Leng Tan, Santi Peksi, Woon-Seng Gan, Qirui Huang. 95-100 [doi]

Pre-training Autoencoder for Acoustic Event Classification via BlinkyXiaoyang Liu, Yuma Kinoshita. 101-106 [doi]

Sound Source Enhancement Using Power Spectral Density Estimation in Beamspace for a Dual Unmanned Aerial Vehicle SystemMingxue Song, Jin Xuan Teh, Yusuke Hioka, Benjamin Yen 0001, Hiroshi Saruwatari. 107-112 [doi]

Three-Dimensional Gradient-Based Tracking of Multiple Sound SourcesShaoheng Xu, Wei-Ting Lai, Yile Angela Zhang, Jihui Zhang 0006, Amy Bastine, Prasanga N. Samarasinghe, Thushara D. Abhayapala. 113-118 [doi]

Retrieval-Augmented Difference Captioning to Explain Unsupervised Anomalous Sound DetectionRyoya Ogura, Tomoya Nishida, Yohei Kawaguchi. 119-124 [doi]

An Evaluation of Supervised Virtual Microphone Estimators in Reverberant Sound FieldsKimihiro Hattori, Wen-Chin Huang, Kazuya Takeda, Tomoki Toda. 125-130 [doi]

Human-CLAP: Human-perception-based Contrastive Language-audio PretrainingTaisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito 0001, Ryotaro Nagase, Hiroshi Saruwatari. 131-136 [doi]

DG-SED: Domain Generalization for Sound Event Detection with Heterogeneous Training DataYang Xiao, Han Yin, Jisheng Bai, Rohan Kumar Das. 143-148 [doi]

Accelerated Convolutive Transfer Function-Based Multichannel NMF Using Iterative Source SteeringXuemai Xie, Xianrui Wang, Liyuan Zhang, Yichen Yang 0010, Shoji Makino. 149-153 [doi]

DySiME: Dynamic Single-Source Multichannel Enhancement Using Time-Varying Directional CuesHao Liang, Yichen Yang 0010, Xiao Zhang, Shoji Makino, Jingdong Chen. 154-159 [doi]

Demixing Filter Estimation for Bleeding-Sound Reduction of a Vocal MicrophoneSoushi Taninomiya, Daichi Kitamura, Norihiro Takamune, Kouei Yamaoka, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo, Hayato Yamakawa. 160-165 [doi]

Prior-Guided Source Separation with Direct Update of Back-Projected Demixing VectorsKukuru Koiso, Taishi Nakashima, Nobutaka Ono. 166-171 [doi]

Meta-Learning with Pretrained Audio Representations Enables One-Shot Acoustic Signal ClassificationHaoxiang Wu, Zhengqiao Zhao, Jingdong Chen, Jacob Benesty. 172-176 [doi]

A Semi-Supervised Acoustic Scene Classification Network Based on Multi-Modal Information FusionJunkang Yang, Hongqing Liu, Liming Shi, Lu Gan 0002, Hiromitsu Nishizaki, Chee Siang Leow. 177-181 [doi]

ASCMamba: Multimodal Time-Frequency Mamba for Acoustic Scene ClassificationBochao Sun, Dong Wang, Zhanlong Yang, Jun Yang, Han Yin. 182-187 [doi]

Evaluation of Low-Frequency Restriction, Pitch-Shift Augmentation, and Average Pooling for Acoustic Scene Classification Under Unseen-City ConditionsTakao Kawamura, Masayuki Sera, Nobutaka Ono. 188-192 [doi]

The APSIPA ASC 2025 Grand Challenge on City and Time-Aware Semi-Supervised Acoustic Scene Classification: Summary and ResultsJisheng Bai, Mou Wang, Haohe Liu, Bin Xiang, Ying Liu, Jianfeng Chen, Dongyuan Shi, Mark D. Plumbley, Susanto Rahardja, Woon-Seng Gan. 193-197 [doi]

Drum-to-Vocal Percussion Sound Conversion and Its Evaluation MethodologyRinka Nobukawa, Makito Kitamura, Tomohiko Nakamura, Shinnosuke Takamichi, Hiroshi Saruwatari. 198-203 [doi]

How Do Deaf and Hard of Hearing People Listen to Music Instruments? Subjective Evaluation and Acoustic FeaturesRumi Hiraga, Yuhki Shiraishi, Keiichi Yasu. 204-209 [doi]

Quality Assessment of DNN-Based Algorithms for Music Boundary DetectionAneeka Azmat, Li Su, ChengHsin Hsu. 210-215 [doi]

Note-level Nonchord-tone Identification with Graph Neural NetworksYui Uehara, Satoshi Tojo. 216-221 [doi]

Evaluation Score Prediction for Japanese Songs Based on Melody Fitness to LyricsSosuke Nishimura, Eita Nakamura. 222-227 [doi]

A Comparative Study of Statistical Features and Deep Learning for Orchestral Texture ClassificationZih-Syuan Lin, Jun-You Wang, Li Su 0004. 228-233 [doi]

Efficient Transformer-Based Piano Transcription with Sparse Attention MechanismsWeixing Wei, Kazuyoshi Yoshii. 234-239 [doi]

Transformer-Based Unpaired Piano Accompaniment Style TransferHsin Ai, Yi-Hsuan Yang. 240-245 [doi]

Designing a Music Difficulty Measure for Controllable Automatic Piano RearrangementHikari Miyaji, Keito Sawada, Wen-Chin Huang, Tomoki Toda. 246-251 [doi]

Vocal Onset Detection and Pitch Segmentation in Medieval Choral Music Guided by Original Notational SourcesSamuel D. Bellows, Sarabeth S. Mullins, Brian F. G. Katz. 252-257 [doi]

MORTM: MoE-Optimized Rhythmic Transformer Model for Symbolic MIDI GenerationTakaaki Nagoshi, Tetsuro Kitahara. 258-263 [doi]

TAPA-ICL: Taxonomy-Aware Prompt Augmentation for in-Context Learning in Music UnderstandingJiahao Zhao, Yunjia Li, Kazuyoshi Yoshii. 264-269 [doi]

Unified Timbre Transfer: A Compact Model for Real-Time Multi-Instrument Sound MorphingAnders Riddersholm Bargum, Naotake Masuda, Bogdan Teleaga, Andrew Fyfe, Cumhur Erkut. 270-275 [doi]

Real-World Music Plagiarism Detection with Music Segment Transcription SystemSeonghyeon Go. 276-281 [doi]

Attention-Based Adaptive Structured Patchout Spectrogram Transformer for Music ClassificationYuan Liu, Lingqing Liu, Yichen Yang 0010, Shoji Makino. 282-287 [doi]

Accuracy Improvement of Automatic Chord Recognition with Source Separation PreprocessingAyumu Mitoma, Ken'ichi Furuya. 288-292 [doi]

Effects of Music Training Experience on the Production of English Rhythm by Chinese LearnersChenyu Li, Ying Chen, Ruizhe Wang, Yujia Zhang. 293-297 [doi]

Hierarchical Symbolic Music Generation with Variational Autoencoder-Based Bar-Wise Feature SequencesKeito Sawada, Wen-Chin Huang, Tomoki Toda. 299-304 [doi]

Singing MIDI Transcription with Music Language Models: Formulation and ComparisonYu Sugimoto, Jun-You Wang, Li Su, Eita Nakamura. 310-315 [doi]

Data-Efficient Music Captioning Via Contrastive and Semantic AlignmentLeekyung Kim, Jonghun Park. 311-316 [doi]

GAN-Enhanced InpaintNet for Music Inpainting on Limited DataKomei Naemura, Boyu Cao, Ryotaro Nagase, Ryoichi Takashima, Yoichi Yamashita. 317-322 [doi]

An Analysis of Singing Accuracy Towards Quantifying the Melodic SingabilityMinami Kawahara, Tetsuro Kitahara. 323-328 [doi]

Guitar Tone Morphing by Diffusion-Based ModelKuan-Yu Chen 0005, Kuan-Lin Chen 0001, Yu-Chieh Yu, Jian-Jiun Ding. 329-333 [doi]

Design of Speech Leakage-Suppressed Audio-Spot Based on Auditory Masking Area Control with Active Masker Cancellation Using Parametric Array LoudspeakersTomoki Hashida, Yuting Geng, Masato Nakayama, Takanobu Nishiura. 334-339 [doi]

Multichannel Feedforward Active Noise Control System with Optical Laser Microphone in Reverberant EnvironmentsMaoto Mizutani, Kenta Iwai, Masato Nakayama, Takanobu Nishiura, Yoshiharu Soeta. 340-345 [doi]

Frequency-Domain Online Modeling of Multiple Secondary Paths Without Auxiliary Noise for Active Noise ControlSiyuan Lian, Xiaofeng Zeng, Ruquan Sun, Jing Lu. 346-351 [doi]

Applying Model-Agnostic Meta-Learning with Iterative Dichotomiser 3 for Alternating-Switching Active Noise Control SystemsXiaoyi Shen, Dongyuan Shi, Woon-Seng Gan, Jun Yang 0004. 352-357 [doi]

A Robust Proactive Communication Strategy for Distributed Active Noise Control SystemsJunwei Ji, Dongyuan Shi, Zhengding Luo, Boxiang Wang, Ziyi Yang, Haowen Li, Woon-Seng Gan. 358-363 [doi]

Directional Selective Fixed-Filter Active Noise Control Based on a Convolutional Neural Network in Reverberant EnvironmentsBoxiang Wang, Zhengding Luo, Haowen Li, Dongyuan Shi, Junwei Ji, Ziyi Yang, Woon-Seng Gan. 364-369 [doi]

An Online Secondary Path Modeling Technique in a Hybrid Active Noise Control SystemHarold Alexis Lao, Cheng-Yuan Chang. 370-375 [doi]

A Diffusion Remote Microphone Technique for Distributed Active Noise ControlTianyou Li, Sipei Zhao, Haowen Li, Xiaofeng Zeng, Ruquan Sun, Jing Lu. 376-381 [doi]

An Integrated Active Noise Control and Crosstalk Cancellation System Designed Under a Generalized Model-Matching FrameworkMichael Anthony, Chih-Yen Wang, Ching En Huang, You-Siang Chen, Mingsian R. Bai. 382-387 [doi]

Improvement of Noise Reduction in a Panel Combined with Multiple Loudspeakers Using Active Noise ControlTatsuya Murao. 388-393 [doi]

Selective Fixed Filter Sub-Band Active Noise Control System Based on Reference Signal Power EstimationShota Toyooka, Ryo Matsuura, Kenta Iwai, Yoshinobu Kajikawa. 394-399 [doi]

Performance Analysis of Active Noise Control Over a Spatial RegionJihui Aimee Zhang, Thushara D. Abhayapala, Naoki Murata, Prasanga N. Samarasinghe, Yu Maeno, Yuki Mitsufuji. 400-405 [doi]

Electro-Acoustic Component Placement Optimization for Helicopter Cabin Anc SystemsYuhang Yang, Liquan Shi, Ningyuan Liang, Guoyong Jin. 406-411 [doi]

Spatial-Correlation-Based Error Weighting Method for Efficient Application of Filtered Reference Algorithm in Multichannel Active Noise ControlMeiling Hu, Jing Lu, Qingyu Ma. 412-416 [doi]

An Alternating Mode Strategy for Adaptive Sound Field Control and Acoustic Path TrackingJunqing Zhang, Jingli Xie, Dongyuan Shi, Wen Zhang 0002, Jingdong Chen, Jacob Benesty. 417-422 [doi]

DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic ScenesHaowen Li, Zhengding Luo, Dongyuan Shi, Boxiang Wang, Junwei Ji, Ziyi Yang, Woon-Seng Gan. 423-428 [doi]

Unsupervised Spectrogram Enhancement Algorithm Based on Bi-LSTMHanwen Zhang, Xiruo Su, Zhijuan Zhu, Bin Wu 0015, Lingyun Ye. 429-434 [doi]

Continual Learning-Based Selective Fixed-Filter Active Noise ControlJingsong Xiao, Qirui Huang. 435-440 [doi]

Meta-Learned Regional Initialization of Control Filters for Headphone Active Noise ControlZiyi Yang, Zhengding Luo, Dongyuan Shi, Junwei Ji, Boxiang Wang, Haowen Li, Qirui Huang, Woon-Seng Gan. 441-446 [doi]

Ramdc: Room-Aware Multi-Device Clustering for Large Scale TeleconferencingYile Angela Zhang, Wei-Ting Lai, Amy Bastine, Xingyu Chen, Lachlan Ian Birnie, Thushara D. Abhayapala, Prasanga N. Samarasinghe. 447-452 [doi]

Multi-Channel ANC with Adaptive Kernel Assisted on-Line Secondary Path ModelingHucheng Wang, Tao Liu, Junqing Zhang, Wen Zhang. 453-458 [doi]

A Laplace Distribution-Based Variable Step-Size FxlogLMS Algorithm for Active Impulsive Noise ControlAoi Haneda, Yosuke Sugiura, Tetsuya Shimamura. 459-464 [doi]

Research Progress on Active Control of Road Noise in VehiclesWangxiaoxu Chen, Jiancheng Tao, Shuping Wang, Kai Chen 0029, Haishan Zou, Xiaojun Qiu. 465-470 [doi]

Anomalous Sound Detection Based on Derivative Features of Short-Time Holomorphic Fourier TransformIori Hashimoto, Yu Morinaga, Suehiro Shimauchi, Shigeaki Aoki. 471-476 [doi]

Elastic Additive Angular Margin Loss Integrated with Mixup for Anomalous Sound DetectionYihao Zhao, Yichen Yang 0010, Xiao Zhang, Shoji Makino. 477-482 [doi]

A Distilled Low-Latency Neural Vocoder with Explicit Amplitude and Phase PredictionHui-Peng Du, Yang Ai, Zhen-Hua Ling. 483-488 [doi]

Directional Filtering of Sound Fields for Emphasizing Specific Directions of Arrival and Its ApplicationsRyo Murakami, Natsuki Ueno. 489-494 [doi]

Sound Field Estimation Method Robust to Microphone Position and Directivity ErrorsTakumi Koga, Natsuki Ueno. 495-500 [doi]

Anomalous Sound Detection Using Time-Frequency Derivative of Instantaneous Phase FeaturesTran-Quang-Tuan Vo, Quoc Huy Nguyen, Masashi Unoki. 501-506 [doi]

Few-Step Diffusion-Based Voice Conversion Using Consistency Trajectory ModelsRyuichi Hatakeyama, Toru Nakashika, Takuya Takahashi. 507-512 [doi]

Spatial Audio Signal Enhancement: A Multi-Output MVDR Method in the Spherical Harmonic-DomainHuawei Zhang, Jihui Zhang 0006, Huiyuan Sun, Prasanga N. Samarasinghe. 513-518 [doi]

Language Adaptation Wake Word Spotting via Latent Space from Pre-Trained Speech ModelsShifu Xiong, Hengshun Zhou, Kai Shen, Shi Cheng 0001, Hang Chen 0001, Genshun Wan, Kewei Li, Jun Du 0002, Lirong Dai 0001. 519-524 [doi]

Identifying Speaker Information in Feed-Forward Layers of Self-Supervised Speech TransformersTzu-Quan Lin, Hsi-Chun Cheng, Hung-yi Lee, Hao Tang 0002. 525-530 [doi]

Multi-Task Pretraining for Enhancing Interpretable L2 Pronunciation AssessmentJiun-Ting Li, Bi-Cheng Yan, Yi-Cheng Wang, Berlin Chen. 531-536 [doi]

End-to-End Integration of Speech Emotion Recognition and Voice Activity Detection with a Self-Supervised Model for Noise RobustnessNatsuo Yamashita, Masaaki Yamamoto, Yohei Kawaguchi. 537-542 [doi]

Scsmt: a Multilingual Children's Speech Corpus for Singapore's Mother TonguesBowen Zhang, Nur Afiqah Abdul Latiff, Rong Tong, Donny Soh, Ian McLoughlin 0001. 543-548 [doi]

Reducing Orthographic Dependency on Paired Data by Probabilistic Integration via Syllabogram for Japanese Dialogue Speech RecognitionRyu Takeda, Kazunori Komatani. 549-554 [doi]

Expressive Prompting: Improving Emotion Intensity and Speaker Consistency in Zero-Shot TTSHaoyu Wang, Chunyu Qiang, Tianrui Wang, Cheng Gong, Yu Jiang, Yuheng Lu, Chen Zhang 0013, Longbiao Wang, Jianwu Dang 0001. 555-560 [doi]

Constructing an In-the-Wild Spoken Dialogue Dataset Based on Youtube Dialogue VideosYuki Sato, Sanae Yamashita, Shinnosuke Takamichi, Ryuichiro Higashinaka. 561-566 [doi]

Emotional Text-To-Speech Based on Mutual-Information-Guided Emotion-Timbre DisentanglementJianing Yang, Sheng Li 0010, Takahiro Shinozaki, Yuki Saito 0001, Hiroshi Saruwatari. 567-572 [doi]

Conversation Context-Aware Direct Preference Optimization for Style-Controlled Speech SynthesisAtsushi Kojima, Yusuke Fujita, Hao Shi, Tomoya Mizumoto, Mengjie Zhao, Yui Sudo. 573-578 [doi]

A Hybrid Attention Mechanism to Improve Tacotron 2 Performance for Indonesian Text-to-Speech SynthesisAngela Catherina, Bima Prihasto, Boby Mugi Pratama, Li-Wei Kang, Jia-Ching Wang. 579-582 [doi]

SpkAugTSE: A Simple and Efficient Approach to Address Target Confusion in End-to-End Speaker ExtractionZhenghai You, Zhenyu Zhou, Lantian Li, Dong Wang 0013. 583-588 [doi]

Interpolating Speaker Identities in Embedding Space for Data ExpansionTianchi Liu 0004, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li 0001. 589-594 [doi]

MDD: A Mask Diffusion Detector to Protect Speaker Verification Systems from Adversarial PerturbationsYibo Bai, Sizhou Chen, Michele Panariello, Xiao-lei Zhang, Massimiliano Todisco, Nicholas W. D. Evans. 595-600 [doi]

Fusing Multi-Layer Features of the Pre-Trained Model with Grouped Cross Attention for Spoofing Speech DetectionYu Guan, Wu Guo, Jie Zhang, Zhijun Zhang. 601-606 [doi]

Fusing Blocked Deep Features of Pre-Trained Models for Short-Duration Speaker VerificationZhijun Zhang, Wu Guo, Jie Zhang, Yu Guan. 607-612 [doi]

Multi-level Adversarial Training with Data Augmentation for Robust Speaker VerificationXiaolei Zhang, Zhihua Fang, Liang He. 613-618 [doi]

Analysis of Speaker Verification Performance Trade-Offs with Neural Audio Codec TransmissionNirmalya Mallick Thakur, Jia Qi Yip, Eng Siong Chng. 619-624 [doi]

Estimating Speaker's Seating Position from Monaural Speech in a Simulated Vehicle Interior Sound FieldMasataka Kaneko, Wen-Chin Huang, Tomoki Toda. 625-629 [doi]

Ts-Vad+: Modularized Target-Speaker Voice Activity Detection for Robust Speaker DiarizationTran The Anh, Azmat Adnan, Yihao Wu, Chng Eng Siong. 630-635 [doi]

Are Multimodal Foundation Models All That Is Needed for Emofake Detection?Mohd Mujtaba Akhtar, Girish, Orchid Chetia Phukan, Swarup Ranjan Behera, Pailla Balakrishna Reddy, Ananda Chandra Nayak, Sanjib Kumar Nayak, Arun Balaji Buduru. 636-641 [doi]

Neural Speech Separation with Parallel Amplitude and Phase Spectrum EstimationFei Liu, Yang Ai, Zhen-Hua Ling. 642-647 [doi]

Introducing Self-Supervised Learning Models for Spoken Query-Spoken Term DetectionMasato Nagase, Kazunori Kojima, Shi-wook Lee, Yosiaki Itoh. 653-657 [doi]

Characterization of Speech Similarity Between Australian Aboriginal and High-Resource Languages: A Case Study on DharawalTing Dang, Trini Manoj Jeyaseelan, Eliathamby Ambikairajah, Vidhyasaharan Sethu. 658-663 [doi]

Segment Transformer: AI-Generated Music Detection via Music Structural AnalysisYumin Kim, Seonghyeon Go. 664-669 [doi]

Dialect Identification Using Resource-Efficient Fine-Tuning ApproachesZirui Lin, Haris Gulzar, Monnika Roslianna Busto, Akiko Masaki, Takeharu Eda, Kazuhiro Nakadai. 670-675 [doi]

A High-Quality and Low-Complexity Streamable Neural Speech Codec with Knowledge DistillationEn-Wei Zhang, Hui-Peng Du, Xiao-Hang Jiang, Yang Ai, Zhen-Hua Ling. 676-681 [doi]

Effectiveness of Streaming ASR for Real-Time Laughter and Screaming DetectionMizuki Kurasawa, Yoshiko Arimoto. 682-687 [doi]

Mitigating Data Imbalance in Automated Speaking AssessmentFong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen. 688-693 [doi]

An Information-Theoretic Approach to Data Selection for Generative Topic ModelingMichael Evan Santoso, Bhone Tay Zar Kyaw, Valentinus Roby Hananto, Victor V. Kryssanov. 694-699 [doi]

Collective Learning-Based Optimal Transport GAN with Multi-Level Fine-Grained and Global Discriminators for Voice ConversionSandipan Dhar, MD. Tousin Akhter, Nanda Dulal Jana, Swagatam Das, Monorama Swain, Saurav Chowdhury. 700-705 [doi]

Beyond Binary Detection: Multi-Etiology Dysarthria Classification with Pre-Trained Speech ModelsZihan Zhong, Qianli Wang, Satwinder Singh, Clarion Mendes, Mark Hasegawa-Johnson, Waleed Abdulla, Seyed Reza Shahamiri. 706-711 [doi]

A Dual-Path Speaker-Independent Acoustic-Toarticulatory Inversion Model Based on Content and Speaker Information DisentanglementQiang Fang. 712-717 [doi]

Dementia Prediction From Speech Signal Using Optimized Prosodic FeaturesBagus Tris Atmaja, Sakriani Sakti. 718-723 [doi]

Speech Emotion Recognition Via Entropy-Aware Score SelectionChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao. 724-729 [doi]

Improving Exemplar-Based Electrolaryngeal Speech Voice Conversion Via Robust Content RepresentationsFo-Rui Li, Hsin-Te Hwang, Ming-Chi Yen, Men-Tung Lo, Yu Tsao 0001, Hsin-Min Wang. 730-735 [doi]

An Efficient Transfer Learning Method Based on Adapter with Local Attributes for Speech Emotion RecognitionHaoyu Song, Ian McLoughlin 0001, Qing Gu 0002, Nan Jiang 0022, Yan Song 0001. 736-740 [doi]

ASRQ-VC: ASR-Guided Speech Content Quantization for High-Fidelity Voice ConversionSongting Liu, Deheng Ye, Wei Yang 0032, Haoyang Li, Eng Siong Chng. 741-746 [doi]

PUNSER: Large-Scale Pre-Trained and Unified Model for Practical Speech Emotion RecognitionYu Hayashizaki, Takashi Nose, Sumiharu Kobayashi, Satoru Fukayama, Akinori Ito. 747-752 [doi]

Investigation of the Effectiveness of Converted Speech Auditory Feedback in Low-Latency Real-Time Voice ConversionKiseki Niwa, Kazuhiro Kobayashi, Tomoki Toda. 753-758 [doi]

Study on Signal Processing Techniques in Protecting Voice Personae Against Speech Synthesis SystemsNopparut Li, Candy Olivia Mawalim, Masashi Unoki. 759-764 [doi]

MixedG2P-T5: G2P-Free Speech Synthesis for Mixed-Script Texts Using Speech Self-Supervised Learning and Language ModelJoonyong Park, Daisuke Saito, Nobuaki Minematsu. 765-770 [doi]

2TTS: Image-Indicated Immersive Text-to-Speech Synthesis with Spatial PerceptionJiawei Zhang, Tian-Hao Zhang, Jun Wang, Jiaran Gao, Ruijie Tao, Xinyuan Qian 0001, Xu-Cheng Yin. 771-776 [doi]

Chain-of-Thought Distillation for ASR Error Correction with Multimodal Large Language ModelsShaomeng Yang, Jiaming Luo, Jinran Wang, Rongfeng Su, Yongjie Zhou, Lan Wang, Nan Yan. 777-782 [doi]

Direction-Guided Spatial Attention for Multichannel Speech EnhancementShuai Nie 0001, Yaran Chen, Shan Liang, Jiaming Xu, Runyu Shi. 783-788 [doi]

A Study of Japanese Mixed Emotional Speech Synthesis Based on an End-to-End Emotional Speech Synthesis ModelIssei Sakata, Tetsuo Kosaka. 789-794 [doi]

EFTTS: Zero-Shot Emotional Speech Synthesis via Conditional Flow Matching and Self-Supervised RepresentationsHaoyu Wang, Jiale Chen, Jiaxun Li, Sizhe Shan, Yuehai Wang. 795-800 [doi]

Improving Speech-to-Speech Translation for Low-Resource Languages via Transfer LearningRui Zhou, Akinori Ito, Takashi Nose. 801-806 [doi]

VICNet: FaderNet-Based Voice Impression Conversion with Affective Dimensional RepresentationTakuya Takahashi, Saki Kugimoto, Toru Nakashika. 813-818 [doi]

Strategic Re-Weighting of U-Net Components in Diffusion Models for Enhanced Speech Enhancement Without RetrainingYuehai Zhang, Yang Li, Yuehao Zhao, Shoji Makino. 819-824 [doi]

Fast and Speaker-Independent Utterance Selection for ASR-Free CALL Systems of Minority LanguagesTakaki Koshikawa, Akinori Ito, Takashi Nose. 825-830 [doi]

Speech-Content-Driven Highlighting of Translated Lecture Slides for Foreign Language Lecture UnderstandingNaoki Muto, Chee Siang Leow, Junichi Hoshino, Takehito Utsuro, Hiromitsu Nishizaki. 831-836 [doi]

Leveraging Language Information for Target Language ExtractionMehmet Sinan Yildirim, Ruijie Tao, Wupeng Wang, Junyi Ao, Haizhou Li 0001. 837-842 [doi]

VietLyrics: A Large-Scale Dataset and Models for Vietnamese Automatic Lyrics TranscriptionNguyen Quoc Anh, Bernard Cheng, Kelvin Soh. 843-848 [doi]

Autofocus Neural Beamformer Based on Steering Vector EstimationReiya Marukawa, Takeshi Yamada. 849-854 [doi]

Estimating User Sentiment at Sub-Exchange Granularity From Exchange-Level AnnotationsDaichi Yukizawa, Kenta Yamamoto, Ryu Takeda, Kazunori Komatani. 855-860 [doi]

DAU-KDAH Dysarthic Multi-Lingual and Multimodal Speech Corpora for Indic LanguagesArth J. Shah, Hiya Chaudhari, Kavya Kumar, Arushi Srivastava, Priya J. Kaple, Ravindrakumar M. Purohit, Dharmendra H. Vaghera, Bhavna Singh, Aparna Walanj, Abhishek Srivastava, Hemant A. Patil. 861-866 [doi]

Gamma-VAE-VC: Voice Conversion based on VAE Assuming Gamma Distribution for Both Latent Variables and ObservationNanako Imaichi, Takuya Takahashi, Toru Nakashika. 867-872 [doi]

Zero-shot Context Biasing with Trie-based Decoding using Synthetic Multi-PronunciationChangsong Liu, Yizhou Peng, Eng Siong Chng. 873-878 [doi]

Dimension 414 and Minimal Embedding Dimensions for Phonetic Feature Encoding in WavLMNarthana Sivalingam, Uthayasanker Thayasivam. 879-884 [doi]

Directional Hybrid Optimization of HRTFs for Low-Order Spherical Harmonics Binaural RenderingRui Zhang, Yuxuan Ke, Qunping Ni, Ge Yao, Xiaodong Li 0002, Chengshi Zheng. 885-890 [doi]

Speech Enhancement Network with Windowed Cross Attention Using Noise-Reference MicrophoneKota Suzuki, Yosuke Sugiura, Tetsuya Shimamura. 891-896 [doi]

BAANI: A 296M-Parameter Neural Vocoder for End-To-End Punjabi Speech SynthesisSiddharth Kumar, Nisarg Trivedi, Ravindrakumar M. Purohit, Hemant A. Patil. 897-902 [doi]

Active Learning for Text-to-Speech Synthesis with Informative Sample CollectionKentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari. 903-908 [doi]

Semi-Supervised End-to-End Speech-to-Text Translation with Joint Text-to-Text and Speech-to-Text DecodingTomohiro Tanaka, Ryo Masumura, Naoki Makishima, Mana Ihori, Shota Orihashi, Satoshi Suzuki, Taiga Yamane. 909-914 [doi]

UTRo-NAST: Non-Autoregressive Speech Translation via Understanding, Translation, and ReorderingYu-Chen Kuan, Kuan-Yu Chen. 915-920 [doi]

Laughing Across Borders: A Culturally-Aware Joke Generator for Asian RegionsAshley Fang Cai Xian, Ng Chen Ting, Ashley Kok Siu Cheng, Wah Yang Tan, Mohan Raj Chanthran, Lay-Ki Soon, Meisin Lee. 921-925 [doi]

Synthesizing Vowel-Like Tones with Pitch CircularityKaori Hashimoto, Takao Kawamura, Nobutaka Ono. 926-931 [doi]

Error Correction Using LLMs for Sentence Estimation from Ambiguous Inputs via Wearable KeyboardsMatsuri Iwasaki, Masanobu Abe, Sunao Hara. 932-937 [doi]

A Robust End to End Spoken Grammar Assessment SystemSunil Kumar Kopparapu, Chitralekha Bhat, Ashish Panda. 938-943 [doi]

LAPS-Diff: A Diffusion-Based Framework for Hindi Singing Voice Synthesis with Language Aware Prosody-Style Guided LearningSandipan Dhar, Mayank Gupta, Preeti Rao. 944-949 [doi]

End-To-End Multi-Channel Speaker Extraction and Binaural Speech SynthesisCheng Chi, Xiaoyu Li, Yuxuan Ke, Qunping Ni, Ge Yao, Xiaodong Li 0002, Chengshi Zheng. 950-955 [doi]

Improving Listening Head Generation Performance Using Speech Representations from Self-Supervised LearningTamon Mikawa, Yasuhisa Fujii, Yukoh Wakabayashi, Kengo Ohta, Ryota Nishimura, Norihide Kitaoka. 956-961 [doi]

ULF-TTS: An Uncluttered Hybrid TTS System Using Language and Flow Matching ModelsJae-Hyun Park, Seung-Jae Choi, Young-Sik Eom, Allison Shindell, Min-Gwan Seo, Gyeong-Hoon Lee. 962-967 [doi]

Phoneme-Grapheme Dictionary-Based Prompting for Robust Proper Noun Recognition in Japanese ASRRyuga Sugano, Hiroaki Sato, Asahi Sakuma, Tadashi Kumano, Yoshihiko Kawai, Shinji Watanabe 0001. 968-973 [doi]

LLM-Driven Hypothesis Set Refinement for Enhanced ASR Post-ProcessingChen-Han Wu, Kuan-Yu Chen. 974-979 [doi]

Real-time VAD-less Speech Recognition by Fine-tuning SSL Model with Data Containing Tagged Non-speech SegmentsJotaro Emoto, Ryota Nishimura, Kengo Ohta, Norihide Kitaoka. 980-985 [doi]

Improving Automatic Speech Recognition Model for Super-Elderly Voice Using Speech Synthesis ModelRyota Uematsu, Chee Siang Leow, Norihide Kitaoka, Hiromitsu Nishizaki. 986-991 [doi]

Improving Code-Switching Speech Recognition with TTS Data AugmentationYue Heng Yeo, Yuchen Hu, Shreyas Gopal, Yizhou Peng, Hexin Liu, Eng Siong Chng. 992-997 [doi]

PQSR: A Speech Corpus of Polar Questions and Spontaneous Responses in Standard Chinese with Complex Intentions AnnotatedYingyi Luo, Yue Huang, Qingke Sun, Shuwen Chen. 998-1003 [doi]

Toward Natural System Repair: An Analysis of Human Other-Initiated Self-Repair Patterns in Japanese Casual ConversationsKazuya Tsubokura, Yurie Iribe, Norihide Kitaoka. 1004-1009 [doi]

Self-Supervised Learning for Classification of Normal vs. Dysarthric SpeechHiya Chaudhari, Kavya Kumar, Hemant A. Patil. 1010-1015 [doi]

Investigating Polyglot Speech Foundation Models for Learning Collective Emotion from CrowdsOrchid Chetia Phukan, Girish, Mohd Mujtaba Akhtar, Panchal Nayak, Priyabrata Mallick, Swarup Ranjan Beherall, Parabattina Bhagath, Pailla Balakrishna Reddy, Arun Balaji Buduru. 1016-1021 [doi]

Rethinking Cross-Corpus Speech Emotion Recognition Benchmarking: are Paralinguistic Pre-Trained Representations Sufficient?Orchid Chetia Phukan, Mohd Mujtaba Akhtar, Girish, Swarup Ranjan Behera, Parabattina Bhagath, Pailla Balakrishna Reddy, Arun Balaji Buduru. 1022-1027 [doi]

Probabilistic Language-Aware Speech RecognitionJen-Tzung Chien, Willianto Sulaiman, Chung-Hsuan Wang. 1028-1032 [doi]

LLMs-Integrated Automatic Hate Speech Recognition Using Controllable Text Generation ModelsRyutaro Oshima, Yuya Hosoda, Youji Iiguni. 1033-1038 [doi]

Multi-Stage Speech Enhancement with Cascaded SNR Domain ShiftsXiaoran Li, Zilu Guo, Jun Du 0002. 1039-1044 [doi]

Autoencoder-Driven Latent Representation Learning for Language-Agnostic Disordered Speech Classification Using a Universal Feature SetPuneet Bawa, Virender Kadyan, Shareef Babu Kalluri. 1045-1050 [doi]

FH-RestoreASR: Frequency-Hopping Robust Air Traffic Control Speech Restoration and RecognitionYoungeun Kwon, Yeri Byun, Hyunsung Cho, Jongwon Choi 0002. 1051-1056 [doi]

Speech Intelligibility Assessment with Uncertainty-Aware Whisper Embeddings and sLSTMRyandhimas E. Zezario, Dyah A. M. G. Wisnu, Hsin-Min Wang, Yu Tsao 0001. 1057-1061 [doi]

GCI Detection and Glottal Wave Estimation based on TV-CAR Speech AnalysisKeiichi Funaki. 1062-1067 [doi]

HIPA-MoE: A Parameter-Efficient Fine-Tuning Architecture with Hierarchical Adapter-Based Mixture-Of-Experts for Multilingual ASRXun Lu, Xuyang Wang, Gaofeng Cheng, Lin Zheng, Pengyuan Zhang. 1068-1073 [doi]

Mild Cognitive Impairment Detection Via Linear Discriminant Analysis of Picture Description Speech Features: A Cross Corpus ComparisonYan-Lin Lai, Erh-Yun Chang, Yi-Wen Liu, Jung-Lung Hsu, Hui-Chuan Hsu. 1074-1079 [doi]

Parameter-Efficient Fine-Tuning of Foundation Models for CLP Speech ClassificationSusmita Bhattacharjee, Jagabandhu Mishra, Hanumant Singh Shekhawat, S. R. Mahadeva Prasanna. 1080-1085 [doi]

Language Awareness in Code-Switching Speech RecognitionJen-Tzung Chien, Bobbi Aditya. 1086-1091 [doi]

End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge DistillationMinghui Wu, Haitao Tang, Jiahuan Fan, Ruizhi Liao, Yanyong Zhang. 1092-1097 [doi]

Disfluency Disentanglement Enhancement in Spoken-Text-Style Transfer for Spontaneous Speech SynthesisYuuto Nakata, Daiki Yoshioka, Wen-Chin Huang, Tomoki Toda. 1098-1103 [doi]

DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR EnhancementMinghui Wu, Xueling Liu, Jiahuan Fan, Haitao Tang, Yanyong Zhang, Yue Zhang. 1104-1109 [doi]

Emotion-Rich Cross-Speaker TTS via Contrastive Prosody EnhancementJen-Tzung Chien, Bryan Gautama Ngo. 1110-1115 [doi]

Face-Conditioned Large-Scale Text-to-Speech via Speaker Embedding Prediction from Facial ImagesUmi Okamoto, Sei Ueno, Akinobu Lee. 1116-1121 [doi]

Few-Shot Speaker Adaptation for Text-to-Speech Synthesis Using Non-Target Speaker Corpora for Glossectomy PatientsMasayori Okamura, Masanobu Abe, Sunao Hara. 1122-1127 [doi]

Personalized Bone-Conduction Bandwidth Extension with Speaker CharacteristicsPan Xu, Zhongyu Zhang, Zhonghua Fu. 1128-1133 [doi]

Time-Aligned Laughter Sound Event Recognition for Conversational Laughter Analysis and SynthesisHiroki Mori. 1134-1139 [doi]

PALGAN: A Joint Optimization-Based Preprocessing method for Speech Restoration in Parametric Array LoudspeakersWenyao Ma, Jun Yang. 1140-1145 [doi]

Beyond One-Shot Dubbing: Leveraging N-Best Translation and Prompted Paraphrasing with Synchrony-Aware Re-RankingJan Meyer Saragih, Faisal Mehmood 0002, Sakriani Sakti. 1146-1151 [doi]

Honey Adulteration Detection via Robust Diffusion Classifier and Hyperspectral ImagingWeihao Tang, Guyang Zhang, Waleed Abdulla. 1152-1157 [doi]

Semantic-Fast-SAM: Efficient Semantic SegmenterByunghyun Kim. 1158-1163 [doi]

And Regional Selective MixupYu-Chen Lin, Yi-Jing Chen, Chih-Chang Yu, Hsu-Yung Cheng. 1164-1169 [doi]

100× Monolingual Data Augmentation Using LLMs to Build a Parallel Corpus for Machine TranslationHitoshi Ito, Naoto Shirai, Kazutaka Kinugawa, Hideya Mino, Yoshihiko Kawai. 1170-1175 [doi]

Enhancing Technical Documents Retrieval for RAGSongjiang Lai, Tsun-hin Cheung, Ka-Chun Fung, Kaiwen Xue, Kwan-Ho Lin, Yan-Ming Choi, Vincent Ng 0002, Kin-Man Lam 0001. 1176-1181 [doi]

Lightweight Zero-Shot Keyword Spotting via Multi-Granular Knowledge DistillationYun-Ting Sun, Lo-Ya Li, Tien-Hong Lo, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen. 1182-1187 [doi]

Monomial Matrix Relocation on the Loss Function Level-Set of Feedforward Neural NetworksOzgur Soysal, Arda Ozdemir, Yigit Yildirim, Orhan Arikan. 1188-1193 [doi]

Low-Rank Compression of Neural Network Weights by Null-Space EncouragementArda Ozdemir, Ozgur Soysal, Ege Doganay, Yigit Yildirim, Orhan Arikan. 1194-1199 [doi]

Sign-MExD: An Expert-Infused Diffusion Model for Sign Language ProductionJiayu Shen, Kalin Stefanov, Vee Yee Chong, Lay-Ki Soon, KokSheik Wong. 1200-1205 [doi]

FlowEKF: Flow-Based Extended Kalman FilterPham Hai Anh, Tran Trong Duy, Do Hai Son, Karim Abed-Meraim, Nguyen Linh-Trung. 1206-1211 [doi]

Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield NetworksAkira Tamamori. 1212-1217 [doi]

Sparse-Coded Time-Delay DMD with Control for Nonlinear State-Space Modeling on GraphsRyuto Ito, Hiromu Kanauchi, Hiroyasu Yasuda, Masaaki Nagahara, Shogo Muramatsu. 1223-1228 [doi]

Nonnegative Matrix Factorization Using Dirichlet-Distribution-Based RegularizationHaru Ogawa, Daichi Kitamura, Shoma Ayano. 1229-1234 [doi]

Significance of Co-Occurring Biomarkers in Localization of Epileptic Seizure Onset ZoneNawara Mahmood Broti, Masaki Iwasaki, Yumie Ono. 1235-1240 [doi]

Reinforcement Learning in Portfolio Management: A Survey of Methods and TrendsSilan Hu, Yulin Huang, Arjun Agarwal, Tanya Warrier, Yuwen Wang, Haozhe Ma, Zhengding Luo. 1241-1246 [doi]

Large Sparse Covariance Matrix Estimation via Dual Proximal Gradient MethodFengpei Li, Ziping Zhao 0002. 1247-1252 [doi]

An Improved Method for Image Shadow Removal by Combining Deterministic and Stochastic ModelsHongjun Sheng, Lanqing Guo, Xinggan Peng, Zhiping Lin 0001, Bihan Wen. 1253-1258 [doi]

Knowledge-Infused Topic Model for Empathetic Dialogue ResponsePo-Chuan Chen, Jen-Tzung Chien. 1259-1263 [doi]

Cross-Patient Seizure Onset Zone Classification by Patient-Dependent WeightXuyang Zhao, Hidenori Sugano, Toshihisa Tanaka. 1264-1269 [doi]

NOCTUA: A High-Efficiency Reconfigurable NoC-Based Transformer Universal AcceleratorKun-Chih Chen, Pin-Ching Shen, Bo-Chun Chen. 1270-1273 [doi]

Skeleton-Sequence-Based Early Action Recognition by Using Graph Convolutional Neural Networks and Knowledge Distillation TechniquesWen-Nung Lie, Kien Truc Le, Veasna Vann, Jui-Chiu Chiang, Ngoc Dung Bui. 1279-1284 [doi]

A State-Dependent Model for Identification of Time-Varying Directed GraphsYuzhe Li, Hangjing Zhang, H. Vicky Zhao. 1285-1290 [doi]

Unrolled Multimodal Signal Restoration with Signed Twofold Graph LearningHaruki Yokota, Hiroshi Higashi, Yuichi Tanaka 0001. 1291-1296 [doi]

Efficient Sparse Matrix Acceleration for Deep Learning via Two-Step Bitmap Tensor ArchitectureJia-Hong Weng, Yuan-Jin Lin, Wan-Hsun Tsai, Yu-Jie Yang, Wei-Chen Tu. 1297-1300 [doi]

Distance-Based Laplacian Algebra for Effective Subgraph Filter LearningPurui Zhang 0001, Feng Ji, Yanan Zhao 0003, Wee-Peng Tay, Bihan Wen. 1301-1306 [doi]

Quantization Index Modulation-Based Reversible Data Hiding in Compressed Neural NetworkJun Hirano, Jonethe Tan Yang, Fathin Acyuta Makarim, Daham Jayasinghe, KokSheik Wong. 1311-1316 [doi]

Dense Vector Retrieval in Data FederationAmorntip Prayoonwong, Yang-Chun Hsu, Xin-Jie Ye, Po-Kai Lu, Chih-Hang Wang, Chih-Yi Chiu. 1317-1322 [doi]

Organ Detection Based on Vision-Language Model for Abdominal CT ImagesJun-Hong Ou, Bo-Xian Wang, Yu-Hong Zheng, Sufal K. Chhabra, Guo-Shiang Lin, Shen-Lei Yan, Chen-Kuo Chiang. 1323-1326 [doi]

Audio-Visual Fusion Framework for Low-Resource Language Speech Recognition Based on Progressive Down-Sampling and Grouped Multi-Heads Attention MechanismChongchong Yu, Xiaolong Xu, Zhaopeng Qian, Kejing Xiao, Yuchen Tan. 1332-1337 [doi]

A Data-Driven Control Framework Using Deep Reinforcement Learning for Autonomous DrivingMei-lin Huang, Ching-Hung Lee, Cheng-Ting Huang, Hsin-Han Chiang. 1338-1343 [doi]

Recipe Diffusion: Cross-Frame Attention and Region-Aware Diffusion for Coherent Visual Recipe Instruction GenerationWeiyi Xia, Satoru Fujita. 1344-1349 [doi]

Improving Few-Shot Classification via Feature-Aligned AI-Generated ImagesYu-Wen Tung, Mei-Chen Yeh. 1350-1355 [doi]

Rotation Invariant Automatic Rigging for 3D Human Scan DataYiqing Li, Satoru Fujita. 1356-1361 [doi]

SinDiffPhase: High-Quality Phase Estimation with Ultra-Fast Single-Step DiffusionYifei Ni, Andong Li, Lingling Dai, Erwei Yin, Qunping Ni, Chengshi Zheng. 1362-1367 [doi]

MapCVAE: Probabilistic Prediction of Diverse Pedestrian Behaviors on General RoadsKonosuke Kobayashi, Satoru Fujita. 1368-1373 [doi]

Herald: Democratizing Compositional Reasoning for Visual Tasks without Any TrainingGuan Yuan Tan, Arghya Pal, Sailaja Rajanala, Raphaël C.-W. Phan, Chee-Ming Ting. 1374-1379 [doi]

Canopy to Canopy: Evaluating Model Generalization in 3D Tropical Forest Semantic SegmentationBrenda Ru Yi Sim, Sue Han Lee, Chung Siung Choo, Yuen Peng Loh. 1380-1385 [doi]

LSTM-Transformer Hybrid Network for UAV-Bird Classification Using Radar Track InformationAnning Jiang, Dianfeng Qiao, Shun Liu, Yan Liang 0001. 1386-1391 [doi]

A Unified Framework for Interpretable and Uncertainty-Aware Battery State of Health Estimation Using Deep Neural NetworksElias Isaac Huai-En Lim, Nicholas Heng-Loong Wong. 1392-1397 [doi]

Class Incremental Learning Using Continual Backpropagation on Honey Botanic Origin Classification with Hyperspectral ImagingGuyang Zhang, Iman Ardekani, Waleed Abdulla. 1398-1403 [doi]

Multi-Strategy Improved Electric Eel Foraging Optimisation Algorithm For UAV Path PlanningZexin Zhang, Chengbiao Fu, Hongwei Guo, Anhong Tian. 1404-1411 [doi]

A Deep Reinforcement Learning Approach to Roundabout Traffic Signal ControlCheng-Yu Chen, Daniil Buryakov, Valentinus Roby Hananto, Victor V. Kryssanov. 1412-1417 [doi]

2025 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)Tatsuya Hasegawa, Toshiyuki Nakanishi, Koichi Fujiwara. 1418-1422 [doi]

HasRL Robot: A Heterogeneous Asynchronous Reinforcement Learning System for High-Dimensional Bipedal ControlJingyang Mai, Zechen Guo, Zhengding Luo, Haozhe Ma. 1423-1428 [doi]

A Psychological Strategy Annotation Method Using Multiple LLMs with a Chain of Thought Based on Deductive ReasoningJinran Wang, Jiaming Luo, Shaomeng Yang, Yongjie Zhou, Xuefang Zhang, Rongfeng Su, Nan Yan, Lan Wang. 1429-1434 [doi]

Outlier Removal in MEG Data for Imagined Speech ClassificationKoki Nose, Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa. 1435-1440 [doi]

Indices for Extreme Rainfall Risk Mapping in Thailand Using XGBoostVinitar Khettar, Nuntikorn Kitratporn, Sawarin Lerk-u-suke, Jirabhorn Chaiwongsai, Phaisarn Jeefoo, Chanika Sukawattanavijit. 1441-1445 [doi]

Riverbed Estimation Using Locally-Structured Unitary NetworkSeiyu Hitomi, Hiroyasu Yasuda, Kiyoshi Hayasaka, Shogo Muramatsu. 1446-1451 [doi]

Contrastive Learning of Temporal and Event-Based Behavioral Views for Universal User EmbeddingsYuuki Tachioka. 1452-1457 [doi]

Market Forecasting Using LSTM-ARIMA Model with MACD DecompositionTeng-Chih Yu, Jian-Jiun Ding. 1458-1463 [doi]

VoxRep: Enhancing 3D Spatial Understanding in 2D Vision-Language Models via Voxel RepresentationAlan Dao, Norapat Buppodom. 1464-1469 [doi]

Active Multi-Object Tracking for 3D Reconstruction with Hierarchical Reinforcement LearningHeng Li, Cheng Cai. 1470-1475 [doi]

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer ApproachWeide Liu, Huijing Zhan. 1476-1480 [doi]

Modeling Spatiotemporal Multimodal Data with Kernel Graph Regression Models and CopulasJeffrey Wu, Gareth W. Peters. 1481-1486 [doi]

CopeCap: A Lightweight Image Captioning Model with Collaborative Prompt LearningXiwei Yu, Guoshun He, Huijing Zhan. 1487-1496 [doi]

Lyric-Aware Karaoke Background Video Selection Using Large Language Models and Moment RetrievalTomoki Ariga, Jun Taniguchi, Yosuke Higuchi, Sayaka Toma, Kunihiro Abe, Rie Shigyo, Tetsuji Ogawa. 1497-1502 [doi]

Audio-Visual Speech Recognition based on Cross-Lingual Transfer LearningFumiya Kondo, Satoshi Tamura. 1503-1508 [doi]

Exploring Machine Learning and Language Models for Multimodal Depression DetectionJavier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao. 1509-1514 [doi]

A Hierarchical Attention Model for Local and Global Feature Integration in RCS ClassificationYida Wu, Caiyun Wang, Jianing Wang, Xiaofei Li, Ying Nan. 1521-1526 [doi]

A Sliding-Window Range-Bearing Scan STAP for Underwater Active Sonar Target DetectionWeisi Hua, Yixin Yang, Yuxuan Chen, Xianghao Hou. 1527-1531 [doi]

TH-LDV: Transformer-Based Hybrid Method for Signal Detection in Laser Doppler VelocimetryYue Wang, Ruifeng Li, Changsong Liu, Liangrui Peng, Ning Ding, Gang Yao. 1532-1537 [doi]

Estimating Dynamic Graph Flows with Kernel Models and Hadamard-Structured Riemannian ConstraintsDuc Thien Nguyen, Konstantinos Slavakis, Dimitris Pados. 1538-1543 [doi]

Period Estimation for Time-Varying Graph Signals and its Application to Graph Wiener FilterTsutahiro Fukuhara, Junya Hara, Hiroshi Higashi, Yuichi Tanaka 0001. 1544-1549 [doi]

Computationally Efficient Sparse Signal Recovery by Deep Unfolded-Periodic Sketched ISTATatsuki Tokumura, Ayano Nakai-Kasai, Tadashi Wadayama. 1550-1555 [doi]

Fisher Information-Based Metrics for Representation LearningDo Nguyen Dang Thi, Le Quoc Anh, Tran Trong Duy, Le Vu Ha, Nguyen Linh-Trung. 1556-1561 [doi]

Wave Direction Estimation Based on Local Gradient Techniques from Satellite Imagery for Coastal Dynamics MonitoringWoramet Simrum, Paweena Kanokhong, Chakapat Chokchaisiri, Somrudee Deepaisarn, Kittipisut Chansri, Chanyut Lisawat, Waranrach Viriyavit, Akkharawoot Takhom, Phutphalla Kong, Didin Agustian Permadi, Sharifah Hafizah Syed Ariffin, Surasak Boonkla, Kasorn Galajit, Jessada Karnjana. 1562-1567 [doi]

HIQA-DB: A Benchmark Dataset for Image Quality Assessment in Hospital SurveillanceYujin Han, Taewan Kim. 1568-1571 [doi]

Semantic Neural View Synthesis for Key Content Preservation in Horizontal-to-Vertical Video ConversionDipanita Chakraborty, Minoru Okada, Kosin Chamnongthai. 1572-1577 [doi]

Low-Complexity Total Variation-Based Signal Reconstruction with Adaptive Gradient Descent for Compressive SensingPei-Cheng Yeh, Chieh-Li Wang, Yuan-Hao Huang. 1578-1583 [doi]

Robust Initialization Strategies for Hankel Structured Low-Rank Approximation via Variable ProjectionNatsuki Yoshino, Akira Tanaka. 1584-1589 [doi]

High-Resolution ISAR Imaging for High-Speed Targets Via Joint Intra-Pulse and Inter-Pulse Translational Motion CompensationJiabao Wang, Shuai Shao, Jiaqi Wei. 1590-1595 [doi]

Sparse Echo Reconstruction of Micro-Motion Targets Under the Joint Constraints of Low-Rank and Periodic ConsistencyMingming Jin, Jun Wang, Shaoming Wei, Peng Lei. 1596-1601 [doi]

Distributed Extended Object Tracking with Adaptive NetworksKaidi Yang, Wei Xia 0003, Mengqing Zhou. 1602-1607 [doi]

Extended Object Tracking: A DNN-Aided ApproachRunhe Gan, Wei Xia. 1608-1614 [doi]

Non-negative Learned ISTA with Reflected-ReLU-Augmented $\ell_{1}$ RegularizationHaruki Esaki, Towa Yasui, Seisuke Kyochi. 1615-1620 [doi]

Phoneme-Specific Challenges to Intelligibility in Hearing Impairment Under Noisy ConditionDenawati Junia, Candy Olivia Mawalim. 1621-1626 [doi]

Predicting Problematic Internet Use in Children Using Feature-Rich Structured Data with Ensemble Machine Learning and Bayesian OptimisationNiteesh K. R, Pooja T. S. 1627-1632 [doi]

Phonocardiogram Signal Analysis for Myocardial Infarction Level Prediction using Deep Learning ModelIra Puspasari, Tati L. R. Mengko, Agung W. Setiawan, Miftah Pramudyo, Nobuo Watanabe, Trio Adiono. 1633-1638 [doi]

Prediction of Maximum and Minimum Postprandial Blood Glucose Levels in People with DiabetesKotaro Nagayama, Shota Kato, Kana Eguchi, Masahide Hamaguchi, Hiroyuki Tominaga, Youji Hamaguchi, Michiaki Fukui, Manabu Kano. 1639-1644 [doi]

Towards Telepathic Communication: A Multi-Band EEG Model for Imaginary Speech DecodingYifan Zhang, Yuting Ding, Fei Chen. 1645-1650 [doi]

Tiny-VRN: A Lightweight Variational Residual Network for EEG-Based Emotion RecognitionSivaraj Nimishan, Selvarajah Thuseethan, Shanmuganathan Vasanthapriyan, Roshan G. Ragel. 1651-1656 [doi]

A Comparison of Solicited and Longitudinal Cough Sounds for Tuberculosis DetectionAprianto Dwi Prasetyo, Bagus Tris Atmaja, Dhany Arifianto, Sakriani Sakti. 1657-1662 [doi]

Detecting Defecation Premonition from the Acoustic Activity of Bowel SoundsShota Miyagawa, Toshitaka Yamakawa, Masayuki Tanabe, Kazushi Ikeda. 1663-1668 [doi]

EegCNR: A Novel Feature for Attention Estimation From EEGAsif M. S, Sagila Gangadharan K., Achutavarrier Prasad Vinod. 1669-1674 [doi]

Lower Limb Calf Muscle Segmentation from Diffusion-Weighted Magnetic Resonance Images Using Deep LearningEshan Pandey, Xiaomeng Wang, Julian Gan, Ying-Hwey Nai, Derek J. Hausenloy, Pek-Lan Khong, Forest Su Lim Tan, Thiruneepan Selvakulasingam, Ryan Fraser Kirwan, Cheryl Pei Ling Lian. 1675-1680 [doi]

Principal Component Regularization in Iterative Inversion of DBIM for Ultrasound TomographyNguyen Thi Thu, Quang-Huy Tran, Luong Thi Theu, Duc-Tan Tran 0001. 1681-1687 [doi]

Reasoning Visualization for Critical Care EEG Classification with Prototypical Part NetworksTakuma Bingo, Hajime Yano, Taichiro Ashizaki, Kazuma Koda, Masaya Togo, Riki Matsumoto, Tetsuya Takiguchi. 1688-1693 [doi]

Plant Species-Specific Anomaly Detection Based on Electrophysiological SignalsAndy Desman Lo, Elvin Nur Furqon, Junaidul Islam, Isack Farady, Kahlil Muchtar, Ronnie Concepcion, Chih-Yang Lin. 1694-1699 [doi]

Freeze and Learn Using KAN for Infant Cry ClassificationArth J. Shah, Vishnu Vardhan G. V. S, Hemant A. Patil. 1700-1705 [doi]

Investigation of Enhancement Strategies for Recurrent Spiking Neural Network based Brain-Machine Interface DecodingWilson Tansil, Nur Ahmadi, Timothy G. Constandinou, Dessi Puji Lestari. 1706-1711 [doi]

Detecting Deceptive Responses Due to Psychological Bias by the Probability Density Function of EEG Content Rate Dynamics During NEO-FFI AnsweringYuto Ashikawa, Yosuke Kurihara. 1712-1717 [doi]

A Comparative Analysis of Statistical, Regional CNN, and Sequential Transformer Approaches for Alzheimer's Disease ClassificationTri Huynh, Xuan Hoc Pham, Nhu Nguyen, Thi-Thu Nguyen, Huong Ha 0002, Lua Ngo. 1718-1723 [doi]

Beyond Speech and More: Investigating the Emergent Ability of Speech Pre-Trained Models for Classifying Physiological Time-Series SignalsOrchid Chetia Phukan, Swarup Ranjan Behera, Girish, Mohd Mujtaba Akhtar, Arun Balaji Buduru, Rajesh Sharma 0002. 1724-1729 [doi]

Channel Selection Guided by Layer-Wise Relevance Propagation for CNN-Based EEG Classification of Major Depressive DisorderWoo-Seok Ahn, Seung Hwan Lee, Han-Jeong Hwang. 1730-1733 [doi]

Development of HRV-Based Biomarkers for Predicting Blood Glucose LevelsJu An Park, Jun-Seok Lee, Na-Ri Kim, Han-Jeong Hwang. 1734-1737 [doi]

Development of 3D Textile Electrodes for Electrocardiography MeasurementSang Ho Lee, In-Su Park, Han-Jeong Hwang. 1738-1741 [doi]

Trajectory Design of UAVs-Assisted Edge Computing Systems for Efficient Data Collection from Animal HerdsNao Maeda, Tomotaka Kimura, Kouji Hirata. 1746-1749 [doi]

Priority-Based RCSA Method Considering Required Frequency Slot Width in Multi-Core Fiber NetworksFuna Fukui, Yutaka Fukuchi, Kouji Hirata. 1750-1754 [doi]

Retraining-Free Blockage Prediction for Millimeter-Wave Communications Based on Minor Components of Angular Power ProfilesXiaoqing Tong, Kohei Mitani, Kazunori Hayashi, Koji Yamamoto 0001, Takuto Arai, Shuki Wai, Tatsuhiko Iwakuni, Daisei Uchida. 1755-1760 [doi]

Modified Resource Allocation Algorithm Based on Co-Channel Interference Prediction in Local 5G EnvironmentsTakeru Nanjo, Osamu Takyu. 1761-1766 [doi]

Implicit Interference Status Notification Through Time & Frequency Resource Selection in LoRaWANYuto Hayasaka, Koichi Adachi. 1767-1771 [doi]

Wireless Environment Estimation with Directional Antennas using Radio Environment Database for Wireless Information and Power Transfer in Smart FactoriesKohei Yuzawa, Zhengdong Lin, Yu Kagaya, Yoshiaki Narusue, Takeo Fujii. 1772-1777 [doi]

Data-Driven Tuning of Neural Network Aided Least Squares for UWB-TDoA Indoor PositioningRyoichi Kawaguchi, Shinsuke Ibi, Hisato Iwai. 1778-1783 [doi]

Low-Complexity Separate Channel Estimation for RIS-Aided MIMO CommunicationsWei-Lin Chiang, Shu-Yu Lin, Jung-Chun Chi, Yuan-Hao Huang. 1784-1789 [doi]

BFIS: Efficient Unknown Protocol Feature Extraction Method for Satellite Communication SystemsXianwen Ling, Kun Zhang, Rong Tong, Dianying Chen. 1790-1795 [doi]

Outdoor Experiment of Deep Joint Source-Channel Coding Using FFT-Enabled Convolutional Neural Network for Image TransmissionTomoka Mori, Hiroshi Tatsukawa, Yuji Kawai, Yoshinori Shinohara, Hiroki Ikeda, Daisuke Hisano. 1796-1800 [doi]

DL-Based Optical Fibre Fault Detection for Healthcare Telesurgery Communication SystemKhushi Shah, Lakshit Pathak, Akshita Abrol, Kanak Jain, Rajesh Gupta 0007, Parishi Shah, Sudeep Tanwar, Umesh Bodkhe, Tong Rong. 1806-1811 [doi]

Overcoming Imperfect Detection Limitations: Deep Learning-Based Calibration Strategy for Rotating Interferometric ArraysZhaohang Zhang, Chunzhe Wang, Zhen Huang 0008, Yafeng Zhan. 1812-1817 [doi]

A Regional Clustering Method Based on Propagation Similarity for Modeling Cumulative Interference from Large Numbers of TerminalsTatsuro Hidaka, Osamu Takyu, Kei Inage, Takeo Fujii, Kohei Yoshida, Masayuki Ariyoshi. 1818-1823 [doi]

Radio Frequency Fingerprinting-Based Device Identification Using Deep Metric LearningDinh Tuan Anh, Bui Tung Lam, Pham An Duy, Pham Minh Tuan, Tran Vinh Co, Nguyen Huu Tinh, Huynh Cong Bang. 1824-1829 [doi]

GNSS Spoofing Detection Based on LSTM-TNN-CVAE NetworkChaowen Tang, Tian Qin. 1830-1834 [doi]

Enhancing Speech Quality in Scintillating Satellite Communications: A Rician Fading Modeling ApproachTeh Kah Kuan, Hanwu Sun, Tran Huy Dat. 1835-1840 [doi]

Ensemble Methods for Estimating the Localization of Coronary Stenosis from CT Images Using 3D CNN ModelsMinori Kondo, Masaki Aono, Kazuki Shimizu, Masashi Hashimoto, Takeshi Miyaji, Kei Nomura. 1841-1846 [doi]

Tiered Assessment for DSP Education: Exploring Students' Motivation and PerformanceEliathamby Ambikairajah, Tharmakulasingam Sirojan, Vidhyasaharan Sethu. 1847-1852 [doi]

An Investigation of Parameter Scheduling for Image Restoration in Optical Analog CircuitsTaisei Kato, Ryo Hayakawa, Soma Furusawa, Kazunori Hayashi, Youji Iiguni. 1853-1858 [doi]

Robust Cloud Removal from Optical Satellite Images Using Synthetic Aperture Radar and Multimodal Embedding PriorTaishin Miura, Shunsuke Ono, Ryo Matsuoka. 1859-1863 [doi]

Reflection and Noise Separation from Polarized Images Via Joint Nonnegative Matrix Factorization and Plug-And-Play DenoisingMaharu Oda, Ryo Matsuoka. 1864-1867 [doi]

Gated Probabilistic Diffusion for Temporal Action SegmentationYun Li, Hanmin Li, Kin-Man Lam 0001. 1868-1873 [doi]

Theory of Spherical VR Model for Landscape RepresentationHiroyuki Nishimoto, Toru Takahashi, Masakazu Yoshida. 1874-1879 [doi]

HyTver: A Novel Loss Function for Longitudinal Multiple Sclerosis Lesion SegmentationDayan Perera, Fung Fung Ting, Vishnu Monn Baskaran. 1880-1885 [doi]

KH-FUNSD: A Hierarchical and Fine-Grained Layout Analysis Dataset for Low-Resource Khmer Business DocumentNimol Thuon, Jun Du 0002. 1886-1891 [doi]

Effective Speckle Noise Reduction Using Transformed Bayesian Likelihood with Wiener-Based and Sketch-Based Geometric PriorsMing-Hsun Mo, Pin-Wen Huang, Jian-Jiun Ding. 1892-1897 [doi]

Efficient Generative Adversarial Networks for Color Document Image Enhancement and Binarization Using Multi-Scale Feature ExtractionRui-Yang Ju, KokSheik Wong, Jen-Shiun Chiang. 1898-1903 [doi]

Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative PolishingZehua Liu, Xiaolou Li, Li Guo 0004, Lantian Li, Dong Wang 0013. 1904-1909 [doi]

Computationally-Efficient Call Classification of New Zealand Birds Using Texture-Based FeaturesYonghui Tao, Mathis Quere, Yusuke Hioka, Stephen Marsland. 1910-1915 [doi]

Incorporating Semantic Visual Content into Click-Through Rate Prediction for Video AdvertisementsYoshiaki Tanabe, Shuntaro Masuda, Gakumatsu Ryu, Naoto Tanji, Hiroyuki Seshime, Ling Xiao 0001, Toshihiko Yamasaki. 1916-1921 [doi]

From Blurry to Brilliant Detection: YOLO-Based Aerial Object Detection with Super ResolutionRagib Amin Nihal, Benjamin Yen 0001, Takeshi Ashizawa, Katsutoshi Itoyama, Kazuhiro Nakadai. 1922-1927 [doi]

ATJO: Adaptive Three-Dimensional Joint Optimization for Remote Sensing Video Super-ResolutionTian Qin, Lijing Bu, Zhengpeng Zhang, Mingjun Deng, Yin Yang, Jingxue Wang, Xinyu Lan, Wenjuan Peng, Yang Hu. 1928-1933 [doi]

Block-Level Lagrange Multiplier Adaptation Based on Distortion Propagation FactorsHongwei Guo 0001, Yipeng Liu 0001, Lei Luo 0003, Chengbiao Fu, Ce Zhu. 1934-1939 [doi]

Distributed Compressed Video Sensing with Enhanced Boundary Handling Based on Extended Convolutional Sparse RepresentationIbuki Muta, Yoshimitsu Kuroki. 1940-1945 [doi]

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-Trait RecognitionRyo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama. 1946-1951 [doi]

Foreground-Background Segmentation Based Surveillance Video CodingJiyong Yu, Luheng Jia, Yifan Zang 0002, Zhaoyang Yu, Shuyuan Zhu, Li Song 0001, Kebin Jia. 1952-1957 [doi]

Rain Removal Via Vae-Enhanced Transformer with Hierarchical Feature IntegrationYaya Huang, Litong Liu, KokSheik Wong. 1958-1963 [doi]

Exploring Audio-Visual Fusion Methods in Foundation Model-Based Deception DetectionJiaxiang Meng, Hardik B. Sailor, Qiongqiong Wang, Tianchi Liu 0004, Kong-Aik Lee, Xingmei Wang 0002. 1964-1968 [doi]

Emot-CM-BERT: Adaptive Attention and Class-Aware Cross-Modal Learning for Emotion Recognition from Audio and TextShintami Chusnul Hidayati, James Rafferty Lee, Kevin Davi Samuel. 1969-1974 [doi]

DP-GS: Depth-prior & Perception-guided Gaussian Splatting for Sparse-view Novel View SynthesisBowen Gao, Zhicheng Lu, Mingyi He, Yuchao Dai. 1975-1980 [doi]

Efficient Video to Audio Mapper with Visual Scene DetectionMingjing Yi, Yuxi Wang, Ming Li. 1981-1985 [doi]

Adversarial Learning for Duration Prediction in Indonesian Text-to-Speech: Modification to Stochastic and Deterministic PredictorsYoga Tiara Wiguna, Bima Prihasto, Boby Mugi Pratama, Chia-Hung Yeh, Jia-Ching Wang. 1986-1990 [doi]

Narrativity-Aware Video Summarization Based on Vision and Language Foundation ModelsShumpei Saito, Hiroyuki Ueda, Yosuke Ito, Kazuyoshi Yoshii. 1991-1996 [doi]

RawTFNet: A Lightweight CNN Architecture for Speech Anti-SpoofingYang Xiao, Ting Dang, Rohan Kumar Das. 1997-2001 [doi]

Dynamic Fusion Multimodal Network for Speechwellness DetectionWenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen. 2002-2007 [doi]

AIGuard: Anomaly Detection in Surveillance Videos with YOLOv8Rungpilin Anantathanavit, Supakorn Suthirat, Po-Chyi Su. 2008-2013 [doi]

Ensemble Confidence Calibration for Sound Event Detection in Open-EnvironmentYuanjian Chen, Han Yin. 2014-2019 [doi]

Enhancing Stereo Sound Event Detection with Bimamba and Pretrained PSELDNetWenmiao Gao, Han Yin. 2020-2025 [doi]

The Potential of LLMs for Generating Malicious Domain NamesLim Kit Michael Ye, Kaijian Zheng, N. F. Law, Jianping Li. 2026-2031 [doi]

Reducing Implicit Class Imbalance in Unlabeled Datasets Using Text-Specified Sensitive AttributesKosei Suayama, Kazuaki Nakamura. 2032-2037 [doi]

DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS PredictionCheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen. 2038-2043 [doi]

Multimodal Large Language Model for Deepfake Video Detection and DescriptionHaoran Sun, Chen Cai, Kong-Aik Lee, Lap-Pui Chau, Yi Wang 0068. 2044-2049 [doi]

Biometric Identification Using Default Mode Network Features Extracted from Eyes-Open Resting-State EEG DataParvathy Remesh, Jijomon Chettuthara Moncy, A. P. Vinod 0001. 2050-2055 [doi]

Backdoor Poisoning Attack Against Face Spoofing Attack Detection MethodsShota Iwamatsu, Koichi Ito 0001, Takafumi Aoki. 2056-2061 [doi]

Access Control for Diffusion Models by Random Masking the Covariance of Initial Noise DistributionTemma Tanaka, Kazuaki Nakamura. 2062-2067 [doi]

Voice Privacy Protection with Adversarial Examples Using Anchor Speaker EmbeddingShunya Ishikawa, Yuki Katsumata, Toru Nakashika. 2063-2068 [doi]

Investigation of Perception Inconsistency in Speaker Embedding for Asynchronous Voice AnonymizationRui Wang, Liping Chen, Kong-Aik Lee, Zhengpeng Zha, Zhenhua Ling. 2074-2079 [doi]

SegReConcat: A Data Augmentation Method for Voice Anonymization AttackRidwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See. 2080-2085 [doi]

An Enhanced Probabilistic Approach for Singfake GenerationArth J. Shah, Aniket Pandey, Satyam R. Tiwari, Hemant A. Patil. 2086-2091 [doi]

Neural Semi-Fragile Watermarking for Proactive Deepfake Speech DetectionDoHyun Yoon, Tomoki Toda. 2092-2097 [doi]

Investigating Self-Supervised Learning-Based Front-End for Multi-Channel Replay Attack DetectionTakuo Yamaguchi, Sayaka Shiota, Naohiro Tawara. 2098-2103 [doi]

Transferability of Adversarial Examples Across Speaker Embedding Models for Voice Privacy ProtectionKotaro Nakamura, Takuya Takahashi, Toru Nakashika. 2104-2109 [doi]

Voice Privacy Preservation with Multiple Random Orthogonal Secret Keys: Attack Resistance AnalysisKohei Tanaka, Hitoshi Kiya, Sayaka Shiota. 2110-2115 [doi]

CycleSiFiNF-VC: Controllable Non-Parallel Voice Conversion by Neural Formant Manipulation with Improved Cycle-Consistency LossSumiharu Kobayashi, Takashi Nose, Akinori Ito. 2116-2121 [doi]

Recoverable Audio Adversarial Examples for Voice Protection in One-shot Voice ConversionChenshuai Shu, Tianpeng Zheng, Yanxiang Chen. 2122-2127 [doi]

Reference-Free Adversarial Sex Obfuscation in SpeechYangyang Qu, Michele Panariello, Massimiliano Todisco, Nicholas Evans. 2128-2133 [doi]

Reversible Data Hiding in EtC Images with Flexible Access PrivilegesYusaku Kato, Shoko Imaizumi. 2134-2139 [doi]

Robust Ownership Verification of DNN Models Against JPEG Compression via Probability-Controlled Adversarial AttacksTeruki Sano, Minoru Kuribayashi, Masao Sakai, Shuji Isobe, Eisuke Koizumi, Zhang Zhang. 2140-2145 [doi]

Detoxification of Poisoned Recognition Models by Fine-Tuning with Out-of-Distribution SamplesJunsuke Takano, Kazuaki Nakamura. 2146-2151 [doi]

Layer-Wise Weight Statistics for Node Classification and Defense of Federated Large Language ModelsAlexander Berns, Reon Akai, Minoru Kuribayashi, Rémi Cogranne. 2152-2157 [doi]

Robustness Evaluation Against Fine-Tuning in Associative Watermarking Method for CNNKeiichi Mori, Masaki Kawamura. 2158-2163 [doi]

Lossless Image Processing for OpenEXR Images with Flexible FunctionsAnna Yamaguchi, Shoko Imaizumi. 2164-2169 [doi]

Proposal of a Random Encoding Layer Compatible with Arbitrary Message Lengths for DiffusetraceOu Egami, Masaki Kawamura. 2170-2175 [doi]

Automatic Dependent Surveillance-Broadcast Preamble Classification for Spoofing DetectionDarren Kah Hou Quek, Guang Hua 0001, Zhiping Lin 0001. 2176-2180 [doi]

Model Extraction Attack and Its Countermeasure for Denoising Diffusion Implicit ModelsHayato Shoji, Kazuaki Nakamura. 2181-2186 [doi]

Content-Aware Dominant Color Extraction and its Application to Mltiple-Key-Color Image RetrievalMei Hashimoto, Michiharu Niimi. 2187-2192 [doi]

Privacy-Preserving Image Retrieval Scheme Using Combined Features in Cloud ComputingJing Liang, Yuxuan Wang, Tingting Song, Ce Zheng, Peiya Li. 2193-2198 [doi]

NE-PADD: Leveraging Named Entity Knowledge for Robust Partial Audio Deepfake Detection via Attention AggregationHuhong Xian, Rui Liu 0008, Berrak Sisman, Haizhou Li 0001. 2199-2204 [doi]

Robust Localization of Partially Fake Speech: Metrics and Out-of-Domain EvaluationHieu-Thi Luong, Inbal Rimon, Haim H. Permuter, Kong-Aik Lee, Eng Siong Chng. 2205-2210 [doi]

Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake DetectionJanne Laakkonen, Ivan Kukanov, Ville Hautamäki. 2211-2216 [doi]

Continual Audio Deepfake Detection via Universal Adversarial PerturbationWangjie Li, Lin Li, Qingyang Hong. 2217-2222 [doi]

Exploring Source Features with Deep Residual Neural Networks for Replay Attack DetectionSuresh Veesa, Badugu Vamsi Krishna, Madhusudan Singh 0004. 2223-2228 [doi]

A Preliminary Study on Sectional Voice Anonymization and DetectionShaoqi Tang, Zeyan Liu, Liping Chen, Kong-Aik Lee, Tomoki Toda, Zhenhua Ling. 2229-2234 [doi]

ArcticEcho: A Novel Speaker-Controlled Voice Cloning Dataset for Modern Deepfake Detection BenchmarkingSoham Gangopadhyay, Inderpreet Singh, Prateek Pandya, Ashish Mani, Sumit Goswami. 2235-2240 [doi]

Variational Regularization for End-to-End Speech Deepfake DetectionSiqing Qin, Kong-Aik Lee, Man-Wai Mak, Pasquale Lisena, Massimiliano Todisco. 2241-2246 [doi]

Noro: Noise-Robust One-Shot Voice Conversion with Hidden Speaker Representation LearningHaorui He, Yuchen Song, Yuancheng Wang, Haoyang Li, Xueyao Zhang, Li Wang, Gongping Huang, Eng Siong Chng, Zhizheng Wu 0001. 2247-2251 [doi]

A Wavelet Tour of Audio Deepfake DetectionArth J. Shah, Aniket Pandey, Manav A. Gaikwad, Hemant A. Patil. 2247-2252 [doi]

Fusion of Modulation Spectrogram and ssl with Multi-Head Attention for Fake Speech DetectionRishith Sadashiv T. N., Abhishek Bedge, Saisha Suresh Bore, Jagabandhu Mishra, Mrinmoy Bhattacharjee, S. R. Mahadeva Prasanna. 2253-2258 [doi]

Single-Image Pupil Localization via Implicit 3D Eye ReconstructionTaejun Roh, Yejin Cho, Duong Hai Nguyen, Chul Lee. 2264-2269 [doi]

Flow-Guided Consistent Video Depth Estimation for Cross-Dataset GeneralizationJaeseok Jang, Chang-Su Kim 0001. 2270-2275 [doi]

DCB: An Efficient Approach for Building Long-Range Dependencies in CNNsTianxiang Lan, Mingyi He, Yuchao Dai. 2276-2281 [doi]

A User-Guided and Local Motion-Adaptive Framework for Virtual Product Placement in VideoTianwen Zhang, Ju Won Seo, Kang Min Kim, Keunsoo Ko. 2282-2286 [doi]

Shallow yet Perceptual Decoding for Neural Image Compression Through Minimal NonlinearityJaekyung Ryu, Nam Ik Cho. 2287-2292 [doi]

Syncscore: A Framework for Synchronization Scoring in Group Sports Via Human Pose EstimationKhai Pin Ang, Iven Zi Yin Low, Yumun Hooi, Yuen Peng Loh. 2293-2298 [doi]

Data Augmentation-Driven Segmentation of Ovarian Tumor Ultrasound Images Using Vision MambaThanh-Phuc Dao, Huyen-Trang To, Hoang-Son Bui, Thi-Lan Le. 2299-2304 [doi]

Optimizing JPEG Decoder for Bitstream-Corrupted Image RestorationShumin Jiang, Hao Qin, Tianyi Liu, Yi Wang. 2305-2310 [doi]

Semantic Scene Completion from a Single Depth Image with Coarse-Grained SegmentationJiun Yen Ching, Lai-Kuan Wong, Fabian Wai Lee Kung. 2311-2316 [doi]

Pixel-Weighted Domain Adaptation for Agricultural SegmentationShunta Kimura, Handie Shao, Shogo Matsumoto, Daiki Yamada, Toshihiro Kitajima, Hideki Nakayama. 2317-2322 [doi]

TRUST: Token-dRiven Ultrasound Style Transfer for Cross-Device AdaptationNhat-Tuong Do-Tran, Ngoc-Hoang-Lam Le, Ian Chiu, Po Tsun Paul Kuo, Ching-Chun Huang. 2323-2329 [doi]

Two-Stage Transformer-Based Deep Hyperspectral and Multispectral Image Fusion Network for Hyperspectral Image Super-ResolutionWo-Yen Li, Chia-Ming Lee, Chih-Chung Hsu, Volodymyr Khylenko, Li-Wei Kang. 2330-2335 [doi]

Pedestrian Detection Based on Visible Guided Occlusion HandlingLien-Chieh Huang, Ching-Te Chiu, Yung-Cheng Su. 2336-2341 [doi]

Spatial-Frequency Guided Moiré Removal with Multi-Stage Feature FusionChen Lo, Chia-Hung Yeh. 2342-2346 [doi]

Registration of Infrared and Visible Images Using Style Transfer-Based Semantic SegmentationSi Ting Lin, Chih-Hung Han, Chieh-Ling Lee, Po-Chyi Su, Feng-Tsun Chien, Min-Kuan Chang. 2347-2352 [doi]

Peransformer: Improving Low-informed Expressive Performance Rendering with Score-aware DiscriminatorXian He, Wei Zeng, Ye Wang. 2353-2358 [doi]

Prompt-Based Vertebral Segmentation Using a Generative Ai Approach in OVCF Spinal RadiographsPo-Kai Su, Pei-Rong Jiang, Kai-Xuan Xu, Meng-Lei Su, Jiannher Lin, Hsin-Han Chiang, Hsiao-Chi Li. 2359-2364 [doi]

A Dual-Stream Diffusion Model with Physically-Based Rendering for Single Image Reflection RemovalCheng-Wei Hsu, Ming-Sui Lee. 2365-2370 [doi]

Dynamic Facial Expression Recognition in the Wild Using Mambastyle Selective SSM and Facial Attention MechanismYudhistira Arditya Pratama, Theophilus Ezra Nugroho Pandin, Yi-Zeng Hsieh. 2371-2375 [doi]

Allegory of the Cave: Breakdown of Illusions in Multimodal Perception with Neural Radiance FieldsAxel Päivänsalo, Ching-Chun Chang, Hanrui Wang 0005, Futa Waseda, Isao Echizen. 2376-2381 [doi]

Overlapped Coffee Beans Detection and Localization Using a Low-Cost 3D Monocular Point Cloud Clustering MethodIsack Farady, Alifya Febriana, Chih-Yang Lin. 2382-2387 [doi]

Interpretable Video-Text Alignment (VTA) for Cross-Modal RetrievalTsung-Shan Yang, Yun-Cheng Wang, Chengwei Wei, Suya You, C. C. Jay Kuo. 2388-2393 [doi]

Sequence Modeling and Generative Model Driven Non-Rigid 3D ReconstructionYuxin He, Hui Deng, Mingyi He, Yuchao Dai. 2394-2399 [doi]

Robust Audio-Visual Speech Recognition in Noisy Clinical EnvironmentsAkshita Abrol, Ridwan Arefeen, Haotong Yu, Alexi George, Kelvin Zhenghao Li, Zhengkui Wang, Rong Tong. 2400-2405 [doi]

Integrating Visual XAI and LLMs for Interpretable Medical Image AnalysisXin Hui Lor, Chern Hong Lim. 2406-2411 [doi]

InternVL-VPR: Hierarchical Zero-Shot Visual Place Recognition with VLM-Driven Re-RankingZhi Hu, Liang Liao, Weisi Lin. 2412-2417 [doi]

Token Compression Meets Compact Vision Transformers: a Survey and Comparative Evaluation for Edge AIPhat Nguyen, Ngai-Man Cheung. 2418-2423 [doi]

Adapting Vision-Language Models for Information Extraction from Bilingual Medical InvoicesAnh-Dung Do, Thanh-Ha Do. 2424-2429 [doi]

Zero-shot Artistic Text Recognition with Multimodal Language ModelsTien Do, Thuyen Tran, Duy-Dinh Le, Thanh Duc Ngo. 2430-2435 [doi]

Attention Based Deep Reference Frame Enhancement for VVC Inter PredictionLinchen Xu, Zhikai Liu, Fan Liang. 2436-2441 [doi]

Neural Implicit Representations for Object-Centric Machine Vision TasksYeoneui Kim, Je-Won Kang. 2442-2447 [doi]

Efficient Adversarial Attack and Training on Learned Image CompressionJun Kurihara, Heming Sun. 2453-2458 [doi]

Accelerating VVC Inter-Frame Coding: A Lightweight CNN for Fast QTMT PartitioningJui-Chen Luo, Jiann-Jone Chen, Tien-Ying Kuo, Yi-fan Wu, Kai-Jie Zhang. 2459-2464 [doi]

Multimodal Speech Analysis for Early Detection of Mild Cognitive Impairment: A Scalable ApproachMuhammad Bilal, Waleed Abdulla, Gary Cheung, Lynette Tippett, Seyed Reza Shahamiri. 2465-2470 [doi]

Boundary-Enhanced Attention Network for Breast Mass SegmentationRong Chen, Stephen Karungaru, Kenji Terada, Linhuang Wang. 2471-2476 [doi]

Scale and Rotation Estimation of Similarity-Transformed Images via Cross-Correlation Maximization Based on Auxiliary Function MethodShinji Yamashita, Yuma Kinoshita, Hitoshi Kiya. 2477-2481 [doi]

Strong Eye Closure Detection in Children with Profound Intellectual and Multiple Disabilities Using Robust Temporal Difference FeaturesKaito Kosaki, Teppei Nakano, Mari Wakabayashi, Tomomi Sato, Tetsuji Ogawa. 2482-2487 [doi]

A Rate-Quality Model for Learned Video CodingSang NguyenQuang, Cheng-Wei Chen, Xiem HoangVan, Wen-Hsiao Peng. 2488-2493 [doi]

Low-Light RAW Image Enhancement with Additive Parameterization and State Space ModelShugo Yamashita, Masaaki Ikehara. 2494-2498 [doi]

Synthesizing and Restoring Weather-Corrupted Images with Conditional Diffusion ModelsYoung-Ho Go, Sung-Hak Lee. 2499-2504 [doi]

Integrating Semantic Knowledge for Enhanced Weakly-Supervised Group Activity RecognitionMuhammad Adi Nugroho, Jinyoung Park 0001, Yeeun Seong, Changick Kim. 2505-2510 [doi]

Directed Graph Dynamic Mode Decomposition for Nonlinear State-Space ModelingHiromu Kanauchi, Ryuto Ito, Hiroyasu Yasuda, Masaaki Nagahara, Yuichi Tanaka, Shogo Muramatsu. 2511-2516 [doi]

Digital-Optical Hybrid Computation for Deep Unfolding-Aided MIMO Signal DetectionTakumi Nishiyama, Lantian Wei, Tadashi Wadayama. 2517-2522 [doi]

Uncolorable Examples: Preventing Unauthorized AI Colorization via Perception-Aware Chroma-Restrictive PerturbationYuki Nii, Futa Waseda, Ching-Chun Chang, Isao Echizen. 2523-2528 [doi]

Voice Conversion Augmentation for Speaker Recognition on Defective DatasetsRuijie Tao, Zhan Shi, Yidi Jiang, Tianchi Liu 0004, Haizhou Li 0001. 2529-2534 [doi]

Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASRShreyas Gopal, Ashutosh Anshul, Haoyang Li, Yue Heng Yeo, Hexin Liu, Eng Siong Chng. 2535-2540 [doi]

Rethinking Robust ASR Strategies: Can Textual in-Context Learning Improve Acoustic Robustness?Benita Angela Titalim, Faisal Mehmood 0002, Sakriani Sakti. 2541-2546 [doi]

Advancing Speech Quality Assessment Through Scientific Challenges and Open-Source ActivitiesWen-Chin Huang. 2552-2557 [doi]

Progress and Challenges in DNN-Based Objective Quality Assessment of Synthesized SpeechErica Cooper. 2558-2563 [doi]

Foundation Models as Guardrails: LLM-and VLM-Based Approaches to Safety and AlignmentHuy H. Nguyen, Pride Kavumba, Tomoya Kurosawa, Koki Wataoka. 2564-2569 [doi]

Speaker Privacy and Security in the Big Data Era: Protection and Defense Against DeepfakeLiping Chen, Kong-Aik Lee, Zhen-Hua Ling, Xin Wang 0037, Rohan Kumar Das, Tomoki Toda, Haizhou Li 0001. 2570-2575 [doi]

Non-Intrusive Intelligibility Prediction for Hearing Aids: Recent Advances, Trends, and ChallengesRyandhimas E. Zezario. 2576-2581 [doi]

From Evaluation to Optimization: Neural Speech Assessment for Downstream ApplicationsYu Tsao. 2582-2586 [doi]

Normalization Through Fine-Tuning: Understanding Wav2vec2.0 Embeddings for Phonetic AnalysisYiming Wang, Jiahong Yuan. 2587-2591 [doi]

Enabling Internationalization of Affective Speech Technology Using LLMsBo-Hao Su, Shinji Watanabe 0001, Chi-Chun Lee. 2592-2597 [doi]

BiGaitNet: Deep CNN-Based Classification of Parkinson's Disease Gait Abnormalities Using a Smart Insole Robust to Fewer Plantar SensorsEun-Seo Park, Xianghong Liu, Chang Hee Han. 2598-2599 [doi]

Nonlinear System Identification Approach Under Noisy Input Signals and Impulse Observed Noise by Kernel Adaptive Filtering AlgorithmYing-Ren Chien, En-Ting Lin. 2600-2601 [doi]

Retinal Artery-Vein Segmentation via Attention-Guided W-Net and GAN-Based Boundary RefinementJing-Ming Guo, De-Yu Guu, Yih-Ping Luh, Yi-Chong Zeng. 2602-2603 [doi]

Local Contrast Enhancement in LDR Images via Adaptive Distribution of Clipped-histogram ExcessSeong-Hyun Jin, Dong-Min Son, Young-Ho Go, Sung-Hak Lee. 2604-2605 [doi]

A Lightweight and Reversible Audio Watermarking Scheme Based on Integer Wavelet TransformXuping Huang, Akinori Ito. 2606-2607 [doi]

Variance-Driven U-Net Training and Chroma-Scale-Based Multi-Exposure Image FusionChang-Woo Son, Young-Ho Go, Seung Hwan Lee, Sung-Hak Lee. 2608-2609 [doi]

Joint Design of Low Sidelobe Radar Waveform and Filter with Hardware Platform VerificationHaoqian Rong, Shaojie Wang, Zining Zhao, Jiawei Zhang. 2610-2611 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2025, Singapore, October 22-24, 2025

Abstract

Table of Contents