Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2024, Macau, December 3-6, 2024

researchr

You are not signed in
Sign in
Sign up

Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2024, Macau, December 3-6, 2024. IEEE, 2025. [doi]

Conference: apsipa2025

Abstract is missing.

Vocal Tract Length Perturbation-based Pseudo-Speaker Augmentation Considering Speaker Variability for Speaker VerificationHengyi Zou, Sayaka Shiota. 1-6 [doi]

Training Deep Neural Networks with HSIC and BackpropagationRoshan Birjais, Kevin I-Kai Wang, Waleed H. Abdulla. 1-5 [doi]

Graph Filter Transfer for Time-Varying Signal Estimation Between Two NetworksTsutahiro Fukuhara, Junya Hara, Hiroshi Higashi, Yuichi Tanaka 0001. 1-6 [doi]

Diverse Time-Frequency Attention Neural Network for Acoustic Echo CancellationJinzhuo Yao, Hongqing Liu, Yi Zhou 0014, Lu Gan 0005, Junkang Yang. 1-6 [doi]

Complex CNN incorporating Hilbert transform for steady-state visual evoked potential BCIRintaro Takata, Yoshikazu Washizawa. 1-6 [doi]

Detecting Coronary Artery Stenosis from Cardiac CT Images using 3D CNNsMasaki Aono, Tetsuya Asakawa, Kazuki Shimizu, Masashi Hahsimoto, Takeshi Miyaji, Kei Nomura. 1-6 [doi]

Proposal of Blind Extractable Additive Video Watermarking MethodNao Harada, Rinka Kawano, Masaki Kawamura. 1-6 [doi]

Seismic-ionospheric Precursor Prediction Using Deep LearningBach-Tung Pham, Pao-Chi Chang, Jia-Ching Wang. 1-4 [doi]

Bluemarble: Bridging Latent Uncertainty in Articulatory-to-Speech Synthesis with a Learned CodebookSeyun Um, Miseul Kim, Doyeon Kim, Hong-Goo Kang. 1-6 [doi]

Real-Time Monophonic Dual-Pitch Extraction ModelNgoc Son Tran, Pei-Chin Hsieh, Yih-Liang Shen, Yen-Hsun Chu, Tai-Shi Chi. 1-6 [doi]

EEG-based Evaluation of Enjoyment Emotion during cognitive-motor taskHaruna Aoki, Sinan Zhang, Yumie Ono. 1-4 [doi]

LEAD Dataset: How Can Labels for Sound Event Detection Vary Depending on Annotators?Naoki Koga, Yoshiaki Bando, Keisuke Imoto. 1-6 [doi]

Semi-Supervised Far-Field Speaker Verification with Distance Metric Domain AdaptationHan Wang, Mingrui He, Mingjun Zhang, Longting Xu. 1-6 [doi]

Design of Spectrogram-Consistency Regularization Term Dependent on Observation in Independent Low-Rank Matrix Analysis for Blind Source SeparationTakaaki Kojima, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari. 1-6 [doi]

Automatic Prompt Generation and Grounding Object Detection for Zero-Shot Image Anomaly DetectionTsun-hin Cheung, Ka-Chun Fung, Songjiang Lai, Kwan-Ho Lin, Vincent T. Y. Ng, Kin-Man Lam 0001. 1-6 [doi]

Two-Way Malaysian Sign Language Communication System for Inclusive EducationVeron Zhen Liang Hii, Aaron Ken Kiat Lo, Ida Pei Xin Lee, Alec Vince Gonzales Abuan, Sue Han Lee, Patrick Hang Hui Then. 1-6 [doi]

Impulse response transforming method to control distance perception based on direct-to-reverberant energy ratioToru Takahashi, Eita Morigaki, Masato Nakayama. 1-6 [doi]

A Parameter-free model for long-term concrete creep predictionConghui Li, Chern Hong Lim, Xin Wang. 1-6 [doi]

Tsnake: A Time-Embedded Recurrent Contour-Based Instance Segmentation ModelChen-Jui Hsu, Jian-Jiun Ding, Chun-Jen Shih. 1-6 [doi]

Enhanced RefineDNet for Single Image DehazingJingyu Ren, Lei Yang. 1-6 [doi]

Estimation of rotation angle and anisotropic scaling rate using pilot signals for watermarkingRinka Kawano, Masaki Kawamura. 1-6 [doi]

Prediction of negative user reactions towards system responses during attentive listeningDivesh Lala, Koji Inoue, Tatsuya Kawahara. 1-6 [doi]

A Permutation-based Reversible Data Hiding Method with Zero Visual DistortionWendi Zhu, KokSheik Wong, Minoru Kuribayashi. 1-6 [doi]

Fine-Grained Quantitative Emotion Editing for Speech GenerationSho Inoue, Kun Zhou 0003, Shuai Wang 0016, Haizhou Li 0001. 1-6 [doi]

Improved Ultimate Link without Markers for Projective TransformationKeiji Yamadera, Michiharu Niimi. 1-6 [doi]

A Quasilinear-Time CVP Algorithm for Triangular Lattice Based Fuzzy Extractors and Fuzzy SignaturesKenta Takahashi, Wataru Nakamura. 1-4 [doi]

Is Corpus Suitable for Human Perception?: Quality Assessment of Voice Response Timing in Conversational Corpus through Timing ReplacementSadahiro Yoshikawa, Ryo Ishii, Shogo Okada. 1-6 [doi]

Multi-Task Learning Approaches for Music Similarity Representation Learning Based on Individual Instrument SoundsTakehiro Imamura, Yuka Hashizume, Tomoki Toda. 1-6 [doi]

Non-Target Conversion Based Speech Steganography for Secure Speech Communication SystemMingjun Zhang, Yan Feng, Yu Gao, Longting Xu. 1-6 [doi]

Keyword spotting for dialectal speech and Introduction of wav2vec2.0Tomohiro Ariga, Reo Minakawa, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh 0001. 1-5 [doi]

Data-Driven Physics-Informed Neural Network for Sound Field Estimation in Rooms of Arbitrary SizeGen Sato, Yusuke Ikeda. 1-5 [doi]

Analytic Study of Text-Free Speech Synthesis for Raw Audio using a Self-Supervised Learning ModelJoonyong Park, Daisuke Saito, Nobuaki Minematsu. 1-6 [doi]

Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?Ryotaro Nagase, Takashi Sumiyoshi, Natsuo Yamashita, Kota Dohi, Yohei Kawaguchi. 1-6 [doi]

Enhancing Cell Segmentation using Deep Learning Models by Custom Processing TechniquesVan-De Nguyen, Minh-Huong Hoang Dang, Quang Huy Nguyen, Manh Cuong Dinh, Thanh-Ha Do. 1-5 [doi]

Wind Noise Reduction with Orthogonal Polynomial ExpansionLi Du, Chao Pan, Lijun Zhang. 1-5 [doi]

KhmerFormer: Multi-Scale CNNs-Transformer with External Attention for Ancient Khmer Palm Leaf Isolated Glyph ClassificationNimol Thuon, Jun Du 0002. 1-6 [doi]

Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise ConditionsJinyi Mi, Xiaohan Shi, Ding Ma, Jiajun He, Takuya Fujimura, Tomoki Toda. 1-6 [doi]

Investigating the Language Independence of Voice Activity Projection Models through Standardization of Speech Segmentation LabelsYuki Sato, Yuya Chiba, Ryuichiro Higashinaka. 1-6 [doi]

Leveraging Attention Mechanisms for Breast Cancer DiagnosisAkumalla Brahma Reddy, Bach-Tung Pham, Tung-Yu Zhuang, Bima Paristao, Pao-Chi Chang, Jia-Ching Wang. 1-4 [doi]

Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and DenoisingYoto Fujita, Aditya Arie Nugraha, Diego Di Carlo, Yoshiaki Bando, Mathieu Fontaine 0002, Kazuyoshi Yoshii. 1-6 [doi]

A Solution For Anomaly Detection of Red Beans In A Product Processing LineDuc Hai Nguyen, Trong Hiep Do, Hoang Linh Phuong Nguyen, Quoc Khanh Nguyen, Duc-Tan Tran, Tien Son Bui, Van-Toi Nguyen. 1-5 [doi]

Ensemble learning based head-related transfer function personalization using anthropometric featuresYih-Liang Shen, Tai-Shih Chi. 1-6 [doi]

Fine-Grained Privacy-Preserving Image Retrieval in Cloud EnvironmentJing Liang, Libo Wang, Peiya Li. 1-6 [doi]

Context-FFT: A Context Feed Forward Transformer Network for EEG-based Speech Envelope DecodingXimin Chen, Yuting Ding, Nan Yan, Changsheng Chen, Fei Chen. 1-5 [doi]

Analyzing House Music: Relations of Audio Features and Musical StructureJustin Tomoya Wulf, Tetsuro Kitahara. 1-5 [doi]

Subset Random Sampling of Finite Time-vertex Graph SignalsHang-sheng, Qinji Shu, Hui Feng 0001, Bo Hu 0002. 1-6 [doi]

An Investigation on the Speech Recovery from EEG Signals Using TransformerTomoaki Mizuno, Takuya Kishida, Natsue Yoshimura, Toru Nakashika. 1-6 [doi]

Augmented sound-image perception using pre-virtual-leading ultrasounds based on precedence effectRyota Imanaka, Yuting Geng, Masato Nakayama, Takanobu Nishiura. 1-6 [doi]

Implementation of Real-Time Oscillometric Based Algorithm for Blood Pressure Measurement in Patient MonitorTrio Adiono, Clarence Amadeus, Sindy Novaria Cicilya Sinaga, Teuku Rafifsyah Thomi. 1-6 [doi]

Teager Energy Cepstral Coefficients for Spoken Language IdentificationArth J. Shah, Savita H. Yadav, Hemant A. Patil. 1-6 [doi]

Towards a B-format Ambisonic Room Impulse Response Generator Using Conditional Generative Adversarial NetworkHualin Ren, Christian H. Ritz, Jiahong Zhao, Xiguang Zheng, Daeyoung Jang. 1-6 [doi]

Privacy-Preserving Anomaly Detection in Bitstream Video based on Gaussian Mixture ModelYike Chen, Yuru Song, Peijia Zheng, Yusong Du, Weiqi Luo 0001. 1-6 [doi]

Camera Focal Length Prediction for Neural Novel View Synthesis from Monocular VideoDipanita Chakraborty, Werapon Chiracharit, Kosin Chamnongthai, Minoru Okada. 1-5 [doi]

An isolated Vietnamese Sign Language Recognition method using a fusion of Heatmap and Depth information based on Convolutional Neural NetworksXuan-Phuoc Nguyen, Thi-Huong Nguyen, Duc-Tan Tran, Tien Son Bui, Van-Toi Nguyen. 1-6 [doi]

Efficient Adaptation for Real-World Omnidirectional Image Super-ResolutionCuixin Yang, Rongkang Dong, Kin-Man Lam 0001. 1-6 [doi]

Optimization of the Intensity Aware Loss for Dynamic Facial Expression RecognitionDavy Tec-Hinh Lau, Jian-Jiun Ding, Guillaume Muller 0001. 1-5 [doi]

Robust Watermarking via Dual GuidanceYuhang Zhang 0011, Yuanman Li, Li Dong 0006, Xia Li 0006. 1-6 [doi]

Optimizing Deep Q-Network for Shortest Path Computation of Mobile Robot AgentsA. Sumarudin, Nana Sutisna, Infall Syafalni, Bambang Riyanto Trilaksono, Trio Adiono. 1-6 [doi]

Blind Estimation of Room Volume from Reverberant Speech Based on the Modulation Transfer FunctionNutchanon Siripool, Suradej Duangpummet, Jessada Karnjana, Waree Kongprawechnon, Masashi Unoki. 1-6 [doi]

Predictive Analysis of Driver Drowsiness Progression: Multi-Level Drowsiness Classification Using Physiological SignalsNatchira Dachoponchai, Yodchanan Wongsawat, Jetsada Arnin. 1-6 [doi]

Sparse Blind Deconvolution and Demixing via Block Majorization-MinimizationMengting Chen, Ziping Zhao 0002. 1-6 [doi]

EavaNet: Enhancing Emotional Facial Expressions in 3D Avatars through Speech-Driven AnimationSeyun Um, Yongju Lee 0002, WooSeok Ko, Yuan Zhou, Sangyoun Lee, Hong-Goo Kang. 1-6 [doi]

NeRF-FCM: Feature Calibration Mechanisms for NeRF-based 3D Object DetectionHana Lebeta Goshu, Jun Xiao 0010, Kin-Chung Chan, Cong Zhang, Mulugeta Tegegn Gemeda, Kin-Man Lam 0001. 1-6 [doi]

Real-Time Noise Estimation for Lombard-Effect Speech Synthesis in Human-Avatar Dialogue SystemsYuto Ishikawa, Osamu Take, Tomohiko Nakamura, Norihiro Takamune, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari. 1-6 [doi]

Heavy-tailed Distributions-Based Online Semi-blind Source Separation for Nonlinear Echo CancellationLiyuan Zhang, Xianrui Wang, Yichen Yang 0010, Tetsuya Ueda, Shoji Makino, Jingdong Chen. 1-5 [doi]

A Study on Multimodal Fusion and Layer Adapter in Emotion RecognitionXiaohan Shi, Yuan Gao, Jiajun He, Jinyi Mi, Xingfeng Li 0001, Tomoki Toda. 1-6 [doi]

More Direct and stage-wise network for Face Super ResolutionYohei Horiguchi, Masaaki Ikehara, Kei Shibasaki. 1-6 [doi]

Non-blind Deblurring Using Probabilistic Models and Spatial Adaptive RestorationChun-Lin Liao, Jian-Jiun Ding, Chun-Jen Shih. 1-6 [doi]

Layer-Wise Feature Distillation with Unsupervised Multi-Aspect Optimization for Improved Automatic Speech AssessmentChung-Wen Wu, Berlin Chen. 1-5 [doi]

Domain Adaptation by Alternating Learning of Acoustic and Linguistic Information for Japanese Deaf and Hard-of-Hearing PeopleKaito Takahashi, Yukoh Wakabayashi, Kengo Ohta, Akio Kobayashi, Norihide Kitaoka. 1-7 [doi]

Generalized Graph Signal Sampling under Subspace Priors by Difference-of-Convex MinimizationKeitaro Yamashita, Kazuki Naganuma, Shunsuke Ono. 1-6 [doi]

Measurement of Relative Transfer Function for Own Voice in Head-Mounted Microphone ArrayKyoka Kazama, Taishi Nakashima, Nobutaka Ono. 1-5 [doi]

GVDIE: A Zero-Shot Generative Information Extraction Method for Visual Documents Based on Large Language ModelsSiyang Qi, Fei Wang, Hongzhi Sun, Yang Ge, Bo Xiao. 1-6 [doi]

Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observationNanako Imaichi, Toru Nakashika. 1-6 [doi]

Effective Speech Data Augmentation Method To Improve Customer Service Representative Speech Recognition System PerformanceHuiyong Bak, Changhyeon Jeong. 1-5 [doi]

New Abnormal Behavior Detection for Patient Surveillance SystemYujin Han, Taewan Kim. 1-5 [doi]

Effect of White Noise on Working Memory Using Event-Related PotentialsSeung-Won Lee, Jun-Seok Lee, Han-Jeong Hwang. 1-4 [doi]

Scale-invariant Online Voice Activity Detection under Various EnvironmentsRyu Takeda, Kazunori Komatani. 1-6 [doi]

Empower Typed Descriptions by Large Language Models for Speech Emotion RecognitionHaibin Wu, Huang-Cheng Chou, Kai-Wei Chang, Lucas Goncalves, Jiawei Du, Jyh-Shing Roger Jang, Chi-Chun Lee, Hung-yi Lee. 1-6 [doi]

Contrastive Learning Based Knowledge Distillation for Enhancing Defect DetectionJing-Ming Guo, Lun-Da Yuan, Cian Huang, Yi-Chong Zeng. 1-6 [doi]

Generalized SpecAugment: Robust Online Augmentation Technique for End-to-End Automatic Speech RecognitionMeet H. Soni, Ashish Panda, Sunil Kumar Kopparapu. 1-5 [doi]

Sound Quality Improvement in Visual Microphone by Emphasizing Focused Area Based on Focal RateHayata Nakano, Yuting Geng, Kenta Iwai, Takanobu Nishiura. 1-6 [doi]

On Joint Dereverberation and Single Moving Source Separation with Online Source SteeringYiting Zhang, Kaien Mo, Tetsuya Ueda, Yichen Yang 0010, Shoji Makino. 1-4 [doi]

U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separationShaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo. 1-5 [doi]

SDNet: Noise-Robust Bandwidth Extension under Flexible Sampling RatesJunkang Yang, Hongqing Liu, Lu Gan, Yi Zhou 0014, Xing Li, Jie Jia 0003, Jinzhuo Yao. 1-6 [doi]

A Coarse-to-Fine Change Detection Method for Remote Sensing Sparse Cultivated LandYuan Hu, Yifan Zhang 0006, Mingyang Ma, Shaohui Mei. 1-6 [doi]

Secure Moving Object Detection Transformer in Compressed Video with Feature FusionYuru Song, Yike Chen, Peijia Zheng, Yusong Du, Weiqi Luo 0001. 1-6 [doi]

Data Augmentation Methods and Influence of Speech Recognition Performance for TED Talk's English to Japanese Speech TranslationKento Masuda, Kazumasa Yamamoto, Seiichi Nakagawa. 1-6 [doi]

Acoustic model adaptation in noisy and reverberated scenarios using multi-task learned embeddingsAditya Raikar, Meet H. Soni, Ashish Panda, Sunil Kumar Kopparapu. 1-5 [doi]

Improved Architecture for High-resolution Piano Transcription to Efficiently Capture Acoustic Characteristics of Music SignalsJinyi Mi, Sehun Kim, Tomoki Toda. 1-6 [doi]

A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's ShadowingsHaopeng Geng, Daisuke Saito, Nobuaki Minematsu. 1-6 [doi]

Parameterizing Hierarchical Particle Filters with Concept Drift for Time-varying Parameter EstimationJoshua Murphy, Conor Rosato, Andrew Millard, Simon Maskell. 1-6 [doi]

PG-MDD: Prompt-Guided Mispronunciation Detection and Diagnosis Leveraging Articulatory FeaturesMeng-Shin Lin, Bi-Cheng Yan, Tien-Hong Lo, Hsin-Wei Wang, Yue-Yang He, Wei-Cheng Chao, Berlin Chen. 1-6 [doi]

YOLO-DC: Enhancing object detection with deformable convolutions and contextual mechanismDengyong Zhang, Chuanzhen Xu, Jiaxin Chen, Bin Deng, Xin Liao. 1-6 [doi]

Automated prediction of loudness growth curve using EEG signalsNitya Tiwari, Arjun Reddy Vadyala, K. S. Nataraj. 1-6 [doi]

Murmur Separation and Classification from Heart Sound Using Constrained Singular Spectrum Analysis and Wavelet TransformYuanyang Qi, Saeid Sanei. 1-5 [doi]

Iterative Demographic Attentional Feature Fusion-based CNN and Transformer Network for Accurate Cuffless Blood Pressure EstimationLiwen Tang, Dingchang Zheng, Fei Chen 0011. 1-5 [doi]

MYMV: A Music Video Generation System with User-preferred InteractionKyungjune Lee, Mingyu Jang, Jungwoo Huh, Jeonghaeng Lee, Seokkeun Choi, Sanghoon Lee. 1-4 [doi]

EEND-EM: End-to-End Neural Speaker Diarization with EM-NetworkBeom Jun Woo, Ji Won Yoon, Min Hyun Han, Chanyeong Moon, Nam Soo Kim. 1-5 [doi]

Assessment and Improvement of Customer Service Speech with Multiple Large Language ModelsSo Watanabe, Chee Siang Leow, Junichi Hoshino, Takehito Utsuro, Hiromitsu Nishizaki. 1-6 [doi]

Ev3DGS: Event Enhanced 3D Gaussian Splatting from Blurry ImagesJunwu Huang, Zhexiong Wan, Zhicheng Lu, Juanjuan Zhu, Mingyi He, Yuchao Dai. 1-6 [doi]

LCMV-based Scan-and-Sum Beamforming for Region Source ExtractionAoto Yasue, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai. 1-6 [doi]

Rotation Invariant Spatio-Spectral Total Variation for Hyperspectral Image DenoisingShingo Takemoto, Shunsuke Ono. 1-6 [doi]

Efficient Feature Selection for Word Embedding Dimension ReductionJintang Xue, Yun-Cheng Wang, Chengwei Wei, C. C. Jay Kuo. 1-6 [doi]

Electroencenphalogram-Based Effective Features for Sustained Attention Assessment in ConversationMasaya Togashi, Ingon Chanpornpakdi, Toshihisa Tanaka 0001. 1-6 [doi]

NecoBERT: Self-Supervised Learning Model Trained by Masked Language Modeling on Rich Acoustic Features Derived from Neural Audio CodecWataru Nakata, Takaaki Saeki, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari. 1-6 [doi]

WavLM and Omni-Scale CNNs: Enhancing Boundary Detection in Partially Spoofed AudioMenghan Li, Zhihua Huang. 1-5 [doi]

LDMSE: Low Computational Cost Generative Diffusion Model for Speech EnhancementYuki Nishi, Koichi Shinoda, Koji Iwano. 1-6 [doi]

Region Aware Framework for Constrained Image Splicing Detection and LocalizationHaokun Cao, Yuanman Li, Xinyu Yang, Xia Li 0006. 1-6 [doi]

A Non-Intrusive Speech Quality Assessment Model using Whisper and Multi-Head AttentionGuojian Lin, Yu Tsao, Fei Chen. 1-6 [doi]

Virtual multi-boosted amplitude modulation toward high-pressure audible sound with parametric array loudspeakersYoto Ikezaki, Yuting Geng, Masato Nakayama, Takanobu Nishiura. 1-6 [doi]

LoFLAT: Local Feature Matching using Focused Linear Attention TransformerNaijian Cao, Renjie He, Yuchao Dai, Mingyi He. 1-6 [doi]

Temporal-Spatial Correlation Analysis for Ship-Radiated Noise Based on Random Matrix TheoryQing Feng, Zhiqiang Wu, Xuebin Li, Heping Shen, Liushang, Tangmin, Shengquan Feng. 1-6 [doi]

Utilizing Cross Layer Attentions for Semantic Segmentation of Small ObjectsYu-Hsien Chung, Chi-Hsuan Lu, Jung-Hui Cho, Chih-Chang Yu. 1-6 [doi]

Enhanced Sparse Convolutional Detection Model for 3D Object Detection in Autonomous Vehicles Adapted to Traffic Conditions in VietnamVu Hoang Dung, Nguyen Trung Kien, Do Thanh Ha. 1-6 [doi]

Source Attribution for Images Generated by Diffusion-Based Text-to-Image Models: Exploring the Forensics ApproachXinqi Jiang, Jinyu Tian. 1-6 [doi]

A Multi-Domain Camera Model Identification Feature Restoration Network to Counter AI Compression AttacksJinkai Zhang, Zijuan Han, Yunxia Liu, Yang Yang. 1-6 [doi]

A Joint Graph Signal and Laplacian Denoising NetworkZepeng Zhang, Ziping Zhao 0002. 1-5 [doi]

A Study on Packet-Level Index Modulation Using Frequency Offsets within a LoRaWAN ChannelMai Ohta, Hiroki Matsuura, Takeo Fujii. 1-6 [doi]

One-step Spectral Estimation for Euclidean Distance Matrix ApproximationYicheng Li, Xinghua Sun. 1-6 [doi]

GILED: Lesion Detection of Gastrointestinal Tract from Endoscopic Images and Medical NotesVu-An Hoang, Minh-Hanh Tran, Viet Hang Dao, Thanh-Hai Tran 0001. 1-6 [doi]

Cloud Removal in Hyperspectral Satellite Images Using Low-rank Tensor CompletionChuong Hoang Vo, Truong Thanh Nhat Mai, Chul Lee. 1-6 [doi]

Enhancing Neural Speech Embeddings for Generative Speech ModelsDoyeon Kim, Yanjue Song, Nilesh Madhu, Hong-Goo Kang. 1-6 [doi]

Accelerated Real-Time Local Maxima Detection in Video Streams Using FPGA TechnologyAnindhita Nayazirly Sukarno, Yahwista Salomo, Trio Adiono, Infall Syafalni, Nana Sutisna, Rahmat Mulyawan. 1-6 [doi]

Unsupervised Discovery of Non-Categorical L2 Error Patterns Using Wav2Vec2.0 Code VectorsEunsoo Hong, SunHee Kim, Minhwa Chung. 1-6 [doi]

A Discrete-Valued Signal Estimation by Nonconvex Enhancement of SOAV with cLiGME ModelSatoshi Shoji, Wataru Yata, Keita Kume, Isao Yamada. 1-6 [doi]

Improving Semi-Supervised Object Detection by ROI-Enhanced Contrastive LearningTeng-Kuan Huang, Mei-Chen Yeh. 1-6 [doi]

Visual semantic alignment network based on pre-trained ViT for few-shot image classificationJiaming Zhang, Jijie Wu, Xiaoxu Li. 1-6 [doi]

Speech Separation using Neural Audio Codecs with Embedding LossJia Qi Yip, Kwok Chin Yuen, Bin Ma 0001, Engsiong Chng. 1-6 [doi]

Test-Time Optimization for Post-Processing of Compressed VideosHongil Kim, Changwoo Han, Donghyun Kim, Sung-Chang Lim, Seung-Won Jung. 1-6 [doi]

Differences Between Singer and Speaker Verification: Training Singer Feature Representation Extractor Utilizing Singing Voice CharacteristicsSayaka Toma, Tomoki Ariga, Yosuke Higuchi, Ichiju Hayasaka, Rie Shigyo, Tetsuji Ogawa. 1-5 [doi]

Target Speaker Extraction Method by Emphasizing the Active Speech with an Additional EnhancerXue Yang, Changchun Bao, Xu Zhang, Xianhong Chen. 1-6 [doi]

A Two-Stage Method for 3D Architecture Wireframe Reconstruction from Airborne LiDAR Point CloudJiahao Zhang, Qi Liu 0054, Le Hui, Yuchao Dai. 1-6 [doi]

A Two-Stage Wall Parameters Estimation Algorithm for MIMO Through-the-Wall RadarZhirun Li, Shisheng Guo, Jiahui Chen 0005, Zhihao Zhu, Chen Qiu, Guolong Cui, Yutao Xiang. 1-5 [doi]

A Tiny Whisper-SER: Unifying Automatic Speech Recognition and Multi-label Speech Emotion Recognition TasksHuang-Cheng Chou. 1-6 [doi]

Physical Domain Adversarial Attacks Against Source Printer Image AttributionNischay Purnekar, Benedetta Tondi, Mauro Barni. 1-6 [doi]

A Preliminary Study on Analysing Mandarin Tone Values of Romance L2 Mandarin LearnersWu-Hao Li, Te-Hsin Liu, Chen-Yu Chiang. 1-6 [doi]

Inference Efficient Source Separation Using Input-dependent ConvolutionsShogo Seki, Li Li 0063. 1-5 [doi]

Adaptive Time-Varying Graph Learning for Traffic Flow Data Based on Anomaly Moment DetectionShuhong Chen, Zewei Chen, Chen Li, Xianwei Zheng, Minfan He, Xutao Li. 1-5 [doi]

Unsupervised Anomalous Sound Detection Using Timbral and Human Voice Disorder-Related Acoustic FeaturesMalik Akbar Hashemi Rafsanjani, Candy Olivia Mawalim, Dessi Puji Lestari, Sakriani Sakti, Masashi Unoki. 1-6 [doi]

JAM: A Unified Neural Architecture for Joint Multi-granularity Pronunciation Assessment and Phone-level Mispronunciation Detection and Diagnosis Towards a Comprehensive CAPT SystemYue-Yang He, Bi-Cheng Yan, Tien-Hong Lo, Meng-Shin Lin, Yung-Chang Hsu, Berlin Chen. 1-6 [doi]

How Accurate Can Large Vision Language Model Perform for Images with Compression Degradation?Xiaohan Fang, Peilin Chen, Meng Wang 0017, Shiqi Wang 0001. 1-6 [doi]

Targeted Representation with Information Disentanglement Encoding Networks in TasksTakumi Nagawaki, Keisuke Ikeda, Kohei Chike, Hiroyuki Nagano, Masaki Nose, Satoshi Tamura. 1-5 [doi]

SSL-based Chewing and Swallowing Detection Using Multiple Skin-contact MicrophonesToshihiro Tsukagoshi, Kazuhiro Koiwai, Masafumi Nishida, Masafumi Nishimura. 1-5 [doi]

Postoperative Delirium Prediction Based on Preoperative Electrocardiogram and ElectroencephalogramShogo Mito, Miho Miyajima, Hirofumi Tomioka, Hitomi Sato, Takashi Takeuchi, Hitoshi Muto, Yuji Kabasawa, Hiroyuki Harada, Kana Eguchi, Shota Kato, Manabu Kano. 1-5 [doi]

Enhancing Security Using Random Binary Weights in Privacy-Preserving Federated LearningHiroto Sawada, Shoko Imaizumi, Hitoshi Kiya. 1-6 [doi]

Affine Combination of General Adaptive FiltersDanqi Jin, Yitong Chen, Jie Chen 0022, Gongping Huang. 1-5 [doi]

Data-Driven Sound Field Reproduction for Higher-Order Mode Matching Using a Circular Loudspeaker ArrayKeiko Kawase, Gen Sato, Izumi Tsunokuni, Yusuke Ikeda. 1-5 [doi]

Ablation Study to Derive a Computationally Efficient Deep Learning-Based Super-Resolution ApproachAsfa Jamil, Alessandro Artusi. 1-6 [doi]

Block Refinement Learning for Improving Early Exit in Autoregressive ASRNaotaka Kawata, Shota Orihashi, Satoshi Suzuki, Tomohiro Tanaka, Mana Ihori, Naoki Makishima, Taiga Yamane, Ryo Masumura. 1-6 [doi]

Capturing Dynamic Identity Features for Speaker-Adaptive Visual Speech RecognitionSara Kashiwagi, Keitaro Tanaka, Shigeo Morishima. 1-6 [doi]

Empathetic Response Generation via Regularized Q-LearningJen-Tzung Chien, Yi-Chien Wu. 1-6 [doi]

On the Importance of Time and Pitch Relativity for Transformer-Based Symbolic Music GenerationTatsuro Inaba, Kazuyoshi Yoshii, Eita Nakamura. 1-6 [doi]

Incorporating Auditory Processing into Undergraduate Signal Processing Courses to Enhance Student LearningKaibao Nie. 1-5 [doi]

Innovative Information Hiding in H.266/VVC using Sub-Block Transform TechniqueHau Joan, Yiqi Tew, Li Peng Tan. 1-6 [doi]

Pressure Matching Using Data-Driven Estimation for Sound Fields and Transfer FunctionsKoki Horikoshi, Gen Sato, Izumi Tsunokuni, Yusuke Ikeda. 1-5 [doi]

Improving Speaker Consistency in Speech-to-Speech Translation Using Speaker Retention Unit-to-Mel TechniquesRui Zhou, Akinori Ito, Takashi Nose. 1-6 [doi]

GLASS: Investigating Global and Local context Awareness in Speech SeparationKuan-Hsun Ho, En-Lun Yu, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen. 1-6 [doi]

Multi-Modal Video Summarization Based on Two-Stage Fusion of Audio, Visual, and Recognized Text InformationZekun Yang, Jiajun He, Tomoki Toda. 1-6 [doi]

Sampling Pattern Augmentation to Enhance Deep Learning-based Image Reconstruction of MRIKazuki Yamato, Satoshi Ito. 1-6 [doi]

Effect of Dynamic Binaural Beats on Concentration EnhancementJun-Seok Lee, Yun-Sung Lee, Han-Jeong Hwang. 1-4 [doi]

Blind Self-Interference Analog Canceller with Differential Delay for Backscatter CommunicationsKoichi Nishikawa, Shinsuke Ibi, Takumi Takahashi, Hisato Iwai. 1-6 [doi]

Multi-Observed Authentication: A secure and usable authentication based on multi-point observation of a single physical credentialWataru Hatakeyama, Shinnosuke Nozaki, Ayumi Serizawa, Mizuho Yoshihira, Masahiro Fujita, Ayako Yoshimura, Tetsushi Ohki, Masakatsu Nishigaki. 1-6 [doi]

Enhancing Acoustic Scene Classification with Layer-wise Fine-Tuning on the SSAST ModelShuting Hao, Daisuke Saito, Nobuaki Minematsu. 1-6 [doi]

Monocular Depth Estimation for Autonomous Driving Based on Instance Clustering GuidanceDahyun Kim 0003, Dongkwon Jin, Chang-Su Kim 0001. 1-6 [doi]

Optimising Neural Networks with Fine-Grained Forward-Forward Algorithm: A Novel Backpropagation-Free Training AlgorithmJames Gong, Bruce Li, Waleed Abdulla. 1-6 [doi]

Scene-Segmentation-Based Exposure Compensation for Tone Mapping of High Dynamic Range ScenesYuma Kinoshita, Hitoshi Kiya. 1-6 [doi]

Optimal Investment With Incomplete Information and Herd EffectHuisheng Wang, Mingxiao Liu, Ji Qi, H. Vicky Zhao. 1-6 [doi]

Speech Dereverberation with Deconvolution Regularized by DenoisingHaonan Hu, Ziye Yang, Jie Chen, Lijun Zhang. 1-6 [doi]

Contrast-Aware DCT for Image Enhancement with JPEG Compatible CodingKohei Hayashi, Soichiro Honda, Hirokazu Kamei, Yoshihiro Maeda, Norishige Fukushima. 1-6 [doi]

Unleashing Attributes-content Adaptation with Multi-color Spaces for Food Photo Aesthetic AssessmentShintami Chusnul Hidayati, Muhammad Valda Rizky Nur Firdaus, Riki Wahyu Nur Dianto, Sarwosri. 1-6 [doi]

Detecting Abnormal Machine Sounds Using An Ensemble Approach with Data Augmentation TechniquesPo-Cheng Chan, Chung-Li Lu, Jia-Ching Wang. 1-4 [doi]

Transformer Attention Matrix Multiplication Design using 4 × 4 Systolic ArraysMuhammad Sayyid Afif, Infall Syafalni, Nana Sutisna, Trio Adiono. 1-6 [doi]

A Novel kind of WVD Associated with the Linear Canonical TransformJia-Yin Peng, Jian-Yi Chen, Bing-Zhao Li 0001. 1-6 [doi]

Deep Learning-based Intraoperative Video Analysis for Cataract Surgery Instrument IdentificationZ. Guo, Y.-H. Chan, N. F. Law. 1-7 [doi]

Comparative Analysis of Voice Mimicry Attacks by High- and Low-Skilled Imitators on Speaker Verification SystemsKoji Iwano, Wakana Komuro, Manami Gomi. 1-6 [doi]

Deep-Learning-Based Speech Enhancement with Rough-Focused Optical Laser Microphone by Reconstructing Complex SpectrumYuki Nakano, Yuting Geng, Kenta Iwai, Takanobu Nishiura. 1-5 [doi]

Beamforming informed independent low-rank matrix analysis for sound source enhancement in unmanned aerial vehiclesJin Xuan Teh, Norihiro Takamune, Hiroshi Saruwatari, Benjamin Yen 0001, Michael Kingan, Yusuke Hioka. 1-6 [doi]

Performance Evaluation of Acoustic Echo and Noise Canceller with Variable-Step-Size Shared-Error NLMS Algorithm under Double-Talk ConditionsKenta Iwai, Takanobu Nishiura. 1-5 [doi]

Dual Motion Attention and Enhanced Knowledge Distillation for Video Frame InterpolationDengyong Zhang, Runqi Lou, Jiaxin Chen, Xin Liao, Gaobo Yang, Xiangling Ding. 1-6 [doi]

EADSum: Element-Aware Distillation for Enhancing Low-Resource Abstractive SummarizationJia-liang Lu, Bi-Cheng Yan, Yi-Cheng Wang, Tien-Hong Lo, Hsin-Wei Wang, Li-Ting Pai, Berlin Chen. 1-6 [doi]

New approach on Smiling faces with Domain Transfer in Latent SpaceFelix Ming-Fei Duan, Wan-Chi Siu, Chun Chuen Hui. 1-5 [doi]

SMoLnet-T: An Efficient Complex-spectral Mapping Speech Enhancement Approach with Frame-wise CNN and Spectral Combination Transformer for Drone AuditionZhi-Wei Tan, Andy W. H. Khong. 1-6 [doi]

Relative Transfer Matrix for Drone Audition Applications: Source EnhancementWageesha N. Manamperi, Thushara D. Abhayapala. 1-6 [doi]

Leveraging IoT and Machine Learning for Efficient Rice Stock Monitoring and PredictionNana Sutisna, Aditya Prawira Nugroho, Christopher Jeffrey, Patrick Amadeus Irawan, Rizky Ramadhana, Ronggur Mahendra, Michael Jonathan, Infall Syafalni, Trio Adiono. 1-6 [doi]

Synchronization of Signals with Sampling Rate Offset and Missing Data Using Dynamic Programming MatchingHayato Takeuchi, Takao Kawamura, Nobutaka Ono, Shoko Araki. 1-6 [doi]

Compressed Deepfake Video Detection Based on 3D Spatiotemporal TrajectoriesZongmei Chen, Xin Liao, Xiaoshuai Wu, Yanxiang Chen. 1-8 [doi]

Learnable Cross-Correlation based Filter-and-Sum Networks for Multi-channel Speech SeparationXianrui Wang, ShiQi Zhang, Bo He, Shoji Makino, Jingdong Chen. 1-5 [doi]

Joseph: phonetic-aware speaker embedding for far-field speaker verificationZezhong Jin, Youzhi Tu, Man-Wai Mak. 1-6 [doi]

Adversarial Augmentation and Adaptation for Speech RecognitionJen-Tzung Chien, Wei-Yu Sun. 1-6 [doi]

Disentangling Speaker Representations from Intuitive Prosodic Features for Speaker-Adaptative and Prosody-Controllable Speech SynthesisPengyu Cheng, Zhenhua Ling, Meng Meng, Yujun Wang. 1-6 [doi]

Experimental Evaluation of Speech Enhancement for In-Car Environment Using Blind Source Separation and DNN-based Noise SuppressionYutsuki Takeuchi, Taishi Nakashima, Nobutaka Ono, Takashi Takazawa, Shuhei Shimanoe, Yoshinori Tsuchiya. 1-6 [doi]

Teager Energy Cepstral Coefficients for Audio Deepfake DetectionRitik Mahyavanshi, C. V. Mahesh Reddy, Arth J. Shah, Hemant A. Patil. 1-6 [doi]

Few-Shot Audio Classification Model for Detecting Classroom Interactions Using LaSO Features in Prototypical NetworksRashed Iqbal, Christian H. Ritz, Jack Yang, Sarah K. Howard. 1-6 [doi]

A method for classification NEO-FFI answers fabricated and advantageous due to psychological bias using brainwave specific brain activity networksYuto Ashikawa, Takashi Ito, Shohei Ishizu, Yosuke Kurihara. 1-4 [doi]

Performance Optimization in the Cascade of VAD and ASR Systems: A Study on Evaluation and Alignment StrategiesZhentao Lin, Zihao Chen, Bi Zeng, Leqi Chen, Jia Cai. 1-6 [doi]

Cuisine Image Synthesis with Improved Multiscale GANs Guided by CLIPWeiyi Xia, Satoru Fujita. 1-6 [doi]

Robust Quantile Regression Under Unreliable DataYoshifumi Shoji, Masahiro Yukawa. 1-6 [doi]

Detection of Diffusion-Generated Images Using Sparse CodingDaishi Tanaka, Michiharu Niimi. 1-6 [doi]

Auxiliary-Function-Based Steering Vector Estimation Method for Spatially Regularized Independent Low-Rank Matrix AnalysisSota Hirata, Norihiro Takamune, Kouei Yamaoka, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo. 1-6 [doi]

Generating Room Impulse Responses Using Neural Networks Trained with Weighted Combinations of Acoustic Parameter Loss FunctionsHualin Ren, Christian H. Ritz, Jiahong Zhao, Xiguang Zheng, Daeyoung Jang. 1-6 [doi]

GMA: Green Multi-Modal Alignment for Image-Text RetrievalTsung-Shan Yang, Yun-Cheng Wang, Chengwei Wei, Suya You, C. C. Jay Kuo. 1-6 [doi]

Integrating VGGSK and BEATs for Enhanced Sound Event Detection: A Semi-Supervised GRU-Based System with Weak Labels and Synthetic SoundscapesPo-Cheng Chan, Wei-Yu Chen, Chung-Li Lu, Hsiang-Feng Chuang, Yu-Han Cheng, Jia-Ching Wang. 1-5 [doi]

GGMDDC: An Audio Deepfake Detection Multilingual DatasetRavindra M. Purohit, Arth J. Shah, Hemant A. Patil. 1-6 [doi]

Few-Shot Open-Set Keyword Spotting with Multi-Stage TrainingLo-Ya Li, Tien-Hong Lo, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen. 1-5 [doi]

StylebookTTS: Zero-Shot Text-to-Speech Leveraging Unsupervised Style RepresentationJuhwan Yoon, Hyungseob Lim, Hyeonjin Cha, Hong-Goo Kang. 1-6 [doi]

A Document Presentation Attack Detection Scheme with Optical Flow under a FlashlightChangsheng Chen, Wenyu Chen, Ximin Chen, Haodong Li 0001. 1-6 [doi]

Automated Pseudo-Label Generation and Parallel Computing for Enhanced Few-Shot Medical Image SegmentationTrong Duc Nguyen, Tien Dung Do, Thanh-Ha Do. 1-6 [doi]

RepViT Based Lightweight Architecture for Distracted Driving DetectionMuwei Jian, Yukun Ling, Rui Wang 0017, Yanjie Zhong, Huihui Huang, Xiaoguang Li. 1-6 [doi]

High and Low Frequency Region Separation Method for Adaptive Image ExpansionShao-Yun Luo, Kuei-Chen Chen, Jian-Jiun Ding, Cheng-Che Lee, Hsin-Jung Lee. 1-6 [doi]

Psychological Driving Style Estimation from GPS Sensor Data AloneHiroto Horimoto, Ryusei Kimura, Takahiro Tanaka, Shogo Okada. 1-6 [doi]

Successive Speaker Relative Transfer Function Estimation Through Relative Transfer Matrix in Noisy Reverberant EnvironmentsWageesha Manamperi, Thushara D. Abhayapala. 1-6 [doi]

Dynamic Sensor Placement on Graphs Based on Graph Signal Sampling TheorySaki Nomura, Junya Hara, Hiroshi Higashi, Yuichi Tanaka. 1-6 [doi]

Text-guided Visual Prompt Tuning with Masked Images for Facial Expression RecognitionRongkang Dong, Cuixin Yang, Kin-Man Lam 0001. 1-6 [doi]

Deep Unfolding Aided Parameter Optimization for Multi-task Diffusion LMS AlgorithmXiaoqing Tong, Kazunori Hayashi. 1-6 [doi]

Detecting Spoof Voices in Asian Non-Native Speech: An Indonesian and Thai Case StudyAulia Adila, Candy Olivia Mawalim, Masashi Unoki. 1-6 [doi]

Comparative Evaluation of Fine-Tuned Hybrid Transformer and Band-Split Recurrent Neural Networks for Music Source SeparationKen Kalang Al Qalyubi, Nur Ahmadi, Dessi Puji Lestari. 1-5 [doi]

META: Text Detoxification by leveraging METAmorphic Relations and Deep Learning MethodsAlika Choo, Arghya Pal, Sailaja Rajanala, Arkendu Sen. 1-6 [doi]

Drone audition: implementation of an indoor multi-drone system for sound source trackingBenjamin Yen 0001, Kazuhiro Nakadai. 1-6 [doi]

Zero-Shot Learning for Haze Removal Using Fusion of Near-Infrared and Color ImagesOnhi Kato, Akira Kubota. 1-6 [doi]

Robust Adaptive Filtering Based on Adaptive Projected Subgradient Method: Moreau Enhancement of Distance FunctionDaiki Sawada, Masahiro Yukawa. 1-6 [doi]

GE2E-AC: Generalized End-to-End Loss Training for Accent ClassificationChihiro Watanabe, Hirokazu Kameoka. 1-6 [doi]

Enhanced Detection of Illegally Parked Vehicles Using YOLO and Good Feature to Track MethodsFauzan Maftuh Alwafi, Boby Mugi Pratama, Phuong Thi Le, Bima Prihasto, Jia-Ching Wang. 1-6 [doi]

Toward Universal Detector for Synthesized Images by Estimating Generative AI ModelsRyota Seo, Minoru Kuribayashi, Akinobu Ura, Antoine Mallet, Rémi Cogranne, Wojciech Mazurczyk, David Megías 0001. 1-6 [doi]

Robust Image Watermarking Scheme under Halftone Distortion with Surrogate ModelChangsheng Chen, Xijin Li. 1-6 [doi]

Reduced-dimensional MUSIC Algorithm for Frequency Diverse Array in MIMO Radar SystemBeizuo Zhu, Kazunori Hayashi, Hiroki Mori. 1-8 [doi]

What to Refer and How? - Exploring Handling of Auxiliary Information in Target Speaker ExtractionTomohiro Hayashi, Riku Ogino, Kohei Saijo, Tetsuji Ogawa. 1-6 [doi]

Tiny Object Detection Enhancement for Large-Scale Remote Sensing ImageryTianwei Zhang 0005, LianRu Gao, Xu Sun 0005, Lina Zhuang. 1-5 [doi]

Low-Complexity Adaptive Beamformer for Joint Reverberation and Noise SuppressionFan Zhang 0001, Chao Pan 0001, Jingdong Chen, Jacob Benesty. 1-5 [doi]

Annotation-free Fine-tuning for Unsupervised Anomalous Sound DetectionKai Guo, Xiang Xie, Fengrun Zhang. 1-5 [doi]

On the Security of Bitstream-level JPEG Encryption with Restart MarkersMare Hirose, Shoko Imaizumi, Hitoshi Kiya. 1-6 [doi]

YOLO for High Resolution Images without RetrainingDaisuke Minami, Kiyoshi Nishikawa. 1-6 [doi]

A Noisy Context Optimization Approach for Chinese Spelling CorrectionGuangwei Zhang, Yongping Xiong, Ruifan Li. 1-6 [doi]

A Single-Input/Binaural-Output Perceptual Rendering Based Speech Separation Method in Noisy EnvironmentsTianqin Zheng, Hanchen Pei, Ningning Pan, Jilu Jin, Gongping Huang, Jingdong Chen, Jacob Benesty. 1-5 [doi]

Voice Liveness Detection Using Linear Frequency Residual Cepstral CoefficientsArth J. Shah, Nandini V. Mandaviya, Hemant A. Patil. 1-6 [doi]

Prediction-error-based Adaptive SpecAugment for Fine-tuning the Masked Model on Audio Classification TasksXiao Zhang, Haoran Xing, Mingxue Song, Daiki Takeuchi, Noboru Harada, Shoji Makino. 1-6 [doi]

A Real-Time Platform for Portable and Scalable Active Noise Mitigation for Construction MachineryWoon-Seng Gan, Santi Peksi, Chung Kwan Lai, Yen Theng Lee, Dongyuan Shi, Bhan Lam. 1-6 [doi]

Improved Cassava Plant Disease Classification with Leaf DetectionMing Xuan Chai, Yao Deng Fam, Quinito Norman Octaviano, Chih-Yang Pee, Lai-Kuan Wong, Mas Ira Syafila Mohd Hilmi Tan, John See. 1-6 [doi]

Structural Analysis of Asian and African Rice Panicles via Transfer LearningCong-Hieu Le, Lam Thai Nguyen, Trung-Kien Pham, Le Khanh Nguyen, Tran Hiep Dinh, Stefan Jouannic, Helene Adam, Pierre Duhamel, Nguyen Linh-Trung, Trong-Minh Hoang. 1-8 [doi]

DDPMVC: Non-parallel any-to-many voice conversion using diffusion encoderRyuichi Hatakeyama, Kohei Okuda, Toru Nakashika. 1-6 [doi]

Multibiometrics Using a Single Face ImageKoichi Ito 0001, Taito Tonosaki, Takafumi Aoki, Tetsushi Ohki, Masakatsu Nishigaki. 1-6 [doi]

Effect of Phase-Locked Transcranial Alternating Current Stimulation on Vocal tremorJunting Wang, Satoko Koganemaru, Atsushi Shima, Yedi Cao, Kana Hirakawa, Ken Iwagana, Atsushi Suehiro, Keiko Maekawa, Tatsuya Mima, Yumie Ono. 1-6 [doi]

GPGAN-VC: Enhancing Voice Conversion using Gradient PenaltyRavindrakumar M. Purohit, Dharmendra H. Vaghera, Hemant A. Patil. 1-6 [doi]

Data generation for speaker diarization by speaker transition informationKeigo Ichikawa, Sei Ueno, Akinobu Lee. 1-5 [doi]

Significance of Lower Frequency Regions for Audio Deepfake DetectionArth J. Shah, Hemant A. Patil. 1-6 [doi]

BEES: A New Acoustic Task for Blended Emotion Estimation in SpeechXingfeng Li 0001, Xiaohan Shi, Yuke Si, Zilong Zhang, Feifei Cui, Yongwei Li, Yang Liu, Masashi Unoki, Masato Akagi. 1-6 [doi]

Observation of the Terrestrial Radio Environment Using the Low Earth Orbit Satellite ConstellationTakatoshi Obata, Osamu Takyu, Kei Inage, Takeo Fujii, Kohei Yoshida, Masayuki Ariyoshi. 1-5 [doi]

MGVul: a Multi-Granularity Detection Framework for Software VulnerabilityXiangyu Zhao, Yanjun Li, Zhengpeng Zha, Zhenhua Ling. 1-6 [doi]

Long Audio File Speaker Diarization with Feasible End-to-End ModelsKai-Wei Huang, Chia-Ping Chen. 1-6 [doi]

LLM as decoder: Investigating Lattice-based Speech Recognition Hypotheses Rescoring Using LLMSheng Li 0010, Yuka Ko, Akinori Ito. 1-5 [doi]

Noise-Robust Estimation of Early-part Room Impulse Responses based on Physics-Informed Neural Network with Dynamic Pulling MethodKen Kurata, Gen Sato, Izumi Tsunokuni, Yusuke Ikeda. 1-5 [doi]

Color Guided Disease Segmentation for Plant ImagesSo-Yeon Jang, Jong-Ok Kim. 1-6 [doi]

Dictionary Learning Based Two-stage Near-lossless Video CompressionZuhai Zhang, Luheng Jia, Li Song 0001, Shuyuan Zhu, Yuanfang Guo, Kebin Jia. 1-6 [doi]

Physics-Informed Neural Networks for Estimation of Scattered Sound Fields with Boundary ConditionRyosuke Onizawa, Gen Sato, Izumi Tsunokuni, Yusuke Ikeda. 1-5 [doi]

Peer Learning via Shared Speech Representation Prediction for Target Speech SeparationXusheng Yang, Zifeng Zhao, Yuexian Zou. 1-7 [doi]

Dysarthria Severity Classification Using Phase Based Features of LP ResidualRohini Sri Mannepalli, Aditya Pusuluri, Hemant A. Patil. 1-5 [doi]

GMNER-LF: Generative Multi-modal Named Entity Recognition Based on LLM with Information FusionHuiyun Hu, Junda Kong, Fei Wang, Hongzhi Sun, Yang Ge, Bo Xiao. 1-6 [doi]

Disposable-key-based image encryption for collaborative learning of Vision TransformerRei Aso, Sakaya Shiota, Hitoshi Kiya. 1-6 [doi]

Development of Simple Algorithm to Detect and Filter Motion Artifact Noise in Non Invasive Blood Pressure (NIBP) MeasurementTrio Adiono, Rd Elviana La'salina Muhlis, Clarence Amadeus, Sindy Novaria Cicilya Sinaga. 1-6 [doi]

Comparative Analysis of Glottal and Vocal Tract Features in DysarthriaGeeta Sai Sahasra, Kadwasra Swapna, Arushi Srivastava, Aditya Pusuluri, Hemant A. Patil. 1-6 [doi]

Hyperspectral Unmixing With Row-Sparsity Enhancement: A Difference-of-Convex ApproachKazuki Naganuma, Shunsuke Ono. 1-5 [doi]

Frequency & Channel Attention Network for Small Footprint Noisy Spoken Keyword SpottingYuanxi Lin, Yuriy Evgenyevich Gapanyuk. 1-6 [doi]

Band-Split Inter-SubNet: Band-Split with Subband Interaction for Monaural Speech EnhancementYen-Chou Pan, Yih-Liang Shen, Yuan-Fu Liao, Tai-Shih Chi. 1-6 [doi]

EMO-Codec: An In-Depth Look at Emotion Preservation Capacity of Legacy and Neural Codec Models with Subjective and Objective EvaluationsWenze Ren, Yi-Cheng Lin, Huang-Cheng Chou, Haibin Wu, Yi-Chiao Wu, Chi-Chun Lee, Hung-yi Lee, Hsin-Min Wang, Yu Tsao 0001. 1-6 [doi]

Transfer-Based Adversarial Attack Against Multimodal Models by Exploiting Perturbed Attention RegionRaffaele Disabato, AprilPyone MaungMaung, Huy H. Nguyen, Isao Echizen. 1-6 [doi]

Cross Lingual Speech Representation for Infant Cry ClassificationHiya Chaudhari, Arth J. Shah, Hemant A. Patil. 1-5 [doi]

Anomalous Machine Sound Detection Based on Time Domain Gammatone Spectrogram Feature and IDNN ModelPrimanda Adyatma Hafiz, Candy Olivia Mawalim, Dessi Puji Lestari, Sakriani Sakti, Masashi Unoki. 1-6 [doi]

Adapting OpenAI's Whisper for Speech Recognition on Code-Switch Mandarin-English SEAME and ASRU2019 DatasetsYuhang Yang, Yizhou Peng, Hao Huang 0009, Eng Siong Chng, Xionghu Zhong. 1-6 [doi]

An Annealing-Inspired Gradient-Descent Based Suboptimal Solver for Combinatorial ProblemsShu-Ping Chang, Cheng-Che Lee, Hsin-Jung Lee, Chieh-Hsiung Kuan, Jason Gemsun Young, Chia-Yu Yao, Jian-Jiun Ding. 1-6 [doi]

A Byte-based GPT-2 Model for Bit-flip JPEG Bitstream RestorationHao Qin, Haoran Sun, Yi Wang 0043. 1-6 [doi]

A High-Isolation Sub-6 GHz In-Band Full-Duplex Communication SystemChengzhe Shi, Wensheng Pan, Wanzhi Ma, Ying Liu 0013, Qiang Xu, Zhiya Zhang, Shihai Shao. 1-6 [doi]

Inertial Strengthened CLIP model for Zero-shot Multimodal Egocentric Activity RecognitionMingzhou He, Haojie Wang, Shuchang Zhou 0002, Qingbo Wu 0001, King Ngi Ngan, Fanman Meng, Hongliang Li 0001. 1-6 [doi]

Pop Noise Detection Using Group Delay Cepstral CoefficientsArth J. Shah, Prathav Kevadiya, Hemant A. Patil. 1-6 [doi]

ViP-CBM: Reducing Parameters in Concept Bottleneck Models by Visual-Projected EmbeddingsJi Qi, Huisheng Wang, H. Vicky Zhao. 1-6 [doi]

ET-SSM: Linear-Time Encrypted Traffic Classification Method Based On Structured State Space ModelYanjun Li, Xiangyu Zhao, Zhengpeng Zha, Zhenhua Ling. 1-6 [doi]

A Multi-Perceptual Learning Network for Retina OCT Image Denoising and ClassificationZhe Xiao, Zongqi He, Zhuoning Xu, Yunze Li, Zelin Song, Calvin Leighton, Li Wang, Shanru Liu, Shiun Yee Wong, Wenfeng Huang, Wenjing Jia, Kin-Man Lam 0001. 1-6 [doi]

Enhancing Branchformer with Dynamic Branch Merging Module for Code-Switching Speech RecognitionHong-Jie Hu, Yu-Chiao Lai, Chia-Ping Chen. 1-6 [doi]

New approach for Alzheimer's disease classification using topographic maps and deep learning modelQuoc Anh Le, Hong-Thinh Nguyen. 1-6 [doi]

SRC-gAudio: Sampling-Rate-Controlled Audio GenerationChenxing Li, Manjie Xu, Dong Yu 0001. 1-6 [doi]

Screen Content Encoding Network Based on Deep Contextual InformationTianyu Gong, Tao Zhang, Ye Zhong, Mengmeng Zhang, Huihui Bai 0001. 1-6 [doi]

Self-Supervised Augmented Diffusion Model for Anomalous Sound DetectionJiawei Yin, Wenbin Zhang, Mingjun Zhang, Yu Gao. 1-5 [doi]

Lifelong Person Re-Identification with Backward-CompatibilityMinyoung Oh, Jae-Young Sim. 1-6 [doi]

MTFNet: Multi-Scale Transformer Framework for Robust Emotion Monitoring in Group Learning SettingsYi Zhang, Fangyuan Liu, Jiajia Song, Qi Zeng, Hui He. 1-8 [doi]

Adaptive Subspace Clustering for Matrix CompletionTakuto Wada, Ryohei Sasaki, Katsumi Konishi. 1-5 [doi]

Low-resource Language Adaptation with Ensemble of PEFT ApproachesKwok Chin Yuen, Sheng Li 0010, Jia Qi Yip, Engsiong Chng. 1-6 [doi]

Real-time Segmentation of Coronary Artery Calcification Using Spatial Attention and Parallel ConvolutionTetsuya Asakawa, Masashi Hashimoto, Takeshi Miyaji, Kazuki Shimizu, Kei Nomura, Masaki Aono. 1-5 [doi]

EAViT: External Attention Vision Transformer for Audio ClassificationAquib Iqbal, Abid Hasan Zim, Md Asaduzzaman Tonmoy, LiMengNan Zhou, Asad Malik, Minoru Kuribayashi. 1-6 [doi]

Significance of Entropy Based Features For Dysarthric Severity Level ClassificationMeghana Avula, Aditya Pusuluri, Hemant A. Patil. 1-6 [doi]

Multi-Channel Fusion Human Activity Recognition Algorithm Based on Millimeter-Wave RadarJunda Zhu, Shisheng Guo, Longzhen Tang, Guolong Cui. 1-6 [doi]

A Survey on Objective Quality Assessment of Omnidirectional ImagesXiangjie Sui, Shiqi Wang 0001, Yuming Fang. 1-6 [doi]

Drone audition: dataset and methods for ground surface material classification using drone noise in outdoor environmentTsubasa Yano, Benjamin Yen 0001, Kazuhiro Nakadai. 1-6 [doi]

Learning a Sequence of Cursive-Style Japanese Characters in Classical Literary WorksSatoru Fujita, Keizo Oyama. 1-6 [doi]

PRTGaussian: Efficient Relighting Using 3D Gaussians with Precomputed Radiance TransferLibo Zhang, Yuxuan Han, Wenbin Lin, Jingwang Ling, Feng Xu. 1-6 [doi]

PPHiFi-TTS: Phonetic Preserved High-Fidelity Text-to-Speech for Long-Term Speech DependenciesRavindrakumar M. Purohit, Dharmendra H. Vaghera, Arth J. Shah, Hemant A. Patil. 1-6 [doi]

GSBIQA: Green Saliency-guided Blind Image Quality Assessment MethodZhanxuan Mei, Yun-Cheng Wang, C. C. Jay Kuo. 1-6 [doi]

Developing a Multilingual Spontaneous L2 Speech Corpus for Automated Proficiency AssessmentSeunghee Han, SunHee Kim, Minhwa Chung. 1-6 [doi]

Wavetable Synthesis Using CVAE for Timbre Control Based on Semantic LabelTsugumasa Yutani, Yuya Yamamoto, Shuyo Nakatani, Hiroko Terasawa. 1-6 [doi]

Marker-Aware Ovarian Tumor Segmentation from Ultrasound ImagesHoang-Son Bui, Sy-Hoang Tran, Thuy Binh Nguyen, Thanh-Hai Tran 0001, Hai Vu, Thi-Lan Le. 1-6 [doi]

Multichannel Speech Enhancement Using Complex-Valued Graph Convolutional Networks and Triple-Path Attentive Recurrent NetworksXingyu Shen, Wei-Ping Zhu 0001. 1-6 [doi]

An Effective Contextualized Automatic Speech Recognition Approach Leveraging Self-Supervised Phoneme FeaturesLi-Ting Pai, Yi-Cheng Wang, Bi-Cheng Yan, Hsin-Wei Wang, Jia-liang Lu, Chi-Han Lin, Juan-Wei Xu, Berlin Chen. 1-6 [doi]

A Semi-supervised Low-Light Image Enhancement with Color GuidanceYuxin Wang, Shuolin Yang, Qianxi Wu, Zhishuo Zhang, Yunxia Liu, Yang Yang, Yakui Dong, Cheng Fei, Junliang Liu, Lili Wang, Shuzhen Fan, Yongfu Li. 1-6 [doi]

Modeling and Analysis of the Interaction between Opinions and Actions among Heterogeneous AgentsHangjing Zhang, H. Vicky Zhao. 1-6 [doi]

Adaptive Spatial Re-sampling Method for Video Coding for MachinesEun-bin An, Ayoung Kim, Soon-heung Jung, Hyon-Gon Choo, Kwang-deok Seo. 1-4 [doi]

Handling Missing Data in Limited-View Photoacoustic Tomography Using Compressive Sensing Algorithm-Based Deep LearningMary Josy John, Imad Barhumi. 1-6 [doi]

A Diffusion-Based Approach for Restoring Face-swapped ImagesYuanchen Niu, Yuanman Li, Guijia Zhang, Xia Li 0006. 1-5 [doi]

An End-to-End Two-Stream Network Based on RGB Flow and Representation Flow for Human Action RecognitionSong-Jiang Lai, Tsun-hin Cheung, Ka-Chun Fung, Tian-Shan Liu, Kin-Man Lam 0001. 1-6 [doi]

Forward Prediction-Guided Cross-Partition Targeted Pruning for VVenCJingyuan Tang, Songlin Sun. 1-6 [doi]

Does Brain Atlas Choice Matter? An Empirical Study in Alzheimer's Diagnosis Using FDG-PET ImagesPham Minh Tuan, Mouloud Adel, Nguyen Linh-Trung, Eric Guedj. 1-6 [doi]

COIN-AT-PVAD: A Conditional Intermediate Attention PVADEn-Lun Yu, Ruei-Xian Chang, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen. 1-5 [doi]

Quefrency Approach to Audio Deepfake DetectionKanishq Singhal, Aditya Goyal, Priyanka Gupta. 1-6 [doi]

Hammering Inspection System Using HPSS and Gradient Boosting with a Wall-Climbing RobotNichika Koyama, Nari Tanabe, Masaya Fujisawa. 1-5 [doi]

Personal Voice Activity Detection With Ultra-Short Reference SpeechLongting Xu, Mingjun Zhang, Wenbin Zhang, Tianyi Wang, Jiawei Yin, Yu Gao. 1-6 [doi]

Speech Depression Recognition from the Selfreference Effect Using LSTM with ResNetDaimin Shi, Xiaoyong Lu, Yang Liu, Jingyi Yuan, Tao Pan. 1-5 [doi]

AFSDet: Video Small Object Detection Based on Adaptive Focused SlicingKangjian Huang, Yan Yang, Yongquan Jiang, Xiaobo Zhang, Zhuyi Angelina Li. 1-6 [doi]

Multi-band Satellite Image Analysis for Multi-label ClassificationSarah Shamina Abdul Rauf, Mas Ira Syafila Mohd Hilmi Tan, Yuen Peng Loh. 1-6 [doi]

Color Enhancement for the Colorblind Using Color Correction Intensity Map and Pix2pix Image ConversionShu Komatsu, Akira Kubota. 1-5 [doi]

A Comparative Study on the Biases of Age, Gender, Dialects, and L2 speakers of Automatic Speech Recognition for Korean LanguageJonghwan Na, Yeseul Park, Bowon Lee. 1-6 [doi]

Collection of Correlated Information from Superimposed Multiple Chirp SignalsKoki Aoyama, Koichi Adachi. 1-6 [doi]

Data-Driven Tuning for Weighted Least Squares of BLE-AoA-based Indoor LocalizationGinji Ohashi, Shinsuke Ibi, Takumi Takahashi, Hisato Iwai. 1-6 [doi]

Agent Attention Feature Reconstruction Network for Fine-Grained Few-Shot Image ClassificationDongfei Chang, Jijie Wu, Xiaoxu Li. 1-6 [doi]

VietSing: A High-quality Vietnamese Singing Voice CorpusMinh Vu, Zhou Wei, Binit Bhattarai, Kah Kuan Teh, Tran Huy Dat. 1-6 [doi]

Generation of Photo Slideshow with Song based on Closeness between Concept of Lyrics and That of ImagesMei Hashimoto, Michiharu Niimi. 1-6 [doi]

Enhancing Early Plant Disease Detection: 1D to 2D Spectral TransformationsMas Ira Syafila Mohd Hilmi Tan, Lai-Kuan Wong, Yuen Peng Loh, Chih-Yang Pee. 1-6 [doi]

Optimizing Computational Efficiency: In-Memory Computing with Dynamic SwitchingKun-Lin Tsai, Chao-Ting Huang. 1-6 [doi]

Green Video Camouflaged Object DetectionXinyu Wang, Hong-Shuo Chen, Zhiruo Zhou, Suya You, Azad M. Madni, C. C. Jay Kuo. 1-6 [doi]

Hyperspectral Anomaly Detection Using Robust Principal Component Analysis with Autoencoding Adversarial NetworkAtsuya Emoto, Ryo Matsuoka. 1-4 [doi]

A Study on Variable Embedding Locations of Reversible Spectral Speech WatermarkingXuping Huang, Akinori Ito. 1-6 [doi]

Normalizing Flows-Based Latent Variable Rearrangement for Generative Image SteganographySifan Wu, Li Dong 0006, Diqun Yan, Rangding Wang. 1-6 [doi]

Speech Synthesis from IPA Sequences through EMA DataKoki Maruyama, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada. 1-6 [doi]

Dictionary Learning for Directed Graph Signals via Augmented GFTTsubasa Naito, Ryuto Ito, Yuichi Tanaka, Shogo Muramatsu. 1-6 [doi]

New Perspectives and Insights on Distortionless Microphone Array BeamformingFan Zhang 0001, Jacob Benesty, Chao Pan 0001, Jingdong Chen. 1-5 [doi]

Confidence-Aware Learning for Person Re-identification with Noisy LabelsDuhyun Kim, Jae-Young Sim. 1-5 [doi]

Exploration Robot Based On YOLOv8 AlgorithmInfall Syafalni, Angelica Winasta Sinisuka, Dwi Kalam Amal Tauhid, Farrel Ahmad, Muhammad Alif Putra Yasa, Steven Alexander Wen, Erwin Setiawan, Nana Sutisna, Trio Adiono. 1-5 [doi]

Performance Improvement of Single Plane-Wave Imaging Using U-Net and Discrete Wavelet TransformHiromi Shidara, Kanta Miura, Takuro Ishii, Koichi Ito 0001, Takafumi Aoki, Yoshifumi Saijo, Jun Ohmiya. 1-6 [doi]

Separation of Cardiopulmonary Sound Signals for Classification of Respiratory DiseasesRuxin Zheng, Saeid Sanei. 1-6 [doi]

IoT-based Smart Attendance System using Face Recognition and Motion DetectionUmi Syamimi, Lim Chern Hong, Lillian Yee Kiaw Wang. 1-6 [doi]

Implementation of a Robot Operation System-based network for sound source localization using multiple dronesTakumi Yamamoto, Kotaro Hoshiba, Benjamin Yen 0001, Kazuhiro Nakadai. 1-6 [doi]

Continual Learning with Self-Organizing Maps: A Novel Group-Based Unsupervised Sequential Training ApproachGaurav Hirani, Kevin I-Kai Wang, Waleed H. Abdulla. 1-6 [doi]

Analysis of Various Self-Supervised Learning Models for Automatic Pronunciation AssessmentHaeyoung Lee, SunHee Kim, Minhwa Chung. 1-6 [doi]

ACE-Flow: Auto Color Encoding for Enhanced Low-Light Image RestorationJiachen Qiu, Yushen Zuo, Kin-Man Lam 0001. 1-6 [doi]

High-Quality Facial Pose Generation with Latent Space ProcessingWing-Ho Cheng, Wan-Chi Siu, H. Anthony Chan. 1-7 [doi]

Audio Similarity DetectionSiddharth Harsh Y. Malhotra, Sapan H. Mankad. 1-6 [doi]

Enhancing Semiconductor X-RAY Images: A Framework Combining Denoising and Super-Resolution Modules With a Novel DatasetJae Hoon Shim, Min Woo Kim, Tae Gyu Lim, Byungseok Min, Sang Hwa Lee, Nam Ik Cho. 1-6 [doi]

Optimizing Multi-Speaker Speech Recognition with Online Decoding and Data AugmentationYizhou Peng, Eng Siong Chng. 1-6 [doi]

ComplexFace: A Public Visible-Thermal Face Dataset with Real-Life ComplexityJiajin He, Chengxi Dong, Yunqi Cai, Dong Wang. 1-6 [doi]

A Configurable OFDM Baseband Processor for RF-UOWC System-on-ChipTrio Adiono, Erwin Setiawan, Michael Jonathan, Rahmat Mulyawan, Nana Sutisna, Infall Syafalni, Wasiu O. Popoola. 1-4 [doi]

Development and evaluation of a semi-autonomous parallel attentive listening systemDivesh Lala, Koji Inoue, Haruki Kawai, Zi Haur Pang, Mikey Elmers, Tatsuya Kawahara. 1-6 [doi]

M-IRRA: A multilingual model for Text-based Person SearchHung Phong Tran, Thi-Hoai Phan, Thuy Binh Nguyen, Thi-Ngoc-Diep Do, Hong-Quan Nguyen, Thanh-Hai Tran 0001, Hien-Thanh Duong, Thi-Lan Le. 1-6 [doi]

Novel Estimators for the Number of Susceptible Individuals in SIR Models of Infectious EpidemicsMichaël Antonie van Wyk, André Martin McDonald, David M. Rubin, Fangfang Zhang 0002. 1-6 [doi]

AI-generated image detectors are surprisingly easy to mislead... for nowZihang Lyu, Jun Xiao 0010, Cong Zhang, Kin-Man Lam 0001. 1-5 [doi]

Knowledge Augmented Attention Gating Embedding for Link PredictionZewei Chen, Shuhong Chen, Chen Li, Xianwei Zheng, Minfan He, Xutao Li. 1-5 [doi]

Enhancing Remote Adversarial Patch Attacks on Face Detectors with Tiling and ScalingMasora Okano, Koichi Ito 0001, Masakatsu Nishigaki, Tetsushi Ohki. 1-6 [doi]

Data Selection using Spoken Language Identification for Low-Resource and Zero-Resource Speech RecognitionJianan Chen, Chenhui Chu, Sheng Li 0010, Tatsuya Kawahara. 1-6 [doi]

Enhancing YOLOv7 with GLF-Trans for Precision in Small Object DetectionNaohito Yoshikawa, Masaaki Ikehara. 1-5 [doi]

Speech emotion recognition based on crossmodal transformer and attention weight correctionRyusei Terui, Takeshi Yamada. 1-5 [doi]

WildPose: HRNet-based Lightweight and Efficient Wildlife Pose EstimationSibusiso Reuben Bakana, Yongfei Zhang, Bhekisipho Twala. 1-6 [doi]

Generating Phonetic Transcriptions for Korean English L2 Learners Using Multiple Self-Supervised-Model-Based ASR Systems and Rover MethodJong-In Kim, SunHee Kim, Minhwa Chung. 1-6 [doi]

PBJDT: Point-Based Joint Detection-and-TrackingZhen-Xun Lee, Jian-Jiun Ding. 1-6 [doi]

A Novel LLM-based Two-stage Summarization Approach for Long DialoguesYuan-Jhe Yin, Bo-Yu Chen, Berlin Chen. 1-6 [doi]

Enhancing Shear Wave Propagation Analysis in Tissue with Directional Filtering of Reflected WavesQuang-Hai Luong, Duc-Nghia Tran, Sy-Hiep Nguyen, Lam Sinh Cong, Duc-Tan Tran. 1-6 [doi]

Swarm Active Audition System with Robots and Drones for a Search and Rescue TaskKazuhiro Nakadai, Makoto Kumon, Yoko Sasaki, Kotaro Hoshiba, Benjamin Yen 0001. 1-6 [doi]

Exploring Brain Connectivity Patterns and Cognitive Resilience in Aging: A Study with the LEMON DatasetKapeleshh KS, Wei Chen, Prince Aldrin Domer, Hong Ji. 1-6 [doi]

Data Augmentation and Assessment for Enhanced Ovarian Tumor ClassificationThi-Loan Pham, Gia-Minh Pham, Tien Dat Nguyen, Van-Hung Le 0002, Thi-Lan Le, Duy-Hai Vu, Hai Vu, Chi-Mai Pham, Thanh-Hai Tran 0001. 1-6 [doi]

Generation of target speech with speaker individuality based on accent conversion for English pronunciation learningRei Hamakawa, Michiharu Niimi. 1-6 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Asia Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2024, Macau, December 3-6, 2024

Abstract

Table of Contents