IEEE Spoken Language Technology Workshop, SLT 2024, Macao, December 2-5, 2024 - researchr publication

researchr

You are not signed in
Sign in
Sign up

IEEE Spoken Language Technology Workshop, SLT 2024, Macao, December 2-5, 2024. IEEE, 2024. [doi]

Conference: slt2024

Abstract is missing.

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of WhisperChih-Kai Yang, Kuan-Po Huang, Hung-yi Lee. 1-8 [doi]

Personalizing Large Sequence-to-Sequence Speech Foundation Models With Speaker RepresentationsDominik Wagner 0002, Ilja Baumann, Thomas Ranzenberger, Korbinian Riedhammer, Tobias Bocklet. 1-6 [doi]

Temporal Order Preserved Optimal Transport-Based Cross-Modal Knowledge Transfer Learning for ASRXugang Lu, Peng Shen, Yu Tsao 0001, Hisashi Kawai. 1-8 [doi]

Mamba-Based Decoder-Only Approach with Bidirectional Speech Modeling for Speech RecognitionYoshiki Masuyama, Koichi Miyazaki, Masato Murata. 1-6 [doi]

Speech-Mamba: Long-Context Speech Recognition with Selective State Spaces ModelsXiaoxue Gao, Nancy F. Chen. 1-8 [doi]

Label-Looping: Highly Efficient Decoding For TransducersVladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg. 7-13 [doi]

Advancing Multi-Talker ASR Performance With Large Language ModelsMohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu 0004, Shi-Xiong Zhang 0001, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu 0001. 14-21 [doi]

Token-Weighted RNN-T For Learning From Flawed DataGil Keren, Wei Zhou, Ozlem Kalinli. 22-29 [doi]

Enhancing Code-Switching Speech Recognition With LID-Based Collaborative Mixture of Experts ModelHukai Huang, Jiayan Lin, Kaidi Wang, Yishuang Li, Wenhao Guan, Lin Li, Qingyang Hong. 30-36 [doi]

Language Bias in Self-Supervised Learning For Automatic Speech RecognitionEdward Storey, Naomi Harte, Peter Bell 0001. 37-42 [doi]

Robust Audiovisual Speech Recognition Models with Mixture-of-ExpertsYihan Wu, Yifan Peng, Yichen Lu, Xuankai Chang, Ruihua Song, Shinji Watanabe 0001. 43-48 [doi]

Hybrid Attention-Based Encoder-Decoder Model for Efficient Language Model AdaptationShaoshi Ling, Guoli Ye, Rui Zhao 0017, Yifan Gong 0001. 49-55 [doi]

Spatialemb: Extract and Encode Spatial Information for 1-Stage Multi-Channel Multi-Speaker ASR on Arbitrary Microphone ArraysYiwen Shao, Yong Xu 0004, Sanjeev Khudanpur, Dong Yu 0001. 56-63 [doi]

Effective Text Adaptation For LLM-Based ASR Through Soft Prompt Fine-TuningYingyi Ma, Zhe Liu, Ozlem Kalinli. 64-69 [doi]

Contextualized Automatic Speech Recognition With Dynamic VocabularyYui Sudo, Yosuke Fukumoto, Muhammad Shakeel 0001, Yifan Peng, Shinji Watanabe 0001. 78-85 [doi]

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech RecognitionYi-Cheng Wang, Li-Ting Pai, Bi-Cheng Yan, Hsin-Wei Wang, Chi-Han Lin, Berlin Chen. 94-101 [doi]

Training Large ASR Encoders With Differential PrivacyGeeticka Chauhan, Steve Chien, Om Thakkar 0001, Abhradeep Thakurta, Arun Narayanan. 102-109 [doi]

Transducer Consistency Regularization For Speech to Text ApplicationsCindy Tseng, Yun Tang, Vijendra Raj Apsingekar. 110-117 [doi]

Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation For Code-Switching ASR Using Realistic DataLiang-Hsuan Tseng, Zih-Ching Chen, Wei-Shun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee. 118-125 [doi]

CTC-Assisted LLM-Based Contextual ASRGuanrou Yang, Ziyang Ma, Zhifu Gao, Shiliang Zhang, Xie Chen 0001. 126-131 [doi]

Automatic Time Alignment Generation For End-to-End ASR Using Acoustic Probability ModellingDongcheng Jiang, Chao Zhang 0031, Philip C. Woodland. 132-139 [doi]

Continual Learning With Embedding Layer Surgery and Task-Wise Beam Search Using WhisperKwok Chin Yuen, Jia Qi Yip, Eng Siong Chng. 140-146 [doi]

Bestow: Efficient and Streamable Speech Language Model with The Best of Two Worlds in GPT and T5Zhehuai Chen, He Huang 0012, Oleksii Hrinchuk, Krishna C. Puvvada, Nithin Rao Koluguri, Piotr Zelasko, Jagadeesh Balam, Boris Ginsburg. 147-154 [doi]

Combining TF-GridNet And Mixture Encoder For Continuous Speech Separation For Meeting TranscriptionPeter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach. 155-162 [doi]

An Analysis of Linear Complexity Attention Substitutes With Best-RQRyan Whetten, Titouan Parcollet, Adel Moumen, Marco Dinarelli, Yannick Estève. 169-176 [doi]

Lite ASR Transformer: A Light Weight Transformer Architecture For Automatic Speech RecognitionNarla John Metilda Sagaya Mary, Srinivasan Umesh. 185-192 [doi]

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech RecognitionHao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara. 193-199 [doi]

Efficient Extraction of Noise-Robust Discrete Units from Self-Supervised Speech ModelsJakob Poncelet, Yujun Wang, Hugo Van Hamme. 200-207 [doi]

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Multi-Task Automatic Speech Recognition ModelsVyas Raina, Mark J. F. Gales. 208-215 [doi]

Improving Rare-Word Recognition of Whisper in Zero-Shot SettingsYash Jogi, Vaibhav Aggarwal, Shabari S. Nair, Yash Verma, Aayush Kubba. 216-223 [doi]

Augmenting Automatic Speech Recognition Models With Disfluency DetectionRobin Amann, Zhaolin Li, Barbara Bruno, Jan Niehues. 224-231 [doi]

Enhancing Unified Streaming and Non-Streaming ASR Through Curriculum Learning With Easy-To-Hard TasksYuting Yang, Yuke Li, LiFeng Zhou, Binbin Du, Haoqi Zhu. 232-239 [doi]

DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech RecognitionHang Shao 0005, Bei Liu, Wei Wang 0010, Xun Gong 0005, Yanmin Qian. 240-246 [doi]

Fusion Of Discrete Representations and Self-Augmented Representations for Multilingual Automatic Speech RecognitionShih-Heng Wang, Jiatong Shi, Chien-Yu Huang, Shinji Watanabe 0001, Hung-yi Lee. 247-254 [doi]

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and TranslationNithin Rao Koluguri, Travis M. Bartley, Hainan Xu, Oleksii Hrinchuk, Jagadeesh Balam, Boris Ginsburg, Georg Kucsko. 255-262 [doi]

Semi-Supervised Learning For Code-Switching ASR With Large Language Model FilterYu Xi, Wen Ding, Kai Yu 0004, Junjie Lai. 263-270 [doi]

Parameter Averaging Is All You Need To Prevent ForgettingPeter Plantinga, Jaekwon Yoo, Abenezer Girma, Chandra Dhir. 271-278 [doi]

Advancing CTC Models for Better Speech Alignment: A Topological ApproachZeyu Zhao 0004, Peter Bell 0001. 279-285 [doi]

Dualsep: A Light-Weight Dual-Encoder Convolutional Recurrent Network For Real-Time In-Car Speech SeparationZiqian Wang, Jiayao Sun, Zihan Zhang, Xingchen Li, Jie Liu, Lei Xie 0001. 286-293 [doi]

DDTSE: Discriminative Diffusion Model for Target Speech ExtractionLeying Zhang, Yao Qian, Linfeng Yu, Heming Wang, Hemin Yang, Shujie Liu 0001, Long Zhou, Yanmin Qian. 294-301 [doi]

An Investigation of Incorporating Mamba For Speech EnhancementRong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao 0001. 302-308 [doi]

Effective Noise-Aware Data Simulation For Domain-Adaptive Speech Enhancement Leveraging Dynamic Stochastic PerturbationChien-Chun Wang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang. 309-316 [doi]

SMRU: Split-And-Merge Recurrent-Based UNet For Acoustic Echo Cancellation And Noise SuppressionZhihang Sun, Andong Li, Rilin Chen, Hao Zhang, Meng Yu 0003, Yi Zhou 0014, Dong Yu 0001. 317-324 [doi]

On the Effectiveness of Enrollment Speech Augmentation For Target Speaker ExtractionJunjie Li, Ke Zhang, Shuai Wang 0016, Haizhou Li 0001, Man-Wai Mak, Kong-Aik Lee. 325-332 [doi]

Diffusion-Based Generative Modeling With Discriminative Guidance for Streamable Speech EnhancementChenda Li, Samuele Cornell, Shinji Watanabe 0001, Yanmin Qian. 333-340 [doi]

Neurospex: Neuro-Guided Speaker Extraction With Cross-Modal FusionDashanka De Silva, Siqi Cai, Saurav Pahuja, Tanja Schultz, Haizhou Li 0001. 341-348 [doi]

Enhancing Speaker Extraction Through Rectifying Target ConfusionJiahe Wang, Shuai Wang 0016, Junjie Li, Ke Zhang, Yanmin Qian, Haizhou Li 0001. 349-356 [doi]

Diff-PLC: A Diffusion-Based Approach For Effective Packet Loss ConcealmentDa-Hee Yang, Joon-Hyuk Chang. 357-363 [doi]

Improving Curriculum Learning For Target Speaker Extraction With Synthetic SpeakersYun Liu, Xuechen Liu, Junichi Yamagishi. 364-370 [doi]

Large Language Model Based Generative Error Correction: A Challenge and Baselines For Speech Recognition, Speaker Tagging, and Emotion RecognitionChao-Han Huck Yang, Taejin Park, Yuan Gong, Yuanchao Li, Zhehuai Chen, Yen-Ting Lin, Chen Chen 0075, Yuchen Hu, Kunal Dhawan, Piotr Zelasko, Chao Zhang 0031, Yun-Nung Chen, Yu Tsao 0001, Jagadeesh Balam, Boris Ginsburg, Sabato Marco Siniscalchi, Eng Siong Chng, Peter Bell 0001, Catherine Lai, Shinji Watanabe 0001, Andreas Stolcke. 371-378 [doi]

FGCL: Fine-Grained Contrastive Learning For Mandarin Stuttering Event DetectionHan Jiang, Wenyu Wang, Yiquan Zhou, Hongwu Ding, Jiacheng Xu, Jihua Zhu. 379-384 [doi]

Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition ChallengeHongfei Xue, Rong Gong, Mingchen Shao, Xin Xu, Lezhi Wang, Lei Xie 0001, Hui Bu, Jiaming Zhou, Yong Qin, Jun Du 0002, Ming Li, Binbin Zhang, Bin Jia. 385-392 [doi]

Enhanced ASR FOR Stuttering Speech: Combining Adversarial and Signal-Based Data AugmentationShangkun Huang, Dejun Zhang, Jing Deng, Rong Zheng. 393-400 [doi]

Property Neurons in Self-Supervised Speech TransformersTzu-Quan Lin, Guan-Ting Lin, Hung-yi Lee, Hao Tang 0002. 401-408 [doi]

Privacy Versus Emotion Preservation Trade-Offs in Emotion-Preserving Speaker AnonymizationZexin Cai, Henry Li Xinyuan, Ashi Garg, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner. 409-414 [doi]

Estimating the Completeness of Discrete Speech UnitsSung-Lin Yeh, Hao Tang 0002. 415-422 [doi]

Investigation of Speaker Representation for Target-Speaker Speech ProcessingTakanori Ashihara, Takafumi Moriya, Shota Horiguchi, Junyi Peng, Tsubasa Ochiai, Marc Delcroix, Kohei Matsuura, Hiroshi Sato. 423-430 [doi]

Crossmodal ASR Error Correction With Discrete Speech UnitsYuanchao Li, Pinzhen Chen, Peter Bell 0001, Catherine Lai. 431-438 [doi]

Listen and Speak Fairly: a Study on Semantic Gender Bias in Speech Integrated Large Language ModelsYi-Cheng Lin, Tzu-Quan Lin, Chih-Kai Yang, Ke-Han Lu, Wei-Chih Chen, Chun-Yi Kuan, Hung-yi Lee. 439-446 [doi]

Learning Video Temporal Dynamics With Cross-Modal Attention For Robust Audio-Visual Speech RecognitionSungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun. 447-454 [doi]

Data Efficient Reflow for Few Step Audio GenerationLemeng Wu, Zhaoheng Ni, Bowen Shi, Gaël Le Lan, Anurag Kumar 0003, Varun Nagaraja, Xinhao Mei, Yunyang Xiong, Bilge Soran, Raghuraman Krishnamoorthi, Wei-Ning Hsu, Yangyang Shi, Vikas Chandra. 455-461 [doi]

Optimizing Byte-Level Representation For End-To-End ASRRoger Hsiao, Liuhui Deng, Erik McDermott, Ruchir Travadi, Xiaodan Zhuang. 462-467 [doi]

Romanization Encoding For Multilingual ASRWen Ding, Fei Jia, Hainan Xu, Yu Xi, Junjie Lai, Boris Ginsburg. 468-475 [doi]

Enhancing Code-Switching ASR Leveraging Non-Peaky CTC Loss and Deep Language Posterior InjectionTzu-Ting Yang, Hsin-Wei Wang, Yi-Cheng Wang, Berlin Chen. 476-481 [doi]

Language-Independent Prosody-Enhanced Speech Representations For Multilingual Speech SynthesisChang Liu, Zhen-Hua Ling, Ya-Jun Hu. 482-488 [doi]

Classification Of Spontaneous And Scripted Speech For Multilingual AudioShahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz, Emmanouil Benetos. 489-495 [doi]

GMP-TL: Gender-Augmented Multi-Scale Pseudo-Label Enhanced Transfer Learning For Speech Emotion RecognitionYu Pan, Yuguang Yang 0005, Yuheng Huang 0004, Tiancheng Jin, Jingjing Yin, Yanni Hu, Heng Lu 0004, Lei Ma 0003, Jianjun Zhao 0001. 496-501 [doi]

Embracing Ambiguity And Subjectivity Using The All-Inclusive Aggregation Rule For Evaluating Multi-Label Speech Emotion Recognition SystemsHuang-Cheng Chou, Haibin Wu, Lucas Goncalves, Seong-Gyun Leem, Ali Salman, Carlos Busso, Hung-yi Lee, Chi-Chun Lee. 502-509 [doi]

Open-Emotion: A Reproducible EMO-Superb For Speech Emotion Recognition SystemsHaibin Wu, Huang-Cheng Chou, Kai-Wei Chang, Lucas Goncalves, Jiawei Du, Jyh-Shing Roger Jang, Chi-Chun Lee, Hung-yi Lee. 510-517 [doi]

Speech Emotion Recognition With ASR Transcripts: a Comprehensive Study on Word Error Rate and Fusion TechniquesYuanchao Li, Peter Bell 0001, Catherine Lai. 518-525 [doi]

Beyond The Binary: Limitations and Possibilities of Gender-Related Speech Technology ResearchAriadna Sanchez, Alice Ross, Nina Markl. 526-532 [doi]

Enhancing Domain Generalization in Speech Emotion Recognition by Combining Domain-Variant Representations and Domain-Invariant ClassifiersShi-wook Lee. 533-539 [doi]

MDCTCodec: A Lightweight MDCT-Based Neural Audio Codec Towards High Sampling Rate and Low Bitrate ScenariosXiao-Hang Jiang, Yang Ai, Rui-Chen Zheng, Hui-Peng Du, Ye-Xin Lu, Zhen-Hua Ling. 540-547 [doi]

Addressing Index Collapse of Large-Codebook Speech Tokenizer With Dual-Decoding Product-Quantized Variational Auto-EncoderHaohan Guo, Fenglong Xie, Dongchao Yang, Hui Lu, Xixin Wu, Helen Meng. 548-553 [doi]

Investigating Neural Audio Codecs For Speech Language Model-Based Speech GenerationJiaqi Li, Dongmei Wang, Xiaofei Wang 0009, Yao Qian, Long Zhou, Shujie Liu 0001, Midia Yousefi, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Yanqing Liu, Junkun Chen, Sheng Zhao, Jinyu Li 0001, Zhizheng Wu 0001, Michael Zeng 0001. 554-561 [doi]

ESPnet-Codec: Comprehensive Training and Evaluation of Neural Codecs For Audio, Music, and SpeechJiatong Shi, Jinchuan Tian, Yihan Wu, Jee-weon Jung, Jia Qi Yip, Yoshiki Masuyama, William Chen, Yuning Wu, Yuxun Tang, Massa Baali, Dareen Alharthi, Dong Zhang, Ruifan Deng, Tejes Srivastava, Haibin Wu, Alexander H. Liu, Bhiksha Raj, Qin Jin, Ruihua Song, Shinji Watanabe 0001. 562-569 [doi]

Codec-Superb @ SLT 2024: A Lightweight Benchmark For Neural Audio Codec ModelsHaibin Wu, Xuanjun Chen, Yi-Cheng Lin, Kaiwei Chang, Jiawei Du, Ke-Han Lu, Alexander H. Liu, Ho-Lam Chung, Yuan-Kuei Wu, Dongchao Yang, Songxiang Liu, Yi-Chiao Wu, Xu Tan 0003, James R. Glass, Shinji Watanabe 0001, Hung-yi Lee. 570-577 [doi]

Optimizing Dysarthria Wake-Up Word Spotting: an End-to-End Approach For SLT 2024 LRDWWS ChallengeShuiyun Liu, Yuxiang Kong, Pengcheng Guo, Weiji Zhuang, Peng Gao 0013, Yujun Wang, Lei Xie 0001. 578-585 [doi]

PB-LRDWWS System For the SLT 2024 Low-Resource Dysarthria Wake-Up Word Spotting ChallengeShiyao Wang, Jiaming Zhou, Shiwan Zhao, Yong Qin. 586-591 [doi]

Summary of Low-Resource Dysarthria Wake-Up Word Spotting ChallengeMing Gao, Hang Chen, Jun Du 0002, Xin Xu, Hongxiao Guo, Hui Bu, Ming Li, Chin-Hui Lee 0001. 592-599 [doi]

Progres: Prompted Generative Rescoring on ASR N-BestAda Defne Tur, Adel Moumen, Mirco Ravanelli. 600-607 [doi]

FlanEC: Exploring Flan-T5 for Post-ASR Error CorrectionMoreno La Quatra, Valerio Mario Salerno, Yu Tsao 0001, Sabato Marco Siniscalchi. 608-615 [doi]

As-Speech: Adaptive Style For Speech SynthesisZhipeng Li, Xiaofen Xing, Jun Wang, Shuaiqi Chen, Guoqiao Yu, Guanglu Wan, Xiangmin Xu. 616-622 [doi]

Room Impulse Responses Help Attackers to Evade Deep Fake DetectionHieu-Thi Luong, Duc-Tuan Truong, Kong-Aik Lee, Eng Siong Chng. 623-629 [doi]

Attention-Constrained Inference For Robust Decoder-Only Text-to-SpeechHankun Wang, Chenpeng Du, Yiwei Guo, Shuai Wang 0016, Xie Chen 0001, Kai Yu 0004. 630-637 [doi]

Stage-Wise and Prior-Aware Neural Speech Phase PredictionFei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Rui-Chen Zheng, Zhen-Hua Ling. 638-644 [doi]

SoCodec: A Semantic-Ordered Multi-Stream Speech Codec For Efficient Language Model Based Text-to-Speech SynthesisHaohan Guo, Fenglong Xie, Kun Xie, Dongchao Yang, Dake Guo, Xixin Wu, Helen Meng. 645-651 [doi]

Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech EditsSung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen, Xuesong Yang, Chao-Han Huck Yang, Yu Tsao 0001, Yu-Chiang Frank Wang, Hung-yi Lee, Szu-Wei Fu. 652-659 [doi]

DNN-Based Ensemble Singing Voice Synthesis With Interactions Between SingersHiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura, Junya Koguchi, Hiroshi Saruwatari. 660-667 [doi]

Investigating Disentanglement in a Phoneme-Level Speech Codec for Prosody ModelingSotirios Karapiperis, Nikolaos Ellinas, Alexandra Vioni, Junkwang Oh, Gunu Jho, Inchul Hwang, Spyros Raptis. 668-674 [doi]

Instructsing: High-Fidelity Singing Voice Generation Via Instructing YourselfChang Zeng, Chunhui Wang, Xiaoxiao Miao, Jian Zhao, Zhonglin Jiang, Yong Chen. 675-681 [doi]

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTSSefik Emre Eskimez, Xiaofei Wang 0009, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan 0003, Yanqing Liu, Sheng Zhao, Naoyuki Kanda. 682-689 [doi]

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-To-SpeechHaibin Wu, Xiaofei Wang 0009, Sefik Emre Eskimez, Manthan Thakker, Daniel Tompkins, Chung-Hsien Tsai, Canrun Li, Zhen Xiao, Sheng Zhao, Jinyu Li 0001, Naoyuki Kanda. 690-697 [doi]

Disentangling The Prosody And Semantic Information With Pre-Trained Model For In-Context Learning Based Zero-Shot Voice ConversionZhengyang Chen, Shuai Wang 0016, Mingyang Zhang 0003, Xuechen Liu, Junichi Yamagishi, Yanmin Qian. 698-704 [doi]

NDVQ: Robust Neural Audio Codec With Normal Distribution-Based Vector QuantizationZhikang Niu, Sanyuan Chen, Long Zhou, Ziyang Ma, Xie Chen 0001, Shujie Liu 0001. 705-710 [doi]

Fast, High-Quality and Parameter-Efficient Articulatory Synthesis Using Differentiable DSPYisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli. 711-718 [doi]

Visinger2+: End-to-End Singing Voice Synthesis Augmented by Self-Supervised Learning RepresentationYifeng Yu, Jiatong Shi, Yuning Wu, Yuxun Tang, Shinji Watanabe 0001. 719-726 [doi]

End-To-End Streaming Model For Low-Latency Speech AnonymizationWaris Quamer, Ricardo Gutierrez-Osuna. 727-734 [doi]

Emotion-Coherent Speech Data Augmentation And Self-Supervised Contrastive Style Training For Enhancing Kids's Story Speech SynthesisRaymond Chung. 735-741 [doi]

Discrete Unit Based Masking For Improving Disentanglement in Voice ConversionPhilip H. Lee, Ismail Rasim Ulgen, Berrak Sisman. 742-749 [doi]

Cross-Dialect Text-to-Speech In Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BertKazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari. 750-757 [doi]

Leveraging Diverse Semantic-Based Audio Pretrained Models for Singing Voice ConversionXueyao Zhang, Zihao Fang, Yicheng Gu, Haopeng Chen, Lexiao Zou, Junan Zhang, Liumeng Xue, Zhizheng Wu 0001. 758-765 [doi]

TTSDS - Text-to-Speech Distribution ScoreChristoph Minixhofer, Ondrej Klejch, Peter Bell 0001. 766-773 [doi]

Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CTRSVDD) Challenge 2024Anmol Guragain, Tianchi Liu 0004, Zihan Pan, Hardik B. Sailor, Qiongqiong Wang. 774-781 [doi]

SVDD 2024: The Inaugural Singing Voice Deepfake Detection ChallengeYou Zhang 0001, Yongyi Zang, Jiatong Shi, Ryuichi Yamamoto, Tomoki Toda, Zhiyao Duan. 782-787 [doi]

XWSB: A Blend System Utilizing XLS-R and Wavlm With SLS Classifier Detection System for SVDD 2024 ChallengeQishan Zhang, Shuangbing Wen, Fangke Yan, Tao Hu, Jun Li. 788-794 [doi]

Integrating Self-Supervised Pre-Training With Adversarial Learning for Synthesized Song DetectionYankai Wang, Yuxuan Du, Dejun Zhang, Rong Zheng, Jing Deng. 795-802 [doi]

The Voicemos Challenge 2024: Beyond Speech Quality PredictionWen-Chin Huang, Szu-Wei Fu, Erica Cooper, Ryandhimas E. Zezario, Tomoki Toda, Hsin-Min Wang, Junichi Yamagishi, Yu Tsao 0001. 803-810 [doi]

Pitch-and-Spectrum-Aware Singing Quality Assessment with Bias Correction and Model FusionYu-Fei Shi, Yang Ai, Ye-Xin Lu, Hui-Peng Du, Zhen-Hua Ling. 811-817 [doi]

The T05 System for the voicemos challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic SpeechKaito Baba, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari. 818-824 [doi]

Automated Speaking Assessment of Conversation Tests with Novel Graph-Based Modeling on Spoken Response CoherenceJiun-Ting Li, Bi-Cheng Yan, Tien-Hong Lo, Yi-Cheng Wang, Yung-Chang Hsu, Berlin Chen. 825-832 [doi]

Conditional Label Smoothing For LLM-Based Data Augmentation in Medical Text ClassificationLuca Becker, Philip Pracht, Peter Sertdal, Jil Uboreck, Alexander Bendel, Rainer Martin. 833-840 [doi]

Plan, Generate and Optimize: Extending Large Language Models for Dialogue Systems Via Prompt-Based Collaborativec MethodMengfei Guo, Si Chen, Yi Huang, Junlan Feng. 841-848 [doi]

Taming NLU Noise: Student-Teacher Learning for Robust Dialogue PolicyMahdin Rohmatillah, Jen-Tzung Chien. 849-856 [doi]

Heightceleb - An Enrichment of Voxceleb Dataset With Speaker Height InformationStanislaw Kacprzak, Konrad Kowalczyk. 857-862 [doi]

ESPnet-EZ: Python-Only ESPnet For Easy Fine-Tuning And IntegrationMasao Someki, KwangHee Choi, Siddhant Arora, William Chen, Samuele Cornell, Jionghao Han, Yifan Peng, Jiatong Shi, Vaibhav Srivastav, Shinji Watanabe 0001. 863-870 [doi]

Spoken Stereoset: on Evaluating Social Bias Toward Speaker in Speech Large Language ModelsYi-Cheng Lin, Wei-Chih Chen, Hung-yi Lee. 871-878 [doi]

Amphion: an Open-Source Audio, Music, and Speech Generation ToolkitXueyao Zhang, Liumeng Xue, Yicheng Gu, Yuancheng Wang, Jiaqi Li, Haorui He, Chaoren Wang, Songting Liu, Xi Chen, Junan Zhang, Zihao Fang, Haopeng Chen, Tze Ying Tang, Lexiao Zou, Mingxuan Wang, Jun Han, Kai Chen, Haizhou Li 0001, Zhizheng Wu 0001. 879-884 [doi]

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset For Large-Scale Speech GenerationHaorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu 0001. 885-890 [doi]

Floras 50: A Massively Multilingual Multitask Benchmark for Long-Form Conversational SpeechWilliam Chen, Brian Yan, Chih-Chen Chen, Shinji Watanabe 0001. 891-898 [doi]

Massively Multilingual Forced Aligner Leveraging Self-Supervised Discrete UnitsHirofumi Inaguma, Ilia Kulikov, Zhaoheng Ni, Sravya Popuri, Paden Tomasello. 899-905 [doi]

Speech Recognition For Analysis of Police Radio CommunicationTejes Srivastava, Ju-Chieh Chou, Priyank Shroff, Karen Livescu, Christopher Graziul. 906-912 [doi]

Large Language Models as User-Agents For Evaluating Task-Oriented-Dialogue SystemsTaaha Kazi, Ruiliang Lyu, Sizhe Zhou, Dilek Hakkani-Tür, Gokhan Tur. 913-920 [doi]

DFADD: The Diffusion and Flow-Matching Based Audio Deepfake DatasetJiawei Du, I-Ming Lin, I-Hsiang Chiu, Xuanjun Chen, Haibin Wu, Wenze Ren, Yu Tsao 0001, Hung-yi Lee, Jyh-Shing Roger Jang. 921-928 [doi]

SPMIS: An Investigation of Synthetic Spoken Misinformation DetectionPeizhuo Liu, Li Wang, Renqiang He, Haorui He, Lei Wang, Huadi Zheng, Jie Shi, Tong Xiao, Zhizheng Wu 0001. 929-936 [doi]

Self-Supervised Speech Models For Word-Level Stuttered Speech DetectionYi-Jen Shih, Zoi Gkalitsiou, Alexandros G. Dimakis, David Harwath. 937-944 [doi]

Enhancing Automatic Speech Assessment Leveraging Heterogeneous Features and Soft Labels For Ordinal ClassificationWen-Hsuan Peng, Sally Chen, Berlin Chen. 945-952 [doi]

Speech Recognition-Based Feature Extraction For Enhanced Automatic Severity Classification in Dysarthric SpeechYerin Choi, Jeehyun Lee 0004, Myoung-Wan Koo. 953-960 [doi]

Efficient Training of Self-Supervised Speech Foundation Models on a Compute BudgetAndy T. Liu, Yi-Cheng Lin, Haibin Wu, Stefan Winkler 0001, Hung-yi Lee. 961-968 [doi]

Improving Anomalous Sound Detection Via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio ModelsXinhu Zheng, Anbai Jiang, Bing Han, Yanmin Qian, Pingyi Fan, Jia Liu 0001, Wei-Qiang Zhang 0001. 969-974 [doi]

Exploring ASR-Based WAV2VEC2 for Automated Speech Disorder Assessment: Insights and AnalysisTuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard. 975-982 [doi]

Hierarchical Multi-Path and Multi-Model Selection For Fake Speech DetectionChang Feng, Yiyang Zhao, Guangzhi Sun, Zehua Chen, Shuai Wang 0016, Chao Zhang 0031, Mingxing Xu, Thomas Fang Zheng. 983-990 [doi]

Semi-Supervised Learning for Robust Speech EvaluationHuayun Zhang, Jeremy H. M. Wong, Geyu Lin, Nancy F. Chen. 991-998 [doi]

GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-Shot Keyword SpottingPai Zhu, Jacob W. Bartel, Dhruuv Agarwal, Kurt Partridge, Hyun-Jin Park, Quan Wang. 999-1006 [doi]

A Simple HMM with Self-Supervised Representations for Phone SegmentationGene-Ping Yang, Hao Tang 0002. 1007-1014 [doi]

DASS: Distilled Audio State Space Models are Stronger and More Duration-Scalable LearnersSaurabhchand Bhati, Yuan Gong 0001, Leonid Karlinsky, Hilde Kuehne, Rogério Feris, James R. Glass. 1015-1022 [doi]

Rand: Robustness Aware Norm Decay for Quantized Neural NetworksDavid Qiu, David Rim, Shaojin Ding, Oleg Rybakov, Yanzhang He. 1023-1030 [doi]

SWIM: Short-Window CNN Integrated With Mamba for EEG-Based Auditory Spatial Attention DecodingZiyang Zhang, Andrew Thwaites, Alexandra Woolgar, Brian Moore, Chao Zhang 0031. 1031-1038 [doi]

Stutter-Solver: End-To-End Multi-Lingual Dysfluency DetectionXuanru Zhou, Cheol Jun Cho, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Boon Lead Tee, Maria Luisa Gorno-Tempini, Jiachen Lian, Gopala Anumanchipalli. 1039-1046 [doi]

Domain Adaption and Unified Knowledge Base Motivate Better Retrieval Models in Dialog Systems With RAGHuadong Lin, Yirong Chen, Wenyu Tao, Mingyu Chen, Xiangmin Xu, Xiaofen Xing. 1047-1052 [doi]

SSAMBA: Self-Supervised Audio Representation Learning With Mamba State Space ModelSiavash Shams, Sukru Samet Dindar, Xilin Jiang, Nima Mesgarani. 1053-1059 [doi]

Speech-Copilot: Leveraging Large Language Models for Speech Processing Via Task Decomposition, Modularization, and Program GenerationChun-Yi Kuan, Chih-Kai Yang, Wei-Ping Huang, Ke-Han Lu, Hung-yi Lee. 1060-1067 [doi]

CTC-GMM: CTC Guided Modality Matching For Fast and Accurate Streaming Speech TranslationRui Zhao 0017, Jinyu Li 0001, Ruchao Fan, Matt Post. 1068-1075 [doi]

Long-Form End-To-End Speech Translation VIA Latent Alignment SegmentationPeter Polák, Ondrej Bojar. 1076-1082 [doi]

Confidence Estimation For LLM-Based Dialogue State TrackingYi-Jyun Sun, Suvodip Dey, Dilek Hakkani-Tür, Gokhan Tur. 1083-1090 [doi]

The 2nd Futuredial Challenge: Dialog Systems With Retrieval Augmented Generation (Futuredial-RAG)Yucheng Cai, Si Chen, Yuxuan Wu, Yi Huang, Junlan Feng, Zhijian Ou. 1091-1098 [doi]

Zero-Shot Audio Topic Reranking Using Large Language ModelsMengjie Qian, Rao Ma, Adian Liusie, Erfan Loweimi, Kate M. Knill, Mark J. F. Gales. 1099-1106 [doi]

Clean Label Attacks Against SLU SystemsHenry Li Xinyuan, Sonal Joshi, Thomas Thebaud, Jesús Villalba 0001, Najim Dehak, Sanjeev Khudanpur. 1107-1114 [doi]

WHISMA: A Speech-LLM to Perform Zero-Shot Spoken Language UnderstandingMohan Li, Cong-Thanh Do, Simon Keizer, Youmna Farag, Svetlana Stoyanchev, Rama Doddipatla. 1115-1122 [doi]

Improving Transducer-Based Spoken Language Understanding With Self-Conditioned CTC and Knowledge TransferVishal Sunder, Eric Fosler-Lussier. 1123-1130 [doi]

Self-Supervised Syllable Discovery Based on Speaker-Disentangled HubertRyota Komatsu, Takahiro Shinozaki. 1131-1136 [doi]

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify And Understand Speaker in Spoken DialogueJunkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf. 1137-1143 [doi]

Enhancing Open-Set Speaker Identification Through Rapid Tuning With Speaker Reciprocal Points and Negative SampleZhiyong Chen, Zhiqi Ai, Xinnuo Li, Shugong Xu. 1144-1149 [doi]

Spoofing-Aware Speaker Verification Robust Against Domain and Channel MismatchesChang Zeng, Xiaoxiao Miao, Xin Wang 0037, Erica Cooper, Junichi Yamagishi. 1150-1157 [doi]

Adversarial Purification For Speaker Verification By Two-Stage Diffusion ModelsYibo Bai, Xiao-lei Zhang, Xuelong Li. 1158-1164 [doi]

Measuring Sound Symbolism In Audio-Visual ModelsWei-Cheng Tseng, Yi-Jen Shih, David Harwath, Raymond Mooney. 1165-1172 [doi]

Meta-Learning Approaches For Improving Detection of Unseen Speech DeepfakesIvan Kukanov, Janne Laakkonen, Tomi Kinnunen, Ville Hautamäki. 1173-1178 [doi]

On The Generation and Removal of Speaker Adversarial Perturbation For Voice-Privacy ProtectionChenyang Guo, Liping Chen, Zhuhai Li, Kong-Aik Lee, Zhen-Hua Ling, Wu Guo. 1179-1184 [doi]

Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-SpoofingTianchi Liu 0004, Ivan Kukanov, Zihan Pan, Qiongqiong Wang, Hardik B. Sailor, Kong-Aik Lee. 1185-1192 [doi]

Enhancing Low-Resource Spoken Language Identification Via Cross-Modality Retrieval and Cross-Lingual Text-to-Speech SynthesisMin Ma, Gary Wang, Kyle Kastner, Isaac Caswell, Charles Yoon, Andrew Rosenberg. 1193-1200 [doi]

Recursive Attentive Pooling For Extracting Speaker Embeddings From Multi-Speaker RecordingsShota Horiguchi, Atsushi Ando, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato, Naohiro Tawara, Marc Delcroix. 1201-1208 [doi]

PDAF: A Phonetic Debiasing Attention Framework For Speaker VerificationMassa Baali, Abdulhamid Aldoobi, Hira Dhamyal, Rita Singh, Bhiksha Raj. 1209-1216 [doi]

Inx-Speakerhub: A 2000-Hour Indian Multiligual Speaker Verification CorpusNarla John Metilda Sagaya Mary, S. Umesh. 1217-1223 [doi]

Resource-Efficient Adaptation of Speech Foundation Models for Multi-Speaker ASRWeiqing Wang, Kunal Dhawan, Taejin Park, Krishna C. Puvvada, Ivan Medennikov, Somshubra Majumdar, He Huang 0012, Jagadeesh Balam, Boris Ginsburg. 1224-1231 [doi]

Exploring Self-Supervised Representations for Text-Dependent Speaker VerificationSreekanth Sankala. 1232-1239 [doi]

Distillation-Based Feature Extraction Algorithm For Source Speaker VerificationXinlei Ma, Wenhuan Lu, Ruiteng Zhang, Junhai Xu, Xugang Lu, Jianguo Wei. 1240-1246 [doi]

Speaker Contrastive Learning For Source Speaker TracingQing Wang, Hongmei Guo, Jian Kang, Mengjie Du, Jie Li, Xiao-lei Zhang, Lei Xie. 1247-1253 [doi]

The Database and Benchmark For the Source Speaker Tracing Challenge 2024Ze Li, Yuke Lin, Tian Yao, Hongbin Suo, Pengyuan Zhang, Yanzhen Ren, Zexin Cai, Hiromitsu Nishizaki, Ming Li 0026. 1254-1261 [doi]

runs on WebDSL