24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023

researchr

You are not signed in
Sign in
Sign up

Naomi Harte, Julie Carson-Berndsen, Gareth Jones, editors, 24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023. ISCA, 2023. [doi]

Conference: interspeech2023

Abstract is missing.

Bridging Speech Science and Technology - Now and Into the FutureShrikanth Narayanan. 1 [doi]

Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented NetworksJianrong Wang, Yaxin Zhao, Li Liu, Tianyi Xu, Qi Li, Sen Li. 2-6 [doi]

Speech Synthesis with Self-Supervisedly Learnt Prosodic RepresentationsZhaoci Liu, Zhen-Hua Ling, Ya-Jun Hu, Jia Pan, Jin-wei Wang, Yun-Di Wu. 7-11 [doi]

EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech SynthesisHaobin Tang, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 12-16 [doi]

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter CorpusDetai Xin, Shinnosuke Takamichi, Ai Morimatsu, Hiroshi Saruwatari. 17-21 [doi]

Explicit Intensity Control for Accented Text-to-speechRui Liu 0008, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li 0001. 22-26 [doi]

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speechGuangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura Vecino, Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime Lorenzo-Trueba. 27-31 [doi]

Modular Speech-to-Text Translation for Zero-Shot Cross-Modal TransferPaul-Ambroise Duquenne, Holger Schwenk, Benoît Sagot. 32-36 [doi]

Improving Isochronous Machine Translation with Target Factors and Auxiliary CountersProyag Pal, Brian Thompson 0001, Yogesh Virkar, Prashant Mathur, Alexandra Chronopoulou, Marcello Federico. 37-41 [doi]

StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech TranslationKun Song, Yi Ren 0006, Yi Lei, Chunfeng Wang, Kun Wei, Lei Xie 0001, Xiang Yin 0006, Zejun Ma. 42-46 [doi]

Joint Speech Translation and Named Entity RecognitionMarco Gaido, Sara Papi, Matteo Negri, Marco Turchi. 47-51 [doi]

Analysis of Acoustic information in End-to-End Spoken Language TranslationGerard Sant, Carlos Escolano. 52-56 [doi]

LAMASSU: A Streaming Language-Agnostic Multilingual Speech Recognition and Translation Model Using Neural TransducersPeidong Wang, Eric Sun, Jian Xue, Yu Wu 0012, Long Zhou, Yashesh Gaur, Shujie Liu 0001, Jinyu Li 0001. 57-61 [doi]

DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech ModelsYifan Peng, Yui Sudo, Muhammad Shakeel 0001, Shinji Watanabe 0001. 62-66 [doi]

Automatic Data Augmentation for Domain Adapted Fine-Tuning of Self-Supervised Speech RepresentationsSalah Zaiem, Titouan Parcollet, Slim Essid. 67-71 [doi]

Dual Acoustic Linguistic Self-supervised Representation Learning for Cross-Domain Speech RecognitionZhao Yang, Dianwen Ng, Chong Zhang 0003, Xiao Fu, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Eng Siong Chng, Bin Ma 0001, Jizhong Zhao. 72-76 [doi]

O-1: Self-training with Oracle and 1-best HypothesisMurali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi. 77-81 [doi]

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple TargetsZiyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen 0001. 82-86 [doi]

Comparing Self-Supervised Pre-Training and Semi-Supervised Training for Speech Recognition in Languages with Weak Language ModelsLéa-Marie Lam-Yee-Mui, Lucas Ondel Yang, Ondrej Klejch. 87-91 [doi]

Chinese EFL Learners' Perception of English Prosodic FocusXinya Zhang, Ying Chen. 92-96 [doi]

Pitch Accent Variation and the Interpretation of Rising and Falling Intonation in American EnglishThomas Sostarics, Jennifer Cole 0001. 97-101 [doi]

Tonal coarticulation as a cue for upcoming prosodic boundaryJianjing Kuang, May Pik Yu Chan, Nari Rhee. 102-106 [doi]

Alignment of Beat Gestures and Prosodic Prominence in GermanSophie Repp, Lara Muhtz, Johannes Heim. 107-111 [doi]

Creak Prevalence and Prosodic Context in Australian EnglishHannah White, Joshua Penney, Andy Gibson, Anita Szakay, Felicity Cox. 112-116 [doi]

Speech reduction: position within French prosodic structureKübra Bodur, Roxane Bertrand, James Sneed German, Stéphane Rauzy, Corinne Fredouille, Christine Meunier. 117-121 [doi]

Transvelar Nasal Coupling Contributing to Speaker Characteristics in Non-nasal VowelsZiyu Zhu, Yujie Chi, Zhao Zhang, Kiyoshi Honda, Jianguo Wei. 122-126 [doi]

Speech Synthesis from Articulatory Movements Recorded by Real-time MRIYuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada. 127-131 [doi]

The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNNZheng Yuan 0006, Aldo Pastore, Dorina De Jong, Hao Xu, Luciano Fadiga, Alessandro D'Ausilio. 132-136 [doi]

Did you see that? Exploring the role of vision in the development of consonant feature contrasts in children with cochlear implantsJames J. Mahshie, Michael Larsen. 137-140 [doi]

Automatic assessments of dysarthric speech: the usability of acoustic-phonetic featuresLoes van Bemmel, Chiara Pesenti, Xue Wei, Helmer Strik. 141-145 [doi]

Classification of Multi-class Vowels and Fricatives From Patients Having Amyotrophic Lateral Sclerosis with Varied Levels of Dysarthria SeverityChowdam Venkata Thirumala Kumar, Tanuka Bhattacharjee, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh. 146-150 [doi]

Parameter-efficient Dysarthric Speech Recognition Using Adapter Fusion and Householder TransformationJinzi Qi, Hugo Van Hamme. 151-155 [doi]

Few-shot Dysarthric Speech Recognition with Text-to-Speech Data AugmentationEnno Hermann, Mathew Magimai-Doss. 156-160 [doi]

Latent Phrase Matching for Dysarthric SpeechDianna Yee, Colin Lea, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, Leah Findlater. 161-165 [doi]

Speech Intelligibility Assessment of Dysarthric Speech by using Goodness of Pronunciation with Uncertainty QuantificationEun Jung Yeo, KwangHee Choi, SunHee Kim, Minhwa Chung. 166-170 [doi]

CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech CodingYouqiang Zheng, Li Xiao, Weiping Tu, Yuhong Yang 0001, Xinmeng Xu. 171-175 [doi]

Target Speech Extraction with Conditional Diffusion ModelNaoyuki Kamo, Marc Delcroix, Tomohiro Nakatani. 176-180 [doi]

Towards Fully Quantized Neural Networks For Speech EnhancementElad Cohen, Hai Victor Habi, Arnon Netzer. 181-185 [doi]

Complex Image Generation SwinTransformer Network for Audio DenoisingYoushan Zhang, Jialu Li. 186-190 [doi]

Using Text Injection to Improve Recognition of Personal Identifiers in SpeechYochai Blau, Rohan Agrawal, Lior Madmony, Gary Wang, Andrew Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beryozkin, Parisa Haghani, Bhuvana Ramabhadran. 191-195 [doi]

Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish modelTamás Grósz, Yaroslav Getman, Ragheb Al-Ghezi, Aku Rouhe, Mikko Kurimo. 196-200 [doi]

Transformer-based Speech Recognition Models for Oral History Archives in English, German, and CzechJan Lehecka, Jan Svec, Josef V. Psutka, Pavel Ircing. 201-205 [doi]

Iteratively Improving Speech Recognition and Voice ConversionMayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe. 206-210 [doi]

LABERT: A Combination of Local Aggregation and Self-Supervised Speech Representation Learning for Detecting Informative Hidden Units in Low-Resource ASR SystemsKavan Fatehi, Ayse Küçükyilmaz. 211-215 [doi]

TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech RecognitionHongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie 0001, Jie Liu. 216-220 [doi]

Dual-Mode NAM: Effective Top-K Context Injection for End-to-End ASRZelin Wu, Tsendsuren Munkhdalai, Pat Rondon, Golan Pundak, Khe Chai Sim, Christopher Li. 221-225 [doi]

GhostRNN: Reducing State Redundancy in RNN with Cheap OperationsHang Zhou, Xiaoxu Zheng, Yunhe Wang 0001, Michael Bi Mi, Deyi Xiong, Kai Han 0002. 226-230 [doi]

Task-Agnostic Structured Pruning of Speech Representation ModelsHaoyu Wang, Siyuan Wang, Wei-Qiang Zhang 0001, Hongbin Suo, Yulong Wan. 231-235 [doi]

Factual Consistency Oriented Speech RecognitionNaoyuki Kanda, Takuya Yoshioka, Yang Liu. 236-240 [doi]

Multi-Head State Space Model for Speech RecognitionYassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales. 241-245 [doi]

Cascaded Multi-task Adaptive Learning Based on Neural Architecture SearchYingying Gao, Shilei Zhang, Zihao Cui, Chao Deng, Junlan Feng. 246-250 [doi]

Probing Self-supervised Speech Models for Phonetic and Phonemic Information: A Case Study in AspirationKinan Martin, Jon Gauthier, Canaan Breiss, Roger Levy. 251-255 [doi]

Selective Biasing with Trie-based Contextual Adapters for Personalised Speech Recognition using Neural TransducersPhilip Harding, Sibo Tong, Simon Wiesler. 256-260 [doi]

Robust Prototype Learning for Anomalous Sound DetectionXiao-Min Zeng, Yan Song 0001, Ian McLoughlin 0001, Lin Liu 0017, Li-Rong Dai 0001. 261-265 [doi]

A multimodal prototypical approach for unsupervised sound classificationSaksham Singh Kushwaha, Magdalena Fuentes. 266-270 [doi]

Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order SpectrogramsPenghui Wen, Kun Hu, Wenxi Yue, Sen Zhang, Wanlei Zhou 0001, Zhiyong Wang 0001. 271-275 [doi]

Adapting Language-Audio Models as Few-Shot Audio LearnersJinhua Liang, Xubo Liu, Haohe Liu, Huy Phan, Emmanouil Benetos, Mark D. Plumbley, Wenwu Wang 0001. 276-280 [doi]

TFECN: Time-Frequency Enhanced ConvNet for Audio ClassificationMengwei Wang, Zhe Yang. 281-285 [doi]

Resolution Consistency Training on Time-Frequency Domain for Semi-Supervised Sound Event DetectionWon-Gook Choi, Joon-Hyuk Chang. 286-290 [doi]

Fine-tuning Audio Spectrogram Transformer with Task-aware Adapters for Sound Event DetectionKang Li, Yan Song 0001, Ian McLoughlin 0001, Lin Liu 0017, Jin Li, Li-Rong Dai 0001. 291-295 [doi]

Small Footprint Multi-channel Network for Keyword Spotting with Centroid Based AwarenessDianwen Ng, Yang Xiao, Jia Qi Yip, Zhao Yang, Biao Tian, Qiang Fu, Eng Siong Chng, Bin Ma 0001. 296-300 [doi]

Few-shot Class-incremental Audio Classification Using Adaptively-refined PrototypesWei Xie, Yanxiong Li, Qianhua He, Wenchang Cao, Tuomas Virtanen. 301-305 [doi]

Interpretable Latent Space Using Space-Filling Curves for Phonetic Analysis in Voice ConversionMohammad Hassan Vali, Tom Bäckström. 306-310 [doi]

Topological Data Analysis for Speech ProcessingEduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey I. Nikolenko, Evgeny Burnaev. 311-315 [doi]

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking DistillationKangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim. 316-320 [doi]

Personalized Acoustic Scene Classification in Ultra-low Power Embedded Devices Using Privacy-preserving Data AugmentationTimm Koppelmann, Semih Agcaer, Rainer Martin 0001. 321-325 [doi]

Background Domain Switch: A Novel Data Augmentation Technique for Robust Sound Event DetectionWei-Cheng Lin, Luca Bondi, Shabnam Ghaffarzadegan. 326-330 [doi]

Joint Prediction of Audio Event and Annoyance Rating in an Urban Soundscape by Hierarchical Graph Representation LearningYuanbo Hou, Siyang Song, Cheng Luo, Andrew Mitchell, Qiaoqiao Ren, Weicheng Xie 0001, Jian Kang 0002, Wenwu Wang 0001, Dick Botteldooren. 331-335 [doi]

Anomalous Sound Detection Using Self-Attention-Based Frequency Pattern Analysis of Machine SoundsHejing Zhang, Jian Guan 0001, Qiaoxi Zhu, Feiyang Xiao, Youde Liu. 336-340 [doi]

Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary CaptionsYifei Xin, Yuexian Zou. 341-345 [doi]

Differential Privacy enabled Dementia Classification: An Exploration of the Privacy-Accuracy Trade-off in Speech Signal DataSuhas BN, Sarah Rajtmajer, Saeed Abdullah. 346-350 [doi]

Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-SpeechShijun Wang, Jón Guðnason, Damian Borth. 351-355 [doi]

Towards Multi-Lingual Audio Question AnsweringSwarup Ranjan Behera, Pailla Balakrishna Reddy, Achyut Mani Tripathi, Megavath Bharadwaj Rathod, Tejesh Karavadi. 356-360 [doi]

Diacritic Recognition Performance in Arabic ASRHanan Aldarmaki, Ahmad Ghannam. 361-365 [doi]

Personalization for BERT-based Discriminative Speech Recognition RescoringJari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko. 366-370 [doi]

On the N-gram Approximation of Pre-trained Language ModelsAravind Krishnan, Jesujoba O. Alabi, Dietrich Klakow. 371-375 [doi]

Record Deduplication for Entity Distribution Modeling in ASR TranscriptsTianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu. 376-380 [doi]

Learning When to Trust Which Teacher for Weakly Supervised ASRAakriti Agrawal, Milind Rao, Anit Kumar Sahu, Gopinath Chennupati, Andreas Stolcke. 381-385 [doi]

Text-only Domain Adaptation using Unified Speech-Text Representation in TransducerLu Huang, Boyu Li, Jun Zhang 0066, Lu Lu 0015, Zejun Ma. 386-390 [doi]

Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech ModelPuyuan Peng, Shang-wen Li 0001, Okko Räsänen, Abdelrahman Mohamed, David Harwath. 391-395 [doi]

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task GeneralizationPuyuan Peng, Brian Yan, Shinji Watanabe 0001, David Harwath. 396-400 [doi]

Progress and Prospects for Spoken Language Technology: Results from Five Sexennial SurveysRoger K. Moore, Ricard Marxer. 401-405 [doi]

Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned PoolingRamon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater. 406-410 [doi]

CASA-ASR: Context-Aware Speaker-Attributed ASRMohan Shi, Zhihao Du, Qian Chen 0003, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang 0042, Li-Rong Dai 0001. 411-415 [doi]

Unsupervised Learning of Discrete Latent Representations with Data-Adaptive Dimensionality from Continuous Speech StreamsShun Takahashi, Sakriani Sakti. 416-420 [doi]

AD-TUNING: An Adaptive CHILD-TUNING Approach to Efficient Hyperparameter Optimization of Child Networks for Speech Processing Tasks in the SUPERB BenchmarkGaobin Yang, Jun Du, Maokui He, Shutong Niu, Baoxiang Li, Jiakui Li, Chin-Hui Lee 0001. 421-425 [doi]

Distilling knowledge from Gaussian process teacher to neural network studentJeremy H. M. Wong, Huayun Zhang, Nancy F. Chen. 426-430 [doi]

Segmental SpeechCLIP: Utilizing Pretrained Image-text Models for Audio-Visual LearningSaurabhchand Bhati, Jesús Villalba 0001, Laureano Moro-Velázquez, Thomas Thebaud, Najim Dehak. 431-435 [doi]

Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and SwahiliChristiaan Jacobs, Nathanaël Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper. 436-440 [doi]

Mitigating Catastrophic Forgetting for Few-Shot Spoken Word Classification Through Meta-LearningRuan van der Merwe, Herman Kamper. 441-445 [doi]

Online Punctuation Restoration using ELECTRA Model for streaming ASR SystemsMartin Polácek, Petr Cerva, Jindrich Zdánský, Lenka Weingartová. 446-450 [doi]

Language Agnostic Data-Driven Inverse Text NormalizationSzu-Jui Chen, Debjyoti Paul, Yutong Pang, Peng Su, Xuedong Zhang. 451-455 [doi]

How to Estimate Model Transferability of Pre-Trained Speech Models?Zih-Ching Chen, Chao-Han Huck Yang, Bo Li 0028, Yu Zhang 0033, Nanxin Chen, Shuo-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath. 456-460 [doi]

Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive ModelMana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, Saki Mizuno, Nobukatsu Hojo. 461-465 [doi]

NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive LearningKamer Ali Yuksel, Thiago Castro Ferreira, Golara Javadi, Mohamed Al-Badrashiny, Ahmet Gunduz. 466-470 [doi]

Scaling Laws for Discriminative Speech Recognition Rescoring ModelsYile Gu, Prashanth Gurunath Shivakumar, Jari Kolehmainen, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko. 471-475 [doi]

Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech RecognitionHong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao. 476-480 [doi]

Memory Augmented Lookup Dictionary Based Language Modeling for Automatic Speech RecognitionYukun Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang 0002. 481-485 [doi]

Memory Network-Based End-To-End Neural ES-KMeans for Improved Word SegmentationYu Iwamoto, Takahiro Shinozaki. 486-490 [doi]

Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity EstimationYui Sudo, Kazuya Hata, Kazuhiro Nakadai. 491-495 [doi]

Lightweight and Efficient Spoken Language Identification of Long-form AudioWinstead Zhu, Md. Iftekhar Tanveer, Yang Janet Liu, Seye Ojumu, Rosie Jones. 496-500 [doi]

End to End Spoken Language Diarization with Wav2vec EmbeddingsJagabandhu Mishra, Jayadev N. Patil, Amartya Chowdhury, S. R. Mahadeva Prasanna. 501-505 [doi]

Efficient Spoken Language Recognition via Multilabel ClassificationOriol Nieto, Zeyu Jin, Franck Dernoncourt, Justin Salamon. 506-510 [doi]

Description and Analysis of ABC Submission to NIST LRE 2022Pavel Matejka, Anna Silnova, Josef Slavícek, Ladislav Mosner, Oldrich Plchot, Michal Klco, Junyi Peng, Themos Stafylakis, Lukás Burget. 511-515 [doi]

Exploring the Impact of Pretrained Models and Web-Scraped Data for the 2022 NIST Language Recognition EvaluationTanel Alumäe, Kunnar Kukk, Viet Bac Le, Claude Barras, Abdel Messaoudi, Waad Ben Kheder. 516-520 [doi]

Advances in Language Recognition in Low Resource African Languages: The JHU-MIT Submission for NIST LRE22Jesús Villalba 0001, Jonas Borgstrom, Maliha Jahan, Saurabh Kataria, Leibny Paola García, Pedro A. Torres-Carrasquillo, Najim Dehak. 521-525 [doi]

DeePMOS: Deep Posterior Mean-Opinion-Score of SpeechXinyu Liang, Fredrik Cumlin, Christian Schüldt, Saikat Chatterjee. 526-530 [doi]

The Role of Formant and Excitation Source Features in Perceived Naturalness of Low Resource Tribal Language TTS: An Empirical StudyAshwini Dasare, Pradyoth Hegde, Supritha M. Shetty, Deepak K. T.. 531-535 [doi]

A no-reference speech quality assessment method based on neural network with densely connected convolutional architectureWuxuan Gong, Jing Wang, Yitong Liu, Hongwen Yang. 536-540 [doi]

Probing Speech Quality Information in ASR SystemsBao Thang Ta, Minh Tu Le, Nhat Minh Le, Van Hai Do. 541-545 [doi]

Preference-based training framework for automatic speech quality assessment using deep neural networkCheng-Hung Hu, Yusuke Yasuda, Tomoki Toda. 546-550 [doi]

Crowdsourced Data Validation for ASR TrainingWannaphong Phatthiyaphaibun, Chompakorn Chaksangchaichot, Thanawin Rakthanmanon, Ekapol Chuangsuwanich, Sarana Nutanong. 551-555 [doi]

Re-investigating the Efficient Transfer Learning of Speech Foundation Model using Feature Fusion MethodsZhouyuan Huo, Khe Chai Sim, Dongseong Hwang, Tsendsuren Munkhdalai, Tara N. Sainath, Pedro Moreno Mengibar. 556-560 [doi]

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial TrainingGege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan, Rong Zhang, Hui Xue 0001. 561-565 [doi]

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech RecognitionZhi-Hao Lai, Tian-Hao Zhang, Qi Liu 0041, Xinyuan Qian, Li-Fang Wei, Feng Chen 0040, Song-Lu Chen, Xu-Cheng Yin. 566-570 [doi]

Transductive Feature Space Regularization for Few-shot Bioacoustic Event DetectionYizhou Tan, Haojun Ai, Shengchen Li, Feng Zhang. 571-575 [doi]

Incorporating L2 Phonemes Using Articulatory Features for Robust Speech RecognitionJisung Wang, Haram Lee, Myungwoo Oh. 576-580 [doi]

On the (In)Efficiency of Acoustic Feature Extractors for Self-Supervised Speech Representation LearningTitouan Parcollet, Shucong Zhang, Rogier C. van Dalen, Alberto Gil C. P. Ramos, Sourav Bhattacharya. 581-585 [doi]

Phonemic competition in end-to-end ASR modelsLouis ten Bosch, Martijn Bentum, Lou Boves. 586-590 [doi]

Automatic speaker recognition with variation across vocal conditions: a controlled experiment with implications for forensicsVincent Hughes, Jessica Wormald, Paul Foulkes, Philip Harrison, Finnian Kelly, David van der Vloed, Poppy Welch, Chenzi Xu. 591-595 [doi]

Exploring Graph Theory Methods For the Analysis of Pronunciation Variation in Spontaneous SpeechBernhard C. Geiger, Barbara Schuppler. 596-600 [doi]

Automatic Speaker Recognition performance with matched and mismatched female bilingual speech dataBryony Nuttall, Philip Harrison, Vincent Hughes. 601-605 [doi]

FACTSpeech: Speaking a Foreign Language Pronunciation Using Only Your Native CharactersHongsun Yang, Ji-Hoon Kim, Yooncheol Ju, Ilhwan Kim, Byeong-Yeol Kim, Shukjae Choi, Hyung Yong Kim. 606-610 [doi]

Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language ModelHoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae Min Kim. 611-615 [doi]

DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-SpeechSen Liu, Yiwei Guo, Chenpeng Du, Xie Chen 0001, Kai Yu 0004. 616-620 [doi]

Generating Multilingual Gender-Ambiguous Text-to-Speech VoicesKonstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Georgios Vardaxoglou, Panos Kakoulidis, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis, Spyros Raptis. 621-625 [doi]

RAD-MMM: Multilingual Multiaccented Multispeaker Text To SpeechRohan Badlani, Rafael Valle, Kevin J. Shih, João Felipe Santos, Siddharth Gururani, Bryan Catanzaro. 626-630 [doi]

Multilingual context-based pronunciation learning for Text-to-SpeechGiulia Comini, Manuel Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo-Trueba. 631-635 [doi]

Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion RecognitionMinh Tran 0004, Yufeng Yin 0002, Mohammad Soleymani 0001. 636-640 [doi]

The Importance of Calibration: Rethinking Confidence and Performance of Speech Multi-label Emotion ClassifiersHuang-Cheng Chou, Lucas Goncalves, Seong-Gyun Leem, Chi-Chun Lee, Carlos Busso. 641-645 [doi]

A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion ModelMohammad Ibrahim Malik, Siddique Latif, Raja Jurdak, Björn W. Schuller. 646-650 [doi]

Privacy Risks in Speech Emotion Recognition: A Systematic Study on Gender Inference AttackBasmah Alsenani, Tanaya Guha, Alessandro Vinciarelli. 651-655 [doi]

Episodic Memory For Domain-Adaptable, Robust Speech Emotion RecognitionJames Tavernor, Matthew Perez, Emily Mower Provost. 656-660 [doi]

Stable Speech Emotion Recognition with Head-k-Pooling LossChaoyue Ding, Jiakui Li, Daoming Zong, Baoxiang Li, Tian-Hao Zhang, Qunyan Zhou. 661-665 [doi]

A Personalised Speech Communication Application for Dysarthric SpeakersMatthew Gibson, Ievgen Karaulov, Oleksii Zhelo, Filip Jurcícek. 666-667 [doi]

Video Multimodal Emotion Recognition System for Real World ApplicationsSun-Kyung Lee 0001, Jong-Hwan Kim. 668-669 [doi]

Promoting Mental Self-Disclosure in a Spoken Dialogue SystemMahdin Rohmatillah, Bobbi Aditya, Li-Jen Yang, Bryan Gautama Ngo, Willianto Sulaiman, Jen-Tzung Chien. 670-671 [doi]

"Select language, modality or put on a mask!" Experiments with Multimodal Emotion RecognitionPawel Bujnowski, Bartlomiej Kuzma, Bartlomiej Paziewski, Jacek Rutkowski, Joanna Marhula, Zuzanna Bordzicka, Piotr Andruszkiewicz. 672-673 [doi]

My Vowels Matter: Formant Automation Tools for Diverse Child SpeechHannah Valentine, Joel MacAuslan, Maria I. Grigos, Marisha Speights. 674-675 [doi]

NEMA: An Ecologically Valid Tool for Assessing Hearing Devices, Advanced Algorithms, and Communication in Diverse Listening EnvironmentsNicky Chong-White, Arun Sebastian, Jorge Mejia. 676-677 [doi]

When Words Speak Just as Loudly as Actions: Virtual Agent Based Remote Health Assessment Integrating What Patients Say with What They DoVikram Ramanarayanan, David Pautler, Lakshmi Arbatti, Abhishek Hosamath, Michael Neumann, Hardik Kothare, Oliver Roesler, Jackson Liscombe, Andrew Cornish, Doug Habberstad, Vanessa Richter, David Fox, David Suendermann-Oeft, Ira Shoulson. 678-679 [doi]

Stuttering Detection ApplicationKowshik Siva Sai Motepalli, Vamshiraghusimha Narasinga, Harsha Pathuri, Hina Khan, Sangeetha Mahesh, Ajish K. Abraham, Anil Kumar Vuppala. 680-681 [doi]

Providing Interpretable Insights for Neurological Speech and Cognitive Disorders from Interactive Serious GamesMario Zusag, Laurin Wagner. 682-683 [doi]

Automated Neural Nursing Assistant (ANNA): An Over-The-Phone System for Cognitive MonitoringJacob C. Solinsky, Raymond L. Finzel, Martin Michalowski, Serguei Pakhomov. 684-685 [doi]

5G-IoT Cloud based Demonstration of Real-Time Audio-Visual Speech Enhancement for Multimodal Hearing-aidsAnkit Gupta 0008, Abhijeet Bishnu, Mandar Gogate, Kia Dashtipour, Tughrul Arslan, Ahsan Adeel, Amir Hussain 0001, Tharmalingam Ratnarajah, Mathini Sellathurai. 686-687 [doi]

Towards Two-point Neuron-inspired Energy-efficient Multimodal Open Master Hearing AidMohsin Raza, Adewale Adetomi, Khubaib Ahmed, Amir Hussain 0001, Tughrul Arslan, Ahsan Adeel. 688-689 [doi]

FC-MTLF: A Fine- and Coarse-grained Multi-Task Learning Framework for Cross-Lingual Spoken Language UnderstandingXuxin Cheng, Wanshi Xu, Ziyu Yao 0001, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou. 690-694 [doi]

C²A-SLU: Cross and Contrastive Attention for Improving ASR Robustness in Spoken Language UnderstandingXuxin Cheng, Ziyu Yao 0001, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou. 695-699 [doi]

Tri-level Joint Natural Language Understanding for Multi-turn Conversational DatasetsHenry Weld, Sijia Hu, Siqu Long, Josiah Poon, Soyeon Caren Han. 700-704 [doi]

Semantic Enrichment Towards Efficient Speech RepresentationsGaëlle Laperrière, Ha Nguyen, Sahar Ghannay, Bassam Jabaian, Yannick Estève. 705-709 [doi]

Tensor decomposition for minimization of E2E SLU model toward on-device processingYosuke Kashiwagi, Siddhant Arora, Hayato Futami, Jessica Huynh, Shih-Lun Wu, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe 0001. 710-714 [doi]

DiffSLU: Knowledge Distillation Based Diffusion Model for Cross-Lingual Spoken Language UnderstandingTianjun Mao, Chenghong Zhang. 715-719 [doi]

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language UnderstandingSiddhant Arora, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe 0001. 720-724 [doi]

Contrastive Learning Based ASR Robust Knowledge Selection For Spoken Dialogue SystemZhiyuan Zhu, Yusheng Liao, Yu Wang 0027, Yunfeng Guan. 725-729 [doi]

Unsupervised Dialogue Topic Segmentation in Hyperdimensional SpaceSeongmin Park, Jinkyu Seo, Jihwa Lee. 730-734 [doi]

An Investigation of the Combination of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language UnderstandingUmberto Cappellazzo, Daniele Falavigna, Alessio Brutti. 735-739 [doi]

Enhancing New Intent Discovery via Robust Neighbor-based Contrastive LearningZhenhe Wu, Xiaoguang Yu, Meng Chen 0006, Liangqing Wu, Jiahao Ji, Zhoujun Li. 740-744 [doi]

Personalized Predictive ASR for Latency Reduction in Voice AssistantsAndreas Schwarz, Di He 0004, Maarten Van Segbroeck, Mohammed Hethnawi, Ariya Rastrow. 745-749 [doi]

Compositional Generalization in Spoken Language UnderstandingAvik Ray, Yilin Shen, Hongxia Jin. 750-754 [doi]

Sampling bias in NLU models: Impact and MitigationZefei Li, Anil Ramakrishna, Anna Rumshisky, Andy Rosenbaum, Saleh Soltan, Rahul Gupta 0001. 755-759 [doi]

5IDER: Unified Query Rewriting for Steering, Intent Carryover, Disfluencies, Entity Carryover and RepairJiarui Lu, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Site Li, Xueyun Zhu, Hong Yu, Murat Akbacak. 760-764 [doi]

Emotion Awareness in Multi-utterance Turn for Improving Emotion Prediction in Multi-Speaker ConversationXiaohan Shi, Xingfeng Li 0001, Tomoki Toda. 765-769 [doi]

WhiSLU: End-to-End Spoken Language Understanding with WhisperMinghan Wang, Yinglu Li, Jiaxin Guo, Xiaosong Qiao, Zongyao Li, Hengchao Shang, Daimeng Wei, Shimin Tao, Min Zhang 0042, Hao Yang 0006. 770-774 [doi]

Biophysically-inspired single-channel speech enhancement in the time domainChuan Wen, Sarah Verhulst. 775-779 [doi]

On-Device Speaker Anonymization of Acoustic Embeddings for ASR based on Flexible Location Gradient Reversal LayerMd Asif Jalal, Pablo Peso Parada, Jisi Zhang, Mete Ozay, Karthikeyan Saravanan, Myoungji Han, Jungin Lee, Seokyeong Jung. 780-784 [doi]

How to Construct Perfect and Worse-than-Coin-Flip Spoofing Countermeasures: A Word of Warning on Shortcut LearningHye-jin Shim, Rosa González Hautamäki, Md. Sahidullah, Tomi Kinnunen. 785-789 [doi]

CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and SpectrogramZhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro. 790-794 [doi]

A Two-stage Progressive Neural Network for Acoustic Echo CancellationZhuangqi Chen, Xianjun Xia, Cheng Chen, Xianke Wang, Yanhong Leng, Li Chen, Roberto Togneri, Yijian Xiao, Piao Ding, Shenyi Song, Pingjian Zhang. 795-799 [doi]

An Intra-BRNN and GB-RVQ Based END-TO-END Neural Audio CodecLinping Xu, Jiawei Jiang, Dejun Zhang, Xianjun Xia, Li Chen, Yijian Xiao, Piao Ding, Shenyi Song, Sixing Yin, Ferdous Sohel. 800-803 [doi]

Real-Time Personalised Speech Enhancement Transformers with Dynamic Cross-attended Speaker RepresentationsShucong Zhang, Malcolm Chadwick, Alberto Gil C. P. Ramos, Titouan Parcollet, Rogier C. van Dalen, Sourav Bhattacharya. 804-808 [doi]

CFTNet: Complex-valued Frequency Transformation Network for Speech EnhancementNursadul Mamun, John H. L. Hansen. 809-813 [doi]

Feature Normalization for Fine-tuning Self-Supervised Models in Speech EnhancementHejung Yang, Hong-Goo Kang. 814-818 [doi]

Multi-mode Neural Speech Coding Based on Deep Generative NetworksWei Xiao, Wenzhe Liu, Meng Wang, Shan Yang, Yupeng Shi, Yuyong Kang, Dan Su 0002, Shidong Shang, Dong Yu 0001. 819-823 [doi]

Streaming Dual-Path Transformer for Speech EnhancementSoo Hyun Bae, Seok Wan Chae, Youngseok Kim, Keunsang Lee, Hyunjin Lim, Lae-Hoon Kim. 824-828 [doi]

Sequence-to-Sequence Multi-Modal Speech In-PaintingMahsa Kadkhodaei Elyaderani, Shahram Shirani. 829-833 [doi]

Hybrid AHS: A Hybrid of Kalman Filter and Deep Learning for Acoustic Howling SuppressionHao Zhang, Meng Yu 0003, Yuzhong Wu, Tao Yu, Dong Yu 0001. 834-838 [doi]

Differentially Private Adapters for Parameter Efficient Acoustic ModelingChun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi. 839-843 [doi]

Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge DistillationRui-Chen Zheng, Yang Ai, Zhen-Hua Ling. 844-848 [doi]

Consonant-emphasis Method Incorporating Robust Consonant-section Detection to Improve Intelligibility of Bone-conducted speechYasufumi Uezu, Sicheng Wang, Teruki Toya, Masashi Unoki. 849-853 [doi]

Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation LossHiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo. 854-858 [doi]

Perceptual Improvement of Deep Neural Network (DNN) Speech Coder Using Parametric and Non-parametric Density ModelsJoon Byun, Seungmin Shin, Jongmo Sung, Seungkwon Beack, Youngcheol Park. 859-863 [doi]

DeFT-AN RT: Real-time Multichannel Speech Enhancement using Dense Frequency-Time Attentive Network and Non-overlapping Synthesis WindowDongheon Lee, Dayun Choi, Jung-Woo Choi. 864-868 [doi]

A More Accurate Internal Language Model Score Estimation for the Hybrid Autoregressive TransducerKyungmin Lee, Haeri Kim, Sichen Jin, Jinhwan Park, Youngho Han. 869-873 [doi]

Attention Gate Between Capsules in Fully Capsule-Network Speech RecognitionKyungmin Lee, Hyeontaek Lim, Munhwan Lee, Hong-Gee Kim. 874-878 [doi]

ML-SUPERB: Multilingual Speech Universal PERformance BenchmarkJiatong Shi, Dan Berrebbi, William Chen, En-Pei Hu, Wei-Ping Huang, Ho-Lam Chung, Xuankai Chang, Shang-wen Li 0001, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe 0001. 884-888 [doi]

General-purpose Adversarial Training for Enhanced Automatic Speech Recognition Model GeneralizationDo-Hee Kim, Daeyeol Shim, Joon-Hyuk Chang. 889-893 [doi]

Joint Instance Reconstruction and Feature Subspace Alignment for Cross-Domain Speech Emotion RecognitionKeke Zhao, Peng Song 0002, Shaokai Li, Wenming Zheng. 894-898 [doi]

Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech DataTakafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takanori Ashihara, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, Atsunori Ogawa, Taichi Asami. 899-903 [doi]

Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech RecognitionYist Y. Lin, Tao Han, Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Tze Yuang Chong, Yi He, Lu Lu, Zejun Ma. 904-908 [doi]

Adapter Incremental Continual Learning of Efficient Audio Spectrogram TransformersNithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Wai-Kin Kong, Bingquan Shen, Alex C. Kot. 909-913 [doi]

Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative DecodingTian-Hao Zhang, Haibo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu 0041, Feng Chen 0040, Xinyuan Qian, Xu-Cheng Yin. 914-918 [doi]

Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data AugmentationZheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu 0004, Xie Chen 0001. 919-923 [doi]

Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect TranscriptsDongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola García, Daniel Povey, Sanjeev Khudanpur. 924-928 [doi]

DCCRN-KWS: An Audio Bias Based Model for Noise Robust Small-Footprint Keyword SpottingShubo Lv, Xiong Wang, Sining Sun, Long Ma, Lei Xie 0001. 929-933 [doi]

OTF: Optimal Transport based Fusion of Supervised and Self-Supervised Learning Models for Automatic Speech RecognitionLi Fu, Siqi Li, Qingtao Li, Fangzhu Li, Liping Deng, Lu Fan, Meng Chen 0006, Youzheng Wu, Xiaodong He 0001. 934-938 [doi]

Approximate Nearest Neighbour Phrase Mining for Contextual Speech RecognitionMaurits J. R. Bleeker, Pawel Swietojanski, Stefan Braun, Xiaodan Zhuang. 939-943 [doi]

Rehearsal-Free Online Continual Learning for Automatic Speech RecognitionSteven Vander Eeckt, Hugo Van Hamme. 944-948 [doi]

Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency ScoringKaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma. 949-953 [doi]

Disentangling the Contribution of Non-native Speech in Automated Pronunciation AssessmentShuju Shi, Kaiqi Fu, Yiwei Gu, Xiaohai Tian, Shaojun Gao, Wei Li, Zejun Ma. 954-958 [doi]

A Joint Model for Pronunciation Assessment and Mispronunciation Detection and Diagnosis with Multi-task LearningHyungshin Ryu, SunHee Kim, Minhwa Chung. 959-963 [doi]

Assessing Intelligibility in Non-native Speech: Comparing Measures Obtained at Different LevelsXing Wei, Roeland Van Hout, Catia Cucchiarini, Danielle Reuvekamp, Helmer Strik. 964-968 [doi]

End-to-End Word-Level Pronunciation Assessment with MASK Pre-trainingYukang Liang, Kaitao Song, Shaoguang Mao, Huiqiang Jiang, Luna Qiu, Yuqing Yang 0001, Dongsheng Li 0002, Linli Xu, Lili Qiu. 969-973 [doi]

A Hierarchical Context-aware Modeling Approach for Multi-aspect and Multi-granular Pronunciation AssessmentFu-An Chao, Tien-Hong Lo, Tzu-I Wu, Yao-Ting Sung, Berlin Chen. 974-978 [doi]

Automatic Prediction of Language Learners' Listenability Using Speech and Text Features Extracted from Listening DrillsYingxiang Gao, Jaehyun Choi, Nobuaki Minematsu, Noriko Nakanishi, Daisuke Saito. 979-983 [doi]

Assessment of Non-Native Speech Intelligibility using Wav2vec2-based Mispronunciation Detection and Multi-level Goodness of Pronunciation TransformerRam C. M. C. Shekar, Mu Yang, Kevin Hirschi, Stephen D. Looney, Okim Kang, John H. L. Hansen. 984-988 [doi]

Adapting an Unadaptable ASR SystemRao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill. 989-993 [doi]

Addressing Cold Start Problem for End-to-end Automatic Speech ScoringJungbae Park, Seungtaek Choi. 994-998 [doi]

Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordingsManuel Sam Ribeiro, Giulia Comini, Jaime Lorenzo-Trueba. 999-1003 [doi]

Orthography-based Pronunciation Scoring for Better CAPT FeedbackCaitlin Richter, Ragnar Pálsson, Luke O'Brien, Kolbrún Friðriksdóttir, Branislav Bédi, Eydís Huld Magnúsdóttir, Jón Guðnason. 1004-1008 [doi]

Zero-Shot Automatic Pronunciation AssessmentHongfu Liu 0002, Mingqian Shi, Ye Wang 0007. 1009-1013 [doi]

Mispronunciation detection and diagnosis model for tonal language, applied to VietnameseTuong Tu Huu, Viet-Thanh Pham, Thi Thu Trang Nguyen, Thai Lai Dao. 1014-1018 [doi]

Beyond the AI hype: Balancing Innovation and Social ResponsibilityVirginia Dignum. 1019 [doi]

Detection of Emotional Hotspots in Meetings Using a Cross-Corpus ApproachGeorg Stemmer, Paulo López-Meyer, Juan A. del Hoyo Ontiveros, Jose A. Lopez, Héctor A. Cordourier, Tobias Bocklet. 1020-1024 [doi]

Detection of Laughter and Screaming Using the Attention and CTC ModelsTakuto Matsuda, Yoshiko Arimoto. 1025-1029 [doi]

Capturing Formality in Speech Across Domains and LanguagesDebasmita Bhattacharya, Jie Chi, Julia Hirschberg, Peter Bell 0001. 1030-1034 [doi]

Towards Robust Family-Infant Audio Analysis Based on Unsupervised Pretraining of Wav2vec 2.0 on Large-Scale Unlabeled Family AudioJialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain. 1035-1039 [doi]

Cues to next-speaker projection in conversational Swedish: Evidence from reaction timesKathrin Feindt, Martina Rossi, Ghazaleh Esfandiari-Baiat, Axel G. Ekström, Margaret Zellers. 1040-1044 [doi]

Multiple Instance Learning for Inference of Child Attachment From Paralinguistic Aspects of SpeechAbeer A. N. Buker, Huda Alsofyani, Alessandro Vinciarelli. 1045-1049 [doi]

Real-Time Joint Personalized Speech Enhancement and Acoustic Echo CancellationSefik Emre Eskimez, Takuya Yoshioka, Alex Ju, Min Tang, Tanel Pärnamaa, Huaming Wang. 1050-1054 [doi]

TaylorBeamixer: Learning Taylor-Inspired All-Neural Multi-Channel Speech Enhancement from Beam-Space Dictionary PerspectiveAndong Li, Weixin Meng, Guochen Yu, Wenzhe Liu, Xiaodong Li 0002, Chengshi Zheng. 1055-1059 [doi]

MFT-CRN: Multi-scale Fourier Transform for Monaural Speech EnhancementYulong Wang, Xueliang Zhang. 1060-1064 [doi]

Variance-Preserving-Based Interpolation Diffusion Models for Speech EnhancementZilu Guo, Jun Du, Chin-Hui Lee 0001, Yu Gao, Wenbin Zhang. 1065-1069 [doi]

Multi-input Multi-output Complex Spectral Mapping for Speaker SeparationHassan Taherian, Ashutosh Pandey 0004, Daniel Wong, Buye Xu, DeLiang Wang. 1070-1074 [doi]

Short-term Extrapolation of Speech Signals Using Recursive Neural Networks in the STFT DomainMaurice Oberhag, Daniel Neudek, Rainer Martin 0001, Tobias Rosenkranz, Henning Puder. 1075-1079 [doi]

Listener sensitivity to deviating obstruents in WaveNetAyushi Pandey, Jens Edlund, Sébastien Le Maguer, Naomi Harte. 1080-1084 [doi]

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to SyntacticsJoonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari. 1085-1089 [doi]

MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard ErrorsJoshua Camp, Tom Kenter, Lev Finkelstein, Rob Clark. 1090-1094 [doi]

RAMP: Retrieval-Augmented MOS Prediction via Confidence-based Dynamic WeightingHui Wang, Shiwan Zhao, Xiguang Zheng, Yong Qin. 1095-1099 [doi]

Can Better Perception Become a Disadvantage? Synthetic Speech Perception in Congenitally Blind UsersGerda Ana Melnik-Leroy, Gediminas Navickas. 1100-1103 [doi]

Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized SpeechErica Cooper, Junichi Yamagishi. 1104-1108 [doi]

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language UnderstandingMutian He 0001, Philip N. Garner. 1109-1113 [doi]

Improving End-to-End SLU performance with Prosodic Attention and DistillationShangeth Rajaa. 1114-1118 [doi]

Modality Confidence Aware Training for Robust End-to-End Spoken Language UnderstandingSuyoun Kim, Akshat Shrivastava, Duc Le, Ju Lin, Ozlem Kalinli, Michael L. Seltzer. 1119-1123 [doi]

Cross-Modal Semantic Alignment before Fusion for Two-Pass End-to-End Spoken Language UnderstandingLingyan Huang, Tao Li, Haodong Zhou, Qingyang Hong, Lin Li. 1124-1128 [doi]

ConvKT: Conversation-Level Knowledge Transfer for Context Aware End-to-End Spoken Language UnderstandingVishal Sunder, Eric Fosler-Lussier, Samuel Thomas 0001, Hong-Kwang Jeff Kuo, Brian Kingsbury. 1129-1133 [doi]

GhostT5: Generate More Features with Cheap Operations to Improve Textless Spoken Question AnsweringXuxin Cheng, Zhihong Zhu, Ziyu Yao 0001, Hongxiang Li, Yaowei Li, Yuexian Zou. 1134-1138 [doi]

Obstructive Sleep Apnea Detection using Pre-trained Speech RepresentationsKaibo Zhang, Lili Cao, Yiming Ding, Yanru Li, Chao Zhang, Ji Wu, Demin Han. 1139-1143 [doi]

EEG-based Auditory Attention Detection with Spatiotemporal Graph and Graph Convolutional NetworkRuicong Wang, Siqi Cai, Haizhou Li 0001. 1144-1148 [doi]

Silent Speech Recognition with Articulator Positions Estimated from Tongue Ultrasound and Lip VideoRachel Beeson, Korin Richmond. 1149-1153 [doi]

Auditory Attention Detection in Real-Life Scenarios Using Common Spatial Patterns from EEGKai Yang, Zhuang Xie, Di Zhou, Longbiao Wang, Gaoyan Zhang. 1154-1158 [doi]

Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEGSoowon Kim, Young Eun Lee, Seo-Hyun Lee, Seong-Whan Lee. 1159-1163 [doi]

Towards Ultrasound Tongue Image prediction from EEG during speech productionTamás Gábor Csapó, Frigyes Viktor Arthur, Péter Nagy, Ádám Boncz. 1164-1168 [doi]

Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer NetworksLászló Tóth 0001, Amin Honarmandi Shandiz, Gábor Gosztolya, Tamás Gábor Csapó. 1169-1173 [doi]

STE-GAN: Speech-to-Electromyography Signal Conversion using Generative Adversarial NetworksKevin Scheck, Tanja Schultz. 1174-1178 [doi]

Spanish Phone Confusion Analysis for EMG-Based Silent Speech InterfacesInge Salomons, Eder del Blanco, Eva Navas, Inma Hernáez. 1179-1183 [doi]

Hybrid Silent Speech Interface Through Fusion of Electroencephalography and ElectromyographyHuiyan Li, Mingyi Wang, Han Gao 0006, Shuo Zhao, Guang Li 0001, You Wang 0001. 1184-1188 [doi]

Can Self-Supervised Neural Representations Pre-Trained on Human Speech distinguish Animal Callers?Eklavya Sarkar, Mathew Magimai-Doss. 1189-1193 [doi]

Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training DomainsJinjin Cai, Sudip Vhaduri, Xiao Luo. 1194-1198 [doi]

Background-aware Modeling for Weakly Supervised Sound Event DetectionYifei Xin, Dongchao Yang, Yuexian Zou. 1199-1203 [doi]

How to (Virtually) Train Your Speaker LocalizerPrerak Srivastava, Antoine Deleforge, Archontis Politis, Emmanuel Vincent 0001. 1204-1208 [doi]

MMER: Multimodal Multi-task Learning for Speech Emotion RecognitionSreyan Ghosh, Utkarsh Tyagi, S. Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha. 1209-1213 [doi]

A Multi-Task Learning Framework for Sound Event Detection using High-level Acoustic Characteristics of SoundsTanmay Khandelwal, Rohan Kumar Das. 1214-1218 [doi]

A Multimodal Investigation of Speech, Text, Cognitive and Facial Video Features for Characterizing Depression With and Without MedicationMichael Neumann, Hardik Kothare, Doug Habberstad, Vikram Ramanarayanan. 1219-1223 [doi]

Understanding Disrupted Sentences Using Underspecified Abstract Meaning RepresentationAngus Addlesee, Marco Damonte. 1224-1228 [doi]

Developing Speech Processing Pipelines for Police AccountabilityAnjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan Jurafsky. 1229-1233 [doi]

Prosody-controllable Gender-ambiguous Speech Synthesis: A Tool for Investigating Implicit Bias in Speech PerceptionÉva Székely, Joakim Gustafson, Ilaria Torre 0002. 1234-1238 [doi]

Affective attributes of French caregivers' professional speechJean-Luc Rouas, Yaru Wu, Takaaki Shochi. 1239-1243 [doi]

ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversionEdresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Cândido Júnior, Anderson da Silva Soares, Sandra M. Aluísio, Moacir Antonelli Ponti. 1244-1248 [doi]

Personality-aware Training based Speaker Adaptation for End-to-end Speech RecognitionYue Gu, Zhihao Du, Shiliang Zhang, Qian Chen 0003, Jiqing Han 0001. 1249-1253 [doi]

Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher SequencesAoi Ito, Tatsuya Komatsu, Yusuke Fujita, Yusuke Kida. 1254-1258 [doi]

Wave to Syntax: Probing spoken language models for syntaxGaofei Shen, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupala. 1259-1263 [doi]

Effective Training of Attention-based Contextual Biasing Adapters with Synthetic Audio for Personalised ASRBurin Naowarat, Philip Harding, Pasquale D'Alterio, Sibo Tong, Bashar Awwad Shiekh Hasan. 1264-1268 [doi]

Pushing the Limits of Unsupervised Unit Discovery for SSL Speech RepresentationZiyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang 0027, Chao Zhang 0031, Xie Chen 0001. 1269-1273 [doi]

SlothSpeech: Denial-of-service Attack Against Speech Recognition ModelsMirazul Haque, Rutvij Shah, Simin Chen, Berrak Sisman, Cong Liu 0005, Wei Yang 0013. 1274-1278 [doi]

CLRL-Tuning: A Novel Continual Learning Approach for Automatic Speech RecognitionZhihan Wang, Feng Hou, Ruili Wang. 1279-1283 [doi]

Exploring Sources of Racial Bias in Automatic Speech Recognition through the Lens of Rhythmic VariationLi-Fang Lai, Nicole R. Holliday. 1284-1288 [doi]

Can Contextual Biasing Remain Effective with Whisper and GPT-2?Guangzhi Sun, Xianrui Zheng, Chao Zhang 0031, Philip C. Woodland. 1289-1293 [doi]

Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising DistillationDaisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino. 1294-1298 [doi]

Improving RNN Transducer Acoustic Models for English Conversational Speech RecognitionXiaodong Cui, George Saon, Brian Kingsbury. 1299-1303 [doi]

MixRep: Hidden Representation Mixup for Low-Resource Speech RecognitionJiamin Xie, John H. L. Hansen. 1304-1308 [doi]

Adapting Multi-Lingual ASR Models for Handling Multiple TalkersChenda Li, Yao Qian, Zhuo Chen 0006, Naoyuki Kanda, Dongmei Wang, Takuya Yoshioka, Yanmin Qian, Michael Zeng 0001. 1314-1318 [doi]

Adapter-tuning with Effective Token-dependent Representation Shift for Automatic Speech RecognitionDianwen Ng, Chong Zhang 0003, Ruixi Zhang, Yukun Ma, Trung Hieu Nguyen 0001, Chongjia Ni, Shengkui Zhao, Qian Chen 0003, Wen Wang, Eng Siong Chng, Bin Ma 0001. 1319-1323 [doi]

Model-Internal Slot-triggered Biasing for Domain Expansion in Neural Transducer ASR ModelsYiting Lu, Philip Harding, Kanthashree Mysore Sathyendra, Sibo Tong, Xuandi Fu, Jing Liu, Feng-Ju Chang, Simon Wiesler, Grant P. Strimel. 1324-1328 [doi]

Delay-penalized CTC Implemented Based on Finite State TransducerZengwei Yao, Wei Kang 0006, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Yifan Yang, Long Lin, Daniel Povey. 1329-1333 [doi]

Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic RepresentationJiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu 0001, Zhao You, Dan Su 0002, Dong Yu 0001, Helen Meng. 1334-1338 [doi]

Knowledge Distillation Approach for Efficient Internal Language Model EstimationZhipeng Chen, Haihua Xu, Yerbolat Khassanov, Yi He, Lu Lu, Zejun Ma, Ji Wu 0002. 1339-1343 [doi]

Language Model Personalization for Improved Touchscreen TypingJiban Adhikary, Keith Vertanen. 1344-1348 [doi]

Blank Collapse: Compressing CTC Emission for the Faster DecodingMinkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo. 1349-1353 [doi]

Improving Joint Speech-Text Representations Without AlignmentCal Peyser, Zhong Meng, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, KyungHyun Cho, Ke Hu. 1354-1358 [doi]

Leveraging Cross-Utterance Context For ASR DecodingRobert Flynn, Anton Ragni. 1359-1363 [doi]

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical DistillationMinglun Han, Feilong Chen, Jing Shi 0003, Shuang Xu, Bo Xu 0002. 1364-1368 [doi]

Integration of Frame- and Label-synchronous Beam Search for Streaming Encoder-decoder Speech RecognitionEmiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe 0001. 1369-1373 [doi]

A Neural Time Alignment Module for End-to-End Automatic Speech RecognitionDongcheng Jiang, Chao Zhang 0031, Philip C. Woodland. 1374-1378 [doi]

Accelerating Transducers through Adjacent Token MergingYuang Li, Yu Wu 0012, Jinyu Li 0001, Shujie Liu 0001. 1379-1383 [doi]

Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech RecognitionSiyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang. 1384-1388 [doi]

Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech RecognitionWenxuan Wang, Guodong Ma, Yuke Li, Binbin Du. 1389-1393 [doi]

Embedding Articulatory Constraints for Low-resource Speech Recognition Based on Large Pre-trained ModelJaeyoung Lee, Masato Mimura, Tatsuya Kawahara. 1394-1398 [doi]

Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised LearningXuankai Chang, Brian Yan, Yuya Fujita, Takashi Maekaku, Shinji Watanabe 0001. 1399-1403 [doi]

SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappingsAlexandra Antonova, Evelina Bakhturina, Boris Ginsburg. 1404-1408 [doi]

Text Injection for Capitalization and Turn-Taking Prediction in Speech ModelsShaan Bijwadia, Shuo-Yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang. 1409-1413 [doi]

Confidence-based Ensembles of End-to-End Speech Recognition ModelsIgor Gitman, Vitaly Lavrukhin, Aleksandr Laptev, Boris Ginsburg. 1414-1418 [doi]

Unsupervised Code-switched Text Generation from Parallel TextJie Chi, Brian Lu, Jason Eisner, Peter Bell 0001, Preethi Jyothi, Ahmed M. Ali 0002. 1419-1423 [doi]

A Binary Keyword Spotting System with Error-Diffusion Based Feature BinarizationDingyi Wang, Mengjie Luo, Lin Li, Xiaoqin Wang, Shushan Qiao, Yumei Zhou. 1424-1428 [doi]

Language-universal Phonetic Encoder for Low-resource Speech RecognitionSiyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang 0002. 1429-1433 [doi]

A Lexical-aware Non-autoregressive Transformer-based ASR ModelChong-En Lin, Kuan-Yu Chen. 1434-1438 [doi]

Improving Under-Resourced Code-Switched Speech Recognition: Large Pre-trained Models or Architectural InterventionsJoshua Jansen van Vüren, Thomas Niesler. 1439-1443 [doi]

Pragmatic Pertinence: A Learnable Confidence Metric to Assess the Subjective Quality of LM-Generated TextJerome R. Bellegarda. 1444-1448 [doi]

ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion RecognitionYuanchao Li, Zeyu Zhao, Ondrej Klejch, Peter Bell 0001, Catherine Lai. 1449-1453 [doi]

BASS: Block-wise Adaptation for Speech SummarizationRoshan Sharma 0001, Siddhant Arora, Kenneth Zheng, Shinji Watanabe 0001, Rita Singh, Bhiksha Raj. 1454-1458 [doi]

Speaker Tracking using Graph Attention Networks with Varying Duration Utterances across Multi-Channel Naturalistic Data: Fearless Steps Apollo-11 Audio CorpusMeena M. Chandra Shekar, John H. L. Hansen. 1459-1463 [doi]

Combining language corpora in a Japanese electromagnetic articulography database for acoustic-to-articulatory inversionTianfang Yan, Kikuo Maekawa, Yukiko Nota, Masayuki Hirata. 1464-1467 [doi]

A Dual Attention-based Modality-Collaborative Fusion Network for Emotion RecognitionXiaoheng Zhang, Yang Li. 1468-1472 [doi]

Large Dataset Generation of Synchronized Music Audio and Lyrics at Scale using Teacher-Student ParadigmCristian Chivriga, Rinita Roy. 1473-1477 [doi]

Enc-Dec RNN Acoustic Word Embeddings learned via Pairwise PredictionAdhiraj Banerjee, Vipul Arora 0001. 1478-1482 [doi]

Query Based Acoustic Summarization for PodcastsSamantha Kotey, Rozenn Dahyot, Naomi Harte. 1483-1487 [doi]

Spot Keywords From Very Noisy and Mixed SpeechYing Shi 0001, Dong Wang 0013, Lantian Li, Jiqing Han 0001, Shi Yin. 1488-1492 [doi]

Knowledge Distillation on Joint Task End-to-End Speech TranslationKhandokar Md. Nayem, Ran Xue, Ching-Yun Chang, Akshaya Vishnu Kudlu Shanbhogue. 1493-1497 [doi]

Investigating Pre-trained Audio Encoders in the Low-Resource ConditionHao Yang, Jinming Zhao, Gholamreza Haffari, Ehsan Shareghi. 1498-1502 [doi]

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate TargetGuan-Wei Wu, Guan-Ting Lin, Shang-wen Li 0001, Hung-yi Lee. 1503-1507 [doi]

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity TestEungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee. 1508-1512 [doi]

Multimodal Locally Enhanced Transformer for Continuous Sign Language RecognitionKaterina Papadimitriou, Gerasimos Potamianos. 1513-1517 [doi]

Towards Supporting an Early Diagnosis of Multiple Sclerosis using Vocal FeaturesMonica González Machorro, Pascal Hecker, Uwe D. Reichel, Helly N. Hammer, Robert Hoepner, Lisa Pedrotti, Alisha Zmutt, Hesam Sagha, Johan van Beek, Florian Eyben, Dagmar M. Schuller, Björn W. Schuller, Bert Arnrich. 1518-1522 [doi]

Whisper Features for Dysarthric Severity-Level ClassificationSiddharth Rathod, Monil Charola, Akshat Vora, Yash Jogi, Hemant A. Patil. 1523-1527 [doi]

A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task LearningJiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe 0001, Brian MacWhinney. 1528-1532 [doi]

Dysarthric Speech Recognition, Detection and Classification using Raw Phase and Magnitude SpectraZhengjun Yue, Erfan Loweimi, Zoran Cvetkovic. 1533-1537 [doi]

A Stutter Seldom Comes Alone - Cross-Corpus Stuttering Detection as a Multi-label ProblemSebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian Hönig, Tobias Bocklet, Elmar Nöth, Korbinian Riedhammer. 1538-1542 [doi]

Transfer Learning to Aid Dysarthria Severity Classification for Patients with Amyotrophic Lateral SclerosisTanuka Bhattacharjee, Anjali Jayakumar, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh. 1543-1547 [doi]

DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic ModelHelin Wang, Thomas Thebaud, Jesús Villalba 0001, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velázquez. 1548-1552 [doi]

CNVVE: Dataset and Benchmark for Classifying Non-verbal VoiceRamin Hedeshy, Raphael Menges, Steffen Staab. 1553-1557 [doi]

Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based AugmentationMassa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray. 1558-1562 [doi]

Weakly-supervised forced alignment of disfluent speech using phoneme-level modelingTheodoros Kouzelis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros. 1563-1567 [doi]

Glottal source analysis of voice deficits in basal ganglia dysfunction: evidence from de novo Parkinson's disease and Huntington's diseaseMichal Novotný, Tereza Tykalová, Michal Simek, Tomás Kouba, Jan Rusz. 1568-1572 [doi]

An Analysis of Glottal Features of Chronic Kidney Disease Speech and Its Application to CKD DetectionJihyun Mun, SunHee Kim, Myeong-Ju Kim, Jiwon Ryu, Sejoong Kim, Minhwa Chung. 1573-1577 [doi]

Weakly supervised glottis segmentation in high-speed videoendoscopy using bounding box labelsVarun Belagali, M. V. Achuth Rao, Prasanta Kumar Ghosh. 1578-1582 [doi]

An Efficient and Noise-Robust Audiovisual Encoder for Audiovisual Speech RecognitionZhengyang Li, Chenwei Liang, Timo Lohrenz, Marvin Sach, Björn Möller, Tim Fingscheidt. 1583-1587 [doi]

A Novel Self-training Approach for Low-resource Speech RecognitionSatwinder Singh, Feng Hou, Ruili Wang. 1588-1592 [doi]

FunASR: A Fundamental End-to-End Speech Recognition ToolkitZhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Shiliang Zhang. 1593-1597 [doi]

Streaming Audio-Visual Speech Recognition with Alignment RegularizationPingchuan Ma 0001, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic. 1598-1602 [doi]

SparseVSR: Lightweight and Noise Robust Visual Speech RecognitionAdriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma 0001, Alexandros Haliassos, Stavros Petridis, Maja Pantic. 1603-1607 [doi]

Multimodal Speech Recognition for Language-Guided Embodied AgentsAllen Chang, Xiaoyuan Zhu, Aarav Monga, Seoho Ahn, Tejas Srinivasan, Jesse Thomason. 1608-1612 [doi]

Matching Latent Encoding for Audio-Text based Keyword SpottingKumari Nishu, Minsik Cho, Devang Naik. 1613-1617 [doi]

Self-Paced Pattern Augmentation for Spoken Term Detection in Zero-ResourceP. Sudhakar, K. Sreenivasa Rao, Pabitra Mitra. 1618-1622 [doi]

On-Device Constrained Self-Supervised Speech Representation Learning for Keyword Spotting via Knowledge DistillationGene-Ping Yang, Yue Gu, Qingming Tang, Dongsu Du, Yuzong Liu. 1623-1627 [doi]

Online Continual Learning in Keyword Spotting for Low-Resource Devices via Pooling High-Order Temporal StatisticsUmberto Michieli, Pablo Peso Parada, Mete Ozay. 1628-1632 [doi]

Improving Small Footprint Few-shot Keyword Spotting with Supervision on Auxiliary DataSeunghan Yang, Byeonggeun Kim, Kyuhong Shim, Simyoung Chang. 1633-1637 [doi]

Robust Keyword Spotting for Noisy Environments by Leveraging Speech Enhancement and Speech Presence ProbabilityChouchang Yang, Yashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching Hua Lee, Yilin Shen, Hongxia Jin. 1638-1642 [doi]

Enhancing the Unified Streaming and Non-streaming Model with Contrastive LearningYuting Yang, Yuke Li, Binbin Du. 1643-1647 [doi]

ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMsXingchen Song, Di Wu 0061, Binbin Zhang, Zhendong Peng, Bo Dang 0004, Fuping Pan, Zhiyong Wu 0001. 1648-1652 [doi]

Improved Training for End-to-End Streaming Automatic Speech Recognition Model with PunctuationHanbyul Kim, Seunghyun Seo, Lukas Lee, Seolki Baek. 1653-1657 [doi]

DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming ConformerGoeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff. 1658-1662 [doi]

Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming LayerKyuhong Shim, Jinkyu Lee 0004, Simyoung Chang, Kyuwoong Hwang. 1663-1667 [doi]

Adaptive Contextual Biasing for Transducer Based Streaming Speech RecognitionTianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie 0001. 1668-1672 [doi]

Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative ModelHéctor Martel, Julius Richter, Kai Li, Xiaolin Hu 0001, Timo Gerkmann. 1673-1677 [doi]

Remixing-based Unsupervised Source Separation from ScratchKohei Saijo, Tetsuji Ogawa. 1678-1682 [doi]

CAPTDURE: Captioned Sound Dataset of Single SourcesYuki Okamoto, Kanta Shimonishi, Keisuke Imoto, Kota Dohi, Shota Horiguchi, Yohei Kawaguchi. 1683-1687 [doi]

Recursive Sound Source Separation with Deep Learning-based Beamforming for Unknown Number of SourcesHokuto Munakata, Ryu Takeda, Kazunori Komatani. 1688-1692 [doi]

Multi-Channel Speech Separation with Cross-Attention and BeamformingLadislav Mosner, Oldrich Plchot, Junyi Peng, Lukás Burget, Jan Cernocký. 1693-1697 [doi]

Background-Sound Controllable Voice Source SeparationDeokjun Eom, Woo Hyun Nam, Kyung-Rae Kim. 1698-1702 [doi]

An Automatic Multimodal Approach to Analyze Linguistic and Acoustic Cues on Parkinson's Disease PatientsDaniel Escobar-Grisales, Tomás Arias-Vergara, Cristian David Ríos-Urrego, Elmar Nöth, Adolfo M. García, Juan Rafael Orozco-Arroyave. 1703-1707 [doi]

Personalization for Robust Voice Pathology Detection in Sound WavesKhanh-Tung Tran, Truong Hoang, Duy Khuong Nguyen, Hoang D. Nguyen, Xuan-Son Vu. 1708-1712 [doi]

Integrated and Enhanced Pipeline System to Support Spoken Language Analytics for Screening Neurocognitive DisordersHelen Meng, Brian Mak, Man-Wai Mak, Helene H. Fung, Xianmin Gong, Timothy C. Y. Kwok, Xunying Liu, Vincent C. T. Mok, Patrick C. M. Wong, Jean Woo, Xixin Wu, Ka-Ho Wong, Sean Shensheng Xu, Naijun Zheng, Ranzo Huang, Jiawen Kang, Xiaoquan Ke, Junan Li, Jinchao Li, Yi Wang. 1713-1717 [doi]

Capturing Mismatch between Textual and Acoustic Emotion Expressions for Mood Identification in Bipolar DisorderMinxue Niu, Amrit Romana, Mimansa Jaiswal, Melvin G. McInnis, Emily Mower Provost. 1718-1722 [doi]

FTA-net: A Frequency and Time Attention Network for Speech Depression DetectionQifei Li, Dong Wang, Yiming Ren, Yingming Gao, Ya Li. 1723-1727 [doi]

Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal dataSalvatore Fara, Orlaith Hickey, Alexandra Livia Georgescu, Stefano Goria, Emilia Molimpakis, Nicholas Cummins. 1728-1732 [doi]

Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and Dysarthric Speech RecognitionTianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi Wang, Helen Meng, Xunying Liu. 1733-1737 [doi]

Classifying depression symptom severity: Assessment of speech representations in personalized and generalized machine learning modelsEdward L. Campbell, Judith Dineley, Pauline Conde, Faith Matcham, Katie M. White, Carolin Oetzmann, Sara Simblett, Stuart Bruce, Amos A. Folarin, Til Wykes, Srinivasan Vairavan, Richard J. B. Dobson, Laura Docío Fernández, Carmen García-Mateo, Vaibhav A. Narayan, Matthew Hotopf, Nicholas Cummins. 1738-1742 [doi]

Active Learning for Abnormal Lung Sound Data Curation and Detection in AsthmaShabnam Ghaffarzadegan, Luca Bondi, Ho-Hsiang Wu, Sirajum Munir, Kelly J. Shields, Samarjit Das, Joseph Aracri. 1743-1747 [doi]

Automatic Assessment of Alzheimer's across Three Languages Using Speech and Language FeaturesPaula Andrea Pérez-Toro, Tomás Arias-Vergara, Franziska Braun, Florian Hönig, Carlos Andrés Tobón-Quintero, David Aguillón, Francisco Lopera, Liliana Hincapié-Henao, Maria Schuster, Korbinian Riedhammer, Andreas Maier 0001, Elmar Nöth, Juan Rafael Orozco-Arroyave. 1748-1752 [doi]

On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech RecognitionMengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zengrui Jin, Tianzi Wang, Shujie Hu, Zi Ye 0001, Helen Meng, Xunying Liu. 1753-1757 [doi]

Relationship between LTAS-based spectral moments and acoustic parameters of hypokinetic dysarthria in Parkinson's diseaseJan Svihlík, Vojtech Illner, Petr Krýze, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz. 1758-1762 [doi]

Respiratory distress estimation in human-robot interaction scenarioEduardo Alvarado, Nicolás Grágeda, Alejandro Luzanto, Rodrigo Mahú, Jorge Wuth, Laura Mendoza, Richard M. Stern, Néstor Becerra Yoma. 1763-1767 [doi]

Prediction of the Gender-based Violence Victim Condition using Speech: What do Machine Learning Models rely on?Emma Reyner-Fuentes, Esther Rituerto-González, Isabel Trancoso, Carmen Peláez-Moreno. 1768-1772 [doi]

Whisper Encoder features for Infant Cry ClassificationMonil Charola, Aastha Kachhi, Hemant A. Patil. 1773-1777 [doi]

A neural architecture for selective attention to speech featuresNika Jurov, William J. Idsardi, Naomi H. Feldman. 1778-1782 [doi]

Quantifying Informational Masking due to Masker Intelligibility in Same-talker Speech-in-speech PerceptionMingyue Huo, Yinglun Sun, Daniel Fogerty, Yan Tang. 1783-1787 [doi]

On the Benefits of Self-supervised Learned Speech Representations for Predicting Human Phonetic MisperceptionsSantiago Cuervo, Ricard Marxer. 1788-1792 [doi]

Predicting Perceptual Centers Located at Vowel Onset in German Speech Using Long Short-Term Memory NetworksFelicia Schulz, Mirella De Sisto, M. Paula M. P. Roncaglia-Denissen, Peter Hendrix. 1793-1797 [doi]

Exploring the mutual intelligibility breakdown caused by sculpting speech from a competing speech signalMartin Cooke, María Luisa García Lecumberri. 1798-1802 [doi]

Perception of Incomplete Voicing Neutralization of Obstruents in Tohoku JapaneseMafuyu Kitahara, Naoya Watabe, Hiroto Noguchi, Chuyu Huang, Ayako Hashimoto, Ai Mizoguchi. 1803-1807 [doi]

The emergence of obstruent-intrinsic f0 and VOT as cues to the fortis/lenis contrast in West Central BavarianJasmin Pöhnlein, Felicitas Kleber. 1808-1812 [doi]

〈'〉 in Tsimane': a Preliminary InvestigationWilliam N. Havard, Yaya Sy, Camila Scaff, Loann Peurey, Alejandrina Cristià. 1813-1817 [doi]

Segmental features of Brazilian (Santa Catarina) HunsrikDennis Hoffmann, Maria O'Reilly. 1818-1822 [doi]

Opening or Closing? An Electroglottographic Analysis of Voiceless Coda Consonants in Australian EnglishLouise Ratko, Joshua Penney, Felicity Cox. 1823-1827 [doi]

Increasing aspiration of word-medial fortis plosives in Swiss Standard GermanFranka Zebe. 1828-1832 [doi]

Lexical Stress and Velar Palatalization in Italian: A spatio-temporal InteractionBowei Shao, Philipp Buech, Anne Hermes, Maria Giavazzi. 1833-1837 [doi]

Speaker Embeddings as Individuality Proxy for Voice Stress DetectionZihan Wu 0009, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak. 1838-1842 [doi]

From Interval to Ordinal: A HMM based Approach for Emotion Label ConversionJingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 1843-1847 [doi]

Turbo your multi-modal classification with contrastive learningZhiyu Zhang, Da Liu, Shengqiang Liu, Anna Wang, Jie Gao, Yali Li. 1848-1852 [doi]

Towards Paralinguistic-Only Speech Representations for End-to-End Speech Emotion RecognitionGeorgios Ioannides, Michael Owen, Andrew Fletcher, Viktor Rozgic, Chao Wang 0018. 1853-1857 [doi]

SOT: Self-supervised Learning-Assisted Optimal Transport for Unsupervised Adaptive Speech Emotion RecognitionRuiteng Zhang, Jianguo Wei, Xugang Lu, Yongwei Li, Junhai Xu, Di Jin 0001, Jianhua Tao 0001. 1858-1862 [doi]

On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech RecognitionLokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju. 1863-1867 [doi]

Speaking State Decoder with Transition Detection for Next Speaker PredictionShao-Hao Lu, Yun-Shao Lin, Chi-Chun Lee. 1868-1872 [doi]

What are differences? Comparing DNN and Human by Their Performance and Characteristics in Speaker Age EstimationYuki Kitagishi, Naohiro Tawara, Atsunori Ogawa, Ryo Masumura, Taichi Asami. 1873-1877 [doi]

Effects of perceived gender on the perceived social function of laughterJoop Arts, Khiet P. Truong. 1878-1882 [doi]

Implicit phonetic information modeling for speech emotion recognitionTilak Purohit, Bogdan Vlasenko, Mathew Magimai-Doss. 1883-1887 [doi]

Computation and Memory Efficient Noise Adaptation of Wav2Vec2.0 for Noisy Speech Emotion Recognition with Skip Connection AdaptersSeong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso. 1888-1892 [doi]

Multi-Level Knowledge Distillation for Speech Emotion Recognition in Noisy ConditionsYang Liu, Haoqin Sun, Geng Chen, Qingyue Wang, Zhen Zhao, Xugang Lu, Longbiao Wang. 1893-1897 [doi]

Preference Learning Labels by Anchoring on Consecutive AnnotationsAbinay Reddy Naini, Ali N. Salman, Carlos Busso. 1898-1902 [doi]

Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition TasksOrchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma 0002. 1903-1907 [doi]

Learning Local to Global Feature Aggregation for Speech Emotion RecognitionCheng Lu 0005, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li. 1908-1912 [doi]

Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion RecognitionXuechen Wang, Shiwan Zhao, Yong Qin. 1913-1917 [doi]

Vietnam-Celeb: a large-scale dataset for Vietnamese speaker recognitionViet-Thanh Pham, Xuan Thai Hoa Nguyen, Vu Hoang, Thi Thu Trang Nguyen. 1918-1922 [doi]

What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification ModelMu Yang, Ram C. M. C. Shekar, Okim Kang, John H. L. Hansen. 1923-1927 [doi]

The 2022 NIST Language Recognition EvaluationYooyoung Lee, Craig S. Greenberg, Eliot Godard, Asad A. Butt, Elliot Singer, Trang Nguyen, Lisa P. Mason, Douglas A. Reynolds. 1928-1932 [doi]

Description and analysis of the KPT system for NIST Language Recognition Evaluation 2022Salvatore Sarni, Sandro Cumani, Sabato Marco Siniscalchi, Andrea Bottino. 1933-1937 [doi]

ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross AttentionJia Qi Yip, Duc-Tuan Truong, Dianwen Ng, Chong Zhang 0003, Yukun Ma, Trung Hieu Nguyen 0001, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma 0001. 1938-1942 [doi]

Branch-ECAPA-TDNN: A Parallel Branch Architecture to Capture Local and Global Features for Speaker VerificationJiadi Yao, Chengdong Liang, Zhendong Peng, Binbin Zhang, Xiao-Lei Zhang 0001. 1943-1947 [doi]

Speaker Verification Across Ages: Investigating Deep Speaker Embedding Sensitivity to Age Mismatch in Enrollment and Test SpeechVishwanath Pratap Singh, Md. Sahidullah, Tomi Kinnunen. 1948-1952 [doi]

Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language IdentificationSpandan Dey, Premjeet Singh, Goutam Saha 0001. 1953-1957 [doi]

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech ModelSrijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegnér. 1958-1962 [doi]

HABLA: A Dataset of Latin American Spanish Accents for Voice Anti-spoofingPablo Andrés Tamayo Flórez, Rubén Manrique, Bernardo Pereira Nunes. 1963-1967 [doi]

Self-supervised Learning Representation based Accent Recognition with Persistent Accent MemoryRui Li, Zhiwei Xie, Haihua Xu, Yizhou Peng, Hexin Liu, Hao Huang, Eng Siong Chng. 1968-1972 [doi]

Extremely Low Bit Quantization for Mobile Speaker Verification Systems Under 1MB MemoryBei Liu, Haoyu Wang, Yanmin Qian. 1973-1977 [doi]

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis DistanceSourya Dipta Das, Yash Vadi, Abhishek Unnam, Kuldeep Yadav. 1978-1982 [doi]

pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipeHervé Bredin. 1983-1987 [doi]

Model Compression for DNN-based Speaker Verification Using Weight QuantizationJingyu Li, Wei Liu, Zhaoyang Zhang 0001, Jiong Wang, Tan Lee. 1988-1992 [doi]

Multi-resolution Approach to Identification of Spoken Languages and To Improve Overall Language Diarization System Using Whisper ModelBhavik Vachhani, Dipesh K. Singh, Rustom Lawyer. 1993-1997 [doi]

Improving Generalization Ability of Countermeasures for New Mismatch Scenario by Combining Multiple Advanced Regularization TermsChang Zeng, Xin Wang 0037, Xiaoxiao Miao, Erica Cooper, Junichi Yamagishi. 1998-2002 [doi]

Dynamic Fully-Connected Layer for Large-Scale Speaker VerificationZhida Song, Liang He 0003, Baowei Zhao, Minqiang Xu, Yu Zheng 0020. 2003-2007 [doi]

DeepFilterNet: Perceptually Motivated Real-Time Speech EnhancementHendrik Schröter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier 0001. 2008-2009 [doi]

Nkululeko: Machine Learning Experiments on Speaker Characteristics Without ProgrammingFelix Burkhardt, Florian Eyben, Björn W. Schuller. 2010-2011 [doi]

Sp1NY: A Quick and Flexible Speech Visualisation Tool in PythonSébastien Le Maguer, Mark Anderson 0006, Naomi Harte. 2012-2013 [doi]

Intonation Control for Neural Text-to-Speech Synthesis with Polynomial Models of F0Niamh Corkey, Johannah O'Mahony, Simon King 0001. 2014-2015 [doi]

So-to-Speak: An Exploratory Platform for Investigating the Interplay between Style and Prosody in TTSÉva Székely, Siyang Wang, Joakim Gustafson. 2016-2017 [doi]

Comparing /b/ and /d/ with a Single Physical Model of the Human Vocal Tract to Visualize Droplets Produced while SpeakingTakayuki Arai, Tsukasa Yoshinaga, Akiyoshi Iida. 2018-2019 [doi]

Show & Tell: Voice Activity Projection and Turn-takingErik Ekstedt, Gabriel Skantze. 2020-2021 [doi]

Real Time Detection of Soft Voice for Speech EnhancementHéctor A. Cordourier, Georg Stemmer, Sinem Aslan, Tobias Bocklet, Himanshu Bhalla. 2022-2023 [doi]

Data Augmentation for Diverse Voice Conversion in Noisy EnvironmentsAvani Tanna, Michael Saxon, Amr El Abbadi, William Yang Wang. 2024-2025 [doi]

Application for Real-time Audio-Visual Speech EnhancementMandar Gogate, Kia Dashtipour, Amir Hussain 0001. 2026-2027 [doi]

Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) TransductionEunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok Kim, John B. Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim 0001, Chang D. Yoo. 2028-2032 [doi]

Streaming Parrotron for on-device speech-to-speech conversionOleg Rybakov, Fadi Biadsy, Xia Zhang, Liyang Jiang, Phoenix Meadowlark, Shivani Agrawal. 2033-2037 [doi]

Exploiting Emotion Information in Speaker Embeddings for Expressive Text-to-SpeechZein Shaheen, Tasnima Sadekova, Yulia Matveeva, Alexandra Shirshova, Mikhail A. Kudinov. 2038-2042 [doi]

E2E-S2S-VC: End-To-End Sequence-To-Sequence Voice ConversionTakuma Okamoto, Tomoki Toda, Hisashi Kawai. 2043-2047 [doi]

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with MixerYerin Choi, Myoung-Wan Koo. 2048-2052 [doi]

Voice Conversion With Just Nearest NeighborsMatthew Baas, Benjamin van Niekerk, Herman Kamper. 2053-2057 [doi]

CFVC: Conditional Filtering for Controllable Voice ConversionKou Tanaka, Takuhiro Kaneko, Hirokazu Kameoka, Shogo Seki. 2058-2062 [doi]

DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive CodingZiqian Ning, Yuepeng Jiang, Pengcheng Zhu 0004, Jixun Yao, Shuai Wang, Lei Xie 0001, Mengxiao Bi. 2063-2067 [doi]

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice ConversionYun Chen, Lingxiao Yang, Qi Chen, Jian-Huang Lai, Xiaohua Xie. 2068-2072 [doi]

ALO-VC: Any-to-any Low-latency One-shot Voice ConversionBohan Wang, Damien Ronssin, Milos Cernak. 2073-2077 [doi]

Evaluating and reducing the distance between synthetic and real speech distributionsChristoph Minixhofer, Ondrej Klejch, Peter Bell 0001. 2078-2082 [doi]

Decoupling Segmental and Prosodic Cues of Non-native Speech through Vector QuantizationWaris Quamer, Anurag Das, Ricardo Gutierrez-Osuna. 2083-2087 [doi]

VC-T: Streaming Voice Conversion Based on Neural TransducerHiroki Kanagawa, Takafumi Moriya, Yusuke Ijima. 2088-2092 [doi]

Emo-StarGAN: A Semi-Supervised Any-to-Many Non-Parallel Emotion-Preserving Voice ConversionSuhita Ghosh, Arnab Das, Yamini Sinha, Ingo Siegert, Tim Polzehl, Sebastian Stober. 2093-2097 [doi]

ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and SpeedMeiying Chen, Zhiyao Duan. 2098-2102 [doi]

Reverberation-Controllable Voice Conversion Using Reverberation Time EstimatorYeonjong Choi, Chao Xie, Tomoki Toda. 2103-2107 [doi]

Cross-utterance Conditioned Coherent Speech EditingCheng Yu, Yang Li, Weiqin Zu, Fanglei Sun, Zheng Tian, Jun Wang. 2108-2112 [doi]

MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth InformationJianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li. 2113-2117 [doi]

CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person RecognitionLantian Li, Xiaolou Li, Haoyu Jiang, Chen Chen, Ruihai Hou, Dong Wang 0013. 2118-2122 [doi]

Improving Zero-shot Cross-domain Slot Filling via Transformer-based Slot Semantics FusionYuhang Li, Xiao Wei, Yuke Si, Longbiao Wang, Xiaobao Wang, Jianwu Dang 0001. 2123-2127 [doi]

Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning TransformerWooSeok Shin, Hyun-Joon Park, Jin Sob Kim, Dongwon Kim, Seungjin Lee, Sung Won Han 0003. 2128-2132 [doi]

Boosting Punctuation Restoration with Data Generation and Reinforcement LearningViet Dac Lai, Abel Salinas, Hao Tan 0002, Trung Bui, Quan Tran, Seunghyun Yoon 0002, Hanieh Deilamsalehy, Franck Dernoncourt, Thien Huu Nguyen. 2133-2137 [doi]

J-ToneNet: A Transformer-based Encoding Network for Improving Tone Classification in Continuous Speech via F0 SequencesYi-Fen Liu, Xiang-Li Lu. 2138-2142 [doi]

Towards Cross-Language Prosody Transfer for DialogJonathan E. Avila, Nigel G. Ward. 2143-2147 [doi]

Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR ModelsSantosh Kesiraju, Marek Sarvas, Tomás Pavlícek, Cécile Macaire, Alejandro Ciuba. 2148-2152 [doi]

ITALIC: An Italian Intent Classification DatasetAlkis Koudounas, Moreno La Quatra, Lorenzo Vaiani, Luca Colomba, Giuseppe Attanasio, Eliana Pastor, Luca Cagliero, Elena Baralis. 2153-2157 [doi]

Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR EvaluationJanine Rugayan, Giampiero Salvi, Torbjørn Svendsen. 2158-2162 [doi]

How ChatGPT is Robust for Spoken Language Understanding?Guangpeng Li, Lu Chen, Kai Yu. 2163-2167 [doi]

GigaST: A 10, 000-hour Pseudo Speech Translation CorpusRong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao. 2168-2172 [doi]

Boosting Chinese ASR Error Correction with Dynamic Error Scaling MechanismJiaxin Fan, Yong Zhang, Hanzhang Li, Jianzong Wang, Zhitao Li, Sheng Ouyang, Ning Cheng 0001, Jing Xiao 0006. 2173-2177 [doi]

Crowdsource-based Validation of the Audio Cocktail as a Sound Browsing ToolPer Fallgren, Jens Edlund. 2178-2182 [doi]

PunCantonese: A Benchmark Corpus for Low-Resource Cantonese Punctuation Restoration from Speech TranscriptsYunxiang Li, Pengfei Liu, Xixin Wu, Helen Meng. 2183-2187 [doi]

Speech-to-Face Conversion Using Denoising Diffusion Probabilistic ModelsShuhei Kato, Taiichi Hashimoto. 2188-2192 [doi]

Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech TranslationYuta Nishikawa, Satoshi Nakamura 0001. 2193-2197 [doi]

Conmer: Streaming Conformer Without Self-attention for Interactive Voice AssistantsMartin Radfar, Paulina Lyskawa, Brandon Trujillo, Yi Xie, Kai Zhen, Jahn Heymann, Denis Filimonov, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris. 2198-2202 [doi]

Intra-ensemble: A New Method for Combining Intermediate Outputs in Transformer-based Automatic Speech RecognitionDo-Hee Kim, Ji-Eun Choi, Joon-Hyuk Chang. 2203-2207 [doi]

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding TasksYifan Peng, Kwangyoun Kim, Felix Wu, Brian Yan, Siddhant Arora, William Chen, Jiyang Tang, Suwon Shon, Prashant Sridhar, Shinji Watanabe 0001. 2208-2212 [doi]

HyperConformer: Multi-head HyperMixer for Efficient Speech RecognitionFlorian Mai, Juan Zuluaga-Gomez, Titouan Parcollet, Petr Motlícek. 2213-2217 [doi]

Memory-augmented conformer for improved end-to-end long-form ASRCarlos Carvalho, Alberto Abad. 2218-2222 [doi]

Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition SystemsMingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin 0010, Yutao Xie, Xie Chen 0001, Xunying Liu. 2223-2227 [doi]

An Enhanced Res2Net with Local and Global Feature Fusion for Speaker VerificationYafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen 0003, Jiajun Qi. 2228-2232 [doi]

A Study on Visualization of Voiceprint FeatureJian Zhang, Liang He, Xiaochen Guo, Jing Ma. 2233-2237 [doi]

VoxTube: a multilingual speaker recognition datasetIvan Yakovlev, Anton Okhotnikov, Nikita Torgashov, Rostislav Makarov, Yuri Voevodin, Konstantin Simonchik. 2238-2242 [doi]

Visualizing Data Augmentation in Deep Speaker RecognitionPengqi Li, Lantian Li, Askar Hamdulla, Dong Wang 0013. 2243-2247 [doi]

Fast and Efficient Multilingual Self-Supervised Pre-training for Low-Resource Speech RecognitionZhilong Zhang, Wei Wang, Yanmin Qian. 2248-2252 [doi]

UniSplice: Universal Cross-Lingual Data Splicing for Low-Resource ASRWei Wang, Yanmin Qian. 2253-2257 [doi]

Allophant: Cross-lingual Phoneme Recognition with Articulatory AttributesKevin Glocker, Aaricia Herygers, Munir Georges. 2258-2262 [doi]

Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR systemLi Li, Dongxing Xu, Haoran Wei, Yanhua Long. 2263-2267 [doi]

Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen LanguagesAndrew Rouditchenko, Sameer Khurana, Samuel Thomas 0001, Rogério Feris, Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James R. Glass. 2268-2272 [doi]

DistilXLSR: A Light Weight Cross-Lingual Speech Representation ModelHaoyu Wang, Siyuan Wang, Wei-Qiang Zhang 0001, Jinfeng Bai. 2273-2277 [doi]

Emotional Voice Conversion with Semi-Supervised Generative ModelingHai Zhu, Huayi Zhan, Hong Cheng 0002, Ying Wu 0001. 2278-2282 [doi]

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker AdaptationHa-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee. 2283-2287 [doi]

S2CD: Self-heuristic Speaker Content Disentanglement for Any-to-Any Voice ConversionPengfei Wei, Xiang Yin 0006, Chunfeng Wang, Zhonghao Li, Xinghua Qu, Zhiqiang Xu, Zejun Ma. 2288-2292 [doi]

Flow-VAE VC: End-to-End Flow Framework with Contrastive Loss for Zero-shot Voice ConversionLe Xu, Rongxiu Zhong, Ying Liu, Huibao Yang, Shilei Zhang. 2293-2297 [doi]

Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech AugmentationZhonghua Liu, Shijun Wang, Ning Chen 0007. 2298-2302 [doi]

End-to-End Zero-Shot Voice Conversion with Location-Variable ConvolutionsWonjune Kang, Mark Hasegawa-Johnson, Deb Roy. 2303-2307 [doi]

Classifying Dementia in the Presence of Depression: A Cross-Corpus StudyFranziska Braun, Sebastian P. Bayerl, Paula Andrea Pérez-Toro, Florian Hönig, Hartmut Lehfeld, Thomas Hillemacher, Elmar Nöth, Tobias Bocklet, Korbinian Riedhammer. 2308-2312 [doi]

Exploiting Cross-Domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech RecognitionShujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng, Guinan Li, Tianzi Wang, Helen Meng, Xunying Liu. 2313-2317 [doi]

Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data?Dominik Wagner, Ilja Baumann, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet. 2318-2322 [doi]

Responsiveness, Sensitivity and Clinical Utility of Timing-Related Speech Biomarkers for Remote Monitoring of ALS Disease ProgressionHardik Kothare, Michael Neumann, Jackson Liscombe, Jordan R. Green, Vikram Ramanarayanan. 2323-2327 [doi]

Use of Speech Impairment Severity for Dysarthric Speech RecognitionMengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu. 2328-2332 [doi]

MMLung: Moving Closer to Practical Lung Health Estimation using SmartphonesMohammed Mosuily, Lindsay Welch, Jagmohan Chauhan. 2333-2337 [doi]

Investigating the Utility of Synthetic Data for Doctor-Patient Conversation SummarizationSiyuan Chen, Colin A. Grambow, Mojtaba Kadkhodaie Elyaderani, Alireza Sadeghi, Federico Fancellu, Thomas Schaaf. 2338-2342 [doi]

Non-uniform Speaker Disentanglement For Depression Detection From Raw Speech SignalsJinhan Wang, Vijay Ravi, Abeer Alwan. 2343-2347 [doi]

PoCaPNet: A Novel Approach for Surgical Phase Recognition Using Speech and X-Ray ImagesKubilay Can Demir, Tobias Weise, Matthias May 0002, Axel Schmid, Andreas Maier 0001, Seung-Hee Yang. 2348-2352 [doi]

Combining Multiple Multimodal Speech Features into an Interpretable Index Score for Capturing Disease Progression in Amyotrophic Lateral SclerosisMichael Neumann, Hardik Kothare, Vikram Ramanarayanan. 2353-2357 [doi]

The MASCFLICHT Corpus: Face Mask Type and Coverage Area Recognition from SpeechAdria Mallol-Ragolta, Nils Urbach, Shuo Liu, Anton Batliner, Björn W. Schuller. 2358-2362 [doi]

Towards Reference Speech Characterization for Health ApplicationsCatarina Botelho, Alberto Abad, Tanja Schultz, Isabel Trancoso. 2363-2367 [doi]

Automatic Classification of Hypokinetic and Hyperkinetic Dysarthria based on GMM-SupervectorsCristian David Ríos-Urrego, Jan Rusz, Elmar Nöth, Juan Rafael Orozco-Arroyave. 2368-2372 [doi]

Towards robust paralinguistic assessment for real-world mobile health (mHealth) monitoring: an initial study of reverberation effects on speechJudith Dineley, Ewan Carr, Faith Matcham, Johnny Downs, Richard J. B. Dobson, Thomas F. Quatieri, Nicholas Cummins. 2373-2377 [doi]

Multimodal Assessment of Bulbar Amyotrophic Lateral Sclerosis (ALS) Using a Novel Remote Speech Assessment AppLeif E. R. Simmatis, Timothy Pommeé, Yana Yunusova. 2378-2382 [doi]

On the Use of High Frequency Information for Voice Pathology ClassificationDavid Martínez, Dayana Ribas, Eduardo Lleida. 2383-2387 [doi]

Do Phonatory Features Display Robustness to Characterize Parkinsonian Speech Across Corpora?Anna Favaro, Tianyu Cao 0003, Thomas Thebaud, Jesús Villalba 0001, Ankur Butala, Najim Dehak, Laureano Moro-Velázquez. 2388-2392 [doi]

Severity Classification of Parkinson's Disease from Speech using Single Frequency Filtering-based FeaturesSudarsana Reddy Kadiri, Manila Kodali, Paavo Alku. 2393-2397 [doi]

Comparison of acoustic measures of dysphonia in Parkinson's disease and Huntington's disease: Effect of sex and speaking taskMichal Simek, Tomás Kouba, Michal Novotný, Tereza Tykalová, Jan Rusz. 2398-2402 [doi]

Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and PausesLucía Gómez-Zaragozá, Simone Wills, Cristian Tejedor García, Javier Marín-Morales, Mariano Alcañiz, Helmer Strik. 2403-2407 [doi]

LanSER: Language-Model Supported Speech Emotion RecognitionTaesik Gong, Josh Belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou. 2408-2412 [doi]

Fine-tuned RoBERTa Model with a CNN-LSTM Network for Conversational Emotion RecognitionJiachen Luo, Huy Phan, Joshua D. Reiss. 2413-2417 [doi]

Emotion Label Encoding Using Word Embeddings for Speech Emotion RecognitionEimear Stanley, Eric DeMattos, Anita Klementiev, Piotr Ozimek, Georgia Clarke, Michael Berger, Dimitri Palaz. 2418-2422 [doi]

Discrimination of the Different Intents Carried by the Same Text Through Integrating Multimodal InformationZhongjie Li, Gaoyan Zhang, Longbiao Wang, Jianwu Dang 0001. 2423-2427 [doi]

Meta-domain Adversarial Contrastive Learning for Alleviating Individual Bias in Self-sentiment PredictionsZhi Li, Ryu Takeda, Takahiro Hara. 2428-2432 [doi]

SWRR: Feature Map Classifier Based on Sliding Window Attention and High-Response Feature Reuse for Multimodal Emotion RecognitionZiping Zhao 0001, Tian Gao, Haishuai Wang, Björn W. Schuller. 2433-2437 [doi]

PCNN: A Lightweight Parallel Conformer Neural Network for Efficient Monaural Speech EnhancementXinmeng Xu, Weiping Tu, Yuhong Yang 0001. 2438-2442 [doi]

Exploring the Interactions Between Target Positive and Negative Information for Acoustic Echo CancellationChang-Han, Xinmeng Xu, Weiping Tu, Yuhong Yang 0001, Yajie Liu. 2443-2447 [doi]

Iterative autoregression: a novel trick to improve your low-latency speech enhancement modelPavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov. 2448-2452 [doi]

A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint ModelsPin-Jui Ku, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee 0001. 2453-2457 [doi]

Domain Adaptation for Speech Enhancement in a Large Domain GapLior Frenkel, Jacob Goldberger, Shlomo E. Chazan. 2458-2462 [doi]

SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement TasksVasily Zadorozhnyy, Qiang Ye 0003, Kazuhito Koishida. 2463-2467 [doi]

A Mask Free Neural Network for Monaural Speech EnhancementLiang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding. 2468-2472 [doi]

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean SpeechLi-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao 0001, Hsin-Min Wang. 2473-2477 [doi]

A Simple RNN Model for Lightweight, Low-compute and Low-latency Multichannel Speech Enhancement in the Time DomainAshutosh Pandey 0004, Ke Tan 0001, Buye Xu. 2478-2482 [doi]

High Fidelity Speech Enhancement with Band-split RNNJianwei Yu, Hangting Chen, Yi Luo 0004, Rongzhi Gu, Chao Weng. 2483-2487 [doi]

Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker InformationJiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen 0024, Zhiyong Wu 0001, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. 2488-2492 [doi]

DFSNet: A Steerable Neural Beamformer Invariant to Microphone Array Configuration for Real-Time, Low-Latency Speech EnhancementAnton Kovalyov, Kashyap Patel, Issa M. S. Panahi. 2493-2497 [doi]

Speaker-Aware Anti-spoofingXuechen Liu, Md. Sahidullah, Kong-Aik Lee, Tomi Kinnunen. 2498-2502 [doi]

Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and MachineShoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani, Toshio Irino. 2503-2507 [doi]

EffCRN: An Efficient Convolutional Recurrent Network for High-Performance Speech EnhancementMarvin Sach, Jan Franzen, Bruno Defraene, Kristoff Fluyt, Maximilian Strake, Wouter Tirry, Tim Fingscheidt. 2508-2512 [doi]

HAD-ANC: A Hybrid System Comprising an Adaptive Filter and Deep Neural Networks for Active Noise ControlJungPhil Park, Jeong Hwan Choi, Yungyeo Kim, Joon-Hyuk Chang. 2513-2517 [doi]

MSAF: A Multiple Self-Attention Field Method for Speech EnhancementMinghang Chu, Jing Wang, Yaoyao Ma, Zhiwei Fan, Mengtao Yang, Chao Xu, Zhi Tao, Di Wu. 2518-2522 [doi]

Ultra Dual-Path Compression For Joint Echo Cancellation And Noise SuppressionHangting Chen, Jianwei Yu, Yi Luo 0004, Rongzhi Gu, Weihua Li, Zhuocheng Lu, Chao Weng. 2523-2527 [doi]

ABC-KD: Attention-Based-Compression Knowledge Distillation for Deep Learning-Based Noise SuppressionYixin Wan, Yuan Zhou, Xiulian Peng, Kai-Wei Chang, Yan Lu 0001. 2528-2532 [doi]

PLCMOS - A Data-driven Non-intrusive Metric for The Evaluation of Packet Loss Concealment AlgorithmsLorenz Diener, Marju Purin, Sten Sootla, Ando Saabas, Robert Aichner, Ross Cutler. 2533-2537 [doi]

Effects of Meter, Genre and Experience on Pausing, Lengthening and Prosodic Phrasing in German Poetry ReadingPetra Wagner, Simon Betz. 2538-2542 [doi]

Comparing first spectral moment of Australian English /s/ between straight and gay voices using three analysis window sizesTünde Szalay, John Holik, Duy Duong Nguyen, James Morandini, Catherine J. Madill. 2543-2547 [doi]

Universal Automatic Phonetic Transcription into the International Phonetic AlphabetChihiro Taguchi, Yusuke Sakai 0010, Parisa Haghani, David Chiang 0001. 2548-2552 [doi]

Voice Twins: Discovering Extremely Similar-sounding, Unrelated SpeakersLinda Gerlach, Kirsty McDougall, Finnian Kelly, Anil Alexander. 2553-2557 [doi]

Filling the population statistics gap: Swiss German reference data on F0 and speech tempo for forensic contextsHannah Hedegard, Andrea Fröhlich, Fabian Tomaschek, Carina Steiner, Adrian Leemann. 2558-2562 [doi]

Investigating the Syntax-Discourse Interface in the Phonetic Implementation of Discourse MarkersMathilde Hutin, Liesbeth Degand, Marc Allassonnière-Tang. 2563-2567 [doi]

Evaluation of a Forensic Automatic Speaker Recognition System with Emotional Speech RecordingsRobert Essery, Philip Harrison, Vincent Hughes. 2568-2572 [doi]

An Outlier Analysis of Vowel Formants from a Corpus Phonetics PipelineEmily Ahn, Gina-Anne Levow, Richard A. Wright, Eleanor Chodroff. 2573-2577 [doi]

The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link between Phonemes and Facial FeaturesLiao Qu, Xianwei Zou, Xiang Li 0106, YanDong Wen, Rita Singh, Bhiksha Raj. 2578-2582 [doi]

Beatboxing Kick Drum KinematicsReed Blaylock, Shrikanth Narayanan. 2583-2587 [doi]

Effects of hearing loss and amplification on Mandarin consonant perceptionHuali Zhou, Xianming Bei, Nengheng Zheng, Qinglin Meng. 2588-2592 [doi]

An Acoustic Analysis of Fricative Variation in Three Accents of EnglishRoland Adams, Calbert Graham. 2593-2597 [doi]

Acoustic cues to stress perception in Spanish - a mismatch negativity studyKarolina Bros. 2598-2602 [doi]

Bulgarian Unstressed Vowel Reduction: Received Views vs Corpus FindingsMitko Sabev, Bistra Andreeva, Christoph Gabriel, Jonas Gruenke. 2603-2607 [doi]

An Investigation of Indian Native Language Phonemic Influences on L2 English PronunciationsShelly Jain, Priyanshi Pal, Anil Kumar Vuppala, Prasanta Kumar Ghosh, Chiranjeevi Yarra. 2608-2612 [doi]

Identifying Stable Sections for Formant Frequency Extraction of French Nasal Vowels Based on Difference ThresholdsHye-Sook Park, SunHee Kim. 2613-2617 [doi]

Evaluation of delexicalization methods for research on emotional speechNicolas Audibert, Francesca Carbone, Maud Champagne-Lavau, Aurélien Said Housseini, Caterina Petrone. 2618-2622 [doi]

Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN)Jay Kejriwal, Stefan Benus. 2623-2627 [doi]

Unsupervised Auditory and Semantic Entrainment Models with Deep Neural NetworksJay Kejriwal, Stefan Benus, Lina Maria Rojas-Barahona. 2628-2632 [doi]

Parsing dialog turns with prosodic features in EnglishElizabeth Nielsen, Mark Steedman, Sharon Goldwater. 2633-2637 [doi]

Estimation of Listening Response Timing by Generative Model and Parameter Control of Response Substantialness Using Dynamic-Prompt-TuneToshiki Muromachi, Yoshinobu Kano. 2638-2642 [doi]

Parameter Selection for Analyzing Conversations with Autism Spectrum DisorderTahiya Chowdhury, Verónica Romero 0002, Amanda Stent. 2643-2647 [doi]

Efficient Multimodal Neural Networks for Trigger-less Voice AssistantsSai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya. 2648-2652 [doi]

Rapid Lexical Alignment to a Conversational AgentRachel Ostrand, Victor S. Ferreira, David Piorkowski. 2653-2657 [doi]

Multimodal Turn-Taking Model Using Visual Cues for End-of-Utterance Prediction in Spoken Dialogue SystemsFuma Kurata, Mao Saeki, Shinya Fujie, Yoichi Matsuyama. 2658-2662 [doi]

Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal TransformerNobukatsu Hojo, Saki Mizuno, Satoshi Kobashikawa, Ryo Masumura, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka. 2663-2667 [doi]

Improving the response timing estimation for spoken dialogue systems by reducing the effect of speech recognition delayJin Sakuma, Shinya Fujie, Huaibo Zhao, Tetsunori Kobayashi. 2668-2672 [doi]

Focus-attention-enhanced Crossmodal Transformer with Metric Learning for Multimodal Speech Emotion RecognitionKeulbit Kim, Namhyun Cho. 2673-2677 [doi]

A Multiple-Teacher Pruning Based Self-Distillation (MT-PSD) Approach to Model Compression for Audio-Visual Wake Word SpottingHaotian Wang, Jun Du, Hengshun Zhou, Chin-Hui Lee 0001, Yuling Ren, Jiangjiang Zhao. 2678-2682 [doi]

Abusive Speech Detection in Indic Languages Using Acoustic FeaturesAnika A. Spiesberger, Andreas Triantafyllopoulos, Iosif Tsangko, Björn W. Schuller. 2683-2687 [doi]

Listening To Silences In Contact Center Conversations Using Textual CuesDigvijay Ingle, Ayush Kumar, Jithendra Vepa. 2688-2692 [doi]

I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error CalibrationHeuiyeen Yeen, Minju Kim, Myoung-Wan Koo. 2693-2697 [doi]

Verbal and nonverbal feedback signals in response to increasing levels of miscommunicationMaeva Garnier, Éric Le Ferrand, Fabien Ringeval. 2698-2702 [doi]

Speech-Based Classification of Defensive Communication: A Novel Dataset and ResultsShahin Amiriparian, Lukas Christ, Regina Kushtanova, Maurice Gerczuk, Alexandra Teynor, Björn W. Schuller. 2703-2707 [doi]

Quantifying the perceptual value of lexical and non-lexical channels in speechSarenne Wallbridge, Peter Bell 0001, Catherine Lai. 2708-2712 [doi]

Relationships Between Gender, Personality Traits and Features of Multi-Modal Data to Responses to Spoken Dialog Systems BreakdownKazuya Tsubokura, Yurie Iribe, Norihide Kitaoka. 2713-2717 [doi]

Speaker-aware Cross-modal Fusion Architecture for Conversational Emotion RecognitionHuan Zhao, Bo Li, Zixing Zhang 0001. 2718-2722 [doi]

Blind Estimation of Room Impulse Response from Monaural Reverberant Speech with Segmental Generative Neural NetworkZhiheng Liao, Feifei Xiong, Juan Luo, Minjie Cai, Eng Siong Chng, Jinwei Feng, Xionghu Zhong. 2723-2727 [doi]

Emotion-Aware Audio-Driven Face Animation via Contrastive Feature DisentanglementXin Ren, Juan Luo, Xionghu Zhong, Minjie Cai. 2728-2732 [doi]

Anomalous Sound Detection Based on Sound SeparationKanta Shimonishi, Kota Dohi, Yohei Kawaguchi. 2733-2737 [doi]

Random Forest Classification of Breathing Phases from Audio Signals Recorded using Mobile DevicesVitória S. Fahed, Emer P. Doheny, Madeleine M. Lowery. 2738-2742 [doi]

GRAVO: Learning to Generate Relevant Audio from Visual Features with Noisy Online VideosYoungdo Ahn, Chengyi Wang 0002, Yu Wu 0012, Jong Won Shin, Shujie Liu 0001. 2743-2747 [doi]

Wav2ToBI: a new approach to automatic ToBI transcriptionWanyue Zhai, Mark Hasegawa-Johnson. 2748-2752 [doi]

Joint-Former: Jointly Regularized and Locally Down-sampled Conformer for Semi-supervised Sound Event DetectionLijian Gao, Qirong Mao, Ming Dong 0001. 2753-2757 [doi]

Towards Attention-based Contrastive Learning for Audio Spoof DetectionChirag Goel, Surya Koppisetti, Ben Colman, Ali Shahriyari, Gaurav Bharaj. 2758-2762 [doi]

Masked Audio Modeling with CLAP and Multi-Objective LearningYifei Xin, Xiulian Peng, Yan Lu 0001. 2763-2767 [doi]

Few-Shot Open-Set Learning for On-Device Customization of KeyWord Spotting SystemsManuele Rusci, Tinne Tuytelaars. 2768-2772 [doi]

Self-Supervised Dataset Pruning for Efficient Training in Audio Anti-spoofingAbdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza. 2773-2777 [doi]

Semantic Segmentation with Bidirectional Language Models Improves Long-form ASRW. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo-Yiin Chang, Tara N. Sainath. 2778-2782 [doi]

Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics FeaturesThéo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas. 2783-2787 [doi]

Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech DetectionJing Li, Yanhua Long, Yijie Li, Dongxing Xu. 2788-2792 [doi]

Insights into end-to-end audio-to-score transcription with real recordings: A case study with saxophone worksJuan Carlos Martinez-Sevilla, María Alfaro-Contreras, Jose J. Valero-Mas, Jorge Calvo-Zaragoza. 2793-2797 [doi]

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event TaggersYuan Gong 0001, Sameer Khurana, Leonid Karlinsky, James R. Glass. 2798-2802 [doi]

Synthetic Voice Spoofing Detection based on Feature Pyramid ConformerJingran Gong, Ning Chen 0007. 2803-2807 [doi]

Learning A Self-Supervised Domain-Invariant Feature Representation for Generalized Audio Deepfake DetectionYuankun Xie, Haonan Cheng, Yutian Wang, Long Ye. 2808-2812 [doi]

Application of Knowledge Distillation to Multi-Task Speech Representation LearningMine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser. 2813-2817 [doi]

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio CodesXilin Jiang, Yinghao Aaron Li, Nima Mesgarani. 2818-2822 [doi]

Variational Classifier for Unsupervised Anomalous Sound Detection under Domain GeneralizationAntonio Almudévar, Alfonso Ortega 0001, Luis Vicente, Antonio Miguel, Eduardo Lleida. 2823-2827 [doi]

FlexiAST: Flexibility is What AST NeedsJiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak. 2828-2832 [doi]

MCR-Data2vec 2.0: Improving Self-supervised Speech Pre-training via Model-level Consistency RegularizationJi Won Yoon, Seok Min Kim, Nam Soo Kim. 2833-2837 [doi]

Visually-Aware Audio Captioning With Adaptive Audio-Visual AttentionXubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang 0006, H. Lilian Tang, Mark D. Plumbley, Volkan Kiliç, Wenwu Wang 0001. 2838-2842 [doi]

Masking Kernel for Learning Energy-Efficient Representations for Speaker Recognition and Mobile HealthApiwat Ditthapron, Emmanuel O. Agu, Adam C. Lammert. 2843-2847 [doi]

eSTImate: A Real-time Speech Transmission Index Estimator With Speech Enhancement Auxiliary Task Using Self-Attention Feature Pyramid NetworkBajian Xiang, Hongkun Liu, Zedong Wu, Su Shen, Xiangdong Zhang. 2848-2852 [doi]

Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech EnhancementJunyu Wang. 2853-2857 [doi]

Privacy-preserving Representation Learning for Speech UnderstandingMinh Tran 0004, Mohammad Soleymani 0001. 2858-2862 [doi]

Vocoder drift in x-vector-based speaker anonymizationMichele Panariello, Massimiliano Todisco, Nicholas W. D. Evans. 2863-2867 [doi]

Malafide: a novel adversarial convolutive noise attack against deepfake and spoofing detection systemsMichele Panariello, Wanying Ge, Hemlata Tak, Massimiliano Todisco, Nicholas W. D. Evans. 2868-2872 [doi]

Speech Self-Supervised Representation Benchmarking: Are We Doing it Right?Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli. 2873-2877 [doi]

An extension of disentanglement metrics and its application to voiceOlivier Zhang, Olivier Le Blouch, Nicolas Gengembre, Damien Lolive. 2878-2882 [doi]

An Information-Theoretic Analysis of Self-supervised Discrete Representations of SpeechBadr M. Abdullah, Mohammed Maqsood Shaik, Bernd Möbius, Dietrich Klakow. 2883-2887 [doi]

SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix, Yukinori Honma. 2888-2892 [doi]

Comparison of GIF- and SSL-based Features in Pathological-voice DetectionAkira Sasou, Yang Chen. 2893-2897 [doi]

What is Learnt by the LEArnable Front-end (LEAF)? Adapting Per-Channel Energy Normalisation (PCEN) to Noisy ConditionsHanyu Meng, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 2898-2902 [doi]

End-to-End Joint Target and Non-Target Speakers ASRRyo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando. 2903-2907 [doi]

Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech RecognitionXianzhao Chen, Yist Y. Lin, Kang Wang, Yi He, Zejun Ma. 2908-2912 [doi]

Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Timestamp PredictionNaoki Makishima, Keita Suzuki, Satoshi Suzuki, Atsushi Ando, Ryo Masumura. 2913-2917 [doi]

Dual-Path Style Learning for End-to-End Noise-Robust Speech RecognitionYuchen Hu, Nana Hou, Chen Chen 0075, Eng Siong Chng. 2918-2922 [doi]

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech RecognitionXuefei Wang, Yanhua Long, Yijie Li, Haoran Wei. 2923-2927 [doi]

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generatorVladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg. 2928-2932 [doi]

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot FillingHe Huang, Jagadeesh Balam, Boris Ginsburg. 2933-2937 [doi]

Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference ModelsHeerin Yang, Seung-won Hwang, Jungmin So. 2938-2942 [doi]

Transfer Learning from Pre-trained Language Models Improves End-to-End Speech SummarizationKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix. 2943-2947 [doi]

Audio Retrieval with WavText5K and CLAP TrainingSoham Deshmukh, Benjamin Elizalde, Huaming Wang. 2948-2952 [doi]

Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language UnderstandingUmberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti. 2953-2957 [doi]

Contrastive Disentangled Learning for Memory-Augmented TransformerJen-Tzung Chien, Shang-En Li. 2958-2962 [doi]

ProsAudit, a prosodic benchmark for self-supervised speech modelsMaureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux. 2963-2967 [doi]

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal SubspacesOli Danyi Liu, Hao Tang, Sharon Goldwater. 2968-2972 [doi]

Evaluating context-invariance in unsupervised speech representationsMark Hallap, Emmanuel Dupoux, Ewan Dunbar. 2973-2977 [doi]

CoBERT: Self-Supervised Speech Representation Learning Through Code Representation LearningChutong Meng, Junyi Ao, Tom Ko, Mingxuan Wang, Haizhou Li 0001. 2978-2982 [doi]

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant ClusteringHeng-Jui Chang, Alexander H. Liu, James R. Glass. 2983-2987 [doi]

Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer EncoderJingru Lin, Xianghu Yue, Junyi Ao, Haizhou Li 0001. 2988-2992 [doi]

A Pipeline to Evaluate the Effects of Noise on Machine Learning Detection of Laryngeal CancerMary Paterson, James Moor, Luisa Cutillo. 2993-2997 [doi]

ReCLR: Reference-Enhanced Contrastive Learning of Audio Representation for Depression DetectionPingyue Zhang, Mengyue Wu, Kai Yu 0004. 2998-3002 [doi]

Automated Multiple Sclerosis Screening Based on Encoded Speech RepresentationsJosé Vicente Egas López, Veronika Svindt, Judit Bóna, Ildikó Hoffmann, Gábor Gosztolya. 3003-3007 [doi]

Cross-Lingual Features for Alzheimer's Dementia Detection from SpeechThomas Melistas, Lefteris Kapelonis, Nikolaos Antoniou, Petros Mitseas, Dimitris Sgouropoulos, Theodoros Giannakopoulos, Athanasios Katsamanis, Shrikanth Narayanan. 3008-3012 [doi]

Careful Whisper - leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classificationMario Zusag, Laurin Wagner, Theresa Bloder. 3013-3017 [doi]

Behavioral Analysis of Pathological Speaker Embeddings of Patients During Oncological Treatment of Oral CancerJenthe Thienpondt, Caroline M. Speksnijder, Kris Demuynck. 3018-3022 [doi]

Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-SpeechHyungchan Yoon, Seyun Um, ChangHwan Kim, Hong-Goo Kang. 3023-3027 [doi]

Adapter-Based Extension of Multi-Speaker Text-To-Speech Model for New SpeakersCheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg. 3028-3032 [doi]

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech SynthesisRamanan Sivaguru, Vasista Sai Lodagala, Srinivasan Umesh. 3033-3037 [doi]

UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed DataHeeseung Kim, Sungwon Kim, Jiheum Yeom, Sungroh Yoon. 3038-3042 [doi]

LightVoc: An Upsampling-Free GAN Vocoder Based On Conformer And Inverse Short-time Fourier TransformDinh Son Dang, Tung Lam Nguyen 0002, Bao Thang Ta, Tien Thanh Nguyen, Thi Ngoc Anh Nguyen, Dang Linh Le, Nhat Minh Le, Van Hai Do. 3043-3047 [doi]

ChatGPT-EDSS: Empathetic Dialogue Speech Synthesis Trained from ChatGPT-derived Context Word EmbeddingsYuki Saito, Shinnosuke Takamichi, Eiji Iimori, Kentaro Tachibana, Hiroshi Saruwatari. 3048-3052 [doi]

Human Transcription Quality ImprovementJian Gao, Hanbo Sun, Cheng Cao, Zheng Du. 3053-3057 [doi]

The effect of masking noise on listeners' spectral tilt preferencesOlympia Simantiraki, Yannis Pantazis, Martin Cooke. 3058-3062 [doi]

The Effect of Whistled Vowels on Whistled Word Categorization for Naive ListenersAnaïs Tran Ngoc, Fanny Meunier, Julien Meyer. 3063-3067 [doi]

Automatic Deep Neural Network-Based Segmental Pronunciation Error Detection of L2 English Speech (L1 Bengali)Puja Bharati, Sabyasachi Chandra, Shayamal Kumar Das Mandal. 3068-3072 [doi]

The effect of stress on Mandarin tonal perception in continuous speech for Spanish-speaking learnersLixia Hao, Qi Gong, Jinsong Zhang 0001. 3073-3077 [doi]

Combining acoustic and aerodynamic data collection: A perceptual evaluation of acoustic distortionsAmélie Elmerich, Jiayin Gao, Angélique Amelot, Lise Crevier-Buchman, Shinji Maeda. 3078-3082 [doi]

Estimating virtual targets for lingual stop consonants using general Tau theoryBenjamin Elie, Alice Turk. 3083-3087 [doi]

Using Random Forests to classify language as a function of syllable timing in two groups: children with cochlear implants and with normal hearingMark Gibson. 3088-3092 [doi]

An Improved End-to-End Audio-Visual Speech Recognition ModelSheng Yang, Zheng Gong, Jia Kang. 3093-3097 [doi]

What influences the foreign accent strength? Phonological and grammatical errors in the perception of accentednessSarah Wesolek, Piotr Gulgowski, Joanna Blaszczak, Marzena Zygis. 3098-3102 [doi]

Investigating the Perception Production Link through Perceptual Adaptation and Phonetic ConvergenceLena-Marie Huttner, Noël Nguyen, Martin J. Pickering. 3103-3107 [doi]

Emotion Prompting for Speech Emotion RecognitionXingfa Zhou, Min Li, Lan Yang 0004, Rui Sun, Xin Wang, Huayi Zhan. 3108-3112 [doi]

Speech-in-Speech Recognition is Modulated by Familiarity to DialectJessica L. L. Chin, Elena Talevska, Mark Antoniou. 3113-3116 [doi]

BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker ConditionsJie Zhang 0042, Qing-Tian Xu, Qiu-Shi Zhu, Zhen-Hua Ling. 3117-3121 [doi]

Are retroflex-to-dental sibilant substitutions in Polish children's speech an example of a covert contrast? A preliminary acoustic studyZuzanna Miodonska, Claartje Levelt, Natalia Mocko, Michal Krecichwost, Agata Sage, Pawel Badura. 3122-3126 [doi]

Reversible Neural Networks for Memory-Efficient Speaker VerificationBei Liu, Yanmin Qian. 3127-3131 [doi]

ECAPA++: Fine-grained Deep Embedding Learning for TDNN Based Speaker VerificationBei Liu, Yanmin Qian. 3132-3136 [doi]

TO-Rawnet: Improving RawNet with TCN and Orthogonal Regularization for Fake Audio DetectionChenglong Wang, Jiangyan Yi, Jianhua Tao 0001, Chu-Yuan Zhang, Shuai Zhang, Ruibo Fu, Xun Chen. 3137-3141 [doi]

Fooling Speaker Identification Systems with Adversarial Background MusicChu-Xiao Zuo, Jia-Yi Leng, Wu-Jun Li. 3142-3146 [doi]

Mutual Information-based Embedding Decoupling for Generalizable Speaker VerificationJianchen Li, Jiqing Han 0001, Shiwen Deng, Tieran Zheng, Yongjun He, Guibin Zheng. 3147-3151 [doi]

Target Active Speaker Detection with Audio-visual CuesYidi Jiang, Ruijie Tao, Zexu Pan, Haizhou Li 0001. 3152-3156 [doi]

Improving End-to-End Neural Diarization Using Conversational Summary RepresentationsSamuel J. Broughton, Lahiru Samarakoon. 3157-3161 [doi]

Phase perturbation improves channel robustness for speech spoofing countermeasuresYongyi Zang, You Zhang 0001, Zhiyao Duan. 3162-3166 [doi]

Improving training datasets for resource-constrained speaker recognition neural networksPierre-Michel Bousquet, Mickael Rouvier. 3167-3171 [doi]

Instance-based Temporal Normalization for Speaker VerificationThanathai Lertpetchpun, Ekapol Chuangsuwanich. 3172-3176 [doi]

On the robustness of wav2vec 2.0 based speaker recognition systemsSergey Novoselov, Galina Lavrentyeva, Anastasia Avdeeva, Vladimir Volokhov, Nikita Khmelev, Artem Akulov, Polina Leonteva. 3177-3181 [doi]

P-vectors: A Parallel-coupled TDNN/Transformer Network for Speaker VerificationXiyuan Wang, Fangyuan Wang, Bo Xu, Liang Xu, Jing Xiao 0006. 3182-3186 [doi]

Group GMM-ResNet for Detection of Synthetic Speech AttacksZhenchun Lei, Yan Wen, Yingen Yang, Changhong Liu, Minglei Ma. 3187-3191 [doi]

Robust Training for Speaker Verification against Noisy LabelsZhihua Fang, Liang He 0003, Hanhan Ma, Xiaochen Guo, Lin Li. 3192-3196 [doi]

Self-Distillation into Self-Attention Heads for Improving Transformer-based End-to-End Neural Speaker DiarizationYe-Rin Jeoung, Jeong Hwan Choi, Ju-Seok Seong, Jehyun Kyung, Joon-Hyuk Chang. 3197-3201 [doi]

Build a SRE Challenge System: Lessons from VoxSRC 2022 and CNSRC 2022Zhengyang Chen, Bing Han, Xu Xiang, Houjun Huang, Bei Liu, Yanmin Qian. 3202-3206 [doi]

Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognitionImen Ben Amor, Jean-François Bonastre, Benjamin O'Brien, Pierre-Michel Bousquet. 3207-3211 [doi]

Range-Based Equal Error Rate for Spoof LocalizationLin Zhang, Xin Wang 0037, Erica Cooper, Nicholas W. D. Evans, Junichi Yamagishi. 3212-3216 [doi]

Exploring the English Accent-independent Features for Speech Emotion Recognition using Filter and Wrapper-based Methods for Feature SelectionNowshin Tabassum, Tasfia Tabassum, Fardin Saad, Tahiya Sultana Safa, Hasan Mahmud, Md. Kamrul Hasan. 3217-3221 [doi]

Powerset multi-class cross entropy loss for neural speaker diarizationAlexis Plaquet, Hervé Bredin. 3222-3226 [doi]

A Method of Audio-Visual Person Verification by Mining Connections between Time SeriesPeiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang, Honggang Zhang 0002, Pengfei Hu 0004. 3227-3231 [doi]

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision QuantizationEdward Fish, Umberto Michieli, Mete Ozay. 3232-3236 [doi]

Modeling Dependent Structure for Utterances in ASR EvaluationZhe Liu 0011, Fuchun Peng. 3237-3241 [doi]

ASR for Low Resource and Multilingual Noisy Code-Mixed SpeechTushar Verma, Atul Shree, Ashutosh Modi. 3242-3246 [doi]

Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition SystemXian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan. 3247-3251 [doi]

Combining Multilingual Resources and Models to Develop State-of-the-Art E2E ASR for SwedishLukás Mateju, Jan Nouza, Petr Cerva, Jindrich Zdánský, Frantisek Kynych. 3252-3256 [doi]

Two Stage Contextual Word Filtering for Context Bias in Unified Streaming and Non-streaming TransducerZhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie 0001. 3257-3261 [doi]

Towards continually learning new languagesQuan Ngoc Pham, Jan Niehues, Alex Waibel. 3262-3266 [doi]

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding SpaceRao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian. 3267-3271 [doi]

SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic KnowledgeJiaxu Zhu, Changhe Song, Zhiyong Wu 0001, Helen Meng. 3272-3276 [doi]

miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming ASR Applications on the EdgeHaris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai. 3277-3281 [doi]

CoMFLP: Correlation Measure Based Fast Search on ASR Layer PruningWei Liu, Zhiyuan Peng, Tan Lee. 3282-3286 [doi]

Exploration on HuBERT with Multiple ResolutionJiatong Shi, Yun Tang 0002, Hirofumi Inaguma, Hongyu Gong, Juan Pino 0001, Shinji Watanabe 0001. 3287-3291 [doi]

Quantization-aware and Tensor-compressed Training of Transformers for Natural Language UnderstandingZi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang. 3292-3296 [doi]

Word-level Confidence Estimation for CTC ModelsBurin Naowarat, Thananchai Kongthaworn, Ekapol Chuangsuwanich. 3297-3301 [doi]

Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource LanguagesDevang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati. 3302-3306 [doi]

Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech RecognitionZhisheng Zheng, Ziyang Ma, Yu Wang 0027, Xie Chen 0001. 3307-3311 [doi]

4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decodersYui Sudo, Muhammad Shakeel 0001, Brian Yan, Jiatong Shi, Shinji Watanabe 0001. 3312-3316 [doi]

Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command RecognitionHao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Yu Tsao 0001. 3317-3321 [doi]

Language-specific Boundary Learning for Improving Mandarin-English Code-switching Speech RecognitionZhiyun Fan, Linhao Dong, Chen Shen 0011, Zhenlin Liang, Jun Zhang 0066, Lu Lu 0015, Zejun Ma. 3322-3326 [doi]

Mixture-of-Expert Conformer for Streaming Multilingual ASRKe Hu, Bo Li 0028, Tara N. Sainath, Yu Zhang 0033, Françoise Beaufays. 3327-3331 [doi]

Lossless 4-bit Quantization of Architecture Compressed Conformer ASR Systems on the 300-hr Switchboard CorpusZhaoqing Li, Tianzi Wang, Jiajun Deng, Junhao Xu, Shoukang Hu, Xunying Liu. 3332-3336 [doi]

Compressed MoE ASR Model Based on Knowledge Distillation and QuantizationYuping Yuan, Zhao You, Shulin Feng, Dan Su 0002, Yanchun Liang 0001, Xiaohu Shi, Dong Yu 0001. 3337-3341 [doi]

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition SystemsJiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi Wang, Shujie Hu, Mengzhe Geng, Xunying Liu. 3342-3346 [doi]

Text Only Domain Adaptation with Phoneme Guided Data Splicing for End-to-End Speech RecognitionWei Wang, Xun Gong 0005, Hang Shao, Dongning Yang, Yanmin Qian. 3347-3351 [doi]

Cross-Lingual Cross-Age Adaptation for Low-Resource Elderly Speech Emotion RecognitionSamuel Cahyawijaya, Holy Lovenia, Willy Chung, Rita Frieske, Zihan Liu 0001, Pascale Fung. 3352-3356 [doi]

Modular Domain Adaptation for Conformer-Based Streaming ASRQiujia Li, Bo Li 0028, Dongseong Hwang, Tara N. Sainath, Pedro Moreno Mengibar. 3357-3361 [doi]

Don't Stop Self-Supervision: Accent Adaptation of Speech Representations via Residual AdaptersAnshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan, Sravan Bodapati, Katrin Kirchhoff. 3362-3366 [doi]

SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy MinimizationChanghun Kim, Joonhyung Park, Hajin Shim, Eunho Yang. 3367-3371 [doi]

A Generative Framework for Conversational Laughter: Its 'Language Model' and Laughter Sound SynthesisHiroki Mori, Shunya Kimura. 3372-3376 [doi]

Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech SynthesisWeiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou 0002, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 3377-3381 [doi]

Beyond Style: Synthesizing Speech with Pragmatic FunctionsHarm Lameris, Joakim Gustafson, Éva Székely. 3382-3386 [doi]

eCat: An End-to-End Model for Multi-Speaker TTS & Many-to-Many Fine-Grained Prosody TransferAmmar Abbas, Sri Karlapati, Bastian Schnell, Penny Karanasou, Marcel Granero Moya, Amith Nagaraj, Ayman Boustati, Nicole Peinelt, Alexis Moinet, Thomas Drugman. 3387-3391 [doi]

BeAts: Bengali Speech Acts Recognition using Multimodal Attention FusionAhana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar. 3392-3396 [doi]

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric LearningSara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima. 3397-3401 [doi]

Whistle-to-text: Automatic recognition of the Silbo Gomero whistled languageAgata Jakubiak. 3402-3406 [doi]

A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer CorpusLufei Gao, Shan Huang, Li Liu 0036. 3407-3411 [doi]

Visually grounded few-shot word acquisition with fewer shotsLeanne Nortje, Benjamin van Niekerk, Herman Kamper. 3412-3416 [doi]

JAMFN: Joint Attention Multi-Scale Fusion Network for Depression DetectionLi Zhou, Zhenyu Liu 0006, Zixuan Shangguan, Xiaoyan Yuan, Yutong Li, Bin Hu 0001. 3417-3421 [doi]

Prompt Guided Copy Mechanism for Conversational Question AnsweringYong Zhang, Zhitao Li, Jianzong Wang, Yiming Gao 0010, Ning Cheng 0001, Fengying Yu, Jing Xiao 0006. 3422-3426 [doi]

Composing Spoken Hints for Follow-on Question Suggestion in Voice AssistantsPedro Faustini, Besnik Fetahu, Giuseppe Castellucci, Anjie Fang, Oleg Rokhlenko, Shervin Malmasi. 3427-3431 [doi]

On Monotonic Aggregation for Open-domain QASang-Eun Han, Yeonseok Jeong, Seung-won Hwang, Kyungjae Lee 0002. 3432-3436 [doi]

Question-Context Alignment and Answer-Context Dependencies for Effective Answer Sentence SelectionMinh Van Nguyen, Kishan KC, Toan Nguyen, Thien Huu Nguyen, Ankit Chadha, Thuy Vu. 3437-3441 [doi]

Multi-Scale Attention for Audio Question AnsweringGuangyao Li, Yixin Xu, Di Hu 0001. 3442-3446 [doi]

Enhancing Visual Question Answering via Deconstructing Questions and Explicating AnswersFeilong Chen, Minglun Han, Jing Shi 0003, Shuang Xu, Bo Xu 0002. 3447-3451 [doi]

SEF-Net: Speaker Embedding Free Target Speaker Extraction NetworkBang Zeng, Hongbin Suo, Yulong Wan, Ming Li 0026. 3452-3456 [doi]

Cascaded encoders for fine-tuning ASR models on overlapped speechRichard Rose, Oscar Chang, Olivier Siohan. 3457-3461 [doi]

TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and RecognitionHakan Erdogan, Scott Wisdom, Xuankai Chang, Zalán Borsos, Marco Tagliasacchi, Neil Zeghidour, John R. Hershey. 3462-3466 [doi]

Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar SeparatorLingwei Meng, Jiawen Kang, Mingyu Cui, Haibin Wu, Xixin Wu, Helen Meng. 3467-3471 [doi]

Time-domain Transformer-based Audiovisual Speaker SeparationVahid Ahmadi Kalkhorani, Anurag Kumar 0003, Ke Tan 0001, Buye Xu, DeLiang Wang. 3472-3476 [doi]

Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based DiarizationMarc Delcroix, Naohiro Tawara, Mireia Díez, Federico Landini, Anna Silnova, Atsunori Ogawa, Tomohiro Nakatani, Lukás Burget, Shoko Araki. 3477-3481 [doi]

Unsupervised Adaptation with Quality-Aware Masking to Improve Target-Speaker Voice Activity Detection for Speaker DiarizationShutong Niu, Jun Du, Maokui He, Chin-Hui Lee 0001, Baoxiang Li, Jiakui Li. 3482-3486 [doi]

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASRYuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen 0003, Lei Xie 0001. 3487-3491 [doi]

Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech SeparationChenyang Gao, Yue Gu, Ivan Marsic. 3492-3496 [doi]

Joint compensation of multi-talker noise and reverberation for speech enhancement with cochlear implants using one or more microphonesClément Gaultier, Tobias Goehring. 3497-3501 [doi]

Speaker Diarization for ASR Output with T-vectors: A Sequence Classification ApproachMidia Yousefi, Naoyuki Kanda, Dongmei Wang, Zhuo Chen 0006, Xiaofei Wang 0009, Takuya Yoshioka. 3502-3506 [doi]

GPU-accelerated Guided Source Separation for Meeting TranscriptionDesh Raj, Daniel Povey, Sanjeev Khudanpur. 3507-3511 [doi]

Overlap Aware Continuous Speech Separation without Permutation Invariant TrainingLinfeng Yu, Wangyou Zhang, Chenda Li, Yanmin Qian. 3512-3516 [doi]

Weakly-Supervised Speech Pre-training: A Case Study on Target Speech RecognitionWangyou Zhang, Yanmin Qian. 3517-3521 [doi]

Directional Speech Recognition for Speaker Disambiguation and Cross-talk SuppressionJu Lin, Niko Moritz, Ruiming Xie, Kaustubh Kalgaonkar, Christian Fuegen, Frank Seide. 3522-3526 [doi]

Mixture Encoder for Joint Speech Separation and RecognitionSimon Berger, Peter Vieting, Christoph Böddeker, Ralf Schlüter, Reinhold Haeb-Umbach. 3527-3531 [doi]

Aberystwyth English Pre-aspiration in Apparent TimeMísa Hejná, Adèle Jatteau. 3532-3536 [doi]

Speech Entrainment in Chinese Story-Style Talk Shows: The Interaction Between Gender and RoleYanting Sun, Hongwei Ding. 3537-3541 [doi]

Sociodemographic and Attitudinal Effects on Dialect Speakers' Articulation of the Standard Language: Evidence from German-Speaking SwitzerlandCarina Steiner, Dieter Studer-Joho, Corinne Lanthemann, Andrin Büchler, Adrian Leemann. 3542-3546 [doi]

Vowel Normalisation in Latent Space for SociolinguisticsJames Burridge. 3547-3551 [doi]

Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker AttractorZhengyang Chen, Bing Han, Shuai Wang, Yanmin Qian. 3552-3556 [doi]

Robust Self Supervised Speech Embeddings for Child-Adult Classification in Interactions involving Children with AutismRimita Lahiri, TianTian Feng, Rajat Hebbar, Catherine Lord, So-Hyun Kim, Shrikanth Narayanan. 3557-3561 [doi]

The DISPLACE Challenge 2023 - DIarization of SPeaker and LAnguage in Conversational EnvironmentsShikha Baghel, Shreyas Ramoji, Sidharth, Ranjana H, Prachi Singh, Somil Jain, Pratik Roy Chowdhuri, Kaustubh Kulkarni, Swapnil Padhi, Deepu Vijayasenan, Sriram Ganapathy. 3562-3566 [doi]

Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error CorrectionRohit Paturi, Sundararajan Srinivasan, Xiang Li. 3567-3571 [doi]

The SpeeD-ZevoTech submission at DISPLACE 2023Gabriel Pirlogeanu, Dan Oneata, Alexandru-Lucian Georgescu, Horia Cucu. 3572-3576 [doi]

End-to-End Neural Speaker Diarization with Absolute Speaker LossChao Wang, Jie Li, Xiang Fang, Jian Kang, Yongxiang Li. 3577-3581 [doi]

A Context-Constrained Sentence Modeling for Deception Detection in Real InterrogationYa-Tse Wu, Yuan-Ting Chang, Shao-Hao Lu, Jing-Yi Chuang, Chi-Chun Lee. 3582-3586 [doi]

MetricAug: A Distortion Metric-Lead Augmentation Strategy for Training Noise-Robust Speech Emotion RecognizerYa-Tse Wu, Chi-Chun Lee. 3587-3591 [doi]

The co-use of laughter and head gestures across speech stylesBogdan Ludusan, Marin Schröer, Martina Rossi, Petra Wagner. 3592-3596 [doi]

EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion RecognitionHaiyang Sun, Zheng Lian, Bin Liu 0041, Ying Li, Jianhua Tao 0001, Licai Sun, Cong Cai, Meng Wang, Yuan Cheng. 3597-3601 [doi]

Pre-Finetuning for Few-Shot Emotional Speech RecognitionMaximillian Chen, Zhou Yu 0005. 3602-3606 [doi]

Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for ConversationsWen Wu, Chao Zhang 0031, Philip C. Woodland. 3607-3611 [doi]

Utility-Preserving Privacy-Enabled Speech Embeddings for Emotion DetectionChandrashekhar Lavania, Sanjiv Das, Xin Huang, Kyu J. Han. 3612-3616 [doi]

Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical InterviewsSergio Burdisso, Esaú Villatoro-Tello, Srikanth R. Madikeri, Petr Motlícek. 3617-3621 [doi]

Laughter in task-based settings: whom we talk to affects how, when, and how often we laughCatarina Branco, Isabel Trancoso, Paulo Infante, Khiet P. Truong. 3622-3626 [doi]

Exploring Downstream Transfer of Self-Supervised Features for Speech Emotion RecognitionYuanbo Fang, Xiaofen Xing, Xiangmin Xu, Weibin Zhang. 3627-3631 [doi]

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled ModelsDanilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann. 3632-3636 [doi]

Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender PretrainingYuan Gao, Chenhui Chu, Tatsuya Kawahara. 3637-3641 [doi]

Investigating Acoustic Cues for Multilingual Abuse DetectionYash Thakran, Vinayak Abrol. 3642-3646 [doi]

A novel frequency warping scale for speech emotion recognitionPremjeet Singh, Goutam Saha 0001. 3647-3651 [doi]

Multi-Scale Temporal Transformer For Speech Emotion RecognitionZhipeng Li, Xiaofen Xing, Yuanbo Fang, Weibin Zhang, Hengsheng Fan, Xiangmin Xu. 3652-3656 [doi]

Distant Speech Emotion Recognition in an Indoor Human-robot Interaction ScenarioNicolás Grágeda, Eduardo Alvarado, Rodrigo Mahú, Carlos Busso, Néstor Becerra Yoma. 3657-3661 [doi]

A Study on Prosodic Entrainment in Relation to Therapist Empathy in Counseling ConversationDehua Tao, Tan Lee, Harold Chui, Sarah Luk. 3662-3666 [doi]

A Unified Framework to Improve Learners' Skills of Perception and Production Based on Speech Shadowing and OverlappingNobuaki Minematsu, Noriko Nakanishi, Yingxiang Gao, Haitong Sun. 3667-3668 [doi]

Speak & Improve: L2 English Speaking Practice ToolDiane Nicholls, Kate M. Knill, Mark J. F. Gales, Anton Ragni, Paul Ricketts. 3669-3670 [doi]

Measuring prosody in child speech using SoapBox Fluency APIMauro Nicolao, Brenda McGuirk, Declan Moore, Niall Mullally, Lora Lynn O'Mahony, Emma O'Neill, Amelia C. Kelly. 3671-3672 [doi]

Teaching Non-native Sound Contrasts using Visual BiofeedbackShawn L. Nissen. 3673-3674 [doi]

Large-Scale Automatic Audiobook CreationBrendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He 0005, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer. 3675-3676 [doi]

QVoice: Arabic Speech Pronunciation Learning ApplicationYassine El Kheir, Fouad Khnaisser, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal, Ahmed M. Ali 0002. 3677-3678 [doi]

Asking Questions: an Innovative Way to Interact with Oral History ArchivesJan Svec, Martin Bulín, Adam Frémund, Filip Polák. 3679-3680 [doi]

DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency CorrectionVineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya. 3681-3682 [doi]

Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture Videos into Multiple Indian LanguagesAnusha Prakash 0001, Arun Kumar A, Ashish Seth, Bhagyashree Mukherjee, Ishika Gupta, Jom Kuriakose, Jordan Fernandes, K. V. Vikram, Mano Ranjith Kumar M., Metilda Sagaya Mary, Mohammad Wajahat, Mohana N, Mudit Batra, Navina K, Nihal John George, Nithya Ravi, Pruthwik Mishra, Sudhanshu Srivastava, Vasista Sai Lodagala, Vandan Mujadia, Kada Sai Venkata Vineeth, Vrunda N. Sukhadia, Dipti Misra Sharma, Hema A. Murthy, Pushpak Bhattacharyya, Srinivasan Umesh, Rajeev Sangal. 3683-3684 [doi]

MyVoice: Arabic Speech Resource Collaboration PlatformYousseif Elshahawy, Yassine El Kheir, Shammur Absar Chowdhury, Ahmed M. Ali 0002. 3685-3686 [doi]

Personal Primer Prototype 1: Invitation to Make Your Own Embooked Speech-Based Educational ArtifactDaniel Devatman Hromada, Hyungjoong Kim. 3687-3688 [doi]

Time-frequency Domain Filter-and-sum Network for Multi-channel Speech SeparationZhewen Deng, Yi Zhou, Hongqing Liu. 3689-3693 [doi]

Audio-Visual Fusion using Multiscale Temporal Convolutional Attention for Time-Domain Speech SeparationDebang Liu, Tianqi Zhang, Mads Græsbøll Christensen, Ying Wei, Zeliang An. 3694-3698 [doi]

An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel AttentionJunyu Wang. 3699-3703 [doi]

Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT)Waradon Phokhinanan, Nicolas Obin, Sylvain Argentieri. 3704-3708 [doi]

Contrastive Learning based Deep Latent Masking for Music Source SeparationJihyun Kim, Hong-Goo Kang. 3709-3713 [doi]

Speaker Extraction with Detection of Presence and Absence of Target SpeakersKe Zhang, Marvin Borsdorf, Zexu Pan, Haizhou Li 0001, Yangjie Wei, Yi Wang. 3714-3718 [doi]

PIAVE: A Pose-Invariant Audio-Visual Speaker Extraction NetworkQinghua Liu, Meng Ge, Zhizheng Wu 0001, Haizhou Li 0001. 3719-3723 [doi]

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio LearningMiguel Sarabia, Elena Menyaylenko, Alessandro Toso, Skyler Seto, Zakaria Aldeneh, Shadi Pirhosseinloo, Luca Zappella, Barry-John Theobald, Nicholas Apostoloff, Jonathan Sheaffer. 3724-3728 [doi]

Image-driven Audio-visual Universal Source SeparationChenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuo Zhang, Xiaorui Wang. 3729-3733 [doi]

Joint Blind Source Separation and Dereverberation for Automatic Speech Recognition using Delayed-Subsource MNMF with Localization PriorMieszko Fras, Marcin Witkowski, Konrad Kowalczyk. 3734-3738 [doi]

SDNet: Stream-attention and Dual-feature Learning Network for Ad-hoc Array Speech SeparationHonglong Wang, Chengyun Deng, Yanjie Fu, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu Dang 0001, Fei Wang. 3739-3743 [doi]

Deeply Supervised Curriculum Learning for Deep Neural Network-based Sound Source LocalizationMin-Sang Baek, Joon-Young Yang, Joon-Hyuk Chang. 3744-3748 [doi]

Multi-channel separation of dynamic speech and sound eventsTakuya Fujimura, Robin Scheibler. 3749-3753 [doi]

Rethinking the Visual Cues in Audio-Visual Speaker ExtractionJunjie Li, Meng Ge, Zexu Pan, Rui Cao, Longbiao Wang, Jianwu Dang 0001, Shiliang Zhang. 3754-3758 [doi]

Using Semi-supervised Learning for Monaural Time-domain Speech Separation with a Self-supervised Learning-based SI-SNR EstimatorShaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo. 3759-3763 [doi]

Investigation of Training Mute-Expressive End-to-End Speech Separation Networks for an Unknown Number of SpeakersYounggwan Kim, Hyungjun Lim, Kiho Yeom, Eunjoo Seo, Hoodong Lee, Stanley Jungkyu Choi, Honglak Lee. 3764-3768 [doi]

SR-SRP: Super-Resolution based SRP-PHAT for Sound Source Localization and TrackingJae-Heung Cho, Joon-Hyuk Chang. 3769-3773 [doi]

Dual-Memory Multi-Modal Learning for Continual Spoken Keyword Spotting with Confidence Selection and Diversity EnhancementZhao Yang, Dianwen Ng, Xizhe Li, Chong Zhang 0003, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma 0001, Eng Siong Chng. 3774-3778 [doi]

FN-SSL: Full-Band and Narrow-Band Fusion for Sound Source LocalizationYabo Wang, Bing Yang, Xiaofei Li. 3779-3783 [doi]

A Neural State-Space Modeling Approach to Efficient Speech SeparationChen Chen 0075, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng Siong Chng. 3784-3788 [doi]

Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech SeparationYanjie Fu, Meng Ge, Honglong Wang, Nan Li, Haoran Yin, Longbiao Wang, Gaoyan Zhang, Jianwu Dang 0001, Chengyun Deng, Fei Wang. 3789-3793 [doi]

Monaural Speech Separation Method Based on Recurrent Attention with Parallel BranchesXue Yang, Changchun Bao, Xu Zhang, Xianhong Chen. 3794-3798 [doi]

Ontology-aware Learning and Evaluation for Audio TaggingHaohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang 0001, Mark D. Plumbley. 3799-3803 [doi]

Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofingHye-jin Shim, Jee-weon Jung, Tomi Kinnunen. 3804-3808 [doi]

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech EnhancementBunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann. 3809-3813 [doi]

Complex-valued neural networks for voice anti-spoofingNicolas M. Müller, Philip Sperl, Konstantin Böttinger. 3814-3818 [doi]

DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and DereverberationNicolae-Catalin Ristea, Evgenii Indenbom, Ando Saabas, Tanel Pärnamaa, Jegor Guzvin, Ross Cutler. 3819-3823 [doi]

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech EnhancementRyosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya 0001, Shusuke Takahashi, Yuki Mitsufuji. 3824-3828 [doi]

HD-DEMUCS: General Speech Restoration with Heterogeneous DecodersDoyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang. 3829-3833 [doi]

MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase SpectraYe-Xin Lu, Yang Ai, Zhen-Hua Ling. 3834-3838 [doi]

TridentSE: Guiding Speech Enhancement with 32 Global TokensDacheng Yin, Zhiyuan Zhao, Chuanxin Tang, Zhiwei Xiong, Chong Luo. 3839-3843 [doi]

Detection of Cross-Dataset Fake Audio Based on Prosodic and Pronunciation FeaturesChenglong Wang, Jiangyan Yi, Jianhua Tao 0001, Chu-Yuan Zhang, Shuai Zhang, Xun Chen. 3844-3848 [doi]

Self-supervised learning with Diffusion-based multichannel speech enhancement for speaker verification under noisy conditionsSandipana Dowerah, Ajinkya Kulkarni, Romain Serizel, Denis Jouvet. 3849-3853 [doi]

Two-Stage Voice Anonymization for Enhanced PrivacyFrancesco Nespoli, Daniel Barreda, Jörg Bitzer, Patrick A. Naylor. 3854-3858 [doi]

Personalized Dereverberation of SpeechRuilin Xu 0001, Gurunandan Krishnan, Changxi Zheng, Shree K. Nayar. 3859-3863 [doi]

Weighted Von Mises Distribution-based Loss Function for Real-time STFT Phase Reconstruction Using DNNNguyen Binh Thien, Yukoh Wakabayashi, Yuting Geng, Kenta Iwai, Takanobu Nishiura. 3864-3868 [doi]

Deep Multi-Frame Filtering for Hearing AidsHendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier 0001. 3869-3873 [doi]

Aligning Speech Enhancement for Improving Downstream Classification PerformanceYan Xiong, Visar Berisha, Chaitali Chakrabarti. 3874-3878 [doi]

DNN-based Parameter Estimation for MVDR Beamforming and Post-filteringMinseung Kim, Sein Cheong, Jong Won Shin. 3879-3883 [doi]

FRA-RIR: Fast Random Approximation of the Image-source MethodYi Luo 0004, Jianwei Yu. 3884-3888 [doi]

Rethinking Complex-Valued Deep Neural Networks for Monaural Speech EnhancementHaibin Wu, Ke Tan 0001, Buye Xu, Anurag Kumar 0003, Daniel Wong. 3889-3893 [doi]

Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement modelXiaohuai Le, Tong Lei, Li Chen, Yiqing Guo, Chao He, Cheng Chen, Xianjun Xia, Hua Gao, Yijian Xiao, Piao Ding, Shenyi Song, Jing Lu. 3894-3898 [doi]

How Does Pretraining Improve Discourse-Aware Translation?Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong. 3899-3903 [doi]

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error CorrectionZiji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan. 3904-3908 [doi]

Model-assisted Lexical Tone Evaluation of three-year-old Chinese-speaking Children by also Considering Segment ProductionShu-Chuan Tseng, Yi-Fen Liu, Xiang-Li Lu. 3909-3913 [doi]

Sentence Embedder Guided Utterance Encoder (SEGUE) for Spoken Language UnderstandingYi Xuan Tan, Navonil Majumder, Soujanya Poria. 3914-3918 [doi]

Joint Time and Frequency Transformer for Chinese Opera ClassificationQiang Li, Beibei Hu. 3919-3923 [doi]

AdaMS: Deep Metric Learning with Adaptive Margin and Adaptive Scale for Acoustic Word DiscriminationMyunghun Jung, Hoirin Kim. 3924-3928 [doi]

Investigating Reproducibility at Interspeech Conferences: A Longitudinal and Comparative PerspectiveMohammad Arvan, A. Seza Dogruöz, Natalie Parde. 3929-3933 [doi]

An Efficient Approach for the Automated Segmentation and Transcription of the People's Speech SorpusAstik Biswas, Abdelmoumene Boumadane, Stéphane Peillon, Gildas Bleas. 3939-3943 [doi]

Diverse Feature Mapping and Fusion via Multitask Learning for Multilingual Speech Emotion RecognitionShi-wook Lee. 3944-3948 [doi]

Take the Hint: Improving Arabic Diacritization with Partially-Diacritized TextParnia Bahar, Mattia Di Gangi, Nick Rossenbach, Mohammad Zeineldeen. 3949-3953 [doi]

Low-Resource Cross-Lingual Adaptive Training for Nigerian PidginPin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel C. J. Scholman. 3954-3958 [doi]

Efficient Adaptation of Spoken Language Understanding based on End-to-End Automatic Speech RecognitionEesung Kim, Aditya Jajodia, Cindy Tseng, Divya Neelagiri, Taeyeon Ki, Vijendra Raj Apsingekar. 3959-3963 [doi]

PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined KeywordsYong-Hyeok Lee, Namhyun Cho. 3964-3968 [doi]

Mix before Align: Towards Zero-shot Cross-lingual Sentiment Analysis via Soft-Mix and Multi-View LearningZhihong Zhu, Xuxin Cheng, Dongsheng Chen, Zhiqi Huang, Hongxiang Li, Yuexian Zou. 3969-3973 [doi]

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech TranslationSara Papi, Marco Turchi, Matteo Negri. 3974-3978 [doi]

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency TradeoffPeter Polák, Brian Yan, Shinji Watanabe 0001, Alex Waibel, Ondrej Bojar. 3979-3983 [doi]

Zambezi Voice: A Multilingual Speech Corpus for Zambian LanguagesClaytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos. 3984-3988 [doi]

Towards Single Integrated Spoofing-aware Speaker Verification EmbeddingsSung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang 0037, Xuechen Liu, Md. Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong-Aik Lee, Junichi Yamagishi, Nicholas W. D. Evans, Tomi Kinnunen, Nam Soo Kim, Jee-weon Jung. 3989-3993 [doi]

Pseudo-Siamese Network based Timbre-reserved Black-box Adversarial Attack in Speaker IdentificationQing Wang 0039, Jixun Yao, Ziqian Wang, Pengcheng Guo, Lei Xie 0001. 3994-3998 [doi]

Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo ConversionRui Liu 0008, Jinhua Zhang, Guanglai Gao, Haizhou Li 0001. 3999-4003 [doi]

Robust Audio Anti-spoofing Countermeasure with Joint Training of Front-end and Back-end ModelsXingming Wang, Bang Zeng, Hongbin Suo, Yulong Wan, Ming Li 0026. 4004-4008 [doi]

Improved DeepFake Detection Using Whisper FeaturesPiotr Kawa, Marcin Plata, Michal Czuba, Piotr Szymanski, Piotr Syga. 4009-4013 [doi]

DoubleDeceiver: Deceiving the Speaker Verification System Protected by Spoofing CountermeasuresMengao Zhang, Ke Xu, Hao Li, Lei Wang, Chengfang Fang, Jie Shi. 4014-4018 [doi]

On Training a Neural Residual Acoustic Echo Suppressor for Improved ASRSankaran Panchapagesan, Turaj Zakizadeh Shabestary, Arun Narayanan. 4019-4023 [doi]

Extending DNN-based Multiplicative Masking to Deep Subband Filtering for Improved DereverberationJean-Marie Lemercier, Julian Tobergte, Timo Gerkmann. 4024-4028 [doi]

UnSE: Unsupervised Speech Enhancement Using Optimal TransportWenbin Jiang, Fei Wen, Yifan Zhang, Kai Yu 0004. 4029-4033 [doi]

MC-SpEx: Towards Effective Speaker Extraction with Multi-Scale Interfusion and Conditional Speaker ModulationJun Chen 0024, Wei Rao, Zilin Wang, Jiuxin Lin, Yukai Ju, Shulin He, Yannan Wang, Zhiyong Wu 0001. 4034-4038 [doi]

Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech EnhancementJulitta Bartolewska, Stanislaw Kacprzak, Konrad Kowalczyk. 4039-4043 [doi]

Gesper: A Restoration-Enhancement Framework for General Speech ReconstructionWenzhe Liu, Yupeng Shi, Jun Chen 0024, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu 0001. 4044-4048 [doi]

Multimodal Personality Traits Assessment (MuPTA) Corpus: The Impact of Spontaneous and Read SpeechElena Ryumina, Dmitry Ryumin, Maxim Markitantov, Heysem Kaya, Alexey Karpov 0001. 4049-4053 [doi]

MOCKS 1.0: Multilingual Open Custom Keyword Spotting TestsetMikolaj Pudo, Mateusz Wosik, Adam Cieslak, Justyna Krzywdziak, Bozena Lukasiak, Artur Janicki. 4054-4058 [doi]

MD3: The Multi-Dialect Dataset of DialoguesJacob Eisenstein, Vinodkumar Prabhakaran, Clara Rivera, Dorottya Demszky, Devyani Sharma. 4059-4063 [doi]

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text TranslationMohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino 0001, Changhan Wang. 4064-4068 [doi]

Thai Dialect Corpus and Transfer-based Curriculum Learning Investigation for Dialect Automatic Speech RecognitionArtit Suwanbandit, Burin Naowarat, Orathai Sangpetch, Ekapol Chuangsuwanich. 4069-4073 [doi]

HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech TranslationCihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur. 4074-4078 [doi]

A Metric-Driven Approach to Conformer Layer Pruning for Efficient ASR InferenceDhanush Bekal, Karthik Gopalakrishnan, Karel Mundnich, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff. 4079-4083 [doi]

Distillation Strategies for Discriminative Speech Recognition RescoringPrashanth Gurunath Shivakumar, Jari Kolehmainen, Yile Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko. 4084-4088 [doi]

Another Point of View on Visual Speech RecognitionBaptiste Pouthier, Laurent Pilati, Giacomo Valenti, Charles Bouveyron, Frédéric Precioso. 4089-4093 [doi]

RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech RecognitionWei Zhou 0043, Eugen Beck, Simon Berger, Ralf Schlüter, Hermann Ney. 4094-4098 [doi]

Streaming Speech-to-Confusion Network Speech RecognitionDenis Filimonov, Prabhat Pandey, Ariya Rastrow, Ankur Gandhe, Andreas Stolcke. 4099-4103 [doi]

Accurate and Structured Pruning for Efficient Automatic Speech RecognitionHuiqiang Jiang, Li Lyna Zhang, Yuang Li, Yu Wu, Shijie Cao, Ting Cao, Yuqing Yang 0001, Jinyu Li, Mao Yang, Lili Qiu. 4104-4108 [doi]

MERLIon CCS Challenge: A English-Mandarin code-switching child-directed speech corpus for language identification and diarizationYi Han Victoria Chua, Hexin Liu, Leibny Paola García, Fei Ting Woon, Jinyi Wong, Xiangyu Zhang, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels, Suzy J. Styles. 4109-4113 [doi]

Spoken Language Identification System for English-Mandarin Code-Switching Child-Directed SpeechShashi Kant Gupta, Sushant Hiray, Prashant Kukde. 4114-4118 [doi]

Improving wav2vec2-based Spoken Language Identification by Learning Phonological FeaturesMostafa Shahin, Zheng Nan, Vidhyasaharan Sethu, Beena Ahmed. 4119-4123 [doi]

Language Identification Networks for Multilingual Everyday RecordingsKiran Praveen, Balaji Radhakrishnan, Kamini Sabu, Abhishek Pandey, Mahaboob Ali Basha Shaik. 4124-4128 [doi]

Investigating model performance in language identification: beyond simple error statisticsSuzy J. Styles, Yi Han Victoria Chua, Fei Ting Woon, Hexin Liu, Leibny Paola García, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels. 4129-4133 [doi]

Classification of Vocal Intensity Category from Speech using the Wav2vec2 and Whisper EmbeddingsManila Kodali, Sudarsana Reddy Kadiri, Paavo Alku. 4134-4138 [doi]

The effect of clinical intervention on the speech of individuals with PTSD: features and recognition performancesAlexander Kathan, Andreas Triantafyllopoulos, Shahin Amiriparian, Sabrina Milkus, Alexander Gebhard, Jonas Hohmann, Pauline Muderlak, Jürgen Schottdorf, Björn W. Schuller, Richard Musil. 4139-4143 [doi]

Analysis and automatic prediction of exertion from speech: Contrasting objective and subjective measures collected while runningAndreas Triantafyllopoulos, Alexander Gebhard, Alexander Kathan, Maurice Gerczuk, Shahin Amiriparian, Björn W. Schuller. 4144-4148 [doi]

The Androids Corpus: A New Publicly Available Benchmark for Speech Based Depression DetectionFuxiang Tao, Anna Esposito, Alessandro Vinciarelli. 4149-4153 [doi]

Comparing Hand-Crafted Features to Spectrograms for Autism Severity EstimationMarina Eni, Ilan Dinstein, Yaniv Zigel. 4154-4158 [doi]

Acoustic characteristics of depression in older adults' speech: the role of covariatesCarmen Mijnders, Esther Janse, Paul Naarding, Khiet P. Truong. 4159-4163 [doi]

Dual Transformer Decoder based Features Fusion Network for Automated Audio CaptioningJianyuan Sun, Xubo Liu, Xinhao Mei, Volkan Kiliç, Mark D. Plumbley, Wenwu Wang 0001. 4164-4168 [doi]

Adapting a ConvNeXt Model to Audio Classification on AudioSetThomas Pellegrini, Ismail Khalfaoui Hassani, Etienne Labbé, Timothée Masquelier. 4169-4173 [doi]

Few-shot Class-incremental Audio Classification Using Stochastic ClassifierYanxiong Li, Wenchang Cao, Jialong Li, Wei Xie, Qianhua He. 4174-4178 [doi]

Enhance Temporal Relations in Audio Captioning with Sound Event DetectionZeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu 0004. 4179-4183 [doi]

First Language Effects on Second Language Perception: Evidence from English Low-vowel Nasal Sequences Perceived by L1 Mandarin Chinese ListenersSijia Zhang. 4184-4188 [doi]

Motor Control Similarity Between Speakers Saying "A Souk" Using Inverse Atlas Tongue ModelingUrsa Maity, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El Fakhri, Jonghye Woo, Sidney Fels. 4189-4193 [doi]

Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language ModelsZhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia 0005, Yan Deng, Jonathan Tien. 4194-4198 [doi]

A Relationship Between Vocal Fold Vibration and Droplet ProductionTsukasa Yoshinaga, Takayuki Arai, Akiyoshi Iida. 4199-4203 [doi]

Audio, Visual and Audiovisual intelligibility of vowels produced in noiseMaeva Garnier. 4204-4208 [doi]

Optimal control of speech with context-dependent articulatory targetsBenjamin Elie, Juraj Simko, Alice Turk. 4209-4213 [doi]

Computational modeling of auditory brainstem responses derived from modified speechTzu-Han Zoe Cheng, Paul Calamia. 4214-4218 [doi]

Leveraging Label Information for Multimodal Emotion RecognitionPeiYing Wang, Sunlu Zeng, Junqing Chen, Lu Fan, Meng Chen 0006, Youzheng Wu, Xiaodong He 0001. 4219-4223 [doi]

Improving End-to-End Modeling For Mandarin-English Code-Switching Using Lightweight Switch-Routing Mixture-of-ExpertsFengyun Tan, Chaofeng Feng, Tao Wei, Shuai Gong, Jinqiang Leng, Wei Chu, Jun Ma 0018, Shaojun Wang, Jing Xiao 0006. 4224-4228 [doi]

Frequency Patterns of Individual Speaker Characteristics at Higher and Lower Spectral RangesZhao Zhang, Ju Zhang 0001, Ziyu Zhu, Yujie Chi, Kiyoshi Honda, Jianguo Wei. 4229-4233 [doi]

Adaptation to predictive prosodic cues in non-native standard dialectSabine Gosselke Berthelsen. 4234-4238 [doi]

Head movements in two- and four-person interactive conversational tasks in noisy and moderately reverberant conditionsAlan Archer-Boyd, Rainer Martin 0001. 4239-4243 [doi]

Second language identification of Vietnamese tones by native Mandarin learnersJuqiang Chen, Ailing Qin, Hui Chang, Hua Chen. 4244-4248 [doi]

Nasal vowel production and grammatical processing in French-speaking children with cochlear implants and normal-hearing peersSophie Fagniart, Véronique Delvaux, Brigitte Charlier, Bernard Harmegnies, Anne Huberlant, Myriam Piccaluga, Kathy Huet. 4249-4253 [doi]

Emotion Classification with EEG Responses Evoked by Emotional Prosody of SpeechZechen Zhang, Xihong Wu, Jing Chen. 4254-4258 [doi]

L2-Mandarin regional accent variability during Mandarin tone-word training facilitates English listeners' subsequent tone categorizationsYanping Li, Michael D. Tyler, Denis Burnham, Catherine T. Best. 4259-4263 [doi]

HumanDiffusion: diffusion model using perceptual gradientsYota Ueda, Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, Hiroshi Saruwatari. 4264-4268 [doi]

Queer Events, Relationships, and Sports: Does Topic Influence Speakers' Acoustic Expression of Sexual Orientation?Sven Kachel, Manuel Pöhlmann, Christine Nussbaum. 4269-4273 [doi]

Epoch-Based Spectrum Estimation for SpeechJón Guðnason, Guolin Fang, Mike Brookes. 4274-4278 [doi]

OverFlow: Putting flows on top of neural transducers for better TTSShivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, Éva Székely, Gustav Eje Henter. 4279-4283 [doi]

ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS AdaptationAmbuj Mehrish, Abhinav Ramesh Kashyap, Yingting Li, Navonil Majumder, Soujanya Poria. 4284-4288 [doi]

Prior-free Guided TTS: An Improved and Efficient Diffusion-based Text-Guided Speech SynthesisWon-Gook Choi, So-Jeong Kim, Tae-Ho Kim, Joon-Hyuk Chang. 4289-4293 [doi]

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion ModelAnastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry P. Vetrov. 4294-4298 [doi]

Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-SpeechHyungchan Yoon, ChangHwan Kim, Eunwoo Song, Hyun-Wook Yoon, Hong-Goo Kang. 4299-4303 [doi]

Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion BridgeWenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li. 4304-4308 [doi]

Towards Robust FastSpeech 2 by Modelling Residual MultimodalityFabian Kögel, Bac Nguyen, Fabien Cardinaux. 4309-4313 [doi]

Real time spectrogram inversion on mobile phoneOleg Rybakov, Marco Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy. 4314-4318 [doi]

Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech SynthesisSeongyeon Park, Bohyung Kim, Tae Hyun Oh. 4319-4323 [doi]

A Low-Resource Pipeline for Text-to-Speech from Found Data With Application to Scottish GaelicDan Wells, Korin Richmond, William Lamb. 4324-4328 [doi]

Self-Supervised Solution to the Control Problem of Articulatory SynthesisPaul Konstantin Krug, Peter Birkholz, Branislav Gerazov, Daniel R. van Niekerk, Anqi Xu, Yi Xu 0007. 4329-4333 [doi]

Hierarchical Timbre-Cadence Speaker Encoder for Zero-shot Speech SynthesisJoun Yeop Lee, Jae-Sung Bae, Seongkyu Mun, Jihwan Lee, Ji-Hyun Lee, Hoon-Young Cho, Chanwoo Kim 0001. 4334-4338 [doi]

ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based ModelsMinki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang. 4339-4343 [doi]

Improving WaveRNN with Heuristic Dynamic Blending for Fast and High-Quality GPU VocodingMuyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai. 4344-4348 [doi]

Intelligible Lip-to-Speech Synthesis with Speech UnitsJeongsoo Choi, Minsu Kim, Yong Man Ro. 4349-4353 [doi]

Parameter-Efficient Learning for Text-to-Speech Accent AdaptationLi-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien. 4354-4358 [doi]

Controlling formant frequencies with neural text-to-speech for the manipulation of perceived speaker ageZiya Khan, Lovisa Wihlborg, Cassia Valentini-Botinhao, Oliver Watts. 4359-4363 [doi]

FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTsWon Jang, Dan Lim, Heayoung Park. 4364-4368 [doi]

iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNNTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki. 4369-4373 [doi]

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture DesignJungil Kong, JiHoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim. 4374-4378 [doi]

Controlling Multi-Class Human Vocalization Generation via a Simple Segment-based Labeling SchemeHieu-Thi Luong, Junichi Yamagishi. 4379-4383 [doi]

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASRKaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra, Pratyush Kumar. 4384-4388 [doi]

Domain Adaptive Self-supervised Training of Automatic Speech RecognitionCong-Thanh Do, Rama Doddipatla, Mohan Li, Thomas Hain. 4389-4393 [doi]

There is more than one kind of robustness: Fooling Whisper with adversarial examplesRaphaël Olivier, Bhiksha Raj. 4394-4398 [doi]

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) RepresentationsCalum Heggan, Timothy M. Hospedales, Sam Budgett, Mehrdad Yaghoobi. 4399-4403 [doi]

Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic ComputeWilliam Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti, Shinji Watanabe 0001. 4404-4408 [doi]

Blank-regularized CTC for Frame Skipping in Neural TransducerYifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang 0006, Fangjun Kuang, Long Lin, Xie Chen 0001, Daniel Povey. 4409-4413 [doi]

The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing Multilingual ASRKaousheik Jayakumar, Vrunda N. Sukhadia, Arun Kumar A, Srinivasan Umesh. 4414-4418 [doi]

Improving RNN-Transducers with Acoustic LookAheadVinit S. Unni, Ashish R. Mittal, Preethi Jyothi, Sunita Sarawagi. 4419-4423 [doi]

Everyone has an accentNina Markl, Catherine Lai. 4424-4427 [doi]

Some Voices are Too Common: Building Fair Speech Recognition Systems Using the CommonVoice DatasetLucas Maison, Yannick Estève. 4428-4432 [doi]

Information Magnitude Based Dynamic Sub-sampling for Speech-to-textYuhao Zhang, Chenghao Gao, Kaiqi Kou, Chen Xu 0008, Tong Xiao, Jingbo Zhu. 4433-4437 [doi]

What's in a Rise? The Relevance of Intonation for Attention OrientingMartine Grice. 4438 [doi]

HierVST: Hierarchical Adaptive Zero-shot Voice Style TransferSang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee. 4439-4443 [doi]

VISinger2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing SynthesizerYongmao Zhang, Heyang Xue, Hanzhao Li, Lei Xie 0001, Tingwei Guo, Ruixiong Zhang, Caixia Gong. 4444-4448 [doi]

EdenTTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment LearningYouneng Ma, Junyi He, Meimei Wu, Guangyue Hu, Haojun Fei. 4449-4453 [doi]

Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled RepresentationsWenbin Wang, Yang Song 0001, Sanjay Jha 0001. 4454-4458 [doi]

Speech inpainting: Context-based speech synthesis guided by videoJuan Felipe Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen 0001. 4459-4463 [doi]

STEN-TTS: Improving Zero-shot Cross-Lingual Transfer for Multi-Lingual TTS with Style-Enhanced Normalization Diffusion FrameworkChung Tran, Chi Mai Luong, Sakriani Sakti. 4464-4468 [doi]

Average Token Delay: A Latency Metric for Simultaneous TranslationYasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura 0001. 4469-4473 [doi]

Automatic Speech Recognition Transformer with Global Contextual Information DecoderYukun Qian, Xuyi Zhuang, Mingjiang Wang. 4474-4478 [doi]

Time-synchronous one-pass Beam Search for Parallel Online and Offline Transducers with Dynamic Block TrainingYui Sudo, Muhammad Shakeel 0001, Yifan Peng, Shinji Watanabe 0001. 4479-4483 [doi]

Prefix Search Decoding for RNN TransducersKiran Praveen, Advait Vinay Dhopeshwarkar, Abhishek Pandey, Balaji Radhakrishnan. 4484-4488 [doi]

WhisperX: Time-Accurate Speech Transcription of Long-Form AudioMax Bain, Jaesung Huh, Tengda Han, Andrew Zisserman. 4489-4493 [doi]

Implementing Contextual Biasing in GPU Decoder for Online ASRIuliia Nigmatulina, Srikanth R. Madikeri, Esaú Villatoro-Tello, Petr Motlícek, Juan Zuluaga-Gomez, Karthik Pandia, Aravind Ganapathiraju. 4494-4498 [doi]

MF-PAM: Accurate Pitch Estimation through Periodicity Analysis and Multi-level Feature FusionWoo Jin Chung, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang. 4499-4503 [doi]

Enhancing Speech Articulation Analysis Using A Geometric Transformation of the X-ray Microbeam DatasetAhmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson. 4504-4507 [doi]

Matching Acoustic and Perceptual Measures of Phonation Assessment in Disordered Speech - A Case StudyMélanie Jouaiti, Pippa Kirby, Ravi Vaidyanathan. 4508-4512 [doi]

Improved Contextualized Speech Representations for Tonal AnalysisJiahong Yuan, Xingyu Cai, Kenneth Church 0001. 4513-4517 [doi]

A Study on the Importance of Formant Transitions for Stop-Consonant Classification in VCV SequenceSiddarth Chandrasekar, Arvind Ramesh, Tilak Purohit, Prasanta Kumar Ghosh. 4518-4522 [doi]

FusedF0: Improving DNN-based F0 Estimation by Fusion of Summary-Correlograms and Raw Waveform Representations of Speech SignalsEray Eren, Lee Ngee Tan, Abeer Alwan. 4523-4527 [doi]

Improving Joint Speech and Emotion Recognition Using Global Style TokensJehyun Kyung, Ju-Seok Seong, Jeong Hwan Choi, Ye-Rin Jeoung, Joon-Hyuk Chang. 4528-4532 [doi]

Speech Emotion Recognition by Estimating Emotional Label Sequences with Phoneme Class AttributeRyotaro Nagase, Takahiro Fukumori, Yoichi Yamashita. 4533-4537 [doi]

Unsupervised Transfer Components Learning for Cross-Domain Speech Emotion RecognitionShenjie Jiang, Peng Song 0002, Shaokai Li, Keke Zhao, Wenming Zheng. 4538-4542 [doi]

Dual Memory Fusion for Multimodal Speech Emotion RecognitionDarshana Prisayad, Tharindu Fernando, Sridha Sridharan, Simon Denman, Clinton Fookes. 4543-4547 [doi]

Hybrid Dataset for Speech Emotion Recognition in Russian LanguageVladimir Kondratenko, Nikolay Karpov, Artem Sokolov, Nikita Savushkin, Oleg Kutuzov, Fyodor Minkin. 4548-4552 [doi]

Speech Emotion Recognition using Decomposed Speech via Multi-task LearningJia-Hao Hsu, Chung-Hsien Wu, Yu-Hung Wei. 4553-4557 [doi]

Prospective Validation of Motor-Based Intervention with Automated Mispronunciation Detection of Rhotics in Residual Speech Sound DisordersNina R. Benway, Jonathan L. Preston. 4558-4562 [doi]

Classifying Rhoticity of /ɹ/ in Speech Sound Disorder using Age-and-Sex Normalized FormantsNina R. Benway, Jonathan L. Preston, Asif Salekin, Yi Xiao, Harshit Sharma, Tara McAllister Byun. 4563-4567 [doi]

Acoustic-to-Articulatory Speech Inversion Features for Mispronunciation Detection of /ɹ/ in Child Speech Sound DisordersNina R. Benway, Yashish M. Siriwardena, Jonathan L. Preston, Elaine Hitchcock, Tara McAllister Byun, Carol Y. Espy-Wilson. 4568-4572 [doi]

Using Commercial ASR Solutions to Assess Reading Skills in Children: A Case ReportTimothy Piton, Enno Hermann, Angela Pasqualotto, Marjolaine Cohen, Mathew Magimai-Doss, Daphne Bavelier. 4573-4577 [doi]

Exploiting Diversity of Automatic Transcripts from Distinct Speech Recognition Techniques for Children's SpeechChristopher Gebauer, Lars Rumberg, Hanna Ehlert, Ulrike Lüdtke, Jörn Ostermann. 4578-4582 [doi]

Uncertainty Estimation for Connectionist Temporal Classification Based Automatic Speech RecognitionLars Rumberg, Christopher Gebauer, Hanna Ehlert, Maren Wallbaum, Ulrike Lüdtke, Jörn Ostermann. 4583-4587 [doi]

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language modelsMarvin Lavechin, Yaya Sy, Hadrien Titeux, María Andrea Cruz Blandón, Okko Räsänen, Hervé Bredin, Emmanuel Dupoux, Alejandrina Cristià. 4588-4592 [doi]

Data augmentation for children ASR and child-adult speaker classification using voice conversion methodsShuyang Zhao, Mittul Singh, Abraham Woubie, Reima Karhila. 4593-4597 [doi]

Developmental Articulatory and Acoustic Features for Six to Ten Year Old ChildrenVishwas M. Shetty, Steven M. Lulich, Abeer Alwan. 4598-4602 [doi]

Automatically Predicting Perceived Conversation Quality in a Pediatric Sample Enriched for AutismYahan Yang, Sunghye Cho, Maxine Covello, Azia Knox, Osbert Bastani, James Weimer, Edgar Dobriban, Robert T. Schultz, Insup Lee 0001, Julia Parish-Morris. 4603-4607 [doi]

An Equitable Framework for Automatically Assessing Children's Oral Narrative Language AbilitiesAlexander Johnson, Hariram Veeramani, Natarajan Balaji Shanka, Abeer Alwan. 4608-4612 [doi]

An Analysis of Goodness of Pronunciation for Child SpeechXinwei Cao, Zijian Fan, Torbjørn Svendsen, Giampiero Salvi. 4613-4617 [doi]

Measuring Language Development From Child-centered RecordingsYaya Sy, William N. Havard, Marvin Lavechin, Emmanuel Dupoux, Alejandrina Cristià. 4618-4622 [doi]

Speaking Clearly, Understanding Better: Predicting the L2 Narrative Comprehension of Chinese Bilingual Kindergarten Children Based on Speech Intelligibility Using a Machine Learning ApproachHiuching Hung, Paula Andrea Pérez-Toro, Tomás Arias-Vergara, Andreas Maier 0001, Elmar Nöth. 4623-4627 [doi]

Speech Breathing Behavior During Pauses in ChildrenDelphine Charuau, Béatrice Vaxelaire, Rudolph Sock. 4628-4632 [doi]

Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech EmbeddingsAnfeng Xu, Rajat Hebbar, Rimita Lahiri, TianTian Feng, Lindsay Butler, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan. 4633-4637 [doi]

Measuring Phonological Precision in Children with Cleft Lip and PalateTomás Arias-Vergara, Elizabeth Londoño-Mora, Paula Andrea Pérez-Toro, Maria Schuster, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas Maier 0001. 4638-4642 [doi]

A Study on Using Duration and Formant Features in Automatic Detection of Speech Sound Disorder in ChildrenSi Ioi Ng, Cymie Wing-Yee Ng, Tan Lee. 4643-4647 [doi]

Influence of Utterance and Speaker Characteristics on the Classification of Children with Cleft Lip and PalateIlja Baumann, Dominik Wagner, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet. 4648-4652 [doi]

Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt TuningMingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Nanyun Peng. 4653-4657 [doi]

An Autoregressive Conversational Dynamics Model for Dialogue SystemsMatthew McNeill, Rivka Levitan. 4658-4662 [doi]

Style-transfer based Speech and Audio-visual Scene understanding for Robot Action Sequence Acquisition from VideosChiori Hori, Puyuan Peng, David Harwath, Xinyu Liu, Kei Ota, Siddarth Jain, Radu Corcodel, Devesh K. Jha, Diego Romeres, Jonathan Le Roux. 4663-4667 [doi]

Speech Aware Dialog System Technology Challenge (DSTC11)Hagen Soltau, Izhak Shafran, Mingqiu Wang, Abhinav Rastogi, Jeffrey Zhao, Ye Jia, Wei Han 0002, Yuan Cao 0007, Aramys Miranda. 4668-4672 [doi]

Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-SupervisionYucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng. 4673-4677 [doi]

Tracking Must Go On : Dialogue State Tracking with Verified Self-TrainingJihyun Lee, Chaebin Lee, Yunsu Kim 0001, Gary Geunbae Lee. 4678-4682 [doi]

Ordered and Binary Speaker EmbeddingJiaying Wang, Xianglong Wang, Namin Wang, Lantian Li, Dong Wang. 4683-4687 [doi]

Self-FiLM: Conditioning GANs with self-supervised representations for bandwidth extension based speaker recognitionSaurabh Kataria, Jesús Villalba 0001, Laureano Moro-Velázquez, Thomas Thebaud, Najim Dehak. 4688-4692 [doi]

Curriculum Learning for Self-supervised Speaker VerificationHee-Soo Heo, Jee-weon Jung, Jingu Kang, Youngki Kwon, Bong-Jin Lee, You Jin Kim, Joon Son Chung. 4693-4697 [doi]

Introducing Self-Supervised Phonetic Information for Text-Independent Speaker VerificationZiyang Zhang, Wu Guo, Bin Gu 0004. 4698-4702 [doi]

A Teacher-Student Approach for Extracting Informative Speaker Embeddings From Speech MixturesTobias Cord-Landwehr, Christoph Böddeker, Catalin Zorila, Rama Doddipatla, Reinhold Haeb-Umbach. 4703-4707 [doi]

Experimenting with Additive Margins for Contrastive Self-Supervised Speaker VerificationThéo Lepage, Réda Dehak. 4708-4712 [doi]

Nonbinary American English speakers encode gender in vowel acousticsMaxwell Hope, Charlotte Ward, Jason Lilley. 4713-4717 [doi]

Coarticulation of Sibe Vowels and Dorsal Fricatives in Spontaneous Speech: An Acoustic StudyJared Sharp, Matthew Faytak, Hasutai Fei Xiong Liu. 4718-4722 [doi]

Using speech synthesis to explain automatic speaker recognition: a new application of synthetic speechGeorgina Brown, Christin Kirchhübel, Ramiz Cuthbert. 4723-4727 [doi]

Same F0, Different Tones: A Multidimensional Investigation of Zhangzhou TonesYishan Huang. 4728-4732 [doi]

Discovering Phonetic Feature Event Patterns in Transformer EmbeddingsPatrick Cormac English, John D. Kelleher, Julie Carson-Berndsen. 4733-4737 [doi]

A System for Generating Voice Source Signals that Implements the Transformed LF-model Parameter ControlZihan Wang, Christer Gobl. 4738-4742 [doi]

Speaker-independent Speech Inversion for Estimation of NasalanceYashish M. Siriwardena, Carol Y. Espy-Wilson, Suzanne Boyce, Mark Tiede, Liran Oren. 4743-4747 [doi]

Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen DialectYiying Hu, Hui Feng, Qinghua Zhao, Aijun Li. 4748-4752 [doi]

Durational and Non-durational Correlates of Lexical and Derived Geminates in ArabicAmel Issa. 4753-4757 [doi]

Mapping Phonemes to Acoustic Symbols and Codes Using Synchrony in Speech Modulation Vectors Estimated by the Travellingwave Filter BankAshwin Rao. 4758-4762 [doi]

Rhythmic Characteristics of L2 German Speech by Advanced Chinese LearnersLindun Ge, Min Xu, Hongwei Ding. 4763-4767 [doi]

(Dis)agreement and Preference Structure are Reflected in Matching Along Distinct Acoustic-prosodic FeaturesAnneliese Kelterer, Margaret Zellers, Barbara Schuppler. 4768-4772 [doi]

Vowel reduction by Greek-speaking children: The effect of stress and word lengthPolychronia Christodoulidou, Katerina Nicolaidis, Dimitrios Stamovlasis. 4773-4777 [doi]

Pitch distributions in a very large corpus of spontaneous Finnish speechMietta Lennes, Minnaleena Toivola. 4778-4782 [doi]

Speech Enhancement Patterns in Human-Robot Interaction: A Cross-Linguistic PerspectiveJacek Kudera, Katharina Zahner-Ritter, Jakob Engel, Nathalie Elsässer, Philipp Hutmacher, Carolin Worstbrock. 4783-4787 [doi]

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal DirectionsFlorian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu. 4788-4792 [doi]

Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic RepresentationsRuishan Li, Yingming Gao, Yanlu Xie, Dengfeng Ke, Jinsong Zhang 0001. 4793-4797 [doi]

NoreSpeech: Knowledge Distillation based Conditional Diffusion Model for Noise-robust Expressive TTSDongchao Yang, Songxiang Liu, Helin Wang, Jianwei Yu, Chao Weng, Yuexian Zou. 4798-4802 [doi]

MaskedSpeech: Context-aware Speech Synthesis with Masking StrategyYa-Jie Zhang, Wei Song, Yanghao Yue, Zhengchen Zhang, Youzheng Wu, Xiaodong He 0001. 4803-4807 [doi]

Narrator or Character: Voice Modulation in an Expressive Multi-speaker TTSTankala Pavan Kalyan, Preeti Rao, Preethi Jyothi, Pushpak Bhattacharyya. 4808-4812 [doi]

CASEIN: Cascading Explicit and Implicit Control for Fine-grained Emotion Intensity RegulationYuhao Cui, Xiongwei Wang, Zhongzhou Zhao, Wei Zhou, Haiqing Chen. 4813-4817 [doi]

Semi-supervised Learning for Continuous Emotional Intensity Controllable Speech Synthesis with Disentangled RepresentationsYoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee. 4818-4822 [doi]

Expresso: A Benchmark and Analysis of Discrete Expressive Speech ResynthesisTu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarandi, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux. 4823-4827 [doi]

ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource ScenariosYuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song. 4828-4832 [doi]

Neural Speech Synthesis with Enriched Phrase BoundariesMarie Kunesová, Jindrich Matousek. 4833-4837 [doi]

Cross-lingual Prosody Transfer for Expressive Machine DubbingJakub Swiatkowski, Duo Wang, Mikolaj Babianski, Patrick Lumban Tobing, Ravichander Vipperla, Vincent Pollet. 4838-4842 [doi]

Synthesis after a couple PINTs: Investigating the Role of Pause-Internal Phonetic Particles in Speech Synthesis and PerceptionMikey Elmers, Johannah O'Mahony, Éva Székely. 4843-4847 [doi]

Accentor: An Explicit Lexical Stress Model for TTS SystemsDiana Geneva, Georgi Shopov, Kostadin Garov, Maria Todorova, Stefan Gerdjikov, Stoyan Mihov. 4848-4852 [doi]

A Neural TTS System with Parallel Prosody Transfer from Unseen SpeakersSlava Shechtman, Raul Fernandez. 4853-4857 [doi]

Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic ModelXiang Li 0105, Songxiang Liu, Max W. Y. Lam, Zhiyong Wu 0001, Chao Weng, Helen Meng. 4858-4862 [doi]

Prosody Modeling with 3D Visual Information for Expressive Video DubbingZhihan Yang, Shansong Liu, Xu Li, Haozhe Wu, Zhiyong Wu 0001, Ying Shan, Jia Jia 0001. 4863-4867 [doi]

LightClone: Speaker-guided Parallel Subnet Selection for Few-shot Voice CloningJie Wu, Jian Luan 0001, Yujun Wang. 4868-4872 [doi]

EE-TTS: Emphatic Expressive TTS with Linguistic InformationYi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng, Haifeng Hu 0009, Zhongqian Sun. 4873-4877 [doi]

Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTSSewade Ogun, Vincent Colotte, Emmanuel Vincent 0001. 4878-4882 [doi]

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph ReadingYujia Xiao, Shaofei Zhang, Xi Wang 0016, Xu Tan 0003, Lei He 0005, Sheng Zhao, Frank K. Soong, Tan Lee. 4883-4887 [doi]

PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language DescriptionsGuanghou Liu, Yongmao Zhang, Yi Lei, Yunlin Chen, Rui Wang, Lei Xie 0001, Zhifei Li. 4888-4892 [doi]

Creating Personalized Synthetic Voices from Post-Glossectomy Speech with Guided Diffusion ModelsYusheng Tian, Guangyan Zhang, Tan Lee. 4893-4897 [doi]

Towards Multi-task Learning of Speech and Speaker RecognitionNik Vaessen, David A. van Leeuwen. 4898-4902 [doi]

Regarding Topology and Variant Frame Rates for Differentiable WFST-based End-to-End ASRZeyu Zhao, Peter Bell 0001. 4903-4907 [doi]

2-bit Conformer quantization for automatic speech recognitionOleg Rybakov, Phoenix Meadowlark, Shaojin Ding, David Qiu, Jian Li, David Rim, Yanzhang He. 4908-4912 [doi]

Time-Domain Speech Enhancement for Robust Automatic Speech RecognitionYufeng Yang, Ashutosh Pandey 0004, DeLiang Wang. 4913-4917 [doi]

Multi-channel multi-speaker transformer for speech recognitionYifan Guo, Yao Tian, Hongbin Suo, Yulong Wan. 4918-4922 [doi]

Fake the Real: Backdoor Attack on Deep Speech Classification via Voice ConversionZhe Ye, Terui Mao, Li Dong 0006, Diqun Yan. 4923-4927 [doi]

Dialect Speech Recognition Modeling using Corpus of Japanese Dialects and Self-Supervised Learning-based Model XLSRShogo Miwa, Atsuhiko Kai. 4928-4932 [doi]

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction NetworkKaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie 0001. 4933-4937 [doi]

Competitive and Resource Efficient Factored Hybrid HMM Systems are Simpler Than You ThinkTina Raissi, Christoph Lüscher, Moritz Gunz, Ralf Schlüter, Hermann Ney. 4938-4942 [doi]

MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for speech recognitionXiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou. 4943-4947 [doi]

Biased Self-supervised Learning for ASRFlorian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdel-rahman Mohamed, Philip C. Woodland. 4948-4952 [doi]

A Unified Recognition and Correction Model under Noisy and Accent Speech ConditionsZhao Yang, Dianwen Ng, Chong Zhang 0003, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma 0001, Eng Siong Chng. 4953-4957 [doi]

wav2vec 2.0 ASR for Cantonese-Speaking Older Adults in a Clinical SettingRanzo Huang, Brian Mak. 4958-4962 [doi]

BAT: Boundary aware transducer for memory-efficient and low-latency ASRKeyu An, Xian Shi, Shiliang Zhang. 4963-4967 [doi]

Bayes Risk Transducer: Transducer with Controllable Alignment PredictionJinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong Yu 0001, Shinji Watanabe 0001. 4968-4972 [doi]

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech RecognitionBelen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler. 4973-4977 [doi]

Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decodingSanjana Sankar, Denis Beautemps, Frédéric Elisei, Olivier Perrotin, Thomas Hueber. 4978-4982 [doi]

Hearing Loss Affects Emotion Perception in Older Adults: Evidence from a Prosody-Semantics Stroop TaskYingyang Wang, Min Xu, Jing Shao, Lan Wang, Nan Yan. 4983-4987 [doi]

Cochlear-implant Listeners Listening to Cochlear-implant Simulated SpeechFanhui Kong, Nengheng Zheng, Xianren Wang, Hao He, Jan W. H. Schnupp, Qinglin Meng. 4988-4992 [doi]

Validation of a Task-Independent Cepstral Peak Prominence Measure with Voice Activity DetectionOlivia M. Murton, Abigail E. Haenssler, Marc F. Maffei, Kathryn P. Connaghan, Jordan R. Green. 4993-4997 [doi]

Score-balanced Loss for Multi-aspect Pronunciation AssessmentHeejin Do, Yunsu Kim 0001, Gary Geunbae Lee. 4998-5002 [doi]

Federated Learning for Secure Development of AI Models for Parkinson's Disease Detection Using Speech from Different LanguagesSoroosh Tayebi Arasteh, Cristian David Ríos-Urrego, Elmar Nöth, Andreas Maier 0001, Seung-Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave. 5003-5007 [doi]

F0inTFS: A lightweight periodicity enhancement strategy for cochlear implantsHuali Zhou, Fanhui Kong, Nengheng Zheng, Qinglin Meng. 5008-5012 [doi]

Differentiating acoustic and physiological features in speech for hypoxia detectionBenjamin O'Brien, Adrien Gresse, Jean-Baptise Billaud, Guilhem Belda, Jean-François Bonastre. 5013-5017 [doi]

Mandarin Electrolaryngeal Speech Voice Conversion using Cross-domain FeaturesHsin-Hao Chen 0006, Yung-Lun Chien, Ming-Chi Yen, Shu-Wei Tsai, Tai-Shih Chi, Hsin-Min Wang, Yu Tsao 0001. 5018-5022 [doi]

Audio-Visual Mandarin Electrolaryngeal Speech Voice ConversionYung-Lun Chien, Hsin-Hao Chen 0006, Ming-Chi Yen, Shu-Wei Tsai, Hsin-Min Wang, Yu Tsao 0001, Tai-Shih Chi. 5023-5026 [doi]

Which aspects of motor speech disorder are captured by Mel Frequency Cepstral Coefficients? Evidence from the change in STN-DBS conditions in Parkinson's diseaseVojtech Illner, Petr Krýze, Jan Svihlík, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz. 5027-5031 [doi]

Detecting Manifest Huntington's Disease Using Vocal DataVinod Subramanian, Namhee Kwon, Raymond Brueckner, Nate Blaylock, Henry O'Connell, Luis Sierra, Clementina Ullman, Karen Hildebrand, Simon E. Laganiere. 5032-5036 [doi]

Exploring multi-task learning and data augmentation in dementia detection with self-supervised pretrained modelsMinchuan Chen, Chenfeng Miao, Jun Ma 0018, Shaojun Wang, Jing Xiao 0006. 5037-5041 [doi]

GL-SSD: Global and Local Speech Style Disentanglement by vector quantization for robust sentence boundary detection in speech streamKuncai Zhang, Wei Zhou, Pengcheng Zhu, Haiqing Chen. 5042-5046 [doi]

Semantic VAD: Low-Latency Voice Activity Detection for Speech InteractionMohan Shi, Yuchun Shu, Lingyun Zuo, Qian Chen 0003, Shiliang Zhang, Jie Zhang 0042, Li-Rong Dai 0001. 5047-5051 [doi]

Dynamic Encoder RNN for Online Voice Activity Detection in Adverse Noise ConditionsPrithvi R. R. Gudepu, Jayesh M. Koroth, Kamini Sabu, Mahaboob Ali Basha Shaik. 5052-5056 [doi]

Point to the Hidden: Exposing Speech Audio Splicing via Signal Pointer NetsDenise Moussa, Germans Hirsch, Sebastian Wankerl, Christian Riess. 5057-5061 [doi]

Real-Time Causal Spectro-Temporal Voice Activity Detection Based on Convolutional Encoding and Residual DecodingJingyuan Wang, Jie Zhang 0042, Li-Rong Dai 0001. 5062-5066 [doi]

SVVAD: Personal Voice Activity Detection for Speaker VerificationZuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao 0006. 5067-5071 [doi]

Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech RecognitionMuhammad Umar Farooq, Thomas Hain. 5072-5076 [doi]

AfriNames: Most ASR Models "Butcher" African NamesTobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh. 5077-5081 [doi]

Towards Dialect-inclusive Recognition in a Low-resource Language: Are Balanced Corpora the Answer?Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide. 5082-5086 [doi]

Svarah: Evaluating English ASR Systems on Indian AccentsTahir Javed, Sakshi Joshi, Vignesh Nagarajan, Sai Sundaresan, Janki Nawale, Abhigyan Raman, Kaushal Santosh Bhogale, Pratyush Kumar, Mitesh M. Khapra. 5087-5091 [doi]

N-Shot Benchmarking of Whisper on Diverse Arabic Speech RecognitionBashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed. 5092-5096 [doi]

The MALACH Corpus: Results with End-to-End Architectures and PretrainingMichael Picheny, Qin Yang, Daiheng Zhang, Lining Zhang. 5097-5101 [doi]

Unsupervised speech enhancement with deep dynamical generative speech and noise modelsXiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda. 5102-5106 [doi]

Noise-Robust Bandwidth Expansion for 8K Speech RecordingsYin-Tse Lin, Bo-Hao Su, Chi-Han Lin, Shih-Chan Kuo, Jyh-Shing Roger Jang, Chi-Chun Lee. 5107-5111 [doi]

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectraChenhao Shuai, Chaohua Shi, Lu Gan 0005, Hongqing Liu. 5112-5116 [doi]

Zoneformer: On-device Neural Beamformer For In-car Multi-zone Speech Separation, Enhancement and Echo CancellationYong Xu 0004, Vinay Kothapally, Meng Yu 0003, Shixiong Zhang, Dong Yu 0001. 5117-5121 [doi]

Low-complexity Broadband Beampattern Synthesis using Array Response ControlJiayi Xu, Jian Li, Weixin Meng, Xiaodong Li, Chengshi Zheng. 5122-5126 [doi]

A GAN Speech Inpainting Model for Audio Editing SoftwareHaixin Zhao. 5127-5131 [doi]

Deep Speech Synthesis from MRI-Based Articulatory RepresentationsPeter Wu, Tingle Li, Yijing Lu, Yubin Zhang, Jiachen Lian, Alan W. Black, Louis Goldstein, Shinji Watanabe 0001, Gopala Krishna Anumanchipalli. 5132-5136 [doi]

Learning to Compute the Articulatory Representations of Speech with the MIRRORNETYashish M. Siriwardena, Carol Y. Espy-Wilson, Shihab A. Shamma. 5137-5141 [doi]

Generating high-resolution 3D real-time MRI of the vocal tractMartin Strauch, Antoine Serrurier. 5142-5146 [doi]

Exploring a classification approach using quantised articulatory movements for acoustic to articulatory inversionJesuraja Bandekar, Sathvik Udupa, Prasanta Kumar Ghosh. 5147-5151 [doi]

MEG Encoding using Word Context Semantics in Listening StoriesSubba Reddy Oota, Nathan Trouvain, Frédéric Alexandre, Xavier Hinaut. 5152-5156 [doi]

Investigating the cortical tracking of speech and music with sung speechGiorgia Cantisani, Amirhossein Chalehchaleh, Giovanni M. di Liberto, Shihab A. Shamma. 5157-5161 [doi]

Coherence Estimation Tracks Auditory Attention in Listeners with Hearing ImpairmentOskar Keding, Emina Alickovic, Martin A. Skoglund, Maria Sandsten. 5162-5166 [doi]

Speech Taskonomy: Which Speech Tasks are the most Predictive of fMRI Brain Activity?Subba Reddy Oota, Veeral Agarwal, Mounika Marreddy, Manish Gupta 0001, Raju S. Bapi. 5167-5171 [doi]

Exploring Auditory Attention Decoding using Speaker FeaturesZelin Qiu, Jianjun Gu 0005, Dingding Yao, Junfeng Li. 5172-5176 [doi]

Enhancing the EEG Speech Match Mismatch Tasks With Word BoundariesAkshara Soman, Vidhi Sinha, Sriram Ganapathy. 5177-5181 [doi]

Similar Hierarchical Representation of Speech and Other Complex Sounds In the Brain and Deep Residual Networks: An MEG StudyTzu-Han Zoe Cheng, Kuan-Lin Chen, Juliane Schubert, Ya-Ping Chen, Tim Brown, John Iversen. 5182-5186 [doi]

Effects of spectral degradation on the cortical tracking of the speech envelopeAlexis Deighton MacIntyre, Tobias Goehring. 5187-5191 [doi]

Effects of spectral and temporal modulation degradation on intelligibility and cortical tracking of speech signalsIgnacio Calderon De Palma, Laura S. Lopez, Alejandro Lopez-Valdes. 5192-5196 [doi]

Transfer Learning for Personality Perception via Speech Emotion RecognitionYuanchao Li, Peter Bell 0001, Catherine Lai. 5197-5201 [doi]

A stimulus-organism-response model of willingness to buy from advertising speech using voice qualityMizuki Nagano, Yusuke Ijima, Sadao Hiroya. 5202-5206 [doi]

Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transitionDavid Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard. 5207-5211 [doi]

Influence of Personal Traits on Impressions of One's Own VoiceHikaru Yanagida, Yusuke Ijima, Naohiro Tawara. 5212-5216 [doi]

Pardon my disfluency: The impact of disfluency effects on the perception of speaker competence and confidenceAmbika Kirkland, Joakim Gustafson, Éva Székely. 5217-5221 [doi]

Cross-linguistic Emotion Perception in Human and TTS VoicesIona Gessinger, Michelle Cohn, Benjamin R. Cowan, Georgia Zellou, Bernd Möbius. 5222-5226 [doi]

Joint Learning Feature and Model Adaptation for Unsupervised Acoustic Modelling of Child SpeechRicheng Duan. 5227-5231 [doi]

Automatic Assessment of Oral Reading Accuracy for Reading DiagnosticsBo Molenaar, Cristian Tejedor García, Catia Cucchiarini, Helmer Strik. 5232-5236 [doi]

An ASR-enabled Reading Tutor: Investigating Feedback to Optimize Interaction for Learning to ReadYu Bai, Ferdy Hubers, Catia Cucchiarini, Roeland Van Hout, Helmer Strik. 5237-5241 [doi]

Adaptation of Whisper models to child speech recognitionRishabh Jain, Andrei Barcovschi, Mariam Yahayah Yiwere, Peter Corcoran 0001, Horia Cucu. 5242-5246 [doi]

Let's Give a Voice to Conversational Agents in Virtual RealityMichele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi. 5247-5248 [doi]

FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football CommentatorMassa Baali, Ahmed M. Ali 0002. 5249-5250 [doi]

Video Summarization Leveraging Multimodal Information for PresentationsHanchao Liu, Dapeng Chen, Rongjun Li, Wenyuan Xue, Wei Peng. 5251-5252 [doi]

What questions are my customers asking?: Towards Actionable Insights from Customer Questions in Contact Center CallsVarun Nathan, Devashish Deshpande, Ayush Kumar, Cijo George, Jithendra Vepa. 5253-5254 [doi]

COnVoy: A Contact Center Operated Pipeline for Voice of Customer DiscoveryRishabh Kumar Tripathi, Digvijay Ingle, Ayush Kumar, Cijo George, Jithendra Vepa. 5255-5256 [doi]

NeMo Forced Aligner and its application to word alignment for subtitle generationElena Rastorgueva, Vitaly Lavrukhin, Boris Ginsburg. 5257-5258 [doi]

CauSE: Causal Search Engine for Understanding Contact-Center ConversationsAnup Pattnaik, Tanay Narshana, Aashraya Sachdeva, Cijo George, Jithendra Vepa. 5259-5260 [doi]

Tailored Real-Time Call Summarization System for Contact CentersAashraya Sachdeva, Sai Nishanth Padala, Anup Pattnaik, Varun Nathan, Cijo George, Ayush Kumar, Jithendra Vepa. 5261-5262 [doi]

Federated Learning Toolkit with Voice-based User Verification DemoPrathamesh Mandke, Rachel Oberst, Matthias Reisser, Avijit Chakraborty, Christos Louizos, Joseph Soriaga, Daniel Madrigal Diaz, Andre Manoel, Nalin Singal, Jeff Omhover, Robert Sim. 5263-5264 [doi]

Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline ModelsLiam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor B. Zordan. 5265-5266 [doi]

Fast Enrollable Streaming Keyword Spotting System: Training and Inference using a Web BrowserNamhyun Cho, Sunmin Kim, Yoseb Kang, Heeman Kim. 5267-5268 [doi]

Cross-lingual/Cross-channel Intent Detection in Contact-Center ConversationsSuraj Agrawal, Aashraya Sachdeva, Soumya Jain, Cijo George, Jithendra Vepa. 5269-5270 [doi]

One-Step Knowledge Distillation and Fine-Tuning in Using Large Pre-Trained Self-Supervised Learning Models for Speaker VerificationJungwoo Heo, Chan-yeong Lim, Ju-ho Kim, Hyun-seo Shin, Ha-Jin Yu. 5271-5275 [doi]

Defense Against Adversarial Attacks on Audio DeepFake DetectionPiotr Kawa, Marcin Plata, Piotr Syga. 5276-5280 [doi]

A conformer-based classifier for variable-length utterance processing in anti-spoofingEros Rosello, Alejandro Gomez-Alanis, Angel M. Gomez, Antonio M. Peinado. 5281-5285 [doi]

Conformer-based Language Embedding with Self-Knowledge Distillation for Spoken Language IdentificationFeng Wang, Lingyan Huang, Tao Li, Qingyang Hong, Lin Li 0032. 5286-5290 [doi]

CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common VoiceJuan Zuluaga-Gomez, Sara Ahmed, Danielius Visockas, Cem Subakan. 5291-5295 [doi]

From adaptive score normalization to adaptive data normalization for speaker verification systemsSandro Cumani, Salvatore Sarni. 5296-5300 [doi]

CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware MaskingHui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, Qian Chen 0003. 5301-5305 [doi]

North Sámi Dialect Identification with Self-supervised Speech ModelsSofoklis Kakouros, Katri Hiovain-Asikainen. 5306-5310 [doi]

Encoder-decoder Multimodal Speaker Change DetectionJee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Youngki Kwon, MinJae Lee, Bong-Jin Lee. 5311-5315 [doi]

Disentangled Representation Learning for Multilingual Speaker RecognitionKihyun Nam, Youkyum Kim, Jaesung Huh, Hee-Soo Heo, Jee-weon Jung, Joon Son Chung. 5316-5320 [doi]

A Compact End-to-End Model with Local and Global Context for Spoken Language IdentificationFei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg. 5321-5325 [doi]

On the Robustness of Arabic Speech Dialect IdentificationPeter Sullivan, AbdelRahim A. Elmadany, Muhammad Abdul-Mageed. 5326-5330 [doi]

Adaptive Neural Network Quantization For Lightweight Speaker VerificationHaoyu Wang, Bei Liu, Yifei Wu, Yanmin Qian. 5331-5335 [doi]

Adversarial Diffusion Probability Model For Cross-domain Speaker Verification Integrating Contrastive LossXinmei Su, Xiang Xie, Fengrun Zhang, Chenguang Hu. 5336-5340 [doi]

Spoofing Attacker Also Benefits from Self-Supervised Pretrained ModelAoi Ito, Shota Horiguchi. 5346-5350 [doi]

Label Aware Speech Representation Learning For Language IdentificationShikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han 0002, Vera Axelrod, Partha Talukdar. 5351-5355 [doi]

Exploring the Impact of Back-End Network on Wav2vec 2.0 for Dialect IdentificationQibao Luo, Ruohua Zhou. 5356-5360 [doi]

Improving Speaker Verification with Self-Pretrained Transformer ModelsJunyi Peng, Oldrich Plchot, Themos Stafylakis, Ladislav Mosner, Lukás Burget, Jan Cernocký. 5361-5365 [doi]

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid ApproachesVinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun. 5366-5370 [doi]

What do self-supervised speech representations encode? An analysis of languages, varieties, speaking styles and speakersJulian Linke, Mate Kadar, Gergely Dosinszky, Péter Mihajlik, Gernot Kubin, Barbara Schuppler. 5371-5375 [doi]

A Compressed Synthetic Speech Detection Method with Compression Feature EmbeddingJinghong Zhang, Xiaowei Yi, Xianfeng Zhao. 5376-5380 [doi]

Outlier-aware Inlier Modeling and Multi-scale Scoring for Anomalous Sound Detection via Multitask LearningYucong Zhang, Hongbin Suo, Yulong Wan, Ming Li 0026. 5381-5385 [doi]

MOSLight: A Lightweight Data-Efficient System for Non-Intrusive Speech Quality AssessmentZitong Li, Wei Li. 5386-5390 [doi]

A Multi-Scale Attentive Transformer for Multi-Instrument Symbolic Music GenerationXipin Wei, Junhui Chen, Zirui Zheng, Li Guo, Lantian Li, Dong Wang. 5391-5395 [doi]

MTANet: Multi-band Time-frequency Attention Network for Singing Melody Extraction from Polyphonic MusicYuan Gao, Ying Hu, Liusong Wang, Hao Huang, Liang He. 5396-5400 [doi]

Xiaoicesing 2: A High-Fidelity Singing Voice Synthesizer Based on Generative Adversarial NetworkChunhui Wang, Chang Zeng, Xing He. 5401-5405 [doi]

Do Vocal Breath Sounds Encode Gender Cues for Automatic Gender Classification?Mohammad Shaique Solanki, Ashutosh Bharadwaj, Jeevan Kylash, Prasanta Kumar Ghosh. 5406-5410 [doi]

Automatic Exploration of Optimal Data Processing Operations for Sound Data Augmentation Using Improved Differentiable Automatic Data AugmentationToki Sugiura, Hiromitsu Nishizaki. 5411-5415 [doi]

A Snoring Sound Dataset for Body Position Recognition: Collection, Annotation, and AnalysisLi Xiao, Xiuping Yang, Xinhong Li, Weiping Tu, Xiong Chen, Weiyan Yi, Jie Lin, Yuhong Yang 0001, Yanzhen Ren. 5416-5420 [doi]

RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic MusicHaojie Wei, Xueke Cao, Tangpeng Dan, Yueguo Chen. 5421-5425 [doi]

Spatialization Quality Metric for Binaural SpeechPranay Manocha, Israel Dejene Gebru, Anurag Kumar 0003, Dejan Markovic, Alexander Richard. 5426-5430 [doi]

AsthmaSCELNet: A Lightweight Supervised Contrastive Embedding Learning Framework for Asthma Classification Using Lung SoundsArka Roy, Udit Satija. 5431-5435 [doi]

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound ClassificationSangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun. 5436-5440 [doi]

Remote Assessment for ALS using Multimodal Dialog Agents: Data Quality, Feasibility and Task ComplianceVanessa Richter, Michael Neumann, Jordan R. Green, Brian Richburg, Oliver Roesler, Hardik Kothare, Vikram Ramanarayanan. 5441-5445 [doi]

Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image GenerationGuy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz. 5446-5450 [doi]

Obstructive sleep apnea screening with breathing sounds and respiratory effort: a multimodal deep learning approachHector E. Romero, Ning Ma 0002, Guy J. Brown, Sam Johnson. 5451-5455 [doi]

Investigation of Music Emotion Recognition Based on Segmented Semi-Supervised LearningYifu Sun, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Kaiyu Hu, Jing Xiao 0006. 5456-5460 [doi]

The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-SpeechPhat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers. 5461-5465 [doi]

Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource LanguagesPhat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers. 5466-5470 [doi]

Robust Feature Decoupling in Voice Conversion by Using Locality-Based Instance NormalizationYewei Gu, Xianfeng Zhao, Xiaowei Yi. 5471-5475 [doi]

Zero-Shot Accent Conversion using Pseudo Siamese Disentanglement NetworkDongya Jia, Qiao Tian, Kainan Peng, Jiaxin Li, Yuanzhe Chen, Mingbo Ma, Yuping Wang, Yuxuan Wang. 5476-5480 [doi]

Automatic Evaluation of Turn-taking Cues in Conversational Speech SynthesisErik Ekstedt, Siyang Wang, Éva Székely, Joakim Gustafson, Gabriel Skantze. 5481-5485 [doi]

GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-SpeechYahuan Cong, Haoyu Zhang, Haopeng Lin, Shichao Liu 0003, Chunfeng Wang, Yi Ren 0006, Xiang Yin 0006, Zejun Ma. 5486-5490 [doi]

Analysis of Mean Opinion Scores in Subjective Evaluation of Synthetic Speech Based on Tail ProbabilitiesYusuke Yasuda, Tomoki Toda. 5491-5495 [doi]

LibriTTS-R: A Restored Multi-Speaker Text-to-Speech CorpusYuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang 0033, Wei Han, Ankur Bapna. 5496-5500 [doi]

UniFLG: Unified Facial Landmark Generator from Text or SpeechKentaro Mitsui, Yukiya Hono, Kei Sawada. 5501-5505 [doi]

XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-SpeechLinh The Nguyen, Thinh Pham, Dat Quoc Nguyen. 5506-5510 [doi]

ClArTTS: An Open-Source Classical Arabic Text-to-Speech CorpusAjinkya Kulkarni, Atharva Kulkarni, Sara Abedalmonem Mohammad Shatnawi, Hanan Aldarmaki. 5511-5515 [doi]

Diffusion-based accent modelling in speech synthesisKamil Deja, Georgi Tinchev, Marta Czarnowska, Marius Cotescu, Jasha Droppo. 5516-5520 [doi]

Multilingual Text-to-Speech Synthesis for Turkic Languages Using TransliterationRustem Yeshpanov, Saida Mussakhojayeva, Yerbolat Khassanov. 5521-5525 [doi]

CVTE-Poly: A New Benchmark for Chinese Polyphone DisambiguationSiheng Zhang, Xingjun Tan, Yanqiang Lei, Xianxiang Wang, Zhizhong Zhang, Yuan Xie 0006. 5526-5530 [doi]

Improving Bilingual TTS Using Language And Phonology Embedding With Embedding Strength ModulatorFengyu Yang, Jian Luan 0001, Meng Meng, Yujun Wang. 5531-5535 [doi]

High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech UnitsJunchen Lu, Berrak Sisman, Mingyang Zhang 0003, Haizhou Li 0001. 5536-5540 [doi]

PronScribe: Highly Accurate Multimodal Phonemic Transcription From Speech and TextYang Yu, Matthew Perez, Ankur Bapna, Fadi Haik, Siamak Tazari, Yu Zhang. 5541-5545 [doi]

Expressive Machine Dubbing Through Phrase-level Cross-lingual Prosody TransferJakub Swiatkowski, Duo Wang, Mikolaj Babianski, Giuseppe Coccia, Patrick Lumban Tobing, Ravichander Vipperla, Viacheslav Klimkov, Vincent Pollet. 5546-5550 [doi]

Why We Should Report the Details in Subjective Evaluation of TTS More RigorouslyCheng-Han Chiang, Wei-Ping Huang, Hung-yi Lee. 5551-5555 [doi]

Speaker-independent neural formant synthesisPablo Pérez Zarazaga, Zofia Malisz, Gustav Eje Henter, Lauri Juvela. 5556-5560 [doi]

CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer CenterYuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari. 5561-5565 [doi]

SASPEECH: A Hebrew Single Speaker Dataset for Text To Speech and Voice ConversionOrian Sharoni, Roee Shenberg, Erica Cooper. 5566-5570 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023

Abstract

Table of Contents