Interspeech 2022, 23rd Annual Conference of the International Speech Communication Association, Incheon, Korea, 18-22 September 2022

researchr

You are not signed in
Sign in
Sign up

Hanseok Ko, John H. L. Hansen, editors, Interspeech 2022, 23rd Annual Conference of the International Speech Communication Association, Incheon, Korea, 18-22 September 2022. ISCA, 2022. [doi]

Conference: interspeech2022

Abstract is missing.

SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-SpeechHyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo. 1-5 [doi]

Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitchHanbin Bae, Young-Sun Joo. 6-10 [doi]

Speaking Rate Control of end-to-end TTS Models by Direct Manipulation of the Encoder's Output EmbeddingsMartin Lenglet, Olivier Perrotin, Gérard Bailly. 11-15 [doi]

TriniTTS: Pitch-controllable End-to-end TTS without External AlignerYooncheol Ju, Ilhwan Kim, Hongsun Yang, Ji-Hoon Kim, Byeongyeol Kim, Soumi Maiti, Shinji Watanabe 0001. 16-20 [doi]

JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to SpeechDan Lim, Sunghee Jung, Eesung Kim. 21-25 [doi]

Interpretable dysarthric speaker adaptation based on optimal-transportRosanna Turrisi, Leonardo Badino. 26-30 [doi]

Dysarthric Speech Recognition From Raw Waveform with Parametric CNNsZhengjun Yue, Erfan Loweimi, Heidi Christensen, Jon Barker, Zoran Cvetkovic. 31-35 [doi]

The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech RecognitionLuke Prananta, Bence Mark Halpern, Siyuan Feng 0001, Odette Scharenborg. 36-40 [doi]

Investigating Self-supervised Pretraining Frameworks for Pathological Speech RecognitionLester Phillip Violeta, Wen-Chin Huang, Tomoki Toda. 41-45 [doi]

Improved ASR Performance for Dysarthric Speech Using Two-stage DataAugmentationChitralekha Bhat, Ashish Panda, Helmer Strik. 46-50 [doi]

Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech RecognitionAbner Hernandez, Paula Andrea Pérez-Toro, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas K. Maier, Seung-Hee Yang. 51-55 [doi]

Regularizing Transformer-based Acoustic Models by Penalizing Attention WeightsMun-Hak Lee, Joon-Hyuk Chang, Sang-Eon Lee, Ju-Seok Seong, Chanhee Park, Haeyoung Kwon. 56-60 [doi]

Content-Context Factorized Representations for Automated Speech RecognitionDavid M. Chan, Shalini Ghosh. 61-65 [doi]

Comparison and Analysis of New Curriculum Criteria for End-to-End ASRGeorgios Karakasidis, Tamás Grósz, Mikko Kurimo. 66-70 [doi]

Incremental learning for RNN-Transducer based speech recognition modelsDeepak Baby, Pasquale D'Alterio, Valentin Mendelev. 71-75 [doi]

Production federated keyword spotting via distillation, filtering, and joint federated-centralized trainingAndrew Hard, Kurt Partridge, Neng Chen, Sean Augenstein, Aishanee Shah, Hyun-Jin Park, Alex Park 0001, Sara Ng, Jessica Nguyen, Ignacio Lopez-Moreno, Rajiv Mathews, Françoise Beaufays. 76-80 [doi]

Use of prosodic and lexical cues for disambiguating wh-words in KoreanJieun Song, Hae-Sung Jeon, Jieun Kiaer. 81-85 [doi]

Autoencoder-Based Tongue Shape Estimation During Continuous SpeechVinicius Ribeiro, Yves Laprie. 86-90 [doi]

Phonetic erosion and information structure in function words: the case of miaGiuseppe Magistro, Claudia Crocco. 91-95 [doi]

Dynamic Vertical Larynx Actions Under Prosodic FocusMiran Oh, Yoon-Jeong Lee. 96-100 [doi]

Fundamental Frequency Variability over Time in Telephone InteractionsLeah Bradshaw, Eleanor Chodroff, Lena Jäger, Volker Dellwo. 101-105 [doi]

SHAS: Approaching optimal Segmentation for End-to-End Speech TranslationIoannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-Jussà. 106-110 [doi]

M-Adapter: Modality Adaptation for End-to-End Speech-to-Text TranslationJinming Zhao, Hao Yang, Gholamreza Haffari, Ehsan Shareghi. 111-115 [doi]

Cross-Modal Decision Regularization for Simultaneous Speech TranslationMohd Abbas Zaidi, Beomseok Lee, Sangha Kim 0002, Chanwoo Kim. 116-120 [doi]

Speech Segmentation Optimization using Segmented Bilingual Speech Corpus for End-to-end Speech TranslationRyo Fukuda, Katsuhito Sudoh, Satoshi Nakamura 0001. 121-125 [doi]

Generalized Keyword Spotting using ASR embeddingsKirandevraj R, Vinod Kumar Kurmi, Vinay P. Namboodiri, C. V. Jawahar. 126-130 [doi]

Multi-Corpus Speech Emotion Recognition for Unseen Corpus Using Corpus-Wise Weights in Classification LossYoungdo Ahn, Sung Joo Lee, Jong Won Shin. 131-135 [doi]

Improving Speech Emotion Recognition Through Focus and Calibration Attention MechanismsJunghun Kim, Yoojin An, Jihie Kim. 136-140 [doi]

The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in ConversationJoosung Lee. 141-145 [doi]

Probing speech emotion recognition transformers for linguistic knowledgeAndreas Triantafyllopoulos, Johannes Wagner 0001, Hagen Wierstorf, Maximilian Schmitt, Uwe Reichel, Florian Eyben, Felix Burkhardt, Björn W. Schuller. 146-150 [doi]

End-To-End Label Uncertainty Modeling for Speech-based Arousal Recognition Using Bayesian Neural NetworksNavin Raj Prabhu, Guillaume Carbajal, Nale Lehmann-Willenbrock, Timo Gerkmann. 151-155 [doi]

Mind the gap: On the value of silence representations to lexical-based speech emotion recognitionMatthew Perez, Mimansa Jaiswal, Minxue Niu, Cristina Gorrostieta, Matthew Roddy, Kye Taylor, Reza Lotfian, John Kane, Emily Mower Provost. 156-160 [doi]

Exploiting Co-occurrence Frequency of Emotions in Perceptual Evaluations To Train A Speech Emotion ClassifierHuang-Cheng Chou, Chi-Chun Lee, Carlos Busso. 161-165 [doi]

Positional Encoding for Capturing Modality Specific Cadence for Emotion DetectionHira Dhamyal, Bhiksha Raj, Rita Singh. 166-170 [doi]

Speak Like a Professional: Increasing Speech Intelligibility by Mimicking Professional Announcer Voice with Voice ConversionTuan Vu Ho, Maori Kobayashi, Masato Akagi. 171-175 [doi]

Vector-quantized Variational Autoencoder for Phase-aware Speech EnhancementTuan Vu Ho, Quoc Huy Nguyen, Masato Akagi, Masashi Unoki. 176-180 [doi]

iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancementMinseung Kim, Hyungchan Song, Sein Cheong, Jong Won Shin. 181-185 [doi]

Boosting Self-Supervised Embeddings for Speech EnhancementKuo-Hsuan Hung, Szu-Wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao 0001, Chii-Wann Lin. 186-190 [doi]

Monoaural Speech Enhancement Using a Nested U-Net with Two-Level Skip ConnectionsSeorim Hwang, Youngcheol Park, Sungwook Park. 191-195 [doi]

CycleGAN-based Unpaired Speech DereverberationHannah Muckenhirn, Aleksandr Safin, Hakan Erdogan, Felix de Chaumont Quitry, Marco Tagliasacchi, Scott Wisdom, John R. Hershey. 196-200 [doi]

Attentive Training: A New Training Framework for Talker-independent Speaker ExtractionAshutosh Pandey 0004, DeLiang Wang. 201-205 [doi]

Improved Modulation-Domain Loss for Neural-Network-based Speech EnhancementTyler Vuong, Richard M. Stern. 206-210 [doi]

Perceptual Characteristics Based Multi-objective Model for Speech EnhancementChiang-Jen Peng, Yun-Ju Chan, Yih-Liang Shen, Cheng Yu, Yu Tsao 0001, Tai-Shih Chi. 211-215 [doi]

Listen only to me! How well can target speech extraction handle false alarms?Marc Delcroix, Keisuke Kinoshita, Tsubasa Ochiai, Katerina Zmolíková, Hiroshi Sato, Tomohiro Nakatani. 216-220 [doi]

Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature ExtractionHao Shi, Longbiao Wang, Sheng Li 0010, Jianwu Dang, Tatsuya Kawahara. 221-225 [doi]

Neural Network-augmented Kalman Filtering for Robust Online Speech Dereverberation in Noisy Reverberant EnvironmentsJean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann. 226-230 [doi]

PodcastMix: A dataset for separating music and speech in podcastsNicolás Schmidt, Jordi Pons, Marius Miron. 231-235 [doi]

Independence-based Joint Dereverberation and Separation with Neural Source ModelKohei Saijo, Robin Scheibler. 236-240 [doi]

Spatial Loss for Unsupervised Multi-channel Source SeparationKohei Saijo, Robin Scheibler. 241-245 [doi]

Effect of Head Orientation on Speech DirectivitySamuel Bellows, Timothy W. Leishman. 246-250 [doi]

Unsupervised Training of Sequential Neural Beamformer Using Coarsely-separated and Non-separated SignalsKohei Saijo, Tetsuji Ogawa. 251-255 [doi]

Blind Language Separation: Disentangling Multilingual Cocktail Party Voices by LanguageMarvin Borsdorf, Kevin Scheck, Haizhou Li 0001, Tanja Schultz. 256-260 [doi]

NTF of Spectral and Spatial Features for Tracking and Separation of Moving Sound Sources in Spherical Harmonic DomainMateusz Guzik, Konrad Kowalczyk. 261-265 [doi]

Modelling Turn-taking in Multispeaker Parties for Realistic Data SimulationJack Deadman, Jon Barker. 266-270 [doi]

An Initialization Scheme for Meeting Separation with Spatial Mixture ModelsChristoph Böddeker, Tobias Cord-Landwehr, Thilo von Neumann, Reinhold Haeb-Umbach. 271-275 [doi]

Prototypical speaker-interference loss for target voice separation using non-parallel audio samplesSeongkyu Mun, Dhananjaya Gowda, Jihwan Lee, Changwoo Han, Dokyun Lee, Chanwoo Kim. 276-280 [doi]

Reliability criterion based on learning-phase entropy for speaker recognition with neural networkPierre-Michel Bousquet, Mickael Rouvier, Jean-François Bonastre. 281-285 [doi]

Attentive Feature Fusion for Robust Speaker VerificationBei Liu, Zhengyang Chen, Yanmin Qian. 286-290 [doi]

Dual Path Embedding Learning for Speaker Verification with Triplet AttentionBei Liu, Zhengyang Chen, Yanmin Qian. 291-295 [doi]

DF-ResNet: Boosting Speaker Verification Performance with Depth-First DesignBei Liu, Zhengyang Chen, Shuai Wang, Haoyu Wang, Bing Han, Yanmin Qian. 296-300 [doi]

Adaptive Rectangle Loss for Speaker VerificationRuida Li, Shuo Fang, Chenguang Ma, Liang Li. 301-305 [doi]

MFA-Conformer: Multi-scale Feature Aggregation Conformer for Automatic Speaker VerificationYang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu 0001, Hung-yi Lee, Helen Meng. 306-310 [doi]

Enroll-Aware Attentive Statistics Pooling for Target Speaker VerificationLeying Zhang, Zhengyang Chen, Yanmin Qian. 311-315 [doi]

Transport-Oriented Feature Aggregation for Speaker Embedding LearningYusheng Tian, Jingyu Li, Tan Lee. 316-320 [doi]

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation LearningMufan Sang, John H. L. Hansen. 321-325 [doi]

CS-CTCSCONV1D: Small footprint speaker verification with channel split time-channel-time separable 1-dimensional convolutionLinjun Cai, Yuhong Yang, Xufeng Chen, Weiping Tu, Hongyang Chen. 326-330 [doi]

Reliable Visualization for Deep Speaker RecognitionPengqi Li, Lantian Li, Askar Hamdulla, Dong Wang. 331-335 [doi]

Unifying Cosine and PLDA Back-ends for Speaker VerificationZhiyuan Peng, Xuanji He, Ke Ding, Tan Lee, Guanglu Wan. 336-340 [doi]

CTFALite: Lightweight Channel-specific Temporal and Frequency Attention Mechanism for Enhancing the Speaker Embedding ExtractorYuheng Wei, Junzhao Du, Hui Liu, Qian Wang. 341-345 [doi]

SpeechFormer: A Hierarchical Efficient Framework Incorporating the Characteristics of SpeechWeidong Chen, Xiaofen Xing, Xiangmin Xu, Jianxin Pang, Lan Du. 346-350 [doi]

VoiceLab: Software for Fully Reproducible Automated Voice AnalysisDavid Feinberg. 351-355 [doi]

TRILLsson: Distilled Universal Paralinguistic Speech RepresentationsJoel Shor, Subhashini Venugopalan. 356-360 [doi]

Global Signal-to-noise Ratio Estimation Based on Multi-subband Processing Using Convolutional Neural NetworkNan Li, Meng Ge, Longbiao Wang, Masashi Unoki, Sheng Li 0010, Jianwu Dang. 361-365 [doi]

A Sparsity-promoting Dictionary Model for Variational AutoencodersMostafa Sadeghi, Paul Magron. 366-370 [doi]

Deep Transductive Transfer Regression Network for Cross-Corpus Speech Emotion RecognitionYan Zhao, Jincen Wang, Ru Ye, Yuan Zong, Wenming Zheng, Li Zhao. 371-375 [doi]

Audio Anti-spoofing Using Simple Attention Module and Joint Optimization Based on Additive Angular Margin Loss and Meta-learningJohn H. L. Hansen, Zhenyu Wang. 376-380 [doi]

PEAF: Learnable Power Efficient Analog Acoustic Features for Audio RecognitionBoris Bergsma, Minhao Yang, Milos Cernak. 381-385 [doi]

Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical LoadGasser Elbanna, Alice Biryukov, Neil Scheidwasser-Clow, Lara Orlandic, Pablo Mainar, Mikolaj Kegler, Pierre Beckmann, Milos Cernak. 386-390 [doi]

Generative Data Augmentation Guided by Triplet Loss for Speech Emotion RecognitionShijun Wang, Hamed Hemati, Jón Guðnason, Damian Borth. 391-395 [doi]

Learning neural audio features without supervisionSarthak Yadav, Neil Zeghidour. 396-400 [doi]

Densely-connected Convolutional Recurrent Network for Fundamental Frequency Estimation in Noisy SpeechYixuan Zhang, Heming Wang, DeLiang Wang. 401-405 [doi]

Predicting label distribution improves non-intrusive speech quality estimationAbu Zaher Md Faridee, Hannes Gamper. 406-410 [doi]

Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic Knowledge Distillation of Self-Supervised Speech ModelsTakanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka. 411-415 [doi]

Dataset Pruning for Resource-constrained Spoofed Audio DetectionAbdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza. 416-420 [doi]

EdiTTS: Score-based Editing for Controllable Text-to-SpeechJaesung Tae, Hyeongju Kim, Taesu Kim. 421-425 [doi]

Improving Mandarin Prosodic Structure Prediction with Multi-level Contextual InformationJie Chen, Changhe Song, Deyi Tuo, Xixin Wu, Shiyin Kang, Zhiyong Wu 0001, Helen Meng. 426-430 [doi]

SpeechPainter: Text-conditioned Speech InpaintingZalan Borsos, Matthew Sharifi, Marco Tagliasacchi. 431-435 [doi]

A polyphone BERT for Polyphone Disambiguation in Mandarin ChineseSong Zhang, Ken Zheng, Xiaoxu Zhu, Baoxiang Li. 436-440 [doi]

Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by Leveraging External Textual KnowledgeMutian He 0001, Jingzhou Yang, Lei He 0005, Frank K. Soong. 441-445 [doi]

ByT5 model for massively multilingual grapheme-to-phoneme conversionJian Zhu, Cong Zhang, David Jurgens. 446-450 [doi]

DocLayoutTTS: Dataset and Baselines for Layout-informed Document-level Neural Speech SynthesisPuneet Mathur, Franck Dernoncourt, Quan Hung Tran, Jiuxiang Gu, Ani Nenkova, Vlad I. Morariu, Rajiv Jain, Dinesh Manocha. 451-455 [doi]

Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme Representations for Text to SpeechGuangyan Zhang, Kaitao Song, Xu Tan 0003, Daxin Tan, Yuzi Yan, Yanqing Liu, Gang Wang, Wei Zhou, Tao Qin, Tan Lee, Sheng Zhao. 456-460 [doi]

Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech RecognitionJunrui Ni, Liming Wang, Heting Gao, Kaizhi Qian, Yang Zhang 0001, Shiyu Chang, Mark Hasegawa-Johnson. 461-465 [doi]

An Efficient and High Fidelity Vietnamese Streaming End-to-End Speech SynthesisTho Nguyen Duc Tran, The Chuong Chu, Vu Hoang, Trung Huu Bui, Steven Hung Quoc Truong. 466-470 [doi]

Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networksCassia Valentini-Botinhao, Manuel Sam Ribeiro, Oliver Watts, Korin Richmond, Gustav Eje Henter. 471-475 [doi]

An Automatic Soundtracking System for Text-to-Speech AudiobooksZikai Chen, Lin Wu, Junjie Pan, Xiang Yin 0006. 476-480 [doi]

Environment Aware Text-to-Speech SynthesisDaxin Tan, Guangyan Zhang, Tan Lee. 481-485 [doi]

SoundChoice: Grapheme-to-Phoneme Models with Semantic DisambiguationArtem Ploujnikov, Mirco Ravanelli. 486-490 [doi]

Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text NormalizationEvelina Bakhturina, Yang Zhang, Boris Ginsburg. 491-495 [doi]

Prosodic alignment for off-screen automatic dubbingYogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote. 496-500 [doi]

A Study of Modeling Rising Intonation in Cantonese Neural Speech SynthesisQibing Bai, Tom Ko, Yu Zhang. 501-505 [doi]

CAUSE: Crossmodal Action Unit Sequence Estimation from SpeechHirokazu Kameoka, Takuhiro Kaneko, Shogo Seki, Kou Tanaka. 506-510 [doi]

Visualising Model Training via Vowel Space for Text-To-Speech SystemsBinu Nisal Abeysinghe, Jesin James, Catherine I. Watson 0001, Felix Marattukalam. 511-515 [doi]

Binary Early-Exit Network for Adaptive Inference on Low-Resource DevicesAaqib Saeed. 516-520 [doi]

Streaming Speaker-Attributed ASR with Token-Level Speaker EmbeddingsNaoyuki Kanda, Jian Wu 0027, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen 0006, Jinyu Li 0001, Takuya Yoshioka. 521-525 [doi]

Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text dataNaoki Makishima, Satoshi Suzuki, Atsushi Ando, Ryo Masumura. 526-530 [doi]

Audio-Visual Generalized Few-Shot Learning with Prototype-Based Co-AdaptationYi-Kai Zhang, Da-Wei Zhou 0001, Han-Jia Ye, De-Chuan Zhan. 531-535 [doi]

Federated Domain Adaptation for ASR with Full Self-SupervisionJunteng Jia, Jay Mahadeokar, Weiyi Zheng, Yuan Shangguan, Ozlem Kalinli, Frank Seide. 536-540 [doi]

Augmented Adversarial Self-Supervised Learning for Early-Stage Alzheimer's Speech DetectionLongfei Yang, Wenqing Wei, Sheng Li 0010, Jiyi Li, Takahiro Shinozaki. 541-545 [doi]

Extending RNN-T-based speech recognition systems with emotion and language classificationZvi Kons, Hagai Aronowitz, Edmilson Da Silva Morais, Matheus Damasceno, Hong-Kwang Kuo, Samuel Thomas 0001, George Saon. 546-549 [doi]

Thutmose Tagger: Single-pass neural model for Inverse Text NormalizationAlexandra Antonova, Evelina Bakhturina, Boris Ginsburg. 550-554 [doi]

Leveraging Prosody for Punctuation Prediction of Spontaneous SpeechYeonjin Cho, Sara Ng, Trang tran, Mari Ostendorf. 555-559 [doi]

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party MeetingsFan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie 0001. 560-564 [doi]

TMGAN-PLC: Audio Packet Loss Concealment using Temporal Memory Generative Adversarial NetworkYuansheng Guan, Guochen Yu, Andong Li, Chengshi Zheng, Jie Wang. 565-569 [doi]

Real-Time Packet Loss Concealment With Mixed Generative and Predictive ModelJean-Marc Valin, Ahmed Mustafa, Christopher Montgomery, Timothy B. Terriberry, Michael Klingbeil, Paris Smaragdis, Arvindh Krishnaswamy. 570-574 [doi]

PLCNet: Real-time Packet Loss Concealment with Semi-supervised Generative Adversarial NetworkBaiyun Liu, Qi Song, Mingxue Yang, Wuwen Yuan, Tianbao Wang. 575-579 [doi]

INTERSPEECH 2022 Audio Deep Packet Loss Concealment ChallengeLorenz Diener, Sten Sootla, Solomiya Branets, Ando Saabas, Robert Aichner, Ross Cutler. 580-584 [doi]

End-to-End Multi-Loss Training for Low Delay Packet Loss ConcealmentNan Li, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 585-589 [doi]

Extended U-Net for Speaker Verification in Noisy EnvironmentsJu-ho Kim, Jungwoo Heo, Hye-jin Shim, Ha-Jin Yu. 590-594 [doi]

Domain Agnostic Few-shot Learning for Speaker VerificationSeunghan Yang, Debasmit Das, Janghoon Cho, Hyoungwoo Park, Sungrack Yun. 595-599 [doi]

Scoring of Large-Margin Embeddings for Speaker Verification: Cosine or PLDA?Qiongqiong Wang, Kong-Aik Lee, Tianchi Liu 0004. 600-604 [doi]

Training speaker embedding extractors using multi-speaker audio with unknown speaker boundariesThemos Stafylakis, Ladislav Mosner, Oldrich Plchot, Johan Rohdin, Anna Silnova, Lukás Burget, Jan Cernocký. 605-609 [doi]

Investigating the contribution of speaker attributes to speaker separability using disentangled speaker representationsChau Luu, Steve Renals, Peter Bell 0001. 610-614 [doi]

Joint domain adaptation and speech bandwidth extension using time-domain GANs for speaker verificationSaurabh Kataria, Jesús Villalba, Laureano Moro-Velázquez, Najim Dehak. 615-619 [doi]

Variability in Production of Non-Sibilant Fricative [ç] in /hi/Tsukasa Yoshinaga, Kikuo Maekawa, Akiyoshi Iida. 620-624 [doi]

Streaming model for Acoustic to Articulatory Inversion with transformer networksSathvik Udupa, Aravind Illa, Prasanta Kumar Ghosh. 625-629 [doi]

Trajectories predicted by optimal speech motor control using LSTM networksTsiky Rakotomalala, Pierre Baraduc, Pascal Perrier. 630-634 [doi]

Exploration strategies for articulatory synthesis of complex syllable onsetsDaniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul Konstantin Krug, Peter Birkholz, Yi Xu. 635-639 [doi]

Linguistic versus biological factors governing acoustic voice variationYoonjeong Lee, Jody Kreiman. 640-643 [doi]

Acquisition of allophonic variation in second language speech: An acoustic and articulatory study of English laterals by Japanese speakersTakayuki Nagamine. 644-648 [doi]

SAQAM: Spatial Audio Quality Assessment MetricPranay Manocha, Anurag Kumar 0003, Buye Xu, Anjali Menon, Israel Dejene Gebru, Vamsi Krishna Ithapu, Paul Calamia. 649-653 [doi]

Speech Quality Assessment through MOS using Non-Matching ReferencesPranay Manocha, Anurag Kumar 0003. 654-658 [doi]

An objective test tool for pitch extractors' response attributesHideki Kawahara, Kohei Yatabe, Ken-Ichi Sakakibara, Tatsuya Kitamura, Hideki Banno, Masanori Morise. 659-663 [doi]

Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio DetectionKai Li, Sheng Li 0010, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki. 664-668 [doi]

Automatic Data Augmentation Selection and Parametrization in Contrastive Self-Supervised Speech Representation LearningSalah Zaiem, Titouan Parcollet, Slim Essid. 669-673 [doi]

Transformer-based quality assessment model for generalized user-generated multimedia audio contentDeebha Mumtaz, Ajit Jena, Vinit Jakhetiya, Karan Nathwani, Sharath Chandra Guntuku. 674-678 [doi]

Space-Efficient Representation of Entity-centric Query Language ModelsChristophe Van Gysel, Mirko Hannemann, Ernest Pusateri, Youssef Oualil, Ilya Oparin. 679-683 [doi]

Domain Prompts: Towards memory and compute efficient domain adaptation of ASR systemsSaket Dingliwal, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff. 684-688 [doi]

Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech RecognitionW. Ronny Huang, Cal Peyser, Tara N. Sainath, Ruoming Pang, Trevor D. Strohman, Shankar Kumar. 689-693 [doi]

UserLibri: A Dataset for ASR Personalization Using Only TextTheresa Breiner, Swaroop Ramaswamy, Ehsan Variani, Shefali Garg, Rajiv Mathews, Khe Chai Sim, Kilol Gupta, Mingqing Chen, Lara McConnaughey. 694-698 [doi]

A BERT-based Language Modeling FrameworkChin-Yueh Chien, Kuan-Yu Chen. 699-703 [doi]

Joint Optimization of Sampling Rate Offsets Based on Entire Signal Relationship Among Distributed MicrophonesYoshiki Masuyama, Kouei Yamaoka, Nobutaka Ono. 704-708 [doi]

Challenges and Opportunities in Multi-device Speech ProcessingGregory Ciccarelli, Jarred Barber, Arun Nair, Israel Cohen, Tao Zhang. 709-713 [doi]

Practical Over-the-air Perceptual AcousticWatermarkingAmeya Agaskar. 714-718 [doi]

Clustering-based Wake Word Detection in Privacy-aware Acoustic Sensor NetworksTimm Koppelmann, Luca Becker, Alexandru Nelus, Rene Glitza, Lea Schönherr, Rainer Martin 0001. 719-723 [doi]

Relative Acoustic Features for Distance Estimation in Smart-HomesFrancesco Nespoli, Daniel Barreda, Patrick A. Naylor. 724-728 [doi]

Time-domain Ad-hoc Array Speech Enhancement Using a Triple-path NetworkAshutosh Pandey 0004, Buye Xu, Anurag Kumar 0003, Jacob Donley, Paul Calamia, DeLiang Wang. 729-733 [doi]

Relationship between the acoustic time intervals and tongue movements of German diphthongsArne-Lukas Fietkau, Simon Stone, Peter Birkholz. 734-738 [doi]

Development of allophonic realization until adolescence: A production study of the affricate-fricative variation of /z/ among Japanese childrenSanae Matsui, Kyoji Iwamoto, Reiko Mazuka. 739-743 [doi]

Recurrent multi-head attention fusion network for combining audio and text for speech emotion recognitionChung Soo Ahn, Chamara Kasun, Sunil Sivadas, Jagath C. Rajapakse. 744-748 [doi]

Low-Level Physiological Implications of End-to-End Learning for Speech RecognitionLouise Coppieters de Gibson, Philip N. Garner. 749-753 [doi]

Idiosyncratic lingual articulation of American English /æ/ and /ɑ/ using network analysisCarolina Lins Machado, Volker Dellwo, Lei He. 754-758 [doi]

Method for improving the word intelligibility of presented speech using bone-conduction headphonesTeruki Toya, Wenyu Zhu, Maori Kobayashi, Kenichi Nakamura, Masashi Unoki. 759-763 [doi]

Three-dimensional finite-difference time-domain acoustic analysis of simplified vocal tract shapesDebasish Ray Mohapatra, Mario Fleischer, Victor Zappi, Peter Birkholz, Sidney S. Fels. 764-768 [doi]

Speech imitation skills predict automatic phonetic convergence: a GMM-UBM study on L2Dorina De Jong, Aldo Pastore, Noël Nguyen, Alessandro D'Ausilio. 769-773 [doi]

Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAEMarc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber. 774-778 [doi]

Deep Speech Synthesis from Articulatory RepresentationsPeter Wu, Shinji Watanabe 0001, Louis Goldstein, Alan W. Black, Gopala Krishna Anumanchipalli. 779-783 [doi]

Orofacial somatosensory inputs in speech perceptual training modulate speech productionMonica Ashokumar, Jean-Luc Schwartz, Takayuki Ito 0002. 784-787 [doi]

Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech CorpusMinchan Kim, Myeonghun Jeong, Byoung Jin Choi, SungHwan Ahn, Joun Yeop Lee, Nam Soo Kim. 788-792 [doi]

DRSpeech: Degradation-Robust Text-to-Speech Synthesis with Frame-Level and Utterance-Level Acoustic Representation LearningTakaaki Saeki, Kentaro Tachibana, Ryuichi Yamamoto. 793-797 [doi]

MSR-NV: Neural Vocoder Using Multiple Sampling RatesKentaro Mitsui, Kei Sawada. 798-802 [doi]

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral ShapingYuma Koizumi, Heiga Zen, Kohei Yatabe, Nanxin Chen, Michiel Bacchiani. 803-807 [doi]

Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud to EdgeSangjun Park, Kihyun Choo, Joohyung Lee, Anton V. Porov, Konstantin Osipov, June Sig Sung. 808-812 [doi]

Hierarchical and Multi-Scale Variational Autoencoder for Diverse and Natural Non-Autoregressive Text-to-SpeechJae-Sung Bae, Jinhyeok Yang, Taejun Bak, Young-Sun Joo. 813-817 [doi]

End-to-end LPCNet: A Neural Vocoder With Fully-Differentiable LPC EstimationKrishna Subramani, Jean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy. 818-822 [doi]

EPIC TTS Models: Empirical Pruning Investigations Characterizing Text-To-Speech ModelsPerry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman. 823-827 [doi]

Fine-grained Noise Control for Multispeaker Speech SynthesisKarolos Nikitaras, Georgios Vamvoukakis, Nikolaos Ellinas, Konstantinos Klapsas, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis. 828-832 [doi]

WavThruVec: Latent speech representation as intermediate features for neural speech synthesisHubert Siuzdak, Piotr Dura, Pol van Rijn, Nori Jacoby. 833-837 [doi]

Fast Grad-TTS: Towards Efficient Diffusion-Based Speech Generation on CPUIvan Vovk, Tasnima Sadekova, Vladimir Gogoryan, Vadim Popov, Mikhail A. Kudinov, Jiansheng Wei. 838-842 [doi]

Simple and Effective Unsupervised Speech SynthesisAlexander H. Liu, Cheng-I Lai, Wei-Ning Hsu, Michael Auli, Alexei Baevski, James R. Glass. 843-847 [doi]

Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation GenerationReo Yoneyama, Yi-Chiao Wu, Tomoki Toda. 848-852 [doi]

NeMo Open Source Speaker Diarization SystemTaejin Park, Nithin Rao Koluguri, Fei Jia, Jagadeesh Balam, Boris Ginsburg. 853-854 [doi]

Voice2Alliance: Automatic Speaker Diarization and Quality Assurance of Conversational AlignmentBaihan Lin. 855-856 [doi]

VAgyojaka: An Annotating and Post-Editing Tool for Automatic Speech RecognitionRishabh Kumar, Devaraja Adiga, Mayank Kothyari, Jatin Dalal, Ganesh Ramakrishnan, Preethi Jyothi. 857-858 [doi]

SKYE: More than a conversational AIAlzahra Badi, Chungho Park, Min-Seok Keum, Miguel Alba, Youngsuk Ryu, Jeongmin Bae. 859-860 [doi]

Training Data Generation with DOA-based Selecting and Remixing for Unsupervised Training of Deep Separation ModelsHokuto Munakata, Ryu Takeda, Kazunori Komatani. 861-865 [doi]

Beam-Guided TasNet: An Iterative Speech Separation Framework with Multi-Channel OutputHangting Chen, Yi Yang, Feng Dang, Pengyuan Zhang. 866-870 [doi]

Joint Estimation of Direction-of-Arrival and Distance for Arrays with Directional Sensors based on Sparse Bayesian LearningFeifei Xiong, Pengyu Wang, Zhongfu Ye, Jinwei Feng. 871-875 [doi]

How to Listen? Rethinking Visual Sound LocalizationHo-Hsiang Wu, Magdalena Fuentes, Prem Seetharaman, Juan Pablo Bello. 876-880 [doi]

Small Footprint Neural Networks for Acoustic Direction of Arrival EstimationZhiheng Ouyang, Miao Wang, Wei-Ping Zhu 0001. 881-885 [doi]

Multi-Modal Multi-Correlation Learning for Audio-Visual Speech SeparationXiaoyu Wang, Xiangyu Kong, Xiulian Peng, Yan Lu. 886-890 [doi]

MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound SourcesHaoran Yin, Meng Ge, Yanjie Fu, Gaoyan Zhang, Longbiao Wang, Lei Zhang, Lin Qiu, Jianwu Dang. 891-895 [doi]

Iterative Sound Source Localization for Unknown Number of SourcesYanjie Fu, Meng Ge, Haoran Yin, Xinyuan Qian, Longbiao Wang, Gaoyan Zhang, Jianwu Dang. 896-900 [doi]

Distance-Based Sound SeparationKatharine Patterson, Kevin W. Wilson, Scott Wisdom, John R. Hershey. 901-905 [doi]

VCSE: Time-Domain Visual-Contextual Speaker Extraction NetworkJunjie Li, Meng Ge, Zexu Pan, Longbiao Wang, Jianwu Dang. 906-910 [doi]

TRUNet: Transformer-Recurrent-U Network for Multi-channel Reverberant Sound Source SeparationAli Aroudi, Stefan Uhlich, Marc Ferras Font. 911-915 [doi]

PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech EnhancementXiaofeng Ge, Jiangyu Han, Yanhua Long, Haixin Guan. 916-920 [doi]

Lightweight Full-band and Sub-band Fusion Network for Real Time Speech EnhancementZhuangqi Chen, Pingjian Zhang. 921-925 [doi]

Cross-Layer Similarity Knowledge Distillation for Speech EnhancementJiaming Cheng, Ruiyu Liang, Yue Xie, Li Zhao, Björn W. Schuller, Jie Jia, Yiyuan Peng. 926-930 [doi]

Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and DereverberationFeifei Xiong, Weiguang Chen, Pengyu Wang, Xiaofei Li, Jinwei Feng. 931-935 [doi]

CMGAN: Conformer-based Metric GAN for Speech EnhancementRuizhe Cao, Sherif Abdulatif, Bin Yang. 936-940 [doi]

Model Compression by Iterative Pruning with Knowledge Distillation and Its Application to Speech EnhancementZeyuan Wei, Li Hao, Xueliang Zhang. 941-945 [doi]

Single-channel speech enhancement using Graph Fourier TransformChenhui Zhang, Xiang Pan. 946-950 [doi]

Joint Optimization of the Module and Sign of the Spectral Real Part Based on CRN for Speech DenoisingZilu Guo, Xu Xu 0003, Zhongfu Ye. 951-955 [doi]

Attentive Recurrent Network for Low-Latency Active Noise ControlHao Zhang, Ashutosh Pandey 0004, DeLiang Wang. 956-960 [doi]

Memory-Efficient Multi-Step Speech Enhancement with Neural ODEJen-Hung Huang, Chung-Hsien Wu. 961-965 [doi]

GLD-Net: Improving Monaural Speech Enhancement by Learning Global and Local Dependency Features with GLD BlockXinmeng Xu, Yang Wang, Jie Jia, Binbin Chen, Jianjun Hao. 966-970 [doi]

Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head AttentionXinmeng Xu, Yang Wang, Jie Jia, Binbin Chen, Dejun Li. 971-975 [doi]

Speech Enhancement with Fullband-Subband Cross-Attention NetworkJun Chen, Wei Rao, Zilin Wang, Zhiyong Wu 0001, Yannan Wang, Tao Yu, Shidong Shang, Helen Meng. 976-980 [doi]

OSSEM: one-shot speaker adaptive speech enhancement using meta learningCheng Yu, Szu-Wei Fu, Tsun-An Hsieh, Yu Tsao 0001, Mirco Ravanelli. 981-985 [doi]

Efficient Speech Enhancement with Neural Homomorphic SynthesisWenbin Jiang, Tao Liu, Kai Yu. 986-990 [doi]

Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge DistillationManthan Thakker, Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang. 991-995 [doi]

Strategies to Improve Robustness of Target Speech Extraction to Enrollment VariationsHiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Ryo Masumura. 996-1000 [doi]

FedNST: Federated Noisy Student Training for Automatic Speech RecognitionHaaris Mehmood, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay. 1001-1005 [doi]

SCaLa: Supervised Contrastive Learning for End-to-End Speech RecognitionLi Fu, Xiaoxiao Li, Runyu Wang, Lu Fan, Zhengchen Zhang, Meng Chen 0006, Youzheng Wu, Xiaodong He 0002. 1006-1010 [doi]

NAS-SCAE: Searching Compact Attention-based Encoders For End-to-end Automatic Speech RecognitionYukun Liu, Ta Li, Pengyuan Zhang, Yonghong Yan 0002. 1011-1015 [doi]

Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASRKun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma. 1016-1020 [doi]

PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-Modeling Unit Training for Phonetic-Reduction-Robust E2E Speech RecognitionGuodong Ma, Pengfei Hu, Nurmemet Yolwas, Shen Huang, Hao Huang. 1021-1025 [doi]

Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech RecognitionKartik Audhkhasi, Yinghui Huang, Bhuvana Ramabhadran, Pedro J. Moreno. 1026-1030 [doi]

Improving Rare Word Recognition with LM-aware MWER TrainingWeiran Wang, Tongzhou Chen, Tara N. Sainath, Ehsan Variani, Rohit Prabhavalkar, W. Ronny Huang, Bhuvana Ramabhadran, Neeraj Gaur, Sepand Mavandadi, Cal Peyser, Trevor Strohman, Yanzhang He, David Rybach. 1031-1035 [doi]

Improving the Training Recipe for a Robust Conformer-based Hybrid ModelMohammad Zeineldeen, Jingjing Xu, Christoph Lüscher, Ralf Schlüter, Hermann Ney. 1036-1040 [doi]

CTC Variations Through New WFST TopologiesAleksandr Laptev, Somshubra Majumdar, Boris Ginsburg. 1041-1045 [doi]

Dealing with Unknowns in Continual Learning for End-to-end Automatic Speech RecognitionMartin Sustek, Samik Sadhu, Hynek Hermansky. 1046-1050 [doi]

Towards Efficiently Learning Monotonic Alignments for Attention-based End-to-End Speech RecognitionChenfeng Miao, Kun Zou, Ziyang Zhuang, Tao Wei, Jun Ma, Shaojun Wang, Jing Xiao 0006. 1051-1055 [doi]

On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant trainingJisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker. 1056-1060 [doi]

From Undercomplete to Sparse Overcomplete Autoencoders to Improve LF-MMI based Speech RecognitionSelen Hande Kabil, Hervé Bourlard. 1061-1065 [doi]

Domain Adversarial Self-Supervised Speech Representation Learning for Improving Unknown Domain Downstream TasksTomohiro Tanaka, Ryo Masumura, Hiroshi Sato, Mana Ihori, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya. 1066-1070 [doi]

Attention Weight Smoothing Using Prior Distributions for Transformer-Based End-to-End ASRTakashi Maekaku, Yuya Fujita, Yifan Peng, Shinji Watanabe 0001. 1071-1075 [doi]

Reducing Offensive Replies in Open Domain Dialogue SystemsNaokazu Uchida, Takeshi Homma, Makoto Iwayama, Yasuhiro Sogawa. 1076-1080 [doi]

Induce Spoken Dialog Intents via Deep Unsupervised Context Contrastive ClusteringTing-Wei Wu, Biing-Hwang Juang. 1081-1085 [doi]

Dialogue Acts Aided Important Utterance Detection Based on Multiparty and Multimodal InformationFumio Nihei, Ryo Ishii, Yukiko I. Nakano, Kyosuke Nishida, Ryo Masumura, Atsushi Fukayama, Takao Nakamura. 1086-1090 [doi]

Contextual Acoustic Barge-In Classification for Spoken Dialog SystemsDhanush Bekal, Sundararajan Srinivasan, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff. 1091-1095 [doi]

Calibrate and Refine! A Novel and Agile Framework for ASR Error Robust Intent DetectionPeilin Zhou, Dading Chong, Helin Wang, Qingcheng Zeng. 1096-1100 [doi]

ASR-Robust Natural Language Understanding on ASR-GLUE datasetLingyun Feng, Jianwei Yu, Yan Wang, Songxiang Liu, Deng Cai 0002, Haitao Zheng. 1101-1105 [doi]

From Disfluency Detection to Intent Detection and Slot FillingMai Hoang Dao, Thinh Hung Truong, Dat Quoc Nguyen. 1106-1110 [doi]

Audio-Visual Wake Word Spotting in MISP2021 Challenge: Dataset Release and Deep AnalysisHengshun Zhou, Jun Du, Gongzhen Zou, Zhaoxu Nian, Chin-Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe 0001, Odette Scharenborg, Jingdong Chen, Shifu Xiong, Jianqing Gao. 1111-1115 [doi]

Extending Compositional Attention Networks for Social Reasoning in VideosChristina Sartzetaki, Georgios Paraskevopoulos, Alexandros Potamianos. 1116-1120 [doi]

TopicKS: Topic-driven Knowledge Selection for Knowledge-grounded Dialogue GenerationShiquan Wang, Yuke Si, Xiao Wei, Longbiao Wang, Zhiqiang Zhuang, Xiaowang Zhang, Jianwu Dang. 1121-1125 [doi]

Bottom-up discovery of structure and variation in response tokens ('backchannels') across diverse languagesAndreas Liesenfeld, Mark Dingemanse. 1126-1130 [doi]

Cross-modal Transfer Learning via Multi-grained Alignment for End-to-End Spoken Language UnderstandingYi Zhu, Zexun Wang, Hang Liu, PeiYing Wang, Mingchao Feng, Meng Chen, Xiaodong He 0002. 1131-1135 [doi]

Use of Nods Less Synchronized with Turn-Taking and Prosody During Conversations in Adults with AutismKeiko Ochi, Nobutaka Ono, Keiho Owada, Miho Kuroda, Shigeki Sagayama, Hidenori Yamasue. 1136-1140 [doi]

DAVIS: Driver's Audio-Visual Speech recognitionDenis Ivanko, Dmitry Ryumin, Alexey M. Kashevnik, Alexandr Axyonov, Andrey Kitenko, Igor Lashkov, Alexey Karpov 0001. 1141-1142 [doi]

Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion RecognitionEinari Vaaras, Manu Airaksinen, Okko Räsänen. 1143-1147 [doi]

Emotion-Shift Aware CRF for Decoding Emotion Sequence in ConversationChun-Yu Chen, Yun-Shao Lin, Chi-Chun Lee. 1148-1152 [doi]

Vaccinating SER to Neutralize Adversarial Attacks with Self-Supervised Augmentation StrategyBo-Hao Su, Chi-Chun Lee. 1153-1157 [doi]

Speech Emotion Recognition in the Wild using Multi-task and Adversarial LearningJack Parry, Eric DeMattos, Anita Klementiev, Axel Ind, Daniela Morse-Kopp, Georgia Clarke, Dimitri Palaz. 1158-1162 [doi]

The Magnitude and Phase based Speech Representation Learning using Autoencoder for Classifying Speech Emotions using Deep Canonical Correlation AnalysisAshishkumar Prabhakar Gudmalwar, Biplove Basel, Anirban Dutta, Ch V. Rama Rao. 1163-1167 [doi]

Improving Speech Emotion Recognition Using Self-Supervised Learning with Domain-Specific Audiovisual TasksLucas Goncalves, Carlos Busso. 1168-1172 [doi]

SNRi Target Training for Joint Speech Enhancement and RecognitionYuma Koizumi, Shigeki Karita, Arun Narayanan, Sankaran Panchapagesan, Michiel Bacchiani. 1173-1177 [doi]

Deep Self-Supervised Learning of Speech Denoising from Noisy SpeechesYutaro Sanada, Takumi Nakagawa, Yuichiro Wada, Kosaku Takanashi, Yuhui Zhang, Kiichi Tokuyama, Takafumi Kanamori, Tomonori Yamada. 1178-1182 [doi]

NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional ResamplingChi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min Wang, Yu Tsao 0001. 1183-1187 [doi]

FFC-SE: Fast Fourier Convolution for Speech EnhancementIvan Shchekotov, Pavel K. Andreev, Oleg Ivanov, Aibek Alanov, Dmitry Vetrov. 1188-1192 [doi]

A Systematic Comparison of Phonetic Aware Techniques for Speech EnhancementOr Tal, Moshe Mandel, Felix Kreuk, Yossi Adi. 1193-1197 [doi]

Multi-View Attention Transfer for Efficient Speech EnhancementWooSeok Shin, Hyun-Joon Park, Jin Sob Kim, Byung-Hoon Lee, Sung Won Han. 1198-1202 [doi]

SATTS: Speaker Attractor Text to Speech, Learning to Speak by Learning to SeparateNabarun Goswami, Tatsuya Harada. 1203-1207 [doi]

Correcting Mispronunciations in Speech using Spectrogram InpaintingTalia Ben Simon, Felix Kreuk, Faten Awwad, Jacob T. Cohen, Joseph Keshet. 1208-1212 [doi]

Speech Audio Corrector: using speech from non-target speakers for one-off correction of mispronunciations in grapheme-input text-to-speechJason Fong, Daniel Lyth, Gustav Eje Henter, Hao Tang, Simon King. 1213-1217 [doi]

End-to-End Binaural Speech SynthesisWen-Chin Huang, Dejan Markovic, Alexander Richard, Israel Dejene Gebru, Anjali Menon. 1218-1222 [doi]

PoeticTTS - Controllable Poetry Reading for Literary StudiesJulia Koch, Florian Lux, Nadja Schauffler, Toni Bernhart, Felix Dieterle, Jonas Kuhn, Sandra Richter, Gabriel Viehhauser, Ngoc Thang Vu. 1223-1227 [doi]

Articulatory Synthesis for Data Augmentation in Phoneme RecognitionPaul Konstantin Krug, Peter Birkholz, Branislav Gerazov, Daniel Rudolph van Niekerk, Anqi Xu, Yi Xu. 1228-1232 [doi]

SF-DST: Few-Shot Self-Feeding Reading Comprehension Dialogue State Tracking with Auxiliary TaskJihyun Lee, Gary Geunbae Lee. 1233-1237 [doi]

Benchmarking Transformers-based models on French Spoken Language Understanding tasksOralie Cattan, Sahar Ghannay, Christophe Servan, Sophie Rosset. 1238-1242 [doi]

mcBERT: Momentum Contrastive Learning with BERT for Zero-Shot Slot FillingSeong-Hwan Heo, WonKee Lee, Jong-Hyeok Lee. 1243-1247 [doi]

Bottleneck Low-rank Transformers for Low-resource Spoken Language UnderstandingPu Wang, Hugo Van Hamme. 1248-1252 [doi]

On joint training with interfaces for spoken language understandingAnirudh Raju, Milind Rao, Gautam Tiwari, Pranav Dheram, Bryan Anderson, Zhe Zhang, Chul Lee, Bach Bui, Ariya Rastrow. 1253-1257 [doi]

Device-Directed Speech Detection: Regularization via Distillation for Weakly-Supervised ModelsVineet Garg, Ognjen Rudovic, Pranay Dighe, Ahmed Hussen Abdelaziz, Erik Marchi, Saurabh Adya, Chandra Dhir, Ahmed H. Tewfik. 1258-1262 [doi]

Building African VoicesPerez Ogayo, Graham Neubig, Alan W. Black. 1263-1267 [doi]

Toward Fairness in Speech Recognition: Discovery and mitigation of performance disparitiesPranav Dheram, Murugesan Ramakrishnan, Anirudh Raju, I-Fan Chen, Brian King, Katherine Powell, Melissa Saboowala, Karan Shetty, Andreas Stolcke. 1268-1272 [doi]

Training and typological bias in ASR performance for world EnglishesMay Pik Yu Chan, June Choe, Aini Li, Yiran Chen 0017, Xin Gao, Nicole R. Holliday. 1273-1277 [doi]

A Study of Gender Impact in Self-supervised Models for Speech-to-Text SystemsMarcely Zanon Boito, Laurent Besacier, Natalia A. Tomashenko, Yannick Estève. 1278-1282 [doi]

Automatic Dialect Density Estimation for African American EnglishAlexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari Ostendorf, Abeer Alwan. 1283-1287 [doi]

Improving Language Identification of Accented SpeechKunnar Kukk, Tanel Alumäe. 1288-1292 [doi]

Design Guidelines for Inclusive Speaker Verification Evaluation DatasetsWiebke Toussaint, Lauriane Gorce, Aaron Yi Ding. 1293-1297 [doi]

Reducing Geographic Disparities in Automatic Speech Recognition via Elastic Weight ConsolidationViet Anh Trinh, Pegah Ghahremani, Brian King, Jasha Droppo, Andreas Stolcke, Roland Maas. 1298-1302 [doi]

Gradual Improvements Observed in Learners' Perception and Production of L2 Sounds Through Continuing Shadowing Practices on a Daily BasisTakuya Kunihara, Chuanbo Zhu, Nobuaki Minematsu, Noriko Nakanishi. 1303-1307 [doi]

Spoofed speech from the perspective of a forensic phoneticianChristin Kirchhübel, Georgina Brown. 1308-1312 [doi]

Investigating Prosodic Variation in British English Varieties using ProPerHae-Sung Jeon, Stephen Nichols. 1313-1317 [doi]

Perceived prominence and downstep in JapaneseHyun Kyung Hwang, Manami Hirayama, Takaomi Kato. 1318-1321 [doi]

The discrimination of [zi]-[dʑi] by Japanese listeners and the prospective phonologization of /zi/Andrea Alicehajic, Silke Hamann. 1322-1326 [doi]

Glottal inverse filtering based on articulatory synthesis and deep learningIngo Langheinrich, Simon Stone, Xinyu Zhang, Peter Birkholz. 1327-1331 [doi]

Investigating phonetic convergence of laughter in conversationBogdan Ludusan, Marin Schröer, Petra Wagner. 1332-1336 [doi]

Telling self-defining memories: An acoustic study of natural emotional speech productionsVéronique Delvaux, Audrey Lavallée, Fanny Degouis, Xavier Saloppe, Jean-Louis Nandrino, Thierry Pham. 1337-1341 [doi]

Voicing neutralization in Romanian fricatives across different speech stylesLaura Spinu, Ioana Vasilescu, Lori Lamel, Jason Lilley. 1342-1346 [doi]

Nasal Coda Loss in the Chengdu Dialect of Mandarin: Evidence from RT-MRISishi Liao, Phil Hoole, Conceição Cunha, Esther Kunay, Aletheia Cui, Lia Saki Bucar Shigemori, Felicitas Kleber, Dirk Voit, Jens Frahm, Jonathan Harrington. 1347-1351 [doi]

ema2wav: doing articulation by PraatPhilipp Buech, Simon Roessig, Lena Pagel, Doris Mücke, Anne Hermes. 1352-1356 [doi]

Improving Phonetic Transcriptions of Children's Speech by Pronunciation Modelling with Constrained CTC-DecodingLars Rumberg, Christopher Gebauer, Hanna Ehlert, Ulrike Lüdtke, Jörn Ostermann. 1357-1361 [doi]

Leveraging Simultaneous Translation for Enhancing Transcription of Low-resource Language via Cross Attention MechanismSoky Kak, Sheng Li 0010, Masato Mimura, Chenhui Chu, Tatsuya Kawahara. 1362-1366 [doi]

KSC2: An Industrial-Scale Open-Source Kazakh Speech CorpusSaida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol. 1367-1371 [doi]

Knowledge of accent differences can be used to predict speech recognitionTuende Szalay, Mostafa Ali Shahin, Beena Ahmed, Kirrie J. Ballard. 1372-1376 [doi]

Lombard Effect for Bilingual Speakers in Cantonese and English: importance of spectro-temporal featuresMaximilian Karl Scharf, Sabine Hochmuth, Lena L. N. Wong, Birger Kollmeier, Anna Warzybok. 1377-1381 [doi]

End-to-end speech recognition modeling from de-identified dataMartin Flechl, Shou-Chun Yin, Junho Park, Peter Skala. 1382-1386 [doi]

Multi-Task End-to-End Model for Telugu Dialect and Speech RecognitionAditya Yadavalli, Mirishkar Sai Ganesh, Anil Kumar Vuppala. 1387-1391 [doi]

DEFORMER: Coupling Deformed Localized Patterns with Global Context for Robust End-to-end Speech RecognitionJiamin Xie, John H. L. Hansen. 1392-1396 [doi]

Keyword Spotting with Synthetic Data using Heterogeneous Knowledge DistillationYuna Lee, Seung Jun Baek. 1397-1401 [doi]

Probing phoneme, language and speaker information in unsupervised speech representationsMaureen de Seyssel, Marvin Lavechin, Yossi Adi, Emmanuel Dupoux, Guillaume Wisniewski. 1402-1406 [doi]

Automatic Detection of Reactive Attachment Disorder Through Turn-Taking Analysis in Clinical Child-Caregiver SessionsAndrei Bîrladeanu, Helen Minnis, Alessandro Vinciarelli. 1407-1410 [doi]

Automatic Pronunciation Assessment using Self-Supervised Speech Representation LearningEesung Kim, Jae-Jin Jeon, Hyeji Seo, Hoon Kim. 1411-1415 [doi]

Exploring Few-Shot Fine-Tuning Strategies for Models of Visually Grounded SpeechTyler Miller, David Harwath. 1416-1420 [doi]

Pseudo Label Is Better Than Human LabelDongseong Hwang, Khe Chai Sim, Zhouyuan Huo, Trevor Strohman. 1421-1425 [doi]

A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit DiscoveryWerner van der Merwe, Herman Kamper, Johan Adam du Preez. 1426-1430 [doi]

PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker VerificationSiqi Zheng, Hongbin Suo, Qian Chen. 1431-1435 [doi]

Cross-Age Speaker Verification: Learning Age-Invariant Speaker EmbeddingsXiaoyi Qin, Na Li 0012, Chao Weng, Dan Su 0002, Ming Li 0026. 1436-1440 [doi]

Online Target Speaker Voice Activity Detection for Speaker DiarizationWeiqing Wang, Ming Li, Qingjian Lin. 1441-1445 [doi]

Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddingsNiko Brummer, Albert Swart, Ladislav Mosner, Anna Silnova, Oldrich Plchot, Themos Stafylakis, Lukás Burget. 1446-1450 [doi]

Deep speaker embedding with frame-constrained training strategy for speaker verificationBin Gu. 1451-1455 [doi]

Interrelate Training and Searching: A Unified Online Clustering Framework for Speaker DiarizationYifan Chen, Yifan Guo, Qingxuan Li, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan 0002. 1456-1460 [doi]

End-to-End Audio-Visual Neural Speaker DiarizationMao-Kui He, Jun Du, Chin-Hui Lee. 1461-1465 [doi]

Online Speaker Diarization with Core Samples SelectionYanyan Yue, Jun Du, Mao-Kui He, Yu Ting Yeung, Renyu Wang. 1466-1470 [doi]

Robust End-to-end Speaker Diarization with Generic Neural ClusteringChenyu Yang, Yu Wang. 1471-1475 [doi]

MSDWild: Multi-modal Speaker Diarization Dataset in the WildTao Liu, Shuai Fan 0005, Xu Xiang, Hongbo Song, Shaoxiong Lin, Jiaqi Sun, Tianyuan Han, Siyuan Chen, Binwei Yao, Sen Liu, Yifei Wu, Yanmin Qian, Kai Yu 0004. 1476-1480 [doi]

Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning FreeMd. Iftekhar Tanveer, Diego Casabuena, Jussi Karlgren, Rosie Jones. 1481-1485 [doi]

Utterance-by-utterance overlap-aware neural diarization with Graph-PITKeisuke Kinoshita, Thilo von Neumann, Marc Delcroix, Christoph Böddeker, Reinhold Haeb-Umbach. 1486-1490 [doi]

Spatial-aware Speaker Diarizaiton for Multi-channel Multi-party MeetingJie Wang, Yuji Liu, Binling Wang, Yiming Zhi, Song Li, Shipeng Xia, Jiayang Zhang, Feng Tong, Lin Li, Qingyang Hong. 1491-1495 [doi]

Selective Pseudo-labeling and Class-wise Discriminative Fusion for Sound Event DetectionYunhao Liang, Yanhua Long, Yijie Li, Jiaen Liang. 1496-1500 [doi]

An End-to-End Macaque Voiceprint Verification Method Based on Channel Fusion MechanismPeng Liu, Songbin Li, Jigang Tang. 1501-1505 [doi]

Human Sound Classification based on Feature Fusion Method with Air and Bone Conducted SignalLiang Xu, Jing Wang, Lizhong Wang, Sijun Bi, Jianqian Zhang, Qiuyue Ma. 1506-1510 [doi]

RaDur: A Reference-aware and Duration-robust Network for Target Sound DetectionDongchao Yang, Helin Wang, Zhongjie Ye, Yuexian Zou, Wenwu Wang. 1511-1515 [doi]

Temporal Self Attention-Based Residual Network for Environmental Sound ClassificationAchyut Mani Tripathi, Konark Paul. 1516-1520 [doi]

AudioTagging Done Right: 2nd comparison of deep learning methods for environmental sound classificationJuncheng Li 0001, Shuhui Qu, Po-Yao Huang 0001, Florian Metze. 1521-1525 [doi]

Improving Target Sound Extraction with Timestamp InformationHelin Wang, Dongchao Yang, Chao Weng, Jianwei Yu, Yuexian Zou. 1526-1530 [doi]

A Multi-grained based Attention Network for Semi-supervised Sound Event DetectionYing Hu, Xiujuan Zhu, Yunlong Li, Hao Huang, Liang He. 1531-1535 [doi]

Temporal coding with magnitude-phase regularization for sound event detectionSangwook Park, Sandeep Reddy Kothinti, Mounya Elhilali. 1536-1540 [doi]

RCT: Random consistency training for semi-supervised sound event detectionNian Shao, Erfan Loweimi, Xiaofei Li. 1541-1545 [doi]

Audio Pyramid Transformer with Domain Adaption for Weakly Supervised Sound Event Detection and Audio ClassificationYifei Xin, Dongchao Yang, Yuexian Zou. 1546-1550 [doi]

Active Few-Shot Learning for Sound Event DetectionYu Wang 0105, Mark Cartwright, Juan Pablo Bello. 1551-1555 [doi]

Uncertainty Calibration for Deep Audio ClassifiersTong Ye, Shijing Si, Jianzong Wang, Ning Cheng, Jing Xiao. 1556-1560 [doi]

Event-related data conditioning for acoustic event classificationYuanbo Hou, Dick Botteldooren. 1561-1565 [doi]

A Multi-Scale Time-Frequency Spectrogram Discriminator for GAN-based Non-Autoregressive TTSHaohan Guo, Hui Lu, Xixin Wu, Helen Meng. 1566-1570 [doi]

RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech InsertionDacheng Yin, Chuanxin Tang, Yanqing Liu, Xiaoqiang Wang, Zhiyuan Zhao, Yucheng Zhao, Zhiwei Xiong, Sheng Zhao, Chong Luo. 1571-1575 [doi]

FlowVocoder: A small Footprint Neural Vocoder based Normalizing Flow for Speech SynthesisManh Luong, Viet-Anh Tran. 1576-1580 [doi]

DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-EncodersYanqing Liu, Ruiqing Xue, Lei He, Xu Tan 0003, Sheng Zhao. 1581-1585 [doi]

AdaVocoder: Adaptive Vocoder for Custom VoiceXin Yuan, Robin Feng, Mingming Ye, Cheng Tuo, Minghang Zhang. 1586-1590 [doi]

RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity ResponsesShengyuan Xu, Wenxiao Zhao, Jing Guo. 1591-1595 [doi]

VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic FeatureChenpeng Du, Yiwei Guo, Xie Chen, Kai Yu 0004. 1596-1600 [doi]

Improving GAN-based vocoder for fast and high-quality speech synthesisMengnan He, Tingwei Guo, Zhenxing Lu, Ruixiong Zhang, Caixia Gong. 1601-1605 [doi]

SoftSpeech: Unsupervised Duration Model in FastSpeech 2Yuanhao Yi, Lei He, Shifeng Pan, Xi Wang, Yuchao Zhang. 1606-1610 [doi]

A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTSHaohan Guo, Feng-Long Xie, Frank K. Soong, Xixin Wu, Helen Meng. 1611-1615 [doi]

SiD-WaveFlow: A Low-Resource Vocoder Independent of Prior KnowledgeYuhan Li, Ying Shen 0005, Dongqing Wang, Lin Zhang 0014. 1616-1620 [doi]

Text-to-speech synthesis using spectral modeling based on non-negative autoencoderTakeru Gorai, Daisuke Saito, Nobuaki Minematsu. 1621-1625 [doi]

Joint Modeling of Multi-Sample and Subband Signals for Fast Neural Vocoding on CPUHiroki Kanagawa, Yusuke Ijima, Hiroyuki Toda. 1626-1630 [doi]

MISRNet: Lightweight Neural Vocoder Using Multi-Input Single Shared Residual BlocksTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki. 1631-1635 [doi]

A compact transformer-based GAN vocoderChenfeng Miao, Ting Chen, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao. 1636-1640 [doi]

Diffusion Generative Vocoder for Fullband Speech Synthesis Based on Weak Third-order SDE SolverHideyuki Tachibana, Muneyoshi Inahara, Mocho Go, Yotaro Katayama, Yotaro Watanabe. 1641-1645 [doi]

On Adaptive Weight Interpolation of the Hybrid Autoregressive TransducerEhsan Variani, Michael Riley 0001, David Rybach, Cyril Allauzen, Tongzhou Chen, Bhuvana Ramabhadran. 1646-1650 [doi]

Learning to rank with BERT-based confidence models in ASR rescoringTing-Wei Wu, I-Fan Chen, Ankur Gandhe. 1651-1655 [doi]

VQ-T: RNN Transducers using Vector-Quantized Prediction Network StatesJiatong Shi, George Saon, David Haws, Shinji Watanabe 0001, Brian Kingsbury. 1656-1660 [doi]

WeNet 2.0: More Productive End-to-End Speech Recognition ToolkitBinbin Zhang, Di Wu, Zhendong Peng, Xingchen Song, Zhuoyuan Yao, Hang Lv 0001, Lei Xie 0001, Chao Yang, Fuping Pan, Jianwei Niu 0002. 1661-1665 [doi]

Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASRYufei Liu, Rao Ma, Haihua Xu, Yi He, Zejun Ma, Weibin Zhang. 1666-1670 [doi]

Improving Streaming End-to-End ASR on Transformer-based Causal Models with Encoder States Revision StrategiesZehan Li, Haoran Miao, Keqi Deng, Gaofeng Cheng, Sanli Tian, Ta Li, Yonghong Yan 0002. 1671-1675 [doi]

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech RecognitionYe Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi, Xiaorui Wang. 1676-1680 [doi]

CaTT-KWS: A Multi-stage Customized Keyword Spotting Framework based on Cascaded Transducer-TransformerZhanheng Yang, Sining Sun, Jin Li, Xiaoming Zhang, Xiong Wang, Long Ma, Lei Xie. 1681-1685 [doi]

LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERTRui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li 0001. 1686-1690 [doi]

Multi-stage Progressive Compression of Conformer Transducer for On-device Speech RecognitionJash Rathod, Nauman Dawalatabad, Shatrughan Singh, Dhananjaya Gowda. 1691-1695 [doi]

Streaming Align-Refine for Non-autoregressive DeliberationWeiran Wang, Ke Hu, Tara N. Sainath. 1696-1700 [doi]

Federated Pruning: Improving Neural Network Efficiency with Federated LearningRongmei Lin, Yonghui Xiao, Tien-Ju Yang, Ding Zhao, Li Xiong 0001, Giovanni Motta, Françoise Beaufays. 1701-1705 [doi]

A Unified Cascaded Encoder ASR Model for Dynamic Model SizesShaojin Ding, Weiran Wang, Ding Zhao, Tara N. Sainath, Yanzhang He, Robert David, Rami Botros, Xin Wang, Rina Panigrahy, Qiao Liang, Dongseong Hwang, Ian McGraw, Rohit Prabhavalkar, Trevor Strohman. 1706-1710 [doi]

4-bit Conformer with Native Quantization Aware Training for Speech RecognitionShaojin Ding, Phoenix Meadowlark, Yanzhang He, Lukasz Lew, Shivani Agrawal, Oleg Rybakov. 1711-1715 [doi]

Self-Distillation Based on High-level Information Supervision for Compressing End-to-End ASR ModelQiang Xu, Tongtong Song, Longbiao Wang, Hao Shi, Yuqin Lin, Yongjie Lv, Meng Ge, Qiang Yu 0005, Jianwu Dang. 1716-1720 [doi]

Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translationYe Jia, Yifan Ding, Ankur Bapna, Colin Cherry, Yu Zhang 0033, Alexis Conneau, Nobu Morioka. 1721-1725 [doi]

A High-Quality and Large-Scale Dataset for English-Vietnamese Speech TranslationLinh The Nguyen, Nguyen Luong Tran, Long Doan, Manh Luong, Dat Quoc Nguyen. 1726-1730 [doi]

Investigating Parameter Sharing in Multilingual Speech TranslationQian Wang, Chen Wang, Jiajun Zhang. 1731-1735 [doi]

Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech DatasetZehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong Yan 0002. 1736-1740 [doi]

TALCS: An open-source Mandarin-English code-switching corpus and a speech recognition baselineChengfei Li, Shuhao Deng, Yaoping Wang, Guangjing Wang, Yaguang Gong, Changbin Chen, Jinfeng Bai. 1741-1745 [doi]

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech TranslationKeqi Deng, Shinji Watanabe 0001, Jiatong Shi, Siddhant Arora. 1746-1750 [doi]

BARTpho: Pre-trained Sequence-to-Sequence Models for VietnameseNguyen Luong Tran, Duong Minh Le, Dat Quoc Nguyen. 1751-1755 [doi]

Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition TaskMaxim Markitantov, Elena Ryumina, Dmitry Ryumin, Alexey Karpov 0001. 1756-1760 [doi]

Bayesian Transformer Using Disentangled Mask AttentionJen-Tzung Chien, Yu-Han Huang. 1761-1765 [doi]

Audio-Visual Speech Recognition in MISP2021 Challenge: Dataset Release and Deep AnalysisHang Chen, Jun Du, Yusheng Dai, Chin-Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe 0001, Odette Scharenborg, Jingdong Chen, Baocai Yin, Jia Pan. 1766-1770 [doi]

From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech TranslationDanni Liu, Changhan Wang, Hongyu Gong, Xutai Ma, Yun Tang, Juan Pino. 1771-1775 [doi]

Isochrony-Aware Neural Machine Translation for Automatic DubbingDerek Tam, Surafel Melaku Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico. 1776-1780 [doi]

Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech TranslationQianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Qibing Bai, Yu Zhang. 1781-1785 [doi]

A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker ExtractionZexu Pan, Meng Ge, Haizhou Li 0001. 1786-1790 [doi]

Extending GCC-PHAT using Shift Equivariant Neural NetworksAxel Berg, Mark O'Connor, Kalle Åström, Magnus Oskarsson. 1791-1795 [doi]

Heterogeneous Target Speech SeparationEfthymios Tzinis, Gordon Wichern, Aswin Shanmugam Subramanian, Paris Smaragdis, Jonathan Le Roux. 1796-1800 [doi]

Separate What You Describe: Language-Queried Audio Source SeparationXubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang. 1801-1805 [doi]

Implicit Neural Spatial Filtering for Multichannel Source Separation in the Waveform DomainDejan Markovic, Alexandre Défossez, Alexander Richard. 1806-1810 [doi]

End-to-end Speech-to-Punctuated-Text RecognitionJumon Nozaki, Tatsuya Kawahara, Kenkichi Ishizuka, Taiichi Hashimoto. 1811-1815 [doi]

End-to-End Dependency Parsing of Spoken FrenchAdrien Pupier, Maximin Coavoux, Benjamin Lecouteux, Jérôme Goulian. 1816-1820 [doi]

Turn-Taking Prediction for Natural Conversational SpeechShuo-Yiin Chang, Bo Li, Tara N. Sainath, Chao Zhang, Trevor Strohman, Qiao Liang, Yanzhang He. 1821-1825 [doi]

Streaming Intended Query Detection using E2E Modeling for Continued ConversationShuo-Yiin Chang, Guru Prakash, Zelin Wu, Tara N. Sainath, Bo Li 0028, Qiao Liang, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman. 1826-1830 [doi]

Exploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of CzechJan Lehecka, Jan Svec, Ales Prazák, Josef Psutka. 1831-1835 [doi]

SVTS: Scalable Video-to-Speech SynthesisRodrigo Schoburg Carrillo de Mira, Alexandros Haliassos, Stavros Petridis, Björn W. Schuller, Maja Pantic. 1836-1840 [doi]

One-step models in pitch perception: Experimental evidence from JapaneseTakeshi Kishiyama, Chuyu Huang, Yuki Hirose. 1841-1845 [doi]

Generating iso-accented stimuli for second language research: methodology and a dataset for Spanish-accented EnglishRubén Pérez Ramón, Martin Cooke, María Luisa García Lecumberri. 1846-1850 [doi]

Factors affecting the percept of Yanny v. Laurel (or mixed): Insights from a large-scale study on Swiss German listenersAdrian Leemann, Péter Jeszenszky, Carina Steiner, Corinne Lanthemann. 1851-1855 [doi]

Effects of laryngeal manipulations on voice gender perceptionZhaoyan Zhang, Jason Zhang, Jody Kreiman. 1856-1860 [doi]

Why is Korean lenis stop difficult to perceive for L2 Korean learners?Boram Lee, Naomi Yamaguchi, Cécile Fougeron. 1861-1865 [doi]

Lexical stress in Spanish word segmentationAlvaro Martin Iturralde Zurita, Meghan Clayards. 1866-1870 [doi]

Learning Audio-Text Agreement for Open-vocabulary Keyword SpottingHyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang. 1871-1875 [doi]

Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic Word EmbeddingsBadr M. Abdullah, Bernd Möbius, Dietrich Klakow. 1876-1880 [doi]

Personalized Keyword Spotting through Multi-task LearningSeunghan Yang, Byeonggeun Kim, Inseop Chung, Simyung Chang. 1881-1885 [doi]

Deep LSTM Spoken Term Detection using Wav2Vec 2.0 RecognizerJan Svec, Jan Lehecka, Lubos Smídl. 1886-1890 [doi]

Latency Control for Keyword SpottingChristin Jose, Joe Wang, Grant P. Strimel, Mohammad Omar Khursheed, Yuriy Mishchenko, Brian Kulis. 1891-1895 [doi]

Improving Voice Trigger Detection with Metric LearningPrateeth Nayak, Takuya Higuchi, Anmol Gupta, Shivesh Ranjan, Stephen Shum, Siddharth Sigtia, Erik Marchi, Varun Lakshminarasimhan, Minsik Cho, Saurabh Adya, Chandra Dhir, Ahmed H. Tewfik. 1896-1900 [doi]

RNN Transducers for Named Entity Recognition with constraints on alignment for understanding medical conversationsHagen Soltau, Izhak Shafran, Mingqiu Wang, Laurent El Shafey. 1901-1905 [doi]

Towards Automated Counselling Decision-Making: Remarks on Therapist Action Forecasting on the AnnoMI DatasetZixiu Wu, Rim Helaoui, Diego Reforgiato Recupero, Daniele Riboni. 1906-1910 [doi]

Speech and the n-Back task as a lens into depression. How combining both may allow us to isolate different core symptoms of depressionSalvatore Fara, Stefano Goria, Emilia Molimpakis, Nicholas Cummins. 1911-1915 [doi]

Enabling Off-the-Shelf Disfluency Detection and Categorization for Pathological SpeechAmrit Romana, Minxue Niu, Matthew Perez, Angela Roberts, Emily Mower Provost. 1916-1920 [doi]

Challenges of using longitudinal and cross-domain corpora on studies of pathological speechCatarina Botelho, Tanja Schultz, Alberto Abad, Isabel Trancoso. 1921-1925 [doi]

g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation in MandarinYi-Chang Chen, Yu-Chuan Steven, Yen-Cheng Chang, Yi-Ren Yeh. 1926-1930 [doi]

A Unified Accent Estimation Method Based on Multi-Task Learning for Japanese Text-to-SpeechByeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana. 1931-1935 [doi]

Vocal effort modeling in neural TTS for improving the intelligibility of synthetic speech in noiseTuomo Raitio, Petko Petkov, Jiangchuan Li, P. V. Muhammed Shifas, Andrea Davis, Yannis Stylianou. 1936-1940 [doi]

TTS-by-TTS 2: Data-Selective Augmentation for Neural Speech Synthesis Using Ranking Support Vector Machine with Variational AutoencoderEunwoo Song, Ryuichi Yamamoto, Ohsung Kwon, Chan Ho Song, Min-Jae Hwang, Suhyeon Oh, Hyun-Wook Yoon, Jin Seob Kim, Jae Min Kim. 1941-1945 [doi]

Low-data? No problem: low-resource, language-agnostic conversational text-to-speech via F0-conditioned data augmentationGiulia Comini, Goeric Huybrechts, Manuel Sam Ribeiro, Adam Gabrys, Jaime Lorenzo-Trueba. 1946-1950 [doi]

Real-Time Monitoring of Silences in Contact Center ConversationsDigvijay Ingle, Ayush Kumar, Krishnachaitanya Gogineni, Jithendra Vepa. 1951-1952 [doi]

Humanizing bionic voice: interactive demonstration of aesthetic design and control factors influencing the devices assembly and waveshape engineeringKonrad Zielinski, Marek Grzelec, Martin Hagmüller. 1953-1954 [doi]

Application for Real-time Personalized Speaker ExtractionDamien Ronssin, Milos Cernak. 1955-1956 [doi]

Coswara: A website application enabling COVID-19 screening by analysing respiratory sound samples and health symptomsDebarpan Bhattacharya, Debottam Dutta, Neeraj Kumar Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K. K, Sadhana Gonuguntla, Murali Alagesan. 1957-1958 [doi]

CoachLea: an Android Application to Evaluate the Speech Production and Perception of Children with Hearing LossP. Schäfer, Paula Andrea Pérez-Toro, Philipp Klumpp, Juan Rafael Orozco-Arroyave, Elmar Nöth, Andreas K. Maier, A. Abad, Maria Schuster, Tomás Arias-Vergara. 1959-1960 [doi]

An Automated Mood Diary for Older User's using Ambient Assisted Living Recorded SpeechFasih Haider, Saturnino Luz. 1961-1962 [doi]

Differential Time-frequency Log-mel Spectrogram Features for Vision Transformer Based Infant Cry RecognitionHai-tao Xu, Jie Zhang, Li-Rong Dai 0001. 1963-1967 [doi]

Towards Automated Dialog Personalization using MBTI Personality IndicatorsDaniel Fernau, Stefan Hillmann, Nils Feldhus, Tim Polzehl. 1968-1972 [doi]

Word-wise Sparse Attention for Multimodal Sentiment AnalysisFan Qian, Hongwei Song, Jiqing Han. 1973-1977 [doi]

Estimation of speaker age and height from speech signal using bi-encoder transformer mixture modelTarun Gupta, Duc-Tuan Truong, Tran The Anh, Eng Siong Chng. 1978-1982 [doi]

Exploring Multi-task Learning Based Gender Recognition and Age Estimation for Class-imbalanced DataWeiqiao Zheng, Ping Yang, Rongfeng Lai, Kongyang Zhu, Tao Zhang, Junpeng Zhang, Hongcheng Fu. 1983-1987 [doi]

Audio-Visual Domain Adaptation Feature Fusion for Speech Emotion RecognitionJie Wei, Guanyu Hu, Xinyu Yang, Anh Tuan Luu, Yizhuo Dong. 1988-1992 [doi]

Impact of Background Noise and Contribution of Visual Information in Emotion Identification by Native Mandarin SpeakersMinyue Zhang, Hongwei Ding. 1993-1997 [doi]

Exploiting Fine-tuning of Self-supervised Learning Models for Improving Bi-modal Sentiment Analysis and Emotion RecognitionWei Yang, Satoru Fukayama, Panikos Heracleous, Jun Ogata. 1998-2002 [doi]

Characterizing Therapist's Speaking Style in Relation to Empathy in PsychotherapyDehua Tao, Tan Lee, Harold Chui, Sarah Luk. 2003-2007 [doi]

Hierarchical Attention Network for Evaluating Therapist Empathy in Counseling SessionDehua Tao, Tan Lee, Harold Chui, Sarah Luk. 2008-2012 [doi]

Context-aware Multimodal Fusion for Emotion RecognitionJinchao Li, Shuai Wang, Yang Chao, Xunying Liu, Helen Meng. 2013-2017 [doi]

Unsupervised Instance Discriminative Learning for Depression Detection from Speech SignalsJinhan Wang, Vijay Ravi, Jonathan Flint, Abeer Alwan. 2018-2022 [doi]

How do our eyebrows respond to masks and whispering? The case of PersiansNasim Mahdinazhad Sardhaei, Marzena Zygis, Hamid Sharifzadeh. 2023-2027 [doi]

State & Trait Measurement from Nonverbal Vocalizations: A Multi-Task Joint Learning ApproachAlice Baird, Panagiotis Tzirakis, Jeffrey A. Brooks, Lauren Kim, Michael Opara, Christopher B. Gregory, Jacob Metrick, Garrett Boseck, Dacher Keltner, Alan Cowen. 2028-2032 [doi]

Confidence Measure for Automatic Age Estimation From SpeechAmruta Saraf, Ganesh Sivaraman, Elie Khoury 0001. 2033-2037 [doi]

Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit QuantizationAndrea Fasoli, Chia-Yu Chen, Mauricio J. Serrano, Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Kailash Gopalakrishnan. 2038-2042 [doi]

Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech RecognitionGuangzhi Sun, Chao Zhang, Philip C. Woodland. 2043-2047 [doi]

Bring dialogue-context into RNN-T for streaming ASRJunfeng Hou, Jinkun Chen, Wanyu Li, Yufeng Tang, Jun Zhang, Zejun Ma. 2048-2052 [doi]

Conformer with dual-mode chunked attention for joint online and offline ASRFelix Weninger, Marco Gaudesi, Md. Akmal Haidar, Nicola Ferri, Jesús Andrés-Ferrer, Puming Zhan. 2053-2057 [doi]

Efficient Training of Neural Transducer for Speech RecognitionWei Zhou, Wilfried Michel, Ralf Schlüter, Hermann Ney. 2058-2062 [doi]

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech RecognitionZhifu Gao, Shiliang Zhang, Ian McLoughlin 0001, Zhijie Yan. 2063-2067 [doi]

Pruned RNN-T for fast, memory-efficient ASR trainingFangjun Kuang, Liyong Guo, Wei Kang, Long Lin, Mingshuang Luo, Zengwei Yao, Daniel Povey. 2068-2072 [doi]

Deep Sparse Conformer for Speech RecognitionXianchao Wu. 2073-2077 [doi]

Chain-based Discriminative Autoencoders for Speech RecognitionHung-Shin Lee, Pin-Tuan Huang, Yao-Fei Cheng, Hsin-Min Wang. 2078-2082 [doi]

Streaming parallel transducer beam search with fast slow cascaded encodersJay Mahadeokar, Yangyang Shi, Ke Li, Duc Le, Jiedan Zhu, Vikas Chandra, Ozlem Kalinli, Michael L. Seltzer. 2083-2087 [doi]

Self-regularised Minimum Latency Training for Streaming Transformer-based Speech RecognitionMohan Li, Rama Sanand Doddipatla, Catalin Zorila. 2088-2092 [doi]

On the Prediction Network Architecture in RNN-T for ASRDario Albesano, Jesús Andrés-Ferrer, Nicola Ferri, Puming Zhan. 2093-2097 [doi]

Minimum latency training of sequence transducers for streaming end-to-end speech recognitionYusuke Shinohara, Shinji Watanabe 0001. 2098-2102 [doi]

CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASRKeyu An, Huahuan Zheng, Zhijian Ou, Hongyu Xiang, Ke Ding, Guanglu Wan. 2103-2107 [doi]

Attention Enhanced Citrinet for Speech RecognitionXianchao Wu. 2108-2112 [doi]

Simple and Effective Zero-shot Cross-lingual Phoneme RecognitionQiantong Xu, Alexei Baevski, Michael Auli. 2113-2117 [doi]

Robust Self-Supervised Audio-Visual Speech RecognitionBowen Shi, Wei-Ning Hsu, Abdelrahman Mohamed. 2118-2122 [doi]

Speech Sequence Embeddings using Nearest Neighbors Contrastive LearningRobin Algayres, Adel Nabli, Benoît Sagot, Emmanuel Dupoux. 2123-2127 [doi]

Towards Green ASR: Lossless 4-bit Quantization of a Hybrid TDNN System on the 300-hr Swithboard CorpusJunhao Xu, Shoukang Hu, Xunying Liu, Helen Meng. 2128-2132 [doi]

Finer-grained Modeling units-based Meta-Learning for Low-resource Tibetan Speech RecognitionSiqing Qin, Longbiao Wang, Sheng Li 0010, Yuqin Lin, Jianwu Dang. 2133-2137 [doi]

Adversarial-Free Speaker Identity-Invariant Representation Learning for Automatic Dysarthric Speech ClassificationParvaneh Janbakhshi, Ina Kodrasi. 2138-2142 [doi]

Automated Detection of Wilson's Disease Based on Improved Mel-frequency Cepstral Coefficients with Signal DecompositionZhenglin Zhang, Lizhuang Yang, Xun Wang, Hai Li 0006. 2143-2147 [doi]

The effect of backward noise on lexical tone discrimination in Mandarin-speaking amusicsZixia Fan, Jing Shao, Weigong Pan, Min Xu, Lan Wang. 2148-2152 [doi]

Automatic Selection of Discriminative Features for Dementia Detection in Cantonese-Speaking PeopleXiaoquan Ke, Man-Wai Mak, Helen M. Meng. 2153-2157 [doi]

Automated Voice Pathology Discrimination from Continuous Speech Benefits from Analysis by Phonetic ContextZhuoya Liu, Mark A. Huckvale, Julian McGlashan. 2158-2162 [doi]

Multi-Type Outer Product-Based Fusion of Respiratory Sounds for Detecting COVID-19Adria Mallol-Ragolta, Helena Cuesta, Emilia Gómez, Björn W. Schuller. 2163-2167 [doi]

Robust Cough Feature Extraction and Classification Method for COVID-19 Cough Detection Based on Vocalization CharacteristicsXueshuai Zhang, Jiakun Shen, Jun Zhou, Pengyuan Zhang, Yonghong Yan 0002, Zhihua Huang, Yanfen Tang, Yu Wang, Fujie Zhang, Shaoxing Zhang, Aijun Sun. 2168-2172 [doi]

Comparing 1-dimensional and 2-dimensional spectral feature representations in voice pathology detection using machine learning and deep learning classifiersFarhad Javanmardi, Sudarsana Reddy Kadiri, Manila Kodali, Paavo Alku. 2173-2177 [doi]

Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech RecognitionGerasimos Chatzoudis, Manos Plitsis, Spyridoula Stamouli, Athanasia-Lida Dimou, Nassos Katsamanis, Vassilis Katsouros. 2178-2182 [doi]

Domain-aware Intermediate Pretraining for Dementia Detection with Limited DataYouxiang Zhu, Xiaohui Liang, John A. Batsis, Robert M. Roth. 2183-2187 [doi]

Comparison of 5 methods for the evaluation of intelligibility in mild to moderate French dysarthric speechCécile Fougeron, Nicolas Audibert, Ina Kodrasi, Parvaneh Janbakhshi, Michaela Pernon, Nathalie Lévêque, Stephanie Borel, Marina Laganaro, Hervé Bourlard, Frédéric Assal. 2188-2192 [doi]

Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain AdaptationKuan-Po Huang, Yu-Kuan Fu, Yu Zhang, Hung-yi Lee. 2193-2197 [doi]

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech RecognitionGuan-Ting Lin, Shang-wen Li 0001, Hung-yi Lee. 2198-2202 [doi]

Distilling a Pretrained Language Model to a Multilingual ASR ModelKwangHee Choi, Hyung-Min Park. 2203-2207 [doi]

Text-Only Domain Adaptation Based on Intermediate CTCHiroaki Sato, Tomoyasu Komori, Takeshi Mishima, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Tetsuji Ogawa. 2208-2212 [doi]

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter WarpingJenthe Thienpondt, Kris Demuynck. 2213-2217 [doi]

Updating Only Encoders Prevents Catastrophic Forgetting of End-to-End ASR ModelsYuki Takashima, Shota Horiguchi, Shinji Watanabe 0001, Leibny Paola García-Perera, Yohei Kawaguchi. 2218-2222 [doi]

Improved CNN-Transformer using Broadcasted Residual Learning for Text-Independent Speaker VerificationJeong Hwan Choi, Joon-Young Yang, Ye-Rin Jeoung, Joon-Hyuk Chang. 2223-2227 [doi]

Pushing the limits of raw waveform speaker recognitionJee-weon Jung, You Jin Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon, Joon Son Chung. 2228-2232 [doi]

PHO-LID: A Unified Model Incorporating Acoustic-Phonetic and Phonotactic Information for Language IdentificationHexin Liu, Leibny Paola García-Perera, Andy W. H. Khong, Suzy J. Styles, Sanjeev Khudanpur. 2233-2237 [doi]

Prosodic Information in Dialect Identification of a Tonal Language: The case of AoMoakala Tzudir, Priyankoo Sarmah, S. R. Mahadeva Prasanna. 2238-2242 [doi]

A Multimodal Strategy for Singing Language IdentificationWo Jae Lee, Emanuele Coviello. 2243-2247 [doi]

A comparative study on vowel articulation in Parkinson's disease and multiple system atrophyKhalid Daoudi, Biswajit Das, Solange Milhé de Saint Victor, Alexandra Foubert-Samier, Margherita Fabbri, Anne Pavy-Le Traon, Olivier Rascol, Virginie Woisard, Wassilios G. Meissner. 2248-2252 [doi]

Voicing decision based on phonemes classification and spectral moments for whisper-to-speech conversionLuc Ardaillon, Nathalie Henrich, Olivier Perrotin. 2253-2257 [doi]

Speech Acoustics in Mild Cognitive Impairment and Parkinson's Disease With and Without Concurrent Drawing TasksTanya Talkar, Christina Manxhari, James J. Williamson, Kara M. Smith, Thomas F. Quatieri. 2258-2262 [doi]

Investigating the Impact of Speech Compression on the Acoustics of Dysarthric SpeechKelvin Tran, Lingfeng Xu, Gabriela Stegmann, Julie Liss, Visar Berisha, Rene Utianski. 2263-2267 [doi]

Speaker Trait Enhancement for Cochlear Implant Users: A Case Study for Speaker Emotion PerceptionAvamarie Brueggeman, John H. L. Hansen. 2268-2272 [doi]

Optimal thyroplasty implant shape and stiffness for treatment of acute unilateral vocal fold paralysis: Evidence from a canine in vivo phonation modelNeha Reddy, Yoonjeong Lee, Zhaoyan Zhang, Dinesh K. Chhetri. 2273-2277 [doi]

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at ScaleArun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli. 2278-2282 [doi]

Semantically Meaningful Metrics for Norwegian ASR SystemsJanine Rugayan, Torbjørn Svendsen, Giampiero Salvi. 2283-2287 [doi]

Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASROndrej Klejch, Electra Wallington, Peter Bell 0001. 2288-2292 [doi]

Linguistically Informed Post-processing for ASR Error correction in SanskritRishabh Kumar, Devaraja Adiga, Rishav Ranjan, Amrith Krishna, Ganesh Ramakrishnan, Pawan Goyal 0002, Preethi Jyothi. 2293-2297 [doi]

Cross-lingual articulatory feature information transfer for speech recognition using recurrent progressive neural networksMahir Morshed, Mark Hasegawa-Johnson. 2298-2302 [doi]

Comparison of Models for Detecting Off-Putting Speaking StylesDiego Aguirre, Nigel Ward, Jonathan E. Avila, Heike Lehnert-LeHouillier. 2303-2307 [doi]

Multimodal Persuasive Dialogue Corpus using Teleoperated AndroidSeiya Kawano, Muteki Arioka, Akishige Yuguchi, Kenta Yamamoto, Koji Inoue, Tatsuya Kawahara, Satoshi Nakamura 0001, Koichiro Yoshino. 2308-2312 [doi]

Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTSYookyung Shin, Younggun Lee, Suhee Jo, Yeongtae Hwang, Taesu Kim. 2313-2317 [doi]

Strategies for developing a Conversational Speech Dataset for Text-To-Speech SynthesisAdaeze O. Adigwe, Esther Klabbers. 2318-2322 [doi]

Deep CNN-based Inductive Transfer Learning for Sarcasm Detection in SpeechXiyuan Gao, Shekhar Nayak, Matt Coler. 2323-2327 [doi]

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous DialogueKentaro Mitsui, Tianyu Zhao, Kei Sawada, Yukiya Hono, Yoshihiko Nankaku, Keiichi Tokuda. 2328-2332 [doi]

Attention-based conditioning methods using variable frame rate for style-robust speaker verificationAmber Afshan, Abeer Alwan. 2333-2337 [doi]

Learning from human perception to improve automatic speaker verification in style-mismatched conditionsAmber Afshan, Abeer Alwan. 2338-2342 [doi]

Exploring audio-based stylistic variation in podcastsKatariina Martikainen, Jussi Karlgren, Khiet Truong. 2343-2347 [doi]

Automatic Evaluation of Speaker SimilarityKamil Deja, Ariadna Sanchez, Julian Roth, Marius Cotescu. 2348-2352 [doi]

Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS)Ziyao Zhang, Alessio Falai, Ariadna Sanchez, Orazio Angelini, Kayoko Yanagisawa. 2353-2357 [doi]

J-MAC: Japanese multi-speaker audiobook corpus for speech synthesisShinnosuke Takamichi, Wataru Nakata, Naoko Tanji, Hiroshi Saruwatari. 2358-2362 [doi]

REYD - The First Yiddish Text-to-Speech Dataset and SystemJacob Webber, Samuel K. Lo, Isaac L. Bleaman. 2363-2367 [doi]

Data-augmented cross-lingual synthesis in a teacher-student frameworkMarcel de Korte, Jaebok Kim, Aki Kunikoshi, Adaeze Adigwe, Esther Klabbers. 2368-2372 [doi]

Production characteristics of obstruents in WaveNet and older TTS systemsAyushi Pandey, Sébastien Le Maguer, Julie Carson-Berndsen, Naomi Harte. 2373-2377 [doi]

Back to the Future: Extending the Blizzard Challenge 2013Sébastien Le Maguer, Simon King, Naomi Harte. 2378-2382 [doi]

BibleTTS: a large, high-fidelity, multilingual, and uniquely African speech corpusJosh Meyer, David Ifeoluwa Adelani, Edresson Casanova, Alp Öktem, Daniel Whitenack, Julian Weber, Salomon Kabongo, Elizabeth Salesky, Iroro Orife, Colin Leong, Perez Ogayo, Chris Chinenye Emezue, Jonathan Mukiibi, Salomey Osei, Apelete Agbolo, Victor Akinode, Bernard Opoku, Samuel Olanrewaju, Jesujoba Alabi, Shamsuddeen Hassan Muhammad. 2383-2387 [doi]

SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech SynthesisGeorgia Maniati, Alexandra Vioni, Nikolaos Ellinas, Karolos Nikitaras, Konstantinos Klapsas, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis. 2388-2392 [doi]

Domain Generalization with Relaxed Instance Frequency-wise Normalization for Multi-device Acoustic Scene ClassificationByeonggeun Kim, Seunghan Yang, Jangho Kim, Hyunsin Park, Juntae Lee, Simyung Chang. 2393-2397 [doi]

Couple learning for semi-supervised sound event detectionRui Tao, Long Yan, Kazushige Ouchi, Xiangdong Wang. 2398-2402 [doi]

Oktoechos Classification in Liturgical Music Using SBU-LSTM/GRURajeev Rajan, Ananya Ayasi. 2403-2407 [doi]

SoundDoA: Learn Sound Source Direction of Arrival and Semantics from Sound Raw WaveformsYuhang He, Andrew Markham. 2408-2412 [doi]

ORCA-WHISPER: An Automatic Killer Whale Sound Type Generation Toolkit Using Deep LearningChristian Bergler, Alexander Barnhill, Dominik Perrin, Manuel Schmitt, Andreas K. Maier, Elmar Nöth. 2413-2417 [doi]

Convolutional Recurrent Neural Network with Auxiliary Stream for Robust Variable-Length Acoustic Scene ClassificationJoon-Hyuk Chang, Won-Gook Choi. 2418-2422 [doi]

Unsupervised Symbolic Music Segmentation using Ensemble Temporal Prediction ErrorsShahaf Bassan, Yossi Adi, Jeffrey S. Rosenschein. 2423-2427 [doi]

Visually-aware Acoustic Event Detection using Heterogeneous GraphsAmir Shirian, Krishna Somandepalli, Victor Sanchez, Tanaya Guha. 2428-2432 [doi]

A Passive Similarity based CNN Filter Pruning for Efficient Acoustic Scene ClassificationArshdeep Singh, Mark D. Plumbley. 2433-2437 [doi]

MAE-AST: Masked Autoencoding Audio Spectrogram TransformerAlan Baade, Puyuan Peng, David Harwath. 2438-2442 [doi]

What can Speech and Language Tell us About the Working Alliance in PsychotherapySebastian Peter Bayerl, Gabriel Roccabruna, Shammur Absar Chowdhury, Tommaso Ciulli, Morena Danieli, Korbinian Riedhammer, Giuseppe Riccardi. 2443-2447 [doi]

TB or not TB? Acoustic cough analysis for tuberculosis classificationGeoffrey T. Frost, Grant Theron, Thomas Niesler. 2448-2452 [doi]

Are reported accuracies in the clinical speech machine learning literature overoptimistic?Visar Berisha, Chelsea Krantsevich, Gabriela Stegmann, Shira Hahn, Julie Liss. 2453-2457 [doi]

Automatic Detection of Expressed Emotion from Five-Minute Speech Samples: Challenges and OpportunitiesBahman Mirheidari, André Bittar, Nicholas Cummins, Johnny Downs, Helen L. Fisher, Heidi Christensen. 2458-2462 [doi]

Automatic cognitive assessment: Combining sparse datasets with disparate cognitive scoresBahman Mirheidari, Daniel Blackburn, Heidi Christensen. 2463-2467 [doi]

Exploring Semi-supervised Learning for Audio-based COVID-19 Detection using FixMatchTing Dang, Thomas Quinnell, Cecilia Mascolo. 2468-2472 [doi]

Analyzing the impact of SARS-CoV-2 variants on respiratory sound signalsDebarpan Bhattacharya, Debottam Dutta, Neeraj Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K. K, Sadhana Gonuguntla, Murali Alagesan. 2473-2477 [doi]

Automated Evaluation of Standardized Dementia Screening TestsFranziska Braun, Markus Förstel, Bastian Oppermann, Andreas Erzigkeit, Hartmut Lehfeld, Thomas Hillemacher, Korbinian Riedhammer. 2478-2482 [doi]

Alzheimer's Detection from English to Spanish Using Acoustic and Linguistic EmbeddingsPaula Andrea Pérez-Toro, Philipp Klumpp, Abner Hernandez, Tomas Arias, Patricia Lillo, Andrea Slachevsky, Adolfo Martín García, Maria Schuster, Andreas K. Maier, Elmar Nöth, Juan Rafael Orozco-Arroyave. 2483-2487 [doi]

Extract and Abstract with BART for Clinical Notes from Doctor-Patient ConversationsJing Su, Longxiang Zhang, Hamid Reza Hassanzadeh, Thomas Schaaf. 2488-2492 [doi]

Dyadic Interaction Assessment from Free-living Audio for Depression Severity AssessmentBishal Lamichhane, Nidal Moukaddam, Ankit B. Patel, Ashutosh Sabharwal. 2493-2497 [doi]

COVID-19 detection based on respiratory sensing from speechVenkata Srikanth Nallanthighal, Aki Härmä, Helmer Strik. 2498-2502 [doi]

Bifurcation and Reunion: A Loss-Guided Two-Stage Approach for Monaural Speech DereverberationXiaoXue Luo, Chengshi Zheng, Andong Li, Yuxuan Ke, Xiaodong Li 0002. 2503-2507 [doi]

A deep complex multi-frame filtering network for stereophonic acoustic echo cancellationLinjuan Cheng, Chengshi Zheng, Andong Li, Yuquan Wu, Renhua Peng, Xiaodong Li 0002. 2508-2512 [doi]

Speaker- and Phone-aware Convolutional Transformer Network for Acoustic Echo CancellationChang-Han, Weiping Tu, Yuhong Yang, Jingyi Li, Xinhong Li. 2513-2517 [doi]

Personalized Acoustic Echo Cancellation for Full-duplex CommunicationsShimin Zhang, Ziteng Wang, Yukai Ju, Yihui Fu, Yueyue Na, Qiang Fu, Lei Xie. 2518-2522 [doi]

LCSM: A Lightweight Complex Spectral Mapping Framework for Stereophonic Acoustic Echo CancellationChenggang Zhang, Jinjiang Liu, Xueliang Zhang 0001. 2523-2527 [doi]

Joint Neural AEC and Beamforming with Double-Talk DetectionVinay Kothapally, Yong Xu 0004, Meng Yu 0003, Shi-Xiong Zhang, Dong Yu 0001. 2528-2532 [doi]

Clock Skew Robust Acoustic Echo CancellationKarim Helwani, Erfan Soltanmohammadi, Michael Mark Goodwin, Arvindh Krishnaswamy. 2533-2537 [doi]

A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR AccuracySankaran Panchapagesan, Arun Narayanan, Turaj Zakizadeh Shabestary, Shuai Shao, Nathan Howard, Alex Park 0001, James Walker, Alexander Gruenstein. 2538-2542 [doi]

Complex-Valued Time-Frequency Self-Attention for Speech DereverberationVinay Kothapally, John H. L. Hansen. 2543-2547 [doi]

Learning Noise-independent Speech Representation for High-quality Voice Conversion for Noisy Target SpeakersLiumeng Xue, Shan Yang, Na Hu, Dan Su 0002, Lei Xie 0001. 2548-2552 [doi]

Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice ConversionSicheng Yang, Methawee Tantrawenith, Haolin Zhuang, Zhiyong Wu 0001, Aolan Sun, Jianzong Wang, Ning Cheng, Huaizhen Tang, Xintao Zhao, Jie Wang, Helen Meng. 2553-2557 [doi]

FlowCPCVC: A Contrastive Predictive Coding Supervised Flow Framework for Any-to-Any Voice ConversionJiahong Huang, Wen Xu, Yule Li, Junshi Liu, Dongpeng Ma, Wei Xiang. 2558-2562 [doi]

Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice ConversionYi Lei, Shan Yang, Jian Cong, Lei Xie 0001, Dan Su 0002. 2563-2567 [doi]

AdaSpeech 4: Adaptive Text to Speech in Zero-Shot ScenariosYihan Wu, Xu Tan 0003, Bohan Li 0003, Lei He, Sheng Zhao, Ruihua Song, Tao Qin, Tie-Yan Liu. 2568-2572 [doi]

Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech SynthesisYixuan Zhou, Changhe Song, Xiang Li, Luwen Zhang, Zhiyong Wu 0001, Yanyao Bian, Dan Su 0002, Helen Meng. 2573-2577 [doi]

Streamable Speech Representation Disentanglement and Multi-Level Prosody Modeling for Live One-Shot Voice ConversionHaoquan Yang, Liqun Deng, Yu Ting Yeung, Nianzu Zheng, Yong Xu. 2578-2582 [doi]

Accent Conversion using Pre-trained Model and Synthesized Data from Voice ConversionTuan Nam Nguyen, Ngoc-Quan Pham, Alexander Waibel. 2583-2587 [doi]

VoiceMe: Personalized voice generation in TTSPol van Rijn, Silvan Mertes, Dominik Schiller, Piotr Dura, Hubert Siuzdak, Peter M. C. Harrison, Elisabeth André, Nori Jacoby. 2588-2592 [doi]

DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice ConversionRuibin Yuan, Yuxuan Wu, Jacob Li, Jaxter Kim. 2593-2597 [doi]

Towards Improved Zero-shot Voice Conversion with Conditional DSVAEJiachen Lian, Chunlei Zhang, Gopala Krishna Anumanchipalli, Dong Yu 0001. 2598-2602 [doi]

Disentanglement of Emotional Style and Speaker Identity for Expressive Voice ConversionZongyang Du, Berrak Sisman, Kun Zhou, Haizhou Li 0001. 2603-2607 [doi]

Internal Language Model Adaptation with Text-Only Data for End-to-End Speech RecognitionZhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li 0001, Xie Chen, Yu Wu, Yifan Gong 0001. 2608-2612 [doi]

A Complementary Joint Training Approach Using Unpaired Speech and Text A Complementary Joint Training Approach Using Unpaired Speech and TextYe-Qian Du, Jie Zhang, Qiu-Shi Zhu, Lirong Dai 0001, Ming-hui Wu, Xin Fang, Zhou-Wang Yang. 2613-2617 [doi]

Knowledge Transfer and Distillation from Autoregressive to Non-Autoregessive Speech RecognitionXun Gong 0005, Zhikai Zhou, Yanmin Qian. 2618-2622 [doi]

Confidence Score Based Conformer Speaker Adaptation for Speech RecognitionJiajun Deng, Xurong Xie, Tianzi Wang, Mingyu Cui, Boyang Xue, Zengrui Jin, Mengzhe Geng, Guinan Li, Xunying Liu, Helen Meng. 2623-2627 [doi]

Decoupled Federated Learning for ASR with Non-IID DataHan Zhu, Jindong Wang, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan 0002. 2628-2632 [doi]

Knowledge Distillation For CTC-based Speech Recognition Via Consistent Acoustic Representation LearningSanli Tian, Keqi Deng, Zehan Li, Lingxuan Ye, Gaofeng Cheng, Ta Li, Yonghong Yan 0002. 2633-2637 [doi]

Improving Generalization of Deep Neural Network Acoustic Models with Length Perturbation and N-best Based Label SmoothingXiaodong Cui, George Saon, Tohru Nagano, Masayuki Suzuki, Takashi Fukuda, Brian Kingsbury, Gakuto Kurata. 2638-2642 [doi]

Supervision-Guided Codebooks for Masked Prediction in Speech Pre-trainingChengyi Wang 0002, Yiming Wang, Yu Wu 0012, Sanyuan Chen, Jinyu Li 0001, Shujie Liu 0001, Furu Wei. 2643-2647 [doi]

Speech Pre-training with Acoustic PieceShuo Ren, Shujie Liu 0001, Yu Wu 0012, Long Zhou, Furu Wei. 2648-2652 [doi]

Censer: Curriculum Semi-supervised Learning for Speech Recognition Based on Self-supervised Pre-trainingBowen Zhang, Songjun Cao, Xiaoming Xhang, Yike Zhang, Long Ma, Takahiro Shinozaki. 2653-2657 [doi]

Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech DataJunyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu 0001, Haizhou Li 0001, Tom Ko, Lirong Dai 0001, Jinyu Li 0001, Yao Qian, Furu Wei. 2658-2662 [doi]

PISA: PoIncaré Saliency-Aware Interpolative AugmentationRamit Sawhney, Megh Thakkar, Vishwa Shah, Puneet Mathur, Vasu Sharma, Dinesh Manocha. 2663-2667 [doi]

Online Continual Learning of End-to-End Speech Recognition ModelsMuqiao Yang, Ian R. Lane, Shinji Watanabe 0001. 2668-2672 [doi]

Streaming Target-Speaker ASR with Neural TransducerTakafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takahiro Shinozaki. 2673-2677 [doi]

SPLICEOUT: A Simple and Efficient Audio Augmentation MethodArjit Jain, Pranay Reddy Samala, Deepak Mittal, Preethi Jyothi, Maneesh Singh 0001. 2678-2682 [doi]

Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent SystemsVishal Sunder, Eric Fosler-Lussier, Samuel Thomas 0001, Hong-Kwang Kuo, Brian Kingsbury. 2683-2687 [doi]

Japanese ASR-Robust Pre-trained Language Model with Pseudo-Error Sentences Generated by Grapheme-Phoneme ConversionYasuhito Ohsugi, Itsumi Saito, Kyosuke Nishida, Sen Yoshida. 2688-2692 [doi]

Improving Spoken Language Understanding with Cross-Modal Contrastive LearningJingjing Dong, Jiayi Fu, Peng Zhou, Hao Li, Xiaorui Wang. 2693-2697 [doi]

Low-bit Shift Network for End-to-End Spoken Language UnderstandingAnderson R. Avila, Khalil Bibi, Rui-Heng Yang, Xinlin Li, Chao Xing, Xiao Chen. 2698-2702 [doi]

Meta Auxiliary Learning for Low-resource Spoken Language UnderstandingYingying Gao, Junlan Feng, Chao Deng, Shilei Zhang. 2703-2707 [doi]

Adversarial Knowledge Distillation For Robust Spoken Language UnderstandingYe Wang, Baishun Ling, Yanmeng Wang, Junhao Xue, Shaojun Wang, Jing Xiao 0006. 2708-2712 [doi]

Incorporating Dual-Aware with Hierarchical Interactive Memory Networks for Task-Oriented DialogueYangyang Ou, Peng Zhang 0002, Jing Zhang, Hui Gao, Xing Ma. 2713-2717 [doi]

Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQLYuntao Li, Hanchu Zhang, Yutian Li, Sirui Wang, Wei Wu, Yan Zhang. 2718-2722 [doi]

Small Changes Make Big Differences: Improving Multi-turn Response Selection in Dialogue Systems via Fine-Grained Contrastive LearningYuntao Li, Can Xu, Huang Hu, Lei Sha, Yan Zhang, Daxin Jiang. 2723-2727 [doi]

Toward Low-Cost End-to-End Spoken Language UnderstandingMarco Dinarelli, Marco Naguib, François Portet. 2728-2732 [doi]

A Multi-Task BERT Model for Schema-Guided Dialogue State TrackingEleftherios Kapelonis, Efthymios Georgiou, Alexandros Potamianos. 2733-2737 [doi]

WavPrompt: Towards Few-Shot Spoken Language Understanding with Frozen Language ModelsHeting Gao, Junrui Ni, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson. 2738-2742 [doi]

Analysis of praising skills focusing on utterance contentsAsahi Ogushi, Toshiki Onishi, Yohei Tahara, Ryo Ishii, Atsushi Fukayama, Takao Nakamura, Akihiro Miyata. 2743-2747 [doi]

Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from SpeechPengwei Wang, Yinpei Su, Xiaohuan Zhou, Xin Ye, Liangchen Wei, Ming Liu, Yuan You, Feijun Jiang. 2748-2752 [doi]

Efficient Training of Audio Transformers with PatchoutKhaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, Gerhard Widmer. 2753-2757 [doi]

CNN-based Audio Event Recognition for Automated Violence Classification and Rating for Prime Video ContentMayank Sharma, Tarun Gupta, Kenny Qiu, Xiang Hao, Raffay Hamid. 2758-2762 [doi]

Frequency Dynamic Convolution: Frequency-Adaptive Pattern Recognition for Sound Event DetectionHyeonuk Nam, Seong-Hu Kim, Byeong-Yun Ko, Yong-Hwa Park. 2763-2767 [doi]

On Breathing Pattern Information in Synthetic SpeechZohreh Mostaani, Mathew Magimai-Doss. 2768-2772 [doi]

Interactive Auido-text Representation for Automated Audio Captioning with Contrastive LearningChen Chen, Nana Hou, Yuchen Hu, Heqing Zou, Xiaofeng Qi, Eng Siong Chng. 2773-2777 [doi]

Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique ClassificationYuya Yamamoto, Juhan Nam, Hiroko Terasawa. 2778-2782 [doi]

Does Audio Deepfake Detection Generalize?Nicolas M. Müller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar, Konstantin Böttinger. 2783-2787 [doi]

Attacker Attribution of Audio DeepfakesNicolas M. Müller, Franziska Dieckmann, Jennifer Williams. 2788-2792 [doi]

Are disentangled representations all you need to build speaker anonymization systems?Pierre Champion, Anthony Larcher, Denis Jouvet. 2793-2797 [doi]

Towards End-to-End Private Automatic Speaker RecognitionFrancisco Teixeira, Alberto Abad, Bhiksha Raj, Isabel Trancoso. 2798-2802 [doi]

Extracting Targeted Training Data from ASR Models, and How to Mitigate ItEhsan Amid, Om Dipakbhai Thakkar, Arun Narayanan, Rajiv Mathews, Françoise Beaufays. 2803-2807 [doi]

Detecting Unintended Memorization in Language-Model-Fused ASRW. Ronny Huang, Steve Chien, Om Dipakbhai Thakkar, Rajiv Mathews. 2808-2812 [doi]

Transformer-Based Automatic Speech Recognition with Auxiliary Input of Source Language Text Toward Transcribing Simultaneous InterpretationShuta Taniguchi, Tsuneo Kato, Akihiro Tamura, Keiji Yasuda. 2813-2817 [doi]

AVATAR: Unconstrained Audiovisual Speech RecognitionValentin Gabeur, Paul Hongsuck Seo, Arsha Nagrani, Chen Sun 0002, Karteek Alahari, Cordelia Schmid. 2818-2822 [doi]

Word Discovery in Visually Grounded, Self-Supervised Speech ModelsPuyuan Peng, David Harwath. 2823-2827 [doi]

End-to-End multi-talker audio-visual ASR using an active speaker attention moduleRichard Rose, Olivier Siohan. 2828-2832 [doi]

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Muti-Person VideoDmitriy Serdyuk, Otavio Braga, Olivier Siohan. 2833-2837 [doi]

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech RecognitionJoanna Hong, Minsu Kim, DaeHun Yoo, Yong Man Ro. 2838-2842 [doi]

Frame-Level Stutter DetectionJohn B. Harvill, Mark Hasegawa-Johnson, Chang D. Yoo. 2843-2847 [doi]

Detecting Heart Failure Through Voice Analysis using Self-Supervised Mode-Based Memory FusionDarshana Priyasad, Andi Partovi, Sridha Sridharan, Maryam Kashefpoor, Tharindu Fernando, Simon Denman, Clinton Fookes, Jia Tang, David Kaye. 2848-2852 [doi]

Automatic Detection of Speech Sound Disorder in Child Speech Using Posterior-based Speaker RepresentationsSi Ioi Ng, Cymie Wing-Yee Ng, Jiarui Wang, Tan Lee. 2853-2857 [doi]

Data Augmentation for Dementia Detection in Spoken LanguageDominika Woszczyk, Anna Hedlikova, Alican Akman, Soteris Demetriou, Björn W. Schuller. 2858-2862 [doi]

Acoustic Representation Learning on Breathing and Speech Signals for COVID-19 DetectionDebottam Dutta, Debarpan Bhattacharya, Sriram Ganapathy, Amir Hossein Poorjam, Deepak Mittal, Maneesh Singh 0001. 2863-2867 [doi]

Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0Sebastian Peter Bayerl, Dominik Wagner, Elmar Nöth, Korbinian Riedhammer. 2868-2872 [doi]

HYU Submission for the SASV Challenge 2022: Reforming Speaker Embeddings with Spoofing-Aware ConditioningJeong Hwan Choi, Joon-Young Yang, Ye-Rin Jeoung, Joon-Hyuk Chang. 2873-2877 [doi]

Two Methods for Spoofing-Aware Speaker Verification: Multi-Layer Perceptron Score Fusion Model and Integrated Embedding ProjectorJungwoo Heo, Ju-ho Kim, Hyun-seo Shin. 2878-2882 [doi]

Spoofing-Aware Attention based ASV Back-end with Multiple Enrollment Utterances and a Sampling Strategy for the SASV Challenge 2022Chang Zeng, Lin Zhang, Meng Liu, Junichi Yamagishi. 2883-2887 [doi]

A Subnetwork Approach for Spoofing Aware Speaker VerificationAlexander Alenin, Nikita Torgashov, Anton Okhotnikov, Rostislav Makarov, Ivan Yakovlev. 2888-2892 [doi]

SASV 2022: The First Spoofing-Aware Speaker Verification ChallengeJee-weon Jung, Hemlata Tak, Hye-jin Shim, Hee-Soo Heo, Bong-Jin Lee, Soo-Whan Chung, Ha-Jin Yu, Nicholas Evans, Tomi Kinnunen. 2893-2897 [doi]

Representation Selective Self-distillation and wav2vec 2.0 Feature Exploration for Spoof-aware Speaker VerificationJin Woo Lee, Eungbeom Kim, Junghyun Koo, Kyogu Lee. 2898-2902 [doi]

tPLCnet: Real-time Deep Packet Loss Concealment in the Time Domain Using a Short Temporal ContextNils L. Westhausen, Bernd T. Meyer. 2903-2907 [doi]

On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech EnhancementKristina Tesch, Nils-Hendrik Mohrmann, Timo Gerkmann. 2908-2912 [doi]

DDS: A new device-degraded speech dataset for speech enhancementHaoyu Li, Junichi Yamagishi. 2913-2917 [doi]

Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational EnvironmentsYicheng Du, Aditya Arie Nugraha, Kouhei Sekiguchi, Yoshiaki Bando, Mathieu Fontaine 0002, Kazuyoshi Yoshii. 2918-2922 [doi]

Refining DNN-based Mask Estimation using CGMM-based EM Algorithm for Multi-channel Noise ReductionJulitta Bartolewska, Stanislaw Kacprzak, Konrad Kowalczyk. 2923-2927 [doi]

Speech Enhancement with Score-Based Generative Models in the Complex STFT DomainSimon Welker, Julius Richter, Timo Gerkmann. 2928-2932 [doi]

Enhancing Embeddings for Speech Classification in Noisy ConditionsMohamed Nabih Ali, Alessio Brutti, Daniele Falavigna. 2933-2937 [doi]

Deep Audio Waveform PriorArnon Turetzky, Tzvi Michelson, Yossi Adi, Shmuel Peleg. 2938-2942 [doi]

Convolutive Weighted Multichannel Wiener Filter Front-end for Distant Automatic Speech Recognition in Reverberant Multispeaker ScenariosMieszko Fras, Marcin Witkowski, Konrad Kowalczyk. 2943-2947 [doi]

Efficient Transformer-based Speech Enhancement Using Long Frames and STFT MagnitudesDanilo de Oliveira, Tal Peer, Timo Gerkmann. 2948-2952 [doi]

Improving Speech Enhancement through Fine-Grained Speech CharacteristicsMuqiao Yang, Joseph Konan, David Bick, Anurag Kumar 0003, Shinji Watanabe 0001, Bhiksha Raj. 2953-2957 [doi]

Creating New Voices using Normalizing FlowsPiotr Bilinski, Thomas Merritt, Abdelhamid Ezzerg, Kamil Pokora, Sebastian Cygert, Kayoko Yanagisawa, Roberto Barra-Chicote, Daniel Korzekwa. 2958-2962 [doi]

Unify and Conquer: How Phonetic Feature Representation Affects Polyglot Text-To-Speech (TTS)Ariadna Sanchez, Alessio Falai, Ziyao Zhang, Orazio Angelini, Kayoko Yanagisawa. 2963-2967 [doi]

Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTSKenta Udagawa, Yuki Saito, Hiroshi Saruwatari. 2968-2972 [doi]

GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversionMagdalena Proszewska, Grzegorz Beringer, Daniel Sáez-Trigueros, Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote. 2973-2977 [doi]

One-Shot Speaker Adaptation Based on Initialization by Generative Adversarial Networks for TTSJaeuk Lee, Joon-Hyuk Chang. 2978-2982 [doi]

Zero-Shot Voice Conditioning for Denoising Diffusion TTS ModelsAlon Levkovitch, Eliya Nachmani, Lior Wolf. 2983-2987 [doi]

Advanced Speaker Embedding with Predictive Variance of Gaussian Distribution for Speaker Adaptation in TTSJaeuk Lee, Joon-Hyuk Chang. 2988-2992 [doi]

Karaoker: Alignment-free singing voice synthesis with speech training dataPanagiotis Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, June Sig Sung, Gunu Jho, Pirros Tsiakoulis, Aimilios Chalamandaris. 2993-2997 [doi]

ACNN-VC: Utilizing Adaptive Convolution Neural Network for One-Shot Voice ConversionJi Sub Um, Yeunju Choi, Hoi-Rin Kim. 2998-3002 [doi]

A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic ModelingTasnima Sadekova, Vladimir Gogoryan, Ivan Vovk, Vadim Popov, Mikhail A. Kudinov, Jiansheng Wei. 3003-3007 [doi]

Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice SynthesisTae-Woo Kim, Min Su Kang, Gyeong-Hoon Lee. 3008-3012 [doi]

Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style TransferShrutina Agarwal, Naoya Takahashi, Sriram Ganapathy. 3013-3017 [doi]

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data AugmentationRyo Terashima, Ryuichi Yamamoto, Eunwoo Song, Yuma Shirahata, Hyun-Wook Yoon, Jae Min Kim, Kentaro Tachibana. 3018-3022 [doi]

Deep residual spiking neural network for keyword spotting in low-resource settingsQu Yang, Qi Liu, Haizhou Li 0001. 3023-3027 [doi]

Reducing Domain mismatch in Self-supervised speech pre-trainingMurali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Yu Zhang, Nicolás Serrano. 3028-3032 [doi]

Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech RecognitionKai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios Mouchtaris, Tariq Afzal, Ariya Rastrow. 3033-3037 [doi]

W2V2-Light: A Lightweight Version of Wav2vec 2.0 for Automatic Speech RecognitionDong-hyun Kim, Jae Hong Lee, Ji-Hwan Mo, Joon-Hyuk Chang. 3038-3042 [doi]

Compute Cost Amortized Transformer for Streaming ASRYi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian King, Ariya Rastrow, Athanasios Mouchtaris, Grant P. Strimel. 3043-3047 [doi]

On-demand compute reduction with stochastic wav2vec 2.0Apoorv Vyas, Wei-Ning Hsu, Michael Auli, Alexei Baevski. 3048-3052 [doi]

Transfer Learning from Multi-Lingual Speech Translation Benefits Low-Resource Speech RecognitionGeoffroy Vanderreydt, François Remy, Kris Demuynck. 3053-3057 [doi]

FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech RecognitionSzu-Jui Chen, Jiamin Xie, John H. L. Hansen. 3058-3062 [doi]

Perceptual Evaluation of Penetrating Voices through a Semantic Differential MethodTatsuya Kitamura, Naoki Kunimoto, Hideki Kawahara, Shigeaki Amano. 3063-3067 [doi]

Non-native Perception of Japanese Singleton/Geminate Contrasts: Comparison of Mandarin and Mongolian Speakers Differing in Japanese ExperienceKimiko Tsukada, Yurong Yurong. 3068-3072 [doi]

Evaluating the effects of modified speech on perceptual speaker identification performanceBenjamin O'Brien, Christine Meunier, Alain Ghio. 3073-3077 [doi]

Mandarin Lombard Grid: a Lombard-grid-like corpus of Standard ChineseYuhong Yang, Xufeng Chen, Qingmu Liu, Weiping Tu, Hongyang Chen, Linjun Cai. 3078-3082 [doi]

Syllable sequence of /a/+/ta/ can be heard as /atta/ in Japanese with visual or tactile cuesTakayuki Arai, Miho Yamada, Megumi Okusawa. 3083-3087 [doi]

InQSS: a speech intelligibility and quality assessment model using a multi-task learning networkYu-Wen Chen, Yu Tsao 0001. 3088-3092 [doi]

Investigating the influence of personality on acoustic-prosodic entrainmentAndreas Weise, Rivka Levitan. 3093-3097 [doi]

Common and differential acoustic representation of interpersonal and tactile iconic perception of Mandarin vowelsYi Li, Xiaoming Jiang. 3098-3102 [doi]

Effects of Noise on Speech Perception and Spoken Word ComprehensionJovan Eranovic, Daniel Pape, Magda Stroinska, Elisabet Service, Marijana Matkovski. 3103-3107 [doi]

Acquisition of Two Consecutive Neutral Tones in Mandarin-Speaking Preschoolers: Phonological Representation and Phonetic RealizationSichen Zhang, Aijun Li. 3108-3112 [doi]

Air tissue boundary segmentation using regional loss in real-time Magnetic Resonance Imaging video for speech productionAnwesha Roy, Varun Belagali, Prasanta Kumar Ghosh. 3113-3117 [doi]

Language-specific interactions of vowel discrimination in noiseMark Gibson, Marcel Schlechtweg, Beatriz Blecua Falgueras, Judit Ayala Alcalde. 3118-3122 [doi]

An Improved Transformer Transducer Architecture for Hindi-English Code Switched Speech RecognitionAnsen Antony, Sumanth Reddy Kota, Akhilesh Lade, Spoorthy V, Shashidhar G. Koolagudi. 3123-3127 [doi]

VocaLiST: An Audio-Visual Synchronisation Model for Lips and VoicesVenkatesh Shenoy Kadandale, Juan F. Montesinos, Gloria Haro. 3128-3132 [doi]

Cross-Lingual Transfer Learning Approach to Phoneme Error Detection via Latent Phonetic RepresentationJovan M. Dalhouse, Katunobu Itou. 3133-3137 [doi]

Global RNN Transducer Models For Multi-dialect Speech RecognitionTakashi Fukuda, Samuel Thomas 0001, Masayuki Suzuki, Gakuto Kurata, George Saon, Brian Kingsbury. 3138-3142 [doi]

Acoustic Stress Detection in Isolated English Words for Computer-Assisted Pronunciation TrainingVera Bernhard, Sandra Schwab, Jean Philippe Goldman. 3143-3147 [doi]

On-the-fly ASR Corrections with Audio ExemplarsGolan Pundak, Tsendsuren Munkhdalai, Khe Chai Sim. 3148-3152 [doi]

FFM: A Frame Filtering Mechanism To Accelerate Inference Speed For Conformer In Speech RecognitionZongfeng Quan, Nick J.-C. Wang, Wei Chu, Tao Wei, Shaojun Wang, Jing Xiao. 3153-3157 [doi]

Two-pass Decoding and Cross-adaptation Based System Combination of End-to-end Conformer and Hybrid TDNN ASR SystemsMingyu Cui, Jiajun Deng, Shoukang Hu, Xurong Xie, Tianzi Wang, Shujie Hu, Mengzhe Geng, Boyang Xue, Xunying Liu, Helen Meng. 3158-3162 [doi]

Improving Recognition of Out-of-vocabulary Words in E2E Code-switching ASR by Fusing Speech Generation MethodsLingxuan Ye, Gaofeng Cheng, Runyan Yang, Zehui Yang, Sanli Tian, Pengyuan Zhang, Yonghong Yan 0002. 3163-3167 [doi]

Mitigating bias against non-native accentsYuanyuan Zhang, Yixuan Zhang, Bence Mark Halpern, Tanvina Patel, Odette Scharenborg. 3168-3172 [doi]

A Multi-level Acoustic Feature Extraction Framework for Transformer Based End-to-End Speech RecognitionJin Li, Rongfeng Su, Xurong Xie, Lan Wang, Nan Yan. 3173-3177 [doi]

LAE: Language-Aware Encoder for Monolingual and Multilingual ASRJinchuan Tian, Jianwei Yu, Chunlei Zhang, Yuexian Zou, Dong Yu 0001. 3178-3182 [doi]

Significance of single frequency filter for the development of children's KWS systemBiswaranjan Pattanayak, Gayadhar Pradhan. 3183-3187 [doi]

A Language Agnostic Multilingual Streaming On-Device ASR SystemBo Li, Tara N. Sainath, Ruoming Pang, Shuo-Yiin Chang, Qiumin Xu, Trevor Strohman, Vince Chen, Qiao Liang, Heguang Liu, Yanzhang He, Parisa Haghani, Sameer Bidichandani. 3188-3192 [doi]

Minimizing Sequential Confusion Error in Speech Command RecognitionZhanheng Yang, Hang Lv 0001, Xiong Wang, Ao Zhang, Lei Xie 0001. 3193-3197 [doi]

Homophone Disambiguation Profits from Durational InformationBarbara Schuppler, Emil Berger, Xenia Kogler, Franz Pernkopf. 3198-3202 [doi]

Speaker-Specific Utterance Ensemble based Transfer Attack on Speaker IdentificationChu-Xiao Zuo, Jia-Yi Leng, Wu-Jun Li. 3203-3207 [doi]

Complex Frequency Domain Linear Prediction: A Tool to Compute Modulation Spectrum of SpeechSamik Sadhu, Hynek Hermansky. 3208-3212 [doi]

Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's SpeechVishwanath Pratap Singh, Hardik B. Sailor, Supratik Bhattacharya, Abhishek Pandey. 3213-3217 [doi]

End-to-End Joint Modeling of Conversation History-Dependent and Independent ASR Systems with Multi-History TrainingRyo Masumura, Yoshihiro Yamazaki, Saki Mizuno, Naoki Makishima, Mana Ihori, Mihiro Uchida, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Shota Orihashi, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando. 3218-3222 [doi]

Streaming End-to-End Multilingual Speech Recognition with Joint Language IdentificationChao Zhang, Bo Li, Tara N. Sainath, Trevor Strohman, Sepand Mavandadi, Shuo-Yiin Chang, Parisa Haghani. 3223-3227 [doi]

An Anchor-Free Detector for Continuous Speech Keyword SpottingZhiyuan Zhao, Chuanxin Tang, Chengdong Yao, Chong Luo. 3228-3232 [doi]

Low-complex and Highly-performed Binary Residual Neural Network for Small-footprint Keyword SpottingXiao Wang 0022, Song Cheng, Jun Li, Shushan Qiao, Yumei Zhou, Yi Zhan. 3233-3237 [doi]

UniKW-AT: Unified Keyword Spotting and Audio TaggingHeinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang. 3238-3242 [doi]

ESSumm: Extractive Speech Summarization from Untranscribed MeetingJun Wang 0090. 3243-3247 [doi]

XTREME-S: Evaluating Cross-lingual Speech RepresentationsAlexis Conneau, Ankur Bapna, Yu Zhang, Min Ma, Patrick von Platen, Anton Lozhkov, Colin Cherry, Ye Jia, Clara Rivera, Mihir Kale, Daan van Esch, Vera Axelrod, Simran Khanuja, Jonathan H. Clark, Orhan Firat, Michael Auli, Sebastian Ruder, Jason Riesa, Melvin Johnson. 3248-3252 [doi]

Negative Guided Abstractive Dialogue SummarizationJunpeng Liu, Yanyan Zou, Yuxuan Xi, Shengjie Li, Mian Ma, Zhuoye Ding, Bo Long. 3253-3257 [doi]

Exploring representation learning for small-footprint keyword spottingFan Cui, Liyong Guo, Quandong Wang, Peng Gao, Yujun Wang. 3258-3262 [doi]

Large-Scale Streaming End-to-End Speech Translation with Neural TransducersJian Xue, Peidong Wang, Jinyu Li 0001, Matt Post, Yashesh Gaur. 3263-3267 [doi]

Phonetic Embedding for ASR Robustness in Entity ResolutionXiaozhou Zhou, Ruying Bao, William M. Campbell. 3268-3272 [doi]

Hierarchical Tagger with Multi-task Learning for Cross-domain Slot FillingXiao Wei, Yuke Si, Shiquan Wang, Longbiao Wang, Jianwu Dang. 3273-3277 [doi]

Multi-class AUC Optimization for Robust Small-footprint Keyword Spotting with Limited Training DataMenglong Xu, Shengqiang Li, Chengdong Liang, Xiao-lei Zhang. 3278-3282 [doi]

Weak supervision for Question Type Detection with large language modelsJiri' Marti'nek, Christophe Cerisara, Pavel Král, Ladislav Lenc, Josef Baloun. 3283-3287 [doi]

BIT-MI Deep Learning-based Model to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing ApplicationsMiao Liu, Jing Wang, Liang Xu, Jianqian Zhang, Shicong Li, Fei Xiang. 3288-3292 [doi]

MOS Prediction Network for Non-intrusive Speech Quality Assessment in Online ConferencingWenjing Liu, Chuan Xie. 3293-3297 [doi]

Non-intrusive Speech Quality Assessment with a Multi-Task Learning based Subband Adaptive Attention Temporal Convolutional Neural NetworkXiaofeng Shu, Yanjie Chen, Chuxiang Shang, Yan Zhao 0010, Chengshuai Zhao, Yehang Zhu, Chuanzeng Huang, Yuxuan Wang 0002. 3298-3302 [doi]

Soft-label Learn for No-Intrusive Speech Quality AssessmentJunyong Hao, Shunzhou Ye, Cheng Lu, Fei Dong, Jingang Liu, Dong Pi. 3303-3307 [doi]

ConferencingSpeech 2022 Challenge: Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing ApplicationsGaoxiong Yi, Wei Xiao, Yiming Xiao, Babak Naderi, Sebastian Möller 0001, Wafaa Wardah, Gabriel Mittag, Ross Cutler, Zhuohuang Zhang, Donald S. Williamson, Fei Chen 0011, Fuzheng Yang, Shidong Shang. 3308-3312 [doi]

MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality AssessmentKarl El Hajal, Milos Cernak, Pablo Mainar. 3313-3317 [doi]

CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality AssessmentYuchen Liu, Li-Chia Yang, Alexander Pawlicki, Marko Stamenovic. 3318-3322 [doi]

Impairment Representation Learning for Speech Quality AssessmentLianWu Chen, Xinlei Ren, Xu Zhang, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 3323-3327 [doi]

Exploring linguistic feature and model combination for speech recognition based automatic AD detectionYi Wang, Tianzi Wang, Zi Ye, Lingwei Meng, Shoukang Hu, Xixin Wu, Xunying Liu, Helen Meng. 3328-3332 [doi]

ECAPA-TDNN Based Depression Detection from Clinical SpeechDong Wang, Yanhui Ding, Qing Zhao, Peilin Yang, Shuping Tan, Ya Li. 3333-3337 [doi]

A Step Towards Preserving Speakers' Identity While Detecting Depression Via Speaker DisentanglementVijay Ravi, Jinhan Wang, Jonathan Flint, Abeer Alwan. 3338-3342 [doi]

Toward Corpus Size Requirements for Training and Evaluating Depression Risk Models Using Spoken LanguageTomasz Rutowski, Amir Harati, Elizabeth Shriberg, Yang Lu, Piotr Chlebek, Ricardo Oliveira. 3343-3347 [doi]

Deep Learning Approaches for Detecting Alzheimer's Dementia from Conversational Speech of ILSE StudyAyimnisagul Ablimit, Karen Scholz, Tanja Schultz. 3348-3352 [doi]

Multimodal Depression Severity Score Prediction Using Articulatory Coordination Features and Hierarchical Attention Based Text EmbeddingsNadee Seneviratne, Carol Y. Espy-Wilson. 3353-3357 [doi]

ASR Error Detection via Audio-Transcript entailmentNimshi Venkat Meripo, Sandeep Konam. 3358-3362 [doi]

CopyCat2: A Single Model for Multi-Speaker TTS and Many-to-Many Fine-Grained Prosody TransferSri Karlapati, Penny Karanasou, Mateusz Lajszczak, Syed Ammar Abbas, Alexis Moinet, Peter Makarov, Ray Li, Arent van Korlaar, Simon Slangen, Thomas Drugman. 3363-3367 [doi]

Simple and Effective Multi-sentence TTS with Expressive and Coherent ProsodyPeter Makarov, Syed Ammar Abbas, Mateusz Lajszczak, Arnaud Joly, Sri Karlapati, Alexis Moinet, Thomas Drugman, Penny Karanasou. 3368-3372 [doi]

Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue HistoryYuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari. 3373-3377 [doi]

Emphasis Control for Parallel Neural TTSShreyas Seshadri, Tuomo Raitio, Dan Castellani, Jiangchuan Li. 3378-3382 [doi]

BERT, can HE predict contrastive focus? Predicting and controlling prominence in neural TTS using a language modelBrooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber. 3383-3387 [doi]

Combining conversational speech with read speech to improve prosody in Text-to-Speech synthesisJohannah O'Mahony, Catherine Lai, Simon King. 3388-3392 [doi]

Unsupervised Data Selection via Discrete Speech Representation for ASRZhiyun Lu, Yongqiang Wang, Yu Zhang, Wei Han, Zhehuai Chen, Parisa Haghani. 3393-3397 [doi]

CTRL: Continual Representation Learning to Transfer Information of Pre-trained for WAV2VEC 2.0Jae Hong Lee, Chae Won Lee, Jin-Seong Choi, Joon-Hyuk Chang, Woo Kyeong Seong, Jeonghan Lee. 3398-3402 [doi]

Speaker adaptation for Wav2vec2 based dysarthric ASRMurali Karthick Baskar, Tim Herzig, Diana Nguyen, Mireia Díez, Tim Polzehl, Lukás Burget, Jan Cernocký. 3403-3407 [doi]

Non-Parallel Voice Conversion for ASR AugmentationGary Wang, Andrew Rosenberg, Bhuvana Ramabhadran, Fadi Biadsy, Jesse Emond, Yinghui Huang, Pedro J. Moreno. 3408-3412 [doi]

Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-TranscribingHeli Qi, Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura 0001. 3413-3417 [doi]

Joint Encoder-Decoder Self-Supervised Pre-training for ASRA. Arunkumar, Srinivasan Umesh. 3418-3422 [doi]

An overview of discourse clicks in Central SwedishMargaret Zellers. 3423-3427 [doi]

VOT and F0 perturbations for the realization of voicing contrast in Tohoku JapaneseHiroto Noguchi, Sanae Matsui, Naoya Watabe, Chuyu Huang, Ayako Hashimoto, Ai Mizoguchi, Mafuyu Kitahara. 3428-3432 [doi]

Complex sounds and cross-language influence: The case of ejectives in Omani MehriRachid Ridouane, Philipp Buech. 3433-3437 [doi]

When Phonetics Meets Morphology: Intervocalic Voicing Within and Across Words in Romance LanguagesMathilde Hutin, Martine Adda-Decker, Lori Lamel, Ioana Vasilescu. 3438-3442 [doi]

The mapping between syntactic and prosodic phrasing in English and MandarinJianjing Kuang, May Pik Yu Chan, Nari Rhee, Mark Liberman, Hongwei Ding. 3443-3447 [doi]

Pharyngealization in Amazigh: Acoustic and articulatory marking over timePhilipp Buech, Rachid Ridouane, Anne Hermes. 3448-3452 [doi]

ASR-Generated Text for Language Model Pre-training Applied to Speech TasksValentin Pelloin, Franck Dary, Nicolas Hervé, Benoît Favre, Nathalie Camelin, Antoine Laurent, Laurent Besacier. 3453-3457 [doi]

Contrastive Learning for Improving ASR Robustness in Spoken Language UnderstandingYa-Hsin Chang, Yun-Nung Chen. 3458-3462 [doi]

Learning Under Label Noise for Robust Spoken Language Understanding systemsAnoop Kumar, Pankaj Kumar Sharma, Aravind Illa, Sriram Venkatapathy, Subhrangshu Nandi, Pritam Varma, Anurag Dwarakanath, Aram Galstyan. 3463-3467 [doi]

Deliberation Model for On-Device Spoken Language UnderstandingDuc Le, Akshat Shrivastava, Paden D. Tomasello, Suyoun Kim, Aleksandr Livshits, Ozlem Kalinli, Michael L. Seltzer. 3468-3472 [doi]

Intent classification using pre-trained language agnostic embeddings for low resource languagesHemant Yadav, Akshat Gupta, Sai Krishna Rallabandi, Alan W. Black, Rajiv Ratn Shah. 3473-3477 [doi]

Two-Pass Low Latency End-to-End Spoken Language UnderstandingSiddhant Arora, Siddharth Dalmia, Xuankai Chang, Brian Yan, Alan W. Black, Shinji Watanabe 0001. 3478-3482 [doi]

Non-intrusive Speech Intelligibility Metric Prediction for Hearing Impaired IndividualsGeorge Close, Samuel Hollands, Stefan Goetze, Thomas Hain. 3483-3487 [doi]

Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired ListenersZehai Tu, Ning Ma 0002, Jon Barker. 3488-3492 [doi]

Unsupervised Uncertainty Measures of Automatic Speech Recognition for Non-intrusive Speech Intelligibility PredictionZehai Tu, Ning Ma 0002, Jon Barker. 3493-3497 [doi]

Speech Intelligibility Prediction for Hearing-Impaired Listeners with the LEAP ModelJana Roßbach, Rainer Huber, Saskia Röttges, Christopher F. Hauth, Thomas Biberger, Thomas Brand, Bernd T. Meyer, Jan Rennies. 3498-3502 [doi]

Predicting Speech Intelligibility using the Spike Acativity Mutual Information IndexFranklin Alvarez Cardinale, Waldo Nogueira. 3503-3507 [doi]

The 1st Clarity Prediction Challenge: A machine learning challenge for hearing aid intelligibility predictionJon Barker, Michael Akeroyd, Trevor J. Cox, John F. Culling, Jennifer Firth, Simone Graetzer, Holly Griffiths, Lara Harris, Graham Naylor, Zuzanna Podwinska, Eszter Porter, Rhoddy Viveros Muñoz. 3508-3512 [doi]

Voice Conversion Can Improve ASR in Very Low-Resource SettingsMatthew Baas, Herman Kamper. 3513-3517 [doi]

Data Augmentation for Low-Resource Quechua ASR ImprovementRodolfo Zevallos, Núria Bel, Guillermo Cámbara, Mireia Farrús, Jordi Luque. 3518-3522 [doi]

ScoutWav: Two-Step Fine-Tuning on Self-Supervised Automatic Speech Recognition for Low-Resource EnvironmentsKavan Fatehi, Mercedes Torres Torres, Ayse Küçükyilmaz. 3523-3527 [doi]

Semi-supervised Acoustic and Language Modeling for Hindi ASRTarun Sai Bandarupalli, Shakti Rath, Nirmesh Shah, Naoyuki Onoe, Sriram Ganapathy. 3528-3532 [doi]

Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and TranslationDan Berrebbi, Jiatong Shi, Brian Yan, Osbel López-Francisco, Jonathan D. Amith, Shinji Watanabe 0001. 3533-3537 [doi]

When Is TTS Augmentation Through a Pivot Language Useful?Nathaniel Romney Robinson, Perez Ogayo, Swetha R. Gangu, David R. Mortensen, Shinji Watanabe 0001. 3538-3542 [doi]

Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0Aku Rouhe, Anja Virkkunen, Juho Leinonen 0002, Mikko Kurimo. 3543-3547 [doi]

Gram Vaani ASR Challenge on spontaneous telephone speech recordings in regional variations of HindiAnish Bhanushali, Grant Bridgman, Deekshitha G, Prasanta Kumar Ghosh, Pratik Kumar, Saurabh Kumar, Adithya Raj Kolladath, Nithya Ravi, Aaditeshwar Seth, Ashish Seth, Abhayjeet Singh, Vrunda N. Sukhadia, S. Umesh, Sathvik Udupa, Lodagala V. S. V. Durga Prasad. 3548-3552 [doi]

Audio Similarity is Unreliable as a Proxy for Audio QualityPranay Manocha, Zeyu Jin, Adam Finkelstein. 3553-3557 [doi]

Overlapped Frequency-Distributed Network: Frequency-Aware Voice Spoofing CountermeasureSunmook Choi, Il-Youp Kwak, Seungsang Oh. 3558-3562 [doi]

Formant Estimation and Tracking using Probabilistic Heat-MapsYosi Shrem, Felix Kreuk, Joseph Keshet. 3563-3567 [doi]

Anti-Spoofing Using Transfer Learning with Variational Information BottleneckYoungsik Eom, Yeonghyeon Lee, Ji Sub Um, Hoi-Rin Kim. 3568-3572 [doi]

Robust Pitch Estimation Using Multi-Branch CNN-LSTM and 1-Norm LP ResidualMudit D. Batra, M. K. Jayesh, C. S. Ramalingam. 3573-3577 [doi]

DeepFry: Identifying Vocal Fry Using Deep Neural NetworksBronya Roni Chernyak, Talia Ben Simon, Yael Segal, Jeremy Steffman, Eleanor Chodroff, Jennifer Cole 0001, Joseph Keshet. 3578-3582 [doi]

Phonetic Analysis of Self-supervised Representations of English SpeechDan Wells, Hao Tang, Korin Richmond. 3583-3587 [doi]

FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech Self-Supervised ModelsYeonghyeon Lee, Kangwook Jang, Jahyun Goo, Youngmoon Jung, Hoi-Rin Kim. 3588-3592 [doi]

On Combining Global and Localized Self-Supervised Models of SpeechSri Harsha Dumpala, Chandramouli Shama Sastry, Rudolf Uher, Sageev Oore. 3593-3597 [doi]

Self-supervised Representation Fusion for Speech and Wearable Based Emotion RecognitionVipula Dissanayake, Sachith Seneviratne, Hussel Suriyaarachchi, Elliott Wen, Suranga Nanayakkara. 3598-3602 [doi]

Towards Disentangled Speech RepresentationsCal Peyser, W. Ronny Huang, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, KyungHyun Cho. 3603-3607 [doi]

Automatic Assessment of Speech Intelligibility using Consonant Similarity for Head and Neck CancerSebastião Quintas, Julie Mauclair, Virginie Woisard, Julien Pinquier. 3608-3612 [doi]

Compensation in Verbal and Nonverbal Communication after Total LaryngectomyMarise Neijman, Femke Hof, Noelle Oosterom, Roland Pfau, Bertus van Rooy, Rob J. J. H. van Son, Michiel M. W. van den Brekel. 3613-3617 [doi]

wav2vec2-based Speech Rating System for Children with Speech Sound DisorderYaroslav Getman, Ragheb Al-Ghezi, Katja Voskoboinik, Tamás Grósz, Mikko Kurimo, Giampiero Salvi, Torbjørn Svendsen, Sofia Strömbergsson. 3618-3622 [doi]

Distinguishing between pre- and post-treatment in the speech of patients with chronic obstructive pulmonary diseaseAndreas Triantafyllopoulos, Markus Fendler, Anton Batliner, Maurice Gerczuk, Shahin Amiriparian, Thomas M. Berghaus, Björn W. Schuller. 3623-3627 [doi]

A Study on the Phonetic Inventory Development of Children with Cochlear Implants for 5 Years after ImplantationSeonwoo Lee, SunHee Kim, Minhwa Chung. 3628-3632 [doi]

Evaluation of different antenna types and positions in a stepped frequency continuous-wave radar-based silent speech interfaceJoão Vítor Menezes, Pouriya Amini Digehsara, Christoph Wagner, Marco Mütze, Michael Bärhold, Petr Schaffer, Dirk Plettemeier, Peter Birkholz. 3633-3637 [doi]

Validation of the Neuro-Concept Detector framework for the characterization of speech disorders: A comparative study including Dysarthria and DysphoniaSondes Abderrazek, Corinne Fredouille, Alain Ghio, Muriel Lalain, Christine Meunier, Virginie Woisard. 3638-3642 [doi]

Nonwords Pronunciation Classification in Language Development Tests for Preschool ChildrenIlja Baumann, Dominik Wagner, Sebastian P. Bayerl, Tobias Bocklet. 3643-3647 [doi]

PERCEPT-R: An Open-Access American English Child/Clinical Speech Corpus Specialized for the Audio Classification of /ɹ/Nina Benway, Jonathan L. Preston, Elaine Hitchcock, Asif Salekin, Harshit Sharma, Tara McAllister Byun. 3648-3652 [doi]

Data Augmentation for End-to-end Silent Speech Recognition for LaryngectomeesBeiming Cao, Kristin Teplansky, Nordine Sebkhi, Arpan Bhavsar, Omer T. Inan, Robin Samlan, Ted Mau, Jun Wang 0037. 3653-3657 [doi]

Statistical and clinical utility of multimodal dialogue-based speech and facial metrics for Parkinson's disease assessmentHardik Kothare, Michael Neumann, Jackson Liscombe, Oliver Roesler, William Burke, Andrew Exner, Sandy Snyder, Andrew Cornish, Doug Habberstad, David Pautler, David Suendermann-Oeft, Jessica Huber, Vikram Ramanarayanan. 3658-3662 [doi]

Evaluation of call centre conversations based on a high-level symbolic representationLeticia Arco, Carlos Mosquera, Fabjola Braho, Yisel Clavel Quintero, Johan Loeckx. 3663-3664 [doi]

Evoc-Learn - High quality simulation of early vocal learningYi Xu, Anqi Xu, Daniel R. van Niekerk, Branislav Gerazov, Peter Birkholz, Paul Konstantin Krug, Santitham Prom-on, Lorna F. Halliday. 3665-3666 [doi]

Watch Me Speak: 2D Visualization of Human Mouth during SpeechC. Siddarth, Sathvik Udupa, Prasanta Kumar Ghosh. 3667-3668 [doi]

Classification of Accented English Using CNN Model Trained on Amplitude Mel-SpectrogramsMariia Lesnichaia, Veranika Mikhailava, Natalia Bogach, Yurii Lezhenin, John Blake 0002, Evgeny Pyshkin. 3669-3673 [doi]

MIM-DG: Mutual information minimization-based domain generalization for speaker verificationWoo Hyun Kang, Md. Jahangir Alam, Abderrahim Fathan. 3674-3678 [doi]

Multi-Channel Far-Field Speaker Verification with Large-Scale Ad-hoc Microphone ArraysChengdong Liang, Yijiang Chen, Jiadi Yao, Xiao-lei Zhang. 3679-3683 [doi]

Ant Multilingual Recognition System for OLR 2021 ChallengeAnqi Lyu, Zhiming Wang, Huijia Zhu. 3684-3688 [doi]

Class-Aware Distribution Alignment based Unsupervised Domain Adaptation for Speaker VerificationHang-Rui Hu, Yan Song 0001, Li-Rong Dai 0001, Ian McLoughlin 0001, Lin Liu. 3689-3693 [doi]

EDITnet: A Lightweight Network for Unsupervised Domain Adaptation in Speaker VerificationJingyu Li, Wei Liu, Tan Lee. 3694-3698 [doi]

Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?Sanyuan Chen, Yu Wu 0012, Chengyi Wang 0002, Shujie Liu 0001, Zhuo Chen 0006, Peidong Wang, Gang Liu, Jinyu Li 0001, Jian Wu 0027, Xiangzhan Yu, Furu Wei. 3699-3703 [doi]

Audio Visual Multi-Speaker Tracking with Improved GCF and PMBM FilterJinzheng Zhao, Peipei Wu, Xubo Liu, Shidrokh Goudarzi, Haohe Liu, Yong Xu, Wenwu Wang. 3704-3708 [doi]

The HCCL System for the NIST SRE21Zhuo Li, Runqiu Xiao, Hangting Chen, Zhenduo Zhao, Zihan Zhang, Wenchao Wang. 3709-3713 [doi]

UNet-DenseNet for Robust Far-Field Speaker VerificationZhenke Gao, Man-Wai Mak, Weiwei Lin. 3714-3718 [doi]

Linguistic-Acoustic Similarity Based Accent Shift for Accent RecognitionQijie Shao, Jinghao Yan, Jian Kang 0006, Pengcheng Guo, Xian Shi, Pengfei Hu, Lei Xie 0001. 3719-3723 [doi]

Transducer-based language embedding for spoken language identificationPeng Shen, Xugang Lu, Hisashi Kawai. 3724-3728 [doi]

Oriental Language Recognition (OLR) 2021: Summary and AnalysisBinling Wang, Feng Wang, Wenxuan Hu, Qiulin Wang, Jing Li, Dong Wang, Lin Li, Qingyang Hong. 3729-3733 [doi]

Mixup regularization strategies for spoofing countermeasure systemWoo Hyun Kang, Md. Jahangir Alam, Abderrahim Fathan. 3734-3738 [doi]

Low-resource Low-footprint Wake-word Detection using Knowledge DistillationArindam Ghosh, Mark C. Fuhs, Deblin Bagchi, Bahman Farahani, Monika Woszczyna. 3739-3743 [doi]

Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech RecognitionShaojin Ding, Rajeev Rikhye, Qiao Liang, Yanzhang He, Quan Wang, Arun Narayanan, Tom O'Malley, Ian McGraw. 3744-3748 [doi]

Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fireZhiyun Fan, Zhenlin Liang, Linhao Dong, Yi Liu, Shiyu Zhou, Meng Cai, Jun Zhang, Zejun Ma, Bo Xu. 3749-3753 [doi]

NAS-VAD: Neural Architecture Search for Voice Activity DetectionDaniel Rho, Jinhyeok Park, Jong Hwan Ko. 3754-3758 [doi]

Adversarial Multi-Task Deep Learning for Noise-Robust Voice Activity Detection with Low Algorithmic DelayClaus M. Larsen, Peter Koch 0001, Zheng-Hua Tan. 3759-3763 [doi]

Rainbow Keywords: Efficient Incremental Learning for Online Spoken Keyword SpottingYang Xiao, Nana Hou, Eng Siong Chng. 3764-3768 [doi]

Filler Word Detection and Classification: A Dataset and BenchmarkGe Zhu, Juan Pablo Cáceres, Justin Salamon. 3769-3773 [doi]

Streaming Multi-Talker ASR with Token-Level Serialized Output TrainingNaoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li 0001, Takuya Yoshioka. 3774-3778 [doi]

pMCT: Patched Multi-Condition Training for Robust Speech RecognitionPablo Peso Parada, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay. 3779-3783 [doi]

Improving ASR Robustness in Noisy Condition Through VAD IntegrationSashi Novitasari, Takashi Fukuda, Gakuto Kurata. 3784-3788 [doi]

Empirical Sampling from Latent Utterance-wise Evidence Model for Missing Data ASR based on Neural Encoder-Decoder ModelRyu Takeda, Yui Sudo, Kazuhiro Nakadai, Kazunori Komatani. 3789-3793 [doi]

Coarse-Grained Attention Fusion With Joint Training Framework for Complex Speech Enhancement and End-to-End Speech RecognitionXuyi Zhuang, Lu Zhang, Zehua Zhang, Yukun Qian, Mingjiang Wang. 3794-3798 [doi]

DENT-DDSP: Data-efficient noisy speech generator using differentiable digital signal processors for explicit distortion modelling and noise-robust speech recognitionZixun Guo, Chen Chen, Eng Siong Chng. 3799-3803 [doi]

Improving Transformer-based Conversational ASR by Inter-Sentential Attention MechanismKun Wei, Pengcheng Guo, Ning Jiang. 3804-3808 [doi]

Federated Self-supervised Speech Representations: Are We There Yet?Yan Gao, Javier Fernández-Marqués, Titouan Parcollet, Abhinav Mehrotra, Nicholas D. Lane. 3809-3813 [doi]

Leveraging Real Conversational Data for Multi-Channel Continuous Speech SeparationXiaofei Wang, Dongmei Wang, Naoyuki Kanda, Sefik Emre Eskimez, Takuya Yoshioka. 3814-3818 [doi]

End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning RepresentationXuankai Chang, Takashi Maekaku, Yuya Fujita, Shinji Watanabe. 3819-3823 [doi]

Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech RecognitionYoshiaki Bando, Takahiro Aizawa, Katsutoshi Itoyama, Kazuhiro Nakadai. 3824-3828 [doi]

A universally-deployable ASR frontend for joint acoustic echo cancellation, speech enhancement, and voice separationThomas R. O'Malley, Arun Narayanan, Quan Wang. 3829-3833 [doi]

Speaker conditioned acoustic modeling for multi-speaker conversational ASRSrikanth Raj Chetupalli, Sriram Ganapathy. 3834-3838 [doi]

Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task LearningNilaksh Das, Polo Chau. 3839-3843 [doi]

Tandem Multitask Training of Speaker Diarisation and Speech Recognition for Meeting TranscriptionXianrui Zheng, Chao Zhang, Philip C. Woodland. 3844-3848 [doi]

Investigating the Impact of Crosslingual Acoustic-Phonetic Similarities on Multilingual Speech RecognitionMuhammad Umar Farooq, Thomas Hain. 3849-3853 [doi]

An Improved Deliberation Network with Text Pre-training for Code-Switching Automatic Speech RecognitionZhijie Shen, Wu Guo. 3854-3858 [doi]

CyclicAugment: Speech Data Random Augmentation with Cosine Annealing Scheduler for Auotmatic Speech RecognitionZhihan Wang, Feng Hou, Yuanhang Qiu, Zhizhong Ma, Satwinder Singh, Ruili Wang. 3859-3863 [doi]

Prompt-based Re-ranking Language Model for ASRMengxi Nie, Ming Yan, Caixia Gong. 3864-3868 [doi]

Avoid Overfitting User Specific Information in Federated Keyword SpottingXin-Chun Li, Jin-Lin Tang, Shaoming Song, Bingshuai Li, Yinchuan Li, Yunfeng Shao, Le Gan, De-Chuan Zhan. 3869-3873 [doi]

ASR Error Correction with Constrained Decoding on Operation PredictionJingyuan Yang, Rongjun Li, Wei Peng. 3874-3878 [doi]

Adaptive multilingual speech recognition with pretrained modelsNgoc-Quan Pham, Alexander Waibel, Jan Niehues. 3879-3883 [doi]

Vietnamese Capitalization and Punctuation Recovery ModelsHoang Thi Thu Uyen, Nguyen Anh Tu, Ta Duc Huy. 3884-3888 [doi]

Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LMHayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 3889-3893 [doi]

reducing multilingual context confusion for end-to-end code-switching automatic speech recognitionShuai Zhang 0014, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Yu Ting Yeung, Liqun Deng. 3894-3898 [doi]

Residual Language Model for End-to-end Speech RecognitionEmiru Tsunoo, Yosuke Kashiwagi, Chaitanya Prasad Narisetty, Shinji Watanabe 0001. 3899-3903 [doi]

An Empirical Study of Language Model Integration for Transducer based Speech RecognitionHuahuan Zheng, Keyu An, Zhijian Ou, Chen Huang, Ke Ding, Guanglu Wan. 3904-3908 [doi]

Self-Normalized Importance Sampling for Neural Language ModelingZijian Yang, Yingbo Gao, Alexander Gerstenberger, Jintao Jiang, Ralf Schlüter, Hermann Ney. 3909-3913 [doi]

Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction ModelJennifer Drexler Fox, Natalie Delworth. 3914-3918 [doi]

Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR SystemsTakuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Nobuyasu Itoh, George Saon. 3919-3923 [doi]

Language-specific Characteristic Assistance for Code-switching Speech RecognitionTongtong Song, Qiang Xu, Meng Ge, Longbiao Wang, Hao Shi, Yongjie Lv, Yuqin Lin, Jianwu Dang. 3924-3928 [doi]

Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI)Toshio Irino, Honoka Tamaru, Ayako Yamamoto. 3929-3933 [doi]

ELO-SPHERES intelligibility prediction model for the Clarity Prediction Challenge 2022Mark A. Huckvale, Gaston Hilkhuysen. 3934-3938 [doi]

Listening with Googlears: Low-Latency Neural Multiframe Beamforming and Equalization for Hearing AidsSamuel Yang, Scott Wisdom, Chet Gnegy, Richard F. Lyon, Sagar Savla. 3939-3943 [doi]

MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility Prediction Model for Hearing AidsRyandhimas Edo Zezario, Fei Chen 0011, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao. 3944-3948 [doi]

A Deep Learning Platform for Language Education Research and DevelopmentKye Min Tan, Richeng Duan, Xin Huang, Bowei Zou, Xuan Long Do. 3949-3950 [doi]

A VR Interactive 3D Mandarin Pronunciation Teaching ModelYujia Jin, Yanlu Xie, Jinsong Zhang 0001. 3951-3952 [doi]

Squashed Weight Distribution for Low Bit Quantization of Deep ModelsNikko Strom, Haidar Khan, Wael Hamza. 3953-3957 [doi]

Evaluating the Performance of State-of-the-Art ASR Systems on Non-Native English using Corpora with Extensive Language Background VariationSamuel Hollands, Daniel Blackburn, Heidi Christensen. 3958-3962 [doi]

Seq-2-Seq based Refinement of ASR Output for Spoken Name CaptureKaran Singla, Shahab Jalalvand, Yeon-Jun Kim, Ryan Price, Daniel Pressel, Srinivas Bangalore. 3963-3967 [doi]

Qualitative Evaluation of Language Model Rescoring in Automatic Speech RecognitionThibault Bañeras Roux, Mickael Rouvier, Jane Wottawa, Richard Dufour. 3968-3972 [doi]

Toward Zero Oracle Word Error Rate on the Switchboard BenchmarkArlo Faria, Adam Janin, Sidhi Adkoli, Korbinian Riedhammer. 3973-3977 [doi]

Evaluating User Perception of Speech Recognition System Quality with Semantic Distance MetricSuyoun Kim, Duc Le, Weiyi Zheng, Tarun Singh, Abhinav Arora, Xiaoyu Zhai, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer. 3978-3982 [doi]

Predicting Emotional Intensity in Political Debates via Non-verbal SignalsJeewoo Yoon, Jinyoung Han, Erik P. Bucy, Jungseock Joo. 3983-3987 [doi]

Confusion Detection for Adaptive Conversational Strategies of An Oral Proficiency Assessment Interview AgentMao Saeki, Kotoka Miyagi, Shinya Fujie, Shungo Suzuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoichi Matsuyama. 3988-3992 [doi]

Deep Learning for Prosody-Based Irony Classification in Spontaneous SpeechHelen Gent, Chase Adams, Yan Tang, Chilin Shih. 3993-3997 [doi]

Span Classification with Structured Information for Disfluency Detection in Spoken UtterancesSreyan Ghosh, Sonal Kumar, Yaman Kumar, Rajiv Ratn Shah, Srinivasan Umesh. 3998-4002 [doi]

Example-based Explanations with Adversarial Attacks for Respiratory Sound AnalysisYi Chang, Zhao Ren, Thanh-Tam Nguyen, Wolfgang Nejdl, Björn W. Schuller. 4003-4007 [doi]

Which Model is Best: Comparing Methods and Metrics for Automatic Laughter Detection in a Naturalistic Conversational DatasetGordon Rennie, Olga Perepelkina, Alessandro Vinciarelli. 4008-4012 [doi]

Self-supervised Speaker DiarizationYehoshua Dissen, Felix Kreuk, Joseph Keshet. 4013-4017 [doi]

Label-Efficient Self-Supervised Speaker Verification With Information Maximization and Contrastive LearningThéo Lepage, Réda Dehak. 4018-4022 [doi]

Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake DetectionPiotr Kawa, Marcin Plata, Piotr Syga. 4023-4027 [doi]

Non-contrastive self-supervised learning of utterance-level speech representationsJaejin Cho, Raghavendra Pappagari, Piotr Zelasko, Laureano Moro-Velázquez, Jesús Villalba, Najim Dehak. 4028-4032 [doi]

Barlow Twins self-supervised learning for robust speaker recognitionMohammad MohammadAmini, Driss Matrouf, Jean-François Bonastre, Sandipana Dowerah, Romain Serizel, Denis Jouvet. 4033-4037 [doi]

Relating the fundamental frequency of speech with EEG using a dilated convolutional networkCorentin Puffay, Jana Van Canneyt, Jonas Vanthornhout, Hugo Van Hamme, Tom Francart. 4038-4042 [doi]

Prediction of L2 speech proficiency based on multi-level linguistic featuresVerdiana De Fino, Lionel Fontan, Julien Pinquier, Isabelle Ferrané, Sylvain Detey. 4043-4047 [doi]

The effect of increasing acoustic and linguistic complexity on auditory processing: an EEG studyFareeha S. Rana, Daniel Pape, Elisabet Service. 4048-4052 [doi]

Recording and timing vocal responses in online experimentationKatrina Kechun Li, Julia Schwarz, Jasper Hong Sim, Yixin Zhang, Elizabeth Buchanan-Worster, Brechtje Post, Kirsty McDougall. 4053-4057 [doi]

Neural correlates of acoustic and semantic cues during speech segmentation in FrenchMaria del Mar Cordero, Ambre Denis-Noël, Elsa Spinelli, Fanny Meunier. 4058-4062 [doi]

Evidence of Onset and Sustained Neural Responses to Isolated Phonemes from Intracranial Recordings in a Voice-based Cursor Control TaskKevin Meng, Seo-Hyun Lee, Farhad Goodarzy, Simon J. Vogrin, Mark J. Cook, Seong-Whan Lee, David B. Grayden. 4063-4067 [doi]

End-to-end model for named entity recognition from speech without paired training dataSalima Mdhaffar, Jarod Duret, Titouan Parcollet, Yannick Estève. 4068-4072 [doi]

Multitask Learning for Low Resource Spoken Language UnderstandingQuentin Meeus, Marie-Francine Moens, Hugo Van Hamme. 4073-4077 [doi]

Transformer Networks for Non-Intrusive Speech Quality PredictionM. K. Jayesh, Mukesh Sharma, Praneeth Vonteddu, Mahaboob Ali Basha Shaik, Sriram Ganapathy. 4078-4082 [doi]

Pre-trained Speech Representations as Feature Extractors for Speech Quality Assessment in Online Conferencing ApplicationsBastiaan Tamm, Helena Balabin, Rik Vandenberghe, Hugo Van Hamme. 4083-4087 [doi]

Exploring the influence of fine-tuning data on wav2vec 2.0 model for blind speech quality predictionHelard Becerra Martinez, Alessandro Ragano, Andrew Hines. 4088-4092 [doi]

MAESTRO: Matched Speech Text Representations through Modality MatchingZhehuai Chen, Yu Zhang, Andrew Rosenberg, Bhuvana Ramabhadran, Pedro J. Moreno, Ankur Bapna, Heiga Zen. 4093-4097 [doi]

FiLM Conditioning with Enhanced Feature to the Transformer-based End-to-End Noisy Speech RecognitionDa-Hee Yang, Joon-Hyuk Chang. 4098-4102 [doi]

SepTr: Separable Transformer for Audio Spectrogram ProcessingNicolaea-Catalin Ristea, Radu-Tudor Ionescu, Fahad Shahbaz Khan. 4103-4107 [doi]

End-to-End Spontaneous Speech Recognition Using Disfluency LabelingKoharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka. 4108-4112 [doi]

Recent improvements of ASR models in the face of adversarial attacksRaphael Olivier, Bhiksha Raj. 4113-4117 [doi]

Similarity and Content-based Phonetic Self Attention for Speech RecognitionKyuhong Shim, Wonyong Sung. 4118-4122 [doi]

Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention LayersJuntae Kim, Jeehye Lee. 4123-4127 [doi]

Knowledge distillation for In-memory keyword spotting modelZeyang Song, Qi Liu, Qu Yang, Haizhou Li 0001. 4128-4132 [doi]

Automatic Learning of Subword Dependent Model ScalesFelix Meyer, Wilfried Michel, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney. 4133-4136 [doi]

Bayesian Recurrent Units and the Forward-Backward AlgorithmAlexandre Bittar, Philip N. Garner. 4137-4141 [doi]

On Metric Learning for Audio-Text Cross-Modal RetrievalXinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley, Wenwu Wang. 4142-4146 [doi]

CT-SAT: Contextual Transformer for Sequential Audio TaggingYuanbo Hou, Zhaoyi Liu, Bo Kang, Yun Wang, Dick Botteldooren. 4147-4151 [doi]

ADFF: Attention Based Deep Feature Fusion Approach for Music Emotion RecognitionZi Huang, Shulei Ji, Zhilan Hu, Chuangjian Cai, Jing Luo 0007, Xinyu Yang. 4152-4156 [doi]

Audio-Visual Scene Classification Based on Multi-modal Graph FusionHan Lei, Ning Chen. 4157-4161 [doi]

MusicNet: Compact Convolutional Neural Network for Real-time Background Music DetectionChandan K. A. Reddy, Vishak Gopal, Harishchandra Dubey, Ross Cutler, Sergiy Matusevych, Robert Aichner. 4162-4166 [doi]

iCNN-Transformer: An improved CNN-Transformer with Channel-spatial Attention and Keyword Prediction for Automated Audio CaptioningKun Chen, Jun Wang 0077, Feng Deng, Xiaorui Wang. 4167-4171 [doi]

ATST: Audio Representation Learning with Teacher-Student TransformerXian Li, Xiaofei Li. 4172-4176 [doi]

Deep Segment Model for Acoustic Scene ClassificationYajian Wang, Jun Du, Hang Chen, Qing Wang, Chin-Hui Lee. 4177-4181 [doi]

Novel Augmentation Schemes for Device Robust Acoustic Scene ClassificationSukanya Sonowal, Anish Tamse. 4182-4186 [doi]

WideResNet with Joint Representation Learning and Data Augmentation for Cover Song IdentificationShichao Hu, Bin Zhang, JinHong Lu, Yiliang Jiang, Wucheng Wang, Lingcheng Kong, Weifeng Zhao, Tao Jiang. 4187-4191 [doi]

Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning FrameworkRahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros Matsoukas. 4192-4196 [doi]

Introducing Auxiliary Text Query-modifier to Content-based Audio RetrievalDaiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino. 4197-4201 [doi]

Speaker recognition-assisted robust audio deepfake detectionJiahui Pan, Shuai Nie, Hui Zhang 0031, Shulin He, Kanghao Zhang, Shan Liang, Xueliang Zhang 0001, Jianhua Tao. 4202-4206 [doi]

Preventing sensitive-word recognition using self-supervised learning to preserve user-privacy for automatic speech recognitionYuchen Liu, Apu Kapadia, Donald S. Williamson. 4207-4211 [doi]

NESC: Robust Neural End-2-End Speech Coding with GANsNicola Pia, Kishan Gupta, Srikanth Korse, Markus Multrus, Guillaume Fuchs. 4212-4216 [doi]

Towards Error-Resilient Neural Speech CodingHuaying Xue, Xiulian Peng, Xue Jiang, Yan Lu. 4217-4221 [doi]

Cross-Scale Vector Quantization for Scalable Neural Speech CodingXue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu. 4222-4226 [doi]

Neural Vocoder is All You Need for Speech Super-resolutionHaohe Liu, Woosung Choi, Xubo Liu, Qiuqiang Kong, Qiao Tian, DeLiang Wang. 4227-4231 [doi]

VoiceFixer: A Unified Framework for High-Fidelity Speech RestorationHaohe Liu, Xubo Liu, Qiuqiang Kong, Qiao Tian, Yan Zhao, DeLiang Wang, Chuanzeng Huang, Yuxuan Wang. 4232-4236 [doi]

Generating gender-ambiguous voices for privacy-preserving speech recognitionDimitrios Stoidis, Andrea Cavallaro. 4237-4241 [doi]

Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice SynthesisYu Wang, Xinsheng Wang, Pengcheng Zhu, Jie Wu, Hanzhao Li, Heyang Xue, Yongmao Zhang, Lei Xie, Mengxiao Bi. 4242-4246 [doi]

Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-SpeechHaoyue Zhan, Xinyuan Yu, Haitong Zhang, Yang Zhang, Yue Lin. 4247-4251 [doi]

WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary LossesZewang Zhang, Yibin Zheng, Xinhui Li, Li Lu. 4252-4256 [doi]

Decoupled Pronunciation and Prosody Modeling in Meta-Learning-based Multilingual Speech SynthesisYukun Peng, Zhenhua Ling. 4257-4261 [doi]

KaraTuner: Towards End-to-End Natural Pitch Correction for Singing Voice in KaraokeXiaobin Zhuang, Huiran Yu, Weifeng Zhao, Tao Jiang, Peng Hu. 4262-4266 [doi]

Learn2Sing 2.0: Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing TeacherHeyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao Bi. 4267-4271 [doi]

SingAug: Data Augmentation for Singing Voice Synthesis with Cycle-consistent Training StrategyShuai Guo, Jiatong Shi, Tao Qian, Shinji Watanabe 0001, Qin Jin. 4272-4276 [doi]

Muskits: an End-to-end Music Processing Toolkit for Singing Voice SynthesisJiatong Shi, Shuai Guo, Tao Qian, Tomoki Hayashi, Yuning Wu, Fangzheng Xu, Xuankai Chang, Huazhe Li, Peter Wu, Shinji Watanabe 0001, Qin Jin. 4277-4281 [doi]

Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic RepresentationsChang Liu, Zhen-Hua Ling, Ling-Hui Chen. 4282-4286 [doi]

Towards high-fidelity singing voice conversion with acoustic reference and contrastive predictive codingChao Wang, Zhonghao Li, Benlai Tang, Xiang Yin 0006, Yuan Wan, Yibiao Yu, Zejun Ma. 4287-4291 [doi]

Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic InformationShaohuan Zhou, Shun Lei, Weiya You, Deyi Tuo, Yuren You, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 4292-4296 [doi]

Normalization of code-switched text for speech synthesisSreeram Manghat, Sreeja Manghat, Tanja Schultz. 4297-4301 [doi]

Synthesizing Near Native-accented Speech for a Non-native Speaker by Imitating the Pronunciation and Prosody of a Native SpeakerRaymond Chung, Brian Mak. 4302-4306 [doi]

A Hierarchical Speaker Representation Framework for One-shot Singing Voice ConversionXu Li, Shansong Liu, Ying Shan. 4307-4311 [doi]

Self-Supervised Learning with Multi-Target Contrastive Coding for Non-Native Acoustic Modeling of Mispronunciation VerificationLongfei Yang, Jinsong Zhang 0001, Takahiro Shinozaki. 4312-4316 [doi]

L2-GEN: A Neural Phoneme Paraphrasing Approach to L2 Speech Synthesis for Mispronunciation DiagnosisDaniel Zhang, Ashwinkumar Ganesan, Sarah Campbell, Daniel Korzekwa. 4317-4321 [doi]

Challenges remain in Building ASR for Spontaneous Preschool Children Speech in Naturalistic Educational EnvironmentsSatwik Dutta, Sarah Anne Tao, Jacob C. Reyna, Rebecca Elizabeth Hacker, Dwight W. Irvin, Jay F. Buzhardt, John H. L. Hansen. 4322-4326 [doi]

End-to-end Mispronunciation Detection with Simulated Error DistanceZhan Zhang, Yuehai Wang, Jianyi Yang. 4327-4331 [doi]

BiCAPT: Bidirectional Computer-Assisted Pronunciation Training with Normalizing FlowsZhan Zhang, Yuehai Wang, Jianyi Yang. 4332-4336 [doi]

Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency ScoringKaiqi Fu, Shaojun Gao, Xiaohai Tian, Wei Li 0012, Zejun Ma. 4337-4341 [doi]

An Alignment Method Leveraging Articulatory Features for Mispronunciation Detection and Diagnosis in L2 EnglishQi Chen, Binghuai Lin, Yanlu Xie. 4342-4346 [doi]

RefTextLAS: Reference Text Biased Listen, Attend, and Spell Model For Accurate Reading EvaluationPhani Sankar Nidadavolu, Na Xu, Nick Jutila, Ravi Teja Gadde, Aswarth Abhilash Dara, Joseph Savold, Sapan Patel, Aaron Hoff, Veerdhawal Pande, Kevin Crews, Ankur Gandhe, Ariya Rastrow, Roland Maas. 4347-4351 [doi]

CoCA-MDD: A Coupled Cross-Attention based Framework for Streaming Mispronunciation Detection and DiagnosisNianzu Zheng, Liqun Deng, Wenyong Huang, Yu Ting Yeung, Baohua Xu, Yuanyuan Guo, Yasheng Wang, Xiao Chen, Xin Jiang 0002, Qun Liu 0001. 4352-4356 [doi]

Spoofing-Aware Speaker Verification by Multi-Level FusionHaibin Wu, Lingwei Meng, Jiawen Kang, Jinchao Li, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng. 4357-4361 [doi]

End-to-end framework for spoof-aware speaker verificationWoo Hyun Kang, Md. Jahangir Alam, Abderrahim Fathan. 4362-4366 [doi]

The CLIPS System for 2022 Spoofing-Aware Speaker Verification ChallengeJucai Lin, Tingwei Chen, Jingbiao Huang, Ruidong Fang, Jun Yin, Yuanping Yin, Wei Shi, Weizhen Huang, Yapeng Mao. 4367-4370 [doi]

Norm-constrained Score-level Ensemble for Spoofing Aware Speaker VerificationPeng Zhang, Peng Hu, Xueliang Zhang. 4371-4375 [doi]

SASV Based on Pre-trained ASV System and Integrated Scoring ModuleYuxiang Zhang, Zhuo Li, Wenchao Wang, Pengyuan Zhang. 4376-4380 [doi]

Backend Ensemble for Speaker Verification and Spoofing CountermeasureLi Zhang, Yue Li, Huan Zhao, Qing Wang, Lei Xie. 4381-4385 [doi]

NRI-FGSM: An Efficient Transferable Adversarial Attack for Speaker Recognition SystemsHao Tan, Junjian Zhang, Huan Zhang, Le Wang, Yaguan Qian, Zhaoquan Gu. 4386-4390 [doi]

SA-SASV: An End-to-End Spoof-Aggregated Spoofing-Aware Speaker Verification SystemZhongwei Teng, Quchen Fu, Jules White, Maria E. Powell, Douglas C. Schmidt. 4391-4395 [doi]

The DKU-OPPO System for the 2022 Spoofing-Aware Speaker Verification ChallengeXingming Wang, Xiaoyi Qin, Yikang Wang, Yunfei Xu, Ming Li 0026. 4396-4400 [doi]

NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling RatesSeungu Han, Junhyeok Lee. 4401-4405 [doi]

SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel ModelingTakaaki Saeki, Shinnosuke Takamichi, Tomohiko Nakamura, Naoko Tanji, Hiroshi Saruwatari. 4406-4410 [doi]

Optimization of Deep Neural Network (DNN) Speech Coder Using a Multi Time Scale Perceptual Loss FunctionJoon Byun, Seungmin Shin, Jongmo Sung, Seungkwon Beack, Youngcheol Park. 4411-4415 [doi]

Phase Vocoder For Time Stretch Based On Center Frequency EstimationDonghyeon Kim, Bowon Lee. 4416-4420 [doi]

Ultra-Low-Bitrate Speech Coding with Pretrained TransformersAli Siahkoohi, Michael Chinen, Tom Denton, W. Bastiaan Kleijn, Jan Skoglund. 4421-4425 [doi]

Analyzing Language-Independent Speaker Anonymization Framework under Unseen ConditionsXiaoxiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia A. Tomashenko. 4426-4430 [doi]

ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech RecognitionMartin Radfar, Rohit Barnwal, Rupak Vignesh Swaminathan, Feng-Ju Chang, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris. 4431-4435 [doi]

Knowledge Distillation via Module Replacing for Automatic Speech Recognition with Recurrent Neural Network TransducerKaiqi Zhao 0002, Hieu Nguyen, Animesh Jain, Nathan Susanj, Athanasios Mouchtaris, Lokesh Gupta, Ming Zhao. 4436-4440 [doi]

Memory-Efficient Training of RNN-Transducer with Sampled SoftmaxJaesong Lee, Lukas Lee, Shinji Watanabe 0001. 4441-4445 [doi]

Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and Self-training of Neural TransducerCong-Thanh Do, Mohan Li, Rama Doddipatla. 4446-4450 [doi]

Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party SpeechIlya Sklyar, Anna Piunova, Christian Osendorfer. 4451-4455 [doi]

Variations of multi-task learning for spoken language assessmentJeremy Heng Meng Wong, Huayun Zhang, Nancy F. Chen. 4456-4460 [doi]

Detection of Learners' Listening Breakdown with Oral Dictation and Its Use to Model Listening Skill Improvement Exclusively Through ShadowingTakuya Kunihara, Chuanbo Zhu, Daisuke Saito, Nobuaki Minematsu, Noriko Nakanishi. 4461-4465 [doi]

Automatic Prosody Evaluation of L2 English Read Speech in Reference to Accent Dictionary with Transformer EncoderYu Suzuki, Tsuneo Kato, Akihiro Tamura. 4466-4470 [doi]

View-Specific Assessment of L2 Spoken EnglishStefano Bannò, Bhanu Balusu, Mark J. F. Gales, Kate Knill, Konstantinos Kyriakopoulos. 4471-4475 [doi]

The Effects of Implicit and Explicit Feedback in an ASR-based Reading Tutor for Dutch First-gradersYu Bai, Ferdy Hubers, Catia Cucchiarini, Roeland Van Hout, Helmer Strik. 4476-4480 [doi]

Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility AssessmentMu Yang, Kevin Hirschi, Stephen Daniel Looney, Okim Kang, John H. L. Hansen. 4481-4485 [doi]

Response Timing Estimation for Spoken Dialog System using Dialog Act EstimationJin Sakuma, Shinya Fujie, Tetsunori Kobayashi. 4486-4490 [doi]

Hesitations in Urdu/Hindi: Distribution and Properties of Fillers & SilencesFarhat Jabeen, Simon Betz. 4491-4495 [doi]

Interpretabilty of Speech Emotion Recognition modelled using Self-Supervised Speech and Text Pre-Trained EmbeddingsK. V. Vijay Girish, Srikanth Konjeti, Jithendra Vepa. 4496-4500 [doi]

Does Utterance entails Intent?: Evaluating Natural Language Inference Based Setup for Few-Shot Intent DetectionAyush Kumar, Vijit Malik, Jithendra Vepa. 4501-4505 [doi]

Investigating perception of spoken dialogue acceptability through surprisalSarenne Carrol Wallbridge, Catherine Lai, Peter Bell 0001. 4506-4510 [doi]

Low-Latency Online Streaming VideoQA Using Audio-Visual TransformersChiori Hori, Takaaki Hori, Jonathan Le Roux. 4511-4515 [doi]

The ZevoMOS entry to VoiceMOS Challenge 2022Adriana Stan. 4516-4520 [doi]

UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022Takaaki Saeki, Detai Xin, Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari. 4521-4525 [doi]

Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech AssessmentHuy Nguyen, Kai Li, Masashi Unoki. 4526-4530 [doi]

Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 DatasetMichael Chinen, Jan Skoglund, Chandan K. A. Reddy, Alessandro Ragano, Andrew Hines. 4531-4535 [doi]

The VoiceMOS Challenge 2022Wen-Chin Huang, Erica Cooper, Yu Tsao 0001, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi. 4536-4540 [doi]

DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training and Distribution of Opinion ScoresWei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee. 4541-4545 [doi]

Expressive, Variable, and Controllable Duration Modelling in TTSSyed Ammar Abbas, Thomas Merritt, Alexis Moinet, Sri Karlapati, Ewa Muszynska, Simon Slangen, Elia Gatti, Thomas Drugman. 4546-4550 [doi]

Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech SynthesisWataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Yuki Saito, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari. 4551-4555 [doi]

Adversarial and Sequential Training for Cross-lingual Prosody Transfer TTSMin Kyung Kim, Joon-Hyuk Chang. 4556-4560 [doi]

FluentTTS: Text-dependent Fine-grained Style Control for Multi-style TTSChangHwan Kim, Se-Yun Um, Hyungchan Yoon, Hong-Goo Kang. 4561-4565 [doi]

Few Shot Cross-Lingual TTS Using Transferable Phoneme EmbeddingWei-Ping Huang, Po-Chun Chen, Sung-Feng Huang, Hung-yi Lee. 4566-4570 [doi]

Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer TasksLev Finkelstein, Heiga Zen, Norman Casagrande, Chun-an Chan, Ye Jia, Tom Kenter, Alexey Petelin, Jonathan Shen, Vincent Wan, Yu Zhang, Yonghui Wu, Rob Clark. 4571-4575 [doi]

Spoken-Text-Style Transfer with Conditional Variational Autoencoder and Content Word StorageDaiki Yoshioka, Yusuke Yasuda, Noriyuki Matsunaga, Yamato Ohtani, Tomoki Toda. 4576-4580 [doi]

Analysis of expressivity transfer in non-autoregressive end-to-end multispeaker TTS systemsAjinkya Kulkarni, Vincent Colotte, Denis Jouvet. 4581-4585 [doi]

Cross-lingual Style Transfer with Conditional Prior VAE and Style LossDino Rattcliffe, You Wang, Alex Mansbridge, Penny Karanasou, Alexis Moinet, Marius Cotescu. 4586-4590 [doi]

Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech SynthesisJulian Zaïdi, Hugo Seuté, Benjamin van Niekerk, Marc-André Carbonneau. 4591-4595 [doi]

Language Model-Based Emotion Prediction Methods for Emotional Speech Synthesis SystemsHyun-Wook Yoon, Ohsung Kwon, Hoyeon Lee, Ryuichi Yamamoto, Eunwoo Song, Jae Min Kim, Min-Jae Hwang. 4596-4600 [doi]

Text aware Emotional Text-to-speech with BERTArijit Mukherjee, Shubham Bansal, Sandeepkumar Satpal, Rupesh K. Mehta. 4601-4605 [doi]

Overlapped Speech Detection in Broadcast Streams Using X-vectorsLukás Mateju, Frantisek Kynych, Petr Cerva, Jirí Málek, Jindrich Zdánský. 4606-4610 [doi]

DDKtor: Automatic Diadochokinetic Speech AnalysisYael Segal, Kasia Hitczenko, Matthew Goldrick, Adam Buchwald, Angela Roberts, Joseph Keshet. 4611-4615 [doi]

SiDi KWS: A Large-Scale Multilingual Dataset for Keyword SpottingMichel Cardoso Meneses, Rafael Bérgamo Holanda, Luis Vasconcelos Peres, Gabriela Dantas Rocha. 4616-4620 [doi]

Dummy Prototypical Networks for Few-Shot Open-Set Keyword SpottingByeonggeun Kim, Seunghan Yang, Inseop Chung, Simyung Chang. 4621-4625 [doi]

Unsupervised Voice Activity Detection by Modeling Source and System Information using Zero Frequency FilteringEklavya Sarkar, RaviShankar Prasad, Mathew Magimai-Doss. 4626-4630 [doi]

Multilingual and Multimodal Abuse DetectionRini A. Sharon, Heet Shah, Debdoot Mukherjee, Vikram Gupta. 4631-4635 [doi]

Microphone Array Channel Combination Algorithms for Overlapped Speech DetectionTheo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas. 4636-4640 [doi]

Streaming Automatic Speech Recognition with Re-blocking Processing Based on Integrated Voice Activity DetectionYui Sudo, Muhammad Shakeel 0001, Kazuhiro Nakadai, Jiatong Shi, Shinji Watanabe 0001. 4641-4645 [doi]

Unsupervised Word Segmentation using K Nearest NeighborsTzeviya Fuchs, Yedid Hoshen, Yossi Keshet. 4646-4650 [doi]

Investigation on the Band Importance of Phase-aware Speech EnhancementZhuohuang Zhang, Donald S. Williamson, Yi Shen 0008. 4651-4655 [doi]

Unsupervised Acoustic-to-Articulatory Inversion with Variable Vocal Tract AnatomyYifan Sun, Qinlong Huang, Xihong Wu. 4656-4660 [doi]

Unsupervised Inference of Physiologically Meaningful Articulatory Trajectories with VocalTractLabYifan Sun, Qinlong Huang, Xihong Wu. 4661-4665 [doi]

Radio2Speech: High Quality Speech Recovery from Radio Frequency SignalsRunning Zhao, Jiangtao Yu, Tingle Li, Hang Zhao, Edith C. H. Ngai. 4666-4670 [doi]

Isochronous is beautiful? Syllabic event detection in a neuro-inspired oscillatory model is facilitated by isochrony in speechMamady Nabe, Julien Diard, Jean-Luc Schwartz. 4671-4675 [doi]

An investigation of regression-based prediction of the femininity or masculinity in speech of transgender peopleLeon Liebig, Christoph Wagner, Alexander Mainka, Peter Birkholz. 4676-4680 [doi]

Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech SignalsRahil Parikh, Nadee Seneviratne, Ganesh Sivaraman, Shihab Shamma, Carol Y. Espy-Wilson. 4681-4685 [doi]

Deep Neural Convolutive Matrix Factorization for Articulatory Representation DecompositionJiachen Lian, Alan W. Black, Louis Goldstein, Gopala Krishna Anumanchipalli. 4686-4690 [doi]

Vocal-Tract Area Functions with Articulatory Reality for Tract OpeningZhao Zhang, Ju Zhang 0001, Jianguo Wei, Kiyoshi Honda, Tatsuya Kitamura. 4691-4694 [doi]

Coupled Discriminant Subspace Alignment for Cross-database Speech Emotion RecognitionShaokai Li, Peng Song 0002, Keke Zhao, Wenjing Zhang, Wenming Zheng. 4695-4699 [doi]

Performance Improvement of Speech Emotion Recognition by Neutral Speech Detection Using Autoencoder and Intermediate RepresentationJennifer Santoso, Takeshi Yamada, Kenkichi Ishizuka, Taiichi Hashimoto, Shoji Makino. 4700-4704 [doi]

A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion RecognitionYing Hu, Yuwu Tang, Hao Huang, Liang He. 4705-4709 [doi]

Speech Emotion Recognition via Generation using an Attention-based Variational Recurrent Neural NetworkMurchana Baruah, Bonny Banerjee. 4710-4714 [doi]

Speech Emotion: Investigating Model Representations, Multi-Task Learning and Knowledge DistillationVikramjit Mitra, Hsiang-Yun Sherry Chien, Vasudha Kowtha, Joseph Yitan Cheng, Erdrin Azemi. 4715-4719 [doi]

Multiple Enhancements to LSTM for Learning Emotion-Salient Features in Speech Emotion RecognitionDesheng Hu, Xinhui Hu, Xinkang Xu. 4720-4724 [doi]

Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion RecognitionZihan Zhao, Yanfeng Wang, Yu Wang. 4725-4729 [doi]

CTA-RNN: Channel and Temporal-wise Attention RNN leveraging Pre-trained ASR Embeddings for Speech Emotion RecognitionChengxin Chen, Pengyuan Zhang. 4730-4734 [doi]

Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical FrameworkAlena Velichko, Maxim Markitantov, Heysem Kaya, Alexey Karpov 0001. 4735-4739 [doi]

Interactive Co-Learning with Cross-Modal Transformer for Audio-Visual Emotion RecognitionAkihiko Takashima, Ryo Masumura, Atsushi Ando, Yoshihiro Yamazaki, Mihiro Uchida, Shota Orihashi. 4740-4744 [doi]

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask LearningZuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao 0006. 4745-4749 [doi]

Discriminative Feature Representation Based on Cascaded Attention Network with Adversarial Joint Loss for Speech Emotion RecognitionYang Liu, Haoqin Sun, Wenbo Guan, Yuqi Xia, Zhen Zhao 0006. 4750-4754 [doi]

Intra-speaker phonetic variation in read speech: comparison with inter-speaker variability in a controlled populationNicolas Audibert, Cécile Fougeron. 4755-4759 [doi]

Training speaker recognition systems with limited dataNik Vaessen, David A. van Leeuwen. 4760-4764 [doi]

A Deep One-Class Learning Method for Replay Attack DetectionYijie Lou, Shiliang Pu, Jianfeng Zhou, Xin Qi, Qinbo Dong, Hongwei Zhou. 4765-4769 [doi]

A Universal Identity Backdoor Attack against Speaker Verification based on Siamese NetworkHaodong Zhao, Wei Du, Junjie Guo, Gongshen Liu. 4770-4774 [doi]

A Novel Phoneme-based Modeling for Text-independent Speaker IdentificationXin Wang, Chuan Xie, Qiang Wu, Huayi Zhan, Ying Wu. 4775-4779 [doi]

Self-Supervised Speaker Verification Using Dynamic Loss-Gate and Label CorrectionBing Han, Zhengyang Chen, Yanmin Qian. 4780-4784 [doi]

Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERTBowen Shi, Abdelrahman Mohamed, Wei-Ning Hsu. 4785-4789 [doi]

Acoustic Feature Shuffling Network for Text-independent Speaker VerificationJin Li, Xin Fang, Fan Chu, Tian Gao, Yan Song, Rong Li Dai. 4790-4794 [doi]

Multi-Path GMM-MobileNet Based on Attack Algorithms and Codecs for Synthetic Speech and Deepfake DetectionYan Wen, Zhenchun Lei, Yingen Yang, Changhong Liu, Minglei Ma. 4795-4799 [doi]

Adversarial Reweighting for Speaker Verification FairnessMinho Jin, Chelsea Ju, Zeya Chen, Yi-Chieh Liu, Jasha Droppo, Andreas Stolcke. 4800-4804 [doi]

Graph-based Multi-View Fusion and Local Adaptation: Mitigating Within-Household Confusability for Speaker IdentificationLong Chen, YiXiong Meng, Venkatesh Ravichandran, Andreas Stolcke. 4805-4809 [doi]

Local Context-aware Self-attention for Continuous Sign Language RecognitionRonglai Zuo, Brian Mak. 4810-4814 [doi]

Disentangled Latent Speech Representation for Automatic Pathological Intelligibility AssessmentTobias Weise, Philipp Klumpp, Andreas K. Maier, Elmar Nöth, Björn Heismann, Maria Schuster, Seung-Hee Yang. 4815-4819 [doi]

Improving Hypernasality Estimation with Automatic Speech Recognition in Cleft Palate SpeechKaitao Song, Teng Wan, Bixia Wang, Huiqiang Jiang, Luna Qiu, Jiahang Xu, Liping Jiang, Qun Lou, YuQing Yang, Dongsheng Li, Xudong Wang, Lili Qiu. 4820-4824 [doi]

Conformer Based Elderly Speech Recognition System for Alzheimer's Disease DetectionTianzi Wang, Jiajun Deng, Mengzhe Geng, Zi Ye, Shoukang Hu, Yi Wang, Mingyu Cui, Zengrui Jin, Xunying Liu, Helen Meng. 4825-4829 [doi]

Revisiting visuo-spatial processing in individuals with congenital amusiaZixia Fan, Jing Shao, Weigong Pan, Lan Wang. 4830-4834 [doi]

A user-friendly headset for radar-based silent speech recognitionPouriya Amini Digehsara, João Vítor Possamai de Menezes, Christoph Wagner, Michael Bärhold, Petr Schaffer, Dirk Plettemeier, Peter Birkholz. 4835-4839 [doi]

A study of production error analysis for Mandarin-speaking Children with Hearing ImpairmentJingwen Cheng, Yuchen Yan, Yingming Gao, Xiaoli Feng, Yannan Wang, Jinsong Zhang 0001. 4840-4844 [doi]

Incremental Layer-Wise Self-Supervised Learning for Efficient Unsupervised Speech Domain Adaptation On DeviceZhouyuan Huo, Dongseong Hwang, Khe Chai Sim, Shefali Garg, Ananya Misra, Nikhil Siddhartha, Trevor Strohman, Françoise Beaufays. 4845-4849 [doi]

Non-Linear Pairwise Language Mappings for Low-Resource Multilingual Acoustic Model FusionMuhammad Umar Farooq, Darshan Adiga Haniya Narayana, Thomas Hain. 4850-4854 [doi]

The THUEE System Description for the IARPA OpenASR21 ChallengeJing Zhao, Haoyu Wang, Jinpeng Li, Shuzhou Chai, Guanbo Wang, Guoguo Chen, Wei-Qiang Zhang. 4855-4859 [doi]

External Text Based Data Augmentation for Low-Resource Speech Recognition in the Constrained Condition of OpenASR21 ChallengeGuolong Zhong, Hongyu Song, Ruoyu Wang 0029, Lei Sun, Diyuan Liu, Jia Pan, Xin Fang, Jun Du, Jie Zhang, Lirong Dai. 4860-4864 [doi]

Cross-dialect lexicon optimisation for an endangered language ASR system: the case of IrishLiam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide. 4865-4869 [doi]

Wav2vec-S: Semi-Supervised Pre-Training for Low-Resource ASRHan Zhu, Li Wang, Gaofeng Cheng, Jindong Wang, Pengyuan Zhang, Yonghong Yan 0002. 4870-4874 [doi]

Comparison of Unsupervised Learning and Supervised Learning with Noisy Labels for Low-Resource Speech RecognitionYanick Schraner, Christian Scheller, Michel Plüss, Lukas Neukom, Manfred Vogel. 4875-4879 [doi]

Using cross-model learnings for the Gram Vaani ASR Challenge 2022Tanvina Patel, Odette Scharenborg. 4880-4884 [doi]

ASR2K: Speech Recognition for Around 2000 Languages without AudioXinjian Li, Florian Metze, David R. Mortensen, Alan W. Black, Shinji Watanabe 0001. 4885-4889 [doi]

Combining Simple but Novel Data Augmentation Methods for Improving Conformer ASRRonit Damania, Christopher Homan, Emily Prud'hommeaux. 4890-4894 [doi]

OpenASR21: The Second Open Challenge for Automatic Speech Recognition of Low-Resource LanguagesKay Peterson, Audrey Tong, Yan Yu. 4895-4899 [doi]

DRAFT: A Novel Framework to Reduce Domain Shifting in Self-supervised Learning and Its Application to Children's ASRRuchao Fan, Abeer Alwan. 4900-4904 [doi]

Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settingSéverine Guillaume, Guillaume Wisniewski, Benjamin Galliot, Minh Chau Nguyen, Maxime Fily, Guillaume Jacques, Alexis Michaud. 4905-4909 [doi]

An Evaluation of Three-Stage Voice Conversion Framework for Noisy and Reverberant ConditionsYeonjong Choi, Chao Xie, Tomoki Toda. 4910-4914 [doi]

An Overview & Analysis of Sequence-to-Sequence Emotional Voice ConversionZijiang Yang 0007, Xin Jing, Andreas Triantafyllopoulos, Meishu Song, Ilhan Aslan, Björn W. Schuller. 4915-4919 [doi]

Zero-Shot Foreign Accent Conversion without a Native ReferenceWaris Quamer, Anurag Das, John Levis, Evgeny Chukharev-Hudilainen, Ricardo Gutierrez-Osuna. 4920-4924 [doi]

Speaker Anonymization with Phonetic Intermediate RepresentationsSarina Meyer, Florian Lux, Pavel Denisov, Julia Koch, Pascal Tilli, Ngoc Thang Vu. 4925-4929 [doi]

Investigation into Target Speaking Rate Adaptation for Voice ConversionMichael Kuhlmann, Fritz Seebauer, Janek Ebbers, Petra Wagner, Reinhold Haeb-Umbach. 4930-4934 [doi]

Self supervised learning for robust voice cloningKonstantinos Klapsas, Nikolaos Ellinas, Karolos Nikitaras, Georgios Vamvoukakis, Panagiotis Kakoulidis, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis. 4935-4939 [doi]

Improving Deliberation by Text-Only and Semi-Supervised TrainingKe Hu, Tara N. Sainath, Yanzhang He, Rohit Prabhavalkar, Trevor Strohman, Sepand Mavandadi, Weiran Wang. 4940-4944 [doi]

K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of Graphemes and SyllablesJounghee Kim, Pilsung Kang 0001. 4945-4949 [doi]

Wav2Vec-Aug: Improved self-supervised training with limited dataAnuroop Sriram, Michael Auli, Alexei Baevski. 4950-4954 [doi]

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic modelMartin Kocour, Katerina Zmolíková, Lucas Ondel, Jan Svec, Marc Delcroix, Tsubasa Ochiai, Lukás Burget, Jan Cernocký. 4955-4959 [doi]

RNN-T lattice enhancement by grafting of pruned pathsMirek Novak, Pavlos Papadopoulos. 4960-4964 [doi]

Better Intermediates Improve CTC InferenceTatsuya Komatsu, Yusuke Fujita, Jaesong Lee, Lukas Lee, Shinji Watanabe 0001, Yusuke Kida. 4965-4969 [doi]

Cross-Cultural Comparison of Gradient Emotion Perception: Human vs. Alexa TTS VoicesIona Gessinger, Michelle Cohn, Georgia Zellou, Bernd Möbius. 4970-4974 [doi]

Discriminative Adversarial Learning for Speaker Independent Emotion RecognitionChamara Kasun, Chung Soo Ahn, Jagath C. Rajapakse, Zhiping Lin, Guang-Bin Huang. 4975-4979 [doi]

Representing 'how you say' with 'what you say': English corpus of focused speech and text reflecting corresponding implicationsNaoaki Suzuki, Satoshi Nakamura. 4980-4984 [doi]

Production Strategies of Vocal AttitudesLéane Salais, Pablo Arias, Clément Le Moine, Victor Rosi, Yann Teytaut, Nicolas Obin, Axel Roebel. 4985-4989 [doi]

Where's the uh, hesitation? The interplay between filled pause location, speech rate and fundamental frequency in perception of confidenceAmbika Kirkland, Harm Lameris, Éva Székely, Joakim Gustafson. 4990-4994 [doi]

E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASRW. Ronny Huang, Shuo-Yiin Chang, David Rybach, Tara N. Sainath, Rohit Prabhavalkar, Cal Peyser, Zhiyun Lu, Cyril Allauzen. 4995-4999 [doi]

Autoregressive Co-Training for Learning Discrete Speech RepresentationSung-Lin Yeh, Hao Tang. 5000-5004 [doi]

An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing TasksKai-Wei Chang, Wei-Cheng Tseng, Shang-wen Li 0001, Hung-yi Lee. 5005-5009 [doi]

Overlapped speech and gender detection with WavLM pre-trained featuresMartin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier. 5010-5014 [doi]

A study on constraining Connectionist Temporal Classification for temporal audio alignmentYann Teytaut, Baptiste Bouvier, Axel Roebel. 5015-5019 [doi]

Acoustic-to-articulatory Speech Inversion with Multi-task LearningYashish M. Siriwardena, Ganesh Sivaraman, Carol Y. Espy-Wilson. 5020-5024 [doi]

Enhancing Speech Privacy with SlicingMohamed Maouche, Brij Mohan Lal Srivastava, Nathalie Vauquier, Aurélien Bellet, Marc Tommasi, Emmanuel Vincent 0001. 5025-5029 [doi]

An Attention-Based Method for Guiding Attribute-Aligned Speech Representation LearningYu-Lin Huang, Bo-Hao Su, Y.-W. Peter Hong, Chi-Chun Lee. 5030-5034 [doi]

Defense against Adversarial Attacks on Hybrid Speech Recognition System using Adversarial Fine-tuning with DenoiserSonal Joshi, Saurabh Kataria, Yiwen Shao, Piotr Zelasko, Jesús Villalba, Sanjeev Khudanpur, Najim Dehak. 5035-5039 [doi]

Membership Inference Attacks Against Self-supervised Speech ModelsWei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee. 5040-5044 [doi]

Chunking Defense for Adversarial Attacks on ASRYiwen Shao, Jesús Villalba, Sonal Joshi, Saurabh Kataria, Sanjeev Khudanpur, Najim Dehak. 5045-5049 [doi]

Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-LabelingTianTian Feng, Shrikanth Narayanan. 5050-5054 [doi]

User-Level Differential Privacy against Attribute Inference Attack of Speech Emotion Recognition on Federated LearningTianTian Feng, Raghuveer Peri, Shrikanth Narayanan. 5055-5059 [doi]

AdvEst: Adversarial Perturbation Estimation to Classify and Detect Adversarial Attacks against Speaker IdentificationSonal Joshi, Saurabh Kataria, Jesús Villalba, Najim Dehak. 5060-5064 [doi]

Online Learning of Open-set Speaker Identification by Active User-registrationEunkyung Yoo, Hyeonseop Song, TaeHyeong Kim, Chul Lee. 5065-5069 [doi]

Automatic Speaker Verification System for Dysarthria PatientsShinimol Salim, Syed Shahnawazuddin, Waquar Ahmad. 5070-5074 [doi]

Multimodal Clustering with Role Induced Constraints for Speaker DiarizationNikolaos Flemotomos, Shrikanth Narayanan. 5075-5079 [doi]

Multi-scale Speaker Diarization with Dynamic Scale WeightingTaejin Park, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg. 5080-5084 [doi]

Improved Relation Networks for End-to-End Speaker Verification and IdentificationAshutosh Chaubey, Sparsh Sinha, Susmita Ghose. 5085-5089 [doi]

End-to-End Neural Speaker Diarization with an Iterative Refinement of Non-Autoregressive Attention-based AttractorsMagdalena Rybicka, Jesús Villalba, Najim Dehak, Konrad Kowalczyk. 5090-5094 [doi]

From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural DiarizationFederico Landini, Alicia Lozano-Diez, Mireia Díez, Lukás Burget. 5095-5099 [doi]

Can Humans Correct Errors From System? Investigating Error Tendencies in Speaker Identification Using CrowdsourcingYuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa. 5100-5104 [doi]

Light-Weight Speaker Verification with Global Context InformationMiseul Kim, Zhenyu Piao, Se-Yun Um, Ran Lee, Jaemin Joh, Seungshin Lee, Hong-Goo Kang. 5105-5109 [doi]

Learnable Sparse Filterbank for Speaker VerificationJunyi Peng, Rongzhi Gu, Ladislav Mosner, Oldrich Plchot, Lukás Burget, Jan Cernocký. 5110-5114 [doi]

Using Data Augmentation and Consistency Regularization to Improve Semi-supervised Speech RecognitionAshtosh Sapru. 5115-5119 [doi]

Unsupervised domain adaptation for speech recognition with unsupervised error correctionLong Mai, Julie Carson-Berndsen. 5120-5124 [doi]

A Scalable Model Specialization Framework for Training and Inference using Submodels and its Application to Speech Model PersonalizationFadi Biadsy, Youzheng Chen, Xia Zhang, Oleg Rybakov, Andrew Rosenberg, Pedro Moreno. 5125-5129 [doi]

Wav2vec behind the Scenes: How end2end Models learn PhoneticsTeena tom Dieck, Paula Andrea Pérez-Toro, Tomas Arias, Elmar Nöth, Philipp Klumpp. 5130-5134 [doi]

Scaling ASR Improves Zero and Few Shot LearningWeiyi Zheng, Alex Xiao, Gil Keren, Duc Le, Frank Zhang 0001, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Abdelrahman Mohamed. 5135-5139 [doi]

InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASRYu Nakagome, Tatsuya Komatsu, Yusuke Fujita, Shuta Ichimura, Yusuke Kida. 5140-5144 [doi]

Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech RecognitionA. Arunkumar, Vrunda Nileshkumar Sukhadia, Srinivasan Umesh. 5145-5149 [doi]

Dynamic Sliding Window Modeling for Abstractive Meeting SummarizationZhengyuan Liu, Nancy F. Chen. 5150-5154 [doi]

STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice AgentYuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari. 5155-5159 [doi]

kidsTALC: A Corpus of 3- to 11-year-old German Children's Connected Natural SpeechLars Rumberg, Christopher Gebauer, Hanna Ehlert, Maren Wallbaum, Lena Bornholt, Jörn Ostermann, Ulrike Lüdtke. 5160-5164 [doi]

DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question AnsweringGuan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-Wen Yang, Hsuan-Jui Chen, Shuyan Annie Dong, Shang-wen Li 0001, Abdelrahman Mohamed, Hung-yi Lee, Lin-Shan Lee. 5165-5169 [doi]

Asymmetric Proxy Loss for Multi-View Acoustic Word EmbeddingsMyunghun Jung, Hoi-Rin Kim. 5170-5174 [doi]

Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech TranslationChih-Chiang Chang, Hung-yi Lee. 5175-5179 [doi]

Building Vietnamese Conversational Smart Home Dataset and Natural Language Understanding ModelThi Thu Trang Nguyen, Trung Duc Anh Dang, Quoc Viet Vu, Woomyoung Park. 5180-5184 [doi]

DeToxy: A Large-Scale Multimodal Dataset for Toxicity Classification in Spoken UtterancesSreyan Ghosh, Samden Lepcha, S. Sakshi, Rajiv Ratn Shah, Srinivasan Umesh. 5185-5189 [doi]

Voice Activity Projection: Self-supervised Learning of Turn-taking EventsErik Ekstedt, Gabriel Skantze. 5190-5194 [doi]

Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data AugmentationSravya Popuri, Peng-Jen Chen, Changhan Wang, Juan Pino, Yossi Adi, Jiatao Gu, Wei-Ning Hsu, Ann Lee. 5195-5199 [doi]

QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using MLPMixerJinmiao Huang, Waseem Gharbieh, Qianhui Wan, Han Suk Shim, Hyun-Chul Lee. 5200-5204 [doi]

DyConvMixer: Dynamic Convolution Mixer Architecture for Open-Vocabulary Keyword SpottingWaseem Gharbieh, Jinmiao Huang, Qianhui Wan, Han Suk Shim, Hyun-Chul Lee. 5205-5209 [doi]

Challenges in Metadata Creation for Massive Naturalistic Team-Based Audio DataChelzy Belitz, John H. L. Hansen. 5210-5214 [doi]

Spoken Dialogue System for Call Centers with Expressive Speech SynthesisDavis Nicmanis, Askars Salimbajevs. 5215-5216 [doi]

OCTRA - An Innovative Approach to Orthographic TranscriptionChristoph Draxler, Julian Pomp. 5217-5218 [doi]

Voice Puppetry with FastPitchEmelie Van De Vreken, Korin Richmond, Catherine Lai. 5219-5220 [doi]

Improving Data Driven Inverse Text Normalization using Data Augmentation and Machine TranslationDebjyoti Paul, Yutong Pang, Szu-Jui Chen, Xuedong Zhang. 5221-5222 [doi]

Native phonotactic interference in L2 vowel processing: Mouse-tracking reveals cognitive conflicts during identificationYizhou Wang, Rikke L. Bundgaard-Nielsen, Brett Baker, Olga Maxwell. 5223-5227 [doi]

Mandarin nasal place assimilation revisited: an acoustic studyMingqiong Luo. 5228-5232 [doi]

Bending the string: intonation contour length as a correlate of macro-rhythmConstantijn Kaland. 5233-5237 [doi]

Eliciting and evaluating likelihood ratios for speaker recognition by human listeners under forensically realistic channel-mismatched conditionsVincent Hughes, Carmen Llamas, Thomas Kettig. 5238-5242 [doi]

Reducing uncertainty at the score-to-LR stage in likelihood ratio-based forensic voice comparison using automatic speaker recognition systemsBruce Xiao Wang, Vincent Hughes. 5243-5247 [doi]

Durational Patterning at Discourse Boundaries in Relation to Therapist Empathy in PsychotherapyJonathan Him Nok Lee, Dehua Tao, Harold Chui, Tan Lee, Sarah Luk, Nicolette Wing Tung Lee, Koonkan Fung. 5248-5252 [doi]

Convolutional Neural Networks for Classification of Voice Qualities from Speech and Neck Surface Accelerometer SignalsSudarsana Reddy Kadiri, Farhad Javanmardi, Paavo Alku. 5253-5257 [doi]

Applying Syntax-Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech SynthesisKei Furukawa, Takeshi Kishiyama, Satoshi Nakamura. 5258-5262 [doi]

Effects of Language Contact on Vowel Nasalization in Wenzhou and Rugao DialectsYan Li, Ying Chen, Xinya Zhang, Yanyang Chen, Jiazheng Wang. 5263-5267 [doi]

A blueprint for using deepfakes in sociolinguistic matched-guise experimentsNathan Joel Young, David Britain, Adrian Leemann. 5268-5272 [doi]

Mandarin Tone Sandhi Realization: Evidence from Large Speech CorporaZuoyu Tian, Xiao Dong, Feier Gao, Haining Wang, Chien-Jer Charles Lin. 5273-5277 [doi]

A Laryngographic Study on the Voice Quality of Northern Vietnamese Tones under the Lombard EffectGiang Le, Chilin Shih, Yan Tang. 5278-5282 [doi]

The Prosody of Cheering in Sport EventsMarzena Zygis, Sarah Wesolek, Nina Hosseini-Kivanani, Manfred Krifka. 5283-5287 [doi]

Contribution of the glottal flow residual in affect-related voice transformationZihan Wang, Christer Gobl. 5288-5292 [doi]

High level feature fusion in forensic voice comparisonMichael Carne, Yuko Kinoshita, Shunichi Ishihara. 5293-5297 [doi]

Modeling speech recognition and synthesis simultaneously: Encoding and decoding lexical and sublexical semantic information into speech with no direct access to speech dataGasper Begus, Alan Zhou. 5298-5302 [doi]

Paraguayan Guarani: Tritonal pitch accent and Accentual PhraseSun-Ah Jun, Maria Luisa Zubizarreta. 5303-5307 [doi]

Low-resource Accent Classification in Geographically-proximate Settings: A Forensic and Sociophonetics PerspectiveQingcheng Zeng, Dading Chong, Peilin Zhou, Jie Yang. 5308-5312 [doi]

Tiny-Sepformer: A Tiny Time-Domain Transformer Network For Speech SeparationJian Luo, Jianzong Wang, Ning Cheng, Edward Xiao, Xulong Zhang 0001, Jing Xiao 0006. 5313-5317 [doi]

Speaker-Aware Mixture of Mixtures Training for Weakly Supervised Speaker ExtractionZifeng Zhao, Rongzhi Gu, Dongchao Yang, Jinchuan Tian, Yuexian Zou. 5318-5322 [doi]

SepIt: Approaching a Single Channel Speech Separation BoundShahar Lutati, Eliya Nachmani, Lior Wolf. 5323-5327 [doi]

On the Use of Deep Mask Estimation Module for Neural Source Separation SystemsKai Li, Xiaolin Hu 0001, Yi Luo. 5328-5332 [doi]

Target Confusion in End-to-end Speaker Extraction: Analysis and ApproachesZifeng Zhao, Dongchao Yang, Rongzhi Gu, Haoran Zhang, Yuexian Zou. 5333-5337 [doi]

Embedding Recurrent Layers with Dual-Path Strategy in a Variant of Convolutional Network for Speaker-Independent Speech SeparationXue Yang, Changchun Bao. 5338-5342 [doi]

Disentangling the Impacts of Language and Channel Variability on Speech Separation NetworksFan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang. 5343-5347 [doi]

Objective Metrics to Evaluate Residual-Echo Suppression During Double-Talk in the Stereophonic CaseAmir Ivry, Israel Cohen, Baruch Berdugo. 5348-5352 [doi]

QDPN - Quasi-dual-path Network for single-channel Speech SeparationJoel Rixen, Matthias Renz. 5353-5357 [doi]

Conformer Space Neural Architecture Search for Multi-Task Audio SeparationShun Lu, Yang Wang, Peng Yao, Chenxing Li, Jianchao Tan, Feng Deng, Xiaorui Wang, Chengru Song. 5358-5362 [doi]

ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile DevicesOkan Köpüklü, Maja Taseska. 5363-5367 [doi]

Gated Convolutional Fusion for Time-Domain Target Speaker Extraction NetworkWenjing Liu, Chuan Xie. 5368-5372 [doi]

WA-Transformer: Window Attention-based Transformer with Two-stage Strategy for Multi-task Audio Source SeparationYang Wang, Chenxing Li, Feng Deng, Shun Lu, Peng Yao, Jianchao Tan, Chengru Song, Xiaorui Wang. 5373-5377 [doi]

Multichannel Speech Separation with Narrow-band ConformerChangsheng Quan, Xiaofei Li. 5378-5382 [doi]

Separating Long-Form Speech with Group-wise Permutation Invariant TrainingWangyou Zhang, Zhuo Chen 0006, Naoyuki Kanda, Shujie Liu 0001, Jinyu Li 0001, Sefik Emre Eskimez, Takuya Yoshioka, Xiong Xiao, Zhong Meng, Yanmin Qian, Furu Wei. 5383-5387 [doi]

Directed speech separation for automatic speech recognition of long form conversational speechRohit Paturi, Sundararajan Srinivasan, Katrin Kirchhoff, Daniel Garcia-Romero. 5388-5392 [doi]

Speech Separation for an Unknown Number of Speakers Using Transformers With Encoder-Decoder AttractorsSrikanth Raj Chetupalli, Emanuël Habets. 5393-5397 [doi]

Cooperative Speech Separation With a Microphone Array and Asynchronous Wearable DevicesRyan M. Corey, Manan Mittal, Kanad Sarkar, Andrew C. Singer. 5398-5402 [doi]

Text-Driven Separation of Arbitrary SoundsKevin Kilgour, Beat Gfeller, Qingqing Huang, Aren Jansen, Scott Wisdom, Marco Tagliasacchi. 5403-5407 [doi]

An Empirical Analysis on the Vulnerabilities of End-to-End Speech Segregation ModelsRahil Parikh, Gaspar Rochette, Carol Y. Espy-Wilson, Shihab Shamma. 5408-5412 [doi]

TaylorBeamformer: Learning All-Neural Beamformer for Multi-Channel Speech Enhancement from Taylor's Approximation TheoryAndong Li, Guochen Yu, Chengshi Zheng, Xiaodong Li. 5413-5417 [doi]

How bad are artifacts?: Analyzing the impact of speech enhancement errors on ASRKazuma Iwamoto, Tsubasa Ochiai, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki, Shigeru Katagiri. 5418-5422 [doi]

Multi-source wideband DOA estimation method by frequency focusing and error weightingJing Zhou, Changchun Bao. 5423-5427 [doi]

Convolutional Recurrent Smart Speech Enhancement Architecture for Hearing AidsSoha A. Nossier, Julie A. Wall, Mansour Moniri, Cornelius Glackin, Nigel Cannings. 5428-5432 [doi]

Fully Automatic Balance between Directivity Factor and White Noise Gain for Large-scale Microphone Arrays in Diffuse Noise FieldsWeixin Meng, Chengshi Zheng, Xiaodong Li 0002. 5433-5437 [doi]

A Transfer and Multi-Task Learning based Approach for MOS PredictionXiaohai Tian, Kaiqi Fu, Shaojun Gao, Yiwei Gu, Kai Wang, Wei Li, Zejun Ma. 5438-5442 [doi]

Fusion of Self-supervised Learned Models for MOS PredictionZhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li 0010, Raj Dabre, Raphael Rubino, Yi Zhao. 5443-5447 [doi]

Perceptual Contrast Stretching on Target Feature for Speech EnhancementRong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao 0001. 5448-5452 [doi]

A speech enhancement method for long-range speech acquisition taskYanzhang Geng, Heng Wang, Tao Zhang, Xin Zhao. 5453-5457 [doi]

ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and UnderstandingYen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell, Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhong-qiu Wang, Yu Tsao 0001, Yanmin Qian, Shinji Watanabe 0001. 5458-5462 [doi]

MTI-Net: A Multi-Target Speech Intelligibility Prediction ModelRyandhimas Edo Zezario, Szu-Wei Fu, Fei Chen 0011, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao 0001. 5463-5467 [doi]

Steering vector correction in MVDR beamformer for speech enhancementSuliang Bu, Yunxin Zhao, Tuo Zhao. 5468-5472 [doi]

Speech Modification for Intelligibility in Cochlear Implant Listeners: Individual Effects of Vowel- and Consonant-BoostingJuliana N. Saba, John H. L. Hansen. 5473-5477 [doi]

DCTCN: Deep Complex Temporal Convolutional Network for Long Time Speech EnhancementJigang Ren, Qirong Mao. 5478-5482 [doi]

Improve Speech Enhancement using Perception-High-Related Time-Frequency LossDing Zhao, Zhan Zhang, Bin Yu, Yuehai Wang. 5483-5487 [doi]

Transplantation of Conversational Speaking Style with Interjections in Sequence-to-Sequence Speech SynthesisRaul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman, Alexander Sorin. 5488-5492 [doi]

Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on Data-Driven Deep LearningRui Liu 0008, Berrak Sisman, Björn W. Schuller, Guanglai Gao, Haizhou Li 0001. 5493-5497 [doi]

Cross-speaker Emotion Transfer Based On Prosody Compensation for End-to-End Speech SynthesisTao Li, Xinsheng Wang, Qicong Xie, Zhichao Wang, MingQi Jiang, Lei Xie. 5498-5502 [doi]

Self-supervised Context-aware Style Representation for Expressive Speech SynthesisYihan Wu, Xi Wang, Shaofei Zhang, Lei He, Ruihua Song, Jian-Yun Nie. 5503-5507 [doi]

Integrating Discrete Word-Level Style Variations into Non-Autoregressive Acoustic Models for Speech SynthesisZhaoci Liu, Ning-Qian Wu, Yajie Zhang, Zhenhua Ling. 5508-5512 [doi]

Automatic Prosody Annotation with Pre-Trained Text-Speech ModelZiqian Dai, Jianwei Yu, Yan Wang, Nuo Chen, Yanyao Bian, Guangzhi Li, Deng Cai 0002, Dong Yu 0001. 5513-5517 [doi]

Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech SynthesisYixuan Zhou, Changhe Song, Jingbei Li, Zhiyong Wu 0003, Yanyao Bian, Dan Su 0002, Helen Meng. 5518-5522 [doi]

Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech SynthesisShun Lei, Yixuan Zhou, Liyang Chen, Jiankun Hu, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 5523-5527 [doi]

Towards Cross-speaker Reading Style Transfer on Audiobook DatasetXiang Li, Changhe Song, Xianhao Wei, Zhiyong Wu 0001, Jia Jia, Helen Meng. 5528-5532 [doi]

CALM: Constrastive Cross-modal Speaking Style Modeling for Expressive Text-to-Speech SynthesisYi Meng, Xiang Li, Zhiyong Wu 0001, Tingtian Li, Zixun Sun, Xinyu Xiao, Chi Sun, Hui Zhan, Helen Meng. 5533-5537 [doi]

Improve emotional speech synthesis quality by learning explicit and implicit representations with semi-supervised trainingJiaxu He, Cheng Gong, Longbiao Wang, Di Jin 0001, Xiaobao Wang, Junhai Xu, Jianwu Dang. 5538-5542 [doi]

A Vietnamese-English Neural Machine Translation SystemTuan-Duy H. Nguyen, Duy Phung, Duy Tran-Cong Nguyen, Hieu Minh Tran, Manh Luong, Tin Duy Vo, Hung Hai Bui, Dinh Q. Phung, Dat Quoc Nguyen. 5543-5544 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Interspeech 2022, 23rd Annual Conference of the International Speech Communication Association, Incheon, Korea, 18-22 September 2022

Abstract

Table of Contents