Interspeech 2021, 22nd Annual Conference of the International Speech Communication Association, Brno, Czechia, 30 August - 3 September 2021

researchr

You are not signed in
Sign in
Sign up

Hynek Hermansky, Honza Cernocký, Lukás Burget, Lori Lamel, Odette Scharenborg, Petr Motlícek, editors, Interspeech 2021, 22nd Annual Conference of the International Speech Communication Association, Brno, Czechia, 30 August - 3 September 2021. ISCA, 2021. [doi]

Conference: interspeech2021

Abstract is missing.

Child Language Acquisition Studied with WearablesAlejandrina Cristià. [doi]

Language Modeling and Artificial IntelligenceTomás Mikolov. [doi]

Uncovering the Acoustic Cues of COVID-19 InfectionSriram Ganapathy. [doi]

Learning Speech Models from Multi-Modal DataKaren Livescu. [doi]

Towards Automatic Speech Recognition for People with Atypical SpeechHeidi Christensen. [doi]

Ethical and Technological Challenges of Conversational AIPascale Fung. [doi]

Forty Years of Speech and Language Processing: From Bayes Decision Rule to Deep LearningHermann Ney. [doi]

Europarl-ASR: A Large Corpus of Parliamentary Debates for Streaming ASR Benchmarking and Speech Data Filtering/VerbatimizationGonçal V. Garcés Díaz-Munío, Joan Albert Silvestre-Cerdà, Javier Jorge, Adrià Giménez-Pastor, Javier Iranzo-Sánchez, Pau Baquero-Arnal, Nahuel Roselló, Alejandro Pérez González de Martos, Jorge Civera, Albert Sanchís, Alfons Juan. [doi]

Adaptive Listening to Everyday SoundscapesMounya Elhilali. [doi]

Conversion of Airborne to Bone-Conducted Speech with Deep Neural NetworksMichael Pucher, Thomas Woltron. 1-5 [doi]

T5G2P: Using Text-to-Text Transfer Transformer for Grapheme-to-Phoneme ConversionMarkéta Rezácková, Jan Svec, Daniel Tihelka. 6-10 [doi]

Evaluating the Extrapolation Capabilities of Neural Vocoders to Extreme Pitch ValuesOlivier Perrotin, Hussein El Amouri, Gérard Bailly, Thomas Hueber. 11-15 [doi]

A Systematic Review and Analysis of Multilingual Data Strategies in Text-to-Speech for Low-Resource LanguagesPhat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers. 16-20 [doi]

Acoustic Indicators of Speech Motor Coordination in Adults With and Without Traumatic Brain InjuryTanya Talkar, Nancy Pearl Solomon, Douglas S. Brungart, Stefanie E. Kuchinsky, Megan M. Eitel, Sara M. Lippa, Tracey A. Brickell, Louis M. French, Rael T. Lange, Thomas F. Quatieri. 21-25 [doi]

On Modeling Glottal Source Information for Phonation Assessment in Parkinson's DiseaseJuan Camilo Vásquez-Correa, Julian Fritsch, Juan Rafael Orozco-Arroyave, Elmar Nöth, Mathew Magimai-Doss. 26-30 [doi]

Distortion of Voiced Obstruents for Differential Diagnosis Between Parkinson's Disease and Multiple System AtrophyKhalid Daoudi, Biswajit Das, Solange Milhé de Saint Victor, Alexandra Foubert-Samier, Anne Pavy-Le Traon, Olivier Rascol, Wassilios G. Meissner, Virginie Woisard. 31-35 [doi]

A Study into Pre-Training Strategies for Spoken Language Understanding on Dysarthric SpeechPu Wang, Bagher BabaAli, Hugo Van Hamme. 36-40 [doi]

EasyCall Corpus: A Dysarthric Speech DatasetRosanna Turrisi, Arianna Braccia, Marco Emanuele, Simone Giulietti, Maura Pugliatti, Mariachiara Sensi, Luciano Fadiga, Leonardo Badino. 41-45 [doi]

A Benchmark of Dynamical Variational Autoencoders Applied to Speech Spectrogram ModelingXiaoyu Bie, Laurent Girin, Simon Leglaive, Thomas Hueber, Xavier Alameda-Pineda. 46-50 [doi]

Fricative Phoneme Detection Using Deep Neural Networks and its Comparison to Traditional MethodsMetehan Yurt, Pavan Kantharaju, Sascha Disch, Andreas Niedermeier, Alberto N. Escalante-B., Veniamin I. Morgenshtern. 51-55 [doi]

Identification of F1 and F2 in Speech Using Modified Zero Frequency FilteringRaviShankar Prasad, Mathew Magimai-Doss. 56-60 [doi]

Phoneme-to-Audio Alignment with Recurrent Neural Networks for Speaking and Singing VoiceYann Teytaut, Axel Roebel. 61-65 [doi]

Adaptive Convolutional Neural Network for Text-Independent Speaker RecognitionSeong-Hu Kim, Yong-Hwa Park. 66-70 [doi]

Bidirectional Multiscale Feature Aggregation for Speaker VerificationJiajun Qi, Wu Guo, Bin Gu 0004. 71-75 [doi]

Improving Time Delay Neural Network Based Speaker Recognition with Convolutional Block and Feature Aggregation MethodsYu-Jia Zhang, Yih-Wen Wang, Chia-Ping Chen, Chung-Li Lu, Bo-Cheng Chan. 76-80 [doi]

Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker VerificationYanfeng Wu, Junan Zhao, Chenkai Guo, Jing Xu. 81-85 [doi]

Binary Neural Network for Speaker VerificationTinglong Zhu, Xiaoyi Qin, Ming Li. 86-90 [doi]

Mutual Information Enhanced Training for Speaker EmbeddingYouzhi Tu, Man-Wai Mak. 91-95 [doi]

Y-Vector: Multiscale Waveform Encoder for Speaker EmbeddingGe Zhu, Fei Jiang, Zhiyao Duan. 96-100 [doi]

Phoneme-Aware and Channel-Wise Attentive Learning for Text Dependent Speaker VerificationYan Liu, Zheng Li, Lin Li, Qingyang Hong. 101-105 [doi]

Serialized Multi-Layer Multi-Head Attention for Neural Speaker EmbeddingHongning Zhu, Kong-Aik Lee, Haizhou Li 0001. 106-110 [doi]

TacoLPCNet: Fast and Stable TTS by Conditioning LPCNet on Mel Spectrogram PredictionsCheng Gong, Longbiao Wang, Ju Zhang 0001, Shaotong Guo, Yuguang Wang, Jianwu Dang. 111-115 [doi]

FastPitchFormant: Source-Filter Based Decomposed Modeling for Speech SynthesisTaejun Bak, Jae-Sung Bae, Hanbin Bae, Young Ik Kim, Hoon-Young Cho. 116-120 [doi]

Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP LayerTaiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari. 121-125 [doi]

Phonetic and Prosodic Information Estimation from Texts for Genuine Japanese End-to-End Text-to-SpeechNaoto Kakegawa, Sunao Hara, Masanobu Abe, Yusuke Ijima. 126-130 [doi]

Information Sieve: Content Leakage Reduction in End-to-End Prosody Transfer for Expressive Speech SynthesisXudong Dai, Cheng Gong, Longbiao Wang, Kaili Zhang. 131-135 [doi]

Deliberation-Based Multi-Pass Speech SynthesisQingyun Dou, Xixin Wu, Moquan Wan, Yiting Lu, Mark J. F. Gales. 136-140 [doi]

Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration ModelingIsaac Elias, Heiga Zen, Jonathan Shen, Yu Zhang 0033, Ye Jia, R. J. Skerry-Ryan, Yonghui Wu. 141-145 [doi]

Transformer-Based Acoustic Modeling for Streaming Speech SynthesisChunyang Wu, Zhiping Xiu, Yangyang Shi, Ozlem Kalinli, Christian Fuegen, Thilo Köhler, Qing He. 146-150 [doi]

PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTSYe Jia, Heiga Zen, Jonathan Shen, Yu Zhang, Yonghui Wu. 151-155 [doi]

Speed up Training with Variable Length Inputs by Efficient Batching StrategiesZhenhao Ge, Lakshmish Kaushik, Masanori Omote, Saket Kumar. 156-160 [doi]

Funnel Deep Complex U-Net for Phase-Aware Speech EnhancementYuhang Sun, Linju Yang, Huifeng Zhu, Jie Hao. 161-165 [doi]

Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech EnhancementQiquan Zhang, Qi Song, Aaron Nicolson, Tian Lan, Haizhou Li 0001. 166-170 [doi]

Perceptual Contributions of Vowels and Consonant-Vowel Transitions in Understanding Time-Compressed Mandarin SentencesChangjie Pan, Feng Yang, Fei Chen. 171-175 [doi]

Transfer Learning for Speech Intelligibility Improvement in Noisy EnvironmentsRitujoy Biswas, Karan Nathwani, Vinayak Abrol. 176-180 [doi]

Comparison of Remote Experiments Using Crowdsourcing and Laboratory Experiments on Speech IntelligibilityAyako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani. 181-185 [doi]

Know Your Enemy, Know Yourself: A Unified Two-Stage Framework for Speech EnhancementWenzhe Liu, Andong Li, Yuxuan Ke, Chengshi Zheng, Xiaodong Li. 186-190 [doi]

Speech Enhancement with Weakly Labelled Data from AudioSetQiuqiang Kong, Haohe Liu, Xingjian Du, Li Chen, Rui Xia, Yuxuan Wang. 191-195 [doi]

Improving Perceptual Quality by Phone-Fortified Perceptual Loss Using Wasserstein Distance for Speech EnhancementTsun-An Hsieh, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao 0001. 196-200 [doi]

MetricGAN+: An Improved Version of MetricGAN for Speech EnhancementSzu-Wei Fu, Cheng Yu, Tsun-An Hsieh, Peter Plantinga, Mirco Ravanelli, Xugang Lu, Yu Tsao 0001. 201-205 [doi]

A Spectro-Temporal Glimpsing Index (STGI) for Speech Intelligibility PredictionAmin Edraki, Wai-Yip Chan, Jesper Jensen 0001, Daniel Fogerty. 206-210 [doi]

Self-Supervised Learning Based Phone-Fortified Speech EnhancementYuanhang Qiu, Ruili Wang, Satwinder Singh, Zhizhong Ma, Feng Hou. 211-215 [doi]

Incorporating Embedding Vectors from a Human Mean-Opinion Score Prediction Model for Monaural Speech EnhancementKhandokar Md. Nayem, Donald S. Williamson. 216-220 [doi]

Restoring Degraded Speech via a Modified Diffusion ModelJianwei Zhang, Suren Jayasuriya, Visar Berisha. 221-225 [doi]

User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue SystemsHoang Long Nguyen 0005, Vincent Renkens, Joris Pelemans, Srividya Pranavi Potharaju, Anil Kumar Nalamalapu, Murat Akbacak. 226-230 [doi]

Self-Supervised Dialogue Learning for Spoken Conversational Question AnsweringNuo Chen, Chenyu You, Yuexian Zou. 231-235 [doi]

Act-Aware Slot-Value Predicting in Multi-Domain Dialogue State TrackingRuolin Su, Ting-Wei Wu, Biing-Hwang Juang. 236-240 [doi]

Dialogue Situation Recognition for Everyday Conversation Using Multimodal InformationYuya Chiba, Ryuichiro Higashinaka. 241-245 [doi]

Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational SystemsYoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito. 246-250 [doi]

Semantic Transportation Prototypical Network for Few-Shot Intent DetectionWeiyuan Xu, Peilin Zhou, Chenyu You, Yuexian Zou. 251-255 [doi]

Domain-Specific Multi-Agent Dialog Policy Learning in Multi-Domain Task-Oriented ScenariosLi Tang, Yuke Si, Longbiao Wang, Jianwu Dang. 256-260 [doi]

Leveraging ASR N-Best in Deep Entity RetrievalHaoyu Wang, John Chen, Majid Laali, Kevin Durda, Jeff King, William Campbell, Yang Liu. 261-265 [doi]

End-to-End Spelling Correction Conditioned on Acoustic Feature for Code-Switching Speech RecognitionShuai Zhang 0014, Jiangyan Yi, Zhengkun Tian, Ye Bai, Jianhua Tao, Xuefei Liu, Zhengqi Wen. 266-270 [doi]

Phoneme Recognition Through Fine Tuning of Phonetic Representations: A Case Study on Luhya Language VarietiesKathleen Siminyu, Xinjian Li, Antonios Anastasopoulos, David R. Mortensen, Michael R. Marlo, Graham Neubig. 271-275 [doi]

Speech Acoustic Modelling Using Raw Source and Filter ComponentsErfan Loweimi, Zoran Cvetkovic, Peter Bell 0001, Steve Renals. 276-280 [doi]

Noise Robust Acoustic Modeling for Single-Channel Speech Recognition Based on a Stream-Wise Transformer ArchitectureMasakiyo Fujimoto, Hisashi Kawai. 281-285 [doi]

IR-GAN: Room Impulse Response Generator for Far-Field Speech RecognitionAnton Ratnarajah, Zhenyu Tang, Dinesh Manocha. 286-290 [doi]

Scaling Sparsemax Based Channel Selection for Speech Recognition with ad-hoc Microphone ArraysJunqi Chen, Xiao-lei Zhang. 291-295 [doi]

Multi-Channel Transformer Transducer for Speech RecognitionFeng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo. 296-300 [doi]

Data Augmentation Methods for End-to-End Speech Recognition on Distant-Talk ScenariosEmiru Tsunoo, Kentaro Shibata, Chaitanya Narisetty, Yosuke Kashiwagi, Shinji Watanabe 0001. 301-305 [doi]

Leveraging Phone Mask Training for Phonetic-Reduction-Robust E2E Uyghur Speech RecognitionGuodong Ma, Pengfei Hu, Jian Kang 0006, Shen Huang, Hao Huang. 306-310 [doi]

Rethinking Evaluation in ASR: Are Our Models Robust Enough?Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Paden Tomasello, Jacob Kahn, Gilad Avidov, Ronan Collobert, Gabriel Synnaeve. 311-315 [doi]

Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech RecognitionMax W. Y. Lam, Jun Wang, Chao Weng, Dan Su, Dong Yu. 316-320 [doi]

Attention-Based Cross-Modal Fusion for Audio-Visual Voice Activity Detection in Musical Video StreamsYuanbo Hou, Zhesong Yu, Xia Liang, Xingjian Du, Bilei Zhu, Zejun Ma, Dick Botteldooren. 321-325 [doi]

Noise-Tolerant Self-Supervised Learning for Audio-Visual Voice Activity DetectionUi-Hyun Kim. 326-330 [doi]

Noisy Student-Teacher Training for Robust Keyword SpottingHyun-Jin Park, Pai Zhu, Ignacio Lopez-Moreno, Niranjan Subrahmanya. 331-335 [doi]

Multi-Channel VAD for Transcription of Group DiscussionOsamu Ichikawa, Kaito Nakano, Takahiro Nakayama, Hajime Shirouzu. 336-340 [doi]

Audio-Visual Information Fusion Using Cross-Modal Teacher-Student Learning for Voice Activity Detection in Realistic EnvironmentsHengshun Zhou, Jun Du, Hang Chen, Zijun Jing, Shifu Xiong, Chin-Hui Lee. 341-345 [doi]

Enrollment-Less Training for Personalized Voice Activity DetectionNaoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura. 346-350 [doi]

Voice Activity Detection for Live Speech of Baseball Game Based on Tandem Connection with Speech/Noise Separation ModelYuto Nonaka, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki. 351-355 [doi]

FastICARL: Fast Incremental Classifier and Representation Learning with Efficient Budget Allocation in Audio Sensing ApplicationsYoung D. Kwon, Jagmohan Chauhan, Cecilia Mascolo. 356-360 [doi]

End-to-End Transformer-Based Open-Vocabulary Keyword Spotting with Location-Guided Local AttentionBo Wei, Meirong Yang, Tao Zhang, Xiao Tang, Xing Huang, Kyuhong Kim, Jaeyun Lee, Kiho Cho, Sung Un Park. 361-365 [doi]

Segmental Contrastive Predictive Coding for Unsupervised Word SegmentationSaurabhchand Bhati, Jesús Villalba, Piotr Zelasko, Laureano Moro-Velázquez, Najim Dehak. 366-370 [doi]

A Lightweight Framework for Online Voice Activity Detection in the WildXuenan Xu, Heinrich Dinkel, Mengyue Wu, Kai Yu 0004. 371-375 [doi]

0 Tracking in Nasal GruntsAurélie Chlébowski, Nicolas Ballier. 376-380 [doi]

System Performance as a Function of Calibration Methods, Sample Size and Sampling Variability in Likelihood Ratio-Based Forensic Voice ComparisonBruce Xiao Wang, Vincent Hughes. 381-385 [doi]

Voicing Assimilations by French Speakers of German in Stop-Fricative SequencesAnne Bonneau. 386-390 [doi]

The Four-Way Classification of Stops with Voicing and Aspiration for Non-Native Speech EvaluationTitas Chakraborty, Vaishali Patil, Preeti Rao. 391-395 [doi]

Acoustic and Prosodic Correlates of Emotions in Urdu SpeechSaba Urooj, Benazir Mumtaz, Sarmad Hussain, Ehsan ul Haq. 396-400 [doi]

Voicing Contrasts in the Singleton Stops of Palestinian Arabic: Production and PerceptionNour Tamim, Silke Hamann. 401-405 [doi]

A Comparison of the Accuracy of Dissen and Keshet's (2016) DeepFormants and Traditional LPC Methods for Semi-Automatic Speaker RecognitionThomas Coy, Vincent Hughes, Philip Harrison, Amelia Jane Gully. 406-410 [doi]

MAP Adaptation Characteristics in Forensic Long-Term Formant AnalysisMichael Jessen. 411-415 [doi]

Cross-Linguistic Speaker Individuality of Long-Term Formant Distributions: Phonetic and Forensic PerspectivesJustin J. H. Lo. 416-420 [doi]

Sound Change in Spontaneous Bilingual Speech: A Corpus Study on the Cantonese n-l Merger in Cantonese-English BilingualsRachel Soo, Khia A. Johnson, Molly Babel. 421-425 [doi]

Characterizing Voiced and Voiceless Nasals in MizoWendy Lalhminghlui, Priyankoo Sarmah. 426-430 [doi]

The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & PrimatesBjörn W. Schuller, Anton Batliner, Christian Bergler, Cecilia Mascolo, Jing Han, Iulia Lefter, Heysem Kaya, Shahin Amiriparian, Alice Baird, Lukas Stappen, Sandra Ottl, Maurice Gerczuk, Panagiotis Tzirakis, Chloë Brown, Jagmohan Chauhan, Andreas Grammenos, Apinan Hasthanasombat, Dimitris Spathis, Tong Xia, Pietro Cicuta, Léon J. M. Rothkrantz, Joeri A. Zwerts, Jelle Treep, Casper S. Kaandorp. 431-435 [doi]

Transfer Learning-Based Cough Representations for Automatic Detection of COVID-19Rubén Solera-Ureña, Catarina Botelho, Francisco Teixeira, Thomas Rolland, Alberto Abad, Isabel Trancoso. 436-440 [doi]

The Phonetic Footprint of Covid-19?Philipp Klumpp, Tobias Bocklet, Tomas Arias-Vergara, Juan Camilo Vásquez-Correa, Paula Andrea Pérez-Toro, S. P. Bayerl, Juan Rafael Orozco-Arroyave, Elmar Nöth. 441-445 [doi]

Transfer Learning and Data Augmentation Techniques to the COVID-19 Identification Tasks in ComParE 2021Edresson Casanova, Arnaldo Candido Jr., Ricardo Corso Fernandes Junior, Marcelo Finger, Lucas Rafael Stefanel Gris, Moacir Antonelli Ponti, Daniel Peixoto Pinto da Silva. 446-450 [doi]

Visual Transformers for Primates Classification and Covid DetectionSteffen Illium, Robert Müller, Andreas Sedlmeier, Claudia Linnhoff-Popien. 451-455 [doi]

Deep-Learning-Based Central African Primate Species Classification with MixUp and SpecAugmentThomas Pellegrini. 456-460 [doi]

A Deep and Recurrent Architecture for Primate Vocalization ClassificationRobert Müller, Steffen Illium, Claudia Linnhoff-Popien. 461-465 [doi]

Introducing a Central African Primate Vocalisation Dataset for Automated Species ClassificationJoeri A. Zwerts, Jelle Treep, Casper S. Kaandorp, Floor Meewis, Amparo C. Koot, Heysem Kaya. 466-470 [doi]

Multi-Attentive Detection of the Spider Monkey Whinny in the (Actual) WildGeorgios Rizos, Jenna Lawson, Zhuoda Han, Duncan Butler, James Rosindell, Krystian Mikolajczyk, Cristina Banks-Leite, Björn W. Schuller. 471-475 [doi]

Identifying Conflict Escalation and Primates by Using Ensemble X-Vectors and Fisher Vector FeaturesJosé Vicente Egas López, Mercedes Vetráb, László Tóth 0001, Gábor Gosztolya. 476-480 [doi]

Ensemble-Within-Ensemble Classification for Escalation Prediction from SpeechOxana Verkholyak, Denis Dresvyanskiy, Anastasia Dvoynikova, Denis Kotov, Elena Ryumina, Alena Velichko, Danila Mamontov, Wolfgang Minker, Alexey Karpov 0001. 481-485 [doi]

Analysis by Synthesis: Using an Expressive TTS Model as Feature Extractor for Paralinguistic Speech ClassificationDominik Schiller, Silvan Mertes, Pol van Rijn, Elisabeth André. 486-490 [doi]

Leveraging Speaker Attribute Information Using Multi Task Learning for Speaker Verification and DiarizationChau Luu, Peter Bell 0001, Steve Renals. 491-495 [doi]

Spine2Net: SpineNet with Res2Net and Time-Squeeze-and-Excitation Blocks for Speaker RecognitionMagdalena Rybicka, Jesús Villalba, Piotr Zelasko, Najim Dehak, Konrad Kowalczyk. 496-500 [doi]

Speaker Embeddings by Modeling Channel-Wise CorrelationsThemos Stafylakis, Johan Rohdin, Lukás Burget. 501-505 [doi]

Multi-Task Neural Network for Robust Multiple Speaker Embedding ExtractionWeipeng He, Petr Motlícek, Jean-Marc Odobez. 506-510 [doi]

ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw WaveformJunyi Peng, Xiaoyang Qu, Jianzong Wang, Rongzhi Gu, Jing Xiao 0006, Lukás Burget, Jan Cernocký. 511-515 [doi]

Prosodic Disambiguation Using Chironomic Stylization of Intonation with Native and Non-Native SpeakersXiao Xiao, Nicolas Audibert, Grégoire Locqueville, Christophe d'Alessandro, Barbara Kuhnert, Claire Pillot-Loiseau. 516-520 [doi]

Variation in Perceptual Sensitivity and Compensation for Coarticulation Across Adult and Child Naturally-Produced and TTS VoicesAleese Block, Michelle Cohn, Georgia Zellou. 521-525 [doi]

Extracting Different Levels of Speech Information from EEG Using an LSTM-Based ModelMohammad Jalilpour-Monesi, Bernd Accou, Tom Francart, Hugo Van Hamme. 526-530 [doi]

Word Competition: An Entropy-Based Approach in the DIANA Model of Human Word ComprehensionLouis ten Bosch, Lou Boves. 531-535 [doi]

Time-to-Event Models for Analyzing Reaction Time SequencesLouis ten Bosch, Lou Boves. 536-540 [doi]

Models of Reaction Times in Auditory Lexical Decision: RTonset versus RToffsetSophie Brand, Kimberley Mulder, Louis ten Bosch, Lou Boves. 541-545 [doi]

SpecMix : A Mixed Sample Data Augmentation Method for Training with Time-Frequency Domain FeaturesGwantae Kim, David K. Han, Hanseok Ko. 546-550 [doi]

SpecAugment++: A Hidden Space Data Augmentation Method for Acoustic Scene ClassificationHelin Wang, Yuexian Zou, Wenwu Wang. 551-555 [doi]

An Effective Mutual Mean Teaching Based Domain Adaptation Method for Sound Event DetectionXu Zheng, Yan Song 0001, Li-Rong Dai 0001, Ian McLoughlin, Lin Liu. 556-560 [doi]

Acoustic Scene Classification Using Kervolution-Based SubSpectralNetRitika Nandi, Shashank Shekhar, Manjunath Mulimani. 561-565 [doi]

Event Specific Attention for Polyphonic Sound Event DetectionHarshavardhan Sundar, Ming Sun, Chao Wang. 566-570 [doi]

AST: Audio Spectrogram TransformerYuan Gong, Yu-An Chung, James R. Glass. 571-575 [doi]

Shallow Convolution-Augmented Transformer with Differentiable Neural Computer for Low-Complexity Classification of Variable-Length Acoustic SceneSoonshin Seo, Donghyun Lee, Ji-Hwan Kim. 576-580 [doi]

An Evaluation of Data Augmentation Methods for Sound Scene GeotaggingHelen L. Bear, Veronica Morfi, Emmanouil Benetos. 581-585 [doi]

Optimizing Latency for Online Video Captioning Using Audio-Visual TransformersChiori Hori, Takaaki Hori, Jonathan Le Roux. 586-590 [doi]

Variational Information Bottleneck for Effective Low-Resource Audio ClassificationShijing Si, Jianzong Wang, Huiming Sun, Jianhan Wu, Chuanyao Zhang, Xiaoyang Qu, Ning Cheng, Lei Chen, Jing Xiao. 591-595 [doi]

Improving Weakly Supervised Sound Event Detection with Self-Supervised Auxiliary TasksSoham Deshmukh, Bhiksha Raj, Rita Singh. 596-600 [doi]

Acoustic Event Detection with Classifier ChainsTatsuya Komatsu, Shinji Watanabe 0001, Koichi Miyazaki, Tomoki Hayashi. 601-605 [doi]

Segment and Tone Production in Continuous Speech of Hearing and Hearing-Impaired ChildrenShu-Chuan Tseng, Yi-Fen Liu. 606-610 [doi]

Effect of Carrier Bandwidth on Understanding Mandarin Sentences in Simulated Electric-Acoustic HearingFeng Wang, Jing Chen, Fei Chen. 611-615 [doi]

A Comparative Study of Different EMG Features for Acoustics-to-EMG MappingManthan Sharma, Navaneetha Gaddam, Tejas Umesh, Aditya Murthy, Prasanta Kumar Ghosh. 616-620 [doi]

Image-Based Assessment of Jaw Parameters and Jaw Kinematics for Articulatory Simulation: Preliminary ResultsAjish K. Abraham, V. Sivaramakrishnan, N. Swapna, N. Manohar. 621-625 [doi]

An Attention Self-Supervised Contrastive Learning Based Three-Stage Model for Hand Shape Feature Representation in Cued SpeechJianrong Wang, Nan Gu, Mei Yu, Xuewei Li, Qiang Fang, Li Liu. 626-630 [doi]

Remote Smartphone-Based Speech Collection: Acceptance and Barriers in Individuals with Major Depressive DisorderJudith Dineley, Grace Lavelle, Daniel Leightley, Faith Matcham, Sara Siddi, Maria Teresa Peñarrubia-María, Katie M. White, Alina Ivan, Carolin Oetzmann, Sara Simblett, Erin Dawe-Lane, Stuart Bruce, Daniel Stahl, Yatharth Ranjan, Zulqarnain Rashid, Pauline Conde, Amos A. Folarin, Josep Maria Haro, Til Wykes, Richard J. B. Dobson, Vaibhav A. Narayan, Matthew Hotopf, Björn W. Schuller, Nicholas Cummins, RADAR-CNS Consortium. 631-635 [doi]

An Automatic, Simple Ultrasound Biofeedback Parameter for Distinguishing Accurate and Misarticulated Rhotic SyllablesSarah R. Li, Colin T. Annand, Sarah Dugan, Sarah M. Schwab, Kathryn J. Eary, Michael Swearengen, Sarah Stack, Suzanne Boyce, Michael A. Riley, T. Douglas Mast. 636-640 [doi]

Silent versus Modal Multi-Speaker Speech Recognition from Ultrasound and VideoManuel Sam Ribeiro, Aciel Eshky, Korin Richmond, Steve Renals. 641-645 [doi]

RaSSpeR: Radar-Based Silent Speech RecognitionDavid Ferreira, Samuel S. Silva, Francisco Curado, António J. S. Teixeira. 646-650 [doi]

Investigating Speech Reconstruction for Laryngectomees for Silent Speech InterfacesBeiming Cao, Nordine Sebkhi, Arpan Bhavsar, Omer T. Inan, Robin Samlan, Ted Mau, Jun Wang 0037. 651-655 [doi]

LACOPE: Latency-Constrained Pitch Estimation for Speech EnhancementHendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas K. Maier. 656-660 [doi]

Alpha-Stable Autoregressive Fast Multichannel Nonnegative Matrix Factorization for Joint Speech Enhancement and DereverberationMathieu Fontaine 0002, Kouhei Sekiguchi, Aditya Arie Nugraha, Yoshiaki Bando, Kazuyoshi Yoshii. 661-665 [doi]

Microphone Array Generalization for Multichannel Narrowband Deep Speech EnhancementSiyuan Zhang, Xiaofei Li. 666-670 [doi]

Multiple Sound Source Localization Based on Interchannel Phase Differences in All Frequencies with Spectral MasksHyungchan Song, Jong Won Shin. 671-675 [doi]

Cancellation of Local Competing Speaker with Near-Field Localization for Distributed ad-hoc Sensor NetworkPablo Pérez Zarazaga, Mariem Bouafif Mansali, Tom Bäckström, Zied Lachiri. 676-680 [doi]

A Deep Learning Method to Multi-Channel Active Noise ControlHao Zhang, DeLiang Wang. 681-685 [doi]

Clarity-2021 Challenges: Machine Learning Challenges for Advancing Hearing Aid ProcessingSimone Graetzer, Jon Barker, Trevor J. Cox, Michael Akeroyd, John F. Culling, Graham Naylor, Eszter Porter, Rhoddy Viveros Muñoz. 686-690 [doi]

Optimising Hearing Aid Fittings for Speech in Noise with a Differentiable Hearing Loss ModelZehai Tu, Ning Ma 0002, Jon Barker. 691-695 [doi]

Explaining Deep Learning Models for Speech EnhancementSunit Sivasankaran, Emmanuel Vincent 0001, Dominique Fohr. 696-700 [doi]

Minimum-Norm Differential Beamforming for Linear Array with Directional MicrophonesWeilong Huang, Jinwei Feng. 701-705 [doi]

Improving Streaming Transformer Based ASR Under a Framework of Self-Supervised LearningSongjun Cao, Yueteng Kang, Yanzhe Fu, Xiaoshuo Xu, Sining Sun, Yike Zhang, Long Ma. 706-710 [doi]

wav2vec-C: A Self-Supervised Model for Speech Representation LearningSamik Sadhu, Di He, Che-Wei Huang, Sri Harish Mallidi, Minhua Wu, Ariya Rastrow, Andreas Stolcke, Jasha Droppo, Roland Maas. 711-715 [doi]

On the Learning Dynamics of Semi-Supervised Training for ASRElectra Wallington, Benji Kershenbaum, Ondrej Klejch, Peter Bell 0001. 716-720 [doi]

Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-TrainingWei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee 0001, Ronan Collobert, Gabriel Synnaeve, Michael Auli. 721-725 [doi]

Momentum Pseudo-Labeling for Semi-Supervised Speech RecognitionYosuke Higuchi, Niko Moritz, Jonathan Le Roux, Takaaki Hori. 726-730 [doi]

A Comparison of Supervised and Unsupervised Pre-Training of End-to-End ModelsAnanya Misra, Dongseong Hwang, Zhouyuan Huo, Shefali Garg, Nikhil Siddhartha, Arun Narayanan, Khe Chai Sim. 731-735 [doi]

Semi-Supervision in ASR: Sequential MixMatch and Factorized TTS-Based AugmentationZhehuai Chen, Andrew Rosenberg, Yu Zhang, Heiga Zen, Mohammadreza Ghodsi, Yinghui Huang, Jesse Emond, Gary Wang, Bhuvana Ramabhadran, Pedro J. Moreno. 736-740 [doi]

slimIPL: Language-Model-Free Iterative Pseudo-LabelingTatiana Likhomanenko, Qiantong Xu, Jacob Kahn, Gabriel Synnaeve, Ronan Collobert. 741-745 [doi]

Phonetically Motivated Self-Supervised Speech Representation LearningXianghu Yue, Haizhou Li 0001. 746-750 [doi]

Improving RNN-T for Domain Scaling Using Semi-Supervised Training with Neural TTSYan Deng, Rui Zhao, Zhong Meng, Xie Chen, Bing Liu, Jinyu Li, Yifan Gong 0001, Lei He. 751-755 [doi]

Speaker-Conversation Factorial Designs for Diarization Error AnalysisScott Seyfarth, Sundararajan Srinivasan, Katrin Kirchhoff. 756-760 [doi]

SmallER: Scaling Neural Entity Resolution for Edge DevicesRoss McGowan, Jinru Su, Vince DiCocco, Thejaswi Muniyappa, Grant P. Strimel. 761-765 [doi]

Disfluency Detection with Unlabeled Data and Small BERT ModelsJohann C. Rocholl, Vicky Zayats, Daniel D. Walker, Noah B. Murad, Aaron Schneider, Daniel J. Liebling. 766-770 [doi]

Discriminative Self-Training for Punctuation PredictionQian Chen 0003, Wen Wang, Mengzhe Chen, Qinglin Zhang. 771-775 [doi]

Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks Using Switching TokensMana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura. 776-780 [doi]

A Noise Robust Method for Word-Level Pronunciation AssessmentBinghuai Lin, Liyuan Wang. 781-785 [doi]

Targeted Keyword Filtering for Accelerated Spoken Topic IdentificationJonathan Wintrode. 786-790 [doi]

Multimodal Speech Summarization Through Semantic Concept LearningShruti Palaskar, Ruslan Salakhutdinov, Alan W. Black, Florian Metze. 791-795 [doi]

Enhancing Semantic Understanding with Self-Supervised Methods for Abstractive Dialogue SummarizationHyunjae Lee, Jaewoong Yun, Hyunjin Choi, Seongho Joe, Youngjune L. Gwon. 796-800 [doi]

Speaker Transition Patterns in Three-Party Conversation: Evidence from English, Estonian and SwedishMarcin Wlodarczak, Emer Gilmartin. 801-805 [doi]

Investigating Deep Neural Structures and their Interpretability in the Domain of Voice ConversionSamuel J. Broughton, Md. Asif Jalal, Roger K. Moore. 806-810 [doi]

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-Stage Sequence-to-Sequence TrainingKun Zhou, Berrak Sisman, Haizhou Li. 811-815 [doi]

Adversarial Voice Conversion Against Neural Spoofing DetectorsYi-Yang Ding, Li-juan Liu, Yu Hu, Zhen-Hua Ling. 816-820 [doi]

An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data AugmentationXiangheng He, Junjie Chen, Georgios Rizos, Björn W. Schuller. 821-825 [doi]

TVQVC: Transformer Based Vector Quantized Variational Autoencoder with CTC Loss for Voice ConversionZiyi Chen, Pengyuan Zhang. 826-830 [doi]

Enriching Source Style Transfer in Recognition-Synthesis Based Non-Parallel Voice ConversionZhichao Wang, Xinyong Zhou, Fengyu Yang, Tao Li, Hongqiang Du, Lei Xie, Wendong Gan, Haitao Chen, Hai Li. 831-835 [doi]

S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained RepresentationsJheng-Hao Lin, Yist Y. Lin, Chung-Ming Chien, Hung-yi Lee. 836-840 [doi]

An Exemplar Selection Algorithm for Native-Nonnative Voice ConversionChristopher Liberatore, Ricardo Gutierrez-Osuna. 841-845 [doi]

Adversarially Learning Disentangled Speech Representations for Robust Multi-Factor Voice ConversionJie Wang, Jingbei Li, Xintao Zhao, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 846-850 [doi]

Many-to-Many Voice Conversion Based Feature Disentanglement Using Variational AutoencoderManh Luong, Viet-Anh Tran. 851-855 [doi]

Privacy-Preserving Voice Anti-Spoofing Using Secure Multi-Party ComputationOubaïda Chouchane, Baptiste Brossier, Jorge Esteban Gamboa Gamboa, Thomas Lardy, Hemlata Tak, Orhan Ermis, Madhu R. Kamble, Jose Patino 0001, Nicholas Evans, Melek Önen, Massimiliano Todisco. 856-860 [doi]

Configurable Privacy-Preserving Automatic Speech RecognitionRanya Aloufi, Hamed Haddadi, David Boyle. 861-865 [doi]

Adjunct-Emeritus Distillation for Semi-Supervised Language Model AdaptationScott Novotney, Yile Gu, Ivan Bulyko. 866-870 [doi]

Communication-Efficient Agnostic Federated AveragingJae Ro, Mingqing Chen, Rajiv Mathews, Mehryar Mohri, Ananda Theertha Suresh. 871-875 [doi]

Privacy-Preserving Feature Extraction for Cloud-Based Wake Word VerificationTimm Koppelmann, Alexandru Nelus, Lea Schönherr, Dorothea Kolossa, Rainer Martin 0001. 876-880 [doi]

PATE-AAE: Incorporating Adversarial Autoencoder into Private Aggregation of Teacher Ensembles for Spoken Command ClassificationChao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee. 881-885 [doi]

Continual Learning for Fake Audio DetectionHaoxin Ma, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Chenglong Wang. 886-890 [doi]

Evaluating the Vulnerability of End-to-End Automatic Speech Recognition Models to Membership Inference AttacksMuhammad A. Shah, Joseph Szurley, Markus Müller, Athanasios Mouchtaris, Jasha Droppo. 891-895 [doi]

SynthASR: Unlocking Synthetic Data for Speech RecognitionAmin Fazel, Wei Yang, Yulan Liu, Roberto Barra-Chicote, YiXiong Meng, Roland Maas, Jasha Droppo. 896-900 [doi]

DiCOVA Challenge: Dataset, Task, and Baseline System for COVID-19 Diagnosis Using AcousticsAnanya Muguli, Lancelot Pinto, Nirmala R., Neeraj Sharma, Prashant Krishnan V, Prasanta Kumar Ghosh, Rohit Kumar, Shrirama Bhat, Srikanth Raj Chetupalli, Sriram Ganapathy, Shreyas Ramoji, Viral Nanda. 901-905 [doi]

PANACEA Cough Sound-Based Diagnosis of COVID-19 for the DiCOVA 2021 ChallengeMadhu R. Kamble, José Andrés González López, Teresa Grau, Juan M. Espín, Lorenzo Cascioli, Yiqing Huang, Alejandro Gomez-Alanis, Jose Patino 0001, Roberto Font, Antonio M. Peinado, Angel M. Gomez, Nicholas Evans, Maria A. Zuluaga, Massimiliano Todisco. 906-910 [doi]

Recognising Covid-19 from Coughing Using Ensembles of SVMs and LSTMs with Handcrafted and Deep Audio FeaturesVincent Karas, Björn W. Schuller. 911-915 [doi]

Detecting COVID-19 from Audio Recording of Coughs Using Random Forests and Support Vector MachinesIsabella Södergren, Maryam Pahlavan Nodeh, Prakash Chandra Chhipa, Konstantina Nikolaidou, György Kovács. 916-920 [doi]

Diagnosis of COVID-19 Using Auditory Acoustic CuesRohan Kumar Das, Maulik C. Madhavi, Haizhou Li 0001. 921-925 [doi]

Classification of COVID-19 from Cough Using Autoregressive Predictive Coding Pretraining and Spectral Data AugmentationJohn B. Harvill, Yash R. Wani, Mark Hasegawa-Johnson, Narendra Ahuja, David Beiser, David Chestek. 926-930 [doi]

The DiCOVA 2021 Challenge - An Encoder-Decoder Approach for COVID-19 Recognition from Coughing AudioGauri Deshpande, Björn W. Schuller. 931-935 [doi]

COVID-19 Detection from Spectral Features on the DiCOVA DatasetKotra Venkata Sai Ritwik, Shareef Babu Kalluri, Deepu Vijayasenan. 936-940 [doi]

Cough-Based COVID-19 Detection with Contextual Attention Convolutional Neural Networks and Gender InformationAdria Mallol-Ragolta, Helena Cuesta, Emilia Gómez, Björn W. Schuller. 941-945 [doi]

Contrastive Learning of Cough Descriptors for Automatic COVID-19 Preliminary DiagnosisSwapnil Bhosale, Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu. 946-950 [doi]

Investigating Feature Selection and Explainability for COVID-19 Diagnostics from Cough SoundsFlávio Ávila, Amir H. Poorjam, Deepak Mittal, Charles Dognin, Ananya Muguli, Rohit Kumar, Srikanth Raj Chetupalli, Sriram Ganapathy, Maneesh Singh 0001. 951-955 [doi]

Application for Detecting Depression, Parkinson's Disease and Dysphonic SpeechGábor Kiss, Dávid Sztahó, Miklós Gábriel Tulics. 956-957 [doi]

Beey: More Than a Speech-to-Text EditorLenka Weingartová, Veronika Volna, Ewa Balejová. 958-959 [doi]

Downsizing of Vocal-Tract Models to Line up Variations and Reduce Manufacturing CostsTakayuki Arai. 960-961 [doi]

ROXANNE Research Platform: Automate Criminal InvestigationsMaël Fabien, Shantipriya Parida, Petr Motlícek, Dawei Zhu, Aravind Krishnan, Hoang H. Nguyen. 962-964 [doi]

The LIUM Human Active Correction Platform for Speaker DiarizationAlexandre Flucha, Anthony Larcher, Ambuj Mehrish, Sylvain Meignier, Florian Plaut, Nicolas Poupon, Yevhenii Prokopalo, Adrien Puertolas, Meysam Shamsi, Marie Tahon. 965-966 [doi]

On-Device Streaming Transformer-Based End-to-End Speech RecognitionYoo Rhee Oh, Kiyoung Park. 967-968 [doi]

Advanced Semi-Blind Speaker Extraction and Tracking Implemented in Experimental Device with Revolving Dense Microphone ArrayJaroslav Cmejla, Tomás Kounovský, Jakub Janský, Jirí Málek, M. Rozkovec, Zbynek Koldovský. 969-970 [doi]

Information Retrieval for ZeroSpeech 2021: The Submission by University of WroclawJan Chorowski, Grzegorz Ciesielski, Jaroslaw Dzikowski, Adrian Lancucki, Ricard Marxer, Mateusz Opala, Piotr Pusz, Pawel Rychlikowski, Michal Stypulkowski. 971-975 [doi]

Aligned Contrastive Predictive CodingJan Chorowski, Grzegorz Ciesielski, Jaroslaw Dzikowski, Adrian Lancucki, Ricard Marxer, Mateusz Opala, Piotr Pusz, Pawel Rychlikowski, Michal Stypulkowski. 976-980 [doi]

Neural Text Denormalization for Speech TranscriptsBenjamin Suter, Josef Novák. 981-985 [doi]

Fearless Steps Challenge Phase-3 (FSC P3): Advancing SLT for Unseen Channel and Mission Data Across NASA Apollo AudioAditya Joglekar, Seyed Omid Sadjadi, Meena Chandra Shekar, Christopher Cieri, John H. L. Hansen. 986-990 [doi]

Voice Quality in Verbal Irony: Electroglottographic Analyses of Ironic Utterances in Standard Austrian GermanHannah Leykum. 991-995 [doi]

Synchronic Fortition in Five Romance Languages? A Large Corpus-Based Study of Word-Initial DevoicingMathilde Hutin, Yaru Wu, Adèle Jatteau, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker. 996-1000 [doi]

Glottal Stops in Upper Sorbian: A Data-Driven ApproachIvan Kraljevski, Maria Paola Bissiri, Frank Duckhorn, Constanze Tschöpe, Matthias Wolff. 1001-1005 [doi]

Cue Interaction in the Perception of Prosodic Prominence: The Role of Voice QualityBogdan Ludusan, Petra Wagner, Marcin Wlodarczak. 1006-1010 [doi]

Glottal Sounds in KorebajuJenifer Vega Rodríguez, Nathalie Vallée. 1011-1014 [doi]

Automatic Classification of Phonation Types in Spontaneous Speech: Towards a New Workflow for the Characterization of Speakers' Voice QualityAnaïs Chanclu, Imen Ben Amor, Cédric Gendrot, Emmanuel Ferragne, Jean-François Bonastre. 1015-1018 [doi]

Measuring Voice Quality Parameters After Speaker PseudonymizationRob J. J. H. van Son. 1019-1023 [doi]

Audio-Visual Recognition of Emotional Engagement of People with DementiaLars Steinert, Felix Putze, Dennis Küster, Tanja Schultz. 1024-1028 [doi]

Speaking Corona? Human and Machine Recognition of COVID-19 from VoicePascal Hecker, Florian B. Pokorny, Katrin D. Bartl-Pokorny, Uwe Reichel, Zhao Ren, Simone Hantke, Florian Eyben, Dagmar M. Schuller, Bert Arnrich, Björn W. Schuller. 1029-1033 [doi]

Acoustic-Prosodic, Lexical and Demographic Cues to Persuasiveness in Competitive Debate SpeechesHuyen Nguyen, Ralph Vente, David Lupea, Sarah Ita Levitan, Julia Hirschberg. 1034-1038 [doi]

Unsupervised Bayesian Adaptation of PLDA for Speaker VerificationBengt J. Borgström. 1039-1043 [doi]

The DKU-Duke-Lenovo System Description for the Fearless Steps Challenge Phase IIIWeiqing Wang, Danwei Cai, Jin Wang, Qingjian Lin, Xuyang Wang, Mi Hong, Ming Li. 1044-1048 [doi]

Improved Meta-Learning Training for Speaker VerificationYafeng Chen, Wu Guo, Bin Gu. 1049-1053 [doi]

Variational Information Bottleneck Based Regularization for Speaker RecognitionDan Wang, Yuanjie Dong, Yaxing Li, Yunfei Zi, Zhihui Zhang, Xiaoqi Li 0011, Shengwu Xiong. 1054-1058 [doi]

Out of a Hundred Trials, How Many Errors Does Your Speaker Verifier Make?Niko Brümmer, Luciana Ferrer, Albert Swart. 1059-1063 [doi]

SpeakerStew: Scaling to Many Languages with a Triaged Multilingual Text-Dependent and Text-Independent Speaker Verification SystemRoza Chojnacka, Jason Pelecanos, Quan Wang, Ignacio Lopez-Moreno. 1064-1068 [doi]

AntVoice Neural Speaker Embedding System for FFSVC 2020Zhiming Wang, Furong Xu, Kaisheng Yao, Yuan Cheng, Tao Xiong, Huijia Zhu. 1069-1073 [doi]

Gradient Regularization for Noise-Robust Speaker VerificationJianchen Li, Jiqing Han, Hongwei Song. 1074-1078 [doi]

Deep Feature CycleGANs: Speaker Identity Preserving Non-Parallel Microphone-Telephone Domain Adaptation for Speaker VerificationSaurabh Kataria, Jesús Villalba, Piotr Zelasko, Laureano Moro-Velázquez, Najim Dehak. 1079-1083 [doi]

Scaling Effect of Self-Supervised Speech ModelsJie Pu, Yuguang Yang 0004, Ruirui Li, Oguz Elibol, Jasha Droppo. 1084-1088 [doi]

Joint Feature Enhancement and Speaker Recognition with Multi-Objective Task-Oriented NetworkYibo Wu, Longbiao Wang, Kong-Aik Lee, Meng Liu, Jianwu Dang. 1089-1093 [doi]

Multi-Level Transfer Learning from Near-Field to Far-Field Speaker VerificationLi Zhang, Qing Wang, Kong-Aik Lee, Lei Xie, Haizhou Li 0001. 1094-1098 [doi]

Speaker Anonymisation Using the McAdams CoefficientJose Patino 0001, Natalia A. Tomashenko, Massimiliano Todisco, Andreas Nautsch, Nicholas Evans. 1099-1103 [doi]

Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker EnvironmentsYiyu Luo, Jing Wang, Liang Xu, Lidong Yang. 1104-1108 [doi]

TeCANet: Temporal-Contextual Attention Network for Environment-Aware Speech DereverberationHelin Wang, Bo Wu, LianWu Chen, Meng Yu 0003, Jianwei Yu, Yong Xu, Shi-Xiong Zhang, Chao Weng, Dan Su, Dong Yu. 1109-1113 [doi]

Residual Echo and Noise Cancellation with Feature Attention Module and Multi-Domain Loss FunctionJianjun Gu, Longbiao Cheng, Xingwei Sun, Junfeng Li, Yonghong Yan 0002. 1114-1118 [doi]

MIMO Self-Attentive RNN Beamformer for Multi-Speaker Speech SeparationXiyun Li, Yong Xu, Meng Yu 0003, Shi-Xiong Zhang, Jiaming Xu 0001, Bo Xu 0002, Dong Yu 0001. 1119-1123 [doi]

Personalized PercepNet: Real-Time, Low-Complexity Target Voice Separation and EnhancementRitwik Giri, Shrikant Venkataramani, Jean-Marc Valin, Umut Isik, Arvindh Krishnaswamy. 1124-1128 [doi]

Scene-Agnostic Multi-Microphone Speech DereverberationYochai Yemini, Ethan Fetaya, Haggai Maron, Sharon Gannot. 1129-1133 [doi]

Manifold-Aware Deep Clustering: Maximizing Angles Between Embedding Vectors Based on Regular SimplexKeitaro Tanaka, Ryosuke Sawata, Shusuke Takahashi. 1134-1138 [doi]

A Deep Learning Approach to Multi-Channel and Multi-Microphone Acoustic Echo CancellationHao Zhang, DeLiang Wang. 1139-1143 [doi]

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source SeparationYueyue Na, Ziteng Wang, Zhang Liu, Biao Tian, Qiang Fu. 1144-1148 [doi]

Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech RecognitionHiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoyuki Kamo. 1149-1153 [doi]

Estimating Articulatory Movements in Speech Production with Transformer NetworksSathvik Udupa, Anwesha Roy, Abhayjeet Singh, Aravind Illa, Prasanta Kumar Ghosh. 1154-1158 [doi]

Unsupervised Multi-Target Domain Adaptation for Acoustic Scene ClassificationDongchao Yang, Helin Wang, Yuexian Zou. 1159-1163 [doi]

Speech Decomposition Based on a Hybrid Speech Model and Optimal SegmentationAlfredo Esquivel Jaramillo, Jesper Kjær Nielsen, Mads Græsbøll Christensen. 1164-1168 [doi]

Dropout Regularization for Self-Supervised Learning of Transformer Encoder Speech RepresentationJian Luo, Jianzong Wang, Ning Cheng, Jing Xiao. 1169-1173 [doi]

Noise Robust Pitch Stylization Using Minimum Mean Absolute Error CriterionChiranjeevi Yarra, Prasanta Kumar Ghosh. 1174-1178 [doi]

An Attribute-Aligned Strategy for Learning Speech RepresentationYu-Lin Huang, Bo-Hao Su, Y.-W. Peter Hong, Chi-Chun Lee. 1179-1183 [doi]

Raw Speech-to-Articulatory Inversion by Temporal Filtering and DecimationAbdolreza Sabzi Shahrebabaki, Sabato Marco Siniscalchi, Torbjørn Svendsen. 1184-1188 [doi]

Unsupervised Training of a DNN-Based Formant TrackerJason Lilley, H. Timothy Bunnell. 1189-1193 [doi]

SUPERB: Speech Processing Universal PERformance BenchmarkShu-Wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Jeff Lai, Kushal Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting Lin, Tzu-hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang, Shuyan Dong, Shang-wen Li 0001, Shinji Watanabe 0001, Abdelrahman Mohamed, Hung-yi Lee. 1194-1198 [doi]

Synchronising Speech Segments with Musical Beats in Mandarin and English SingingCong Zhang, Jian Zhu. 1199-1203 [doi]

FRILL: A Non-Semantic Speech Embedding for Mobile DevicesJacob Peplinski, Joel Shor, Sachin Joglekar, Jake Garrison, Shwetak N. Patel. 1204-1208 [doi]

Pitch Contour Separation from Overlapping SpeechHiroki Mori. 1209-1213 [doi]

Do Sound Event Representations Generalize to Other Audio Tasks? A Case Study in Audio Transfer LearningAnurag Kumar 0003, Yun Wang, Vamsi Krishna Ithapu, Christian Fuegen. 1214-1218 [doi]

Data Augmentation for Spoken Language Understanding via Pretrained Language ModelsBaolin Peng, Chenguang Zhu, Michael Zeng, Jianfeng Gao. 1219-1223 [doi]

FANS: Fusing ASR and NLU for On-Device SLUMartin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow. 1224-1228 [doi]

Sequential End-to-End Intent and Slot Label Classification and LocalizationYiran Cao, Nihal Potdar, Anderson R. Avila. 1229-1233 [doi]

DEXTER: Deep Encoding of External Knowledge for Named Entity Recognition in Virtual AssistantsDeepak Muralidharan, Joel Ruben Antony Moniz, Weicheng Zhang, Stephen Pulman, Lin Li, Megan Barnes, Jingjing Pan, Jason D. Williams, Alex Acero. 1234-1238 [doi]

A Context-Aware Hierarchical BERT Fusion Network for Multi-Turn Dialog Act DetectionTing-Wei Wu, Ruolin Su, Biing-Hwang Juang. 1239-1243 [doi]

Pre-Training for Spoken Language Understanding with Joint Textual and Phonetic Representation LearningQian Chen 0003, Wen Wang, Qinglin Zhang. 1244-1248 [doi]

Predicting Temporal Performance Drop of Deployed Production Spoken Language Understanding ModelsQuynh Do, Judith Gaspers, Daniil Sorokin, Patrick Lehnen. 1249-1253 [doi]

Integrating Dialog History into End-to-End Spoken Language Understanding SystemsJatin Ganhotra, Samuel Thomas 0001, Hong-Kwang Jeff Kuo, Sachindra Joshi, George Saon, Zoltán Tüske, Brian Kingsbury. 1254-1258 [doi]

Coreference Augmentation for Multi-Domain Task-Oriented Dialogue State TrackingTing Han, Chongxuan Huang, Wei Peng. 1259-1263 [doi]

Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language UnderstandingSiddhant Arora, Alissa Ostapenko, Vijay Viswanathan 0002, Siddharth Dalmia, Florian Metze, Shinji Watanabe 0001, Alan W. Black. 1264-1268 [doi]

Semantic Data Augmentation for End-to-End Mandarin Speech RecognitionJianwei Sun, Zhiyuan Tang, Hengxin Yin, Wei Wang, Xi Zhao, Shuaijiang Zhao, Xiaoning Lei, Wei Zou, Xiangang Li. 1269-1273 [doi]

Layer-Wise Fast Adaptation for End-to-End Multi-Accent Speech RecognitionXun Gong, Yizhou Lu, Zhikai Zhou, Yanmin Qian. 1274-1278 [doi]

Low Resource German ASR with Untranscribed Data Spoken by Non-Native Children - INTERSPEECH 2021 Shared Task SPAPL SystemJinhan Wang, Yunzheng Zhu, Ruchao Fan, Wei Chu, Abeer Alwan. 1279-1283 [doi]

Robust Continuous On-Device Personalization for Automatic Speech RecognitionKhe Chai Sim, Angad Chandorkar, Fan Gao, Mason Chua, Tsendsuren Munkhdalai, Françoise Beaufays. 1284-1288 [doi]

Speaker Normalization Using Joint Variational AutoencoderShashi Kumar, Shakti P. Rath, Abhishek Pandey. 1289-1293 [doi]

The TAL System for the INTERSPEECH2021 Shared Task on Automatic Speech Recognition for Non-Native Childrens SpeechGaopeng Xu, Song Yang, Lu Ma, Chengfei Li, Zhongqin Wu. 1294-1298 [doi]

On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASRTsz Kin Lam, Mayumi Ohta, Shigehiko Schamoni, Stefan Riezler. 1299-1303 [doi]

Zero-Shot Cross-Lingual Phonetic Recognition with External Language EmbeddingHeting Gao, Junrui Ni, Yang Zhang, Kaizhi Qian, Shiyu Chang, Mark Hasegawa-Johnson. 1304-1308 [doi]

Rapid Speaker Adaptation for Conformer Transducer: Attention and Bias Are All You NeedYan Huang 0028, Guoli Ye, Jinyu Li 0001, Yifan Gong 0001. 1309-1313 [doi]

Best of Both Worlds: Robust Accented Speech Recognition with Adversarial Transfer LearningNilaksh Das, Sravan Bodapati, Monica Sunkara, Sundararajan Srinivasan, Duen Horng Chau. 1314-1318 [doi]

Extending Pronunciation Dictionary with Automatically Detected Word Mispronunciations to Improve PAII's System for Interspeech 2021 Non-Native Child English Close Track ASR ChallengeWei Chu, Peng Chang 0002, Jing Xiao 0006. 1319-1323 [doi]

CVC: Contrastive Learning for Non-Parallel Voice ConversionTingle Li, Yichen Liu, Chenxu Hu, Hang Zhao. 1324-1328 [doi]

A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice ConversionWen-Chin Huang, Kazuhiro Kobayashi, Yu-Huai Peng, Ching-Feng Liu, Yu Tsao, Hsin-Min Wang, Tomoki Toda. 1329-1333 [doi]

One-Shot Voice Conversion with Speaker-Agnostic StarGANSefik Emre Eskimez, Dimitrios Dimitriadis, Ken'ichi Kumatani, Robert Gmyr. 1334-1338 [doi]

Fine-Tuning Pre-Trained Voice Conversion Model for Adding New Target Speakers with Limited DataTakeshi Koshizuka, Hidefumi Ohmura, Kouichi Katsurada. 1339-1343 [doi]

VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-Shot Voice ConversionDisong Wang, Liqun Deng, Yu Ting Yeung, Xiao Chen, Xunying Liu, Helen Meng. 1344-1348 [doi]

StarGANv2-VC: A Diverse, Unsupervised, Non-Parallel Framework for Natural-Sounding Voice ConversionYinghao Aaron Li, Ali Zare, Nima Mesgarani. 1349-1353 [doi]

Normalization Driven Zero-Shot Multi-Speaker Speech SynthesisNeeraj Kumar 0010, Srishti Goel, Ankur Narang, Brejesh Lall. 1354-1358 [doi]

StarGAN-VC+ASR: StarGAN-Based Non-Parallel Voice Conversion Regularized by Automatic Speech RecognitionShoki Sakamoto, Akira Taniguchi, Tadahiro Taniguchi, Hirokazu Kameoka. 1359-1363 [doi]

Two-Pathway Style Embedding for Arbitrary Voice ConversionXuexin Xu, Liang Shi, Jinhui Chen, Xunquan Chen, Jie Lian, Pingyuan Lin, Zhihong Zhang, Edwin R. Hancock. 1364-1368 [doi]

Non-Parallel Any-to-Many Voice Conversion by Replacing Speaker StatisticsYufei Liu, Chengzhu Yu, Wang Shuai, Zhenchuan Yang, Yang Chao, Weibin Zhang. 1369-1373 [doi]

Cross-Lingual Voice Conversion with a Cycle Consistency Loss on Linguistic RepresentationYi Zhou, Xiaohai Tian, Zhizheng Wu, Haizhou Li 0001. 1374-1378 [doi]

Improving Robustness of One-Shot Voice Conversion with Deep Discriminative Speaker EncoderHongqiang Du, Lei Xie. 1379-1383 [doi]

Optimizing an Automatic Creaky Voice Detection Method for Australian English Speaking FemalesHannah White, Joshua Penney, Andy Gibson, Anita Szakay, Felicity Cox. 1384-1388 [doi]

A Comparison of Acoustic Correlates of Voice Quality Across Different Recording Devices: A Cautionary TaleJoshua Penney, Andy Gibson, Felicity Cox, Michael I. Proctor, Anita Szakay. 1389-1393 [doi]

Investigating Voice Function Characteristics of Greek Speakers with Hearing Loss Using Automatic Glottal Source Feature ExtractionAnna Sfakianaki, George P. Kafentzis. 1394-1398 [doi]

Automated Detection of Voice Disorder in the Saarbrücken Voice Database: Effects of Pathology Subset and Audio MaterialsMark A. Huckvale, Catinca Buciuleac. 1399-1403 [doi]

Accelerometer-Based Measurements of Voice Quality in Children During Semi-Occluded Vocal Tract Exercise with a Narrow Straw in AirSteven M. Lulich, Rita R. Patel. 1404-1408 [doi]

Articulatory Coordination for Speech Motor Tracking in Huntington DiseaseMatthew Perez, Amrit Romana, Angela Roberts, Noelle Carlozzi, Jennifer Ann Miner, Praveen Dayalu, Emily Mower Provost. 1409-1413 [doi]

Modeling Dysphonia Severity as a Function of Roughness and Breathiness Ratings in the GRBAS ScaleCarlos A. Ferrer, Efren Aragón, María E. Hdez-Díaz, Marc S. De Bodt, Roman Cmejla, Marina Englert, Mara Behlau, Elmar Nöth. 1414-1418 [doi]

Golos: Russian Dataset for Speech ResearchNikolay Karpov, Alexander Denisenko, Fedor Minkin. 1419-1423 [doi]

Radically Old Way of Computing Spectra: Applications in End-to-End ASRSamik Sadhu, Hynek Hermansky. 1424-1428 [doi]

Self-Supervised End-to-End ASR for Low Resource L2 SwedishRagheb Al-Ghezi, Yaroslav Getman, Aku Rouhe, Raili Hildén, Mikko Kurimo. 1429-1433 [doi]

SPGISpeech: 5, 000 Hours of Transcribed Financial Audio for Fully Formatted End-to-End Speech RecognitionPatrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe 0001, Georg Kucsko. 1434-1438 [doi]

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from SpeechSolène Evain, Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli, Titouan Parcollet, Alexandre Allauzen, Yannick Estève, Benjamin Lecouteux, François Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier. 1439-1443 [doi]

Prosodic Accommodation in Face-to-Face and Telephone DialoguesPavel Sturm, Radek Skarnitzl, Tomás Nechanský. 1444-1448 [doi]

Dialect Features in Heterogeneous and Homogeneous Gheg Speaking CommunitiesJosiane Riverin-Coutlée, Conceição Cunha, Enkeleida Kapia, Jonathan Harrington. 1449-1453 [doi]

An Exploration of the Acoustic Space of Rhotics and Laterals in RuruuliMargaret Zellers, Alena Witzlack-Makarevich, Lilja Saeboe, Saudah Namyalo. 1454-1458 [doi]

Domain-Initial Strengthening in Turkish: Acoustic Cues to Prosodic Hierarchy in Stop ConsonantsKubra Bodur, Sweeney Branje, Morgane Peirolo, Ingrid Tiscareno, James Sneed German. 1459-1463 [doi]

Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker CharacteristicsKaterina Zmolíková, Marc Delcroix, Desh Raj, Shinji Watanabe 0001, Jan Cernocký. 1464-1468 [doi]

Universal Speaker Extraction in the Presence and Absence of Target Speakers for Speech of One and Two TalkersMarvin Borsdorf, Chenglin Xu, Haizhou Li 0001, Tanja Schultz. 1469-1473 [doi]

Using X-Vectors for Speech Activity Detection in Broadcast StreamsLukás Mateju, Frantisek Kynych, Petr Cerva, Jindrich Zdánský, Jirí Málek. 1474-1478 [doi]

Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT FeaturesDaniele Salvati, Carlo Drioli, Gian Luca Foresti. 1479-1483 [doi]

Real-Time Speaker Counting in a Cocktail Party Scenario Using Attention-Guided Convolutional Neural NetworkMidia Yousefi, John H. L. Hansen. 1484-1488 [doi]

End-to-End Language Diarization for Bilingual Code-Switching SpeechHexin Liu, Leibny Paola García-Perera, Xinyi Zhang, Justin Dauwels, Andy W. H. Khong, Sanjeev Khudanpur, Suzy J. Styles. 1489-1493 [doi]

Modeling and Training Strategies for Language Recognition SystemsRaphaël Duroselle, Md. Sahidullah, Denis Jouvet, Irina Illina. 1494-1498 [doi]

A Weight Moving Average Based Alternate Decoupled Learning Algorithm for Long-Tailed Language IdentificationHui Wang, Lin Liu, Yan Song, Lei Fang, Ian McLoughlin 0001, Li-Rong Dai 0001. 1499-1503 [doi]

Improving Accent Identification and Accented Speech Recognition Under a Framework of Self-Supervised LearningKeqi Deng, Songjun Cao, Long Ma. 1504-1508 [doi]

Exploring wav2vec 2.0 on Speaker Verification and Language IdentificationZhiyun Fan, Meng Li, Shiyu Zhou, Bo Xu. 1509-1513 [doi]

Self-Supervised Phonotactic Representations for Language IdentificationG. Ramesh, C. Shiva Kumar, K. Sri Rama Murty. 1514-1518 [doi]

E2E-Based Multi-Task Learning Approach to Joint Speech and Accent RecognitionJicheng Zhang, Yizhou Peng, Van Tung Pham, Haihua Xu, Hao Huang, Eng Siong Chng. 1519-1523 [doi]

Excitation Source Feature Based Dialect Identification in Ao - A Low Resource LanguageMoakala Tzudir, Shikha Baghel, Priyankoo Sarmah, S. R. Mahadeva Prasanna. 1524-1528 [doi]

Low Resource ASR: The Surprising Effectiveness of High Resource TransliterationShreya Khare, Ashish R. Mittal, Anuj Diwan, Sunita Sarawagi, Preethi Jyothi, Samarth Bharadwaj. 1529-1533 [doi]

Unsupervised Acoustic Unit Discovery by Leveraging a Language-Independent Subword Discriminative Feature RepresentationSiyuan Feng, Piotr Zelasko, Laureano Moro-Velázquez, Odette Scharenborg. 1534-1538 [doi]

Towards Unsupervised Phone and Word Segmentation Using Self-Supervised Vector-Quantized Neural NetworksHerman Kamper, Benjamin van Niekerk. 1539-1543 [doi]

Speech SimCLR: Combining Contrastive and Reconstruction Objective for Self-Supervised Speech Representation LearningDongwei Jiang, Wubo Li, Miao Cao, Wei Zou, Xiangang Li. 1544-1548 [doi]

Multilingual Transfer of Acoustic Word Embeddings Improves When Training on Languages Related to the Target Zero-Resource LanguageChristiaan Jacobs, Herman Kamper. 1549-1553 [doi]

Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech ProcessingBenjamin van Niekerk, Leanne Nortje, Matthew Baas, Herman Kamper. 1554-1558 [doi]

Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource LanguagesShun Takahashi, Sakriani Sakti, Satoshi Nakamura. 1559-1563 [doi]

Speech Representation Learning Combining Conformer CPC with Deep Cluster for the ZeroSpeech Challenge 2021Takashi Maekaku, Xuankai Chang, Yuya Fujita, Li-Wei Chen, Shinji Watanabe, Alexander I. Rudnicky. 1564-1568 [doi]

Identifying Indicators of Vulnerability from Short Speech Segments Using Acoustic and Textual FeaturesXia Cui, Amila Gamage, Terry Hanley, Tingting Mu. 1569-1573 [doi]

The Zero Resource Speech Challenge 2021: Spoken Language ModellingEwan Dunbar, Mathieu Bernard, Nicolas Hamilakis, Tu Anh Nguyen, Maureen de Seyssel, Patricia Rozé, Morgane Rivière, Eugene Kharitonov, Emmanuel Dupoux. 1574-1578 [doi]

Zero-Shot Federated Learning with New Classes for Audio ClassificationGautham Krishna Gudur, Satheesh Kumar Perepu. 1579-1583 [doi]

AVLnet: Learning Audio-Visual Language Representations from Instructional VideosAndrew Rouditchenko, Angie W. Boggust, David Harwath, Brian Chen, Dhiraj Joshi, Samuel Thomas 0001, Kartik Audhkhasi, Hilde Kuehne, Rameswar Panda, Rogério Schmidt Feris, Brian Kingsbury, Michael Picheny, Antonio Torralba 0001, James R. Glass. 1584-1588 [doi]

N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation EnhancementGyeong-Hoon Lee, Tae-Woo Kim, Hanbin Bae, Min-Ji Lee, Young Ik Kim, Hoon-Young Cho. 1589-1593 [doi]

Cross-Lingual Low Resource Speaker Adaptation Using Phonological FeaturesGeorgia Maniati, Nikolaos Ellinas, Konstantinos Markopoulos, Georgios Vamvoukakis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis. 1594-1598 [doi]

Improve Cross-Lingual Text-To-Speech Synthesis on Monolingual Corpora with Pitch Contour InformationHaoyue Zhan, Haitong Zhang, Wenjie Ou, Yue Lin. 1599-1603 [doi]

Cross-Lingual Voice Conversion with Disentangled Universal Linguistic RepresentationsZhenchuan Yang, Weibin Zhang, Yufei Liu, Xiaofen Xing. 1604-1608 [doi]

EfficientSing: A Chinese Singing Voice Synthesis System Using Duration-Free Acoustic Model and HiFi-GAN VocoderZhengchen Liu, Chenfeng Miao, Qingying Zhu, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao. 1609-1613 [doi]

Cross-Lingual Speaker Adaptation Using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech SynthesisDetai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari. 1614-1618 [doi]

Incorporating Cross-Speaker Style Transfer for Multi-Language Text-to-SpeechZengqiang Shang, Zhihua Huang, Haozhe Zhang, Pengyuan Zhang, Yonghong Yan 0002. 1619-1623 [doi]

Investigating Contributions of Speech and Facial Landmarks for Talking Head GenerationEge Kesim, Engin Erzin. 1624-1628 [doi]

Speech2Video: Cross-Modal Distillation for Speech to Video GenerationShijing Si, Jianzong Wang, Xiaoyang Qu, Ning Cheng, Wenqi Wei, Xinghua Zhu, Jing Xiao. 1629-1633 [doi]

NU-Wave: A Diffusion Probabilistic Model for Neural Audio UpsamplingJunhyeok Lee, Seungu Han. 1634-1638 [doi]

QISTA-Net-Audio: Audio Super-Resolution via Non-Convex ℓ_q-Norm MinimizationGang-Xuan Lin, Shih-Wei Hu, Yen-Ju Lu, Yu Tsao 0001, Chun-Shien Lu. 1639-1643 [doi]

X-net: A Joint Scale Down and Scale Up Method for Voice CallLiang Wen, Lizhong Wang, Xue Wen, Yuxing Zheng, Youngo Park, Kwang-Pyo Choi. 1644-1648 [doi]

WSRGlow: A Glow-Based Waveform Generative Model for Audio Super-ResolutionKexun Zhang, Yi Ren 0006, Changliang Xu, Zhou Zhao. 1649-1653 [doi]

Half-Truth: A Partially Fake Audio Detection DatasetJiangyan Yi, Ye Bai, Jianhua Tao, Haoxin Ma, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu. 1654-1658 [doi]

Data Quality as Predictor of Voice Anti-Spoofing GeneralizationBhusan Chettri, Rosa González Hautamäki, Md. Sahidullah, Tomi Kinnunen. 1659-1663 [doi]

Coded Speech Enhancement Using Neural Network-Based Vector-Quantized Residual FeaturesYoungju Cheon, Soojoong Hwang, Sangwook Han, Inseon Jang, Jong Won Shin. 1664-1668 [doi]

Multi-Channel Opus Compression for Far-Field Automatic Speech Recognition with a Fixed Bitrate BudgetLukas Drude, Jahn Heymann, Andreas Schwarz, Jean-Marc Valin. 1669-1673 [doi]

Effects of Prosodic Variations on Accidental Triggers of a Commercial Voice AssistantIngo Siegert. 1674-1678 [doi]

Improving the Expressiveness of Neural Vocoding with Non-Affine Normalizing FlowsAdam Gabrys, Yunlong Jiao, Viacheslav Klimkov, Daniel Korzekwa, Roberto Barra-Chicote. 1679-1683 [doi]

Voice Privacy Through x-Vector and CycleGAN-Based AnonymizationGauri P. Prajapati, Dipesh K. Singh, Preet P. Amin, Hemant A. Patil. 1684-1688 [doi]

A Two-Stage Approach to Speech Bandwidth ExtensionJu Lin, Yun Wang, Kaustubh Kalgaonkar, Gil Keren, Didi Zhang, Christian Fuegen. 1689-1693 [doi]

Development of a Psychoacoustic Loss Function for the Deep Neural Network (DNN)-Based Speech CoderJoon Byun, Seungmin Shin, Youngcheol Park, Jongmo Sung, Seungkwon Beack. 1694-1698 [doi]

Protecting Gender and Identity with Disentangled Speech RepresentationsDimitrios Stoidis, Andrea Cavallaro. 1699-1703 [doi]

Perception of Standard Arabic Synthetic Speech RateYahya Aldholmi, Rawan Aldhafyan, Asma Alqahtani. 1704-1707 [doi]

The Influence of Parallel Processing on Illusory VowelsTakeshi Kishiyama. 1708-1712 [doi]

Exploring the Potential of Lexical Paraphrases for Mitigating Noise-Induced Comprehension ErrorsAnupama Chingacham, Vera Demberg, Dietrich Klakow. 1713-1717 [doi]

SpeechAdjuster: A Tool for Investigating Listener Preferences and Speech IntelligibilityOlympia Simantiraki, Martin Cooke. 1718-1722 [doi]

VocalTurk: Exploring Feasibility of Crowdsourced Speaker IdentificationSusumu Saito, Yuta Ide, Teppei Nakano, Tetsuji Ogawa. 1723-1727 [doi]

Effects of Aging and Age-Related Hearing Loss on Talker DiscriminationMin Xu, Jing Shao, Lan Wang. 1728-1732 [doi]

Relationships Between Perceptual Distinctiveness, Articulatory Complexity and Functional Load in Speech CommunicationYuqing Zhang, Zhu Li, Bin Wu, Yanlu Xie, Binghuai Lin, Jinsong Zhang. 1733-1737 [doi]

Human Spoofing Detection Performance on Degraded SpeechCamryn Terblanche, Philip Harrison, Amelia Jane Gully. 1738-1742 [doi]

Reliable Estimates of Interpretable Cue Effects with Active Learning in Psycholinguistic ResearchMarieke Einfeldt, Rita Sevastjanova, Katharina Zahner-Ritter, Ekaterina Kazak, Bettina Braun. 1743-1747 [doi]

Towards the Explainability of Multimodal Speech Emotion RecognitionPuneet Kumar 0003, Vishesh Kaushik, Balasubramanian Raman. 1748-1752 [doi]

Primacy of Mouth over Eyes: Eye Movement Evidence from Audiovisual Mandarin Lexical Tones and VowelsBiao Zeng, Rui Wang, Guoxing Yu, Christian Dobel. 1753-1756 [doi]

Investigating the Impact of Spectral and Temporal Degradation on End-to-End Automatic Speech Recognition PerformanceTakanori Ashihara, Takafumi Moriya, Makio Kashino. 1757-1761 [doi]

Super-Human Performance in Online Low-Latency Recognition of Conversational SpeechThai Son Nguyen, Sebastian Stüker, Alex Waibel. 1762-1766 [doi]

Multiple Softmax Architecture for Streaming Multilingual End-to-End ASR SystemsVikas Joshi, Amit Das, Eric Sun, Rupesh R. Mehta, Jinyu Li 0001, Yifan Gong 0001. 1767-1771 [doi]

Contextualized Streaming End-to-End Speech Recognition with Trie-Based Deep Biasing and Shallow FusionDuc Le, Mahaveer Jain, Gil Keren, Suyoun Kim, Yangyang Shi, Jay Mahadeokar, Julian Chan, Yuan Shangguan, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Michael L. Seltzer. 1772-1776 [doi]

An Efficient Streaming Non-Recurrent On-Device End-to-End Model with Improvements to Rare-Word ModelingTara N. Sainath, Yanzhang He, Arun Narayanan, Rami Botros, Ruoming Pang, David Rybach, Cyril Allauzen, Ehsan Variani, James Qin, Quoc-Nam Le-The, Shuo-Yiin Chang, Bo Li 0028, Anmol Gulati, Jiahui Yu, Chung-Cheng Chiu, Diamantino Caseiro, Wei Li, Qiao Liang, Pat Rondon. 1777-1781 [doi]

Streaming Multi-Talker Speech Recognition with Joint Speaker IdentificationLiang Lu 0001, Naoyuki Kanda, Jinyu Li 0001, Yifan Gong 0001. 1782-1786 [doi]

Streaming End-to-End Speech Recognition for Hybrid RNN-T/Attention ArchitectureTakafumi Moriya, Tomohiro Tanaka, Takanori Ashihara, Tsubasa Ochiai, Hiroshi Sato, Atsushi Ando, Ryo Masumura, Marc Delcroix, Taichi Asami. 1787-1791 [doi]

Improving RNN-T ASR Accuracy Using Context AudioAndreas Schwarz, Ilya Sklyar, Simon Wiesler. 1792-1796 [doi]

HMM-Free Encoder Pre-Training for Streaming RNN TransducerLu Huang, Jingyu Sun, Yufeng Tang, Junfeng Hou, Jinkun Chen, Jun Zhang, Zejun Ma. 1797-1801 [doi]

Reducing Exposure Bias in Training Recurrent Neural Network TransducersXiaodong Cui, Brian Kingsbury, George Saon, David Haws, Zoltán Tüske. 1802-1806 [doi]

Bridging the Gap Between Streaming and Non-Streaming ASR Systems by Distilling Ensembles of CTC and RNN-T ModelsThibault Doutre, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Olivier Siohan, Liangliang Cao. 1807-1811 [doi]

Mixture Model Attention: Flexible Streaming and Non-Streaming Automatic Speech RecognitionKartik Audhkhasi, Tongzhou Chen, Bhuvana Ramabhadran, Pedro J. Moreno. 1812-1816 [doi]

StableEmit: Selection Probability Discount for Reducing Emission Latency of Streaming Monotonic Attention ASRHirofumi Inaguma, Tatsuya Kawahara. 1817-1821 [doi]

Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech RecognitionNiko Moritz, Takaaki Hori, Jonathan Le Roux. 1822-1826 [doi]

Multi-Mode Transformer Transducer with Stochastic Future ContextKwangyoun Kim, Felix Wu, Prashant Sridhar, Kyu J. Han, Shinji Watanabe. 1827-1831 [doi]

A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech EnhancementXinlei Ren, Xu Zhang, LianWu Chen, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 1832-1836 [doi]

A Partitioned-Block Frequency-Domain Adaptive Kalman Filter for Stereophonic Acoustic Echo CancellationRui Zhu, Feiran Yang, Yuepeng Li, Shidong Shang. 1837-1841 [doi]

Real-Time Independent Vector Analysis Using Semi-Supervised Nonnegative Matrix Factorization as a Source ModelTaihui Wang, Feiran Yang, Rui Zhu, Jun Yang. 1842-1846 [doi]

Improving Channel Decorrelation for Multi-Channel Target Speech ExtractionJiangyu Han, Wei Rao, Yannan Wang, Yanhua Long. 1847-1851 [doi]

Inplace Gated Convolutional Recurrent Neural Network for Dual-Channel Speech EnhancementJinjiang Liu, Xueliang Zhang. 1852-1856 [doi]

SRIB-LEAP Submission to Far-Field Multi-Channel Speech Enhancement Challenge for Video ConferencingR. G. Prithvi Raj, Rohit Kumar, M. K. Jayesh, Anurenjan Purushothaman, Sriram Ganapathy, M. A. Basha Shaik. 1857-1861 [doi]

Real-Time Multi-Channel Speech Enhancement Based on Neural Network Masking with Attention ModelCheng Xue, Weilong Huang, Weiguang Chen, Jinwei Feng. 1862-1866 [doi]

BERT-Based Semantic Model for Rescoring N-Best Speech Recognition ListDominique Fohr, Irina Illina. 1867-1871 [doi]

Text Augmentation for Language Models in High Error Recognition ScenarioKarel Benes, Lukás Burget. 1872-1876 [doi]

On Sampling-Based Training Criteria for Neural Language ModelingYingbo Gao, David Thulke, Alexander Gerstenberger, Khoa Viet Tran, Ralf Schlüter, Hermann Ney. 1877-1881 [doi]

Fast Text-Only Domain Adaptation of RNN-Transducer Prediction NetworkJanne Pylkkönen, Antti Ukkonen, Juho Kilpikoski, Samu Tamminen, Hannes Heikinheimo. 1882-1886 [doi]

Using Games to Augment Corpora for Language Recognition and ConfusabilityChristopher Cieri, James Fiumara, Jonathan Wright. 1887-1891 [doi]

Fair Voice Biometrics: Impact of Demographic Imbalance on Group Fairness in Speaker RecognitionGianni Fenu, Mirko Marras, Giacomo Medda, Giacomo Meloni. 1892-1896 [doi]

Knowledge Distillation from Multi-Modality to Single-Modality for Person VerificationLeying Zhang, Zhengyang Chen, Yanmin Qian. 1897-1901 [doi]

Adversarial Disentanglement of Speaker Representation for Attribute-Driven Privacy PreservationPaul-Gauthier Noé, Mohammad MohammadAmini, Driss Matrouf, Titouan Parcollet, Andreas Nautsch, Jean-François Bonastre. 1902-1906 [doi]

Automatically Detecting Errors and Disfluencies in Read Speech to Predict Cognitive Impairment in People with Parkinson's DiseaseAmrit Romana, John Bandon, Matthew Perez, Stephanie Gutierrez, Richard Richter, Angela Roberts, Emily Mower Provost. 1907-1911 [doi]

Automatic Extraction of Speech Rhythm Descriptors for Speech Intelligibility Assessment in the Context of Head and Neck CancersRobin Vaysse, Jérôme Farinas, Corine Astésano, Régine André-Obrecht. 1912-1916 [doi]

Speech Disorder Classification Using Extended Factorized Hierarchical Variational Auto-EncodersJinzi Qi, Hugo Van Hamme. 1917-1921 [doi]

The Impact of Forced-Alignment Errors on Automatic Pronunciation EvaluationVikram C. Mathad, Tristan J. Mahr, Nancy Scherer, Kathy Chapman, Katherine C. Hustad, Julie Liss, Visar Berisha. 1922-1926 [doi]

Late Fusion of the Available Lexicon and Raw Waveform-Based Acoustic Modeling for Depression and Dementia RecognitionEsaú Villatoro-Tello, S. Pavankumar Dubagunta, Julian Fritsch, Gabriela Ramírez-de-la-Rosa, Petr Motlícek, Mathew Magimai-Doss. 1927-1931 [doi]

Neural Speaker Embeddings for Ultrasound-Based Silent Speech InterfacesAmin Honarmandi Shandiz, László Tóth 0001, Gábor Gosztolya, Alexandra Markó, Tamás Gábor Csapó. 1932-1936 [doi]

Cross-Modal Learning for Audio-Visual Video ParsingJatin Lamba, Abhishek, Jayaprakash Akula, Rishabh Dabral, Preethi Jyothi, Ganesh Ramakrishnan. 1937-1941 [doi]

A Psychology-Driven Computational Analysis of Political InterviewsDarren Cook, Miri Zilka, Simon Maskell, Laurence Alison. 1942-1946 [doi]

Speech Emotion Recognition Based on Attention Weight Correction Using Word-Level Confidence MeasureJennifer Santoso, Takeshi Yamada, Shoji Makino, Kenkichi Ishizuka, Takekatsu Hiramura. 1947-1951 [doi]

Effects of Voice Type and Task on L2 Learners' Awareness of Pronunciation ErrorsAlif Silpachai, Ivana Rehman, Taylor Anne Barriuso, John Levis, Evgeny Chukharev-Hudilainen, Guanlong Zhao, Ricardo Gutierrez-Osuna. 1952-1956 [doi]

Lexical Entrainment and Intra-Speaker Variability in Cooperative DialoguesAlla Menshikova, Daniil Kocharov, Tatiana Kachkovskaia. 1957-1961 [doi]

Detecting Alzheimer's Disease Using Interactional and Acoustic Features from Spontaneous SpeechShamila Nasreen, Julian Hough, Matthew Purver. 1962-1966 [doi]

Investigating the Interplay Between Affective, Phonatory and Motoric Subsystems in Autism Spectrum Disorder Using a Multimodal Dialogue AgentHardik Kothare, Vikram Ramanarayanan, Oliver Roesler, Michael Neumann, Jackson Liscombe, William Burke, Andrew Cornish, Doug Habberstad, Alaa Sakallah, Sara Markuson, Seemran Kansara, Afik Faerman, Yasmine Bensidi-Slimane, Laura Fry, Saige Portera, David Suendermann-Oeft, David Pautler, Carly Demopoulos. 1967-1971 [doi]

Analysis of Eye Gaze Reasons and Gaze Aversions During Three-Party ConversationsCarlos Toshinori Ishi, Taiken Shintani. 1972-1976 [doi]

Semantic Distance: A New Metric for ASR Performance Analysis Towards Spoken Language UnderstandingSuyoun Kim, Abhinav Arora, Duc Le, Ching-feng Yeh, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer. 1977-1981 [doi]

A Light-Weight Contextual Spelling Correction Model for Customizing Transducer-Based Speech Recognition SystemsXiaoqiang Wang, Yanqing Liu, Sheng Zhao, Jinyu Li 0001. 1982-1986 [doi]

Incorporating External POS Tagger for Punctuation RestorationNing Shi, Wei Wang, Boxin Wang, Jinfeng Li, Xiangyu Liu, Zhouhan Lin. 1987-1991 [doi]

Phonetically Induced Subwords for End-to-End Speech RecognitionVasileios Papadourakis, Markus Müller, Jing Liu, Athanasios Mouchtaris, Maurizio Omologo. 1992-1996 [doi]

Revisiting Parity of Human vs. Machine Conversational Speech TranscriptionCourtney Mansfield, Sara Ng, Gina-Anne Levow, Richard A. Wright, Mari Ostendorf. 1997-2001 [doi]

Lookup-Table Recurrent Language Models for Long Tail Speech RecognitionW. Ronny Huang, Tara N. Sainath, Cal Peyser, Shankar Kumar, David Rybach, Trevor Strohman. 2002-2006 [doi]

Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR SystemsJesús Andrés-Ferrer, Dario Albesano, Puming Zhan, Paul Vozila. 2007-2011 [doi]

Token-Level Supervised Contrastive Learning for Punctuation RestorationQiushi Huang, Tom Ko, H. Lilian Tang, Xubo Liu, Bo Wu 0018. 2012-2016 [doi]

BART Based Semantic Correction for Mandarin Automatic Speech Recognition SystemYun Zhao, Xuerui Yang, Jinchao Wang, Yongyu Gao, Chao Yan, Yuanfu Zhou. 2017-2021 [doi]

Class-Based Neural Network Language Model for Second-Pass Rescoring in ASRLingfeng Dai, Qi Liu, Kai Yu. 2022-2026 [doi]

Improving Customization of Neural Transducers by Mitigating Acoustic Mismatch of Synthesized AudioGakuto Kurata, George Saon, Brian Kingsbury, David Haws, Zoltán Tüske. 2027-2031 [doi]

A Discriminative Entity-Aware Language Model for Virtual AssistantsMandana Saebi, Ernest Pusateri, Aaksha Meghawat, Christophe Van Gysel. 2032-2036 [doi]

Correcting Automated and Manual Speech Transcription Errors Using Warped Language ModelsMahdi Namazifar, John Malik, Li Erran Li, Gökhan Tür, Dilek Hakkani-Tür. 2037-2041 [doi]

Dynamic Encoder Transducer: A Flexible Solution for Trading Off Accuracy for LatencyYangyang Shi, Varun Nagaraja, Chunyang Wu, Jay Mahadeokar, Duc Le, Rohit Prabhavalkar, Alex Xiao, Ching-feng Yeh, Julian Chan, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer. 2042-2046 [doi]

Domain-Aware Self-Attention for Multi-Domain Neural Machine TranslationShiQi Zhang, Yan Liu, Deyi Xiong, Pei Zhang, Boxing Chen. 2047-2051 [doi]

Librispeech Transducer Model with Internal Language Model Prior CorrectionAlbert Zeyer, André Merboldt, Wilfried Michel, Ralf Schlüter, Hermann Ney. 2052-2056 [doi]

A Deliberation-Based Joint Acoustic and Text DecoderSepand Mavandadi, Tara N. Sainath, Ke Hu, Zelin Wu. 2057-2061 [doi]

On the Limit of English Conversational Speech RecognitionZoltán Tüske, George Saon, Brian Kingsbury. 2062-2066 [doi]

Deformable TDNN with Adaptive Receptive Fields for Speech RecognitionKeyu An, Yi Zhang, Zhijian Ou. 2067-2071 [doi]

SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of ExpertsZhao You, Shulin Feng, Dan Su, Dong Yu. 2077-2081 [doi]

Online Compressive Transformer for End-to-End Speech RecognitionChi-Hang Leong, Yu-Han Huang, Jen-Tzung Chien. 2082-2086 [doi]

End to End Transformer-Based Contextual Speech Recognition Based on Pointer NetworkBinghuai Lin, Liyuan Wang. 2087-2091 [doi]

A Comparative Study on Neural Architectures and Training Methods for Japanese Speech RecognitionShigeki Karita, Yotaro Kubo, Michiel Adriaan Unico Bacchiani, Llion Jones. 2092-2096 [doi]

Advanced Long-Context End-to-End Speech Recognition Using Context-Expanded TransformersTakaaki Hori, Niko Moritz, Chiori Hori, Jonathan Le Roux. 2097-2101 [doi]

Transformer-Based ASR Incorporating Time-Reduction Layer and Fine-Tuning with Self-Knowledge DistillationMd. Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh. 2102-2106 [doi]

Flexi-Transducer: Optimizing Latency, Accuracy and Compute for Multi-Domain On-Device ScenariosJay Mahadeokar, Yangyang Shi, Yuan Shangguan, Chunyang Wu, Alex Xiao, Hang Su, Duc Le, Ozlem Kalinli, Christian Fuegen, Michael L. Seltzer. 2107-2111 [doi]

Difference in Perceived Speech Signal Quality Assessment Among Monolingual and Bilingual Teenage StudentsPrzemyslaw Falkowski-Gilski. 2112-2116 [doi]

PILOT: Introducing Transformers for Probabilistic Sound Event LocalizationChristopher Schymura, Benedikt T. Bönninghoff, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa. 2117-2121 [doi]

Sound Source Localization with Majorization MinimizationMasahito Togami, Robin Scheibler. 2122-2126 [doi]

NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced DatasetsGabriel Mittag, Babak Naderi, Assmaa Chehadi, Sebastian Möller 0001. 2127-2131 [doi]

Subjective Evaluation of Noise Suppression Algorithms in CrowdsourcingBabak Naderi, Ross Cutler. 2132-2136 [doi]

Reliable Intensity Vector Selection for Multi-Source Direction-of-Arrival Estimation Using a Single Acoustic Vector SensorJianhua Geng, Sifan Wang, Juan Li, Jingwei Li, Xin Lou. 2137-2141 [doi]

MetricNet: Towards Improved Modeling For Non-Intrusive Speech Quality AssessmentMeng Yu, Chunlei Zhang, Yong Xu, Shi-Xiong Zhang, Dong Yu 0001. 2142-2146 [doi]

CNN-Based Processing of Acoustic and Radio Frequency Signals for Speaker Localization from MAVsAndrea Toma, Daniele Salvati, Carlo Drioli, Gian Luca Foresti. 2147-2151 [doi]

Assessment of von Mises-Bernoulli Deep Neural Network in Sound Source LocalizationKatsutoshi Itoyama, Yoshiya Morimoto, Shungo Masaki, Ryosuke Kojima, Kenji Nishida, Kazuhiro Nakadai. 2152-2156 [doi]

Feature Fusion by Attention Networks for Robust DOA EstimationRongliang Liu, Nengheng Zheng, Xi Chen. 2157-2161 [doi]

Far-Field Speaker Localization and Adaptive GLMB TrackingShoufeng Lin, Zhaojie Luo. 2162-2166 [doi]

On the Design of Deep Priors for Unsupervised Audio RestorationVivek Sivaraman Narayanaswamy, Jayaraman J. Thiagarajan, Andreas Spanias. 2167-2171 [doi]

Cramér-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant EnvironmentsWeiguang Chen, Cheng Xue, Xionghu Zhong. 2172-2176 [doi]

GAN Vocoder: Multi-Resolution Discriminator Is All You NeedJaeseong You, Dalhyun Kim, Gyuhyeon Nam, Geumbyeol Hwang, Gyeongsu Chae. 2177-2181 [doi]

Glow-WaveGAN: Learning Speech Representations from GAN-Based Variational Auto-Encoder for High Fidelity Flow-Based Speech SynthesisJian Cong, Shan Yang, Lei Xie, Dan Su. 2182-2186 [doi]

Unified Source-Filter GAN: Unified Source-Filter Network Based On Factorization of Quasi-Periodic Parallel WaveGANReo Yoneyama, Yi-Chiao Wu, Tomoki Toda. 2187-2191 [doi]

Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure DiscriminatorKazuki Mizuta, Tomoki Koriyama, Hiroshi Saruwatari. 2192-2196 [doi]

Fre-GAN: Adversarial Frequency-Consistent Audio SynthesisJi-Hoon Kim, Sang-Hoon Lee, Ji-Hyun Lee, Seong-Whan Lee. 2197-2201 [doi]

GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech SynthesisJinhyeok Yang, Jae-Sung Bae, Taejun Bak, Young Ik Kim, Hoon-Young Cho. 2202-2206 [doi]

UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform GenerationWon Jang, Dan Lim, Jaesam Yoon, Bongwan Kim, Juntae Kim. 2207-2211 [doi]

Continuous Wavelet Vocoder-Based Decomposition of Parametric Speech Waveform SynthesisMohammed Salah Al-Radhi, Tamás Gábor Csapó, Csaba Zainkó, Géza Németh. 2212-2216 [doi]

High-Fidelity and Low-Latency Universal Neural Vocoder Based on Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform ModelingPatrick Lumban Tobing, Tomoki Toda. 2217-2221 [doi]

Basis-MelGAN: Efficient Neural Vocoder Based on Audio DecompositionZhengxi Liu, Yanmin Qian. 2222-2226 [doi]

High-Fidelity Parallel WaveGAN with Multi-Band Harmonic-Plus-Noise ModelMin-Jae Hwang, Ryuichi Yamamoto, Eunwoo Song, Jae Min Kim. 2227-2231 [doi]

SpecRec: An Alternative Solution for Improving End-to-End Speech-to-Text Translation via Spectrogram ReconstructionJunkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang 0001. 2232-2236 [doi]

Subtitle Translation as Markup TranslationColin Cherry, Naveen Arivazhagan, Dirk Padfield, Maxim Krikun. 2237-2241 [doi]

Large-Scale Self- and Semi-Supervised Learning for Speech TranslationChanghan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau. 2242-2246 [doi]

CoVoST 2 and Massively Multilingual Speech TranslationChanghan Wang, Anne Wu, Jiatao Gu, Juan Pino. 2247-2251 [doi]

AlloST: Low-Resource Speech Translation Without Source TranscriptionYao-Fei Cheng, Hung-Shin Lee, Hsin-Min Wang. 2252-2256 [doi]

Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned TransformerJohanes Effendi, Sakriani Sakti, Satoshi Nakamura. 2257-2261 [doi]

Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text TranslationHirotaka Tokuyama, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura. 2262-2266 [doi]

End-to-End Speech Translation via Cross-Modal Progressive TrainingRong Ye, Mingxuan Wang, Lei Li 0005. 2267-2271 [doi]

ASR Posterior-Based Loss for Multi-Task End-to-End Speech TranslationYuka Ko, Katsuhito Sudoh, Sakriani Sakti, Satoshi Nakamura. 2272-2276 [doi]

Towards Simultaneous Machine InterpretationAlejandro Pérez González de Martos, Javier Iranzo-Sánchez, Adrià Giménez-Pastor, Javier Jorge, Joan Albert Silvestre-Cerdà, Jorge Civera, Albert Sanchís, Alfons Juan. 2277-2281 [doi]

Lexical Modeling of ASR Errors for Robust Speech TranslationGiuseppe Martucci, Mauro Cettolo, Matteo Negri, Marco Turchi. 2282-2286 [doi]

Optimally Encoding Inductive Biases into the Transformer Improves End-to-End Speech TranslationPiyush Vyas, Anastasia Kuznetsova, Donald S. Williamson. 2287-2291 [doi]

Effects of Feature Scaling and Fusion on Sign Language TranslationTejaswini Ananthanarayana, Lipisha Chaudhary, Ifeoma Nwogu. 2292-2296 [doi]

The ID R&D System Description for Short-Duration Speaker Verification Challenge 2021Alexander Alenin, Anton Okhotnikov, Rostislav Makarov, Nikita Torgashov, Ilya Shigabeev, Konstantin Simonchik. 2297-2301 [doi]

Integrating Frequency Translational Invariance in TDNNs and Frequency Positional Information in 2D ResNets to Enhance Speaker VerificationJenthe Thienpondt, Brecht Desplanques, Kris Demuynck. 2302-2306 [doi]

SdSVC Challenge 2021: Tips and Tricks to Boost the Short-Duration Speaker Verification System PerformanceAleksei Gusev, Alisa Vinogradova, Sergey Novoselov, Sergei Astapov. 2307-2311 [doi]

Team02 Text-Independent Speaker Verification System for SdSV Challenge 2021Woo Hyun Kang, Nam Soo Kim. 2312-2316 [doi]

Our Learned Lessons from Cross-Lingual Speaker Verification: The CRMI-DKU System Description for the Short-Duration Speaker Verification Challenge 2021Xiaoyi Qin, Chao Wang, Yong Ma, Min Liu, Shilei Zhang, Ming Li. 2317-2321 [doi]

Investigation of IMU&Elevoc Submission for the Short-Duration Speaker Verification Challenge 2021Peng Zhang, Peng Hu, Xueliang Zhang. 2322-2326 [doi]

The Sogou System for Short-Duration Speaker Verification Challenge 2021Jie Yan, Shengyu Yao, Yiqian Pan, Wei Chen. 2327-2331 [doi]

The SJTU System for Short-Duration Speaker Verification Challenge 2021Bing Han, Zhengyang Chen, Zhikai Zhou, Yanmin Qian. 2332-2336 [doi]

Multi-Speaker Emotional Text-to-Speech SynthesizerSungjae Cho, Soo-Young Lee. 2337-2338 [doi]

Live TV Subtitling Through RespeakingAles Prazák, Zdenek Loose, Josef V. Psutka, Vlasta Radová, Josef Psutka, Jan Svec. 2339-2340 [doi]

Autonomous Robot for Measuring Room Impulse ResponsesStefan Fragner, Tobias Topar, Maximilian Giller, Lukas Pfeifenberger, Franz Pernkopf. 2341-2342 [doi]

Expressive Robot Performance Based on Facial Motion CaptureJonas Beskow, Charlie Caper, Johan Ehrenfors, Nils Hagberg, Anne Jansen, Chris Wood. 2343-2344 [doi]

ThemePro 2.0: Showcasing the Role of Thematic Progression in Engaging Human-Computer InteractionMónica Domínguez, Juan Soler Company, Leo Wanner. 2345-2346 [doi]

Addressing Compliance in Call Centers with Entity ExtractionSai Guruju, Jithendra Vepa. 2347-2348 [doi]

Audio Segmentation Based Conversational Silence Detection for Contact Center CallsKrishnachaitanya Gogineni, Tarun Reddy Yadama, Jithendra Vepa. 2349-2350 [doi]

Reformulating DOVER-Lap Label Mapping as a Graph Partitioning ProblemDesh Raj, Sanjeev Khudanpur. 2351-2355 [doi]

Graph Attention Networks for Anti-SpoofingHemlata Tak, Jee-weon Jung, Jose Patino 0001, Massimiliano Todisco, Nicholas Evans. 2356-2360 [doi]

Log-Likelihood-Ratio Cost Function as Objective Loss for Speaker Verification SystemsVictoria Mingote, Antonio Miguel, Alfonso Ortega Giménez, Eduardo Lleida. 2361-2365 [doi]

Effective Phase Encoding for End-To-End Speaker VerificationJunyi Peng, Xiaoyang Qu, Rongzhi Gu, Jianzong Wang, Jing Xiao, Lukás Burget, Jan Cernocký. 2366-2370 [doi]

Impact of Encoding and Segmentation Strategies on End-to-End Simultaneous Speech TranslationHa Nguyen, Yannick Estève, Laurent Besacier. 2371-2375 [doi]

Lost in Interpreting: Speech Translation from Source or Interpreter?Dominik Machácek, Matús Zilinec, Ondrej Bojar. 2376-2380 [doi]

Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-Based Multimodal FusionBaptiste Pouthier, Laurent Pilati, Leela K. Gudupudi, Charles Bouveyron, Frédéric Precioso. 2381-2385 [doi]

It's Not What You Said, it's How You Said it: Discriminative Perception of Speech as a Multichannel Communication SystemSarenne Wallbridge, Peter Bell 0001, Catherine Lai. 2386-2390 [doi]

Extending the Fullband E-Model Towards Background Noise, Bursty Packet Loss, and Conversational DegradationsThilo Michael, Gabriel Mittag, Andreas Bütow, Sebastian Möller. 2391-2395 [doi]

ORCA-SLANG: An Automatic Multi-Stage Semi-Supervised Deep Learning Framework for Large-Scale Killer Whale Call Type IdentificationChristian Bergler, Manuel Schmitt, Andreas K. Maier, Helena Symonds, Paul Spong, Steven R. Ness, George Tzanetakis, Elmar Nöth. 2396-2400 [doi]

Audiovisual Transfer Learning for Audio Tagging and Sound Event DetectionWim Boes, Hugo Van Hamme. 2401-2405 [doi]

Non-Intrusive Speech Quality Assessment with Transfer Learning and Subject-Specific ScalingNatalia Nessler, Milos Cernak, Paolo Prandoni, Pablo Mainar. 2406-2410 [doi]

Audio Retrieval with Natural Language QueriesAndreea-Maria Oncescu, A. Sophia Koepke, João F. Henriques, Zeynep Akata, Samuel Albanie. 2411-2415 [doi]

Bootstrap an End-to-End ASR System by Multilingual Training, Transfer Learning, Text-to-Text Mapping and Synthetic AudioManuel Giollo, Deniz Gunceler, Yulan Liu, Daniel Willett. 2416-2420 [doi]

Efficient Weight Factorization for Multilingual Speech RecognitionNgoc-Quan Pham, Tuan Nam Nguyen, Sebastian Stüker, Alex Waibel. 2421-2425 [doi]

Unsupervised Cross-Lingual Representation Learning for Speech RecognitionAlexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli. 2426-2430 [doi]

Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech RecognitionTomoaki Hayakawa, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki. 2431-2435 [doi]

Using Large Self-Supervised Models for Low-Resource Speech RecognitionKrishna D. N, Pinyi Wang, Bruno Bozza. 2436-2440 [doi]

Dual Script E2E Framework for Multilingual and Code-Switching ASRMari Ganesh Kumar, Jom Kuriakose, Anand Thyagachandran, Arun Kumar A, Ashish Seth, Lodagala Durga Prasad, Saish Jaiswal, Anusha Prakash, Hema A. Murthy. 2441-2445 [doi]

MUCS 2021: Multilingual and Code-Switching ASR Challenges for Low Resource Indian LanguagesAnuj Diwan, Rakesh Vaideeswaran, Sanket Shah, Ankita Singh, Srinivasa Raghavan K. M., Shreya Khare, Vinit Unni, Saurabh Vyas, Akash Rajpuria, Chiranjeevi Yarra, Ashish Mittal, Prasanta Kumar Ghosh, Preethi Jyothi, Kalika Bali, Vivek Seshadri, Sunayana Sitaram, Samarth Bharadwaj, Jai Nanavati, Raoul Nanavati, Karthik Sankaranarayanan. 2446-2450 [doi]

Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech RecognitionGenta Indra Winata, Guangsen Wang, Caiming Xiong, Steven C. H. Hoi. 2451-2455 [doi]

SRI-B End-to-End System for Multilingual and Code-Switching ASR Challenges for Low Resource Indian LanguagesHardik B. Sailor, Kiran Praveen, Vikas Agrawal, Abhinav Jain, Abhishek Pandey. 2456-2460 [doi]

Hierarchical Phone Recognition with Compositional PhoneticsXinjian Li, Juncheng Li 0001, Florian Metze, Alan W. Black. 2461-2465 [doi]

Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASRShammur Absar Chowdhury, Amir Hussein, Ahmed Abdelali, Ahmed Ali. 2466-2470 [doi]

Differentiable Allophone Graphs for Language-Universal Speech RecognitionBrian Yan, Siddharth Dalmia, David R. Mortensen, Florian Metze, Shinji Watanabe 0001. 2471-2475 [doi]

Automatic Speech Recognition Systems Errors for Objective Sleepiness Detection Through VoiceVincent P. Martin, Jean-Luc Rouas, Florian Boyer, Pierre Philip. 2476-2480 [doi]

Robust Laughter Detection in Noisy EnvironmentsJon Gillick, Wesley Deng, Kimiko Ryokai, David Bamman. 2481-2485 [doi]

Impact of Emotional State on Estimation of Willingness to Buy from Advertising SpeechMizuki Nagano, Yusuke Ijima, Sadao Hiroya. 2486-2490 [doi]

Stacked Recurrent Neural Networks for Speech-Based Inference of Attachment Condition in School Age ChildrenHuda Alsofyani, Alessandro Vinciarelli. 2491-2495 [doi]

Language or Paralanguage, This is the Problem: Comparing Depressed and Non-Depressed Speakers Through the Analysis of Gated Multimodal UnitsNujud Aloshban, Anna Esposito, Alessandro Vinciarelli. 2496-2500 [doi]

Emotion Carrier Recognition from Personal NarrativesAniruddha Tammewar, Alessandra Cervone, Giuseppe Riccardi. 2501-2505 [doi]

Non-Verbal Vocalisation and Laughter Detection Using Sequence-to-Sequence Models and Multi-Label TrainingScott Condron, Georgia Clarke, Anita Klementiev, Daniela Morse-Kopp, Jack Parry, Dimitri Palaz. 2506-2510 [doi]

TDCA-Net: Time-Domain Channel Attention Network for Depression DetectionCong Cai, Mingyue Niu, Bin Liu, Jianhua Tao, Xuefei Liu. 2511-2515 [doi]

Visual Speech for Obstructive Sleep Apnea DetectionCatarina Botelho, Alberto Abad, Tanja Schultz, Isabel Trancoso. 2516-2520 [doi]

Analysis of Contextual Voice Changes in Remote MeetingsHéctor A. Cordourier Maruri, Sinem Aslan, Georg Stemmer, Nese Alyüz, Lama Nachman. 2521-2525 [doi]

Speech Based Depression Severity Level Classification Using a Multi-Stage Dilated CNN-LSTM ModelNadee Seneviratne, Carol Y. Espy-Wilson. 2526-2530 [doi]

Multi-Domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR ModelsHo-Gyeong Kim, Min-Joong Lee, Hoshik Lee, Tae Gyoon Kang, Jihyun Lee, Eunho Yang, Sung Ju Hwang. 2531-2535 [doi]

Learning a Neural Diff for Speech ModelsJonathan Macoskey, Grant P. Strimel, Ariya Rastrow. 2536-2540 [doi]

Stochastic Attention Head Removal: A Simple and Effective Method for Improving Transformer Based ASR ModelsShucong Zhang, Erfan Loweimi, Peter Bell 0001, Steve Renals. 2541-2545 [doi]

Model-Agnostic Fast Adaptive Multi-Objective Balancing Algorithm for Multilingual Automatic Speech Recognition Model TrainingJiabin Xue, Tieran Zheng, Jiqing Han. 2546-2550 [doi]

Towards Lifelong Learning of End-to-End ASRHeng-Jui Chang, Hung-yi Lee, Lin-Shan Lee. 2551-2555 [doi]

Self-Adaptive Distillation for Multilingual Speech Recognition: Leveraging Student IndependenceIsabel Leal, Neeraj Gaur, Parisa Haghani, Brian Farris, Pedro J. Moreno, Manasa Prasad, Bhuvana Ramabhadran, Yun Zhu. 2556-2560 [doi]

Regularizing Word Segmentation by Creating MisspellingsHainan Xu, Kartik Audhkhasi, Yinghui Huang, Jesse Emond, Bhuvana Ramabhadran. 2561-2565 [doi]

Multitask Training with Text Data for End-to-End Speech RecognitionPeidong Wang, Tara N. Sainath, Ron J. Weiss. 2566-2570 [doi]

Emitting Word Timings with HMM-Free End-to-End System in Automatic Speech RecognitionXianzhao Chen, Hao Ni, Yi He, Kang Wang, Zejun Ma, Zongxia Xie. 2571-2575 [doi]

Scaling Laws for Acoustic ModelsJasha Droppo, Oguz Elibol. 2576-2580 [doi]

Leveraging Non-Target Language Resources to Improve ASR Performance in a Target LanguageJayadev Billa. 2581-2585 [doi]

4-Bit Quantization of LSTM-Based Speech Recognition ModelsAndrea Fasoli, Chia-Yu Chen, Mauricio J. Serrano, Xiao Sun, Naigang Wang, Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Wei Zhang 0022, Zoltán Tüske, Kailash Gopalakrishnan. 2586-2590 [doi]

Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute EstimationRyo Masumura, Daiki Okamura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi. 2591-2595 [doi]

Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech RecognitionZhong Meng, Yu Wu 0012, Naoyuki Kanda, Liang Lu 0001, Xie Chen, Guoli Ye, Eric Sun, Jinyu Li, Yifan Gong 0001. 2596-2600 [doi]

Variable Frame Rate Acoustic Models Using Minimum Error Reinforcement LearningDongcheng Jiang, Chao Zhang, Philip C. Woodland. 2601-2605 [doi]

How f0 and Phrase Position Affect Papuan Malay Word IdentificationConstantijn Kaland, Matthew Gordon. 2606-2610 [doi]

On the Feasibility of the Danish Model of Intonational Transcription: Phonetic Evidence from Jutlandic DanishAnna Bothe Jespersen, Pavel Sturm, Mísa Hejná. 2611-2615 [doi]

An Experiment in Paratone Detection in a Prosodically Annotated EAP Spoken CorpusAdrien Méli, Nicolas Ballier, Achille Falaise, Alice Henderson. 2616-2620 [doi]

ProsoBeast Prosody Annotation ToolBranislav Gerazov, Michael Wagner. 2621-2625 [doi]

Assessing the Use of Prosody in Constituency Parsing of Imperfect TranscriptsTrang tran, Mari Ostendorf. 2626-2630 [doi]

Targeted and Targetless Neutral Tones in Taiwanese Southern MinRoger Cheng-yen Liu, Feng-fan Hsieh, Yueh-Chin Chang. 2631-2635 [doi]

The Interaction of Word Complexity and Word Duration in an Agglutinative LanguageMária Gósy, Kálmán Abari. 2636-2640 [doi]

Taiwan Min Nan (Taiwanese) Checked Tones Sound ChangeHo-hsien Pan, Shao-Ren Lyu. 2641-2645 [doi]

In-Group Advantage in the Perception of Emotions: Evidence from Three Varieties of GermanMoritz Jakob, Bettina Braun, Katharina Zahner-Ritter. 2646-2650 [doi]

The LF Model in the Frequency Domain for Glottal Airflow Modelling Without Aliasing DistortionChrister Gobl. 2651-2655 [doi]

Parsing Speech for Grouping and Prominence, and the Typology of RhythmMichael Wagner, Alvaro Iturralde Zurita, Sijia Zhang. 2656-2660 [doi]

Prosody of Case Markers in UrduBenazir Mumtaz, Massimiliano Canzi, Miriam Butt. 2661-2665 [doi]

Articulatory Characteristics of Icelandic Voiced Fricative Lenition: Gradience, Categoricity, and Speaker/Gesture-Specific EffectsBrynhildur Stefansdottir, Francesco Burroni, Sam Tilsen. 2666-2670 [doi]

Leveraging the Uniformity Framework to Examine Crosslinguistic Similarity for Long-Lag Stops in Spontaneous Cantonese-English Bilingual SpeechKhia A. Johnson. 2671-2675 [doi]

Personalized Speech Enhancement Through Self-Supervised Data Augmentation and PurificationAswin Sivaraman, Sunwoo Kim 0003, Minje Kim. 2676-2680 [doi]

Speech Denoising with Auditory ModelsMark R. Saddler, Andrew Francl, Jenelle Feather, Kaizhi Qian, Yang Zhang, Josh H. McDermott. 2681-2685 [doi]

Human Listening and Live Captioning: Multi-Task Training for Speech EnhancementSefik Emre Eskimez, Xiaofei Wang, Min Tang, Hemin Yang, Zirun Zhu, Zhuo Chen, Huaming Wang, Takuya Yoshioka. 2686-2690 [doi]

Multi-Stage Progressive Speech Enhancement NetworkXinmeng Xu, Yang Wang, Dongxiang Xu, Yiyuan Peng, Cong Zhang, Jie Jia, Binbin Chen. 2691-2695 [doi]

Single-Channel Speech Enhancement Using Learnable Loss MixupOscar Chang, Dung N. Tran, Kazuhito Koishida. 2696-2700 [doi]

A Maximum Likelihood Approach to SNR-Progressive Learning Using Generalized Gaussian Distribution for LSTM-Based Speech EnhancementXiaoqi Zhang, Jun Du, Li Chai 0002, Chin-Hui Lee. 2701-2705 [doi]

Whisper Speech Enhancement Using Joint Variational Autoencoder for Improved Speech RecognitionVikas Agrawal, Shashi Kumar, Shakti P. Rath. 2706-2710 [doi]

DEMUCS-Mobile : On-Device Lightweight Speech EnhancementLukas Lee, Youna Ji, MinJae Lee, Min-Seok Choi. 2711-2715 [doi]

Speech Denoising Without Clean Training Data: A Noise2Noise ApproachMadhav Mahesh Kashyap, Anuj Tambwekar, Krishnamoorthy Manohara, S. Natarajan. 2716-2720 [doi]

Improved Speech Enhancement Using a Complex-Domain GAN with Fused Time-Domain and Time-Frequency Domain ConstraintsFeng Dang, Pengyuan Zhang, Hangting Chen. 2721-2725 [doi]

Speech Enhancement with Topology-Enhanced Generative Adversarial Networks (GANs)Xudong Zhang 0004, Liang Zhao, Feng Gu. 2726-2730 [doi]

Learning Speech Structure to Improve Time-Frequency MasksSuliang Bu, Yunxin Zhao, Shaojun Wang, Mei Han. 2731-2735 [doi]

SE-Conformer: Time-Domain Speech Enhancement Using ConformerEesung Kim, Hyeji Seo. 2736-2740 [doi]

Spectral and Latent Speech Representation Distortion for TTS EvaluationThananchai Kongthaworn, Burin Naowarat, Ekapol Chuangsuwanich. 2741-2745 [doi]

Detection and Analysis of Attention Errors in Sequence-to-Sequence Text-to-SpeechCassia Valentini-Botinhao, Simon King. 2746-2750 [doi]

RyanSpeech: A Corpus for Conversational Text-to-Speech SynthesisRohola Zandie, Mohammad H. Mahoor, Julia Madsen, Eshrat S. Emamian. 2751-2755 [doi]

AISHELL-3: A Multi-Speaker Mandarin TTS CorpusYao Shi, Hui Bu, Xin Xu, Shaoji Zhang, Ming Li. 2756-2760 [doi]

Comparing Speech Enhancement Techniques for Voice Adaptation-Based Speech SynthesisNicholas Eng, C. T. Justine Hui, Yusuke Hioka, Catherine I. Watson. 2761-2765 [doi]

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech ModelChenye Cui, Yi Ren 0006, Jinglin Liu, Feiyang Chen, Rongjie Huang, Ming Lei, Zhou Zhao. 2766-2770 [doi]

Perception of Social Speaker Characteristics in Synthetic SpeechSai Sirisha Rallabandi, Abhinav Bharadwaj, Babak Naderi, Sebastian Möller 0001. 2771-2775 [doi]

Hi-Fi Multi-Speaker English TTS DatasetEvelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg, Yang Zhang. 2776-2780 [doi]

Utilizing Self-Supervised Representations for MOS PredictionWei-Cheng Tseng, Chien-Yu Huang, Wei-Tsung Kao, Yist Y. Lin, Hung-yi Lee. 2781-2785 [doi]

KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis DatasetSaida Mussakhojayeva, Aigerim Janaliyeva, Almas Mirzakhmetov, Yerbolat Khassanov, Huseyin Atakan Varol. 2786-2790 [doi]

Confidence Intervals for ASR-Based TTS EvaluationJason Taylor, Korin Richmond. 2791-2795 [doi]

INTERSPEECH 2021 Deep Noise Suppression ChallengeChandan K. A. Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Asokan Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, Sriram Srinivasan 0003. 2796-2800 [doi]

A Simultaneous Denoising and Dereverberation Framework with Target DecouplingAndong Li, Wenzhe Liu, XiaoXue Luo, Guochen Yu, Chengshi Zheng, Xiaodong Li. 2801-2805 [doi]

Deep Noise Suppression with Non-Intrusive PESQNet Supervision Enabling the Use of Real Training DataZiyi Xu, Maximilian Strake, Tim Fingscheidt. 2806-2810 [doi]

DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech EnhancementXiaohuai Le, Hongsheng Chen, Kai Chen, Jing Lu. 2811-2815 [doi]

DCCRN+: Channel-Wise Subband DCCRN with SNR Estimation for Speech EnhancementShubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie. 2816-2820 [doi]

DBNet: A Dual-Branch Network Architecture Processing on Spectrum and Waveform for Single-Channel Speech EnhancementKanghao Zhang, Shulin He, Hao Li, Xueliang Zhang. 2821-2825 [doi]

Low-Delay Speech Enhancement Using Perceptually Motivated Target and LossXu Zhang, Xinlei Ren, Xiguang Zheng, LianWu Chen, Chen Zhang, Liang Guo, Bing Yu. 2826-2830 [doi]

Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech EnhancementKoen Oostermeijer, Qing Wang 0008, Jun Du. 2831-2835 [doi]

Self-Paced Ensemble Learning for Speech and Audio ClassificationNicolae-Catalin Ristea, Radu-Tudor Ionescu. 2836-2840 [doi]

Knowledge Distillation for Streaming Transformer-TransducerAtsushi Kojima. 2841-2845 [doi]

Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech RecognitionTimo Lohrenz, Zhengyang Li, Tim Fingscheidt. 2846-2850 [doi]

Conditional Independence for Pretext Task Selection in Self-Supervised Speech Representation LearningSalah Zaiem, Titouan Parcollet, Slim Essid. 2851-2855 [doi]

Investigating Methods to Improve Language Model Integration for Attention-Based Encoder-Decoder ASR ModelsMohammad Zeineldeen, Aleksandr Glushko, Wilfried Michel, Albert Zeyer, Ralf Schlüter, Hermann Ney. 2856-2860 [doi]

Comparing CTC and LFMMI for Out-of-Domain Adaptation of wav2vec 2.0 Acoustic ModelApoorv Vyas, Srikanth R. Madikeri, Hervé Bourlard. 2861-2865 [doi]

Speaker Attentive Speech Emotion RecognitionClément Le Moine, Nicolas Obin, Axel Roebel. 2866-2870 [doi]

Separation of Emotional and Reconstruction Embeddings on Ladder Network to Improve Speech Emotion Recognition Robustness in Noisy ConditionsSeong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso. 2871-2875 [doi]

3: MultiModal Masking Applied to Sentiment AnalysisEfthymios Georgiou, Georgios Paraskevopoulos, Alexandros Potamianos. 2876-2880 [doi]

The CSTR System for Multilingual and Code-Switching ASR Challenges for Low Resource Indian LanguagesOndrej Klejch, Electra Wallington, Peter Bell 0001. 2881-2885 [doi]

Acoustic Data-Driven Subword Modeling for End-to-End Speech RecognitionWei Zhou, Mohammad Zeineldeen, Zuoyun Zheng, Ralf Schlüter, Hermann Ney. 2886-2890 [doi]

Equivalence of Segmental and Neural Transducer Modeling: A Proof of ConceptWei Zhou, Albert Zeyer, André Merboldt, Ralf Schlüter, Hermann Ney. 2891-2895 [doi]

Modeling Dialectal Variation for Swiss German Automatic Speech RecognitionAbbas Khosravani, Philip N. Garner, Alexandros Lazaridis. 2896-2900 [doi]

Out-of-Vocabulary Words Detection with Attention and CTC Alignments in an End-to-End ASR SystemEkaterina Egorova, Hari Krishna Vydana, Lukás Burget, Jan Cernocký. 2901-2905 [doi]

Training Hybrid Models on Noisy Transliterated Transcripts for Code-Switched Speech RecognitionMatthew Wiesner, Mousmita Sarma, Ashish Arora, Desh Raj, Dongji Gao, Ruizhe Huang, Supreet Preet, Moris Johnson, Zikra Iqbal, Nagendra Goel, Jan Trmal, Leibny Paola García-Perera, Sanjeev Khudanpur. 2906-2910 [doi]

Speech Intelligibility of Dysarthric Speech: Human Scores and Acoustic-Phonetic FeaturesWei Xue, Roeland Van Hout, Fleur Boogmans, Mario Ganzeboom, Catia Cucchiarini, Helmer Strik. 2911-2915 [doi]

Analyzing Short Term Dynamic Speech Features for Understanding Behavioral Traits of Children with Autism Spectrum DisorderYoung-Kyung Kim, Rimita Lahiri, Md. Nasir, So-Hyun Kim, Somer Bishop, Catherine Lord, Shrikanth S. Narayanan. 2916-2920 [doi]

Vocalization Recognition of People with Profound Intellectual and Multiple Disabilities (PIMD) Using Machine Learning AlgorithmsWaldemar Jesko. 2921-2925 [doi]

Phonetic Complexity, Speech Accuracy and Intelligibility Assessment of Italian Dysarthric SpeechBarbara Gili Fivela, Vincenzo Sallustio, Silvia Pede, Danilo Patrocinio. 2926-2930 [doi]

Detection of Consonant Errors in Disordered Speech Based on Consonant-Vowel Segment EmbeddingSi Ioi Ng, Cymie Wing-Yee Ng, Jingyu Li, Tan Lee. 2931-2935 [doi]

Assessing Posterior-Based Mispronunciation Detection on Field-Collected Recordings from Child Speech Therapy SessionsAdam Hair, Guanlong Zhao, Beena Ahmed, Kirrie J. Ballard, Ricardo Gutierrez-Osuna. 2936-2940 [doi]

Identifying Cognitive Impairment Using Sentence Representation VectorsBahman Mirheidari, Yilin Pan, Daniel Blackburn, Ronan O'Malley, Heidi Christensen. 2941-2945 [doi]

Parental Spoken Scaffolding and Narrative Skills in Crowd-Sourced Storytelling Samples of Young ChildrenZhengjun Yue, Jon Barker, Heidi Christensen, Cristina McKean, Elaine Ashton, Yvonne Wren, Swapnil Gadgil, Rebecca Bright. 2946-2950 [doi]

Uncertainty-Aware COVID-19 Detection from Imbalanced Sound DataTong Xia, Jing Han, Lorena Qendro, Ting Dang, Cecilia Mascolo. 2951-2955 [doi]

Unsupervised Domain Adaptation for Dysarthric Speech Detection via Domain Adversarial Training and Mutual Information MinimizationDisong Wang, Liqun Deng, Yu Ting Yeung, Xiao Chen, Xunying Liu, Helen Meng. 2956-2960 [doi]

Source and Vocal Tract Cues for Speech-Based Classification of Patients with Parkinson's Disease and Healthy SubjectsTanuka Bhattacharjee, Jhansi Mallela, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Pradeep Reddy, Dipanjan Gope, Prasanta Kumar Ghosh. 2961-2965 [doi]

CLAC: A Speech Corpus of Healthy English SpeakersR'mani Haulcy, James Glass. 2966-2970 [doi]

Direct Multimodal Few-Shot Learning of Speech and ImagesLeanne Nortje, Herman Kamper. 2971-2975 [doi]

Talk, Don't Write: A Study of Direct Speech-Based Image RetrievalRamon Sanabria, Austin Waters, Jason Baldridge. 2976-2980 [doi]

A Fast Discrete Two-Step Learning Hashing for Scalable Cross-Modal RetrievalHuan Zhao, Kaili Ma 0002. 2981-2985 [doi]

Cross-Modal Knowledge Distillation Method for Automatic Cued Speech RecognitionJianrong Wang, Ziyue Tang, Xuewei Li, Mei Yu, Qiang Fang, Li Liu. 2986-2990 [doi]

Attention-Based Keyword Localisation in Speech Using Visual GroundingKayode Olaleye, Herman Kamper. 2991-2995 [doi]

Evaluation of Audio-Visual Alignments in Visually Grounded Speech ModelsKhazar Khorrami, Okko Räsänen. 2996-3000 [doi]

Automatic Lip-Reading with Hierarchical Pyramidal Convolution and Self-Attention for Image Sequences with No Word BoundariesHang Chen, Jun Du, Yu Hu 0003, Li-Rong Dai 0001, Bao-Cai Yin, Chin-Hui Lee. 3001-3005 [doi]

Cascaded Multilingual Audio-Visual Learning from VideosAndrew Rouditchenko, Angie W. Boggust, David Harwath, Samuel Thomas 0001, Hilde Kuehne, Brian Chen, Rameswar Panda, Rogério Feris, Brian Kingsbury, Michael Picheny, James R. Glass. 3006-3010 [doi]

LiRA: Learning Visual Speech Representations from Audio Through Self-SupervisionPingchuan Ma 0001, Rodrigo Mira, Stavros Petridis, Björn W. Schuller, Maja Pantic. 3011-3015 [doi]

End-to-End Audio-Visual Speech Recognition for Overlapping SpeechRichard Rose, Olivier Siohan, Anshuman Tripathi, Otavio Braga. 3016-3020 [doi]

Audio-Visual Multi-Talker Speech Recognition in a Cocktail PartyYifei Wu, Chenda Li, Song Yang, Zhongqin Wu, Yanmin Qian. 3021-3025 [doi]

Ultra Fast Speech Separation Model with Teacher Student LearningSanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Takuya Yoshioka, Shujie Liu 0001, Jinyu Li 0001, Xiangzhan Yu. 3026-3030 [doi]

Group Delay Based Re-Weighted Sparse Recovery Algorithms for Robust and High-Resolution Source Separation in DOA FrameworkMurtiza Ali, Ashwani Koul, Karan Nathwani. 3031-3035 [doi]

Continuous Speech Separation Using Speaker Inventory for Long RecordingCong Han, Yi Luo, Chenda Li, Tianyan Zhou, Keisuke Kinoshita, Shinji Watanabe 0001, Marc Delcroix, Hakan Erdogan, John R. Hershey, Nima Mesgarani, Zhuo Chen. 3036-3040 [doi]

Crossfire Conditional Generative Adversarial Networks for Singing Voice ExtractionWeiTao Yuan, Shengbei Wang, Xiangrui Li, Masashi Unoki, Wenwu Wang. 3041-3045 [doi]

End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time-Frequency DomainKai Wang, Hao Huang, Ying Hu, Zhihua Huang, Sheng Li 0010. 3046-3050 [doi]

Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech SeparationYu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi. 3051-3055 [doi]

Stabilizing Label Assignment for Speech Separation by Self-Supervised Pre-TrainingSung-Feng Huang, Shun-Po Chuang, Da-Rong Liu, Yi-Chen Chen, Gene-Ping Yang, Hung-yi Lee. 3056-3060 [doi]

Dual-Path Filter Network: Speaker-Aware Modeling for Speech SeparationFan-Lin Wang, Yu-Huai Peng, Hung-Shin Lee, Hsin-Min Wang. 3061-3065 [doi]

Investigation of Practical Aspects of Single Channel Speech Separation for ASRJian Wu, Zhuo Chen, Sanyuan Chen, Yu Wu, Takuya Yoshioka, Naoyuki Kanda, Shujie Liu 0001, Jinyu Li. 3066-3070 [doi]

Implicit Filter-and-Sum Network for End-to-End Multi-Channel Speech SeparationYi Luo, Nima Mesgarani. 3071-3075 [doi]

Generalized Spatio-Temporal RNN Beamformer for Target Speech SeparationYong Xu, Zhuohuang Zhang, Meng Yu 0003, Shi-Xiong Zhang, Dong Yu 0001. 3076-3080 [doi]

End-to-End Neural Diarization: From Transformer to ConformerYi-Chieh Liu, Eunjung Han, Chul Lee, Andreas Stolcke. 3081-3085 [doi]

Three-Class Overlapped Speech Detection Using a Convolutional Recurrent Neural NetworkJee-weon Jung, Hee-Soo Heo, Youngki Kwon, Joon Son Chung, Bong-Jin Lee. 3086-3090 [doi]

Online Speaker Diarization Equipped with Discriminative Modeling and Guided InferenceXucheng Wan, Kai Liu, Huan Zhou. 3091-3095 [doi]

Semi-Supervised Training with Pseudo-Labeling for End-To-End Neural DiarizationYuki Takashima, Yusuke Fujita, Shota Horiguchi, Shinji Watanabe, Leibny Paola García-Perera, Kenji Nagamatsu. 3096-3100 [doi]

Adapting Speaker Embeddings for Speaker DiarisationYoungki Kwon, Jee-weon Jung, Hee-Soo Heo, You Jin Kim, Bong-Jin Lee, Joon Son Chung. 3101-3105 [doi]

Scenario-Dependent Speaker Diarization for DIHARD-III ChallengeYu-Xuan Wang, Jun Du, Maokui He, Shutong Niu, Lei Sun, Chin-Hui Lee. 3106-3110 [doi]

End-To-End Speaker Segmentation for Overlap-Aware ResegmentationHervé Bredin, Antoine Laurent. 3111-3115 [doi]

Online Streaming End-to-End Neural Diarization Handling Overlapping Speech and Flexible Numbers of SpeakersYawen Xue, Shota Horiguchi, Yusuke Fujita, Yuki Takashima, Shinji Watanabe, Leibny Paola García-Perera, Kenji Nagamatsu. 3116-3120 [doi]

Word-Embedding Based Speaker Change DetectionOr Haim Anidjar, Itshak Lapidot, Chen Hajaj, Amit Dvir. 3121-3125 [doi]

Phrase Break Prediction with Bidirectional Encoder Representations in Japanese Text-to-Speech SynthesisKosuke Futamata, Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana. 3126-3130 [doi]

Improving Multi-Speaker TTS Prosody Variance with a Residual Encoder and Normalizing FlowsIván Vallés-Pérez, Julian Roth, Grzegorz Beringer, Roberto Barra-Chicote, Jasha Droppo. 3131-3135 [doi]

Rich Prosody Diversity Modelling with Phone-Level Mixture Density NetworkChenpeng Du, Kai Yu 0004. 3136-3140 [doi]

Phoneme Duration Modeling Using Speech Rhythm-Based Speaker Embeddings for Multi-Speaker Speech SynthesisKenichi Fujita, Atsushi Ando, Yusuke Ijima. 3141-3145 [doi]

Fine-Grained Prosody Modeling in Neural Speech Synthesis Using ToBI RepresentationYuxiang Zou, Shichao Liu, Xiang Yin, Haopeng Lin, Chunfeng Wang, Haoyu Zhang, Zejun Ma. 3146-3150 [doi]

Intra-Sentential Speaking Rate Control in Neural Text-To-Speech for Automatic DubbingMayank Sharma, Yogesh Virkar, Marcello Federico, Roberto Barra-Chicote, Robert Enyedi. 3151-3155 [doi]

Applying the Information Bottleneck Principle to Prosodic Representation LearningGuangyan Zhang, Ying Qin, Daxin Tan, Tan Lee. 3156-3160 [doi]

A Prototypical Network Approach for Evaluating Generated Emotional SpeechAlice Baird, Silvan Mertes, Manuel Milling, Lukas Stappen, Thomas Wiest, Elisabeth André, Björn W. Schuller. 3161-3165 [doi]

A Simplified Model for the Vocal Tract of [s] with Inclined IncisorsTsukasa Yoshinaga, Kohei Tada, Kazunori Nozaki, Akiyoshi Iida. 3166-3170 [doi]

Vocal-Tract Models to Visualize the Airstream of Human Breath and Droplets While Producing SpeechTakayuki Arai. 3171-3175 [doi]

Using Transposed Convolution for Articulatory-to-Acoustic Conversion from Real-Time MRI DataRyo Tanji, Hidefumi Ohmura, Kouichi Katsurada. 3176-3180 [doi]

Comparison Between Lumped-Mass Modeling and Flow Simulation of the Reed-Type Artificial Vocal FoldRafia Inaam, Tsukasa Yoshinaga, Takayuki Arai, Hiroshi Yokoyama, Akiyoshi Iida. 3181-3185 [doi]

Inhalations in Speech: Acoustic and Physiological CharacteristicsRaphael Werner, Susanne Fuchs, Jürgen Trouvain, Bernd Möbius. 3186-3190 [doi]

Model-Based Exploration of Linking Between Vowel Articulatory Space and Acoustic SpaceAnqi Xu, Daniel R. van Niekerk, Branislav Gerazov, Paul Konstantin Krug, Santitham Prom-on, Peter Birkholz, Yi Xu. 3191-3195 [doi]

Take a Breath: Respiratory Sounds Improve Recollection in Synthetic SpeechMikey Elmers, Raphael Werner, Beeke Muhlack, Bernd Möbius, Jürgen Trouvain. 3196-3200 [doi]

Modeling Sensorimotor Adaptation in Speech Through Alterations to Forward and Inverse ModelsTaijing Chen, Adam C. Lammert, Benjamin Parrell. 3201-3205 [doi]

Mixture of Orthogonal Sequences Made from Extended Time-Stretched Pulses Enables Measurement of Involuntary Voice Fundamental Frequency Response to Pitch PerturbationHideki Kawahara, Toshie Matsui, Kohei Yatabe, Ken-Ichi Sakakibara, Minoru Tsuzaki, Masanori Morise, Toshio Irino. 3206-3210 [doi]

Contextualized Attention-Based Knowledge Transfer for Spoken Conversational Question AnsweringChenyu You, Nuo Chen, Yuexian Zou. 3211-3215 [doi]

Injecting Descriptive Meta-Information into Pre-Trained Language Models with HypernetworksWenying Duan, Xiaoxi He, Zimu Zhou, Hong Rao, Lothar Thiele. 3216-3220 [doi]

Causal Confusion Reduction for Robust Multi-Domain Dialogue PolicyMahdin Rohmatillah, Jen-Tzung Chien. 3221-3225 [doi]

Timing Generating Networks: Neural Network Based Precise Turn-Taking Timing Prediction in Multiparty ConversationShinya Fujie, Hayato Katayama, Jin Sakuma, Tetsunori Kobayashi. 3226-3230 [doi]

Human-to-Human Conversation Dataset for Learning Fine-Grained Turn-Taking ActionKehan Chen, Zezhong Li, Suyang Dai, Wei Zhou, Haiqing Chen. 3231-3235 [doi]

PhonemeBERT: Joint Language Modelling of Phoneme Sequence and ASR TranscriptMukuntha Narayanan Sundararaman, Ayush Kumar, Jithendra Vepa. 3236-3240 [doi]

Joint Retrieval-Extraction Training for Evidence-Aware Dialog Response SelectionHongyin Luo, James R. Glass, Garima Lalwani, Yi Zhang, Shang-wen Li 0001. 3241-3245 [doi]

Adapting Long Context NLM for ASR Rescoring in Conversational AgentsAshish Shenoy, Sravan Bodapati, Monica Sunkara, Srikanth Ronanki, Katrin Kirchhoff. 3246-3250 [doi]

Oriental Language Recognition (OLR) 2020: Summary and AnalysisJing Li, Binling Wang, Yiming Zhi, Zheng Li, Lin Li, Qingyang Hong, Dong Wang. 3251-3255 [doi]

Language Recognition on Unknown Conditions: The LORIA-Inria-MULTISPEECH System for AP20-OLR ChallengeRaphaël Duroselle, Md. Sahidullah, Denis Jouvet, Irina Illina. 3256-3260 [doi]

Dynamic Multi-Scale Convolution for Dialect IdentificationTianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan Song, Jinwen Huang, Huiyu Shi, Xiaorui Wang. 3261-3265 [doi]

An End-to-End Dialect Identification System with Transfer Learning from a Multilingual Automatic Speech Recognition ModelDing Wang, Shuaishuai Ye, Xinhui Hu, Sheng Li, Xinkang Xu. 3266-3270 [doi]

Language Recognition Based on Unsupervised Pretrained ModelsHaibin Yu, Jing Zhao, Song Yang, Zhongqin Wu, Yuting Nie, Wei-Qiang Zhang. 3271-3275 [doi]

Additive Phoneme-Aware Margin Softmax Loss for Language RecognitionZheng Li, Yan Liu, Lin Li, Qingyang Hong. 3276-3280 [doi]

Towards an Accent-Robust Approach for ATC Communications TranscriptionNataly Jahchan, Florentin Barbier, Ariyanidevi Dharma Gita, Khaled Khelif, Estelle Delpech. 3281-3285 [doi]

Detecting English Speech in the Air Traffic Control Voice CommunicationIgor Szöke, Santosh Kesiraju, Ondrej Novotný, Martin Kocour, Karel Veselý, Jan Cernocký. 3286-3290 [doi]

Robust Command Recognition for Lithuanian Air Traffic Control Tower UtterancesOliver Ohneiser, Seyyed Saeed Sarfjoo, Hartmut Helmke, Shruthi Shetty, Petr Motlícek, Matthias Kleinert, Heiko Ehr, Sarunas Murauskas. 3291-3295 [doi]

Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR SystemsJuan Zuluaga-Gomez, Iuliia Nigmatulina, Amrutha Prasad, Petr Motlícek, Karel Veselý, Martin Kocour, Igor Szöke. 3296-3300 [doi]

Boosting of Contextual Information in ASR for Air-Traffic Call-Sign RecognitionMartin Kocour, Karel Veselý, Alexander Blatt, Juan Zuluaga-Gomez, Igor Szöke, Jan Cernocký, Dietrich Klakow, Petr Motlícek. 3301-3305 [doi]

Modeling the Effect of Military Oxygen Masks on Speech CharacteristicsBenjamin Elie, Jodie Gauvain, Jean-Luc Gauvain, Lori Lamel. 3306-3310 [doi]

MoM: Minutes of Meeting BotBenjamin Milde, Tim Fischer, Steffen Remus, Chris Biemann. 3311-3312 [doi]

Articulatory Data Recorder: A Framework for Real-Time Articulatory Data RecordingAlexander Wilbrandt, Simon Stone, Peter Birkholz. 3313-3314 [doi]

The INGENIOUS Multilingual Operations AppJoan Codina-Filbà, Guillermo Cámbara, Alex Peiró Lilja, Jens Grivolla, Roberto Carlini, Mireia Farrús. 3315-3316 [doi]

Digital Einstein Experience: Fast Text-to-Speech for Conversational AIJoanna Rownicka, Kilian Sprenkamp, Antonio Tripiana, Volodymyr Gromoglasov, Timo P. Kunz. 3317-3318 [doi]

Live Subtitling for BigBlueButton with Open-Source SoftwareRobert Geislinger, Benjamin Milde, Timo Baumann, Chris Biemann. 3319-3320 [doi]

Expressive Latvian Speech Synthesis for Dialog SystemsDavis Nicmanis, Askars Salimbajevs. 3321-3322 [doi]

ViSTAFAE: A Visual Speech-Training Aid with Feedback of Articulatory EffortsPramod H. Kachare, Prem C. Pandey 0001, Vishal Mane, Hirak Dasgupta, K. S. Nataraj, Akshada Rathod, Sheetal K. Pathak. 3323-3324 [doi]

Towards the Prediction of the Vocal Tract Shape from the Sequence of Phonemes to be ArticulatedVinicius Ribeiro, Karyna Isaieva, Justine Leclere, Pierre-André Vuissoz, Yves Laprie. 3325-3329 [doi]

Comparison of the Finite Element Method, the Multimodal Method and the Transmission-Line Model for the Computation of Vocal Tract Transfer FunctionsRémi Blandin, Marc Arnela, Simon Félix, Jean-Baptiste Doc, Peter Birkholz. 3330-3334 [doi]

Effects of Time Pressure and Spontaneity on Phonotactic Innovations in German DialoguesPetra Wagner, Sina Zarrieß, Joana Cholin. 3335-3339 [doi]

Importance of Parasagittal Sensor Information in Tongue Motion Capture Through a Diphonic AnalysisSalvador Medina, Sarah Taylor, Mark Tiede, Alexander G. Hauptmann, Iain Matthews. 3340-3344 [doi]

Learning Robust Speech Representation with an Articulatory-Regularized Variational AutoencoderMarc-Antoine Georges, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber. 3345-3349 [doi]

Changes in Glottal Source Parameter Values with Light to Moderate Physical LoadHeather Weston, Laura L. Koenig, Susanne Fuchs. 3350-3354 [doi]

End-to-End Optimized Multi-Stage Vector Quantization of Spectral Envelopes for Speech and Audio CodingMohammad Hassan Vali, Tom Bäckström. 3355-3359 [doi]

Fusion-Net: Time-Frequency Information Fusion Y-Network for Speech EnhancementSanthan Kumar Reddy Nareddula, Subrahmanyam Gorthi, Rama Krishna Sai Subrahmanyam Gorthi. 3360-3364 [doi]

N-MTTL SI Model: Non-Intrusive Multi-Task Transfer Learning-Based Speech Intelligibility Prediction Model with Scenery ClassificationLubos Marcinek, Michael Stone, Rebecca E. Millman, Patrick Gaydecki. 3365-3369 [doi]

Temporal Context in Speech Emotion RecognitionYangyang Xia, Li-Wei Chen, Alexander Rudnicky, Richard M. Stern. 3370-3374 [doi]

Learning Fine-Grained Cross Modality Excitement for Speech Emotion RecognitionHang Li, Wenbiao Ding, Zhongqin Wu, Zitao Liu. 3375-3379 [doi]

Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care UnitEinari Vaaras, Sari Ahlqvist-Björkroth, Konstantinos Drossos, Okko Räsänen. 3380-3384 [doi]

Multimodal Sentiment Analysis with Temporal Modality AttentionFan Qian, Jiqing Han. 3385-3389 [doi]

Stochastic Process Regression for Cross-Cultural Speech Emotion RecognitionMani Kumar Tellamekala, Enrique Sanchez, Georgios Tzimiropoulos, Timo Giesbrecht, Michel F. Valstar. 3390-3394 [doi]

Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in Audio-Visual Emotion RecognitionHaoQi Li, Yelin Kim, Cheng-Hao Kuo, Shrikanth S. Narayanan. 3395-3399 [doi]

Emotion Recognition from Speech Using wav2vec 2.0 EmbeddingsLeonardo Pepino, Pablo Riera, Luciana Ferrer. 3400-3404 [doi]

Graph Isomorphism Network for Speech Emotion RecognitionJiawang Liu, Haoxiang Wang. 3405-3409 [doi]

Applying TDNN Architectures for Analyzing Duration Dependencies on Speech Emotion RecognitionPooja Kumawat, Aurobinda Routray. 3410-3414 [doi]

Acoustic Features and Neural Representations for Categorical Emotion Recognition from SpeechAaron Keesing, Yun Sing Koh, Michael Witbrock. 3415-3419 [doi]

Leveraging Pre-Trained Language Model for Speech Sentiment AnalysisSuwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe. 3420-3424 [doi]

Cross-Domain Speech Recognition with Unsupervised Character-Level Distribution MatchingWenxin Hou, Jindong Wang, Xu Tan 0003, Tao Qin, Takahiro Shinozaki. 3425-3429 [doi]

Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting Transcription with Single Distant MicrophoneNaoyuki Kanda, Guoli Ye, Yu Wu, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka. 3430-3434 [doi]

On Minimum Word Error Rate Training of the Hybrid Autoregressive TransducerLiang Lu 0001, Zhong Meng, Naoyuki Kanda, Jinyu Li, Yifan Gong 0001. 3435-3439 [doi]

Reducing Streaming ASR Model Delay with Self AlignmentJaeyoung Kim, Han Lu, Anshuman Tripathi, Qian Zhang, Hasim Sak. 3440-3444 [doi]

Reduce and Reconstruct: ASR for Low-Resource Phonetic LanguagesAnuj Diwan, Preethi Jyothi. 3445-3449 [doi]

Knowledge Distillation Based Training of Universal ASR Source Models for Cross-Lingual TransferTakashi Fukuda, Samuel Thomas 0001. 3450-3454 [doi]

Listen with Intent: Improving Speech Recognition with Audio-to-Intent Front-EndSwayambhu Nath Ray, Minhua Wu, Anirudh Raju, Pegah Ghahremani, Raghavendra Bilgi, Milind Rao, Harish Arsikere, Ariya Rastrow, Andreas Stolcke, Jasha Droppo. 3455-3459 [doi]

Exploring Targeted Universal Adversarial Perturbations to End-to-End ASR ModelsZhiyun Lu, Wei Han, Yu Zhang, Liangliang Cao. 3460-3464 [doi]

Earnings-21: A Practical Benchmark for ASR in the WildMiguel Del Rio, Natalie Delworth, Ryan Westerman, Michelle Huang, Nishchal Bhandari, Joseph Palakapilly, Quinten McNamara, Joshua Dong, Piotr Zelasko, Miguel Jette. 3465-3469 [doi]

Improving Multilingual Transformer Transducer Models by Reducing Language ConfusionsEric Sun, Jinyu Li 0001, Zhong Meng, Yu Wu, Jian Xue, Shujie Liu 0001, Yifan Gong 0001. 3470-3474 [doi]

Arabic Code-Switching Speech Recognition Using Monolingual DataAhmed Ali, Shammur Absar Chowdhury, Amir Hussein, Yasser Hifny. 3475-3479 [doi]

Online Blind Audio Source Separation Using Recursive Expectation-MaximizationAviad Eisenberg, Boaz Schwartz, Sharon Gannot. 3480-3484 [doi]

Empirical Analysis of Generalized Iterative Speech Separation NetworksYi Luo, Cong Han, Nima Mesgarani. 3485-3489 [doi]

Graph-PIT: Generalized Permutation Invariant Training for Continuous Separation of Arbitrary Numbers of SpeakersThilo von Neumann, Keisuke Kinoshita, Christoph Böddeker, Marc Delcroix, Reinhold Haeb-Umbach. 3490-3494 [doi]

Teacher-Student MixIT for Unsupervised and Semi-Supervised Speech SeparationJisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker. 3495-3499 [doi]

Few-Shot Learning of New Sound Classes for Target Sound ExtractionMarc Delcroix, Jorge Bennasar Vázquez, Tsubasa Ochiai, Keisuke Kinoshita, Shoko Araki. 3500-3504 [doi]

Binaural Speech Separation of Moving Speakers With Preserved Spatial CuesCong Han, Yi Luo, Nima Mesgarani. 3505-3509 [doi]

AvaTr: One-Shot Speaker Extraction with TransformersShell Xu Hu, Md Rifat Arefin, Viet-Nhat Nguyen, Alish Dipani, Xaq Pitkow, Andreas Savas Tolias. 3510-3514 [doi]

Vocal Harmony Separation Using Time-Domain Neural NetworksSaurjya Sarkar, Emmanouil Benetos, Mark B. Sandler. 3515-3519 [doi]

Speaker Verification-Based Evaluation of Single-Channel Speech SeparationMatthew Maciejewski, Shinji Watanabe 0001, Sanjeev Khudanpur. 3520-3524 [doi]

Improved Speech Separation with Time-and-Frequency Cross-Domain Feature SelectionTian Lan, Yuxin Qian, Yilan Lyu, Refuoe Mokhosi, Wenxin Tai, Qiao Liu 0003. 3525-3529 [doi]

Robust Speaker Extraction Network Based on Iterative Refined AdaptationChengyun Deng, Shiqian Ma, Yongtao Sha, Yi Zhang, Hui Zhang, Hui Song, Fei Wang. 3530-3534 [doi]

Neural Speaker Extraction with Speaker-Speech Cross-Attention NetworkWupeng Wang, Chenglin Xu, Meng Ge, Haizhou Li 0001. 3535-3539 [doi]

Deep Audio-Visual Speech Separation Based on Facial MotionRémi Rigal, Jacques Chodorowski, Benoît Zerr. 3540-3544 [doi]

LEAP Submission for the Third DIHARD Diarization ChallengePrachi Singh, Rajat Varma, Venkat Krishnamohan, Srikanth Raj Chetupalli, Sriram Ganapathy. 3545-3549 [doi]

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty MeetingsShiliang Zhang, Siqi Zheng, Weilong Huang, Ming Lei, Hongbin Suo, Jinwei Feng, Zhijie Yan. 3550-3554 [doi]

Target-Speaker Voice Activity Detection with Improved i-Vector Estimation for Unknown Number of SpeakerMaokui He, Desh Raj, Zili Huang, Jun Du, Zhuo Chen, Shinji Watanabe 0001. 3555-3559 [doi]

ECAPA-TDNN Embeddings for Speaker DiarizationNauman Dawalatabad, Mirco Ravanelli, François Grondin, Jenthe Thienpondt, Brecht Desplanques, Hwidong Na. 3560-3564 [doi]

Advances in Integration of End-to-End Neural and Clustering-Based Diarization for Real Conversational SpeechKeisuke Kinoshita, Marc Delcroix, Naohiro Tawara. 3565-3569 [doi]

The Third DIHARD Diarization ChallengeNeville Ryant, Prachi Singh, Venkat Krishnamohan, Rajat Varma, Kenneth Church 0001, Christopher Cieri, Jun Du, Sriram Ganapathy, Mark Liberman. 3570-3574 [doi]

Robust End-to-End Speaker Diarization with Conformer and Additive Margin PenaltyTsun-Yat Leung, Lahiru Samarakoon. 3575-3579 [doi]

Anonymous Speaker Clusters: Making Distinctions Between Anonymised Speech Recordings with Clustering InterfaceBenjamin O'Brien, Natalia A. Tomashenko, Anaïs Chanclu, Jean-François Bonastre. 3580-3584 [doi]

Speaker Diarization Using Two-Pass Leave-One-Out Gaussian PLDA Clustering of DNN EmbeddingsKiran Karra, Alan McCree. 3585-3589 [doi]

Federated Learning with Dynamic Transformer for Text to SpeechZhenhou Hong, Jianzong Wang, Xiaoyang Qu, Jie Liu, Chendong Zhao, Jing Xiao. 3590-3594 [doi]

LiteTTS: A Lightweight Mel-Spectrogram-Free Text-to-Wave Synthesizer Based on Generative Adversarial NetworksHuu-Kim Nguyen, Kihyuk Jeong, Se-Yun Um, Min-Jae Hwang, Eunwoo Song, Hong-Goo Kang. 3595-3599 [doi]

Zero-Shot Text-to-Speech for Text-Based Insertion in Audio NarrationChuanxin Tang, Chong Luo, Zhiyuan Zhao, Dacheng Yin, Yucheng Zhao, Wenjun Zeng. 3600-3604 [doi]

Diff-TTS: A Denoising Diffusion Model for Text-to-SpeechMyeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, Nam Soo Kim. 3605-3609 [doi]

Hierarchical Context-Aware Transformers for Non-Autoregressive Text to SpeechJae-Sung Bae, Taejun Bak, Young-Sun Joo, Hoon-Young Cho. 3610-3614 [doi]

Speech Resynthesis from Discrete Disentangled Self-Supervised RepresentationsAdam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux. 3615-3619 [doi]

A Learned Conditional Prior for the VAE Acoustic Space of a TTS SystemPenny Karanasou, Sri Karlapati, Alexis Moinet, Arnaud Joly, Ammar Abbas, Simon Slangen, Jaime Lorenzo-Trueba, Thomas Drugman. 3620-3624 [doi]

A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning Based on Rényi Divergence MinimizationDipjyoti Paul, Sankar Mukherjee, Yannis Pantazis, Yannis Stylianou. 3625-3629 [doi]

Relational Data Selection for Data Augmentation of Speaker-Dependent Multi-Band MelGAN VocoderYi-Chiao Wu, Cheng-Hung Hu, Hung-Shin Lee, Yu-Huai Peng, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda. 3630-3634 [doi]

Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-SpeechHyunseung Chung, Sang-Hoon Lee, Seong-Whan Lee. 3635-3639 [doi]

Triple M: A Practical Text-to-Speech Synthesis System with Multi-Guidance Attention and Multi-Band Multi-Time LPCNetShilun Lin, Fenglong Xie, Li Meng, Xinhui Li, Li Lu. 3640-3644 [doi]

SC-GlowTTS: An Efficient Zero-Shot Multi-Speaker Text-To-Speech ModelEdresson Casanova, Christopher Shulby, Eren Gölge, Nicolas Michael Müller, Frederico Santos de Oliveira, Arnaldo Candido Jr., Anderson da Silva Soares, Sandra Maria Aluísio, Moacir Antonelli Ponti. 3645-3649 [doi]

Spoken ObjectNet: A Bias-Controlled Spoken Caption DatasetIan Palmer, Andrew Rouditchenko, Andrei Barbu, Boris Katz, James R. Glass. 3650-3654 [doi]

The Multilingual TEDx Corpus for Speech Recognition and TranslationElizabeth Salesky, Matthew Wiesner, Jacob Bremerman, Roldano Cattoni, Matteo Negri, Marco Turchi, Douglas W. Oard, Matt Post. 3655-3659 [doi]

Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered Language for Universal Phone Recognition ExperimentsDavid R. Mortensen, Jordan Picone, Xinjian Li, Kathleen Siminyu. 3660-3664 [doi]

AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference ScenarioYihui Fu, Luyao Cheng, Shubo Lv, Yukai Jv, Yuxiang Kong, Zhuo Chen, Yanxin Hu, Lei Xie, Jian Wu, Hui Bu, Xin Xu, Jun Du, Jingdong Chen. 3665-3669 [doi]

GigaSpeech: An Evolving, Multi-Domain ASR Corpus with 10, 000 Hours of Transcribed AudioGuoguo Chen, Shuzhou Chai, Guan-Bo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe 0001, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Zhao You, Zhiyong Yan. 3670-3674 [doi]

Look Who's Talking: Active Speaker Detection in the WildYou Jin Kim, Hee-Soo Heo, Soyeon Choe, Soo-Whan Chung, Yoohwan Kwon, Bong-Jin Lee, Youngki Kwon, Joon Son Chung. 3675-3679 [doi]

AusKidTalk: An Auditory-Visual Corpus of 3- to 12-Year-Old Australian Children's SpeechBeena Ahmed, Kirrie J. Ballard, Denis Burnham, Tharmakulasingam Sirojan, Hadi Mehmood, Dominique Estival, Elise Baker, Felicity Cox, Joanne Arciuli, Titia Benders, Katherine Demuth, Barbara Kelly, Chloé Diskin-Holdaway, Mostafa Ali Shahin, Vidhyasaharan Sethu, Julien Epps, Chwee Beng Lee, Eliathamby Ambikairajah. 3680-3684 [doi]

Human-in-the-Loop Efficiency Analysis for Binary Classification in EdysonPer Fallgren, Jens Edlund. 3685-3689 [doi]

Annotation Confidence vs. Training Sample Size: Trade-Off Solution for Partially-Continuous Categorical Emotion RecognitionElena Ryumina, Oxana Verkholyak, Alexey Karpov 0001. 3690-3694 [doi]

Towards Automatic Speech to Sign Language GenerationParul Kapoor, Rudrabha Mukhopadhyay, Sindhu B. Hegde, Vinay Namboodiri, C. V. Jawahar. 3700-3704 [doi]

kosp2e: Korean Speech to English Translation CorpusWon-Ik Cho, Seok Min Kim, Hyunchang Cho, Nam Soo Kim. 3705-3709 [doi]

speechocean762: An Open-Source Non-Native English Speech Corpus for Pronunciation AssessmentJunbo Zhang, Zhiwen Zhang, Yongqing Wang, Zhiyong Yan, Qiong Song, Yukai Huang, Ke Li, Daniel Povey, Yujun Wang. 3710-3714 [doi]

An Improved Single Step Non-Autoregressive Transformer for Automatic Speech RecognitionRuchao Fan, Wei Chu, Peng Chang 0002, Jing Xiao 0006, Abeer Alwan. 3715-3719 [doi]

Multi-Speaker ASR Combining Non-Autoregressive Conformer CTC and Conditional Speaker ChainPengcheng Guo, Xuankai Chang, Shinji Watanabe 0001, Lei Xie 0001. 3720-3724 [doi]

Pushing the Limits of Non-Autoregressive Speech RecognitionEdwin G. Ng, Chung-Cheng Chiu, Yu Zhang, William Chan. 3725-3729 [doi]

Non-Autoregressive Predictive Coding for Learning Speech Representations from Local DependenciesAlexander H. Liu, Yu-An Chung, James R. Glass. 3730-3734 [doi]

Relaxing the Conditional Independence Assumption of CTC-Based ASR by Conditioning on Intermediate PredictionsJumon Nozaki, Tatsuya Komatsu. 3735-3739 [doi]

Toward Streaming ASR with Non-Autoregressive Insertion-Based ModelYuya Fujita, Tianzi Wang, Shinji Watanabe 0001, Motoi Omachi. 3740-3744 [doi]

Layer Pruning on Demand with Intermediate CTCJaesong Lee, Jingu Kang, Shinji Watanabe 0001. 3745-3749 [doi]

Real-Time End-to-End Monaural Multi-Speaker Speech RecognitionSong Li, Beibei Ouyang, Fuchuan Tong, Dexin Liao, Lin Li, Qingyang Hong. 3750-3754 [doi]

Streaming End-to-End ASR Based on Blockwise Non-Autoregressive ModelsTianzi Wang, Yuya Fujita, Xuankai Chang, Shinji Watanabe. 3755-3759 [doi]

TalkNet: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech SynthesisStanislav Beliaev, Boris Ginsburg. 3760-3764 [doi]

WaveGrad 2: Iterative Refinement for Text-to-Speech SynthesisNanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi 0002, Najim Dehak, William Chan. 3765-3769 [doi]

Align-Denoise: Single-Pass Non-Autoregressive Speech RecognitionNanxin Chen, Piotr Zelasko, Laureano Moro-Velázquez, Jesús Villalba, Najim Dehak. 3770-3774 [doi]

VAENAR-TTS: Variational Auto-Encoder Based Non-AutoRegressive Text-to-Speech SynthesisHui Lu, Zhiyong Wu 0001, Xixin Wu, Xu Li, Shiyin Kang, Xunying Liu, Helen Meng. 3775-3779 [doi]

Detecting Cognitive Decline Using Speech Only: The ADReSSo ChallengeSaturnino Luz, Fasih Haider, Sofia de la Fuente, Davida Fromm, Brian MacWhinney. 3780-3784 [doi]

Influence of the Interviewer on the Automatic Assessment of Alzheimer's Disease in the Context of the ADReSSo ChallengePaula Andrea Pérez-Toro, Sebastian P. Bayerl, Tomas Arias-Vergara, Juan Camilo Vásquez-Correa, Philipp Klumpp, Maria Schuster, Elmar Nöth, Juan Rafael Orozco-Arroyave, Korbinian Riedhammer. 3785-3789 [doi]

WavBERT: Exploiting Semantic and Non-Semantic Speech Using Wav2vec and BERT for Dementia DetectionYouxiang Zhu, Abdelrahman Obyat, Xiaohui Liang, John A. Batsis, Robert M. Roth. 3790-3794 [doi]

Alzheimer Disease Recognition Using Speech-Based Embeddings From Pre-Trained ModelsLara Gauder, Leonardo Pepino, Luciana Ferrer, Pablo Riera. 3795-3799 [doi]

Comparing Acoustic-Based Approaches for Alzheimer's Disease DetectionAparna Balagopalan, Jekaterina Novikova. 3800-3804 [doi]

Alzheimer's Disease Detection from Spontaneous Speech Through Combining Linguistic Complexity and (Dis)Fluency Features with Pretrained Language ModelsYu Qiao, Xuefeng Yin, Daniel Wiechmann, Elma Kerz. 3805-3809 [doi]

Using the Outputs of Different Automatic Speech Recognition Paradigms for Acoustic- and BERT-Based Alzheimer's Dementia Detection Through Spontaneous SpeechYilin Pan, Bahman Mirheidari, Jennifer M. Harris, Jennifer C. Thompson, Matthew Jones, Julie S. Snowden, Daniel Blackburn, Heidi Christensen. 3810-3814 [doi]

Tackling the ADRESSO Challenge 2021: The MUET-RMIT System for Alzheimer's Dementia Recognition from Spontaneous SpeechZafi Sherhan Syed, Muhammad Shehram Shah Syed, Margaret Lech, Elena Pirogova. 3815-3819 [doi]

Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and Speech Pause Features Robust to Noisy InputsMorteza Rohanian, Julian Hough, Matthew Purver. 3820-3824 [doi]

Automatic Detection and Assessment of Alzheimer Disease Using Speech and Language Technologies in Low-Resource ScenariosRaghavendra Pappagari, Jaejin Cho, Sonal Joshi, Laureano Moro-Velázquez, Piotr Zelasko, Jesús Villalba, Najim Dehak. 3825-3829 [doi]

Automatic Detection of Alzheimer's Disease Using Spontaneous Speech OnlyJun Chen, Jieping Ye, Fengyi Tang, Jiayu Zhou. 3830-3834 [doi]

Modular Multi-Modal Attention Network for Alzheimer's Disease Detection Using Patient Audio and Language DataNing Wang, Yupeng Cao, Shuai Hao, Zongru Shao, K. P. Subbalakshmi. 3835-3839 [doi]

Self-Attention Channel Combinator Frontend for End-to-End Multichannel Far-Field Speech RecognitionRong Gong, Carl Quillen, Dushyant Sharma, Andrew Goderre, José Laínez, Ljubomir Milanovic. 3840-3844 [doi]

ETLT 2021: Shared Task on Automatic Speech Recognition for Non-Native Children's SpeechRoberto Gretter, Marco Matassoni, Daniele Falavigna, A. Misra, Chee Wee Leong, K. Knill, L. Wang. 3845-3849 [doi]

Age-Invariant Training for End-to-End Child Speech Recognition Using Adversarial Multi-Task LearningLars Rumberg, Hanna Ehlert, Ulrike Lüdtke, Jörn Ostermann. 3850-3854 [doi]

Learning to Rank Microphones for Distant Speech RecognitionSamuele Cornell, Alessio Brutti, Marco Matassoni, Stefano Squartini. 3855-3859 [doi]

Simulating Reading Mistakes for Child Speech Transformer-Based Phone RecognitionLucile Gelin, Thomas Pellegrini, Julien Pinquier, Morgane Daniel. 3860-3864 [doi]

Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text InputBrooke Stephenson, Thomas Hueber, Laurent Girin, Laurent Besacier. 3865-3869 [doi]

Exploring Emotional Prototypes in a High Dimensional TTS Latent SpacePol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison, Pauline Larrouy-Maestri, Elisabeth André, Nori Jacoby. 3870-3874 [doi]

Ctrl-P: Temporal Control of Prosodic Variation for Speech SynthesisDevang S. Ram Mohan, Qinmin Vivian Hu, Tian Huey Teh, Alexandra Torresquintero, Christopher G. R. Wallis, Marlene Staib, Lorenzo Foglianti, Jiameng Gao, Simon King. 3875-3879 [doi]

ADEPT: A Dataset for Evaluating Prosody TransferAlexandra Torresquintero, Tian Huey Teh, Christopher G. R. Wallis, Marlene Staib, Devang S. Ram Mohan, Vivian Hu, Lorenzo Foglianti, Jiameng Gao, Simon King. 3880-3884 [doi]

Prosodic Boundary Prediction Model for Vietnamese Text-To-SpeechThi Thu Trang Nguyen, Nguyen Hoang Ky, Albert Rilliard, Christophe d'Alessandro. 3885-3889 [doi]

Many-Speakers Single Channel Speech Separation with Optimal Permutation TrainingShaked Dovrat, Eliya Nachmani, Lior Wolf. 3890-3894 [doi]

Combating Reverberation in NTF-Based Speech Separation Using a Sub-Source Weighted Multichannel Wiener Filter and Linear PredictionMieszko Fras, Marcin Witkowski, Konrad Kowalczyk. 3895-3899 [doi]

A Hands-On Comparison of DNNs for Dialog Separation Using Transfer Learning from Music Source SeparationMartin Strauss 0003, Jouni Paulus, Matteo Torcoli, Bernd Edler. 3900-3904 [doi]

GlobalPhone Mix-To-Separate Out of 2: A Multilingual 2000 Speakers Mixtures Database for Speech SeparationMarvin Borsdorf, Chenglin Xu, Haizhou Li 0001, Tanja Schultz. 3905-3909 [doi]

Cross-Linguistic Perception of the Japanese Singleton/Geminate Contrast: Korean, Mandarin and Mongolian ComparedKimiko Tsukada, Yu Rong, Joo-Yeon Kim, Jeong-Im Han, John Hajek. 3910-3914 [doi]

Detection of Lexical Stress Errors in Non-Native (L2) English with Data Augmentation and AttentionDaniel Korzekwa, Roberto Barra-Chicote, Szymon Zaporowski, Grzegorz Beringer, Jaime Lorenzo-Trueba, Alicja Serafinowicz, Jasha Droppo, Thomas Drugman, Bozena Kostek. 3915-3919 [doi]

Testing Acoustic Voice Quality Classification Across Languages and Speech StylesBettina Braun, Nicole Dehé, Marieke Einfeldt, Daniela Wochner, Katharina Zahner-Ritter. 3920-3924 [doi]

Acquisition of Prosodic Focus Marking by Three- to Six-Year-Old Children Learning Mandarin ChineseQianyutong Zhang, Kexin Lyu, Zening Chen, Ping Tang. 3925-3928 [doi]

Adaptive Listening Difficulty Detection for L2 Learners Through Moderating ASR ResourcesMaryam Sadat Mirzaei, Kourosh Meshgi. 3929-3933 [doi]

0 Patterns of L2 English Speech by Mandarin Chinese LearnersHongwei Ding, Binghuai Lin, Liyuan Wang. 3934-3938 [doi]

A Neural Network-Based Noise Compensation Method for Pronunciation AssessmentBinghuai Lin, Liyuan Wang. 3939-3943 [doi]

Phonetic Distance and Surprisal in Multilingual Priming: Evidence from SlavicJacek Kudera, Philip Georgis, Bernd Möbius, Tania Avgustinova, Dietrich Klakow. 3944-3948 [doi]

A Preliminary Study on Discourse Prosody Encoding in L1 and L2 English Spontaneous NarrativesYuqing Zhang, Zhu Li, Binghuai Lin, Jinsong Zhang. 3949-3953 [doi]

Transformer Based End-to-End Mispronunciation Detection and DiagnosisMinglin Wu, Kun Li, Wai-Kim Leung, Helen Meng. 3954-3958 [doi]

L1 Identification from L2 Speech Using Neural Spectrogram AnalysisCalbert Graham. 3959-3963 [doi]

Leveraging Real-Time MRI for Illuminating Linguistic Velum ActionMiran Oh, Dani Byrd, Shrikanth S. Narayanan. 3964-3968 [doi]

Segmental Alignment of English Syllables with Singleton and Cluster OnsetsZirui Liu, Yi Xu. 3969-3973 [doi]

Exploration of Welsh English Pre-Aspiration: How Wide-Spread is it?Mísa Hejná. 3974-3978 [doi]

Revisiting Recall Effects of Filler Particles in German and EnglishBeeke Muhlack, Mikey Elmers, Heiner Drenhaus, Jürgen Trouvain, Marjolein van Os, Raphael Werner, Margarita Ryzhova, Bernd Möbius. 3979-3983 [doi]

How Reliable Are Phonetic Data Collected Remotely? Comparison of Recording Devices and Environments on Acoustic MeasurementsChunyu Ge, Yixuan Xiong, Peggy Mok. 3984-3988 [doi]

A Cross-Dialectal Comparison of Apical Vowels in Beijing Mandarin, Northeastern Mandarin and Southwestern Mandarin: An EMA and Ultrasound StudyJing Huang, Feng-fan Hsieh, Yueh-Chin Chang. 3989-3993 [doi]

Dissecting the Aero-Acoustic Parameters of Open Articulatory TransitionsMark Gibson, Oihane Muxika, Marianne Pouplier. 3994-3998 [doi]

Quantifying Vocal Tract Shape Variation and its Acoustic Impact: A Geometric Morphometric ApproachAmelia Jane Gully. 3999-4003 [doi]

Speech Perception and Loanword Adaptations: The Case of Copy-Vowel EpenthesisAdriana Guevara-Rukoz, Shi Yu, Sharon Peperkamp. 4004-4008 [doi]

Speakers Coarticulate Less When Facing Real and Imagined Communicative Difficulties: An Analysis of Read and Spontaneous Speech from the LUCID CorpusZhe-chen Guo, Rajka Smiljanic. 4009-4013 [doi]

Developmental Changes of Vowel Acoustics in AdolescentsEinar Meister, Lya Meister. 4014-4018 [doi]

Context and Co-Text Influence on the Accuracy Production of Italian L2 Non-Native SoundsSonia D'Apolito, Barbara Gili Fivela. 4019-4023 [doi]

A New Vowel Normalization for SociophoneticsWilbert Heeringa, Hans Van de Velde. 4024-4028 [doi]

The Pacific Expansion: Optimizing Phonetic Transcription of Archival CorporaRosey Billington, Hywel Stoakes, Nick Thieberger. 4029-4033 [doi]

FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip RegularizationZhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang 0014, Zhengqi Wen. 4034-4038 [doi]

LT-LM: A Novel Non-Autoregressive Language Model for Single-Shot Lattice RescoringAnton Mitrofanov, Mariya Korenevskaya, Ivan Podluzhny, Yuri Y. Khokhlov, Aleksandr Laptev, Andrei Andrusenko, Aleksei Ilin, Maxim Korenevsky, Ivan Medennikov, Aleksei Romanenko. 4039-4043 [doi]

A Hybrid Seq-2-Seq ASR Design for On-Device and Server ApplicationsCyril Allauzen, Ehsan Variani, Michael Riley 0001, David Rybach, Hao Zhang. 4044-4048 [doi]

VAD-Free Streaming Hybrid CTC/Attention ASR for Unsegmented RecordingHirofumi Inaguma, Tatsuya Kawahara. 4049-4053 [doi]

WeNet: Production Oriented Streaming and Non-Streaming End-to-End Speech Recognition ToolkitZhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu, Chao Yang, Zhendong Peng, Xiaoyu Chen, Lei Xie, Xin Lei. 4054-4058 [doi]

Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech RecognitionTomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Takanori Ashihara, Shota Orihashi, Naoki Makishima. 4059-4063 [doi]

Deep Neural Network Calibration for E2E Speech Recognition SystemMun-Hak Lee, Joon-Hyuk Chang. 4064-4068 [doi]

Residual Energy-Based Models for End-to-End Speech RecognitionQiujia Li, Yu Zhang, Bo Li, Liangliang Cao, Philip C. Woodland. 4069-4073 [doi]

Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion PredictionDavid Qiu, Yanzhang He, Qiujia Li, Yu Zhang, Liangliang Cao, Ian McGraw. 4074-4078 [doi]

Insights on Neural Representations for End-to-End Speech RecognitionAnna Ollerenshaw, Md. Asif Jalal, Thomas Hain. 4079-4083 [doi]

Sequence-Level Confidence Classifier for ASR Utterance Accuracy and Application to Acoustic ModelsAmber Afshan, Kshitiz Kumar, Jian Wu. 4084-4088 [doi]

Unsupervised Learning of Disentangled Speech Content and Style RepresentationAndros Tjandra, Ruoming Pang, Yu Zhang, Shigeki Karita. 4089-4093 [doi]

Label Embedding for Chinese Grapheme-to-Phoneme ConversionEunbi Choi, Hwa-Yeon Kim, Jong-Hwan Kim, Jae Min Kim. 4094-4098 [doi]

PDF: Polyphone Disambiguation in Chinese by Using FLATHaiteng Zhang. 4099-4103 [doi]

Improving Polyphone Disambiguation for Mandarin Chinese by Combining Mix-Pooling Strategy and Window-Based AttentionJunjie Li, Zhiyu Zhang, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao. 4104-4108 [doi]

Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised LearningYi Shi, Congyi Wang, Yu Chen, Bin Wang. 4109-4113 [doi]

A Neural-Network-Based Approach to Identifying Speakers in NovelsYue Chen, Zhen-Hua Ling, Qing-Feng Liu. 4114-4118 [doi]

UnitNet-Based Hybrid Speech SynthesisXiao Zhou, Zhen-Hua Ling, Li-Rong Dai 0001. 4119-4123 [doi]

Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak LouderSashi Novitasari, Sakriani Sakti, Satoshi Nakamura. 4124-4128 [doi]

LinearSpeech: Parallel Text-to-Speech with Linear ComplexityHaozhe Zhang, Zhihua Huang, Zengqiang Shang, Pengyuan Zhang, Yonghong Yan 0002. 4129-4133 [doi]

An Agent for Competing with Humans in a Deceptive Game Based on Vocal CuesNoa Mansbach, Evgeny Hershkovitch Neiterman, Amos Azaria. 4134-4138 [doi]

A Multi-Branch Deep Learning Network for Automated Detection of COVID-19Ahmed Fakhry, Xinyi Jiang, Jaclyn Xiao, Gunvant Chaudhari, Asriel Han. 4139-4143 [doi]

RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw WaveformYouxuan Ma, Zongze Ren, Shugong Xu. 4144-4148 [doi]

Fake Audio Detection in Resource-Constrained Settings Using MicrofeaturesHira Dhamyal, Ayesha Ali, Ihsan Ayyub Qazi, Agha Ali Raza. 4149-4153 [doi]

Coughing-Based Recognition of Covid-19 with Spatial Attentive ConvLSTM Recurrent Neural NetworksTianhao Yan, Hao Meng, Emilia Parada-Cabaleiro, Shuo Liu, Meishu Song, Björn W. Schuller. 4154-4158 [doi]

Knowledge Distillation for Singing Voice DetectionSoumava Paul, Gurunath Reddy M, K. Sreenivasa Rao, Partha Pratim Das. 4159-4163 [doi]

Age Estimation with Speech-Age Model for Heterogeneous Speech DatasetsRyu Takeda, Kazunori Komatani. 4164-4168 [doi]

Open-Set Audio Classification with Limited Training Resources Based on Augmentation Enhanced Variational Auto-Encoder GAN with Detection-Classification Joint TrainingKah Kuan Teh, Huy Dat Tran. 4169-4173 [doi]

Deep Spectral-Cepstral Fusion for Shouted and Normal Speech ClassificationTakahiro Fukumori. 4174-4178 [doi]

Automatic Detection of Shouted Speech Segments in Indian News DebatesShikha Baghel, Mrinmoy Bhattacharjee, S. R. Mahadeva Prasanna, Prithwijit Guha. 4179-4183 [doi]

Generalized Spoofing Detection Inspired from Audio Generation ArtifactsYang Gao, Tyler Vuong, Mahsa Elyasi, Gaurav Bharaj, Rita Singh. 4184-4188 [doi]

Overlapped Speech Detection Based on Spectral and Spatial Feature FusionWeiguang Chen, Van Tung Pham, Eng Siong Chng, Xionghu Zhong. 4189-4193 [doi]

Do Acoustic Word Embeddings Capture Phonological Similarity? An Empirical StudyBadr M. Abdullah, Marius Mosbach, Iuliia Zaitova, Bernd Möbius, Dietrich Klakow. 4194-4198 [doi]

Paraphrase Label Alignment for Voice Application Retrieval in Spoken Language UnderstandingZheng Gao, Radhika Arava, Qian Hu, Xibin Gao, Thahir Mohamed, Wei Xiao, Mohamed Abdelhady. 4199-4203 [doi]

Personalized Keyphrase Detection Using Speaker and Environment InformationRajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ding Zhao, Yiteng Huang, Arun Narayanan, Ian McGraw. 4204-4208 [doi]

Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger MitigationVineet Garg, Wonil Chang, Siddharth Sigtia, Saurabh Adya, Pramod Simha, Pranay Dighe, Chandra Dhir. 4209-4213 [doi]

Few-Shot Keyword Spotting in Any LanguageMark Mazumder, Colby R. Banbury, Josh Meyer, Pete Warden, Vijay Janapa Reddi. 4214-4218 [doi]

Text Anchor Based Metric Learning for Small-Footprint Keyword SpottingLi Wang, Rongzhi Gu, Nuo Chen, Yuexian Zou. 4219-4223 [doi]

A Meta-Learning Approach for User-Defined Spoken Term Classification with Varying Classes and ExamplesYangbin Chen, Tom Ko, Jianping Wang 0001. 4224-4228 [doi]

Auxiliary Sequence Labeling Tasks for Disfluency DetectionDongyub Lee, Byeongil Ko, Myeongcheol Shin, Taesun Whang, Daniel Lee, Eun Hwa Kim, EungGyun Kim, Jaechoon Jo. 4229-4233 [doi]

Energy-Friendly Keyword Spotting System Using Add-Based ConvolutionHang Zhou, Wenchao Hu, Yu Ting Yeung, Xiao Chen. 4234-4238 [doi]

The 2020 Personalized Voice Trigger Challenge: Open Datasets, Evaluation Metrics, Baseline System and ResultsYan Jia, Xingming Wang, Xiaoyi Qin, Yinping Zhang, Xuyang Wang, Junjie Wang, Dong Zhang, Ming Li. 4239-4243 [doi]

Auto-KWS 2021 Challenge: Task, Datasets, and BaselinesJingsong Wang, Yuxuan He, Chunyu Zhao, Qijie Shao, Wei-Wei Tu, Tom Ko, Hung-yi Lee, Lei Xie. 4244-4248 [doi]

Keyword Transformer: A Self-Attention Model for Keyword SpottingAxel Berg, Mark O'Connor, Miguel Tairum Cruz. 4249-4253 [doi]

Teaching Keyword Spotters to Spot New Keywords with Limited ExamplesAbhijeet Awasthi, Kevin Kilgour, Hassan Rom. 4254-4258 [doi]

A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech DetectionXin Wang, Junichi Yamagishi. 4259-4263 [doi]

An Initial Investigation for Detecting Partially Spoofed AudioLin Zhang, Xin Wang, Erica Cooper, Junichi Yamagishi, Jose Patino 0001, Nicholas Evans. 4264-4268 [doi]

Siamese Network with wav2vec Feature for Spoofing Speech DetectionYang Xie, Zhenchuan Zhang, Yingchun Yang. 4269-4273 [doi]

Cross-Database Replay Detection in Terminal-Dependent Speaker VerificationXingliang Cheng, Mingxing Xu, Thomas Fang Zheng. 4274-4278 [doi]

The Effect of Silence and Dual-Band Fusion in Anti-Spoofing SystemYuxiang Zhang, Wenchao Wang, Pengyuan Zhang. 4279-4283 [doi]

Pairing Weak with Strong: Twin Models for Defending Against Adversarial Attack on Speaker VerificationZhiyuan Peng, Xu Li, Tan Lee. 4284-4288 [doi]

Attention-Based Convolutional Neural Network for ASV Spoofing DetectionHefei Ling, Leichao Huang, Junrui Huang, BaiYan Zhang, Ping Li. 4289-4293 [doi]

Voting for the Right Answer: Adversarial Defense for Speaker VerificationHaibin Wu, Yang Zhang, Zhiyong Wu, Dong Wang, Hung-yi Lee. 4294-4298 [doi]

Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-SpoofingTomi Kinnunen, Andreas Nautsch, Md. Sahidullah, Nicholas Evans, Xin Wang, Massimiliano Todisco, Héctor Delgado, Junichi Yamagishi, Kong-Aik Lee. 4299-4303 [doi]

Representation Learning to Classify and Detect Adversarial Attacks Against Speaker and Speech Recognition SystemsJesús Villalba, Sonal Joshi, Piotr Zelasko, Najim Dehak. 4304-4308 [doi]

An Empirical Study on Channel Effects for Synthetic Voice Spoofing Countermeasure SystemsYou Zhang, Ge Zhu, Fei Jiang, Zhiyao Duan. 4309-4313 [doi]

Channel-Wise Gated Res2Net: Towards Robust Detection of Synthetic Speech AttacksXu Li, Xixin Wu, Hui Lu, Xunying Liu, Helen Meng. 4314-4318 [doi]

Partially-Connected Differentiable Architecture Search for Deepfake and Spoofing DetectionWanying Ge, Michele Panariello, Jose Patino 0001, Massimiliano Todisco, Nicholas W. D. Evans. 4319-4323 [doi]

OpenASR20: An Open Challenge for Automatic Speech Recognition of Conversational Telephone Speech in Low-Resource LanguagesKay Peterson, Audrey Tong, Yan Yu. 4324-4328 [doi]

Multitask Adaptation with Lattice-Free MMI for Multi-Genre Speech Recognition of Low Resource LanguagesSrikanth R. Madikeri, Petr Motlícek, Hervé Bourlard. 4329-4333 [doi]

An Improved Wav2Vec 2.0 Pre-Training Approach Using Enhanced Local Dependency Modeling for Speech RecognitionQiu-Shi Zhu, Jie Zhang, Ming-hui Wu, Xin Fang, Li-Rong Dai 0001. 4334-4338 [doi]

Systems for Low-Resource Speech Recognition Tasks in Open Automatic Speech Recognition and Formosa Speech Recognition ChallengesHung-Pang Lin, Yu-Jia Zhang, Chia-Ping Chen. 4339-4343 [doi]

The TNT Team System Descriptions of Cantonese and Mongolian for IARPA OpenASR20Jing Zhao, Zhiqiang Lv, Ambyera Han, Guan-Bo Wang, Gui-Xin Shi, Jian Kang, Jinghao Yan, Pengfei Hu, Shen Huang, Wei-Qiang Zhang. 4344-4348 [doi]

Combining Hybrid and End-to-End Approaches for the OpenASR20 ChallengeTanel Alumäe, Jiaming Kong. 4349-4353 [doi]

One Size Does Not Fit All in Resource-Constrained ASREthan Morris, Robbie Jimerson, Emily Prud'hommeaux. 4354-4358 [doi]

Unsupervised Representation Learning for Speech Activity Detection in the Fearless Steps Challenge 2021Pablo Gimeno, Alfonso Ortega Giménez, Antonio Miguel, Eduardo Lleida. 4359-4363 [doi]

The Application of Learnable STRF Kernels to the 2021 Fearless Steps Phase-03 SAD ChallengeTyler Vuong, Yangyang Xia, Richard M. Stern. 4364-4368 [doi]

Speech Activity Detection Based on Multilingual Speech Recognition SystemSeyyed Saeed Sarfjoo, Srikanth R. Madikeri, Petr Motlícek. 4369-4373 [doi]

Voice Activity Detection with Teacher-Student Domain EmulationJarrod Luckenbaugh, Samuel Abplanalp, Rachel Gonzalez, Daniel Fulford, David Gard, Carlos Busso. 4374-4378 [doi]

EML Online Speech Activity Detection for the Fearless Steps Challenge Phase-IIIOmid Ghahabi, Volker Fischer 0002. 4379-4382 [doi]

Device Playback Augmentation with Echo Cancellation for Keyword SpottingKuba Lopatka, Katarzyna Kaszuba-Miotke, Piotr Klinke, Pawel Trella. 4383-4387 [doi]

End-to-End Open Vocabulary Keyword SearchBolaji Yusuf, Alican Gök, Batuhan Gündogdu, Murat Saraclar. 4388-4392 [doi]

Semantic Sentence Similarity: Size does not Always MatterDanny Merkx, Stefan L. Frank, Mirjam Ernestus. 4393-4397 [doi]

Spoken Term Detection and Relevance Score Estimation Using Dot-Product of Pronunciation EmbeddingsJan Svec, Lubos Smídl, Josef V. Psutka, Ales Prazák. 4398-4402 [doi]

Toward Genre Adapted Closed CaptioningFrançois Buet, François Yvon. 4403-4407 [doi]

Weakly-Supervised Word-Level Pronunciation Error Detection in Non-Native English SpeechDaniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Shira Calamaro, Bozena Kostek. 4408-4412 [doi]

End-to-End Speaker-Attributed ASR with TransformerNaoyuki Kanda, Guoli Ye, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka. 4413-4417 [doi]

Understanding Medical Conversations: Rich Transcription, Confidence Scores & Information ExtractionHagen Soltau, Mingqiu Wang, Izhak Shafran, Laurent El Shafey. 4418-4422 [doi]

Phone-Level Pronunciation Scoring for Spanish Speakers Learning English Using a GOP-DNN SystemJazmín Vidal, Cyntia Bonomi, Marcelo Sancinetti, Luciana Ferrer. 4423-4427 [doi]

Explore wav2vec 2.0 for Mispronunciation DetectionXiaoshuo Xu, Yueteng Kang, Songjun Cao, Binghuai Lin, Long Ma. 4428-4432 [doi]

Lexical Density Analysis of Word Productions in Japanese English Using Acoustic Word EmbeddingsShintaro Ando, Nobuaki Minematsu, Daisuke Saito. 4433-4437 [doi]

Deep Feature Transfer Learning for Automatic Pronunciation AssessmentBinghuai Lin, Liyuan Wang. 4438-4442 [doi]

Multilingual Speech Evaluation: Case Studies on English, Malay and TamilHuayun Zhang, Ke Shi, Nancy F. Chen. 4443-4447 [doi]

A Study on Fine-Tuning wav2vec2.0 Model for the Task of Mispronunciation Detection and DiagnosisLinkai Peng, Kaiqi Fu, Binghuai Lin, Dengfeng Ke, Jinsong Zhan 0001. 4448-4452 [doi]

The Impact of ASR on the Automatic Analysis of Linguistic Complexity and Sophistication in Spontaneous L2 SpeechYu Qiao, Wei Zhou, Elma Kerz, Ralf Schlüter. 4453-4457 [doi]

End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised LearningTomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota Orihashi, Naoki Makishima. 4458-4462 [doi]

"You don't understand me!": Comparing ASR Results for L1 and L2 Speakers of SwedishRonald Cumbal, Birger Moëll, José Lopes, Olov Engwall. 4463-4467 [doi]

NeMo Inverse Text Normalization: From Development to ProductionYang Zhang, Evelina Bakhturina, Kyle Gorman, Boris Ginsburg. 4468-4472 [doi]

Improvement of Automatic English Pronunciation Assessment with Small Number of Utterances Using Sentence SpeakabilitySatsuki Naijo, Akinori Ito, Takashi Nose. 4473-4477 [doi]

Affect Recognition Through Scalogram and Multi-Resolution Cochleagram FeaturesFasih Haider, Saturnino Luz. 4478-4482 [doi]

A Speech Emotion Recognition Framework for Better Discrimination of ConfusionsJiawang Liu, Haoxiang Wang. 4483-4487 [doi]

Speech Emotion Recognition via Multi-Level Cross-Modal DistillationRuichen Li, Jinming Zhao, Qin Jin. 4488-4492 [doi]

Audio-Visual Speech Emotion Recognition by Disentangling Emotion and Identity AttributesKoichiro Ito, Takuya Fujioka, Qinghua Sun, Kenji Nagamatsu. 4493-4497 [doi]

Parametric Distributions to Model Numerical Emotion LabelsDeboshree Bose, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 4498-4502 [doi]

Metric Learning Based Feature Representation with Gated Fusion Model for Speech Emotion RecognitionYuan Gao, Jiaxing Liu, Longbiao Wang, Jianwu Dang. 4503-4507 [doi]

Speech Emotion Recognition with Multi-Task LearningXingyu Cai, Jiahong Yuan, Renjie Zheng, Liang Huang 0001, Kenneth Church 0001. 4508-4512 [doi]

Generalized Dilated CNN Models for Depression Detection Using Inverted Vocal Tract VariablesNadee Seneviratne, Carol Y. Espy-Wilson. 4513-4517 [doi]

Learning Mutual Correlation in Multimodal Transformer for Speech Emotion RecognitionYuhua Wang, Guang Shen, Yuezhu Xu, Jiahang Li, Zhengdao Zhao. 4518-4522 [doi]

Time-Frequency Representation Learning with Graph Convolutional Network for Dialogue-Level Speech Emotion RecognitionJiaxing Liu, Yaodong Song, Longbiao Wang, Jianwu Dang, Ruiguo Yu. 4523-4527 [doi]

Compressing 1D Time-Channel Separable Convolutions Using Sparse Random Ternary MatricesGonçalo Mordido, Matthijs Van Keirsbilck, Alexander Keller 0001. 4528-4532 [doi]

Weakly Supervised Construction of ASR Systems from Massive Video DataMengli Cheng, Chengyu Wang 0001, Jun Huang 0007, Xiaobo Wang. 4533-4537 [doi]

Broadcasted Residual Learning for Efficient Keyword SpottingByeonggeun Kim, Simyung Chang, Jinkyu Lee 0004, Dooyong Sung. 4538-4542 [doi]

CoDERT: Distilling Encoder Representations with Co-Learning for Transducer-Based Speech RecognitionRupak Vignesh Swaminathan, Brian King, Grant P. Strimel, Jasha Droppo, Athanasios Mouchtaris. 4543-4547 [doi]

Extremely Low Footprint End-to-End ASR System for Smart DeviceZhifu Gao, Yiwu Yao, Shiliang Zhang, Jun Yang, Ming Lei, Ian McLoughlin 0001. 4548-4552 [doi]

Dissecting User-Perceived Latency of On-Device E2E Speech RecognitionYuan Shangguan, Rohit Prabhavalkar, Hang Su, Jay Mahadeokar, Yangyang Shi, Jiatong Zhou, Chunyang Wu, Duc Le, Ozlem Kalinli, Christian Fuegen, Michael L. Seltzer. 4553-4557 [doi]

Amortized Neural Networks for Low-Latency Speech RecognitionJonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow. 4558-4562 [doi]

Tied & Reduced RNN-T DecoderRami Botros, Tara N. Sainath, Robert David, Emmanuel Guzman, Wei Li 0133, Yanzhang He. 4563-4567 [doi]

PQK: Model Compression via Pruning, Quantization, and Knowledge DistillationJangho Kim, Simyung Chang, Nojun Kwak. 4568-4572 [doi]

Collaborative Training of Acoustic Encoders for Speech RecognitionVarun Nagaraja, Yangyang Shi, Ganesh Venkatesh, Ozlem Kalinli, Michael L. Seltzer, Vikas Chandra. 4573-4577 [doi]

Efficient Conformer with Prob-Sparse Attention Mechanism for End-to-End Speech RecognitionXiong Wang, Sining Sun, Lei Xie, Long Ma. 4578-4582 [doi]

The Energy and Carbon Footprint of Training End-to-End Speech RecognizersTitouan Parcollet, Mirco Ravanelli. 4583-4587 [doi]

Graph-Based Label Propagation for Semi-Supervised Speaker IdentificationLong Chen, Venkatesh Ravichandran, Andreas Stolcke. 4588-4592 [doi]

Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker RecognitionRuirui Li, Chelsea J.-T. Ju, Zeya Chen, Hongda Mao, Oguz Elibol, Andreas Stolcke. 4593-4597 [doi]

A Generative Model for Duration-Dependent Score CalibrationSandro Cumani, Salvatore Sarni. 4598-4602 [doi]

Dr-Vectors: Decision Residual Networks and an Improved Loss for Speaker RecognitionJason Pelecanos, Quan Wang, Ignacio Lopez-Moreno. 4603-4607 [doi]

Multi-Channel Speaker Verification for Single and Multi-Talker SpeechSaurabh Kataria, Shi-Xiong Zhang, Dong Yu 0001. 4608-4612 [doi]

Chronological Self-Training for Real-Time Speaker DiarizationDirk Padfield, Daniel J. Liebling. 4613-4617 [doi]

Adaptive Margin Circle Loss for Speaker VerificationRunqiu Xiao, Xiaoxiao Miao, Wenchao Wang, Pengyuan Zhang, Bin Cai, Liuping Luo. 4618-4622 [doi]

Presentation Matters: Evaluating Speaker Identification TasksBenjamin O'Brien, Christine Meunier, Alain Ghio. 4623-4627 [doi]

Automatic Error Correction for Speaker Embedding Learning with Noisy LabelsFuchuan Tong, Yan Liu, Song Li, Jie Wang, Lin Li, Qingyang Hong. 4628-4632 [doi]

An Integrated Framework for Two-Pass Personalized Voice TriggerDexin Liao, Jing Li, Yiming Zhi, Song Li, Qingyang Hong, Lin Li. 4633-4637 [doi]

Masked Proxy Loss for Text-Independent Speaker VerificationJiachen Lian, Aiswarya Vinod Kumar, Hira Dhamyal, Bhiksha Raj, Rita Singh. 4638-4642 [doi]

STYLER: Style Factor Modeling with Rapidity and Robustness via Speech Decomposition for Expressive and Controllable Neural Text to SpeechKeon Lee, Kyumin Park, Daeyoung Kim. 4643-4647 [doi]

Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion DiscriminabilityRui Liu 0008, Berrak Sisman, Haizhou Li 0001. 4648-4652 [doi]

Emotional Prosody Control for Speech GenerationSarath Sivaprasad, Saiteja Kosgi, Vineet Gandhi. 4653-4657 [doi]

Controllable Context-Aware Conversational Speech SynthesisJian Cong, Shan Yang, Na Hu, Guangzhi Li, Lei Xie, Dan Su 0002. 4658-4662 [doi]

Expressive Text-to-Speech Using Style TagMinchan Kim, Sung Jun Cheon, Byoung Jin Choi, Jong Jin Kim, Nam Soo Kim. 4663-4667 [doi]

Adaptive Text to Speech for Spontaneous StyleYuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, Tie-Yan Liu. 4668-4672 [doi]

Towards Multi-Scale Style Control for Expressive Speech SynthesisXiang Li, Changhe Song, Jingbei Li, Zhiyong Wu 0001, Jia Jia 0001, Helen Meng. 4673-4677 [doi]

Cross-Speaker Style Transfer with Prosody Bottleneck in Neural Speech SynthesisShifeng Pan, Lei He. 4678-4682 [doi]

Fine-Grained Style Modeling, Transfer and Prediction in Text-to-Speech Synthesis via Phone-Level Content-Style DisentanglementDaxin Tan, Tan Lee. 4683-4687 [doi]

Improving Performance of Seen and Unseen Speech Style Transfer in End-to-End Neural TTSXiaochun An, Frank K. Soong, Lei Xie 0001. 4688-4692 [doi]

Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence ArchitectureSlava Shechtman, Raul Fernandez, Alexander Sorin, David Haws. 4693-4697 [doi]

Intent Detection and Slot Filling for VietnameseMai Hoang Dao, Thinh Hung Truong, Dat Quoc Nguyen. 4698-4702 [doi]

Augmenting Slot Values and Contexts for Spoken Language Understanding with Pretrained ModelsHaitao Lin, Lu Xiang, Yu Zhou, Jiajun Zhang, Chengqing Zong. 4703-4707 [doi]

The Impact of Intent Distribution Mismatch on Semi-Supervised Spoken Language UnderstandingJudith Gaspers, Quynh Do, Daniil Sorokin, Patrick Lehnen. 4708-4712 [doi]

Knowledge Distillation from BERT Transformer to Speech Transformer for Intent ClassificationYidi Jiang, Bidisha Sharma, Maulik C. Madhavi, Haizhou Li 0001. 4713-4717 [doi]

Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-Trained DNN-HMM-Based Acoustic-Phonetic ModelNick J.-C. Wang, Lu Wang, Yandan Sun, Haimei Kang, Dejun Zhang. 4718-4722 [doi]

Speak or Chat with Me: End-to-End Spoken Language Understanding System with Flexible InputsSujeong Cha, Wangrui Hou, Hyun Jung, My Phung, Michael Picheny, Hong-Kwang Jeff Kuo, Samuel Thomas 0001, Edmilson Da Silva Morais. 4723-4727 [doi]

End-to-End Cross-Lingual Spoken Language Understanding Model with Multilingual PretrainingXianWei Zhang, Liang He 0003. 4728-4732 [doi]

Factorization-Aware Training of Transformers for Natural Language Understanding on the EdgeHamidreza Saghir, Samridhi Choudhary, Sepehr Eghbali, Clement Chung. 4733-4737 [doi]

End-to-End Spoken Language Understanding for Generalized Voice AssistantsMichael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris. 4738-4742 [doi]

Bi-Directional Joint Neural Networks for Intent Classification and Slot FillingSoyeon Caren Han, Siqu Long, Huichun Li, Henry Weld, Josiah Poon. 4743-4747 [doi]

INTERSPEECH 2021 Acoustic Echo Cancellation ChallengeRoss Cutler, Ando Saabas, Tanel Pärnamaa, Markus Loide, Sten Sootla, Marju Purin, Hannes Gamper, Sebastian Braun, Karsten Sørensen, Robert Aichner, Sriram Srinivasan 0003. 4748-4752 [doi]

Acoustic Echo Cancellation with Cross-Domain LearningLukas Pfeifenberger, Matthias Zöhrer, Franz Pernkopf. 4753-4757 [doi]

F-T-LSTM Based Complex Network for Joint Acoustic Echo Cancellation and Speech EnhancementShimin Zhang, Yuxiang Kong, Shubo Lv, Yanxin Hu, Lei Xie. 4758-4762 [doi]

2-Net FCRN for Acoustic Echo and Noise SuppressionErnst Seidel, Jan Franzen, Maximilian Strake, Tim Fingscheidt. 4763-4767 [doi]

Acoustic Echo Cancellation Using Deep Complex Neural Network with Nonlinear Magnitude Compression and Phase InformationRenhua Peng, Linjuan Cheng, Chengshi Zheng, Xiaodong Li. 4768-4772 [doi]

Nonlinear Acoustic Echo Cancellation with Deep LearningAmir Ivry, Israel Cohen, Baruch Berdugo. 4773-4777 [doi]

Automatic Speech Recognition of Disordered Speech: Personalized Models Outperforming Human Listeners on Short PhrasesJordan R. Green, Robert L. MacDonald, Pan-Pan Jiang, Julie Cattiau, Rus Heywood, Richard Cave, Katie Seaver, Marilyn A. Ladewig, Jimmy Tobin, Michael P. Brenner, Philip C. Nelson, Katrin Tomanek. 4778-4782 [doi]

Investigating the Utility of Multimodal Conversational Technology and Audiovisual Analytic Measures for the Assessment and Monitoring of Amyotrophic Lateral Sclerosis at ScaleMichael Neumann, Oliver Roesler, Jackson Liscombe, Hardik Kothare, David Suendermann-Oeft, David Pautler, Indu Navar, Aria Anvar, Jochen Kumm, Raquel Norel, Ernest Fraenkel, Alexander V. Sherman, James D. Berry, Gary L. Pattee, Jun Wang, Jordan R. Green, Vikram Ramanarayanan. 4783-4787 [doi]

Handling Acoustic Variation in Dysarthric Speech Recognition Systems Through Model CombinationEnno Hermann, Mathew Magimai-Doss. 4788-4792 [doi]

Spectro-Temporal Deep Features for Disordered Speech Assessment and RecognitionMengzhe Geng, Shansong Liu, Jianwei Yu, Xurong Xie, Shoukang Hu, Zi Ye, Zengrui Jin, Xunying Liu, Helen Meng. 4793-4797 [doi]

Speaking with a KN95 Face Mask: ASR Performance and Speaker CompensationSarah E. Gutz, Hannah P. Rowe, Jordan R. Green. 4798-4802 [doi]

Adversarial Data Augmentation for Disordered Speech RecognitionZengrui Jin, Mengzhe Geng, Xurong Xie, Jianwei Yu, Shansong Liu, Xunying Liu, Helen Meng. 4803-4807 [doi]

Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech RecognitionXurong Xie, Rukiye Ruzi, Xunying Liu, Lan Wang. 4808-4812 [doi]

Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice ConversionDisong Wang, Songxiang Liu, Lifa Sun, Xixin Wu, Xunying Liu, Helen Meng. 4813-4817 [doi]

Bayesian Parametric and Architectural Domain Adaptation of LF-MMI Trained TDNNs for Elderly and Dysarthric Speech RecognitionJiajun Deng, Fabian Ritter Gutierrez, Shoukang Hu, Mengzhe Geng, Xurong Xie, Zi Ye, Shansong Liu, Jianwei Yu, Xunying Liu, Helen Meng. 4818-4822 [doi]

A Voice-Activated Switch for Persons with Motor and Speech Impairments: Isolated-Vowel Spotting Using Neural NetworksShanqing Cai, Lisie Lillianfeld, Katie Seaver, Jordan R. Green, Michael P. Brenner, Philip C. Nelson, D. Sculley. 4823-4827 [doi]

Conformer Parrotron: A Faster and Stronger End-to-End Speech Conversion and Recognition Model for Atypical SpeechZhehuai Chen, Bhuvana Ramabhadran, Fadi Biadsy, Xia Zhang, Youzheng Chen, Liyang Jiang, Fang Chu, Rohan Doshi, Pedro J. Moreno. 4828-4832 [doi]

Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project EuphoniaRobert L. MacDonald, Pan-Pan Jiang, Julie Cattiau, Rus Heywood, Richard Cave, Katie Seaver, Marilyn A. Ladewig, Jimmy Tobin, Michael P. Brenner, Philip C. Nelson, Jordan R. Green, Katrin Tomanek. 4833-4837 [doi]

Automatic Severity Classification of Korean Dysarthric Speech Using Phoneme-Level Pronunciation FeaturesEun Jung Yeo, SunHee Kim, Minhwa Chung. 4838-4842 [doi]

Comparing Supervised Models and Learned Speech Representations for Classifying Intelligibility of Disordered Speech on Selected PhrasesSubhashini Venugopalan, Joel Shor, Manoj Plakal, Jimmy Tobin, Katrin Tomanek, Jordan R. Green, Michael P. Brenner. 4843-4847 [doi]

Analysis and Tuning of a Voice Assistant System for Dysfluent SpeechVikramjit Mitra, Zifang Huang, Colin Lea, Lauren Tooley, Sarah Wu, Darren Botten, Ashwini Palekar, Shrinath Thelapurath, Panayiotis Georgiou, Sachin Kajarekar, Jefferey Bigham. 4848-4852 [doi]

Interactive and Real-Time Acoustic Measurement Tools for Speech Data Acquisition and Presentation: Application of an Extended Member of Time Stretched PulsesHideki Kawahara, Kohei Yatabe, Ken-Ichi Sakakibara, Mitsunori Mizumachi, Masanori Morise, Hideki Banno, Toshio Irino. 4853-4854 [doi]

Save Your Voice: Voice Banking and TTS for AnyoneDaniel Tihelka, Markéta Rezácková, Martin Gruber, Zdenek Hanzlícek, Jakub Vít, Jindrich Matousek. 4855-4856 [doi]

NeMo (Inverse) Text Normalization: From Development to ProductionYang Zhang, Evelina Bakhturina, Boris Ginsburg. 4857-4859 [doi]

Lalilo: A Reading Assistant for Children Featuring Speech Recognition-Based Reading Mistake DetectionCorentin Hembise, Lucile Gelin, Morgane Daniel. 4860-4861 [doi]

Automatic Radiology Report Editing Through VoiceManh-Hung Nguyen, Vu Hoang, Tu Anh Nguyen, Trung H. Bui. 4862-4863 [doi]

WittyKiddy: Multilingual Spoken Language Learning for KidsKe Shi, Kye Min Tan, Huayun Zhang, Siti Umairah Md. Salleh, Shikang Ni, Nancy F. Chen. 4864-4865 [doi]

Duplex Conversation in Outbound Agent SystemChunxiang Jin, Minghui Yang, Zujie Wen. 4866-4867 [doi]

Web Interface for Estimating Articulatory Movements in Speech Production from Acoustics and TextSathvik Udupa, Anwesha Roy, Abhayjeet Singh, Aravind Illa, Prasanta Kumar Ghosh. 4868-4869 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Interspeech 2021, 22nd Annual Conference of the International Speech Communication Association, Brno, Czechia, 30 August - 3 September 2021

Abstract

Table of Contents