Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shanghai, China, 25-29 October 2020

researchr

You are not signed in
Sign in
Sign up

Helen Meng, Bo Xu 0011, Thomas Fang Zheng, editors, Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shanghai, China, 25-29 October 2020. ISCA, 2020. [doi]

Conference: interspeech2020

Abstract is missing.

The cognitive status of simple and complex modelsJanet B. Pierrehumbert. [doi]

Doing Something we Never could with Spoken Language Technologies-from early days to the era of deep learningLin-Shan Lee. [doi]

Brain networks enabling speech perception in everyday settingsBarbara G. Shinn-Cunningham. [doi]

Successes, Challenges and Opportunities for Speech Technology in Conversational AgentsShehzad Mevawalla. [doi]

On the Comparison of Popular End-to-End Models for Large Scale Speech RecognitionJinyu Li, Yu Wu 0012, Yashesh Gaur, Chengyi Wang 0002, Rui Zhao, Shujie Liu 0001. 1-5 [doi]

SAN-M: Memory Equipped Self-Attention for End-to-End Speech RecognitionZhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin. 6-10 [doi]

Contextual RNN-T for Open Domain ASRMahaveer Jain, Gil Keren, Jay Mahadeokar, Geoffrey Zweig, Florian Metze, Yatharth Saraf. 11-15 [doi]

ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech RecognitionJing Pan, Joshua Shapiro, Jeremy Wohlwend, Kyu J. Han, Tao Lei 0001, Tao Ma. 16-20 [doi]

Compressing LSTM Networks with Hierarchical Coarse-Grain SparsityDeepak Kadetotad, Jian Meng, Visar Berisha, Chaitali Chakrabarti, Jae-sun Seo. 21-25 [doi]

BLSTM-Driven Stream Fusion for Automatic Speech Recognition: Novel Methods and a Multi-Size Window Fusion ExampleTimo Lohrenz, Tim Fingscheidt. 26-30 [doi]

Relative Positional Encoding for Speech Recognition and Direct TranslationNgoc-Quan Pham, Thanh-Le Ha, Tuan Nam Nguyen, Thai Son Nguyen, Elizabeth Salesky, Sebastian Stüker, Jan Niehues, Alex Waibel. 31-35 [doi]

Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of any Number of SpeakersNaoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Tianyan Zhou, Takuya Yoshioka. 36-40 [doi]

Implicit Transfer of Privileged Acoustic Information in a Generalized Knowledge Distillation FrameworkTakashi Fukuda, Samuel Thomas 0001. 41-45 [doi]

Effect of Adding Positional Information on Convolutional Neural Networks for End-to-End Speech RecognitionJinhwan Park, Wonyong Sung. 46-50 [doi]

Deep Neural Network-Based Generalized Sidelobe Canceller for Robust Multi-Channel Speech RecognitionGuanjun Li, Shan Liang, Shuai Nie, Wenju Liu, Zhanlei Yang, Longshuai Xiao. 51-55 [doi]

Neural Spatio-Temporal Beamformer for Target Speech SeparationYong Xu, Meng Yu, Shi-Xiong Zhang, LianWu Chen, Chao Weng, Jianming Liu, Dong Yu 0001. 56-60 [doi]

Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector AnalysisLi Li 0063, Kazuhito Koishida, Shoji Makino. 61-65 [doi]

End-to-End Multi-Look Keyword SpottingMeng Yu 0003, Xuan Ji, Bo Wu, Dan Su 0002, Dong Yu 0001. 66-70 [doi]

Differential Beamforming for Uniform Circular Array with Directional MicrophonesWeilong Huang, Jinwei Feng. 71-75 [doi]

Exploring Deep Hybrid Tensor-to-Vector Network Architectures for Regression Based Speech EnhancementJun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee. 76-80 [doi]

An End-to-End Architecture of Online Multi-Channel Speech SeparationJian Wu, Zhuo Chen, Jinyu Li, Takuya Yoshioka, Zhili Tan, Ed Lin, Yi Luo, Lei Xie. 81-85 [doi]

Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source SeparationYu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi. 86-90 [doi]

Computationally Efficient and Versatile Framework for Joint Optimization of Blind Speech Separation and DereverberationTomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Hiroshi Sawada, Shoko Araki. 91-95 [doi]

A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-Channel Speech Recognition in the CHiME-6 ChallengeYanhui Tu, Jun Du, Lei Sun, Feng Ma, Jia Pan, Chin-Hui Lee. 96-100 [doi]

Identifying Causal Relationships Between Behavior and Local Brain Activity During Natural ConversationYoussef Hmamouche, Laurent Prévot 0001, Magalie Ochs, Thierry Chaminade. 101-105 [doi]

Neural Entrainment to Natural Speech Envelope Based on Subject Aligned EEG SignalsDi Zhou, Gaoyan Zhang, Jianwu Dang, Shuang Wu, Zhuo Zhang. 106-110 [doi]

Does Lexical Retrieval Deteriorate in Patients with Mild Cognitive Impairment? Analysis of Brain Functional Network Will TellChongyuan Lian, Tianqi Wang, Mingxiao Gu, Manwa L. Ng, Feiqi Zhu, Lan Wang, Nan Yan. 111-115 [doi]

Congruent Audiovisual Speech Enhances Cortical Envelope Tracking During Auditory Selective AttentionZhen Fu, Jing Chen 0019. 116-120 [doi]

Contribution of RMS-Level-Based Speech Segments to Target Speech Decoding Under Noisy ConditionsLei Wang 0074, Ed X. Wu, Fei Chen 0011. 121-124 [doi]

Cortical Oscillatory Hierarchy for Natural Sentence ProcessingBin Zhao, Jianwu Dang, Gaoyan Zhang, Masashi Unoki. 125-129 [doi]

Comparing EEG Analyses with Different Epoch Alignments in an Auditory Lexical Decision ExperimentLouis ten Bosch, Kimberley Mulder, Lou Boves. 130-134 [doi]

Detection of Subclinical Mild Traumatic Brain Injury (mTBI) Through Speech and GaitTanya Talkar, Sophia Yuditskaya, James R. Williamson, Adam C. Lammert, Hrishikesh Rao 0002, Daniel J. Hannon, Anne O'Brien, Gloria Vergara-Diaz, Richard DeLaura, Douglas E. Sturim, Gregory Ciccarelli, Ross Zafonte, Jeff Palmer, Paolo Bonato, Thomas F. Quatieri. 135-139 [doi]

Towards Learning a Universal Non-Semantic Representation of SpeechJoel Shor, Aren Jansen, Ronnie Maor, Oran Lang, Omry Tuval, Félix de Chaumont Quitry, Marco Tagliasacchi, Ira Shavitt, Dotan Emanuel, Yinnon Haviv. 140-144 [doi]

Poetic Meter Classification Using i-Vector-MTF FusionRajeev Rajan, Aiswarya Vinod Kumar, Ben P. Babu. 145-149 [doi]

Formant Tracking Using Dilated Convolutional Networks Through Dense Connection with Gating MechanismWang Dai, Jinsong Zhang, Yingming Gao, Wei Wei, Dengfeng Ke, Binghuai Lin, Yanlu Xie. 150-154 [doi]

Automatic Analysis of Speech Prosody in DutchNa Hu, Berit Janssen, Judith Hanssen, Carlos Gussenhoven, Aoju Chen. 155-159 [doi]

Learning Voice Representation Using Knowledge Distillation for Automatic Voice CastingAdrien Gresse, Mathias Quillot, Richard Dufour, Jean-François Bonastre. 160-164 [doi]

Enhancing Formant Information in Spectrographic Display of SpeechB. Yegnanarayana, Joseph M. Anand, Vishala Pannala. 165-169 [doi]

Unsupervised Methods for Evaluating Speech RepresentationsMichael Gump, Wei-Ning Hsu, James R. Glass. 170-174 [doi]

Robust Pitch Regression with Voiced/Unvoiced Classification in Nonstationary Noise EnvironmentsDung N. Tran, Uros Batricevic, Kazuhito Koishida. 175-179 [doi]

Nonlinear ISA with Auxiliary Variables for Learning Speech RepresentationsAmrith Setlur, Barnabás Póczos, Alan W. Black. 180-184 [doi]

Harmonic Lowering for Accelerating Harmonic Convolution for Audio SignalsHirotoshi Takeuchi, Kunio Kashino, Yasunori Ohishi, Hiroshi Saruwatari. 185-189 [doi]

Knowledge-and-Data-Driven Amplitude Spectrum Prediction for Hierarchical Neural VocodersYang Ai, Zhen-Hua Ling. 190-194 [doi]

FeatherWave: An Efficient High-Fidelity Neural Vocoder with Multi-Band Linear PredictionQiao Tian, Zewang Zhang, Heng Lu, Ling-Hui Chen, Shan Liu. 195-199 [doi]

VocGAN: A High-Fidelity Real-Time Vocoder with a Hierarchically-Nested Adversarial NetworkJinhyeok Yang, Junmo Lee, Young Ik Kim, Hoon-Young Cho, Injung Kim. 200-204 [doi]

Lightweight LPCNet-Based Neural Vocoder with Tensor DecompositionHiroki Kanagawa, Yusuke Ijima. 205-209 [doi]

WG-WaveNet: Real-Time High-Fidelity Speech Synthesis Without GPUPo-Chun Hsu, Hung-yi Lee. 210-214 [doi]

What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTSBrooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber. 215-219 [doi]

Fast and Lightweight On-Device TTS with Tacotron2 and LPCNetVadim Popov, Stanislav Kamenev, Mikhail Kudinov, Sergey Repyevsky, Tasnima Sadekova, Vitalii Bushaev, Vladimir Kryzhanovskiy, Denis Parkhomenko. 220-224 [doi]

Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced SpeedWei Song, Guanghui Xu, Zhengchen Zhang, Chao Zhang 0031, Xiaodong He 0002, Bowen Zhou. 225-229 [doi]

Can Auditory Nerve Models Tell us What's Different About WaveNet Vocoded Speech?Sébastien Le Maguer, Naomi Harte. 230-234 [doi]

Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen Speaker and Recording ConditionsDipjyoti Paul, Yannis Pantazis, Yannis Stylianou. 235-239 [doi]

Neural Homomorphic VocoderZhijun Liu, Kuan Chen, Kai Yu. 240-244 [doi]

Overview of the Interspeech TLT2020 Shared Task on ASR for Non-Native Children's SpeechRoberto Gretter, Marco Matassoni, Daniele Falavigna, Keelan Evanini, Chee Wee Leong. 245-249 [doi]

The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR ChallengeTien-Hong Lo, Fu-An Chao, Shi-Yan Weng, Berlin Chen. 250-254 [doi]

Non-Native Children's Automatic Speech Recognition: The INTERSPEECH 2020 Shared Task ALTA SystemsKate M. Knill, Linlin Wang, Yu Wang 0027, Xixin Wu, Mark J. F. Gales. 255-259 [doi]

Data Augmentation Using Prosody and False Starts to Recognize Non-Native Children's SpeechHemant Kumar Kathania, Mittul Singh, Tamás Grósz, Mikko Kurimo. 260-264 [doi]

UNSW System Description for the Shared Task on Automatic Speech Recognition for Non-Native Children's SpeechMostafa Ali Shahin, Renée Lu, Julien Epps, Beena Ahmed. 265-268 [doi]

End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based AttractorsShota Horiguchi, Yusuke Fujita, Shinji Watanabe 0001, Yawen Xue, Kenji Nagamatsu. 269-273 [doi]

Target-Speaker Voice Activity Detection: A Novel Approach for Multi-Speaker Diarization in a Dinner Party ScenarioIvan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Y. Khokhlov, Mariya Korenevskaya, Ivan Sorokin, Tatiana Timofeeva, Anton Mitrofanov, Andrei Andrusenko, Ivan Podluzhny, Aleksandr Laptev, Aleksei Romanenko. 274-278 [doi]

New Advances in Speaker DiarizationHagai Aronowitz, Weizhong Zhu, Masayuki Suzuki, Gakuto Kurata, Ron Hoory. 279-283 [doi]

Self-Attentive Similarity Measurement Strategies in Speaker DiarizationQingjian Lin, Yu Hou, Ming Li. 284-288 [doi]

Speaker Attribution with Voice Profiles by Graph-Based Semi-Supervised LearningJixuan Wang, Xiong Xiao, Jian Wu, Ranjani Ramamurthy, Frank Rudzicz, Michael Brudno. 289-293 [doi]

Deep Self-Supervised Hierarchical Clustering for Speaker DiarizationPrachi Singh, Sriram Ganapathy. 294-298 [doi]

Spot the Conversation: Speaker Diarisation in the WildJoon Son Chung, Jaesung Huh, Arsha Nagrani, Triantafyllos Afouras, Andrew Zisserman. 299-303 [doi]

Learning Contextual Language Embeddings for Monaural Multi-Talker Speech RecognitionWangyou Zhang, Yanmin Qian. 304-308 [doi]

Double Adversarial Network Based Monaural Speech Enhancement for Robust Speech RecognitionZhihao Du, Jiqing Han, Xueliang Zhang. 309-313 [doi]

Anti-Aliasing Regularization in Stacking LayersAntoine Bruguier, Ananya Misra, Arun Narayanan, Rohit Prabhavalkar. 314-318 [doi]

Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party TranscriptionAndrei Andrusenko, Aleksandr Laptev, Ivan Medennikov. 319-323 [doi]

End-to-End Far-Field Speech Recognition with Unified Dereverberation and BeamformingWangyou Zhang, Aswin Shanmugam Subramanian, Xuankai Chang, Shinji Watanabe 0001, Yanmin Qian. 324-328 [doi]

Quaternion Neural Networks for Multi-Channel Distant Speech RecognitionXinchi Qiu, Titouan Parcollet, Mirco Ravanelli, Nicholas D. Lane, Mohamed Morchid. 329-333 [doi]

Improved Guided Source Separation Integrated with a Strong Back-End for the CHiME-6 Dinner Party ScenarioHangting Chen, Pengyuan Zhang, Qian Shi, Zuozhen Liu. 334-338 [doi]

Neural Speech Separation Using Spatially Distributed MicrophonesDongmei Wang, Zhuo Chen, Takuya Yoshioka. 339-343 [doi]

Utterance-Wise Meeting Transcription System Using Asynchronous Distributed MicrophonesShota Horiguchi, Yusuke Fujita, Kenji Nagamatsu. 344-348 [doi]

Simulating Realistically-Spatialised Simultaneous Speech Using Video-Driven Speaker Detection and the CHiME-5 DatasetJack Deadman, Jon Barker. 349-353 [doi]

Toward Silent Paralinguistics: Speech-to-EMG - Retrieving Articulatory Muscle Activity from SpeechM. Catarina Botelho, Lorenz Diener, Dennis Küster, Kevin Scheck, Shahin Amiriparian, Björn W. Schuller, Tanja Schultz, Alberto Abad, Isabel Trancoso. 354-358 [doi]

Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical FeaturesJiaxuan Zhang, Sarah Ita Levitan, Julia Hirschberg. 359-363 [doi]

Multi-Modal Attention for Speech Emotion RecognitionZexu Pan, Zhaojie Luo, Jichen Yang, Haizhou Li 0001. 364-368 [doi]

WISE: Word-Level Interaction-Based Multimodal Fusion for Speech Emotion RecognitionGuang Shen, Riwei Lai, Rui Chen, Yu Zhang, Kejia Zhang, Qilong Han, Hongtao Song. 369-373 [doi]

A Multi-Scale Fusion Framework for Bimodal Speech Emotion RecognitionMing Chen, Xudong Zhao 0004. 374-378 [doi]

Group Gated Fusion on Attention-Based Bidirectional Alignment for Multimodal Emotion RecognitionPengfei Liu, Kun Li 0003, Helen Meng. 379-383 [doi]

Multi-Modal Embeddings Using Multi-Task Learning for Emotion RecognitionAparna Khare, Srinivas Parthasarathy, Shiva Sundaram. 384-388 [doi]

Using Speaker-Aligned Graph Memory Block in Multimodally Attentive Emotion Recognition NetworkJeng-Lin Li, Chi-Chun Lee. 389-393 [doi]

Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion RecognitionZheng Lian, Jianhua Tao, Bin Liu, Jian Huang 0014, Zhanlei Yang, Rongjun Li. 394-398 [doi]

ATCSpeech: A Multilingual Pilot-Controller Speech Corpus from Real Air Traffic Control EnvironmentBo Yang, Xianlong Tan, Zhengmao Chen, Bing Wang, Min Ruan, Dan Li, Zhongping Yang, Xiping Wu, Yi Lin 0006. 399-403 [doi]

Developing an Open-Source Corpus of Yoruba SpeechAlexander Gutkin, Isin Demirsahin, Oddur Kjartansson, Clara Rivera, Kólá Túbosún. 404-408 [doi]

ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact CentersJung-Woo Ha, Kihyun Nam, Jingu Kang, Sang-Woo Lee, Sohee Yang, Hyunhoon Jung, Hyeji Kim, Eunmi Kim, Soojin Kim, Hyun-Ah Kim, Kyoungtae Doh, Chan Kyu Lee, Nako Sung, Sunghun Kim 0001. 409-413 [doi]

LAIX Corpus of Chinese Learner English: Towards a Benchmark for L2 English ASRYanhong Wang, Huan Luan, Jiahong Yuan, Bin Wang, Hui Lin. 414-418 [doi]

Design and Development of a Human-Machine Dialog Corpus for the Automated Assessment of Conversational English ProficiencyVikram Ramanarayanan. 419-423 [doi]

CUCHILD: A Large-Scale Cantonese Corpus of Child Speech for Phonology and Articulation AssessmentSi Ioi Ng, Cymie Wing-Yee Ng, Jiarui Wang, Tan Lee, Kathy Yuet-Sheung Lee, Michael Chi-Fai Tong. 424-428 [doi]

FinChat: Corpus and Evaluation Setup for Finnish Chat Conversations on Everyday TopicsKatri Leino, Juho Leinonen, Mittul Singh, Sami Virpioja, Mikko Kurimo. 429-433 [doi]

DiPCo - Dinner Party CorpusMaarten Van Segbroeck, Ahmed-Zaid, Ksenia Kutsenko, Cirenia Huerta, Tinh Nguyen, Xuewen Luo, Björn Hoffmeister, Jan Trmal, Maurizio Omologo, Roland Maas. 434-436 [doi]

Learning to Detect Bipolar Disorder and Borderline Personality Disorder with Language and Speech in Non-Clinical InterviewsBo Wang 0034, Yue Wu, Niall Taylor, Terry J. Lyons, Maria Liakata, Alejo J. Nevado-Holgado, Kate E. A. Saunders. 437-441 [doi]

FT Speech: Danish Parliament Speech CorpusAndreas Kirkedal, Marija Stepanovic, Barbara Plank. 442-446 [doi]

Metric Learning Loss Functions to Reduce Domain Mismatch in the x-Vector Space for Language RecognitionRaphaël Duroselle, Denis Jouvet, Irina Illina. 447-451 [doi]

The XMUSPEECH System for the AP19-OLR ChallengeZheng Li, Miao Zhao, Jing Li, Yiming Zhi, Lin Li, Qingyang Hong. 452-456 [doi]

On the Usage of Multi-Feature Integration for Speaker Verification and Language IdentificationZheng Li, Miao Zhao, Jing Li, Lin Li, Qingyang Hong. 457-461 [doi]

What Does an End-to-End Dialect Identification Model Learn About Non-Dialectal Information?Shammur A. Chowdhury, Ahmed M. Ali, Suwon Shon, James R. Glass. 462-466 [doi]

Releasing a Toolkit and Comparing the Performance of Language Embeddings Across Various Spoken Language Identification DatasetsMatias Lindgren, Tommi Jauhiainen, Mikko Kurimo. 467-471 [doi]

Learning Intonation Pattern Embeddings for Arabic Dialect IdentificationAitor Arronte Alvarez, Elsayed Sabry Abdelaal Issa. 472-476 [doi]

Cross-Domain Adaptation of Spoken Language Identification for Related Languages: The Curious Case of Slavic LanguagesBadr M. Abdullah, Tania Avgustinova, Bernd Möbius, Dietrich Klakow. 477-481 [doi]

ICE-Talk: An Interface for a Controllable Expressive Talking MachineNoé Tits, Kevin El Haddad, Thierry Dutoit. 482-483 [doi]

Kaldi-Web: An Installation-Free, On-Device Speech Recognition SystemMathieu Hu, Laurent Pierron, Emmanuel Vincent 0001, Denis Jouvet. 484-485 [doi]

Soapbox Labs Verification Platform for Child SpeechAmelia C. Kelly, Eleni Karamichali, Armin Saeb, Karel Veselý, Nicholas Parslow, Agape Deng, Arnaud Letondor, Robert O'Regan, Qiru Zhou. 486-487 [doi]

SoapBox Labs Fluency Assessment Platform for Child SpeechAmelia C. Kelly, Eleni Karamichali, Armin Saeb, Karel Veselý, Nicholas Parslow, Gloria Montoya Gomez, Agape Deng, Arnaud Letondor, Niall Mullally, Adrian Hempel, Robert O'Regan, Qiru Zhou. 488-489 [doi]

CATOTRON - A Neural Text-to-Speech System in CatalanBaybars Külebi, Alp Öktem, Alex Peiró Lilja, Santiago Pascual, Mireia Farrús. 490-491 [doi]

Toward Remote Patient Monitoring of Speech, Video, Cognitive and Respiratory Biomarkers Using Multimodal Dialog TechnologyVikram Ramanarayanan, Oliver Roesler, Michael Neumann, David Pautler, Doug Habberstad, Andrew Cornish, Hardik Kothare, Vignesh Murali, Jackson Liscombe, Dirk Schnelle-Walka, Patrick L. Lange, David Suendermann-Oeft. 492-493 [doi]

VoiceID on the Fly: A Speaker Recognition System that Learns from ScratchBaihan Lin, Xinxin Zhang. 494-495 [doi]

Enhancing Transferability of Black-Box Adversarial Attacks via Lifelong Learning for Speech Emotion Recognition ModelsZhao Ren, Jing Han 0010, Nicholas Cummins, Björn W. Schuller. 496-500 [doi]

End-to-End Speech Emotion Recognition Combined with Acoustic-to-Word ASR ModelHan Feng, Sei Ueno, Tatsuya Kawahara. 501-505 [doi]

Improving Speech Emotion Recognition Using Graph Attentive Bi-Directional Gated Recurrent Unit NetworkBo-Hao Su, Chun-Min Chang, Yun-Shao Lin, Chi-Chun Lee. 506-510 [doi]

An Investigation of Cross-Cultural Semi-Supervised Learning for Continuous Affect RecognitionAdria Mallol-Ragolta, Nicholas Cummins, Björn W. Schuller. 511-515 [doi]

Ensemble of Students Taught by Probabilistic Teachers to Improve Speech Emotion RecognitionKusha Sridhar, Carlos Busso. 516-520 [doi]

Augmenting Generative Adversarial Networks for Speech Emotion RecognitionSiddique Latif, Muhammad Asim, Rajib Rana, Sara Khalifa, Raja Jurdak, Björn W. Schuller. 521-525 [doi]

Speech Emotion Recognition 'in the Wild' Using an AutoencoderVipula Dissanayake, Haimo Zhang, Mark Billinghurst, Suranga Nanayakkara. 526-530 [doi]

Emotion Profile Refinery for Speech Emotion ClassificationShuiyang Mao, Pak-Chung Ching, Tan Lee. 531-535 [doi]

Speech Representation Learning for Emotion Recognition Using End-to-End ASR with Factorized AdaptationSung-Lin Yeh, Yun-Shao Lin, Chi-Chun Lee. 536-540 [doi]

Fast and Slow Acoustic ModelKshitiz Kumar, Emilian Stoimenov, Hosam Khalil, Jian Wu. 541-545 [doi]

Self-Distillation for Improving CTC-Transformer-Based ASR SystemsTakafumi Moriya, Tsubasa Ochiai, Shigeki Karita, Hiroshi Sato, Tomohiro Tanaka, Takanori Ashihara, Ryo Masumura, Yusuke Shinohara, Marc Delcroix. 546-550 [doi]

Single Headed Attention Based Sequence-to-Sequence Model for State-of-the-Art Results on SwitchboardZoltán Tüske, George Saon, Kartik Audhkhasi, Brian Kingsbury. 551-555 [doi]

Improving Speech Recognition Using GAN-Based Speech Synthesis and Contrastive Unspoken Text SelectionZhehuai Chen, Andrew Rosenberg, Yu Zhang 0033, Gary Wang, Bhuvana Ramabhadran, Pedro J. Moreno. 556-560 [doi]

PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASRYiwen Shao, Yiming Wang, Daniel Povey, Sanjeev Khudanpur. 561-565 [doi]

CAT: A CTC-CRF Based ASR Toolkit Bridging the Hybrid and the End-to-End Approaches Towards Data Efficiency and Low LatencyKeyu An, Hongyu Xiang, Zhijian Ou. 566-570 [doi]

CTC-Synchronous Training for Monotonic Attention ModelHirofumi Inaguma, Masato Mimura, Tatsuya Kawahara. 571-575 [doi]

Continual Learning for Multi-Dialect Acoustic ModelsBrady Houston, Katrin Kirchhoff. 576-580 [doi]

SpecSwap: A Simple Data Augmentation Method for End-to-End Speech RecognitionXingcheng Song, Zhiyong Wu, Yiheng Huang, Dan Su 0002, Helen Meng. 581-585 [doi]

RECOApy: Data Recording, Pre-Processing and Phonetic Transcription for End-to-End Speech-Based ApplicationsAdriana Stan. 586-590 [doi]

Analyzing the Quality and Stability of a Streaming End-to-End On-Device Speech RecognizerYuan Shangguan, Kate Knister, Yanzhang He, Ian McGraw, Françoise Beaufays. 591-595 [doi]

Statistical Testing on ASR Performance via Blockwise BootstrapZhe Liu, Fuchun Peng. 596-600 [doi]

Sentence Level Estimation of Psycholinguistic Norms Using Joint Multidimensional AnnotationsAnil Ramakrishna, Shrikanth Narayanan. 601-605 [doi]

Neural Zero-Inflated Quality Estimation Model for Automatic Speech Recognition SystemKai Fan, Bo Li, Jiayi Wang, Shiliang Zhang, Boxing Chen, Niyu Ge, Zhijie Yan. 606-610 [doi]

Confidence Measures in Encoder-Decoder Models for Speech RecognitionAlejandro Woodward, Clara Bonnín, Issey Masuda, David Varas, Elisenda Bou-Balust, Juan Carlos Riveiro. 611-615 [doi]

Word Error Rate Estimation Without ASR Output: e-WER2Ahmed Ali 0002, Steve Renals. 616-620 [doi]

An Evaluation of Manual and Semi-Automatic Laughter AnnotationBogdan Ludusan, Petra Wagner. 621-625 [doi]

Understanding Racial Disparities in Automatic Speech Recognition: The Case of Habitual "be"Joshua L. Martin, Kevin Tang. 626-630 [doi]

Secondary Phonetic Cues in the Production of the Nasal Short-a System in California EnglishGeorgia Zellou, Rebecca Scarborough, Renee Kemp. 631-635 [doi]

Acoustic Properties of Strident Fricatives at the Edges: Implications for Consonant DiscriminationLouis-Marie Lorin, Lorenzo Maselli, Léo Varnet, Maria Giavazzi. 636-640 [doi]

2 Context: Phonology and PhoneticsMingqiong Luo. 641-645 [doi]

Voicing Distinction of Obstruents in the Hangzhou Wu Chinese DialectYang Yue, Fang Hu. 646-650 [doi]

The Phonology and Phonetics of Kaifeng Mandarin VowelsLei Wang. 651-655 [doi]

Microprosodic Variability in Plosives in German and Austrian GermanMargaret Zellers, Barbara Schuppler. 656-660 [doi]

Er-Suffixation in Southwestern Mandarin: An EMA and Ultrasound StudyJing Huang, Feng-fan Hsieh, Yueh-Chin Chang. 661-665 [doi]

Electroglottographic-Phonetic Study on Korean Phonation Induced by Tripartite Plosives in Yanbian KoreanYinghao Li, Jinghua Zhang. 666-670 [doi]

Modeling Global Body Configurations in American Sign LanguageNicholas Wilkins, Max Cordes Galbraith, Ifeoma Nwogu. 671-675 [doi]

Augmenting Turn-Taking Prediction with Wearable Eye Activity During ConversationHang Li, Siyuan Chen, Julien Epps. 676-680 [doi]

CAM: Uninteresting Speech DetectorWeiyi Lu, Yi Xu, Peng Yang, Belinda Zeng. 681-685 [doi]

Mixed Case Contextual ASR Using Capitalization MasksDiamantino Caseiro, Pat Rondon, Quoc-Nam Le-The, Petar Aleksic. 686-690 [doi]

Speech Recognition and Multi-Speaker Diarization of Long ConversationsHuanru Henry Mao, Shuyang Li, Julian J. McAuley, Garrison W. Cottrell. 691-695 [doi]

Investigation of Data Augmentation Techniques for Disordered Speech RecognitionMengzhe Geng, Xurong Xie, Shansong Liu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng. 696-700 [doi]

A Real-Time Robot-Based Auxiliary System for Risk Evaluation of COVID-19 InfectionWenqi Wei, Jianzong Wang, Jiteng Ma, Ning Cheng, Jing Xiao. 701-705 [doi]

An Utterance Verification System for Word Naming Therapy in AphasiaDavid S. Barbera, Mark A. Huckvale, Victoria Fleming, Emily Upton, Henry Coley-Fisher, Ian Shaw, William Latham, Alexander P. Leff, Jenny Crinion. 706-710 [doi]

Exploiting Cross-Domain Visual Feature Generation for Disordered Speech RecognitionShansong Liu, Xurong Xie, Jianwei Yu, Shoukang Hu, Mengzhe Geng, Rongfeng Su, Shi-Xiong Zhang, Xunying Liu, Helen Meng. 711-715 [doi]

Joint Prediction of Punctuation and Disfluency in Speech TranscriptsBinghuai Lin, Liyuan Wang. 716-720 [doi]

Focal Loss for Punctuation PredictionJiangyan Yi, Jianhua Tao, Zhengkun Tian, Ye Bai, Cunhang Fan. 721-725 [doi]

Improving X-Vector and PLDA for Text-Dependent Speaker VerificationZhuxin Chen, Yue Lin. 726-730 [doi]

SdSV Challenge 2020: Large-Scale Evaluation of Short-Duration Speaker VerificationHossein Zeinali, Kong-Aik Lee, Jahangir Alam, Lukás Burget. 731-735 [doi]

The XMUSPEECH System for Short-Duration Speaker Verification Challenge 2020Tao Jiang, Miao Zhao, Lin Li, Qingyang Hong. 736-740 [doi]

Robust Text-Dependent Speaker Verification via Character-Level Information Preservation for the SdSV Challenge 2020Sung Hwan Mun, Woo Hyun Kang, Min Hyun Han, Nam Soo Kim. 741-745 [doi]

The TalTech Systems for the Short-Duration Speaker Verification Challenge 2020Tanel Alumäe, Jörgen Valk. 746-750 [doi]

Investigation of NICT Submission for Short-Duration Speaker Verification Challenge 2020Peng Shen, Xugang Lu, Hisashi Kawai. 751-755 [doi]

Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype Mining and Language-Dependent Score NormalizationJenthe Thienpondt, Brecht Desplanques, Kris Demuynck. 756-760 [doi]

BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020Alicia Lozano-Diez, Anna Silnova, Bhargav Pulugundla, Johan Rohdin, Karel Veselý, Lukás Burget, Oldrich Plchot, Ondrej Glembek, Ondrej Novotný, Pavel Matejka. 761-765 [doi]

Exploring the Use of an Unsupervised Autoregressive Model as a Shared Encoder for Text-Dependent Speaker VerificationVijay Ravi, Ruchao Fan, Amber Afshan, Huanhua Lu, Abeer Alwan. 766-770 [doi]

Recognition-Synthesis Based Non-Parallel Voice Conversion with Adversarial LearningJing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai 0001. 771-775 [doi]

Improving the Speaker Identity of Non-Parallel Many-to-Many Voice Conversion with Adversarial Speaker RecognitionShaojin Ding, Guanlong Zhao, Ricardo Gutierrez-Osuna. 776-780 [doi]

Non-Parallel Many-to-Many Voice Conversion with PSR-StarGANYanping Li, Dongxiang Xu, Yan Zhang, Yang Wang, Binbin Chen. 781-785 [doi]

TTS Skins: Speaker Conversion via ASRAdam Polyak, Lior Wolf, Yaniv Taigman. 786-790 [doi]

GAZEV: GAN-Based Zero-Shot Voice Conversion Over Non-Parallel Speech CorpusZining Zhang, Bingsheng He, Zhenjie Zhang. 791-795 [doi]

Spoken Content and Voice Factorization for Few-Shot Speaker AdaptationTao Wang, Jianhua Tao, Ruibo Fu, Jiangyan Yi, Zhengqi Wen, Rongxiu Zhong. 796-800 [doi]

Unsupervised Cross-Domain Singing Voice ConversionAdam Polyak, Lior Wolf, Yossi Adi, Yaniv Taigman. 801-805 [doi]

Attention-Based Speaker Embeddings for One-Shot Voice ConversionTatsuma Ishihara, Daisuke Saito. 806-810 [doi]

Data Efficient Voice Cloning from Noisy Samples with Domain Adversarial TrainingJian Cong, Shan Yang, Lei Xie 0001, Guoqiao Yu, Guanglu Wan. 811-815 [doi]

Gated Multi-Head Attention Pooling for Weakly Labelled Audio TaggingSixin Hong, Yuexian Zou, Wenwu Wang. 816-820 [doi]

Environmental Sound Classification with Parallel Temporal-Spectral AttentionHelin Wang, Yuexian Zou, Dading Chong, Wenwu Wang. 821-825 [doi]

Contrastive Predictive Coding of Audio with an AdversaryLuyu Wang, Kazuya Kawakami, Aäron Van Den Oord. 826-830 [doi]

Memory Controlled Sequential Self Attention for Sound RecognitionArjun Pankajakshan, Helen L. Bear, Vinod Subramanian, Emmanouil Benetos. 831-835 [doi]

Dual Stage Learning Based Dynamic Time-Frequency Mask Generation for Audio Event ClassificationDonghyeon Kim, Jaihyun Park, David K. Han, Hanseok Ko. 836-840 [doi]

An Effective Perturbation Based Semi-Supervised Learning Method for Sound Event DetectionXu Zheng, Yan Song 0001, Jie Yan, Li-Rong Dai 0001, Ian McLoughlin, Lin Liu. 841-845 [doi]

A Joint Framework for Audio Tagging and Weakly Supervised Acoustic Event Detection Using DenseNet with Global Average PoolingChieh-Chi Kao, Bowen Shi, Ming Sun, Chao Wang. 846-850 [doi]

Intra-Utterance Similarity Preserving Knowledge Distillation for Audio TaggingChun-Chieh Chang, Chieh-Chi Kao, Ming Sun, Chao Wang. 851-855 [doi]

Two-Stage Polyphonic Sound Event Detection Based on Faster R-CNN-LSTM with Multi-Token Connectionist Temporal ClassificationIn Young Park, Hong Kook Kim. 856-860 [doi]

SpeechMix - Augmenting Deep Sound Recognition Using Hidden Space InterpolationsAmit Jindal, Narayanan Elavathur Ranganatha, Aniket Didolkar, Arijit Ghosh Chowdhury, Di Jin, Ramit Sawhney, Rajiv Ratn Shah. 861-865 [doi]

End-to-End Neural Transformer Based Spoken Language UnderstandingMartin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann. 866-870 [doi]

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language UnderstandingChen Liu, Su Zhu, Zijian Zhao, Ruisheng Cao, Lu Chen 0002, Kai Yu 0004. 871-875 [doi]

Speech to Semantics: Improve ASR and NLU Jointly via All-Neural InterfacesMilind Rao, Anirudh Raju, Pranav Dheram, Bach Bui, Ariya Rastrow. 876-880 [doi]

Pretrained Semantic Speech Embeddings for End-to-End Spoken Language Understanding via Cross-Modal Teacher-Student LearningPavel Denisov, Ngoc Thang Vu. 881-885 [doi]

Context Dependent RNNLM for Automatic Transcription of ConversationsSrikanth Raj Chetupalli, Sriram Ganapathy. 886-890 [doi]

Improving End-to-End Speech-to-Intent Classification with ReptileYusheng Tian, Philip John Gorinski. 891-895 [doi]

Speech to Text Adaptation: Towards an Efficient Cross-Modal DistillationWon-Ik Cho, Donghyun Kwak, Ji Won Yoon, Nam Soo Kim. 896-900 [doi]

Towards an ASR Error Robust Spoken Language Understanding SystemWeitong Ruan, Yaroslav Nechaev, Luoxin Chen, Chengwei Su, Imre Kiss. 901-905 [doi]

End-to-End Spoken Language Understanding Without Full TranscriptsHong-Kwang Jeff Kuo, Zoltán Tüske, Samuel Thomas 0001, Yinghui Huang, Kartik Audhkhasi, Brian Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory, Luis A. Lastras. 906-910 [doi]

Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical StudyKarthik Gopalakrishnan 0001, Behnam Hedayatnia, Longshaokan Wang, Yang Liu, Dilek Hakkani-Tür. 911-915 [doi]

AutoSpeech: Neural Architecture Search for Speaker RecognitionShaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang. 916-920 [doi]

Densely Connected Time Delay Neural Network for Speaker VerificationYa-Qi Yu, Wu-Jun Li. 921-925 [doi]

Phonetically-Aware Coupled Network For Short Duration Text-Independent Speaker VerificationSiqi Zheng, Yun Lei, Hongbin Suo. 926-930 [doi]

Multi-Task Network for Noise-Robust Keyword Spotting and Speaker Verification Using CTC-Based Soft VAD and Global Query AttentionMyunghun Jung, Youngmoon Jung, Jahyun Goo, Hoirin Kim. 931-935 [doi]

Vector-Based Attentive Pooling for Text-Independent Speaker VerificationYanfeng Wu, Chenkai Guo, Hongcan Gao, Xiaolei Hou, Jing Xu 0008. 936-940 [doi]

Self-Attention Encoding and Pooling for Speaker RecognitionPooyan Safari, Miquel India, Javier Hernando. 941-945 [doi]

ARET: Aggregated Residual Extended Time-Delay Neural Networks for Speaker VerificationRuiteng Zhang, Jianguo Wei, Wenhuan Lu, Longbiao Wang, Meng Liu, Lin Zhang, Jiayu Jin, Junhai Xu. 946-950 [doi]

Adversarial Separation Network for Speaker RecognitionHanyi Zhang, Longbiao Wang, Yunchun Zhang, Meng Liu, Kong-Aik Lee, Jianguo Wei. 951-955 [doi]

Text-Independent Speaker Verification with Dual Attention NetworkJingyu Li, Tan Lee. 956-960 [doi]

Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker VerificationXiaoyang Qu, Jianzong Wang, Jing Xiao. 961-965 [doi]

Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech RecognitionChao Weng, Chengzhu Yu, Jia Cui, Chunlei Zhang, Dong Yu. 966-970 [doi]

Semantic Mask for Transformer Based End-to-End Speech RecognitionChengyi Wang 0002, Yu Wu 0012, Yujiao Du, Jinyu Li, Shujie Liu 0001, Liang Lu, Shuo Ren, Guoli Ye, Sheng Zhao, Ming Zhou 0001. 971-975 [doi]

Faster, Simpler and More Accurate Hybrid ASR Systems Using WordpiecesFrank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig. 976-980 [doi]

A Federated Approach in Training Acoustic ModelsDimitrios Dimitriadis, Ken'ichi Kumatani, Robert Gmyr, Yashesh Gaur, Sefik Emre Eskimez. 981-985 [doi]

On Semi-Supervised LF-MMI Training of Acoustic Models with Limited DataImran A. Sheikh, Emmanuel Vincent 0001, Irina Illina. 986-990 [doi]

On Front-End Gain Invariant Modeling for Wake Word SpottingYixin Gao, Noah D. Stein, Chieh-Chi Kao, Yunliang Cai, Ming Sun, Tao Zhang, Shiv Naga Prasad Vitaladevuni. 991-995 [doi]

Unsupervised Regularization-Based Adaptive Training for Speech RecognitionFenglin Ding, Wu Guo, Bin Gu, Zhen-Hua Ling, Jun Du. 996-1000 [doi]

On the Robustness and Training Dynamics of Raw Waveform ModelsErfan Loweimi, Peter Bell 0001, Steve Renals. 1001-1005 [doi]

Iterative Pseudo-Labeling for Speech RecognitionQiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert. 1006-1010 [doi]

Smart Tube: A Biofeedback System for Vocal Training and Therapy Through Tube PhonationNaoko Kawamura, Tatsuya Kitamura, Kenta Hamada. 1011-1012 [doi]

VCTUBE : A Library for Automatic Speech Data AnnotationSeong Choi, Seunghoon Jeong, Jeewoo Yoon, Migyeong Yang, Minsam Ko, Eunil Park, Jinyoung Han, Munyoung Lee, Seonghee Lee. 1013-1014 [doi]

A Mandarin L2 Learning APP with Mispronunciation Detection and FeedbackYanlu Xie, Xiaoli Feng, Boxue Li, Jinsong Zhang, Yujia Jin. 1015-1016 [doi]

Rapid Enhancement of NLP Systems by Acquisition of Data in Correlated DomainsTejas Udayakumar, Kinnera Saranu, Mayuresh Sanjay Oak, Ajit Ashok Saunshikhar, Sandip Shriram Bapat. 1017-1018 [doi]

Computer-Assisted Language Learning System: Automatic Speech Evaluation for Children Learning Malay and TamilKe Shi, Kye Min Tan, Richeng Duan, Siti Umairah Md. Salleh, Nur Farah Ain Suhaimi, Rajan Vellu, Ngoc Thuy Huong Helen Thai, Nancy F. Chen. 1019-1020 [doi]

Real-Time, Full-Band, Online DNN-Based Voice Conversion System Using a Single CPUTakaaki Saeki, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari. 1021-1022 [doi]

A Dynamic 3D Pronunciation Teaching Model Based on Pronunciation Attributes and AnatomyXiaoli Feng, Yanlu Xie, Yayue Deng, Boxue Li. 1023-1024 [doi]

End-to-End Deep Learning Speech Recognition Model for Silent Speech ChallengeNaoki Kimura, Zixiong Su, Takaaki Saeki. 1025-1026 [doi]

Autosegmental Neural Nets: Should Phones and Tones be Synchronous or Asynchronous?Jialu Li, Mark Hasegawa-Johnson. 1027-1031 [doi]

Development of Multilingual ASR Using GlobalPhone for Less-Resourced Languages: The Case of Ethiopian LanguagesMartha Yifiru Tachbelie, Solomon Teferra Abate, Tanja Schultz. 1032-1036 [doi]

Large-Scale End-to-End Multilingual Speech Recognition and Language Identification with Multi-Task LearningWenxin Hou, Yue Dong, Bairong Zhuang, Longfei Yang, Jiatong Shi, Takahiro Shinozaki. 1037-1041 [doi]

Multi-Encoder-Decoder Transformer for Code-Switching Speech RecognitionXinyuan Zhou, Emre Yilmaz, Yanhua Long, Yijie Li, Haizhou Li 0001. 1042-1046 [doi]

Multilingual Acoustic and Language Modeling for Ethio-Semitic LanguagesSolomon Teferra Abate, Martha Yifiru Tachbelie, Tanja Schultz. 1047-1051 [doi]

Multilingual Jointly Trained Acoustic and Written Word EmbeddingsYushi Hu, Shane Settle, Karen Livescu. 1052-1056 [doi]

Improving Code-Switching Language Modeling with Artificially Generated Texts Using Cycle-Consistent Adversarial NetworksChia-Yu Li, Ngoc Thang Vu. 1057-1061 [doi]

Data Augmentation for Code-Switch Language Modeling by Fusing Multiple Text Generation MethodsXinhui Hu, Qi Zhang, Lei Yang, Binbin Gu, Xinkang Xu. 1062-1066 [doi]

A 43 Language Multilingual Punctuation Prediction Neural Network ModelXinxing Li, Edward Lin. 1067-1071 [doi]

Exploring Lexicon-Free Modeling Units for End-to-End Korean and Korean-English Code-Switching Speech RecognitionJisung Wang, Jihwan Kim, Sangki Kim, Yeha Lee. 1072-1075 [doi]

Multi-Task Siamese Neural Network for Improving Replay Attack DetectionPatrick von Platen, Fei Tao, Gökhan Tür. 1076-1080 [doi]

POCO: A Voice Spoofing and Liveness Detection Corpus Based on Pop NoiseKosuke Akimoto, Seng Pei Liew, Sakiko Mishima, Ryo Mizushima, Kong-Aik Lee. 1081-1085 [doi]

Dual-Adversarial Domain Adaptation for Generalized Replay Attack DetectionHongji Wang, Heinrich Dinkel, Shuai Wang 0016, Yanmin Qian, Kai Yu 0004. 1086-1090 [doi]

Self-Supervised Pre-Training with Acoustic Configurations for Replay Spoofing DetectionHye-jin Shim, Hee-Soo Heo, Jee-weon Jung, Ha-Jin Yu. 1091-1095 [doi]

Competency Evaluation in Voice Mimicking Using Acoustic CuesAbhijith Girish, Adharsh Sabu, Akshay Prasannan Latha, Rajeev Rajan. 1096-1100 [doi]

Light Convolutional Neural Network with Feature Genuinization for Detection of Synthetic Speech AttacksZhenzong Wu, Rohan Kumar Das, Jichen Yang, Haizhou Li 0001. 1101-1105 [doi]

Spoofing Attack Detection Using the Non-Linear Fusion of Sub-Band ClassifiersHemlata Tak, Jose Patino 0001, Andreas Nautsch, Nicholas W. D. Evans, Massimiliano Todisco. 1106-1110 [doi]

Investigating Light-ResNet Architecture for Spoofing Detection Under Mismatched ConditionsPrasanth Parasu, Julien Epps, Kaavya Sriskandaraja, Gajan Suthokumar. 1111-1115 [doi]

Siamese Convolutional Neural Network Using Gaussian Probability Feature for Spoofing Speech DetectionZhenchun Lei, Yingen Yang, Changhong Liu, Jihua Ye. 1116-1120 [doi]

Lightweight Online Noise Reduction on Embedded Devices Using Hierarchical Recurrent Neural NetworksHendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Pascal Zobel, Andreas Maier 0001. 1121-1125 [doi]

SEANet: A Multi-Modal Speech Enhancement NetworkMarco Tagliasacchi, Yunpeng Li, Karolis Misiunas, Dominik Roblek. 1126-1130 [doi]

Lite Audio-Visual Speech EnhancementShang-Yi Chuang, Yu Tsao 0001, Chen-Chou Lo, Hsin-Min Wang. 1131-1135 [doi]

ORCA-CLEAN: A Deep Denoising Toolkit for Killer Whale CommunicationChristian Bergler, Manuel Schmitt, Andreas Maier 0001, Simeon Smeele, Volker Barth, Elmar Nöth. 1136-1140 [doi]

A Deep Learning Approach to Active Noise ControlHao Zhang, DeLiang Wang. 1141-1145 [doi]

Improving Speech Intelligibility Through Speaker Dependent and Independent Spectral Style ConversionTuan Dinh, Alexander Kain, Kris Tjaden. 1146-1150 [doi]

End-to-End Speech Intelligibility Prediction Using Time-Domain Fully Convolutional Neural NetworksMathias Bach Pedersen, Morten Kolbæk, Asger Heidemann Andersen, Søren Holdt Jensen, Jesper Jensen 0001. 1151-1155 [doi]

Predicting Intelligibility of Enhanced Speech Using Posteriors Derived from DNN-Based ASR SystemKenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Toshio Irino. 1156-1160 [doi]

Automatic Estimation of Intelligibility Measure for Consonants in SpeechAli Abavisani, Mark Hasegawa-Johnson. 1161-1165 [doi]

Large Scale Evaluation of Importance Maps in Automatic Speech RecognitionViet Anh Trinh, Michael I. Mandel. 1166-1170 [doi]

Neural Architecture Search on Acoustic Scene ClassificationJixiang Li, Chuming Liang, Bo Zhang 0046, Zhao Wang, Fei Xiang, Xiangxiang Chu. 1171-1175 [doi]

Acoustic Scene Classification Using Audio TaggingJee-weon Jung, Hye-jin Shim, Ju-ho Kim, Seung-bin Kim, Ha-Jin Yu. 1176-1180 [doi]

ATReSN-Net: Capturing Attentive Temporal Relations in Semantic Neighborhood for Acoustic Scene ClassificationLiwen Zhang, Jiqing Han, Ziqiang Shi. 1181-1185 [doi]

Environment Sound Classification Using Multiple Feature Channels and Attention Based Deep Convolutional Neural NetworkJivitesh Sharma, Ole-Christoffer Granmo, Morten Goodwin. 1186-1190 [doi]

Acoustic Scene Analysis with Multi-Head Attention NetworksWeimin Wang, Weiran Wang, Ming Sun, Chao Wang. 1191-1195 [doi]

Relational Teacher Student Learning with Neural Label Embedding for Device Adaptation in Acoustic Scene ClassificationHu Hu, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui Lee. 1196-1200 [doi]

An Acoustic Segment Model Based Segment Unit Selection Approach to Acoustic Scene Classification with Partial UtterancesHu Hu, Sabato Marco Siniscalchi, Yannan Wang, Xue Bai, Jun Du, Chin-Hui Lee. 1201-1205 [doi]

Attention-Driven Projections for Soundscape ClassificationDhanunjaya Varma Devalraju, H. Muralikrishna, Padmanabhan Rajan, Dileep Aroor Dinesh. 1206-1210 [doi]

Computer Audition for Continuous Rainforest Occupancy Monitoring: The Case of Bornean Gibbons' Call DetectionPanagiotis Tzirakis, Alexander Shiarella, Robert Ewers, Björn W. Schuller. 1211-1215 [doi]

Deep Learning Based Open Set Acoustic Scene ClassificationZuzanna Kwiatkowska, Beniamin Kalinowski, Michal Kosmider, Krzysztof Rykaczewski. 1216-1220 [doi]

Singing Synthesis: With a Little Help from my AttentionOrazio Angelini, Alexis Moinet, Kayoko Yanagisawa, Thomas Drugman. 1221-1225 [doi]

Peking Opera Synthesis via Duration Informed Attention NetworkYusong Wu, Shengchen Li, Chengzhu Yu, Heng Lu, Chao Weng, Liqiang Zhang, Dong Yu. 1226-1230 [doi]

DurIAN-SC: Duration Informed Attention Network Based Singing Voice Conversion SystemLiqiang Zhang, Chengzhu Yu, Heng Lu, Chao Weng, Chunlei Zhang, Yusong Wu, Xiang Xie, Zijin Li, Dong Yu. 1231-1235 [doi]

Transfer Learning for Improving Singing-Voice Detection in Polyphonic Instrumental MusicYuanbo Hou, Frank K. Soong, Jian Luan, Shengchen Li. 1236-1240 [doi]

Channel-Wise Subband Input for Better Voice and Accompaniment Separation on High Resolution MusicHaohe Liu, Lei Xie, Jian Wu, Geng Yang. 1241-1245 [doi]

Continual Learning in Automatic Speech RecognitionSamik Sadhu, Hynek Hermansky. 1246-1250 [doi]

Speaker Adaptive Training for Speech Recognition Based on Attention-Over-Attention MechanismGenshun Wan, Jia Pan, Qingran Wang, Jianqing Gao, Zhongfu Ye. 1251-1255 [doi]

Rapid RNN-T Adaptation Using Personalized Speech Synthesis and Neural Language GeneratorYan Huang 0028, Jinyu Li, Lei He, Wenning Wei, William Gale, Yifan Gong. 1256-1260 [doi]

Speech Transformer with Speaker Aware Persistent MemoryYingzhu Zhao, Chongjia Ni, Cheung Chi Leung, Shafiq Joty, Eng Siong Chng, Bin Ma. 1261-1265 [doi]

Adaptive Speaker Normalization for CTC-Based Speech RecognitionFenglin Ding, Wu Guo, Bin Gu, Zhen-Hua Ling, Jun Du. 1266-1270 [doi]

Unsupervised Domain Adaptation Under Label Space Mismatch for Speech ClassificationAkhil Mathur, Nadia Berthouze, Nicholas D. Lane. 1271-1275 [doi]

Learning Fast Adaptation on Cross-Accented Speech RecognitionGenta Indra Winata, Samuel Cahyawijaya, Zihan Liu, Zhaojiang Lin, Andrea Madotto, Peng Xu, Pascale Fung. 1276-1280 [doi]

Black-Box Adaptation of ASR for Accented SpeechKartik Khandelwal, Preethi Jyothi, Abhijeet Awasthi, Sunita Sarawagi. 1281-1285 [doi]

Achieving Multi-Accent ASR via Unsupervised Acoustic Model AdaptationM. A. Tugtekin Turan, Emmanuel Vincent 0001, Denis Jouvet. 1286-1290 [doi]

Frame-Wise Online Unsupervised Adaptation of DNN-HMM Acoustic Model from Perspective of Robust Adaptive FilteringRyu Takeda, Kazunori Komatani. 1291-1295 [doi]

Adversarially Trained Multi-Singer Sequence-to-Sequence Singing SynthesizerJie Wu, Jian Luan. 1296-1300 [doi]

Prediction of Head Motion from Speech Waveforms with a Canonical-Correlation-Constrained AutoencoderJinHong Lu, Hiroshi Shimodaira. 1301-1305 [doi]

XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis SystemPeiling Lu, Jie Wu, Jian Luan, Xu Tan 0003, Li Zhou. 1306-1310 [doi]

Stochastic Talking Face Generation Using Latent Distribution MatchingRavindra Yadav, Ashish Sardana, Vinay P. Namboodiri, Rajesh M. Hegde. 1311-1315 [doi]

Speech-to-Singing Conversion Based on Boundary Equilibrium GANDa-Yi Wu, Yi-Hsuan Yang. 1316-1320 [doi]

Face2Speech: Towards Multi-Speaker Text-to-Speech Synthesis Using an Embedding Vector Predicted from a Face ImageShunsuke Goto, Kotaro Onishi, Yuki Saito, Kentaro Tachibana, Koichiro Mori. 1321-1325 [doi]

Speech Driven Talking Head Generation via Attentional Landmarks Based RepresentationWentao Wang, Yan Wang, Jianqing Sun, Qingsong Liu, Jiaen Liang, Teng Li. 1326-1330 [doi]

Optimization and Evaluation of an Intelligibility-Improving Signal Processing Approach (IISPA) for the Hurricane Challenge 2.0 with FADEMarc René Schädler. 1331-1335 [doi]

iMetricGAN: Intelligibility Enhancement for Speech-in-Noise Using Generative Adversarial Network-Based Metric LearningHaoyu Li, Szu-Wei Fu, Yu Tsao 0001, Junichi Yamagishi. 1336-1340 [doi]

Intelligibility-Enhancing Speech Modifications - The Hurricane Challenge 2.0Jan Rennies, Henning F. Schepker, Cassia Valentini-Botinhao, Martin Cooke. 1341-1345 [doi]

Exploring Listeners' Speech Rate PreferencesOlympia Simantiraki, Martin Cooke. 1346-1350 [doi]

Adaptive Compressive Onset-Enhancement for Improved Speech Intelligibility in Noise and ReverberationFelicitas Bederna, Henning F. Schepker, Christian Rollwage, Simon Doclo, Arne Pusch, Jörg Bitzer, Jan Rennies. 1351-1355 [doi]

A Sound Engineering Approach to Near End Listening EnhancementCarol Chermaz, Simon King. 1356-1360 [doi]

Enhancing Speech Intelligibility in Text-To-Speech Synthesis Using Speaking Style ConversionDipjyoti Paul, P. V. Muhammed Shifas, Yannis Pantazis, Yannis Stylianou. 1361-1365 [doi]

Two Different Mechanisms of Movable Mandible for Vocal-Tract Model with Flexible TongueTakayuki Arai. 1366-1370 [doi]

Improving the Performance of Acoustic-to-Articulatory Inversion by Removing the Training Loss of Noncritical Portions of Articulatory Channels DynamicallyQiang Fang. 1371-1375 [doi]

Speaker Conditioned Acoustic-to-Articulatory Inversion Using x-VectorsAravind Illa, Prasanta Kumar Ghosh. 1376-1380 [doi]

Coarticulation as Synchronised Sequential Target Approximation: An EMA StudyZirui Liu, Yi Xu, Feng-fan Hsieh. 1381-1385 [doi]

Improved Model for Vocal Folds with a Polyp with Potential ApplicationJônatas Santos, Jugurta Montalvão, Israel Santos. 1386-1390 [doi]

Regional Resonance of the Lower Vocal Tract and its Contribution to Speaker CharacteristicsLin Zhang, Kiyoshi Honda, Jianguo Wei, Seiji Adachi. 1391-1395 [doi]

Air-Tissue Boundary Segmentation in Real Time Magnetic Resonance Imaging Video Using 3-D Convolutional Neural NetworkRenuka Mannem, Navaneetha Gaddam, Prasanta Kumar Ghosh. 1396-1400 [doi]

An Investigation of the Virtual Lip Trajectories During the Production of Bilabial Stops and Nasal at Different Speaking RatesTilak Purohit, Prasanta Kumar Ghosh. 1401-1405 [doi]

SpEx+: A Complete Time Domain Speaker Extraction NetworkMeng Ge, Chenglin Xu, Longbiao Wang, Eng Siong Chng, Jianwu Dang, Haizhou Li 0001. 1406-1410 [doi]

Atss-Net: Target Speaker Separation via Attention-Based Neural NetworkTingle Li, Qingjian Lin, Yuanyuan Bao, Ming Li. 1411-1415 [doi]

Multimodal Target Speech Separation with Voice and Face ReferencesLeyuan Qu, Cornelius Weber, Stefan Wermter. 1416-1420 [doi]

X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction NetworkZining Zhang, Bingsheng He, Zhenjie Zhang. 1421-1425 [doi]

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech SeparationChenda Li, Yanmin Qian. 1426-1430 [doi]

A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party EnvironmentsYunzhe Hao, Jiaming Xu, Jing Shi 0003, Peng Zhang, Lei Qin, Bo Xu 0002. 1431-1435 [doi]

Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker EmbeddingJianshu Zhao, Shengzhou Gao, Takahiro Shinozaki. 1436-1440 [doi]

Listen to What You Want: Neural Network-Based Universal Sound SelectorTsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke Kinoshita, Shoko Araki. 1441-1445 [doi]

Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak LabelsMasahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, Noboru Harada. 1446-1450 [doi]

Speaker-Aware Monaural Speech SeparationJiahao Xu, Kun Hu, Chang Xu, Duc Chung Tran, Zhiyong Wang 0001. 1451-1455 [doi]

A DNN-HMM-DNN Hybrid Model for Discovering Word-Like Units from Spoken Captions and Image RegionsLiming Wang, Mark Hasegawa-Johnson. 1456-1460 [doi]

Efficient Wait-k Models for Simultaneous Machine TranslationMaha Elbayad, Laurent Besacier, Jakob Verbeek. 1461-1465 [doi]

Investigating Self-Supervised Pre-Training for End-to-End Speech TranslationHa Nguyen, Fethi Bougares, Natalia A. Tomashenko, Yannick Estève, Laurent Besacier. 1466-1470 [doi]

Contextualized Translation of Automatically Segmented SpeechMarco Gaido, Mattia Antonino Di Gangi, Matteo Negri, Mauro Cettolo, Marco Turchi. 1471-1475 [doi]

Self-Training for End-to-End Speech TranslationJuan Pino, Qiantong Xu, Xutai Ma, Mohammad Javad Dousti, Yun Tang. 1476-1480 [doi]

Evaluating and Optimizing Prosodic Alignment for Automatic DubbingMarcello Federico, Yogesh Virkar, Robert Enyedi, Roberto Barra-Chicote. 1481-1485 [doi]

Pair Expansion for Learning Multilingual Semantic Embeddings Using Disjoint Visually-Grounded Speech Audio DatasetsYasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James R. Glass. 1486-1490 [doi]

Self-Supervised Representations Improve End-to-End Speech TranslationAnne Wu, Changhan Wang, Juan Pino, Jiatao Gu. 1491-1495 [doi]

Improved RawNet with Feature Map Scaling for Text-Independent Speaker Verification Using Raw WaveformsJee-weon Jung, Seung-bin Kim, Hye-jin Shim, Ju-ho Kim, Ha-Jin Yu. 1496-1500 [doi]

Improving Multi-Scale Aggregation Using Feature Pyramid Module for Robust Speaker Verification of Variable-Duration UtterancesYoungmoon Jung, Seong Min Kye, Yeunju Choi, Myunghun Jung, Hoirin Kim. 1501-1505 [doi]

An Adaptive X-Vector Model for Text-Independent Speaker VerificationBin Gu, Wu Guo, Fenglin Ding, Zhen-Hua Ling, Jun Du. 1506-1510 [doi]

Shouted Speech Compensation for Speaker Verification Robust to Vocal Effort ConditionsSanti Prieto, Alfonso Ortega Giménez, Iván López-Espejo, Eduardo Lleida. 1511-1515 [doi]

Sum-Product Networks for Robust Automatic Speaker IdentificationAaron Nicolson, Kuldip K. Paliwal. 1516-1520 [doi]

Segment Aggregation for Short Utterances Speaker Verification Using Raw WaveformsSeung-bin Kim, Jee-weon Jung, Hye-jin Shim, Ju-ho Kim, Ha-Jin Yu. 1521-1525 [doi]

Siamese X-Vector Reconstruction for Domain Adapted Speaker RecognitionShai Rozenberg, Hagai Aronowitz, Ron Hoory. 1526-1529 [doi]

Speaker Re-Identification with Speaker Dependent Speech EnhancementYanpei Shi, Qiang Huang 0008, Thomas Hain. 1530-1534 [doi]

Blind Speech Signal Quality Estimation for Speaker Verification SystemsGalina Lavrentyeva, Marina Volkova, Anastasia Avdeeva, Sergey Novoselov, Artem Gorlanov, Tseren Andzhukaev, Artem Ivanov, Alexander Kozlov. 1535-1539 [doi]

Investigating Robustness of Adversarial Samples Detection for Automatic Speaker VerificationXu Li, Na Li, Jinghua Zhong, Xixin Wu, Xunying Liu, Dan Su, Dong Yu, Helen Meng. 1540-1544 [doi]

Modeling ASR Ambiguity for Neural Dialogue State TrackingVaishali Pal, Fabien Guillot, Manish Shrivastava 0001, Jean-Michel Renders, Laurent Besacier. 1545-1549 [doi]

ASR Error Correction with Augmented Transformer for Entity RetrievalHaoyu Wang, Shuyan Dong, Yue Liu, James Logan, Ashish Kumar Agrawal, Yang Liu. 1550-1554 [doi]

Large-Scale Transfer Learning for Low-Resource Spoken Language UnderstandingXueli Jia, Jianzong Wang, Zhiyong Zhang, Ning Cheng, Jing Xiao. 1555-1559 [doi]

Data Balancing for Boosting Performance of Low-Frequency Classes in Spoken Language UnderstandingJudith Gaspers, Quynh Ngoc Thi Do, Fabian Triefenbach. 1560-1564 [doi]

An Interactive Adversarial Reward Learning-Based Spoken Language Understanding SystemYu Wang, Yilin Shen, Hongxia Jin. 1565-1569 [doi]

Style Attuned Pre-Training and Parameter Efficient Fine-Tuning for Spoken Language UnderstandingJin Cao, Jun Wang, Wael Hamza, Kelly Vanee, Shang-wen Li. 1570-1574 [doi]

Unsupervised Domain Adaptation for Dialogue Sequence Labeling Based on Hierarchical Adversarial TrainingShota Orihashi, Mana Ihori, Tomohiro Tanaka, Ryo Masumura. 1575-1579 [doi]

Deep F-Measure Maximization for End-to-End Speech UnderstandingLeda Sari, Mark Hasegawa-Johnson. 1580-1584 [doi]

An Effective Domain Adaptive Post-Training Method for BERT in Response SelectionTaesun Whang, Dongyub Lee, Chanhee Lee, Kisu Yang, Dongsuk Oh, HeuiSeok Lim. 1585-1589 [doi]

Confidence Measure for Speech-to-Concept End-to-End Spoken Language UnderstandingAntoine Caubrière, Yannick Estève, Antoine Laurent, Emmanuel Morin. 1590-1594 [doi]

Attention to Indexical Information Improves Voice RecallGrant L. McGuire, Molly Babel. 1595-1599 [doi]

Categorization of Whistled Consonants by French SpeakersAnaïs Tran Ngoc, Julien Meyer, Fanny Meunier. 1600-1604 [doi]

Whistled Vowel Identification by French ListenersAnaïs Tran Ngoc, Julien Meyer, Fanny Meunier. 1605-1609 [doi]

F0 Slope and Mean: Cues to Speech Segmentation in FrenchMaria del Mar Cordero, Fanny Meunier, Nicolas Grimault, Stéphane Pota, Elsa Spinelli. 1610-1614 [doi]

Does French Listeners' Ability to Use Accentual Information at the Word Level Depend on the Ear of Presentation?Amandine Michelas, Sophie Dufour. 1615-1619 [doi]

A Perceptual Study of the Five Level Tones in Hmu (Xinzhai Variety)Wen Liu. 1620-1623 [doi]

Mandarin and English Adults' Cue-Weighting of Lexical StressZhen Zeng, Karen Mattock, Liquan Liu, Varghese Peter, Alba Tuninetti, Feng-Ming Tsao. 1624-1628 [doi]

Age-Related Differences of Tone Perception in Mandarin-Speaking SeniorsYan Feng, Gang Peng, William Shi-Yuan Wang. 1629-1633 [doi]

Social and Functional Pressures in Vocal Alignment: Differences for Human and Voice-AI InterlocutorsGeorgia Zellou, Michelle Cohn. 1634-1638 [doi]

Identifying Important Time-Frequency Locations in Continuous Speech UtterancesHassan Salami Kavaki, Michael I. Mandel. 1639-1643 [doi]

Raw Sign and Magnitude Spectra for Multi-Head Acoustic ModellingErfan Loweimi, Peter Bell 0001, Steve Renals. 1644-1648 [doi]

Robust Raw Waveform Speech Recognition Using Relevance Weighted RepresentationsPurvi Agrawal, Sriram Ganapathy. 1649-1653 [doi]

A Deep 2D Convolutional Network for Waveform-Based Speech RecognitionDino Oglic, Zoran Cvetkovic, Peter Bell 0001, Steve Renals. 1654-1658 [doi]

Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-ConvolutionsLudwig Kürzinger, Nicolas Lindae, Palle Klewitz, Gerhard Rigoll. 1659-1663 [doi]

An Alternative to MFCCs for ASRPegah Ghahramani, Hossein Hadian, Daniel Povey, Hynek Hermansky, Sanjeev Khudanpur. 1664-1667 [doi]

Phase Based Spectro-Temporal Features for Building a Robust ASR SystemAnirban Dutta, Ashishkumar Prabhakar Gudmalwar, Ch. V. Rama Rao. 1668-1672 [doi]

Deep Scattering Power Spectrum Features for Robust Speech RecognitionNeethu M. Joy, Dino Oglic, Zoran Cvetkovic, Peter Bell 0001, Steve Renals. 1673-1677 [doi]

FusionRNN: Shared Neural Parameters for Multi-Channel Distant Speech RecognitionTitouan Parcollet, Xinchi Qiu, Nicholas D. Lane. 1678-1682 [doi]

Bandpass Noise Generation and Augmentation for Unified ASRKshitiz Kumar, Bo Ren, Yifan Gong, Jian Wu. 1683-1687 [doi]

Deep Learning Based Dereverberation of Temporal Envelopes for Robust Speech RecognitionAnurenjan Purushothaman, Anirudh Sreeram, Rohit Kumar, Sriram Ganapathy. 1688-1692 [doi]

Introducing the VoicePrivacy InitiativeNatalia A. Tomashenko, Brij Mohan Lal Srivastava, Xin Wang 0037, Emmanuel Vincent 0001, Andreas Nautsch, Junichi Yamagishi, Nicholas W. D. Evans, Jose Patino 0001, Jean-François Bonastre, Paul-Gauthier Noé, Massimiliano Todisco. 1693-1697 [doi]

The Privacy ZEBRA: Zero Evidence Biometric Recognition AssessmentAndreas Nautsch, Jose Patino 0001, Natalia A. Tomashenko, Junichi Yamagishi, Paul-Gauthier Noé, Jean-François Bonastre, Massimiliano Todisco, Nicholas W. D. Evans. 1698-1702 [doi]

X-Vector Singular Value Modification and Statistical-Based Decomposition with Ensemble Regression Modeling for Speaker Anonymization SystemCandy Olivia Mawalim, Kasorn Galajit, Jessada Karnjana, Masashi Unoki. 1703-1707 [doi]

A Comparative Study of Speech Anonymization MetricsMohamed Maouche, Brij Mohan Lal Srivastava, Nathalie Vauquier, Aurélien Bellet, Marc Tommasi, Emmanuel Vincent 0001. 1708-1712 [doi]

Design Choices for X-Vector Based Speaker AnonymizationBrij Mohan Lal Srivastava, Natalia A. Tomashenko, Xin Wang 0037, Emmanuel Vincent 0001, Junichi Yamagishi, Mohamed Maouche, Aurélien Bellet, Marc Tommasi. 1713-1717 [doi]

Speech Pseudonymisation Assessment Using Voice Similarity MatricesPaul-Gauthier Noé, Jean-François Bonastre, Driss Matrouf, Natalia A. Tomashenko, Andreas Nautsch, Nicholas W. D. Evans. 1718-1722 [doi]

g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark DatasetKyubyong Park, Seanie Lee. 1723-1727 [doi]

A Mask-Based Model for Mandarin Chinese Polyphone DisambiguationHaiteng Zhang, Huashan Pan, Xiulin Li. 1728-1732 [doi]

Perception of Concatenative vs. Neural Text-To-Speech (TTS): Differences in Intelligibility in Noise and Language AttitudesMichelle Cohn, Georgia Zellou. 1733-1737 [doi]

Enhancing Sequence-to-Sequence Text-to-Speech with MorphologyJason Taylor, Korin Richmond. 1738-1742 [doi]

Deep MOS Predictor for Synthetic Speech Using Cluster-Based ModelingYeunju Choi, Youngmoon Jung, Hoirin Kim. 1743-1747 [doi]

Deep Learning Based Assessment of Synthetic Speech NaturalnessGabriel Mittag, Sebastian Möller 0001. 1748-1752 [doi]

Distant Supervision for Polyphone Disambiguation in Mandarin ChineseJiawen Zhang, Yuanyuan Zhao, Jiaqi Zhu, Jinba Xiao. 1753-1757 [doi]

An Unsupervised Method to Select a Speaker Subset from Large Multi-Speaker Speech Synthesis DatasetsPilar Oplustil Gallegos, Jennifer Williams, Joanna Rownicka, Simon King. 1758-1762 [doi]

Understanding the Effect of Voice Quality and Accent on Talker SimilarityAnurag Das, Guanlong Zhao, John Levis, Evgeny Chukharev-Hudilainen, Ricardo Gutierrez-Osuna. 1763-1767 [doi]

Robust Beam Search for Encoder-Decoder Attention Based Speech Recognition Without Length BiasWei Zhou, Ralf Schlüter, Hermann Ney. 1768-1772 [doi]

Transformer with Bidirectional Decoder for Speech RecognitionXi Chen, Songyang Zhang, Dandan Song, Peng Ouyang, Shouyi Yin. 1773-1777 [doi]

An Investigation of Phone-Based Subword Units for End-to-End Speech RecognitionWeiran Wang, Guangsen Wang, Aadyot Bhatnagar, Yingbo Zhou, Caiming Xiong, Richard Socher. 1778-1782 [doi]

Combination of End-to-End and Hybrid Models for Speech RecognitionJeremy H. M. Wong, Yashesh Gaur, Rui Zhao, Liang Lu, Eric Sun, Jinyu Li, Yifan Gong. 1783-1787 [doi]

Evolved Speech-Transformer: Applying Neural Architecture Search to End-to-End Automatic Speech RecognitionJihwan Kim, Jisung Wang, Sangki Kim, Yeha Lee. 1788-1792 [doi]

Hierarchical Multi-Stage Word-to-Grapheme Named Entity Corrector for Automatic Speech RecognitionAbhinav Garg, Ashutosh Gupta, Dhananjaya Gowda, Shatrughan Singh, Chanwoo Kim. 1793-1797 [doi]

LVCSR with Transformer Language ModelsEugen Beck, Ralf Schlüter, Hermann Ney. 1798-1802 [doi]

DARTS-ASR: Differentiable Architecture Search for Multilingual Speech Recognition and AdaptationYi-Chen Chen, Jui-Yang Hsu, Cheng-Kuang Lee, Hung-yi Lee. 1803-1807 [doi]

Uncertainty-Aware Machine Support for Paper Reviewing on the Interspeech 2019 Submission CorpusLukas Stappen, Georgios Rizos, Madina Hasan, Thomas Hain, Björn W. Schuller. 1808-1812 [doi]

Individual Variation in Language Attitudes Toward Voice-AI: The Role of Listeners' Autistic-Like TraitsMichelle Cohn, Melina Sarian, Kristin Predeck, Georgia Zellou. 1813-1817 [doi]

Differences in Gradient Emotion Perception: Human vs. Alexa VoicesMichelle Cohn, Eran Raveh, Kristin Predeck, Iona Gessinger, Bernd Möbius, Georgia Zellou. 1818-1822 [doi]

The MSP-Conversation CorpusLuz Martinez-Lucas, Mohammed Abdelwahab 0001, Carlos Busso. 1823-1827 [doi]

Spotting the Traces of Depression in Read Speech: An Approach Based on Computational Paralinguistics and Social Signal ProcessingFuxiang Tao, Anna Esposito, Alessandro Vinciarelli. 1828-1832 [doi]

Speech Sentiment and Customer Satisfaction Estimation in Socialbot ConversationsYelin Kim, Joshua Levy, Yang Liu. 1833-1837 [doi]

Pardon the Interruption: An Analysis of Gender and Turn-Taking in U.S. Supreme Court Oral ArgumentsHaley Lepp, Gina-Anne Levow. 1838-1842 [doi]

Are Germans Better Haters Than Danes? Language-Specific Implicit Prosodies of Types of Hate Speech and How They Relate to Perceived Severity and Societal RulesJana Neitsch, Oliver Niebuhr. 1843-1847 [doi]

An Objective Voice Gender Scoring System and Identification of the Salient Acoustic MeasuresFuling Chen, Roberto Togneri, Murray Maybery, Diana Tan. 1848-1852 [doi]

How Ordinal Are Your Data?Sadari Jayawardena, Julien Epps, Zhaocheng Huang. 1853-1857 [doi]

Correlating Cepstra with Formant Frequencies: Implications for Phonetically-Informed Forensic Voice ComparisonVincent Hughes, Frantz Clermont, Philip Harrison. 1858-1862 [doi]

Prosody and Breathing: A Comparison Between Rhetorical and Information-Seeking Questions in German and Brazilian PortugueseJana Neitsch, Plínio A. Barbosa, Oliver Niebuhr. 1863-1867 [doi]

Scaling Processes of Clause Chains in PitjantjatjaraRebecca Defina, Catalina Torres, Hywel Stoakes. 1868-1872 [doi]

Neutralization of Voicing Distinction of Stops in Tohoku Dialects of Japanese: Field Work and Acoustic MeasurementsAi Mizoguchi, Ayako Hashimoto, Sanae Matsui, Setsuko Imatomi, Ryunosuke Kobayashi, Mafuyu Kitahara. 1873-1877 [doi]

Correlation Between Prosody and Pragmatics: Case Study of Discourse Markers in French and EnglishLou Lee, Denis Jouvet, Katarina Bartkova, Yvon Keromnes, Mathilde Dargnat. 1878-1882 [doi]

An Analysis of Prosodic Prominence Cues to Information Structure in Egyptian ArabicDina El Zarka, Anneliese Kelterer, Barbara Schuppler. 1883-1887 [doi]

Lexical Stress in UrduBenazir Mumtaz, Tina Bögel, Miriam Butt. 1888-1892 [doi]

Vocal Markers from Sustained Phonation in Huntington's DiseaseRachid Riad, Hadrien Titeux, Laurie Lemoine, Justine Montillot, Jennifer Hamet Bagnou, Xuan-Nga Cao, Emmanuel Dupoux, Anne-Catherine Bachoud-Lévi. 1893-1897 [doi]

How Rhythm and Timbre Encode Mooré Language in Bendré Drummed SpeechLaure Dentel, Julien Meyer. 1898-1902 [doi]

Interaction of Tone and Voicing in MizoWendy Lalhminghlui, Priyankoo Sarmah. 1903-1907 [doi]

Mandarin Lexical Tones: A Corpus-Based Study of Word Length, Syllable Position and Prosodic Position on DurationYaru Wu, Martine Adda-Decker, Lori Lamel. 1908-1912 [doi]

An Investigation of the Target Approximation Model for Tone Modeling and Recognition in Continuous Mandarin SpeechYingming Gao, Xinyu Zhang, Yi Xu, Jinsong Zhang, Peter Birkholz. 1913-1917 [doi]

Integrating the Application and Realization of Mandarin 3rd Tone Sandhi in the Resolution of Sentence AmbiguityWei Lai, Aini Li. 1918-1922 [doi]

Neutral Tone in Changde MandarinZhenrui Zhang, Fang Hu. 1923-1927 [doi]

Pitch Declination and Final Lowering in Northeastern MandarinPing Cui, Jianjing Kuang. 1928-1932 [doi]

Variation in Spectral Slope and Interharmonic Noise in Cantonese TonesPhil Rose. 1933-1937 [doi]

The Acoustic Realization of Mandarin Tones in Fast SpeechPing Tang, Shanpeng Li. 1938-1941 [doi]

Do Face Masks Introduce Bias in Speech Technologies? The Case of Automated Scoring of Speaking ProficiencyAnastassia Loukina, Keelan Evanini, Matthew Mulholland, Ian Blood, Klaus Zechner. 1942-1946 [doi]

A Low Latency ASR-Free End to End Spoken Language Understanding SystemMohamed Mhiri 0002, Samuel Myer, Vikrant Singh Tomar. 1947-1951 [doi]

An Audio-Based Wakeword-Independent Verification SystemJoe Wang, Rajath Kumar, Mike Rodehorst, Brian Kulis, Shiv Naga Prasad Vitaladevuni. 1952-1956 [doi]

Learnable Spectro-Temporal Receptive Fields for Robust Voice Type DiscriminationTyler Vuong, Yangyang Xia, Richard M. Stern. 1957-1961 [doi]

Low Latency Speech Recognition Using End-to-End PrefetchingShuo-Yiin Chang, Bo Li 0028, David Rybach, Yanzhang He, Wei Li, Tara N. Sainath, Trevor Strohman. 1962-1966 [doi]

AutoSpeech 2020: The Second Automated Machine Learning Challenge for Speech ClassificationJingsong Wang, Tom Ko, Zhen Xu, Xiawei Guo, Souxiang Liu, Wei-Wei Tu, Lei Xie. 1967-1971 [doi]

Building a Robust Word-Level Wakeword Verification NetworkRajath Kumar, Mike Rodehorst, Joe Wang, Jiacheng Gu, Brian Kulis. 1972-1976 [doi]

A Transformer-Based Audio Captioning Model with Keyword EstimationYuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda, Shoichiro Saito. 1977-1981 [doi]

Neural Architecture Search for Keyword SpottingTong Mo, Yakun Yu, Mohammad Salameh, Di Niu, Shangling Jui. 1982-1986 [doi]

Small-Footprint Keyword Spotting with Multi-Scale Temporal ConvolutionXimin Li, Xiaodong Wei, Xiaowei Qin. 1987-1991 [doi]

Using Cyclic Noise as the Source Signal for Neural Source-Filter-Based Speech Waveform ModelXin Wang, Junichi Yamagishi. 1992-1996 [doi]

Unconditional Audio Generation with Generative Adversarial Networks and Cycle RegularizationJen-Yu Liu, Yu-Hua Chen, Yin-Cheng Yeh, Yi-Hsuan Yang. 1997-2001 [doi]

Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex SpectraToru Nakashika. 2002-2006 [doi]

Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length EmbeddingSeungwoo Choi, Seungju Han, Dongyoung Kim, Sungjoo Ha. 2007-2011 [doi]

Reformer-TTS: Neural Speech Synthesis with Reformer NetworkHyeong Rae Ihm, Joun Yeop Lee, Byoung Jin Choi, Sung Jun Cheon, Nam Soo Kim. 2012-2016 [doi]

CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-Spectrogram ConversionTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo. 2017-2021 [doi]

High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent LatencyNikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Aimilios Chalamandaris, Georgia Maniati, Panos Kakoulidis, Spyros Raptis, June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis. 2022-2026 [doi]

DurIAN: Duration Informed Attention Network for Speech SynthesisChengzhu Yu, Heng Lu, Na Hu, Meng Yu 0003, Chao Weng, Kun Xu, Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su 0002, Dong Yu 0001. 2027-2031 [doi]

Multi-Speaker Text-to-Speech Synthesis Using Deep Gaussian ProcessesKentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari. 2032-2036 [doi]

A Hybrid HMM-Waveglow Based Text-to-Speech Synthesizer Using Histogram Equalization for Low Resource Indian LanguagesMano Ranjith Kumar M., Sudhanshu Srivastava, Anusha Prakash, Hema A. Murthy. 2037-2041 [doi]

The INTERSPEECH 2020 Computational Paralinguistics Challenge: Elderly Emotion, Breathing & MasksBjörn W. Schuller, Anton Batliner, Christian Bergler, Eva-Maria Messner, Antonia Hamilton, Shahin Amiriparian, Alice Baird, Georgios Rizos, Maximilian Schmitt, Lukas Stappen, Harald Baumeister, Alexis Deighton MacIntyre, Simone Hantke. 2042-2046 [doi]

Learning Higher Representations from Pre-Trained Deep Models with Data Augmentation for the COMPARE 2020 Challenge Mask TaskTomoya Koike, Kun Qian 0003, Björn W. Schuller, Yoshiharu Yamamoto. 2047-2051 [doi]

Surgical Mask Detection with Convolutional Neural Networks and Data Augmentations on SpectrogramsSteffen Illium, Robert Müller, Andreas Sedlmeier, Claudia Linnhoff-Popien. 2052-2056 [doi]

Surgical Mask Detection with Deep Recurrent Phonetic ModelsPhilipp Klumpp, Tomás Arias-Vergara, Juan Camilo Vásquez-Correa, Paula Andrea Pérez-Toro, Florian Hönig, Elmar Nöth, Juan Rafael Orozco-Arroyave. 2057-2061 [doi]

Phonetic, Frame Clustering and Intelligibility Analyses for the INTERSPEECH 2020 ComParE ChallengeClaude Montacié, Marie-José Caraty. 2062-2066 [doi]

Exploring Text and Audio Embeddings for Multi-Dimension Elderly Emotion RecognitionMariana Julião, Alberto Abad, Helena Moniz. 2067-2071 [doi]

Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-ChallengesMaxim Markitantov, Denis Dresvyanskiy, Danila Mamontov, Heysem Kaya, Wolfgang Minker, Alexey Karpov 0001. 2072-2076 [doi]

Analyzing Breath Signals for the Interspeech 2020 ComParE ChallengeJohn Mendonça, Francisco Teixeira, Isabel Trancoso, Alberto Abad. 2077-2081 [doi]

Deep Attentive End-to-End Continuous Breath Sensing from SpeechAlexis Deighton MacIntyre, Georgios Rizos, Anton Batliner, Alice Baird, Shahin Amiriparian, Antonia Hamilton, Björn W. Schuller. 2082-2086 [doi]

Paralinguistic Classification of Mask Wearing by Image Classifiers and FusionJeno Szep, Salim Hariri. 2087-2091 [doi]

Exploration of Acoustic and Lexical Cues for the INTERSPEECH 2020 Computational Paralinguistic ChallengeZiqing Yang, Zifan An, Zehao Fan, Chengye Jing, Houwei Cao. 2092-2096 [doi]

Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion RecognitionGizem Sogancioglu, Oxana Verkholyak, Heysem Kaya, Dmitrii Fedotov, Tobias Cadèe, Albert Ali Salah, Alexey Karpov 0001. 2097-2101 [doi]

Are you Wearing a Mask? Improving Mask Detection from Speech Using Augmentation by Cycle-Consistent GANsNicolae-Catalin Ristea, Radu-Tudor Ionescu. 2102-2106 [doi]

1-D Row-Convolution LSTM: Fast Streaming ASR at Accuracy Parity with LC-BLSTMKshitiz Kumar, Chaojun Liu, Yifan Gong, Jian Wu. 2107-2111 [doi]

Low Latency End-to-End Streaming Speech Recognition with a Scout NetworkChengyi Wang 0002, Yu Wu 0012, Liang Lu, Shujie Liu 0001, Jinyu Li, Guoli Ye, Ming Zhou. 2112-2116 [doi]

Knowledge Distillation from Offline to Streaming RNN Transducer for End-to-End Speech RecognitionGakuto Kurata, George Saon. 2117-2121 [doi]

Parallel Rescoring with Transformer for Streaming On-Device Speech RecognitionWei Li, James Qin, Chung-Cheng Chiu, Ruoming Pang, Yanzhang He. 2122-2126 [doi]

Improved Hybrid Streaming ASR with Transformer Language ModelsPau Baquero-Arnal, Javier Jorge, Adrià Giménez, Joan Albert Silvestre-Cerdà, Javier Iranzo-Sánchez, Albert Sanchís, Jorge Civera, Alfons Juan. 2127-2131 [doi]

Streaming Transformer-Based Acoustic Models Using Self-Attention with Augmented MemoryChunyang Wu, Yongqiang Wang, Yangyang Shi, Ching-feng Yeh, Frank Zhang. 2132-2136 [doi]

Enhancing Monotonic Multihead Attention for Streaming ASRHirofumi Inaguma, Masato Mimura, Tatsuya Kawahara. 2137-2141 [doi]

Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech RecognitionShiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie. 2142-2146 [doi]

High Performance Sequence-to-Sequence Model for Streaming Speech RecognitionThai Son Nguyen, Ngoc-Quan Pham, Sebastian Stüker, Alex Waibel. 2147-2151 [doi]

Transfer Learning Approaches for Streaming End-to-End Speech Recognition SystemVikas Joshi, Rui Zhao, Rupesh R. Mehta, Kshitiz Kumar, Jinyu Li. 2152-2156 [doi]

Tackling the ADReSS Challenge: A Multimodal Approach to the Automated Recognition of Alzheimer's DementiaMatej Martinc, Senja Pollak. 2157-2161 [doi]

Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer's DiseaseJiahong Yuan, Yuchen Bian, Xingyu Cai, Jiaji Huang, Zheng Ye, Kenneth Church 0001. 2162-2166 [doi]

To BERT or not to BERT: Comparing Speech and Language-Based Approaches for Alzheimer's Disease DetectionAparna Balagopalan, Benjamin Eyre, Frank Rudzicz, Jekaterina Novikova. 2167-2171 [doi]

Alzheimer's Dementia Recognition Through Spontaneous Speech: The ADReSS ChallengeSaturnino Luz, Fasih Haider, Sofia de la Fuente, Davida Fromm, Brian MacWhinney. 2172-2176 [doi]

Using State of the Art Speaker Recognition and Natural Language Processing Technologies to Detect Alzheimer's Disease and Assess its SeverityRaghavendra Pappagari, Jaejin Cho, Laureano Moro-Velázquez, Najim Dehak. 2177-2181 [doi]

A Comparison of Acoustic and Linguistics Methodologies for Alzheimer's Dementia RecognitionNicholas Cummins, Yilin Pan, Zhao Ren, Julian Fritsch, Venkata Srikanth Nallanthighal, Heidi Christensen, Daniel Blackburn, Björn W. Schuller, Mathew Magimai-Doss, Helmer Strik, Aki Härmä. 2182-2186 [doi]

Multi-Modal Fusion with Gating Using Audio, Lexical and Disfluency Features for Alzheimer's Dementia Recognition from Spontaneous SpeechMorteza Rohanian, Julian Hough, Matthew Purver. 2187-2191 [doi]

Comparing Natural Language Processing Techniques for Alzheimer's Dementia Prediction in Spontaneous SpeechThomas Searle, Zina M. Ibrahim, Richard J. B. Dobson. 2192-2196 [doi]

Multiscale System for Alzheimer's Dementia Recognition Through Spontaneous SpeechErik Edwards, Charles Dognin, Bajibabu Bollepalli, Maneesh Kumar Singh 0001. 2197-2201 [doi]

The INESC-ID Multi-Modal System for the ADReSS 2020 ChallengeAnna Pompili, Thomas Rolland, Alberto Abad. 2202-2206 [doi]

Exploring MMSE Score Prediction Using Verbal and Non-Verbal CuesShahla Farzana, Natalie Parde. 2207-2211 [doi]

Multimodal Inductive Transfer Learning for Detection of Alzheimer's Dementia and its SeverityUtkarsh Sarawgi, Wazeer Zulfikar, Nouran Soliman, Pattie Maes. 2212-2216 [doi]

Exploiting Multi-Modal Features from Pre-Trained Networks for Alzheimer's Dementia RecognitionJunghyun Koo, Jie Hwan Lee, Jaewoo Pyo, Yujin Jo, Kyogu Lee. 2217-2221 [doi]

Automated Screening for Alzheimer's Dementia Through Spontaneous SpeechMuhammad Shehram Shah Syed, Zafi Sherhan Syed, Margaret Lech, Elena Pirogova. 2222-2226 [doi]

NEC-TT Speaker Verification System for SRE'19 CTS ChallengeKong-Aik Lee, Koji Okabe, Hitoshi Yamamoto, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Keisuke Ishikawa, Koichi Shinoda. 2227-2231 [doi]

THUEE System for NIST SRE19 CTS ChallengeRuyun Li, Tianyu Liang, Dandan Song, Yi Liu 0049, Yangcheng Wu, Can Xu, Peng Ouyang, XianWei Zhang, Xianhong Chen, Weiqiang Zhang 0001, Shouyi Yin, Liang He. 2232-2236 [doi]

Automatic Quality Assessment for Audio-Visual Verification Systems. The LOVe Submission to NIST SRE Challenge 2019Grigory Antipov, Nicolas Gengembre, Olivier Le Blouch, Gaël Le Lan. 2237-2241 [doi]

Audio-Visual Speaker Recognition with a Cross-Modal Discriminative NetworkRuijie Tao, Rohan Kumar Das, Haizhou Li 0001. 2242-2246 [doi]

Multimodal Association for Speaker VerificationSuwon Shon, James R. Glass. 2247-2251 [doi]

Multi-Modality Matters: A Performance Leap on VoxCelebZhengyang Chen, Shuai Wang, Yanmin Qian. 2252-2256 [doi]

Cross-Domain Adaptation with Discrepancy Minimization for Text-Independent Forensic Speaker VerificationZhenyu Wang, Wei Xia, John H. L. Hansen. 2257-2261 [doi]

Open-Set Short Utterance Forensic Speaker Verification Using Teacher-Student Network with Explicit Inductive BiasMufan Sang, Wei Xia, John H. L. Hansen. 2262-2266 [doi]

JukeBox: A Multilingual Singer Recognition DatasetAnurag Chowdhury, Austin Cozzo, Arun Ross. 2267-2271 [doi]

Speaker Identification for Household Scenarios with Self-Attention and Adversarial TrainingRuirui Li, Jyun-Yu Jiang, Xian Wu, Chu-Cheng Hsieh, Andreas Stolcke. 2272-2276 [doi]

Streaming Keyword Spotting on Mobile DevicesOleg Rybakov, Natasha Kononenko, Niranjan Subrahmanya, Mirkó Visontai, Stella Laurenzo. 2277-2281 [doi]

Metadata-Aware End-to-End Keyword SpottingHongyi Liu 0004, Apurva Abhyankar, Yuriy Mishchenko, Thibaud Sénéchal, Gengshen Fu, Brian Kulis, Noah D. Stein, Anish Shah, Shiv Naga Prasad Vitaladevuni. 2282-2286 [doi]

Adversarial Audio: A New Information Hiding MethodYehao Kong, Jiliang Zhang 0002. 2287-2291 [doi]

S2IGAN: Speech-to-Image Generation via Adversarial LearningXinsheng Wang, Tingting Qiao, Jihua Zhu, Alan Hanjalic, Odette Scharenborg. 2292-2296 [doi]

Automatic Speech Recognition Benchmark for Air-Traffic CommunicationsJuan Zuluaga-Gomez, Petr Motlícek, Qingran Zhan, Karel Veselý, Rudolf Braun. 2297-2301 [doi]

Whisper Augmented End-to-End/Hybrid Speech Recognition System - CycleGAN ApproachPrithvi R. R. Gudepu, Gowtham P. Vadisetti, Abhishek Niranjan, Kinnera Saranu, Raghava Sarma, M. Ali Basha Shaik, Periyasamy Paramasivam. 2302-2306 [doi]

Risk Forecasting from Earnings Calls Acoustics and Network CorrelationsRamit Sawhney, Arshiya Aggarwal, Piyush Khanna, Puneet Mathur, Taru Jain, Rajiv Ratn Shah. 2307-2311 [doi]

SpecMark: A Spectral Watermarking Framework for IP Protection of Speech Recognition SystemsHuili Chen, Bita Darvish Rouhani, Farinaz Koushanfar. 2312-2316 [doi]

Evaluating Automatically Generated Phoneme Captions for ImagesJustin van der Hout, Zoltán D'Haese, Mark Hasegawa-Johnson, Odette Scharenborg. 2317-2321 [doi]

An Efficient Temporal Modeling Approach for Speech Emotion Recognition by Mapping Varied Duration Sentences into Fixed Number of ChunksWei-Cheng Lin, Carlos Busso. 2322-2326 [doi]

Deep Architecture Enhancing Robustness to Noise, Adversarial Attacks, and Cross-Corpus Setting for Speech Emotion RecognitionSiddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Björn W. Schuller. 2327-2331 [doi]

Meta-Learning for Speech Emotion Recognition Considering Ambiguity of Emotion LabelsTakuya Fujioka, Takeshi Homma, Kenji Nagamatsu. 2332-2336 [doi]

Temporal Attention Convolutional Network for Speech Emotion Recognition with Latent RepresentationJiaxing Liu, Zhilei Liu, Longbiao Wang, Yuan Gao, Lili Guo, Jianwu Dang. 2337-2341 [doi]

Reconciliation of Multiple Corpora for Speech Emotion Recognition by Multiple Classifiers with an Adversarial Corpus DiscriminatorZhi Zhu, Yoshinao Sato. 2342-2346 [doi]

Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural NetworksZheng Lian, Jianhua Tao, Bin Liu, Jian Huang 0014, Zhanlei Yang, Rongjun Li. 2347-2351 [doi]

EigenEmo: Spectral Utterance Representation Using Dynamic Mode Decomposition for Speech Emotion ClassificationShuiyang Mao, P. C. Ching, Tan Lee. 2352-2356 [doi]

Advancing Multiple Instance Learning with Attention Modeling for Categorical Speech Emotion RecognitionShuiyang Mao, P. C. Ching, C. C. Jay Kuo, Tan Lee. 2357-2361 [doi]

The Effect of Language Proficiency on the Perception of Segmental Foreign AccentRubén Pérez Ramón, María Luisa García Lecumberri, Martin Cooke. 2362-2366 [doi]

The Effect of Language Dominance on the Selective Attention of Segments and Tones in Urdu-Cantonese SpeakersYi Liu, Jinghong Ning. 2367-2371 [doi]

The Effect of Input on the Production of English Tense and Lax Vowels by Chinese Learners: Evidence from an Elementary School in ChinaMengrou Li, Ying Chen, Jie Cui. 2372-2376 [doi]

Exploring the Use of an Artificial Accent of English to Assess Phonetic Learning in Monolingual and Bilingual SpeakersLaura Spinu, Jiwon Hwang, Nadya Pincus, Mariana Vasilita. 2377-2381 [doi]

Effects of Dialectal Code-Switching on Speech Modules: A Study Using Egyptian Arabic Broadcast SpeechShammur A. Chowdhury, Younes Samih, Mohamed Eldesouki, Ahmed Ali. 2382-2386 [doi]

Bilingual Acoustic Voice Variation is Similarly Structured Across LanguagesKhia A. Johnson, Molly Babel, Robert A. Fuhrman. 2387-2391 [doi]

Monolingual Data Selection Analysis for English-Mandarin Hybrid Code-Switching Speech RecognitionHaobo Zhang, Haihua Xu, Van Tung Pham, Hao Huang, Eng Siong Chng. 2392-2396 [doi]

Perception and Production of Mandarin Initial Stops by Native Urdu SpeakersDan Du, Xianjin Zhu, Zhu Li, Jinsong Zhang. 2397-2401 [doi]

Now You're Speaking My Language: Visual Language IdentificationTriantafyllos Afouras, Joon Son Chung, Andrew Zisserman. 2402-2406 [doi]

The Different Enhancement Roles of Covarying Cues in Thai and Mandarin TonesNari Rhee, Jianjing Kuang. 2407-2411 [doi]

Singing Voice Extraction with Attention-Based Spectrograms FusionHao Shi, Longbiao Wang, Sheng Li 0010, Chenchen Ding, Meng Ge, Nan Li, Jianwu Dang, Hiroshi Seki. 2412-2416 [doi]

Incorporating Broad Phonetic Information for Speech EnhancementYen-Ju Lu, Chien-Feng Liao, Xugang Lu, Jeih-Weih Hung, Yu Tsao 0001. 2417-2421 [doi]

A Recursive Network with Dynamic Attention for Monaural Speech EnhancementAndong Li, Chengshi Zheng, Cunhang Fan, Renhua Peng, Xiaodong Li. 2422-2426 [doi]

Constrained Ratio Mask for Speech Enhancement Using DNNHongjiang Yu, Wei-Ping Zhu, Yuhong Yang. 2427-2431 [doi]

SERIL: Noise Adaptive Speech Enhancement Using Regularization-Based Incremental LearningChi-Chang Lee, Yu-Chen Lin, Hsuan-Tien Lin, Hsin-Min Wang, Yu Tsao 0001. 2432-2436 [doi]

Adaptive Neural Speech Enhancement with a Denoising Variational AutoencoderYoshiaki Bando, Kouhei Sekiguchi, Kazuyoshi Yoshii. 2437-2441 [doi]

Low-Latency Single Channel Speech Dereverberation Using U-Net Convolutional Neural NetworksAhmet E. Bulut, Kazuhito Koishida. 2442-2446 [doi]

Single-Channel Speech Enhancement by Subspace Affinity MinimizationDung N. Tran, Kazuhito Koishida. 2447-2451 [doi]

Noise Tokens: Learning Neural Noise Templates for Environment-Aware Speech EnhancementHaoyu Li, Junichi Yamagishi. 2452-2456 [doi]

NAAGN: Noise-Aware Attention-Gated Network for Speech EnhancementFeng Deng, Tao Jiang, Xiaorui Wang, Chen Zhang, Yan Li. 2457-2461 [doi]

Online Monaural Speech Enhancement Using Delayed Subband LSTMXiaofei Li, Radu Horaud. 2462-2466 [doi]

INTERSPEECH 2020 Deep Noise Suppression Challenge: A Fully Convolutional Recurrent Network (FCRN) for Joint Dereverberation and DenoisingMaximilian Strake, Bruno Defraene, Kristoff Fluyt, Wouter Tirry, Tim Fingscheidt. 2467-2471 [doi]

DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech EnhancementYanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie. 2472-2476 [doi]

Dual-Signal Transformation LSTM Network for Real-Time Noise SuppressionNils L. Westhausen, Bernd T. Meyer. 2477-2481 [doi]

A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband SpeechJean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, Arvindh Krishnaswamy. 2482-2486 [doi]

PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings, Semi-Supervised Conversational Data, and Biased LossUmut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy. 2487-2491 [doi]

The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge ResultsChandan K. A. Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan 0003, Johannes Gehrke. 2492-2496 [doi]

The Implication of Sound Level on Spatial Selective Auditory Attention for Cochlear Implant Users: Behavioral and Electrophysiological MeasurementSara Akbarzadeh, Sungmin Lee, Chin Tuan Tan. 2497-2501 [doi]

Enhancing the Interaural Time Difference of Bilateral Cochlear Implants with the Temporal Limits EncoderYangyang Wan, Huali Zhou, Qinglin Meng, Nengheng Zheng. 2502-2506 [doi]

Speech Clarity Improvement by Vocal Self-Training Using a Hearing Impairment Simulator and its Correlation with an Auditory Modulation IndexToshio Irino, Soichi Higashiyama, Hanako Yoshigi. 2507-2511 [doi]

Investigation of Phase Distortion on Perceived Speech Quality for Hearing-Impaired ListenersZhuohuang Zhang, Donald S. Williamson, Yi Shen 0008. 2512-2516 [doi]

EEG-Based Short-Time Auditory Attention Detection Using Multi-Task Deep LearningZhuo Zhang, Gaoyan Zhang, Jianwu Dang, Shuang Wu, Di Zhou, Longbiao Wang. 2517-2521 [doi]

Towards Interpreting Deep Learning Models to Understand Loss of Speech Intelligibility in Speech Disorders - Step 1: CNN Model-Based Phone ClassificationSondes Abderrazek, Corinne Fredouille, Alain Ghio, Muriel Lalain, Christine Meunier, Virginie Woisard. 2522-2526 [doi]

Improving Cognitive Impairment Classification by Generative Neural Network-Based Feature AugmentationBahman Mirheidari, Daniel Blackburn, Ronan O'Malley, Annalena Venneri, Traci Walker, Markus Reuber, Heidi Christensen. 2527-2531 [doi]

UncommonVoice: A Crowdsourced Dataset of Dysphonic SpeechMeredith Moore, Piyush Papreja, Michael Saxon, Visar Berisha, Sethuraman Panchanathan. 2532-2536 [doi]

Towards Automatic Assessment of Voice Disorders: A Clinical ApproachPurva Barche, Krishna Gurugubelli, Anil Kumar Vuppala. 2537-2541 [doi]

BlaBla: Linguistic Feature Extraction for Clinical Analysis in Multiple LanguagesAbhishek Shivkumar, Jack Weston, Raphael Lenain, Emil Fristed. 2542-2546 [doi]

Depthwise Separable Convolutional ResNet with Squeeze-and-Excitation Blocks for Small-Footprint Keyword SpottingMenglong Xu, Xiao-lei Zhang. 2547-2551 [doi]

Predicting Detection Filters for Small Footprint Open-Vocabulary Keyword SpottingThéodore Bluche, Thibault Gisselbrecht. 2552-2556 [doi]

Deep Convolutional Spiking Neural Networks for Keyword SpottingEmre Yilmaz, Özgür Bora Gevrek, Jibin Wu, Yuxiang Chen, Xuanbo Meng, Haizhou Li 0001. 2557-2561 [doi]

Domain Aware Training for Far-Field Small-Footprint Keyword SpottingHaiwei Wu, Yan Jia, Yuanfei Nie, Ming Li. 2562-2566 [doi]

Re-Weighted Interval Loss for Handling Data Imbalance Problem of End-to-End Keyword SpottingKun Zhang, Zhiyong Wu, Daode Yuan, Jian Luan, Jia Jia 0001, Helen Meng, Binheng Song. 2567-2571 [doi]

Deep Template Matching for Small-Footprint and Configurable Keyword SpottingPeng Zhang, Xueliang Zhang. 2572-2576 [doi]

Multi-Scale Convolution for Robust Keyword SpottingChen Yang, Xue Wen, Liming Song. 2577-2581 [doi]

An Investigation of Few-Shot Learning in Spoken Term ClassificationYangbin Chen, Tom Ko, Lifeng Shang, Xiao Chen, Xin Jiang, Qing Li. 2582-2586 [doi]

End-to-End Keyword Search Based on Attention and Energy Scorer for Low Resource LanguagesZeyu Zhao, Wei-Qiang Zhang. 2587-2591 [doi]

Stacked 1D Convolutional Networks for End-to-End Small Footprint Voice Trigger DetectionTakuya Higuchi, Mohammad Ghasemzadeh 0003, Kisun You, Chandra Dhir. 2592-2596 [doi]

Statistical and Neural Network Based Speech Activity Detection in Non-Stationary Acoustic EnvironmentsJens Heitkaemper, Joerg Schmalenstroeer, Reinhold Haeb-Umbach. 2597-2601 [doi]

Speaker Diarization System Based on DPCA Algorithm for Fearless Steps Challenge Phase-2Xueshuai Zhang, Wenchao Wang, Pengyuan Zhang. 2602-2606 [doi]

The DKU Speech Activity Detection and Speaker Identification Systems for Fearless Steps Challenge Phase-02Qingjian Lin, Tingle Li, Ming Li. 2607-2611 [doi]

"This is Houston. Say again, please". The Behavox System for the Apollo-11 Fearless Steps Challenge (Phase II)Arseniy Gorin, Daniil Kulko, Steven Grima, Alex Glasman. 2612-2616 [doi]

FEARLESS STEPS Challenge (FS-2): Supervised Learning with Massive Naturalistic Apollo DataAditya Joglekar, John H. L. Hansen, Meena Chandra Shekhar, Abhijeet Sangwan. 2617-2621 [doi]

Separating Varying Numbers of Sources with Auxiliary Autoencoding LossYi Luo, Nima Mesgarani. 2622-2626 [doi]

On Synthesis for Supervised Monaural Speech Separation in Time DomainJingjing Chen, Qirong Mao, Dong Liu. 2627-2631 [doi]

Learning Better Speech Representations by Worsening InterferenceJun Wang. 2632-2636 [doi]

Asteroid: The PyTorch-Based Audio Source Separation Toolkit for ResearchersManuel Pariente, Samuele Cornell, Joris Cosentino, Sunit Sivasankaran, Efthymios Tzinis, Jens Heitkaemper, Michel Olvera, Fabian-Robert Stöter, Mathieu Hu, Juan M. Martín-Doñas, David Ditter, Ariel Frank, Antoine Deleforge, Emmanuel Vincent 0001. 2637-2641 [doi]

Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech SeparationJingjing Chen, Qirong Mao, Dong Liu. 2642-2646 [doi]

Conv-TasSAN: Separative Adversarial Network Based on Conv-TasNetChengyun Deng, Yi Zhang, Shiqian Ma, Yongtao Sha, Hui Song, Xiangang Li. 2647-2651 [doi]

Multi-Path RNN for Hierarchical Modeling of Long Sequential Data and its Application to Speaker Stream SeparationKeisuke Kinoshita, Thilo von Neumann, Marc Delcroix, Tomohiro Nakatani, Reinhold Haeb-Umbach. 2652-2656 [doi]

Unsupervised Audio Source Separation Using Generative PriorsVivek Sivaraman Narayanaswamy, Jayaraman J. Thiagarajan, Rushil Anirudh, Andreas Spanias. 2657-2661 [doi]

Adversarial Latent Representation Learning for Speech EnhancementYuanhang Qiu, Ruili Wang. 2662-2666 [doi]

An NMF-HMM Speech Enhancement Method Based on Kullback-Leibler DivergenceYang Xiang, Liming Shi, Jesper Lisby Højvang, Morten Højfeldt Rasmussen, Mads Græsbøll Christensen. 2667-2671 [doi]

Multi-Scale TCN: Exploring Better Temporal DNN Model for Causal Speech EnhancementLu Zhang, Mingjiang Wang. 2672-2676 [doi]

VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech RecognitionQuan Wang, Ignacio Lopez-Moreno, Mert Saglam, Kevin W. Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Marily Nika, Alexander Gruenstein. 2677-2681 [doi]

Speech Separation Based on Multi-Stage Elaborated Dual-Path Deep BiLSTM with Auxiliary Identity LossZiqiang Shi, Rujie Liu, Jiqing Han. 2682-2686 [doi]

Sub-Band Knowledge Distillation Framework for Speech EnhancementXiang Hao, Shixue Wen, Xiangdong Su, Yun Liu, Guanglai Gao, Xiaofei Li. 2687-2691 [doi]

A Deep Learning-Based Kalman Filter for Speech EnhancementSujan Kumar Roy, Aaron Nicolson, Kuldip K. Paliwal. 2692-2696 [doi]

Subband Kalman Filtering with DNN Estimated Parameters for Speech EnhancementHongjiang Yu, Wei-Ping Zhu, Benoît Champagne. 2697-2701 [doi]

Bidirectional LSTM Network with Ordered Neurons for Speech EnhancementXiaoqi Li, Yaxing Li, Yuanjie Dong, Shan Xu, Zhihui Zhang, Dan Wang, Shengwu Xiong. 2702-2706 [doi]

Speaker-Conditional Chain Model for Speech Separation and ExtractionJing Shi 0003, Jiaming Xu, Yusuke Fujita, Shinji Watanabe 0001, Bo Xu 0002. 2707-2711 [doi]

Unsupervised vs. Transfer Learning for Multimodal One-Shot Matching of Speech and ImagesLeanne Nortje, Herman Kamper. 2712-2716 [doi]

Multimodal Speech Emotion Recognition Using Cross Attention with Aligned Audio and TextYoonhyung Lee, Seunghyun Yoon 0002, Kyomin Jung. 2717-2721 [doi]

Speaker Dependent Articulatory-to-Acoustic Mapping Using Real-Time MRI of the Vocal TractTamás Gábor Csapó. 2722-2726 [doi]

Ultrasound-Based Articulatory-to-Acoustic Mapping with WaveGlow Speech SynthesisTamás Gábor Csapó, Csaba Zainkó, László Tóth 0001, Gábor Gosztolya, Alexandra Markó. 2727-2731 [doi]

Unsupervised Subword Modeling Using Autoregressive Pretraining and Cross-Lingual Phone-Aware ModelingSiyuan Feng, Odette Scharenborg. 2732-2736 [doi]

Generative Adversarial Training Data Adaptation for Very Low-Resource Automatic Speech RecognitionKohei Matsuura, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 2737-2741 [doi]

Neural Speech CompletionKazuki Tsunematsu, Johanes Effendi, Sakriani Sakti, Satoshi Nakamura 0001. 2742-2746 [doi]

Improving Unsupervised Sparsespeech Acoustic Models with Categorical ReparameterizationBenjamin Milde, Chris Biemann. 2747-2751 [doi]

Multimodal Sign Language Recognition via Temporal Deformable Convolutional Sequence LearningKaterina Papadimitriou, Gerasimos Potamianos. 2752-2756 [doi]

MLS: A Large-Scale Multilingual Dataset for Speech ResearchVineel Pratap, Qiantong Xu, Anuroop Sriram, Gabriel Synnaeve, Ronan Collobert. 2757-2761 [doi]

Combining Audio and Brain Activity for Predicting Speech QualityIvan Halim Parmonangan, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura 0001. 2762-2766 [doi]

The "Sound of Silence" in EEG - Cognitive Voice Activity DetectionRini A. Sharon, Hema A. Murthy. 2767-2771 [doi]

Low Latency Auditory Attention Detection with Common Spatial Pattern Analysis of EEG SignalsSiqi Cai, Enze Su, Yonghao Song, Longhan Xie, Haizhou Li 0001. 2772-2776 [doi]

Speech Spectrogram Estimation from Intracranial Brain Activity Using a Quantization ApproachMiguel Angrick, Christian Herff, Garett D. Johnson, Jerry J. Shih, Dean J. Krusienski, Tanja Schultz. 2777-2781 [doi]

Neural Speech Decoding for Amyotrophic Lateral SclerosisDebadatta Dash, Paul Ferrari, Angel W. Hernandez-Mulero, Daragh Heitzman, Sara G. Austin, Jun Wang 0037. 2782-2786 [doi]

Semi-Supervised ASR by End-to-End Self-TrainingYang Chen, Weiran Wang, Chao Wang. 2787-2791 [doi]

Improved Training Strategies for End-to-End Speech Recognition in Digital Voice AssistantsHitesh Tulsiani, Ashtosh Sapru, Harish Arsikere, Surabhi Punjabi, Sri Garimella. 2792-2796 [doi]

Serialized Output Training for End-to-End Overlapped Speech RecognitionNaoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Takuya Yoshioka. 2797-2801 [doi]

Semi-Supervised Learning with Data Augmentation for End-to-End ASRFelix Weninger, Franco Mana, Roberto Gemello, Jesús Andrés-Ferrer, Puming Zhan. 2802-2806 [doi]

Efficient Minimum Word Error Rate Training of RNN-Transducer for End-to-End Speech RecognitionJinxi Guo, Gautam Tiwari, Jasha Droppo, Maarten Van Segbroeck, Che-Wei Huang, Andreas Stolcke, Roland Maas. 2807-2811 [doi]

A New Training Pipeline for an Improved Neural TransducerAlbert Zeyer, André Merboldt, Ralf Schlüter, Hermann Ney. 2812-2816 [doi]

Improved Noisy Student Training for Automatic Speech RecognitionDaniel S. Park, Yu Zhang, Ye Jia, Wei Han, Chung-Cheng Chiu, Bo Li, Yonghui Wu, Quoc V. Le. 2817-2821 [doi]

Phoneme-to-Grapheme Conversion Based Large-Scale Pre-Training for End-to-End Automatic Speech RecognitionRyo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi. 2822-2826 [doi]

Utterance Invariant Training for Hybrid Two-Pass End-to-End Speech RecognitionDhananjaya Gowda, Ankur Kumar, Kwangyoun Kim, Hejung Yang, Abhinav Garg, Sachin Singh, Jiyeon Kim, Mehul Kumar, Sichen Jin, Shatrughan Singh, Chanwoo Kim. 2827-2831 [doi]

SCADA: Stochastic, Consistent and Adversarial Data Augmentation to Improve ASRGary Wang, Andrew Rosenberg, Zhehuai Chen, Yu Zhang, Bhuvana Ramabhadran, Pedro J. Moreno. 2832-2836 [doi]

Fundamental Frequency Model for Postfiltering at Low Bitrates in a Transform-Domain Speech and Audio CodecSneha Das, Tom Bäckström, Guillaume Fuchs. 2837-2841 [doi]

Hearing-Impaired Bio-Inspired Cochlear Models for Real-Time Auditory ApplicationsArthur Van Den Broucke, Deepak Baby, Sarah Verhulst. 2842-2846 [doi]

Improving Opus Low Bit Rate Quality with Neural Speech SynthesisJan Skoglund, Jean-Marc Valin. 2847-2851 [doi]

A Differentiable Perceptual Audio Metric Learned from Just Noticeable DifferencesPranay Manocha, Adam Finkelstein, Richard Zhang, Nicholas J. Bryan, Gautham J. Mysore, Zeyu Jin. 2852-2856 [doi]

StoRIR: Stochastic Room Impulse Response Generation for Audio Data AugmentationPiotr Masztalski, Mateusz Matuszewski, Karol Piaskowski, Michal Romaniuk. 2857-2861 [doi]

An Open Source Implementation of ITU-T Recommendation P.808 with ValidationBabak Naderi, Ross Cutler. 2862-2866 [doi]

DNN No-Reference PSTN Speech Quality PredictionGabriel Mittag, Ross Cutler, Yasaman Hosseinkashi, Michael Revow, Sriram Srinivasan 0003, Naglakshmi Chande, Robert Aichner. 2867-2871 [doi]

Non-Intrusive Diagnostic Monitoring of Fullband Speech QualitySebastian Möller 0001, Tobias Hübschen, Thilo Michael, Gabriel Mittag, Gerhard Schmidt. 2872-2876 [doi]

Transfer Learning of Articulatory Information Through Phone InformationAbdolreza Sabzi Shahrebabaki, Negar Olfati, Sabato Marco Siniscalchi, Giampiero Salvi, Torbjørn Svendsen. 2877-2881 [doi]

Sequence-to-Sequence Articulatory Inversion Through Time Convolution of Sub-Band Frequency SignalsAbdolreza Sabzi Shahrebabaki, Sabato Marco Siniscalchi, Giampiero Salvi, Torbjørn Svendsen. 2882-2886 [doi]

Discriminative Singular Spectrum Analysis for Bioacoustic ClassificationBernardo B. Gatto, Eulanda Miranda dos Santos, Juan Gabriel Colonna, Naoya Sogi, Lincon S. Souza, Kazuhiro Fukui. 2887-2891 [doi]

Speech Rate Task-Specific Representation Learning from Acoustic-Articulatory DataRenuka Mannem, Hima Jyothi R., Aravind Illa, Prasanta Kumar Ghosh. 2892-2896 [doi]

Dysarthria Detection and Severity Assessment Using Rhythm-Based MetricsAbner Hernandez, Eun Jung Yeo, SunHee Kim, Minhwa Chung. 2897-2901 [doi]

LungRN+NL: An Improved Adventitious Lung Sound Classification Using Non-Local Block ResNet Neural Network with Mixup Data AugmentationYi Ma, Xinzi Xu, Yongfu Li. 2902-2906 [doi]

Attention and Encoder-Decoder Based Models for Transforming Articulatory Movements at Different Speaking RatesAbhayjeet Singh, Aravind Illa, Prasanta Kumar Ghosh. 2907-2911 [doi]

Adventitious Respiratory Classification Using Attentive Residual Neural NetworksZijiang Yang, Shuo Liu, Meishu Song, Emilia Parada-Cabaleiro, Björn W. Schuller. 2912-2916 [doi]

Surfboard: Audio Feature Extraction for Modern Machine LearningRaphael Lenain, Jack Weston, Abhishek Shivkumar, Emil Fristed. 2917-2921 [doi]

Whisper Activity Detection Using CNN-LSTM Based Attention Pooling Network Trained for a Speaker Identification TaskAbinay Reddy Naini, Malla Satyapriya, Prasanta Kumar Ghosh. 2922-2926 [doi]

Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice ConversionShengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma. 2927-2931 [doi]

Multi-Lingual Multi-Speaker Text-to-Speech Synthesis for Voice Cloning with Online Speaker EnrollmentZhaoyu Liu, Brian Mak. 2932-2936 [doi]

Dynamic Soft Windowing and Language Dependent Style Token for Code-Switching End-to-End Speech SynthesisRuibo Fu, Jianhua Tao, Zhengqi Wen, Jiangyan Yi, Chunyu Qiang, Tao Wang. 2937-2941 [doi]

Phonological Features for 0-Shot Multilingual Speech SynthesisMarlene Staib, Tian Huey Teh, Alexandra Torresquintero, Devang S. Ram Mohan, Lorenzo Foglianti, Raphael Lenain, Jiameng Gao. 2942-2946 [doi]

Cross-Lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker SpaceDetai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari. 2947-2951 [doi]

Tone Learning in Low-Resource Bilingual TTSRuolan Liu, Xue Wen, Chunhui Lu, Xiao Chen. 2952-2956 [doi]

On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme ModelShubham Bansal, Arijit Mukherjee, Sandeepkumar Satpal, Rupeshkumar Mehta. 2957-2961 [doi]

Generic Indic Text-to-Speech Synthesisers with Rapid Adaptation in an End-to-End FrameworkAnusha Prakash, Hema A. Murthy. 2962-2966 [doi]

Efficient Neural Speech Synthesis for Low-Resource Languages Through Multilingual ModelingMarcel de Korte, Jaebok Kim, Esther Klabbers. 2967-2971 [doi]

One Model, Many Languages: Meta-Learning for Multilingual Text-to-SpeechTomás Nekvinda, Ondrej Dusek. 2972-2976 [doi]

In Defence of Metric Learning for Speaker RecognitionJoon Son Chung, Jaesung Huh, Seongkyu Mun, MinJae Lee, Hee-Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han. 2977-2981 [doi]

Meta-Learning for Short Utterance Speaker Recognition with Imbalance Length PairsSeong Min Kye, Youngmoon Jung, Haebeom Lee, Sung Ju Hwang, Hoirin Kim. 2982-2986 [doi]

Segment-Level Effects of Gender, Nationality and Emotion Information on Text-Independent Speaker VerificationKai Li, Masato Akagi, Yibo Wu, Jianwu Dang. 2987-2991 [doi]

Weakly Supervised Training of Hierarchical Attention Networks for Speaker IdentificationYanpei Shi, Qiang Huang 0008, Thomas Hain. 2992-2996 [doi]

Multi-Task Learning for Voice Related Recognition TasksAna Montalvo, José R. Calvo, Jean-François Bonastre. 2997-3001 [doi]

Unsupervised Training of Siamese Networks for Speaker VerificationUmair Khan, Javier Hernando. 3002-3006 [doi]

An Effective Speaker Recognition Method Based on Joint Identification and Verification SupervisionsYing Liu, Yan Song 0001, Yiheng Jiang, Ian Vince McLoughlin, Lin Liu, Li-Rong Dai 0001. 3007-3011 [doi]

Speaker-Aware Linear Discriminant Analysis in Speaker VerificationNaijun Zheng, Xixin Wu, Jinghua Zhong, Xunying Liu, Helen Meng. 3012-3016 [doi]

Adversarial Domain Adaptation for Speaker Verification Using Partially Shared NetworkZhengyang Chen, Shuai Wang, Yanmin Qian. 3017-3021 [doi]

Automatic Scoring at Multi-Granularity for L2 PronunciationBinghuai Lin, Liyuan Wang, Xiaoli Feng, Jinsong Zhang. 3022-3026 [doi]

An Effective End-to-End Modeling Approach for Mispronunciation DetectionTien-Hong Lo, Shi-Yan Weng, Hsiu-Jui Chang, Berlin Chen. 3027-3031 [doi]

An End-to-End Mispronunciation Detection System for L2 English Speech Leveraging Novel Anti-Phone ModelingBi-Cheng Yan, Meng-Che Wu, Hsiao-Tsung Hung, Berlin Chen. 3032-3036 [doi]

Unsupervised Feature Adaptation Using Adversarial Multi-Task Training for Automatic Evaluation of Children's SpeechRicheng Duan, Nancy F. Chen. 3037-3041 [doi]

Pronunciation Erroneous Tendency Detection with Language Adversarial Represent LearningLongfei Yang, Kaiqi Fu, Jinsong Zhang, Takahiro Shinozaki. 3042-3046 [doi]

ASR-Free Pronunciation AssessmentSitong Cheng, Zhixin Liu, Lantian Li, Zhiyuan Tang, Dong Wang, Thomas Fang Zheng. 3047-3051 [doi]

Automatic Detection of Accent and Lexical Pronunciation Errors in Spontaneous Non-Native English SpeechKonstantinos Kyriakopoulos, Kate M. Knill, Mark J. F. Gales. 3052-3056 [doi]

Context-Aware Goodness of Pronunciation for Computer-Assisted Pronunciation TrainingJiatong Shi, Nan Huo, Qin Jin. 3057-3061 [doi]

Recognize Mispronunciations to Improve Non-Native Acoustic Modeling Through a Phone Decoder Built from One Edit Distance Finite State AutomatonWei Chu, Yang Liu, Jianwei Zhou. 3062-3066 [doi]

Partial AUC Optimisation Using Recurrent Neural Networks for Music Detection with Limited Training DataPablo Gimeno, Victoria Mingote, Alfonso Ortega Giménez, Antonio Miguel, Eduardo Lleida. 3067-3071 [doi]

An Open-Source Voice Type Classifier for Child-Centered Daylong RecordingsMarvin Lavechin, Ruben Bousbib, Hervé Bredin, Emmanuel Dupoux, Alejandrina Cristià. 3072-3076 [doi]

Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding SpaceChao Peng, Xihong Wu, Tianshu Qu. 3077-3081 [doi]

Audio-Visual Multi-Speaker Tracking Based on the GLMB FrameworkShoufeng Lin, Xinyuan Qian. 3082-3086 [doi]

Towards Speech Robustness for Acoustic Scene ClassificationShuo Liu, Andreas Triantafyllopoulos, Zhao Ren, Björn W. Schuller. 3087-3091 [doi]

Identify Speakers in Cocktail Parties with End-to-End AttentionJunzhe Zhu, Mark Hasegawa-Johnson, Leda Sari. 3092-3096 [doi]

Multi-Talker ASR for an Unknown Number of Sources: Joint Training of Source Counting, Separation and ASRThilo von Neumann, Christoph Böddeker, Lukas Drude, Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani, Reinhold Haeb-Umbach. 3097-3101 [doi]

Attentive Convolutional Recurrent Neural Network Using Phoneme-Level Acoustic Representation for Rare Sound Event DetectionShreya G. Upadhyay, Bo-Hao Su, Chi-Chun Lee. 3102-3106 [doi]

Detecting and Counting Overlapping Speakers in Distant Speech ScenariosSamuele Cornell, Maurizio Omologo, Stefano Squartini, Emmanuel Vincent 0001. 3107-3111 [doi]

All-in-One Transformer: Unifying Speech Recognition, Audio Tagging, and Event DetectionNiko Moritz, Gordon Wichern, Takaaki Hori, Jonathan Le Roux. 3112-3116 [doi]

Towards Silent Paralinguistics: Deriving Speaking Mode and Speaker ID from Electromyographic SignalsLorenz Diener, Shahin Amiriparian, Catarina Botelho, Kevin Scheck, Dennis Küster, Isabel Trancoso, Björn W. Schuller, Tanja Schultz. 3117-3121 [doi]

Predicting Collaborative Task Performance Using Graph Interlocutor Acoustic Network in Small Group InteractionShun-Chang Zhong, Bo-Hao Su, Wei Huang, Yi-Ching Liu, Chi-Chun Lee. 3122-3126 [doi]

Very Short-Term Conflict Intensity Estimation Using Fisher VectorsGábor Gosztolya. 3127-3131 [doi]

Gaming Corpus for Studying Social ScreamsHiroki Mori, Yuki Kikuchi. 3132-3135 [doi]

Speaker Discrimination in Humans and Machines: Effects of Speaking Style VariabilityAmber Afshan, Jody Kreiman, Abeer Alwan. 3136-3140 [doi]

Automatic Prediction of Confidence Level from Children's Oral Reading RecordingsKamini Sabu, Preeti Rao. 3141-3145 [doi]

Towards a Comprehensive Assessment of Speech Intelligibility for Pathological SpeechWei Xue, Viviana Mendoza Ramos, W. Harmsen, Catia Cucchiarini, R. W. N. M. van Hout, Helmer Strik. 3146-3150 [doi]

Effects of Communication Channels and Actor's Gender on Emotion Identification by Native Mandarin SpeakersYi Lin, Hongwei Ding. 3151-3155 [doi]

Detection of Voicing and Place of Articulation of Fricatives with Deep Learning in a Virtual Speech and Language Therapy TutorIvo Anjos, Maxine Eskénazi, Nuno Marques 0001, Margarida Grilo, Isabel Guimarães, João Magalhães, Sofia Cavaco. 3156-3160 [doi]

Unsupervised Learning for Sequence-to-Sequence Text-to-Speech for Low-Resource LanguagesHaitong Zhang, Yue Lin. 3161-3165 [doi]

Conditional Spoken Digit Generation with StyleGANKasperi Palkama, Lauri Juvela, Alexander Ilin. 3166-3170 [doi]

Towards Universal Text-to-SpeechJingzhou Yang, Lei He. 3171-3175 [doi]

Speaker-Independent Mel-Cepstrum Estimation from Articulator Movements Using D-Vector InputKouichi Katsurada, Korin Richmond. 3176-3180 [doi]

Enhancing Monotonicity for Robust Autoregressive Transformer TTSXiangyu Liang, Zhiyong Wu, Runnan Li, Yanqing Liu, Sheng Zhao, Helen Meng. 3181-3185 [doi]

Incremental Text to Speech for Neural Sequence-to-Sequence Models Using Reinforcement LearningDevang S. Ram Mohan, Raphael Lenain, Lorenzo Foglianti, Tian Huey Teh, Marlene Staib, Alexandra Torresquintero, Jiameng Gao. 3186-3190 [doi]

Semi-Supervised Learning for Multi-Speaker Text-to-Speech Synthesis Using Discrete Speech RepresentationTao Tu, Yuan-Jui Chen, Alexander H. Liu, Hung-yi Lee. 3191-3195 [doi]

Learning Joint Articulatory-Acoustic Representations with Normalizing FlowsPramit Saha, Sidney S. Fels. 3196-3200 [doi]

Investigating Effective Additional Contextual Factors in DNN-Based Spontaneous Speech SynthesisYuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari. 3201-3205 [doi]

Hider-Finder-Combiner: An Adversarial Architecture for General Speech Signal ModificationJacob J. Webber, Olivier Perrotin, Simon King. 3206-3210 [doi]

Wav2Spk: A Simple DNN Architecture for Learning Speaker Embeddings from WaveformsWei-Wei Lin, Man-Wai Mak. 3211-3215 [doi]

How Does Label Noise Affect the Quality of Speaker Embeddings?Minh Pham, Zeqian Li, Jacob Whitehill. 3216-3220 [doi]

A Comparative Re-Assessment of Feature Extractors for Deep Speaker EmbeddingsXuechen Liu, Md. Sahidullah, Tomi Kinnunen. 3221-3225 [doi]

Speaker Representation Learning Using Global Context Guided Channel and Time-Frequency TransformationsWei Xia, John H. L. Hansen. 3226-3230 [doi]

Intra-Class Variation Reduction of Speaker Representation in Disentanglement FrameworkYoohwan Kwon, Soo-Whan Chung, Hong-Goo Kang. 3231-3235 [doi]

Compact Speaker Embedding: lrx-VectorMunir Georges, Jonathan Huang, Tobias Bocklet. 3236-3240 [doi]

Cosine-Distance Virtual Adversarial Training for Semi-Supervised Speaker-Discriminative Acoustic EmbeddingsFlorian L. Kreyssig, Philip C. Woodland. 3241-3245 [doi]

Deep Speaker Embedding with Long Short Term Centroid Learning for Text-Independent Speaker VerificationJunyi Peng, Rongzhi Gu, Yuexian Zou. 3246-3250 [doi]

Neural Discriminant Analysis for Deep Speaker EmbeddingLantian Li, Dong Wang, Thomas Fang Zheng. 3251-3255 [doi]

Learning Speaker Embedding from Text-to-SpeechJaejin Cho, Piotr Zelasko, Jesús Villalba, Shinji Watanabe 0001, Najim Dehak. 3256-3260 [doi]

Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency AttentionYan Zhao 0010, DeLiang Wang. 3261-3265 [doi]

On Loss Functions and Recurrency Training for GAN-Based Speech Enhancement SystemsZhuohuang Zhang, Chengyun Deng, Yi Shen 0008, Donald S. Williamson, Yongtao Sha, Yi Zhang, Hui Song, Xiangang Li. 3266-3270 [doi]

Self-Supervised Adversarial Multi-Task Learning for Vocoder-Based Monaural Speech EnhancementZhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang. 3271-3275 [doi]

Deep Speech Inpainting of Time-Frequency MasksMikolaj Kegler, Pierre Beckmann, Milos Cernak. 3276-3280 [doi]

Real-Time Single-Channel Deep Neural Network-Based Speech Enhancement on Edge DevicesNikhil Shankar, Gautam Shreedhar Bhat, Issa M. S. Panahi. 3281-3285 [doi]

Improved Speech Enhancement Using a Time-Domain GAN with Mask LearningJu Lin, Sufeng Niu, Adriaan J. van Wijngaarden, Jerome L. McClendon, Melissa C. Smith, Kuang-Ching Wang. 3286-3290 [doi]

Real Time Speech Enhancement in the Waveform DomainAlexandre Défossez, Gabriel Synnaeve, Yossi Adi. 3291-3295 [doi]

Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming NetworksMichal Romaniuk, Piotr Masztalski, Karol Piaskowski, Mateusz Matuszewski. 3296-3300 [doi]

Multi-Stream Attention-Based BLSTM with Feature Segmentation for Speech Emotion RecognitionYuya Chiba, Takashi Nose, Akinori Ito. 3301-3305 [doi]

Microphone Array Post-Filter for Target Speech Enhancement Without a Prior Information of Point InterferersGuanjun Li, Shan Liang, Shuai Nie, Wenju Liu, Zhanlei Yang, Longshuai Xiao. 3306-3310 [doi]

Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction Using Magnitude Spectrogram as ReferenceAtsuo Hiroe. 3311-3315 [doi]

The Method of Random Directions Optimization for Stereo Audio Source SeparationOleg Golokolenko, Gerald Schuller. 3316-3320 [doi]

Gated Recurrent Fusion of Spatial and Spectral Features for Multi-Channel Speech Separation with Deep Embedding RepresentationsCunhang Fan, Jianhua Tao, Bin Liu, Jiangyan Yi, Zhengqi Wen. 3321-3325 [doi]

Generalized Minimal Distortion Principle for Blind Source SeparationRobin Scheibler. 3326-3330 [doi]

A Lightweight Model Based on Separable Convolution for Speech Emotion RecognitionYing Zhong, Ying Hu, Hao Huang, Wushour Silamu. 3331-3335 [doi]

Meta Multi-Task Learning for Speech Emotion RecognitionRuichu Cai, Kaibin Guo, Boyan Xu, Xiaoyan Yang, Zhenjie Zhang. 3336-3340 [doi]

GEV Beamforming Supported by DOA-Based Masks Generated on Pairs of MicrophonesFrançois Grondin, Jean-Samuel Lauzon, Jonathan Vincent, François Michaud. 3341-3345 [doi]

Accurate Detection of Wake Word Start and End Using a CNNChristin Jose, Yuriy Mishchenko, Thibaud Sénéchal, Anish Shah, Alex Escott, Shiv Naga Prasad Vitaladevuni. 3346-3350 [doi]

Hybrid Transformer/CTC Networks for Hardware Efficient Voice TriggeringSaurabh Adya, Vineet Garg, Siddharth Sigtia, Pramod Simha, Chandra Dhir. 3351-3355 [doi]

MatchboxNet: 1D Time-Channel Separable Convolutional Neural Network Architecture for Speech Commands RecognitionSomshubra Majumdar, Boris Ginsburg. 3356-3360 [doi]

Iterative Compression of End-to-End ASR Model Using AutoMLAbhinav Mehrotra, Lukasz Dudziak, Jinsu Yeo, Young-Yoon Lee, Ravichander Vipperla, Mohamed S. Abdelfattah, Sourav Bhattacharya, Samin Ishtiaq, Alberto Gil C. P. Ramos, SangJeong Lee, Daehyun Kim, Nicholas D. Lane. 3361-3365 [doi]

Quantization Aware Training with Absolute-Cosine Regularization for Automatic Speech RecognitionHieu Duy Nguyen, Anastasios Alexandridis, Athanasios Mouchtaris. 3366-3370 [doi]

Streaming On-Device End-to-End ASR System for Privacy-Sensitive Voice-TypingAbhinav Garg, Gowtham P. Vadisetti, Dhananjaya Gowda, Sichen Jin, Aditya Jayasimha, Youngho Han, Jiyeon Kim, JunMo Park, Kwangyoun Kim, SooYeon Kim, Young-Yoon Lee, Kyungbo Min, Chanwoo Kim. 3371-3375 [doi]

Scaling Up Online Speech Recognition Using ConvNetsVineel Pratap, Qiantong Xu, Jacob Kahn, Gilad Avidov, Tatiana Likhomanenko, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, Ronan Collobert. 3376-3380 [doi]

Listen Attentively, and Spell Once: Whole Sentence Generation via a Non-Autoregressive Architecture for Low-Latency Speech RecognitionYe Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang. 3381-3385 [doi]

Rescore in a Flash: Compact, Cache Efficient Hashing Data Structures for n-Gram Language ModelsGrant P. Strimel, Ariya Rastrow, Gautam Tiwari, Adrien Piérard, Jon Webb. 3386-3390 [doi]

Multi-Speaker Emotion Conversion via Latent Variable Regularization and a Chained Encoder-Decoder-Predictor NetworkRavi Shankar, Hsi-Wei Hsieh, Nicolas Charon, Archana Venkataraman. 3391-3395 [doi]

Non-Parallel Emotion Conversion Using a Deep-Generative Hybrid Network and an Adversarial Pair DiscriminatorRavi Shankar, Jacob Sager, Archana Venkataraman. 3396-3400 [doi]

Laughter Synthesis: Combining Seq2seq Modeling with Transfer LearningNoé Tits, Kevin El Haddad, Thierry Dutoit. 3401-3405 [doi]

Nonparallel Emotional Speech Conversion Using VAE-GANYuexin Cao, Zhengchen Liu, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao. 3406-3410 [doi]

Principal Style Components: Expressive Style Control and Cross-Speaker Transfer in Neural TTSAlexander Sorin, Slava Shechtman, Ron Hoory. 3411-3415 [doi]

Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice ConversionKun Zhou, Berrak Sisman, Mingyang Zhang 0003, Haizhou Li 0001. 3416-3420 [doi]

Controlling the Strength of Emotions in Speech-Like Emotional Sound Generated by WaveNetKento Matsumoto, Sunao Hara, Masanobu Abe. 3421-3425 [doi]

Learning Syllable-Level Discrete Prosodic Representation for Expressive Speech GenerationGuangyan Zhang, Ying Qin, Tan Lee. 3426-3430 [doi]

Simultaneous Conversion of Speaker Identity and Emotion Based on Multiple-Domain Adaptive RBMTakuya Kishida, Shin Tsukamoto, Toru Nakashika. 3431-3435 [doi]

Exploiting Deep Sentential Context for Expressive End-to-End Speech SynthesisFengyu Yang, Shan Yang, Qinghua Wu, Yujun Wang, Lei Xie. 3436-3440 [doi]

Hierarchical Multi-Grained Generative Model for Expressive Speech SynthesisYukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda. 3441-3445 [doi]

GAN-Based Data Generation for Speech Emotion RecognitionSefik Emre Eskimez, Dimitrios Dimitriadis, Robert Gmyr, Kenichi Kumanati. 3446-3450 [doi]

The Phonetic Bases of Vocal Expressed Emotion: Natural versus ActedHira Dhamyal, Shahan Ali Memon, Bhiksha Raj, Rita Singh. 3451-3455 [doi]

The INTERSPEECH 2020 Far-Field Speaker Verification ChallengeXiaoyi Qin, Ming Li, Hui Bu, Wei Rao, Rohan Kumar Das, Shrikanth Narayanan, Haizhou Li 0001. 3456-3460 [doi]

Deep Embedding Learning for Text-Dependent Speaker VerificationPeng Zhang, Peng Hu, Xueliang Zhang. 3461-3465 [doi]

STC-Innovation Speaker Recognition Systems for Far-Field Speaker Verification Challenge 2020Aleksei Gusev, Vladimir Volokhov, Alisa Vinogradova, Tseren Andzhukaev, Andrey Shulipa, Sergey Novoselov, Timur Pekhovsky, Alexander Kozlov. 3466-3470 [doi]

NPU Speaker Verification System for INTERSPEECH 2020 Far-Field Speaker Verification ChallengeLi Zhang, Jian Wu, Lei Xie. 3471-3475 [doi]

The JD AI Speaker Verification System for the FFSVC 2020 ChallengeYing Tong, Wei Xue, Shanluo Huang, Lu Fan, Chao Zhang 0031, Guohong Ding, Xiaodong He 0002. 3476-3480 [doi]

FaceFilter: Audio-Visual Speech Separation Using Still ImagesSoo-Whan Chung, Soyeon Choe, Joon Son Chung, Hong-Goo Kang. 3481-3485 [doi]

Seeing Voices and Hearing Voices: Learning Discriminative Embeddings Using Cross-Modal Self-SupervisionSoo-Whan Chung, Hong-Goo Kang, Joon Son Chung. 3486-3490 [doi]

Fusion Architectures for Word-Based Audiovisual Speech RecognitionMichael Wand 0002, Jürgen Schmidhuber. 3491-3495 [doi]

Audio-Visual Multi-Channel Recognition of Overlapped SpeechJianwei Yu, Bo Wu, Rongzhi Gu, Shi-Xiong Zhang, LianWu Chen, Yong Xu, Meng Yu 0003, Dan Su 0002, Dong Yu, Xunying Liu, Helen Meng. 3496-3500 [doi]

TMT: A Transformer-Based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-Aware DialogWubo Li, Dongwei Jiang, Wei Zou, Xiangang Li. 3501-3505 [doi]

Should we Hard-Code the Recurrence Concept or Learn it Instead ? Exploring the Transformer Architecture for Audio-Visual Speech RecognitionGeorge Sterpu, Christian Saam, Naomi Harte. 3506-3509 [doi]

Resource-Adaptive Deep Learning for Visual Speech RecognitionAlexandros Koumparoulis, Gerasimos Potamianos, Samuel Thomas 0001, Edmilson Da Silva Morais. 3510-3514 [doi]

Speech-Image Semantic Alignment Does Not Depend on Any Prior Classification TasksMasood S. Mortazavi. 3515-3519 [doi]

Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous FusionHong Liu, Zhan Chen, Bing Yang. 3520-3524 [doi]

Caption Alignment for Low Resource Audio-Visual DataVighnesh Reddy Konda, Mayur Warialani, Rakesh Prasanth Achari, Varad Bhatnagar, Jayaprakash Akula, Preethi Jyothi, Ganesh Ramakrishnan, Gholamreza Haffari, Pankaj Singh. 3525-3529 [doi]

Vocoder-Based Speech Synthesis from Silent VideosDaniel Michelsanti, Olga Slizovskaia, Gloria Haro, Emilia Gómez, Zheng-Hua Tan, Jesper Jensen 0001. 3530-3534 [doi]

Quasi-Periodic Parallel WaveGAN Vocoder: A Non-Autoregressive Pitch-Dependent Dilated Convolution Model for Parametric Speech GenerationYi-Chiao Wu, Tomoki Hayashi, Takuma Okamoto, Hisashi Kawai, Tomoki Toda. 3535-3539 [doi]

A Cyclical Post-Filtering Approach to Mismatch Refinement of Neural Vocoder for Text-to-Speech SystemsYi-Chiao Wu, Patrick Lumban Tobing, Kazuki Yasuhara, Noriyuki Matsunaga, Yamato Ohtani, Tomoki Toda. 3540-3544 [doi]

Audio Dequantization for High Fidelity Audio Generation in Flow-Based Neural VocoderHyun-Wook Yoon, Sang-Hoon Lee, Hyeong-Rae Noh, Seong-Whan Lee. 3545-3549 [doi]

StrawNet: Self-Training WaveNet for TTS in Low-Data RegimesManish Sharma, Tom Kenter, Rob Clark. 3550-3554 [doi]

An Efficient Subband Linear Prediction for LPCNet-Based Neural SynthesisYang Cui, Xi Wang, Lei He, Frank K. Soong. 3555-3559 [doi]

Reverberation Modeling for Source-Filter-Based Neural VocoderYang Ai, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling. 3560-3564 [doi]

Bunched LPCNet: Vocoder for Low-Cost Neural Text-To-Speech SystemsRavichander Vipperla, Sangjun Park, Kihyun Choo, Samin Ishtiaq, Kyoungbo Min, Sourav Bhattacharya, Abhinav Mehrotra, Alberto Gil C. P. Ramos, Nicholas D. Lane. 3565-3569 [doi]

Neural Text-to-Speech with a Modeling-by-Generation Excitation VocoderEunwoo Song, Min-Jae Hwang, Ryuichi Yamamoto, Jin Seob Kim, Ohsung Kwon, Jae Min Kim. 3570-3574 [doi]

SpeedySpeech: Efficient Neural Speech SynthesisJan Vainer, Ondrej Dusek. 3575-3579 [doi]

Semi-Supervised End-to-End ASR via Teacher-Student Learning with Conditional Posterior DistributionZi-qiang Zhang, Yan Song, Jian-Shu Zhang, Ian Vince McLoughlin, Li-Rong Dai 0001. 3580-3584 [doi]

Leveraging Unlabeled Speech for Sequence Discriminative Training of Acoustic ModelsAshtosh Sapru, Sri Garimella. 3585-3589 [doi]

Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization CapabilityJinyu Li, Rui Zhao, Zhong Meng, Yanqing Liu, Wenning Wei, Sarangarajan Parthasarathy, Vadim Mazalov, Zhenghao Wang, Lei He, Sheng Zhao, Yifan Gong. 3590-3594 [doi]

End-to-End ASR with Adaptive Span Self-AttentionXuankai Chang, Aswin Shanmugam Subramanian, Pengcheng Guo, Shinji Watanabe 0001, Yuya Fujita, Motoi Omachi. 3595-3599 [doi]

Subword Regularization: An Analysis of Scalability and Generalization for End-to-End Automatic Speech RecognitionEgor Lakomkin, Jahn Heymann, Ilya Sklyar, Simon Wiesler. 3600-3604 [doi]

Early Stage LM Integration Using Local and Global Log-Linear CombinationWilfried Michel, Ralf Schlüter, Hermann Ney. 3605-3609 [doi]

ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global ContextWei Han, Zhengdong Zhang, Yu Zhang 0033, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu. 3610-3614 [doi]

Emitting Word Timings with End-to-End ModelsTara N. Sainath, Ruoming Pang, David Rybach, Basi García, Trevor Strohman. 3615-3619 [doi]

Low-Latency Sequence-to-Sequence Speech Recognition and Translation by Partial Hypothesis SelectionDanni Liu, Gerasimos Spanakis, Jan Niehues. 3620-3624 [doi]

Neural Language Modeling with Implicit Cache PointersKe Li, Daniel Povey, Sanjeev Khudanpur. 3625-3629 [doi]

Finnish ASR with Deep Transformer ModelsAbhilash Jain, Aku Rouhe, Stig-Arne Grönroos, Mikko Kurimo. 3630-3634 [doi]

Distilling the Knowledge of BERT for Sequence-to-Sequence ASRHayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 3635-3639 [doi]

Stochastic Convolutional Recurrent Networks for Language ModelingJen-Tzung Chien, Yu-Min Huang. 3640-3644 [doi]

Investigation of Large-Margin Softmax in Neural Language ModelingJingjing Huo, Yingbo Gao, Weiyue Wang, Ralf Schlüter, Hermann Ney. 3645-3649 [doi]

Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language ModelDa-Rong Liu, Chunxi Liu, Frank Zhang, Gabriel Synnaeve, Yatharth Saraf, Geoffrey Zweig. 3650-3654 [doi]

Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask PredictYosuke Higuchi, Shinji Watanabe 0001, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi. 3655-3659 [doi]

Insertion-Based Modeling for End-to-End Automatic Speech RecognitionYuya Fujita, Shinji Watanabe 0001, Motoi Omachi, Xuankai Chang. 3660-3664 [doi]

Voice Activity Detection in the Wild via Weakly Supervised Sound Event DetectionYefei Chen, Heinrich Dinkel, Mengyue Wu, Kai Yu 0004. 3665-3669 [doi]

Dual Attention in Time and Frequency Domain for Voice Activity DetectionJoohyung Lee, Youngmoon Jung, Hoirin Kim. 3670-3674 [doi]

Polishing the Classical Likelihood Ratio Test by Supervised Learning for Voice Activity DetectionTianjiao Xu, Hui Zhang, Xueliang Zhang. 3675-3679 [doi]

A Noise Robust Technique for Detecting Vowels in Speech SignalsAvinash Kumar, S. Shahnawazuddin, Waquar Ahmad. 3680-3684 [doi]

End-to-End Domain-Adversarial Voice Activity DetectionMarvin Lavechin, Marie-Philippe Gill, Ruben Bousbib, Hervé Bredin, Leibny Paola García-Perera. 3685-3689 [doi]

VOP Detection in Variable Speech Rate ConditionAyush Agarwal, Jagabandhu Mishra, S. R. Mahadeva Prasanna. 3690-3694 [doi]

MLNET: An Adaptive Multiple Receptive-Field Attention Neural Network for Voice Activity DetectionZhenpeng Zheng, Jianzong Wang, Ning Cheng, Jian Luo, Jing Xiao. 3695-3699 [doi]

Self-Supervised Contrastive Learning for Unsupervised Phoneme SegmentationFelix Kreuk, Joseph Keshet, Yossi Adi. 3700-3704 [doi]

That Sounds Familiar: An Analysis of Phonetic Representations Transfer Across LanguagesPiotr Zelasko, Laureano Moro-Velázquez, Mark Hasegawa-Johnson, Odette Scharenborg, Najim Dehak. 3705-3709 [doi]

Analyzing Read Aloud Speech by Primary School Pupils: Insights for Research and DevelopmentS. Limonard, Catia Cucchiarini, R. W. N. M. van Hout, Helmer Strik. 3710-3714 [doi]

Discovering Articulatory Speech Targets from Synthesized Random BabbleHeikki Rasilo, Yannick Jadoul. 3715-3719 [doi]

Speaker Dependent Acoustic-to-Articulatory Inversion Using Real-Time MRI of the Vocal TractTamás Gábor Csapó. 3720-3724 [doi]

Acoustic-to-Articulatory Inversion with Deep Autoregressive Articulatory-WaveNetNarjes Bozorg, Michael T. Johnson. 3725-3729 [doi]

Using Silence MR Image to Synthesise Dynamic MRI Vocal Tract Data of CVIoannis K. Douros, Ajinkya Kulkarni, Chrysanthi Dourou, Yu Xie, Jacques Felblinger, Karyna Isaieva, Pierre-André Vuissoz, Yves Laprie. 3730-3734 [doi]

Quantification of Transducer Misalignment in Ultrasound Tongue ImagingTamás Gábor Csapó, Kele Xu. 3735-3739 [doi]

Independent and Automatic Evaluation of Speaker-Independent Acoustic-to-Articulatory ReconstructionMaud Parrot, Juliette Millet, Ewan Dunbar. 3740-3744 [doi]

CSL-EMG_Array: An Open Access Corpus for EMG-to-Speech ConversionLorenz Diener, Mehrdad Roustay Vishkasougheh, Tanja Schultz. 3745-3749 [doi]

Links Between Production and Perception of Glottalisation in Individual Australian English Speaker/ListenersJoshua Penney, Felicity Cox, Anita Szakay. 3750-3754 [doi]

Jointly Fine-Tuning "BERT-Like" Self Supervised Models to Improve Multimodal Speech Emotion RecognitionShamane Siriwardhana, Andrew Reis, Rivindu Weerasekera, Suranga Nanayakkara. 3755-3759 [doi]

Vector-Quantized Autoregressive Predictive CodingYu-An Chung, Hao Tang 0002, James R. Glass. 3760-3764 [doi]

Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention NetworksXingchen Song, Guangsen Wang, Yiheng Huang, Zhiyong Wu, Dan Su, Helen Meng. 3765-3769 [doi]

Large Scale Weakly and Semi-Supervised Learning for Low-Resource Video ASRKritika Singh, Vimal Manohar, Alex Xiao, Sergey Edunov, Ross B. Girshick, Vitaliy Liptchinsky, Christian Fuegen, Yatharth Saraf, Geoffrey Zweig, Abdelrahman Mohamed. 3770-3774 [doi]

Sequence-Level Self-Learning with Multiple HypothesesKen'ichi Kumatani, Dimitrios Dimitriadis, Yashesh Gaur, Robert Gmyr, Sefik Emre Eskimez, Jinyu Li, Michael Zeng. 3775-3779 [doi]

Defense for Black-Box Attacks on Anti-Spoofing Models by Self-Supervised LearningHaibin Wu, Andy T. Liu, Hung-yi Lee. 3780-3784 [doi]

Understanding Self-Attention of Self-Supervised Audio TransformersShu-Wen Yang, Andy T. Liu, Hung-yi Lee. 3785-3789 [doi]

A Convolutional Deep Markov Model for Unsupervised Speech Representation LearningSameer Khurana, Antoine Laurent, Wei-Ning Hsu, Jan Chorowski, Adrian Lancucki, Ricard Marxer, James R. Glass. 3790-3794 [doi]

Automatic Speech Recognition for ILSE-Interviews: Longitudinal Conversational Speech Recordings Covering Aging and Cognitive DeclineAyimunishagu Abulimiti, Jochen Weiner, Tanja Schultz. 3795-3799 [doi]

Dynamic Margin Softmax Loss for Speaker VerificationDao Zhou, Longbiao Wang, Kong-Aik Lee, Yibo Wu, Meng Liu, Jianwu Dang, Jianguo Wei. 3800-3804 [doi]

On Parameter Adaptation in Softmax-Based Cross-Entropy Loss for Improved Convergence Speed and Accuracy in DNN-Based Speaker RecognitionMagdalena Rybicka, Konrad Kowalczyk. 3805-3809 [doi]

Training Speaker Enrollment Models by Network OptimizationVictoria Mingote, Antonio Miguel, Alfonso Ortega Giménez, Eduardo Lleida. 3810-3814 [doi]

Supervised Domain Adaptation for Text-Independent Speaker Verification Using Limited DataSeyyed Saeed Sarfjoo, Srikanth R. Madikeri, Petr Motlícek, Sébastien Marcel. 3815-3819 [doi]

Angular Margin Centroid Loss for Text-Independent Speaker RecognitionYuheng Wei, Junzhao Du, Hui Liu 0006. 3820-3824 [doi]

Domain-Invariant Speaker Vector Projection by Model-Agnostic Meta-LearningJiawen Kang, Ruiqi Liu, Lantian Li, Yunqi Cai, Dong Wang, Thomas Fang Zheng. 3825-3829 [doi]

ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker VerificationBrecht Desplanques, Jenthe Thienpondt, Kris Demuynck. 3830-3834 [doi]

Length- and Noise-Aware Training Techniques for Short-Utterance Speaker RecognitionWenda Chen, Jonathan Huang, Tobias Bocklet. 3835-3839 [doi]

Spoken Language 'Grammatical Error Correction'Yiting Lu, Mark J. F. Gales, Yu Wang 0027. 3840-3844 [doi]

Mixtures of Deep Neural Experts for Automated Speech ScoringSara Papi, Edmondo Trentin, Roberto Gretter, Marco Matassoni, Daniele Falavigna. 3845-3849 [doi]

Targeted Content Feedback in Spoken Language Learning and AssessmentXinhao Wang, Klaus Zechner, Christopher Hamill. 3850-3854 [doi]

Universal Adversarial Attacks on Spoken Language Assessment SystemsVyas Raina, Mark J. F. Gales, Kate M. Knill. 3855-3859 [doi]

Ensemble Approaches for Uncertainty in Spoken Language AssessmentXixin Wu, Kate M. Knill, Mark J. F. Gales, Andrey Malinin. 3860-3864 [doi]

Shadowability Annotation with Fine Granularity on L2 Utterances and its Improvement with Native Listeners' Script-ShadowingZhenchao Lin, Ryo Takashima, Daisuke Saito, Nobuaki Minematsu, Noriko Nakanishi. 3865-3869 [doi]

ASR-Based Evaluation and Feedback for Individualized Reading PracticeYu Bai, Ferdy Hubers, Catia Cucchiarini, Helmer Strik. 3870-3874 [doi]

Domain Adversarial Neural Networks for Dysarthric Speech RecognitionDominika Woszczyk, Stavros Petridis, David Millard. 3875-3879 [doi]

Automatic Estimation of Pathological Voice Quality Based on Recurrent Neural Network Using Amplitude and Phase SpectrogramShunsuke Hidaka, Yogaku Lee, Kohei Wakamiya, Takashi Nakagawa, Tokihiko Kaburagi. 3880-3884 [doi]

Stochastic Curiosity Exploration for Dialogue SystemsJen-Tzung Chien, Po-Chien Hsu. 3885-3889 [doi]

Conditional Response Augmentation for Dialogue Using Knowledge DistillationMyeongho Jeong, Seungtaek Choi, Hojae Han, KyungHo Kim, Seung-won Hwang. 3890-3894 [doi]

Prototypical Q Networks for Automatic Conversational Diagnosis and Few-Shot New Disease AdaptionHongyin Luo, Shang-wen Li, James R. Glass. 3895-3899 [doi]

End-to-End Task-Oriented Dialog System Through Template Slot Value GenerationTeakgyu Hong, Oh-Woog Kwon, Young Kil Kim. 3900-3904 [doi]

Task-Oriented Dialog Generation with Enhanced Entity RepresentationZhenhao He, Jiachun Wang, Jian Chen 0011. 3905-3909 [doi]

End-to-End Speech-to-Dialog-Act RecognitionViet-Trung Dang, Tianyu Zhao, Sei Ueno, Hirofumi Inaguma, Tatsuya Kawahara. 3910-3914 [doi]

Discriminative Transfer Learning for Optimizing ASR and Semantic Labeling in Task-Oriented Spoken DialogYao Qian, Yu Shi, Michael Zeng. 3915-3919 [doi]

Datasets and Benchmarks for Task-Oriented Log Dialogue Ranking TaskXinnuo Xu, Yizhe Zhang, Lars Liden, Sungjin Lee. 3920-3924 [doi]

A Semi-Blind Source Separation Approach for Speech DereverberationZiteng Wang, Yueyue Na, Zhang Liu, Yun Li, Biao Tian, Qiang Fu 0001. 3925-3929 [doi]

Virtual Acoustic Channel Expansion Based on Neural Networks for Weighted Prediction Error-Based Speech DereverberationJoon-Young Yang, Joon-Hyuk Chang. 3930-3934 [doi]

SkipConvNet: Skip Convolutional Neural Network for Speech Dereverberation Using Optimally Smoothed Spectral MappingVinay Kothapally, Wei Xia, Shahram Ghorbani, John H. L. Hansen, Wei Xue, Jing Huang 0019. 3935-3939 [doi]

A Robust and Cascaded Acoustic Echo Cancellation Based on Deep LearningChenggang Zhang, Xueliang Zhang. 3940-3944 [doi]

Generative Adversarial Network Based Acoustic Echo CancellationYi Zhang, Chengyun Deng, Shiqian Ma, Yongtao Sha, Hui Song, Xiangang Li. 3945-3949 [doi]

Nonlinear Residual Echo Suppression Using a Recurrent Neural NetworkLukas Pfeifenberger, Franz Pernkopf. 3950-3954 [doi]

Independent Echo Path Modeling for Stereophonic Acoustic Echo CancellationYi Gao, Ian Liu, J. Zheng, Cheng Luo, Bin Li. 3955-3958 [doi]

Nonlinear Residual Echo Suppression Based on Multi-Stream Conv-TasNetHongsheng Chen, Teng Xiang, Kai Chen, Jing Lu. 3959-3963 [doi]

Improving Partition-Block-Based Acoustic Echo Canceler in Under-Modeling ScenariosWenzhi Fan, Jing Lu. 3964-3968 [doi]

Attention Wave-U-Net for Acoustic Echo CancellationJung Hee Kim, Joon-Hyuk Chang. 3969-3973 [doi]

From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback ConstraintZexin Cai, Chuxiong Zhang, Ming Li. 3974-3978 [doi]

Can Speaker Augmentation Improve Multi-Speaker End-to-End TTS?Erica Cooper, Cheng-I Lai, Yusuke Yasuda, Junichi Yamagishi. 3979-3983 [doi]

Non-Autoregressive End-to-End TTS with Coarse-to-Fine DecodingTao Wang, Xuefei Liu, Jianhua Tao, Jiangyan Yi, Ruibo Fu, Zhengqi Wen. 3984-3988 [doi]

Bi-Level Speaker Supervision for One-Shot Speech SynthesisTao Wang, Jianhua Tao, Ruibo Fu, Jiangyan Yi, Zhengqi Wen, Chunyu Qiang. 3989-3993 [doi]

Naturalness Enhancement with Linguistic Information in End-to-End TTS Using Unsupervised Parallel EncodingAlex Peiró Lilja, Mireia Farrús. 3994-3998 [doi]

MoBoAligner: A Neural Alignment Model for Non-Autoregressive TTS with Monotonic Boundary SearchNaihan Li, Shujie Liu 0001, Yanqing Liu, Sheng Zhao, Ming Liu, Ming Zhou. 3999-4003 [doi]

JDI-T: Jointly Trained Duration Informed Transformer for Text-To-Speech without Explicit AlignmentDan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon. 4004-4008 [doi]

End-to-End Text-to-Speech Synthesis with Unaligned Multiple Language Units Based on AttentionMasashi Aso, Shinnosuke Takamichi, Hiroshi Saruwatari. 4009-4013 [doi]

Attention Forcing for Speech SynthesisQingyun Dou, Joshua Efiong, Mark J. F. Gales. 4014-4018 [doi]

Testing the Limits of Representation Mixing for Pronunciation Correction in End-to-End Speech SynthesisJason Fong, Jason Taylor, Simon King. 4019-4023 [doi]

MultiSpeech: Multi-Speaker Text to Speech with TransformerMingjian Chen, Xu Tan 0003, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin. 4024-4028 [doi]

Exploiting Conic Affinity Measures to Design Speech Enhancement Systems Operating in Unseen Noise ConditionsPavlos Papadopoulos, Shrikanth Narayanan. 4029-4033 [doi]

Adversarial Dictionary Learning for Monaural Speech EnhancementYunyun Ji, Longting Xu, Wei-Ping Zhu. 4034-4038 [doi]

Semi-Supervised Self-Produced Speech Enhancement and Suppression Based on Joint Source Modeling of Air- and Body-Conducted Signals Using Variational AutoencoderShogo Seki, Moe Takada, Tomoki Toda. 4039-4043 [doi]

Spatial Covariance Matrix Estimation for Reverberant Speech with Application to Speech EnhancementRan Weisman, Vladimir Tourbabin, Paul Calamia, Boaz Rafaely. 4044-4048 [doi]

A Cross-Channel Attention-Based Wave-U-Net for Multi-Channel Speech EnhancementMinh-Tri Ho, Jinyoung Lee, Bong-Ki Lee, Dong-Hoon Yi, Hong-Goo Kang. 4049-4053 [doi]

TinyLSTMs: Efficient Neural Speech Enhancement for Hearing AidsIgor Fedorov, Marko Stamenovic, Carl Jensen, Li-Chia Yang, Ari Mandell, Yiming Gan, Matthew Mattina, Paul N. Whatmough. 4054-4058 [doi]

Intelligibility Enhancement Based on Speech Waveform Modification Using Hearing ImpairmentShu Hikosaka, Shogo Seki, Tomoki Hayashi, Kazuhiro Kobayashi, Kazuya Takeda, Hideki Banno, Tomoki Toda. 4059-4063 [doi]

Speaker and Phoneme-Aware Speech Bandwidth Extension with Residual Dual-Path NetworkNana Hou, Chenglin Xu, Van Tung Pham, Joey Tianyi Zhou, Eng Siong Chng, Haizhou Li 0001. 4064-4068 [doi]

Multi-Task Learning for End-to-End Noise-Robust Bandwidth ExtensionNana Hou, Chenglin Xu, Joey Tianyi Zhou, Eng Siong Chng, Haizhou Li 0001. 4069-4073 [doi]

Phase-Aware Music Super-Resolution Using Generative Adversarial NetworksShichao Hu, Bin Zhang, Beici Liang, Ethan Zhao, Simon Lui. 4074-4078 [doi]

Learning Utterance-Level Representations with Label Smoothing for Speech Emotion RecognitionJian Huang 0014, Jianhua Tao, Bin Liu, Zheng Lian. 4079-4083 [doi]

Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion RecognitionMd Asif Jalal, Rosanna Milner, Thomas Hain, Roger K. Moore. 4084-4088 [doi]

Adaptive Domain-Aware Representation Learning for Speech Emotion RecognitionWeiquan Fan, Xiangmin Xu, Xiaofen Xing, Dongyan Huang. 4089-4093 [doi]

Speech Emotion Recognition with Discriminative Feature LearningHuan Zhou, Kai Liu. 4094-4097 [doi]

Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy ConditionsHengshun Zhou, Jun Du, Yanhui Tu, Chin-Hui Lee. 4098-4102 [doi]

Comparison of Glottal Source Parameter Values in Emotional VowelsYongwei Li, Jianhua Tao, Bin Liu, Donna Erickson, Masato Akagi. 4103-4107 [doi]

Learning to Recognize Per-Rater's Emotion Perception Using Co-Rater Training Strategy with Soft and Hard LabelsHuang-Cheng Chou, Chi-Chun Lee. 4108-4112 [doi]

Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion RecognitionMd. Asif Jalal, Rosanna Milner, Thomas Hain. 4113-4117 [doi]

Phonetic Accommodation of L2 German Speakers to the Virtual Language Learning Tutor MirabellaIona Gessinger, Bernd Möbius, Bistra Andreeva, Eran Raveh, Ingmar Steiner. 4118-4122 [doi]

Characterization of Singaporean Children's English: Comparisons to American and British Counterparts Using Archetypal AnalysisYuling Gu, Nancy F. Chen. 4123-4127 [doi]

Rhythmic Convergence in Canadian French Varieties?Svetlana Kaminskaïa. 4128-4132 [doi]

Malayalam-English Code-Switched: Grapheme to Phoneme SystemSreeja Manghat, Sreeram Manghat, Tanja Schultz. 4133-4137 [doi]

Ongoing Phonologization of Word-Final Voicing Alternations in Two Romance Languages: Romanian and FrenchMathilde Hutin, Adèle Jatteau, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker. 4138-4142 [doi]

Cues for Perception of Gender in Synthetic Voices and the Role of IdentityMaxwell Hope, Jason Lilley. 4143-4147 [doi]

Phonetic Entrainment in Cooperative Dialogues: A Case of RussianAlla Menshikova, Daniil Kocharov, Tatiana Kachkovskaia. 4148-4152 [doi]

Prosodic Characteristics of Genuine and Mock (Im)polite Mandarin UtterancesChengwei Xu, Wentao Gu. 4153-4157 [doi]

Tone Variations in Regionally Accented MandarinYanping Li, Catherine T. Best, Michael D. Tyler, Denis Burnham. 4158-4162 [doi]

F0 Patterns in Mandarin Statements of Mandarin and Cantonese SpeakersYike Yang, Si Chen, Xi Chen. 4163-4167 [doi]

SpeechBERT: An Audio-and-Text Jointly Learned Language Model for End-to-End Spoken Question AnsweringYung-Sung Chuang, Chi-Liang Liu, Hung-yi Lee, Lin-Shan Lee. 4168-4172 [doi]

An Audio-Enriched BERT-Based Framework for Spoken Multiple-Choice Question AnsweringChia-Chih Kuo, Shang-Bao Luo, Kuan-Yu Chen. 4173-4177 [doi]

Entity Linking for Short Text Using Structured Knowledge Graph via Multi-Grained Text MatchingBinxuan Huang, Han Wang, Tong Wang, Yue Liu, Yang Liu. 4178-4182 [doi]

Sound-Image Grounding Based Focusing Mechanism for Efficient Automatic Spoken Language AcquisitionMingxin Zhang, Tomohiro Tanaka, Wenxin Hou, Shengzhou Gao, Takahiro Shinozaki. 4183-4187 [doi]

Semi-Supervised Learning for Character Expression of Spoken Dialogue SystemsKenta Yamamoto, Koji Inoue, Tatsuya Kawahara. 4188-4192 [doi]

Dimensional Emotion Prediction Based on Interactive Context in ConversationXiaohan Shi, Sixia Li, Jianwu Dang. 4193-4197 [doi]

HRI-RNN: A User-Robot Dynamics-Oriented RNN for Engagement Decrease DetectionAsma Atamna, Chloé Clavel. 4198-4202 [doi]

Neural Representations of Dialogical History for Improving Upcoming Turn Acoustic Parameters PredictionSimone Fuscone, Benoît Favre, Laurent Prévot 0001. 4203-4207 [doi]

Detecting Domain-Specific Credibility and Expertise in Text and SpeechShengli Hu. 4208-4212 [doi]

The Attacker's Perspective on Automatic Speaker Verification: An OverviewRohan Kumar Das, Xiaohai Tian, Tomi Kinnunen, Haizhou Li 0001. 4213-4217 [doi]

Extrapolating False Alarm Rates in Automatic Speaker VerificationAlexey Sholokhov, Tomi Kinnunen, Ville Vestman, Kong-Aik Lee. 4218-4222 [doi]

Self-Supervised Spoofing Audio Detection SchemeZiyue Jiang, Hongcheng Zhu, Li Peng, Wenbing Ding, Yanzhen Ren. 4223-4227 [doi]

Inaudible Adversarial Perturbations for Targeted Attack in Speaker RecognitionQing Wang, Pengcheng Guo, Lei Xie. 4228-4232 [doi]

x-Vectors Meet Adversarial Attacks: Benchmarking Adversarial Robustness in Speaker VerificationJesús Villalba, Yuekai Zhang, Najim Dehak. 4233-4237 [doi]

Black-Box Attacks on Spoofing Countermeasures Using Transferability of Adversarial ExamplesYuekai Zhang, Ziyan Jiang, Jesús Villalba, Najim Dehak. 4238-4242 [doi]

Multimodal Emotion Recognition Using Cross-Modal Attention and 1D Convolutional Neural NetworksKrishna D. N, Ankita Patil. 4243-4247 [doi]

Abstractive Spoken Document Summarization Using Hierarchical Model with Multi-Stage Attention Diversity OptimizationPotsawee Manakul, Mark J. F. Gales, Linlin Wang. 4248-4252 [doi]

Improved Learning of Word Embeddings with Word Definitions and Semantic InjectionYichi Zhang, Yinpei Dai, Zhijian Ou, Huixin Wang, Junlan Feng. 4253-4257 [doi]

Wake Word Detection with Alignment-Free Lattice-Free MMIYiming Wang, Hang Lv 0001, Daniel Povey, Lei Xie 0001, Sanjeev Khudanpur. 4258-4262 [doi]

Improving Vietnamese Named Entity Recognition from Speech Using Word Capitalization and Punctuation Recovery ModelsThai Binh Nguyen, Quang Minh Nguyen, Hien Nguyen Thi Thu, Quoc Truong Do, Luong Chi Mai. 4263-4267 [doi]

End-to-End Named Entity Recognition from English SpeechHemant Yadav, Sreyan Ghosh, Yi Yu 0001, Rajiv Ratn Shah. 4268-4272 [doi]

Semantic Complexity in End-to-End Spoken Language UnderstandingJoseph P. McKenna, Samridhi Choudhary, Michael Saxon, Grant P. Strimel, Athanasios Mouchtaris. 4273-4277 [doi]

Analysis of Disfluency in Children's SpeechTrang tran, Morgan Tinkler, Gary Yeung, Abeer Alwan, Mari Ostendorf. 4278-4282 [doi]

Representation Based Meta-Learning for Few-Shot Spoken Intent RecognitionAshish R. Mittal, Samarth Bharadwaj, Shreya Khare, Saneem A. Chemmengath, Karthik Sankaranarayanan, Brian Kingsbury. 4283-4287 [doi]

Complementary Language Model and Parallel Bi-LRNN for False Trigger MitigationRishika Agarwal, Xiaochuan Niu, Pranay Dighe, Srikanth Vishnubhotla, Sameer Badaskar, Devang Naik. 4288-4292 [doi]

Speaker-Utterance Dual Attention for Speaker and Utterance VerificationTianchi Liu 0004, Rohan Kumar Das, Maulik C. Madhavi, Shengmei Shen, Haizhou Li 0001. 4293-4297 [doi]

Adversarial Separation and Adaptation Network for Far-Field Speaker VerificationLu Yi, Man-Wai Mak. 4298-4302 [doi]

MIRNet: Learning Multiple Identities Representations in Overlapped SpeechHyewon Han, Soo-Whan Chung, Hong-Goo Kang. 4303-4307 [doi]

Strategies for End-to-End Text-Independent Speaker VerificationWeiwei Lin, Man-Wai Mak, Jen-Tzung Chien. 4308-4312 [doi]

Why Did the x-Vector System Miss a Target Speaker? Impact of Acoustic Mismatch Upon Target Score on VoxCeleb DataRosa González Hautamäki, Tomi Kinnunen. 4313-4317 [doi]

Variable Frame Rate-Based Data Augmentation to Handle Speaking-Style Variability for Automatic Speaker VerificationAmber Afshan, Jinxi Guo, Soo-Jin Park, Vijay Ravi, Alan McCree, Abeer Alwan. 4318-4322 [doi]

A Machine of Few Words: Interactive Speaker Recognition with Reinforcement LearningMathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin. 4323-4327 [doi]

Improving On-Device Speaker Verification Using Federated Learning with PrivacyFilip Granqvist, Matt Seigel, Rogier C. van Dalen, Áine Cahill, Stephen Shum, Matthias Paulik. 4328-4332 [doi]

Neural PLDA Modeling for End-to-End Speaker VerificationShreyas Ramoji, Prashant Krishnan V, Sriram Ganapathy. 4333-4337 [doi]

State Sequence Pooling Training of Acoustic Models for Keyword SpottingKuba Lopatka, Tobias Bocklet. 4338-4342 [doi]

Training Keyword Spotting Models on Non-IID Data with Federated LearningAndrew Hard, Kurt Partridge, Cameron Nguyen, Niranjan Subrahmanya, Aishanee Shah, Pai Zhu, Ignacio Lopez-Moreno, Rajiv Mathews. 4343-4347 [doi]

Class LM and Word Mapping for Contextual Biasing in End-to-End ASRRongqing Huang, Ossama Abdel Hamid, Xinwei Li, Gunnar Evermann. 4348-4351 [doi]

Do End-to-End Speech Recognition Models Care About Context?Lasse Borgholt, Jakob D. Havtorn, Zeljko Agic, Anders Søgaard, Lars Maaløe, Christian Igel. 4352-4356 [doi]

Utterance Confidence Measure for End-to-End Speech Recognition with Applications to Distributed Speech Recognition ScenariosAnkur Kumar, Sachin Singh, Dhananjaya Gowda, Abhinav Garg, Shatrughan Singh, Chanwoo Kim. 4357-4361 [doi]

Speaker Code Based Speaker Adaptive Training Using Model Agnostic Meta-LearningHuaxin Wu, Genshun Wan, Jia Pan. 4362-4366 [doi]

Domain Adaptation Using Class Similarity for Robust Speech RecognitionHan Zhu, Jiangjiang Zhao, Yuling Ren, Li Wang, Pengyuan Zhang. 4367-4371 [doi]

Incremental Machine Speech Chain Towards Enabling Listening While Speaking in Real-TimeSashi Novitasari, Andros Tjandra, Tomoya Yanagita, Sakriani Sakti, Satoshi Nakamura 0001. 4372-4376 [doi]

Context-Dependent Acoustic Modeling Without Explicit Phone ClusteringTina Raissi, Eugen Beck, Ralf Schlüter, Hermann Ney. 4377-4381 [doi]

Voice Conversion Based Data Augmentation to Improve Children's Speech Recognition in Limited Data ScenarioS. Shahnawazuddin, Nagaraj Adiga, Kunal Kumar, Aayushi Poddar, Waquar Ahmad. 4382-4386 [doi]

CopyCat: Many-to-Many Fine-Grained Prosody Transfer for Neural Text-to-SpeechSri Karlapati, Alexis Moinet, Arnaud Joly, Viacheslav Klimkov, Daniel Sáez-Trigueros, Thomas Drugman. 4387-4391 [doi]

Joint Detection of Sentence Stress and Phrase Boundary for ProsodyBinghuai Lin, Liyuan Wang, Xiaoli Feng, Jinsong Zhang. 4392-4396 [doi]

Transfer Learning of the Expressivity Using FLOW Metric Learning in Multispeaker Text-to-Speech SynthesisAjinkya Kulkarni, Vincent Colotte, Denis Jouvet. 4397-4401 [doi]

Speaking Speed Control of End-to-End Speech Synthesis Using Sentence-Level ConditioningJae-Sung Bae, Hanbin Bae, Young-Sun Joo, Junmo Lee, Gyeong-Hoon Lee, Hoon-Young Cho. 4402-4406 [doi]

Dynamic Prosody Generation for Speech Synthesis Using Linguistics-Driven Acoustic Embedding SelectionShubhi Tyagi, Marco Nicolis, Jonas Rohnke, Thomas Drugman, Jaime Lorenzo-Trueba. 4407-4411 [doi]

Improving the Prosody of RNN-Based English Text-To-Speech Synthesis by Incorporating a BERT ModelTom Kenter, Manish Sharma, Rob Clark. 4412-4416 [doi]

Improved Prosody from Learned F0 Codebook Representations for VQ-VAE Speech Waveform ReconstructionYi Zhao 0006, Haoyu Li, Cheng-I Lai, Jennifer Williams, Erica Cooper, Junichi Yamagishi. 4417-4421 [doi]

Prosody Learning Mechanism for Speech Synthesis System Without Text Length LimitZhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao. 4422-4426 [doi]

Discriminative Method to Extract Coarse Prosodic Structure and its Application for Statistical Phrase/Accent Command EstimationYuma Shirahata, Daisuke Saito, Nobuaki Minematsu. 4427-4431 [doi]

Controllable Neural Text-to-Speech Synthesis Using Intuitive Prosodic FeaturesTuomo Raitio, Ramya Rasipuram, Dan Castellani. 4432-4436 [doi]

Controllable Neural Prosody SynthesisMax Morrison, Zeyu Jin, Justin Salamon, Nicholas J. Bryan, Gautham J. Mysore. 4437-4441 [doi]

Multi-Reference Neural TTS Stylization with Adversarial Cycle ConsistencyMatt Whitehill, Shuang Ma, Daniel J. McDuff, Yale Song. 4442-4446 [doi]

Interactive Text-to-Speech System via Joint Style AnalysisYang Gao, Weiyi Zheng, Zhaojun Yang, Thilo Köhler, Christian Fuegen, Qing He. 4447-4451 [doi]

Mobile-Assisted Prosody Training for Limited English Proficiency: Learner Background and Speech Learning PatternKevin Hirschi, Okim Kang, Catia Cucchiarini, John H. L. Hansen, Keelan Evanini, Helmer Strik. 4452-4456 [doi]

Finding Intelligible Consonant-Vowel Sounds Using High-Quality Articulatory SynthesisDaniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul Konstantin Krug, Peter Birkholz, Yi Xu. 4457-4461 [doi]

Audiovisual Correspondence Learning in Humans and MachinesVenkat Krishnamohan, Akshara Soman, Anshul Gupta, Sriram Ganapathy. 4462-4466 [doi]

Perception of English Fricatives and Affricates by Advanced Chinese Learners of EnglishYizhou Lan. 4467-4470 [doi]

Perception of Japanese Consonant Length by Native Speakers of Korean Differing in Japanese Learning ExperienceKimiko Tsukada, Joo-Yeon Kim, Jeong-Im Han. 4471-4475 [doi]

Automatic Detection of Phonological Errors in Child Speech Using Siamese Recurrent AutoencoderSi Ioi Ng, Tan Lee. 4476-4480 [doi]

A Comparison of English Rhythm Produced by Native American Speakers and Mandarin ESL Primary School LearnersHongwei Ding, Binghuai Lin, Liyuan Wang, Hui Wang, Ruomei Fang. 4481-4485 [doi]

Cross-Linguistic Interaction Between Phonological Categorization and Orthography Predicts Prosodic Effects in the Acquisition of Portuguese Liquids by L1-Mandarin LearnersChao Zhou, Silke Hamann. 4486-4490 [doi]

Cross-Linguistic Perception of Utterances with Willingness and Reluctance in Mandarin by Korean L2 LearnersWenqian Li, Jung-Yueh Tu. 4491-4495 [doi]

Speech Enhancement Based on Beamforming and Post-Filtering by Combining Phase InformationRui Cheng, Changchun Bao. 4496-4500 [doi]

A Noise-Aware Memory-Attention Network Architecture for Regression-Based Speech EnhancementYu-Xuan Wang, Jun Du, Li Chai 0002, Chin-Hui Lee, Jia Pan. 4501-4505 [doi]

HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial NetworksJiaqi Su, Zeyu Jin, Adam Finkelstein. 4506-4510 [doi]

Learning Complex Spectral Mapping for Speech Enhancement with Improved Cross-Corpus GeneralizationAshutosh Pandey 0004, DeLiang Wang. 4511-4515 [doi]

Speech Enhancement with Stochastic Temporal Convolutional NetworksJulius Richter, Guillaume Carbajal, Timo Gerkmann. 4516-4520 [doi]

Visual Speech In Real Noisy Environments (VISION): A Novel Benchmark Dataset and Deep Learning-Based Baseline SystemMandar Gogate, Kia Dashtipour, Amir Hussain. 4521-4525 [doi]

Sparse Mixture of Local Experts for Efficient Speech EnhancementAswin Sivaraman, Minje Kim. 4526-4530 [doi]

Improved Speech Enhancement Using TCN with Multiple Encoder-Decoder LayersVinith Kishore, Nitya Tiwari, Periyasamy Paramasivam. 4531-4535 [doi]

Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding RepresentationsCunhang Fan, Jianhua Tao, Bin Liu, Jiangyan Yi, Zhengqi Wen. 4536-4540 [doi]

Unsupervised Robust Speech Enhancement Based on Alpha-Stable Fast Multichannel Nonnegative Matrix FactorizationMathieu Fontaine 0002, Kouhei Sekiguchi, Aditya Arie Nugraha, Kazuyoshi Yoshii. 4541-4545 [doi]

Squeeze for Sneeze: Compact Neural Networks for Cold and Flu RecognitionMerlin Albes, Zhao Ren, Björn W. Schuller, Nicholas Cummins. 4546-4550 [doi]

Extended Study on the Use of Vocal Tract Variables to Quantify Neuromotor Coordination in DepressionNadee Seneviratne, James R. Williamson, Adam C. Lammert, Thomas F. Quatieri, Carol Y. Espy-Wilson. 4551-4555 [doi]

Affective Conditioning on Hierarchical Attention Networks Applied to Depression Detection from Transcribed Clinical InterviewsDanai Xezonaki, Georgios Paraskevopoulos, Alexandros Potamianos, Shrikanth Narayanan. 4556-4560 [doi]

Domain Adaptation for Enhancing Speech-Based Depression Detection in Natural Environmental Conditions Using Dilated CNNsZhaocheng Huang, Julien Epps, Dale Joachim, Brian Stasak, James R. Williamson, Thomas F. Quatieri. 4561-4565 [doi]

Making a Distinction Between Schizophrenia and Bipolar Disorder Based on Temporal Parameters in Spontaneous SpeechGábor Gosztolya, Anita Bagi, Szilvia Szalóki, István Szendi, Ildikó Hoffmann. 4566-4570 [doi]

Prediction of Sleepiness Ratings from Voice by Man and MachineMark A. Huckvale, András Beke, Mirei Ikushima. 4571-4575 [doi]

Tongue and Lip Motion Patterns in Alaryngeal SpeechKristin J. Teplansky, Alan Wisler, Beiming Cao, Wendy Liang, Chad W. Whited, Ted Mau, Jun Wang 0037. 4576-4580 [doi]

Autoencoder Bottleneck Features with Multi-Task Optimisation for Improved Continuous Dysarthric Speech RecognitionZhengjun Yue, Heidi Christensen, Jon Barker. 4581-4585 [doi]

Raw Speech Waveform Based Classification of Patients with ALS, Parkinson's Disease and Healthy Controls Using CNN-BLSTMJhansi Mallela, Aravind Illa, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Pradeep Reddy, Dipanjan Gope, Prasanta Kumar Ghosh. 4586-4590 [doi]

Assessment of Parkinson's Disease Medication State Through Automatic Speech AnalysisAnna Pompili, Rubén Solera-Ureña, Alberto Abad, Rita Cardoso, Isabel Guimarães, Margherita Fabbri, Isabel P. Martins, Joaquim J. Ferreira. 4591-4595 [doi]

Improving Replay Detection System with Channel Consistency DenseNeXt for the ASVspoof 2019 ChallengeChao Zhang, Junjie Cheng, Yanmei Gu, Huacan Wang, Jun Ma, Shaojun Wang, Jing Xiao. 4596-4600 [doi]

Subjective Quality Evaluation of Speech Signals Transmitted via BPL-PLC Wired SystemPrzemyslaw Falkowski-Gilski, Grzegorz Debita, Marcin Habrych, Bogdan Miedzinski, Przemyslaw Jedlikowski, Bartosz Polnik, Jan Wandzio, Xin Wang. 4601-4605 [doi]

Investigating the Visual Lombard Effect with Gabor Based FeaturesWaito Chiu, Yan Xu, Andrew Abel, Chun Lin, Zhengzheng Tu. 4606-4610 [doi]

Exploration of Audio Quality Assessment and Anomaly Localisation Using Attention ModelsQiang Huang 0008, Thomas Hain. 4611-4615 [doi]

Development of a Speech Quality Database Under Uncontrolled ConditionsAlessandro Ragano, Emmanouil Benetos, Andrew Hines. 4616-4620 [doi]

Evaluating the Reliability of Acoustic Speech EmbeddingsRobin Algayres, Mohamed Salah Zaïem, Benoît Sagot, Emmanuel Dupoux. 4621-4625 [doi]

Frame-Level Signal-to-Noise Ratio Estimation Using Deep LearningHao Li, DeLiang Wang, Xueliang Zhang, Guanglai Gao. 4626-4630 [doi]

A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality Ratings of Real-World SignalsXuan Dong 0004, Donald S. Williamson. 4631-4635 [doi]

Effect of Spectral Complexity Reduction and Number of Instruments on Musical Enjoyment with Cochlear ImplantsAvamarie Brueggeman, John H. L. Hansen. 4636-4640 [doi]

Spectrum Correction: Acoustic Scene Classification with Mismatched Recording DevicesMichal Kosmider. 4641-4645 [doi]

Distributed Summation Privacy for Speech EnhancementMatthew O'Connor, W. Bastiaan Kleijn. 4646-4650 [doi]

Perception of Privacy Measured in the Crowd - Paired Comparison on the Effect of Background NoisesAnna Leschanowsky, Sneha Das, Tom Bäckström, Pablo Pérez Zarazaga. 4651-4655 [doi]

Hide and Speak: Towards Deep Neural Networks for Speech SteganographyFelix Kreuk, Yossi Adi, Bhiksha Raj, Rita Singh, Joseph Keshet. 4656-4660 [doi]

Detecting Adversarial Examples for Speech Recognition via Uncertainty QuantificationSina Däubener, Lea Schönherr, Asja Fischer, Dorothea Kolossa. 4661-4665 [doi]

Privacy Guarantees for De-Identifying Text TransformationsDavid Ifeoluwa Adelani, Ali Davody, Thomas Kleinbauer, Dietrich Klakow. 4666-4670 [doi]

Detecting Audio Attacks on ASR Systems with Dropout UncertaintyTejas Jayashankar, Jonathan Le Roux, Pierre Moulin. 4671-4675 [doi]

Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech PretrainingWen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda. 4676-4680 [doi]

Nonparallel Training of Exemplar-Based Voice Conversion System Using INCA-Based Alignment TechniqueHitoshi Suda, Gaku Kotani, Daisuke Saito. 4681-4685 [doi]

Enhancing Intelligibility of Dysarthric Speech Using Gated Convolutional-Based Voice Conversion SystemChen-Yu Chen, Wei-Zhong Zheng, Syu-Siang Wang, Yu Tsao 0001, Pei-Chun Li, Ying-Hui Lai. 4686-4690 [doi]

VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net ArchitectureDa-Yi Wu, Yen-Hao Chen, Hung-yi Lee. 4691-4695 [doi]

Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice Conversion Without Parallel DataSeung Won Park, Doo-young Kim, Myun-chul Joe. 4696-4700 [doi]

Dynamic Speaker Representations Adjustment and Decoder Factorization for Speaker Adaptation in End-to-End Speech SynthesisRuibo Fu, Jianhua Tao, Zhengqi Wen, Jiangyan Yi, Tao Wang, Chunyu Qiang. 4701-4705 [doi]

ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training DataZheng Lian, Zhengqi Wen, Xinyong Zhou, Songbai Pu, Shengkai Zhang, Jianhua Tao. 4706-4710 [doi]

Improved Zero-Shot Voice Conversion Using Explicit Conditioning SignalsShahan Nercessian. 4711-4715 [doi]

Non-Parallel Voice Conversion with Fewer Labeled Data by Conditional Generative Adversarial NetworksMinchuan Chen, Weijian Hou, Jun Ma, Shaojun Wang, Jing Xiao. 4716-4720 [doi]

Transferring Source Style in Non-Parallel Voice ConversionSongxiang Liu, Yuewen Cao, Shiyin Kang, Na Hu, Xunying Liu, Dan Su 0002, Dong Yu 0001, Helen Meng. 4721-4725 [doi]

Voice Conversion Using Speech-to-Speech Neuro-Style TransferEhab A. AlBadawy, Siwei Lyu. 4726-4730 [doi]

Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech TranslationChanghan Wang, Juan Pino, Jiatao Gu. 4731-4735 [doi]

Transliteration Based Data Augmentation for Training Multilingual ASR Acoustic Models in Low Resource SettingsSamuel Thomas 0001, Kartik Audhkhasi, Brian Kingsbury. 4736-4740 [doi]

Multilingual Speech Recognition with Self-Attention Structured ParameterizationYun Zhu, Parisa Haghani, Anshuman Tripathi, Bhuvana Ramabhadran, Brian Farris, Hainan Xu, Han Lu, Hasim Sak, Isabel Leal, Neeraj Gaur, Pedro J. Moreno, Qian Zhang. 4741-4745 [doi]

Lattice-Free Maximum Mutual Information Training of Multilingual Speech Recognition SystemsSrikanth R. Madikeri, Banriskhem K. Khonglah, Sibo Tong, Petr Motlícek, Hervé Bourlard, Daniel Povey. 4746-4750 [doi]

Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion ParametersVineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, Ronan Collobert. 4751-4755 [doi]

Multilingual Speech Recognition Using Language-Specific Phoneme Recognition as Auxiliary Task for Indian LanguagesHardik B. Sailor, Thomas Hain. 4756-4760 [doi]

Style Variation as a Vantage Point for Code-SwitchingKhyathi Raghavi Chandu, Alan W. Black. 4761-4765 [doi]

Bi-Encoder Transformer Network for Mandarin-English Code-Switching Speech Recognition Using Mixture of ExpertsYizhou Lu, Mingkun Huang, Hao Li, Jiaqi Guo, Yanmin Qian. 4766-4770 [doi]

Improving Low Resource Code-Switched ASR Using Augmented Code-Switched TTSYash Sharma, Basil Abraham, Karan Taneja, Preethi Jyothi. 4771-4775 [doi]

Towards Context-Aware End-to-End Code-Switching Speech RecognitionZimeng Qiu, Yiyuan Li, Xinjian Li, Florian Metze, William M. Campbell. 4776-4780 [doi]

Increasing the Intelligibility and Naturalness of Alaryngeal Speech Using Voice Conversion and Synthetic Fundamental FrequencyTuan Dinh, Alexander Kain, Robin Samlan, Beiming Cao, Jun Wang 0037. 4781-4785 [doi]

Automatic Assessment of Dysarthric Severity Level Using Audio-Video Cross-Modal Approach in Deep LearningHan Tong, Hamid R. Sharifzadeh, Ian McLoughlin. 4786-4790 [doi]

Staged Knowledge Distillation for End-to-End Dysarthric Speech Recognition and Speech Attribute TranscriptionYuqin Lin, Longbiao Wang, Sheng Li 0010, Jianwu Dang, Chenchen Ding. 4791-4795 [doi]

Dysarthric Speech Recognition Based on Deep Metric LearningYuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki. 4796-4800 [doi]

Automatic Glottis Detection and Segmentation in Stroboscopic Videos Using Convolutional NetworksDivya Degala, M. V. Achuth Rao, Rahul Krishnamurthy, Pebbili Gopikishore, Veeramani Priyadharshini, Prakash T. K., Prasanta Kumar Ghosh. 4801-4805 [doi]

Acoustic Feature Extraction with Interpretable Deep Neural Network for Neurodegenerative Related Disorder ClassificationYilin Pan, Bahman Mirheidari, Zehai Tu, Ronan O'Malley, Traci Walker, Annalena Venneri, Markus Reuber, Daniel Blackburn, Heidi Christensen. 4806-4810 [doi]

Coswara - A Database of Breathing, Cough, and Voice Sounds for COVID-19 DiagnosisNeeraj Sharma, Prashant Krishnan, Rohit Kumar, Shreyas Ramoji, Srikanth Raj Chetupalli, Nirmala R., Prasanta Kumar Ghosh, Sriram Ganapathy. 4811-4815 [doi]

Acoustic-Based Articulatory Phenotypes of Amyotrophic Lateral Sclerosis and Parkinson's Disease: Towards an Interpretable, Hypothesis-Driven Framework of Motor ControlHannah P. Rowe, Sarah E. Gutz, Marc F. Maffei, Jordan R. Green. 4816-4820 [doi]

Recognising Emotions in Dysarthric Speech Using Typical Speech DataLubna Alhinti, Stuart P. Cunningham, Heidi Christensen. 4821-4825 [doi]

Detecting and Analysing Spontaneous Oral Cancer Speech in the WildBence Mark Halpern, Rob van Son, Michiel W. M. van den Brekel, Odette Scharenborg. 4826-4830 [doi]

The Zero Resource Speech Challenge 2020: Discovering Discrete Subword and Word UnitsEwan Dunbar, Julien Karadayi, Mathieu Bernard, Xuan-Nga Cao, Robin Algayres, Lucas Ondel, Laurent Besacier, Sakriani Sakti, Emmanuel Dupoux. 4831-4835 [doi]

Vector-Quantized Neural Networks for Acoustic Unit Discovery in the ZeroSpeech 2020 ChallengeBenjamin van Niekerk, Leanne Nortje, Herman Kamper. 4836-4840 [doi]

Exploration of End-to-End Synthesisers for Zero Resource Speech Challenge 2020Karthik Pandia D. S, Anusha Prakash, Mano Ranjith Kumar M., Hema A. Murthy. 4841-4845 [doi]

Vector Quantized Temporally-Aware Correspondence Sparse Autoencoders for Zero-Resource Acoustic Unit DiscoveryBatuhan Gündogdu, Bolaji Yusuf, Mansur Yesilbursa, Murat Saraclar. 4846-4850 [doi]

Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis: ZeroSpeech 2020 ChallengeAndros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 4851-4855 [doi]

Exploring TTS Without T Using Biologically/Psychologically Motivated Neural Network Modules (ZeroSpeech 2020)Takashi Morita, Hiroki Koda. 4856-4860 [doi]

Cyclic Spectral Modeling for Unsupervised Unit Discovery into Voice Conversion with Excitation and Waveform ModelingPatrick Lumban Tobing, Tomoki Hayashi, Yi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Toda. 4861-4865 [doi]

Unsupervised Acoustic Unit Representation Learning for Voice Conversion Using WaveNet Auto-EncodersMingjie Chen, Thomas Hain. 4866-4870 [doi]

Unsupervised Discovery of Recurring Speech Patterns Using Probabilistic Adaptive MetricsOkko Räsänen, María Andrea Cruz Blandón. 4871-4875 [doi]

Self-Expressing Autoencoders for Unsupervised Spoken Term DiscoverySaurabhchand Bhati, Jesús Villalba, Piotr Zelasko, Najim Dehak. 4876-4880 [doi]

Perceptimatic: A Human Speech Perception Benchmark for Unsupervised Subword ModellingJuliette Millet, Ewan Dunbar. 4881-4885 [doi]

Decoding Imagined, Heard, and Spoken Speech: Classification and Regression of EEG Using a 14-Channel Dry-Contact Mobile HeadsetJonathan Clayton, Scott Wellington, Cassia Valentini-Botinhao, Oliver Watts. 4886-4890 [doi]

Glottal Closure Instants Detection from EGG Signal by Classification ApproachGurunath Reddy M., K. Sreenivasa Rao, Partha Pratim Das. 4891-4895 [doi]

Classify Imaginary Mandarin Tones with Cortical EEG SignalsHua Li, Fei Chen. 4896-4900 [doi]

Augmenting Images for ASR and TTS Through Single-Loop and Dual-Loop Multimodal Chain FrameworkJohanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 4901-4905 [doi]

Punctuation Prediction in Spontaneous Conversations: Can We Mitigate ASR Errors with Retrofitted Word Embeddings?Lukasz Augustyniak, Piotr Szymanski, Mikolaj Morzy, Piotr Zelasko, Adrian Szymczak, Jan Mizgajski, Yishay Carmiel, Najim Dehak. 4906-4910 [doi]

Multimodal Semi-Supervised Learning Framework for Punctuation Prediction in Conversational SpeechMonica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati, Katrin Kirchhoff. 4911-4915 [doi]

Efficient MDI Adaptation for n-Gram Language ModelsRuizhe Huang, Ke Li, Ashish Arora, Daniel Povey, Sanjeev Khudanpur. 4916-4920 [doi]

Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text CorpusCal Peyser, Sepand Mavandadi, Tara N. Sainath, James Apfel, Ruoming Pang, Shankar Kumar. 4921-4925 [doi]

Language Model Data Augmentation Based on Text Domain TransferAtsunori Ogawa, Naohiro Tawara, Marc Delcroix. 4926-4930 [doi]

Contemporary Polish Language Model (Version 2) Using Big Data and Sub-Word ApproachKrzysztof Wolk. 4931-4935 [doi]

Improving Speech Recognition of Compound-Rich LanguagesPrabhat Pandey, Volker Leutnant, Simon Wiesler, Jahn Heymann, Daniel Willett. 4936-4940 [doi]

Language Modeling for Speech Analytics in Under-Resourced LanguagesSimone Wills, Pieter Uys, Charl Johannes van Heerden, Etienne Barnard. 4941-4945 [doi]

An Early Study on Intelligent Analysis of Speech Under COVID-19: Severity, Sleep Quality, Fatigue, and AnxietyJing Han 0010, Kun Qian, Meishu Song, Zijiang Yang, Zhao Ren, Shuo Liu, Juan Liu, Huaiyuan Zheng, Wei Ji, Tomoya Koike, Xiao Li, Zixing Zhang 0001, Yoshiharu Yamamoto, Björn W. Schuller. 4946-4950 [doi]

An Evaluation of the Effect of Anxiety on Speech - Computational Prediction of Anxiety from Sustained VowelsAlice Baird, Nicholas Cummins, Sebastian Schnieder, Jarek Krajewski, Björn W. Schuller. 4951-4955 [doi]

Hybrid Network Feature Extraction for Depression Assessment from SpeechZiping Zhao, Qifei Li, Nicholas Cummins, Bin Liu, Haishuai Wang, Jianhua Tao, Björn W. Schuller. 4956-4960 [doi]

Improving Detection of Alzheimer's Disease Using Automatic Speech Recognition to Identify High-Quality Segments for More Robust Feature ExtractionYilin Pan, Bahman Mirheidari, Markus Reuber, Annalena Venneri, Daniel Blackburn, Heidi Christensen. 4961-4965 [doi]

Classification of Manifest Huntington Disease Using Vowel Distortion MeasuresAmrit Romana, John Bandon, Noelle Carlozzi, Angela Roberts, Emily Mower Provost. 4966-4970 [doi]

Parkinson's Disease Detection from Speech Using Single Frequency Filtering Cepstral CoefficientsSudarsana Reddy Kadiri, Rashmi Kethireddy, Paavo Alku. 4971-4975 [doi]

Automatic Prediction of Speech Intelligibility Based on X-Vectors in the Context of Head and Neck CancerSebastião Quintas, Julie Mauclair, Virginie Woisard, Julien Pinquier. 4976-4980 [doi]

Spectral Moment and Duration of Burst of Plosives in Speech of Children with Hearing Impairment and Typically Developing Children - A Comparative StudyAjish K. Abraham, M. Pushpavathi, N. Sreedevi, A. Navya, Vikram C. Mathad, S. R. Mahadeva Prasanna. 4981-4985 [doi]

Aphasic Speech Recognition Using a Mixture of Speech Intelligibility ExpertsMatthew Perez, Zakaria Aldeneh, Emily Mower Provost. 4986-4990 [doi]

Automatic Discrimination of Apraxia of Speech and Dysarthria Using a Minimalistic Set of Handcrafted FeaturesIna Kodrasi, Michaela Pernon, Marina Laganaro, Hervé Bourlard. 4991-4995 [doi]

Weak-Attention Suppression for Transformer Based Speech RecognitionYangyang Shi, Yongqiang Wang, Chunyang Wu, Christian Fuegen, Frank Zhang, Duc Le, Ching-feng Yeh, Michael L. Seltzer. 4996-5000 [doi]

Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable End-to-End Speech RecognitionWenyong Huang, Wenchao Hu, Yu Ting Yeung, Xiao Chen. 5001-5005 [doi]

Improving Transformer-Based Speech Recognition with Unsupervised Pre-Training and Multi-Task Semantic Knowledge LearningSong Li, Lin Li, Qingyang Hong, Lingling Liu. 5006-5010 [doi]

Transformer-Based Long-Context End-to-End Speech RecognitionTakaaki Hori, Niko Moritz, Chiori Hori, Jonathan Le Roux. 5011-5015 [doi]

Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-Based LVCSRXinyuan Zhou, Grandee Lee, Emre Yilmaz, Yanhua Long, Jiaen Liang, Haizhou Li 0001. 5016-5020 [doi]

Universal Speech TransformerYingzhu Zhao, Chongjia Ni, Cheung Chi Leung, Shafiq Joty, Eng Siong Chng, Bin Ma. 5021-5025 [doi]

Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech RecognitionZhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi Wen. 5026-5030 [doi]

Cross Attention with Monotonic Alignment for Speech TransformerYingzhu Zhao, Chongjia Ni, Cheung Chi Leung, Shafiq Joty, Eng Siong Chng, Bin Ma. 5031-5035 [doi]

Conformer: Convolution-augmented Transformer for Speech RecognitionAnmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang 0033, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang. 5036-5040 [doi]

Exploring Transformers for Large-Scale Speech RecognitionLiang Lu, Changliang Liu, Jinyu Li, Yifan Gong. 5041-5045 [doi]

Sparseness-Aware DOA Estimation with Majorization MinimizationMasahito Togami, Robin Scheibler. 5046-5050 [doi]

Spatial Resolution of Early Reflection for Speech and White NoiseXiaoli Zhong, Hao Song, Xuejie Liu. 5051-5055 [doi]

Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and QualityAditya Raikar, Karan Nathwani, Ashish Panda, Sunil Kumar Kopparapu. 5056-5060 [doi]

Online Blind Reverberation Time Estimation Using CRNNsShuwen Deng, Wolfgang Mack, Emanuel A. P. Habets. 5061-5065 [doi]

Single-Channel Blind Direct-to-Reverberation Ratio Estimation Using MaskingWolfgang Mack, Shuwen Deng, Emanuel A. P. Habets. 5066-5070 [doi]

The Importance of Time-Frequency Averaging for Binaural Speaker Localization in Reverberant EnvironmentsHanan Beit-On, Vladimir Tourbabin, Boaz Rafaely. 5071-5075 [doi]

Acoustic Signal Enhancement Using Relative Harmonic Coefficients: Spherical Harmonics Domain ApproachYonggang Hu, Prasanga N. Samarasinghe, Thushara D. Abhayapala. 5076-5080 [doi]

Instantaneous Time Delay Estimation of Broadband SignalsB. H. V. S. Narayana Murthy, J. V. Satyanarayana, Nivedita Chennupati, B. Yegnanarayana. 5081-5085 [doi]

U-Net Based Direct-Path Dominance Test for Robust Direction-of-Arrival EstimationHao Wang, Kai Chen, Jing Lu. 5086-5090 [doi]

Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-Task LearningWei Xue, Ying Tong, Chao Zhang, Guohong Ding, Xiaodong He, Bowen Zhou. 5091-5095 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shanghai, China, 25-29 October 2020

Abstract

Table of Contents