Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, 15-19 September 2019

researchr

You are not signed in
Sign in
Sign up

Gernot Kubin, Zdravko Kacic, editors, Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, 15-19 September 2019. ISCA, 2019. [doi]

Conference: interspeech2019

Abstract is missing.

Statistical Approach to Speech Synthesis: Past, Present and FutureKeiichi Tokuda. [doi]

Survey Talk: Multimodal Processing of Speech and LanguageFlorian Metze. [doi]

The I2R's ASR System for the VOiCES from a Distance Challenge 2019Tze Yuang Chong, Kye Min Tan, Kah Kuan Teh, Chang Huai You, Hanwu Sun, Tran Huy Dat. [doi]

Survey Talk: Prosody Research and Applications: The State of the ArtNigel G. Ward. [doi]

Survey Talk: Reaching Over the Gap: Cross- and Interdisciplinary Research on Human and Automatic Speech ProcessingOdette Scharenborg. [doi]

Survey Talk: Recognition of Foreign-Accented Speech: Challenges and Opportunities for Human and Computer Speech CommunicationAnn R. Bradlow. [doi]

Survey Talk: Preserving Privacy in Speaker and Speech CharacterisationAndreas Nautsch. [doi]

Survey Talk: End-to-End Deep Neural Network Based Speaker and Language RecognitionMing Li, Weicheng Cai, Danwei Cai. [doi]

STC Speaker Recognition Systems for the VOiCES from a Distance ChallengeSergey Novoselov, Aleksei Gusev, Artem Ivanov, Timur Pekhovsky, Andrey Shulipa, Galina Lavrentyeva, Vladimir Volokhov, Alexandr Kozlov. [doi]

Learning Natural Language Interfaces with Neural ModelsMirella Lapata. [doi]

The VOiCES from a Distance Challenge 2019Mahesh Kumar Nandwana, Julien van Hout, Colleen Richey, Mitchell McLaren, Maria Alejandra Barrios, Aaron Lawson. [doi]

Survey Talk: A Survey on Speech TranslationJan Niehues. [doi]

Analysis of BUT Submission in Far-Field Scenarios of VOiCES 2019 ChallengePavel Matejka, Oldrich Plchot, Hossein Zeinali, Ladislav Mosner, Anna Silnova, Lukás Burget, Ondrej Novotný, Ondrej Glembek. [doi]

Survey Talk: Modeling in Automatic Speech Recognition: Beyond Hidden Markov ModelsRalf Schlüter. [doi]

Physiology and Physics of Voice ProductionManfred Kaltenbacher. [doi]

Survey Talk: When Attention Meets Speech Applications: Speech & Speaker Recognition PerspectiveKyu J. Han, Ramon Prieto, Tao Ma. [doi]

Survey Talk: Realistic Physics-Based Computational Voice ProductionOriol Guasch. [doi]

The STC ASR System for the VOiCES from a Distance Challenge 2019Ivan Medennikov, Yuri Y. Khokhlov, Aleksei Romanenko, Ivan Sorokin, Anton Mitrofanov, Vladimir Bataev, Andrei Andrusenko, Tatiana Prisyach, Mariya Korenevskaya, Oleg Petrov, Alexander Zatvornitskiy. [doi]

Biosignal Processing for Human-Machine InteractionTanja Schultz. [doi]

Advances in Automatic Speech Recognition for Child Speech Using Factored Time Delay Neural NetworkFei Wu, Leibny Paola García-Perera, Daniel Povey, Sanjeev Khudanpur. 1-5 [doi]

o in Vowel PerceptionGary Yeung, Abeer Alwan. 6-10 [doi]

Improving ASR Systems for Children with Autism and Language Impairment Using Domain-Focused DNN Transfer TechniquesRobert Gale, Liu Chen, Jill Dolata, Jan P. H. van Santen, Meysam Asgari. 11-15 [doi]

Ultrasound Tongue Imaging for Diarization and Alignment of Child Speech Therapy SessionsManuel Sam Ribeiro, Aciel Eshky, Korin Richmond, Steve Renals. 16-20 [doi]

Automated Estimation of Oral Reading Fluency During Summer Camp e-Book Reading with MyTurnToReadAnastassia Loukina, Beata Beigman Klebanov, Patrick L. Lange, Yao Qian, Binod Gyawali, Nitin Madnani, Abhinav Misra, Klaus Zechner, Zuowei Wang, John Sabatini. 21-25 [doi]

Sustained Vowel Game: A Computer Therapy Game for Children with DysphoniaVanessa Lopes, João Magalhães, Sofia Cavaco. 26-30 [doi]

The Dependability of Voice on Elders' Acceptance of Humanoid AgentsAnna Esposito, Terry Amorese, Marialucia Cuciniello, Maria Teresa Riviello, Antonietta Maria Esposito, Alda Troncone, Gennaro Cordasco. 31-35 [doi]

God as Interlocutor - Real or Imaginary? Prosodic Markers of Dialogue Speech and Expected Efficacy in Spoken PrayerOliver Niebuhr, Uffe Schjoedt. 36-40 [doi]

Expressiveness Influences Human Vocal Alignment Toward voice-AIMichelle Cohn, Georgia Zellou. 41-45 [doi]

Detecting Topic-Oriented Speaker Stance in Conversational SpeechCatherine Lai, Beatrice Alex, Johanna D. Moore, Leimin Tian, Tatsuro Hori, Gianpiero Francesca. 46-50 [doi]

Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and TranscriptsJilt Sebastian, Piero Pierucci. 51-55 [doi]

Explaining Sentiment ClassificationMarvin Rajwadi, Cornelius Glackin, Julie A. Wall, Gérard Chollet, Nigel Cannings. 56-60 [doi]

Predicting Group-Level Skin Attention to Short Movies from Audio-Based LSTM-Mixture of Experts ModelsRicardo Kleinlein, Cristina Luna Jiménez, Juan Manuel Montero, Zoraida Callejas, Fernando Fernández-Martínez. 61-65 [doi]

Very Deep Self-Attention Networks for End-to-End Speech RecognitionNgoc-Quan Pham, Thai Son Nguyen, Jan Niehues, Markus Müller 0001, Alex Waibel. 66-70 [doi]

Jasper: An End-to-End Convolutional Neural Acoustic ModelJason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev, Jonathan M. Cohen, Huyen Nguyen, Ravi Teja Gadde. 71-75 [doi]

Unidirectional Neural Network Architectures for End-to-End Automatic Speech RecognitionNiko Moritz, Takaaki Hori, Jonathan Le Roux. 76-80 [doi]

Analyzing Phonetic and Graphemic Representations in End-to-End Automatic Speech RecognitionYonatan Belinkov, Ahmed Ali 0002, James R. Glass. 81-85 [doi]

Multi-Channel Speech Enhancement Using Time-Domain Convolutional Denoising AutoencoderNaohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa. 86-90 [doi]

On Nonlinear Spatial Filtering in Multichannel Speech EnhancementKristina Tesch, Robert Rehr, Timo Gerkmann. 91-95 [doi]

Multi-Channel Block-Online Source Extraction Based on Utterance AdaptationJuan M. Martín-Doñas, Jens Heitkaemper, Reinhold Haeb-Umbach, Angel M. Gomez, Antonio M. Peinado. 96-100 [doi]

Exploiting Multi-Channel Speech Presence Probability in Parametric Multi-Channel Wiener FilterSaeed Bagheri, Daniele Giacobello. 101-105 [doi]

Variational Bayesian Multi-Channel Speech Dereverberation Under Noisy Environments with Probabilistic Convolutive Transfer FunctionMasahito Togami, Tatsuya Komatsu. 106-110 [doi]

Simultaneous Denoising and Dereverberation for Low-Latency Applications Using Frame-by-Frame Online Unified Convolutional BeamformerTomohiro Nakatani, Keisuke Kinoshita. 111-115 [doi]

Individual Variation in Cognitive Processing Style Predicts Differences in Phonetic Imitation of Device and Human VoicesCathryn Snyder, Michelle Cohn, Georgia Zellou. 116-120 [doi]

An Investigation on Speaker Specific Articulatory Synthesis with Speaker Independent Articulatory InversionAravind Illa, Prasanta Kumar Ghosh. 121-125 [doi]

Individual Difference of Relative Tongue Size and its Acoustic EffectsXiaohan Zhang, Chongke Bi, Kiyoshi Honda, Wenhuan Lu, Jianguo Wei. 126-130 [doi]

Individual Differences of Airflow and Sound Generation in the Vocal Tract of Sibilant /s/Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada. 131-135 [doi]

Hush-Hush Speak: Speech Reconstruction Using Silent VideosShashwat Uttam, Yaman Kumar, Dhruva Sahrawat, Mansi Aggarwal, Rajiv Ratn Shah, Debanjan Mahata, Amanda Stent. 136-140 [doi]

SPEAK YOUR MIND! Towards Imagined Speech Recognition with Hierarchical Deep LearningPramit Saha, Muhammad Abdul-Mageed, Sidney S. Fels. 141-145 [doi]

An Unsupervised Autoregressive Model for Speech Representation LearningYu-An Chung, Wei-Ning Hsu, Hao Tang, James R. Glass. 146-150 [doi]

Harmonic-Aligned Frame Mask Based on Non-Stationary Gabor Transform with Application to Content-Dependent Speaker ComparisonFeng Huang 0002, Péter Balázs. 151-155 [doi]

Glottal Closure Instants Detection from Speech Signal by Deep Features Extracted from Raw Speech and Linear Prediction ResidualGurunath Reddy M., K. Sreenivasa Rao, Partha Pratim Das. 156-160 [doi]

Learning Problem-Agnostic Speech Representations from Multiple Self-Supervised TasksSantiago Pascual, Mirco Ravanelli, Joan Serrà, Antonio Bonafonte, Yoshua Bengio. 161-165 [doi]

Excitation Source and Vocal Tract System Based Acoustic Features for Detection of Nasals in Continuous SpeechBhanu Teja Nellore, Sri Harsha Dumpala, Karan Nathwani, Suryakanth V. Gangashetty. 166-170 [doi]

Data Augmentation Using GANs for Speech Emotion RecognitionAggelina Chatziagapi, Georgios Paraskevopoulos, Dimitris Sgouropoulos, Georgios Pantazopoulos, Malvina Nikandrou, Theodoros Giannakopoulos, Athanasios Katsamanis, Alexandros Potamianos, Shrikanth Narayanan. 171-175 [doi]

High Quality, Lightweight and Adaptable TTS Using LPCNetZvi Kons, Slava Shechtman, Alexander Sorin, Carmel Rabinovitz, Ron Hoory. 176-180 [doi]

Towards Achieving Robust Universal Neural VocodingJaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal. 181-185 [doi]

Expediting TTS Synthesis with Adversarial VocodingPaarth Neekhara, Chris Donahue, Miller S. Puckette, Shlomo Dubnov, Julian J. McAuley. 186-190 [doi]

Analysis by Adversarial Synthesis - A Novel Approach for Speech VocodingAhmed Mustafa, Arijit Biswas, Christian Bergler, Julia Schottenhamml, Andreas K. Maier. 191-195 [doi]

Quasi-Periodic WaveNet Vocoder: A Pitch Dependent Dilated Convolution Model for Parametric Speech GenerationYi-Chiao Wu, Tomoki Hayashi, Patrick Lumban Tobing, Kazuhiro Kobayashi, Tomoki Toda. 196-200 [doi]

A Speaker-Dependent WaveNet for Voice Conversion with Non-Parallel DataXiaohai Tian, Eng Siong Chng, Haizhou Li 0001. 201-205 [doi]

Attention-Enhanced Connectionist Temporal Classification for Discrete Speech Emotion RecognitionZiping Zhao, Zhongtian Bao, Zixing Zhang 0001, Nicholas Cummins, Haishuai Wang, Björn W. Schuller. 206-210 [doi]

Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention ProfileJeng-Lin Li, Chi-Chun Lee. 211-215 [doi]

A Saliency-Based Attention LSTM Model for Cognitive Load Classification from SpeechAscensión Gallardo-Antolín, Juan Manuel Montero. 216-220 [doi]

A Hierarchical Attention Network-Based Approach for Depression Detection from Transcribed Clinical InterviewsAdria Mallol-Ragolta, Ziping Zhao, Lukas Stappen, Nicholas Cummins, Björn W. Schuller. 221-225 [doi]

Untranscribed Web Audio for Low Resource Speech RecognitionAndrea Carmantini, Peter Bell 0001, Steve Renals. 226-230 [doi]

RWTH ASR Systems for LibriSpeech: Hybrid vs AttentionChristoph Lüscher, Eugen Beck, Kazuki Irie, Markus Kitza, Wilfried Michel, Albert Zeyer, Ralf Schlüter, Hermann Ney. 231-235 [doi]

Auxiliary Interference Speaker Loss for Target-Speaker Speech RecognitionNaoyuki Kanda, Shota Horiguchi, Ryoichi Takashima, Yusuke Fujita, Kenji Nagamatsu, Shinji Watanabe. 236-240 [doi]

Speaker Adaptation for Attention-Based End-to-End Speech RecognitionZhong Meng, Yashesh Gaur, Jinyu Li, Yifan Gong. 241-245 [doi]

Large Margin Training for Attention Based End-to-End Speech RecognitionPeidong Wang, Jia Cui, Chao Weng, Dong Yu 0001. 246-250 [doi]

Large-Scale Mixed-Bandwidth Deep Neural Network Acoustic Modeling for Automatic Speech RecognitionKhoi-Nguyen C. Mac, Xiaodong Cui, Wei Zhang, Michael Picheny. 251-255 [doi]

SparseSpeech: Unsupervised Acoustic Unit Discovery with Memory-Augmented Sequence AutoencodersBenjamin Milde, Chris Biemann. 256-260 [doi]

Bayesian Subspace Hidden Markov Model for Acoustic Unit DiscoveryLucas Ondel, Hari Krishna Vydana, Lukás Burget, Jan Cernocký. 261-265 [doi]

Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource LanguagesYosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa. 266-270 [doi]

Building Large-Vocabulary ASR Systems for Languages Without Any Audio Training DataManasa Prasad, Daan van Esch, Sandy Ritchie, Jonas Fromseier Mortensen. 271-275 [doi]

Towards Bilingual Lexicon Discovery From Visually Grounded Speech AudioEmmanuel Azuh, David Harwath, James R. Glass. 276-280 [doi]

Improving Unsupervised Subword Modeling via Disentangled Speech Representation Learning and TransformationSiyuan Feng, Tan Lee. 281-285 [doi]

Listeners' Ability to Identify the Gender of Preadolescent Children in Different Linguistic ContextsShawn L. Nissen, Sharalee Blunck, Anita Dromey, Christopher Dromey. 286-290 [doi]

Sibilant Variation in New Englishes: A Comparative Sociophonetic Study of Trinidadian and American English /s(tr)/-RetractionWiebke Ahlers, Philipp Meer. 291-295 [doi]

Tracking the New Zealand English NEAR/SQUARE Merger Using Functional Principal Components AnalysisMichele Gubian, Jonathan Harrington, Mary Stevens, Florian Schiel, Paul Warren. 296-300 [doi]

Phonetic Accommodation in a Wizard-of-Oz Experiment: Intonation and SegmentsIona Gessinger, Bernd Möbius, Bistra Andreeva, Eran Raveh, Ingmar Steiner. 301-305 [doi]

PASCAL and DPA: A Pilot Study on Using Prosodic Competence Scores to Predict Communicative Skills for Team Working and Public SpeakingOliver Niebuhr, Jan Michalsky. 306-310 [doi]

Towards the Prosody of Persuasion in Competitive Negotiation. The Relationship Between f0 and Negotiation Success in Same Sex Sales TasksJan Michalsky, Heike Schoormann, Thomas Schultze. 311-315 [doi]

VESUS: A Crowd-Annotated Database to Study Emotion Production and Perception in Spoken EnglishJacob Sager, Ravi Shankar, Jacob Reinhold, Archana Venkataraman. 316-320 [doi]

Building the Singapore English National Speech CorpusJia Xin Koh, Aqilah Mislan, Kevin Khoo, Brian Ang, Wilson Ang, Charmaine Ng, Ying-Ying Tan. 321-325 [doi]

Challenging the Boundaries of Speech Recognition: The MALACH CorpusMichael Picheny, Zoltán Tüske, Brian Kingsbury, Kartik Audhkhasi, Xiaodong Cui, George Saon. 326-330 [doi]

NITK Kids' Speech CorpusPravin Bhaskar Ramteke, Sujata Supanekar, Pradyoth Hegde, Hanna Nelson, Venkataraja Aithal, Shashidhar G. Koolagudi. 331-335 [doi]

Towards Variability Resistant Dialectal Speech EvaluationAhmed Ali, Salam Khalifa, Nizar Habash. 336-340 [doi]

How to Annotate 100 Hours in 45 MinutesPer Fallgren, Zofia Malisz, Jens Edlund. 341-345 [doi]

Bayesian HMM Based x-Vector Clustering for Speaker DiarizationMireia Díez, Lukás Burget, Shuai Wang, Johan Rohdin, Jan Cernocký. 346-350 [doi]

Unleashing the Unused Potential of i-Vectors Enabled by GPU AccelerationVille Vestman, Kong-Aik Lee, Tomi H. Kinnunen, Takafumi Koshinaka. 351-355 [doi]

MCE 2018: The 1st Multi-Target Speaker Detection and Identification Challenge EvaluationSuwon Shon, Najim Dehak, Douglas A. Reynolds, James R. Glass. 356-360 [doi]

Improving Aggregation and Loss Function for Better Embedding Learning in End-to-End Speaker Verification SystemZhifu Gao, Yan Song, Ian McLoughlin, Pengcheng Li, Yiheng Jiang, Li-Rong Dai. 361-365 [doi]

LSTM Based Similarity Measurement with Spectral Clustering for Speaker DiarizationQingjian Lin, Ruiqing Yin, Ming Li, Hervé Bredin, Claude Barras. 366-370 [doi]

Who Said That?: Audio-Visual Speaker Diarisation of Real-World MeetingsJoon Son Chung, Bong-Jin Lee, Icksang Han. 371-375 [doi]

Multi-PLDA Diarization on Children's SpeechJiamin Xie, Leibny Paola García-Perera, Daniel Povey, Sanjeev Khudanpur. 376-380 [doi]

Speaker Diarization Using Leave-One-Out Gaussian PLDA Clustering of DNN EmbeddingsAlan McCree, Gregory Sell, Daniel Garcia-Romero. 381-385 [doi]

Speaker-Corrupted Embeddings for Online Speaker DiarizationOmid Ghahabi, Volker Fischer. 386-390 [doi]

Speaker Diarization with Lexical InformationTae-Jin Park, Kyu J. Han, Jing Huang 0019, Xiaodong He, Bowen Zhou, Panayiotis G. Georgiou, Shrikanth Narayanan. 391-395 [doi]

Joint Speech Recognition and Speaker Diarization via Sequence TransductionLaurent El Shafey, Hagen Soltau, Izhak Shafran. 396-400 [doi]

Normal Variance-Mean Mixtures for Unsupervised Score CalibrationSandro Cumani. 401-405 [doi]

Speaker Augmentation and Bandwidth Extension for Deep Speaker EmbeddingHitoshi Yamamoto, Kong-Aik Lee, Koji Okabe, Takafumi Koshinaka. 406-410 [doi]

Large-Scale Speaker Diarization of Radio Broadcast ArchivesEmre Yilmaz, Adem Derinel, Kun Zhou, Henk van den Heuvel, Niko Brummer, Haizhou Li 0001, David A. van Leeuwen. 411-415 [doi]

Toeplitz Inverse Covariance Based Robust Speaker Clustering for Naturalistic Audio StreamsHarishchandra Dubey, Abhijeet Sangwan, John H. L. Hansen. 416-420 [doi]

Examining the Combination of Multi-Band Processing and Channel Dropout for Robust Speech RecognitionGyörgy Kovács, László Tóth, Dirk Van Compernolle, Marcus Liwicki. 421-425 [doi]

Label Driven Time-Frequency Masking for Robust Continuous Speech RecognitionMeet H. Soni, Ashish Panda. 426-430 [doi]

Speaker-Invariant Feature-Mapping for Distant Speech Recognition via Adversarial Teacher-Student LearningLong Wu, Hangting Chen, Li Wang, Pengyuan Zhang, Yonghong Yan 0002. 431-435 [doi]

Full-Sentence Correlation: A Method to Handle Unpredictable Noise for Robust Speech RecognitionJi Ming, Danny Crookes. 436-440 [doi]

Generative Noise Modeling and Channel Simulation for Robust Speech Recognition in Unseen ConditionsMeet H. Soni, Sonal Joshi, Ashish Panda. 441-445 [doi]

Far-Field Speech Enhancement Using Heteroscedastic Autoencoder for Improved Speech RecognitionShashi Kumar, Shakti P. Rath. 446-450 [doi]

End-to-End SpeakerBeam for Single Channel Target Speech RecognitionMarc Delcroix, Shinji Watanabe, Tsubasa Ochiai, Keisuke Kinoshita, Shigeki Karita, Atsunori Ogawa, Tomohiro Nakatani. 451-455 [doi]

NIESR: Nuisance Invariant End-to-End Speech RecognitionI-Hung Hsu, Ayush Jaiswal, Premkumar Natarajan. 456-460 [doi]

Knowledge Distillation for Throat Microphone Speech RecognitionTakahito Suzuki, Jun Ogata, Takashi Tsunakawa, Masafumi Nishida, Masafumi Nishimura. 461-465 [doi]

Improved Speaker-Dependent Separation for CHiME-5 ChallengeJian Wu, Yong Xu, Shi-Xiong Zhang, LianWu Chen, Meng Yu, Lei Xie, Dong Yu 0001. 466-470 [doi]

Bridging the Gap Between Monaural Speech Enhancement and Recognition with Distortion-Independent Acoustic ModelingPeidong Wang, Ke Tan, DeLiang Wang. 471-475 [doi]

Enhanced Spectral Features for Distortion-Independent Acoustic ModelingPeidong Wang, DeLiang Wang. 476-480 [doi]

Universal Adversarial Perturbations for Speech Recognition SystemsPaarth Neekhara, Shehzeen Hussain, Prakhar Pandey, Shlomo Dubnov, Julian J. McAuley, Farinaz Koushanfar. 481-485 [doi]

One-Pass Single-Channel Noisy Speech Recognition Using a Combination of Noisy and Enhanced FeaturesMasakiyo Fujimoto, Hisashi Kawai. 486-490 [doi]

Jointly Adversarial Enhancement Training for Robust End-to-End Speech RecognitionBin Liu, Shuai Nie, Shan Liang, Wenju Liu, Meng Yu, LianWu Chen, Shouye Peng, Changliang Li. 491-495 [doi]

Predicting Humor by Learning from Time-Aligned CommentsZixiaofan Yang, Bingyan Hu, Julia Hirschberg. 496-500 [doi]

Predicting the Leading Political Ideology of YouTube Channels Using Acoustic, Textual, and Metadata InformationYoan Dinkov, Ahmed Ali 0002, Ivan Koychev, Preslav Nakov. 501-505 [doi]

Mitigating Gender and L1 Differences to Improve State and Trait RecognitionGuozhen An, Rivka Levitan. 506-509 [doi]

Deep Learning Based Mandarin Accent Identification for Accent Robust ASRFelix Weninger, Yang Sun, Junho Park, Daniel Willett, Puming Zhan. 510-514 [doi]

Calibrating DNN Posterior Probability Estimates of HMM/DNN Models to Improve Social Signal Detection from Audio DataGábor Gosztolya, László Tóth. 515-519 [doi]

Conversational and Social Laughter Synthesis with WaveNetHiroki Mori, Tomohiro Nagata, Yoshiko Arimoto. 520-523 [doi]

Laughter Dynamics in Dyadic ConversationsBogdan Ludusan, Petra Wagner. 524-528 [doi]

Towards an Annotation Scheme for Complex Laughter in Speech CorporaKhiet P. Truong, Jürgen Trouvain, Michel-Pierre Jansen. 529-533 [doi]

Using Speech to Predict Sequentially Measured Cortisol Levels During a Trier Social Stress TestAlice Baird, Shahin Amiriparian, Nicholas Cummins, Sarah Sturmbauer, Johanna Janson, Eva-Maria Meßner, Harald Baumeister, Nicolas Rohleder, Björn W. Schuller. 534-538 [doi]

Sincerity in Acted Speech: Presenting the Sincere Apology Corpus and ResultsAlice Baird, Eduardo Coutinho, Julia Hirschberg, Björn W. Schuller. 539-543 [doi]

Do not Hesitate! - Unless You Do it Shortly or Nasally: How the Phonetics of Filled Pauses Determine Their Subjective Frequency and Perceived Speaker PerformanceOliver Niebuhr, Kerstin Fischer. 544-548 [doi]

Phonet: A Tool Based on Gated Recurrent Neural Networks to Extract Phonological Posteriors from SpeechJuan Camilo Vásquez-Correa, Philipp Klumpp, Juan Rafael Orozco-Arroyave, Elmar Nöth. 549-553 [doi]

Code-Switching Sentence Generation by Generative Adversarial Networks and its Application to Data AugmentationChing-Ting Chang, Shun-Po Chuang, Hung-yi Lee. 554-558 [doi]

Comparative Analysis of Think-Aloud Methods for Everyday Activities in the Context of Cognitive RoboticsMoritz Meier, Celeste Mason, Felix Putze, Tanja Schultz. 559-563 [doi]

RadioTalk: A Large-Scale Corpus of Talk Radio TranscriptsDoug Beeferman, William Brannon, Deb Roy. 564-568 [doi]

Qualitative Evaluation of ASR Adaptation in a Lecture Context: Application to the PASTEL CorpusSalima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent, Richard Dufour, Solen Quiniou. 569-573 [doi]

Active Annotation: Bootstrapping Annotation Lexicon and Guidelines for Supervised NLU LearningFederico Marinelli, Alessandra Cervone, Giuliano Tortoreto, Evgeny A. Stepanov, Giuseppe Di Fabbrizio, Giuseppe Riccardi. 574-578 [doi]

Automatic Lyric Transcription from Karaoke Vocal Tracks: Resources and a Baseline SystemGerardo Roa Dabike, Jon Barker. 579-583 [doi]

Detecting Mismatch Between Speech and Transcription Using Cross-Modal AttentionQiang Huang, Thomas Hain. 584-588 [doi]

EpaDB: A Database for Development of Pronunciation Assessment SystemsJazmín Vidal, Luciana Ferrer, Leonardo Brambilla. 589-593 [doi]

Automatic Compression of Subtitles with Neural Networks and its Effect on User ExperienceKatrin Angerbauer, Heike Adel, Ngoc Thang Vu. 594-598 [doi]

Integrating Video Retrieval and Moment Detection in a Unified Corpus for Video Question AnsweringHongyin Luo, Mitra Mohtarami, James R. Glass, Karthik Krishnamurthy, Brigitte Richardson. 599-603 [doi]

Early Identification of Speech Changes Due to Amyotrophic Lateral Sclerosis Using Machine ClassificationSarah E. Gutz, Jun Wang 0037, Yana Yunusova, Jordan R. Green. 604-608 [doi]

Automatic Detection of Breath Using Voice Activity Detection and SVM Classifier with Application on News ReportsMohamed Ismail Yasar Arafath K, Aurobinda Routray. 609-613 [doi]

Acoustic Scene Classification Using Teacher-Student Learning with Soft-LabelsHee-Soo Heo, Jee-weon Jung, Hye-jin Shim, Ha-Jin Yu. 614-618 [doi]

Rare Sound Event Detection Using Deep Learning and Data AugmentationYanping Chen 0005, Hongxia Jin. 619-623 [doi]

A Combination of Model-Based and Feature-Based Strategy for Speech-to-Singing AlignmentBidisha Sharma, Haizhou Li 0001. 624-628 [doi]

Dr.VOT: Measuring Positive and Negative Voice Onset Time in the WildYosi Shrem, Matthew Goldrick, Joseph Keshet. 629-633 [doi]

Effects of Base-Frequency and Spectral Envelope on Deep-Learning Speech Separation and Recognition ModelsJ. Hui, Y. Wei, S. T. Chen, R. H. Y. So. 634-638 [doi]

Phone Aware Nearest Neighbor Technique Using Spectral Transition Measure for Non-Parallel Voice ConversionNirmesh J. Shah, Hemant A. Patil. 639-643 [doi]

Weakly Supervised Syllable Segmentation by Vowel-Consonant Peak ClassificationRavi Shankar, Archana Venkataraman. 644-648 [doi]

An Approach to Online Speaker Change Point Detection Using DNNs and WFSTsLukás Mateju, Petr Cerva, Jindrich Zdánský. 649-653 [doi]

Regression and Classification for Direction-of-Arrival Estimation with Convolutional Recurrent Neural NetworksZhenyu Tang, John D. Kanu, Kevin Hogan, Dinesh Manocha. 654-658 [doi]

Non-Parallel Voice Conversion Using Weighted Generative Adversarial NetworksDipjyoti Paul, Yannis Pantazis, Yannis Stylianou. 659-663 [doi]

One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance NormalizationJu-Chieh Chou, Hung-yi Lee. 664-668 [doi]

One-Shot Voice Conversion with Global Speaker EmbeddingsHui Lu, Zhiyong Wu, Dongyang Dai, Runnan Li, Shiyin Kang, Jia Jia 0001, Helen Meng. 669-673 [doi]

Non-Parallel Voice Conversion with Cyclic Variational AutoencoderPatrick Lumban Tobing, Yi-Chiao Wu, Tomoki Hayashi, Kazuhiro Kobayashi, Tomoki Toda. 674-678 [doi]

StarGAN-VC2: Rethinking Conditional Methods for StarGAN-Based Voice ConversionTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo. 679-683 [doi]

Robustness of Statistical Voice Conversion Based on Direct Waveform Modification Against Background SoundsYusuke Kurita, Kazuhiro Kobayashi, Kazuya Takeda, Tomoki Toda. 684-688 [doi]

Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial NetworksShengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma. 689-693 [doi]

GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-SpectrogramLauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku. 694-698 [doi]

Probability Density Distillation with Generative Adversarial Networks for High-Quality Parallel Waveform GenerationRyuichi Yamamoto, Eunwoo Song, Jae Min Kim. 699-703 [doi]

One-Shot Voice Conversion with Disentangled Representations by Leveraging Phonetic PosteriorgramsSeyed Hamidreza Mohammadi, Taehwan Kim. 704-708 [doi]

Investigation of F0 Conditioning and Fully Convolutional Networks in Variational Autoencoder Based Voice ConversionWen-Chin Huang, Yi-Chiao Wu, Chen-Chou Lo, Patrick Lumban Tobing, Tomoki Hayashi, Kazuhiro Kobayashi, Tomoki Toda, Yu Tsao 0001, Hsin-Min Wang. 709-713 [doi]

Jointly Trained Conversion Model and WaveNet Vocoder for Non-Parallel Voice Conversion Using Mel-Spectrograms and Phonetic PosteriorgramsSongxiang Liu, Yuewen Cao, Xixin Wu, Lifa Sun, Xunying Liu, Helen Meng. 714-718 [doi]

Generative Adversarial Networks for Unpaired Voice Transformation on Impaired SpeechLi-Wei Chen, Hung-yi Lee, Yu Tsao 0001. 719-723 [doi]

Group Latent Embedding for Vector Quantized Variational Autoencoder in Non-Parallel Voice ConversionShaojin Ding, Ricardo Gutierrez-Osuna. 724-728 [doi]

Semi-Supervised Voice Conversion with Amortized Variational InferenceCory Stephenson, Gokce Keskin, Anil Thomas, Oguz H. Elibol. 729-733 [doi]

Exploiting Semi-Supervised Training Through a Dropout Regularization in End-to-End Speech RecognitionSubhadeep Dey, Petr Motlícek, Trung Bui, Franck Dernoncourt. 734-738 [doi]

Improved Vocal Tract Length Perturbation for a State-of-the-Art End-to-End Speech Recognition SystemChanwoo Kim, Minkyu Shin, Abhinav Garg, Dhananjaya Gowda. 739-743 [doi]

Multi-Accent Adaptation Based on Gate MechanismHan Zhu, Li Wang, Pengyuan Zhang, Yonghong Yan 0002. 744-748 [doi]

Unsupervised Adaptation with Adversarial Dropout Regularization for Robust Speech RecognitionPengcheng Guo, Sining Sun, Lei Xie 0001. 749-753 [doi]

Cumulative Adaptation for BLSTM Acoustic ModelsMarkus Kitza, Pavel Golik, Ralf Schlüter, Hermann Ney. 754-758 [doi]

Fast DNN Acoustic Model Speaker Adaptation by Learning Hidden Unit Contribution FeaturesXurong Xie, Xunying Liu, Tan Lee, Lan Wang. 759-763 [doi]

End-to-End Adaptation with Backpropagation Through WFST for On-Device Speech Recognition SystemEmiru Tsunoo, Yosuke Kashiwagi, Satoshi Asakawa, Toshiyuki Kumakura. 764-768 [doi]

Learning Speaker Aware Offsets for Speaker Adaptation of Neural NetworksLeda Sari, Samuel Thomas, Mark A. Hasegawa-Johnson. 769-773 [doi]

An Investigation into On-Device Personalization of End-to-End Automatic Speech Recognition ModelsKhe Chai Sim, Petr Zadrazil, Françoise Beaufays. 774-778 [doi]

A Multi-Accent Acoustic Model Using Mixture of Experts for Speech RecognitionAbhinav Jain, Vishwanath P. Singh, Shakti P. Rath. 779-783 [doi]

Personalizing ASR for Dysarthric and Accented Speech with Limited DataJoel Shor, Dotan Emanuel, Oran Lang, Omry Tuval, Michael Brenner, Julie Cattiau, Fernando Vieira, Maeve McNally, Taylor Charbonneau, Melissa Nollstadt, Avinatan Hassidim, Yossi Matias. 784-788 [doi]

Mitigating Noisy Inputs for Question AnsweringDenis Peskov, Joe Barrow, Pedro Rodriguez, Graham Neubig, Jordan L. Boyd-Graber. 789-793 [doi]

One-vs-All Models for Asynchronous Training: An Empirical AnalysisRahul Gupta, Aman Alok, Shankar Ananthakrishnan. 794-798 [doi]

Adapting a FrameNet Semantic Parser for Spoken Language Understanding Using Adversarial LearningGabriel Marzinotto, Géraldine Damnati, Frédéric Béchet. 799-803 [doi]

M2H-GAN: A GAN-Based Mapping from Machine to Human Transcripts for Speech UnderstandingTitouan Parcollet, Mohamed Morchid, Xavier Bost, Georges Linarès. 804-808 [doi]

Ultra-Compact NLU: Neuronal Network Binarization as RegularizationMunir Georges, Krzysztof Czarnowski, Tobias Bocklet. 809-813 [doi]

Speech Model Pre-Training for End-to-End Spoken Language UnderstandingLoren Lugosch, Mirco Ravanelli, Patrick Ignoto, Vikrant Singh Tomar, Yoshua Bengio. 814-818 [doi]

Spoken Language Intent Detection Using Confusion2VecPrashanth Gurunath Shivakumar, Mu Yang, Panayiotis G. Georgiou. 819-823 [doi]

Investigating Adaptation and Transfer Learning for End-to-End Spoken Language Understanding from SpeechNatalia Tomashenko, Antoine Caubrière, Yannick Estève. 824-828 [doi]

Topic-Aware Dialogue Speech Recognition with Transfer LearningYuanfeng Song, Di Jiang, Xueyang Wu 0001, Qian Xu, Raymond Chi-Wing Wong, Qiang Yang. 829-833 [doi]

Improving Conversation-Context Language Models with Multiple Spoken Language Understanding ModelsRyo Masumura, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Takanobu Oba, Satoshi Kobashikawa, Yushi Aono. 834-838 [doi]

Meta Learning for Hyperparameter Optimization in Dialogue SystemJen-Tzung Chien, Wei Xiang Lieow. 839-843 [doi]

Zero Shot Intent Classification Using Long-Short Term Memory NetworksKyle Williams. 844-848 [doi]

A Comparison of Deep Learning Methods for Language UnderstandingMandy Korpusik, Zoe Liu, James R. Glass. 849-853 [doi]

Slot Filling with Weighted Multi-Encoders for Out-of-Domain ValuesYuka Kobayashi, Takami Yoshida, Kenji Iwata, Hiroshi Fujimura. 854-858 [doi]

Multi-Corpus Acoustic-to-Articulatory Speech InversionNadee Seneviratne, Ganesh Sivaraman, Carol Y. Espy-Wilson. 859-863 [doi]

Towards a Speaker Independent Speech-BCI Using Speaker AdaptationDebadatta Dash, Alan Wisler, Paul Ferrari, Jun Wang 0037. 864-868 [doi]

Identifying Input Features for Development of Real-Time Translation of Neural Signals to TextJanaki Sheth, Ariel Tankus, Michelle Tran, Lindy Comstock, Itzhak Fried, William Speier. 869-873 [doi]

Exploring Critical Articulator Identification from 50Hz RT-MRI Data of the Vocal TractSamuel S. Silva, António J. S. Teixeira, Conceição Cunha, Nuno Almeida, Arun A. Joseph, Jens Frahm. 874-878 [doi]

Towards a Method of Dynamic Vocal Tract Shapes Generation by Combining Static 3D and Dynamic 2D MRI Speech DataIoannis K. Douros, Anastasiia Tsukanova, Karyna Isaieva, Pierre-André Vuissoz, Yves Laprie. 879-883 [doi]

Temporal Coordination of Articulatory and Respiratory Events Prior to Speech InitiationOksana Rasskazova, Christine Mooshammer, Susanne Fuchs. 884-888 [doi]

Zooming in on Spatiotemporal V-to-C Coarticulation with Functional PCAMichele Gubian, Manfred Pastätter, Marianne Pouplier. 889-893 [doi]

Ultrasound-Based Silent Speech Interface Built on a Continuous VocoderTamás Gábor Csapó, Mohammed Salah Al-Radhi, Géza Németh, Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó. 894-898 [doi]

Assessing Acoustic and Articulatory Dimensions of Speech Motor Adaptation with Random ForestsEugen Klein, Jana Brunner, Phil Hoole. 899-903 [doi]

Speech Organ Contour Extraction Using Real-Time MRI and Machine Learning MethodHironori Takemoto, Tsubasa Goto, Yuya Hagihara, Sayaka Hamanaka, Tatsuya Kitamura, Yukiko Nota, Kikuo Maekawa. 904-908 [doi]

CNN-Based Phoneme Classifier from Vocal Tract MRI Learns Embedding Consistent with Articulatory TopologyK. G. van Leeuwen, P. Bos, Stefano Trebeschi, Maarten J. A. van Alphen, Luuk Voskuilen, Ludi E. Smeele, Ferdi van der Heijden, R. J. J. H. van Son. 909-913 [doi]

Strength and Structure: Coupling Tones with Oral Constriction GesturesDoris Mücke, Anne Hermes, Sam Tilsen. 914-918 [doi]

Salient Speech Representations Based on Cloned NetworksW. Bastiaan Kleijn, Felicia S. C. Lim, Michael Chinen, Jan Skoglund. 919-923 [doi]

ASR Inspired Syllable Stress Detection for Pronunciation Evaluation Without Using a Supervised Classifier and Syllable Level FeaturesManoj Kumar Ramanathi, Chiranjeevi Yarra, Prasanta Kumar Ghosh. 924-928 [doi]

Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural NetworkRenuka Mannem, Jhansi Mallela, Aravind Illa, Prasanta Kumar Ghosh. 929-933 [doi]

Predictive Auxiliary Variational Autoencoder for Representation Learning of Global Speech CharacteristicsSebastian Springenberg, Egor Lakomkin, Cornelius Weber, Stefan Wermter. 934-938 [doi]

Unsupervised Low-Rank Representations for Speech Emotion RecognitionGeorgios Paraskevopoulos, Efthymios Tzinis, Nikolaos Ellinas, Theodoros Giannakopoulos, Alexandros Potamianos. 939-943 [doi]

On the Suitability of the Riesz Spectro-Temporal Envelope for WaveNet Based Speech SynthesisJitendra Kumar Dhiman, Nagaraj Adiga, Chandra Sekhar Seelamantula. 944-948 [doi]

Autonomous Emotion Learning in Speech: A View of Zero-Shot Speech Emotion RecognitionXinzhou Xu, Jun Deng, Nicholas Cummins, Zixing Zhang 0001, Li Zhao 0003, Björn W. Schuller. 949-953 [doi]

An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition ProbabilitiesSweekar Sudhakara, Manoj Kumar Ramanathi, Chiranjeevi Yarra, Prasanta Kumar Ghosh. 954-958 [doi]

Low Resource Automatic Intonation Classification Using Gated Recurrent Unit (GRU) Networks Pre-Trained with Synthesized Pitch PatternsAtreyee Saha, Chiranjeevi Yarra, Prasanta Kumar Ghosh. 959-963 [doi]

Apkinson: A Mobile Solution for Multimodal Assessment of Patients with Parkinson's DiseaseJuan Camilo Vásquez-Correa, Tomas Arias-Vergara, Philipp Klumpp, M. Strauss, Arne Küderle, Nils Roth, S. Bayerl, Nicanor García-Ospina, Paula Andrea Pérez-Toro, L. Felipe Parra-Gallego, Cristian David Rios-Urrego, D. Escobar-Grisales, Juan Rafael Orozco-Arroyave, Björn Eskofier, Elmar Nöth. 964-965 [doi]

Depression State Assessment: Application for Detection of Depression by SpeechGábor Kiss, Dávid Sztahó, Klára Vicsi. 966-967 [doi]

SPIRE-fluent: A Self-Learning App for Tutoring Oral Fluency to Second Language English LearnersChiranjeevi Yarra, Aparna Srinivasan, Sravani Gottimukkala, Prasanta Kumar Ghosh. 968-969 [doi]

Using Real-Time Visual Biofeedback for Second Language InstructionShawn L. Nissen, Rebecca Nissen. 970-971 [doi]

Splash: Speech and Language Assessment in Schools and HomesA. Miwardelli, I. Gallagher, J. Gibson, Napoleon Katsos, Kate M. Knill, H. Wood. 972-973 [doi]

Using Ultrasound Imaging to Create Augmented Visual Biofeedback for Articulatory PracticeColin T. Annand, Maurice Lamb, Sarah Dugan, Sarah R. Li, Hannah M. Woeste, T. Douglas Mast, Michael A. Riley, Jack A. Masterson, Neeraja Mahalingam, Kathryn J. Eary, Caroline Spencer, Suzanne Boyce, Stephanie Jackson, Anoosha Baxi, Reneé Seward. 974-975 [doi]

Speech-Based Web Navigation for Limited Mobility UsersVasiliy Radostev, Serge Berger, Justin Tabrizi, Pasha Kamyshev, Hisami Suzuki. 976-977 [doi]

The Second DIHARD Diarization Challenge: Dataset, Task, and BaselinesNeville Ryant, Kenneth Church, Christopher Cieri, Alejandrina Cristià, Jun Du, Sriram Ganapathy, Mark Liberman. 978-982 [doi]

LEAP Diarization System for the Second DIHARD ChallengePrachi Singh, Harsha Vardhan, Sriram Ganapathy, A. Kanagasundaram. 983-987 [doi]

ViVoLAB Speaker Diarization System for the DIHARD 2019 ChallengeIgnacio Viñals, Pablo Gimeno, Alfonso Ortega Giménez, Antonio Miguel, Eduardo Lleida. 988-992 [doi]

UWB-NTIS Speaker Diarization System for the DIHARD II 2019 ChallengeZbynek Zajíc, Marie Kunesová, Marek Hrúz, Jan Vanek. 993-997 [doi]

The Second DIHARD Challenge: System Description for USC-SAIL TeamTae-Jin Park, Manoj Kumar 0007, Nikolaos Flemotomos, Monisankha Pal, Raghuveer Peri, Rimita Lahiri, Panayiotis G. Georgiou, Shrikanth Narayanan. 998-1002 [doi]

Speaker Diarization with Deep Speaker Embeddings for DIHARD Challenge IISergey Novoselov, Aleksei Gusev, Artem Ivanov, Timur Pekhovsky, Andrey Shulipa, Anastasia Avdeeva, Artem Gorlanov, Alexandr Kozlov. 1003-1007 [doi]

ASVspoof 2019: Future Horizons in Spoofed and Fake Audio DetectionMassimiliano Todisco, Xin Wang 0037, Ville Vestman, Md. Sahidullah, Héctor Delgado, Andreas Nautsch, Junichi Yamagishi, Nicholas W. D. Evans, Tomi H. Kinnunen, Kong-Aik Lee. 1008-1012 [doi]

ASSERT: Anti-Spoofing with Squeeze-Excitation and Residual NetworksCheng-I Lai, Nanxin Chen, Jesús Villalba, Najim Dehak. 1013-1017 [doi]

Ensemble Models for Spoofing Detection in Automatic Speaker VerificationBhusan Chettri, Daniel Stoller, Veronica Morfi, Marco A. Martínez Ramírez, Emmanouil Benetos, Bob L. Sturm. 1018-1022 [doi]

The DKU Replay Detection System for the ASVspoof 2019 Challenge: On Data Augmentation, Feature Representation, Classification, and FusionWeicheng Cai, Haiwei Wu, Danwei Cai, Ming Li 0026. 1023-1027 [doi]

Robust Bayesian and Light Neural Networks for Voice Spoofing DetectionRadoslaw Bialobrzeski, Michal Kosmider, Mateusz Matuszewski, Marcin Plata, Alexander Rakowski. 1028-1032 [doi]

STC Antispoofing Systems for the ASVspoof2019 ChallengeGalina Lavrentyeva, Sergey Novoselov, Andzhukaev Tseren, Marina Volkova, Artem Gorlanov, Alexandr Kozlov. 1033-1037 [doi]

The SJTU Robust Anti-Spoofing System for the ASVspoof 2019 ChallengeYexin Yang, Hongji Wang, Heinrich Dinkel, Zhengyang Chen, Shuai Wang 0016, Yanmin Qian, Kai Yu 0004. 1038-1042 [doi]

IIIT-H Spoofing Countermeasures for Automatic Speaker Verification Spoofing and Countermeasures Challenge 2019K. N. R. K. Raju Alluri, Anil Kumar Vuppala. 1043-1047 [doi]

Anti-Spoofing Speaker Verification System with Multi-Feature Integration and Multi-Task LearningRongjin Li, Miao Zhao, Zheng Li, Lin Li, Qingyang Hong. 1048-1052 [doi]

Speech Replay Detection with x-Vector Attack Embeddings and Spectral FeaturesJennifer Williams, Joanna Rownicka. 1053-1057 [doi]

Long Range Acoustic Features for Spoofed Speech DetectionRohan Kumar Das, Jichen Yang, Haizhou Li 0001. 1058-1062 [doi]

Transfer-Representation Learning for Detecting Spoofing Attacks with Converted and Synthesized Speech in Automatic Speaker Verification SystemSu-Yu Chang, Kai-Cheng Wu, Chia-Ping Chen. 1063-1067 [doi]

A Light Convolutional GRU-RNN Deep Feature Extractor for ASV Spoofing DetectionAlejandro Gómez Alanís, Antonio M. Peinado, José A. González 0001, Angel M. Gomez. 1068-1072 [doi]

Detecting Spoofing Attacks Using VGG and SincNet: BUT-Omilia Submission to ASVspoof 2019 ChallengeHossein Zeinali, Themos Stafylakis, Georgia Athanasopoulou, Johan Rohdin, Ioannis Gkinis, Lukás Burget, Jan Cernocký. 1073-1077 [doi]

Deep Residual Neural Networks for Audio Spoofing DetectionMoustafa Alzantot, Ziqi Wang, Mani B. Srivastava. 1078-1082 [doi]

Replay Attack Detection with Complementary High-Resolution Information Using End-to-End DNN for the ASVspoof 2019 ChallengeJee-weon Jung, Hye-jin Shim, Hee-Soo Heo, Ha-Jin Yu. 1083-1087 [doi]

The Zero Resource Speech Challenge 2019: TTS Without TEwan Dunbar, Robin Algayres, Julien Karadayi, Mathieu Bernard, Juan Benjumea, Xuan-Nga Cao, Lucie Miskic, Charlotte Dugrain, Lucas Ondel, Alan W. Black, Laurent Besacier, Sakriani Sakti, Emmanuel Dupoux. 1088-1092 [doi]

Combining Adversarial Training and Disentangled Speech Representation for Robust Zero-Resource Subword ModelingSiyuan Feng, Tan Lee, Zhiyuan Peng. 1093-1097 [doi]

Temporally-Aware Acoustic Unit Discovery for Zerospeech 2019 ChallengeBolaji Yusuf, Alican Gök, Batuhan Gündogdu, Oyku Deniz Kose, Murat Saraclar. 1098-1102 [doi]

Unsupervised Acoustic Unit Discovery for Speech Synthesis Using Discrete Latent-Variable Neural NetworksRyan Eloff, André Nortje, Benjamin van Niekerk, Avashna Govender, Leanne Nortje, Arnu Pretorius, Elan Van Biljon, Ewald van der Westhuizen, Lisa van Staden, Herman Kamper. 1103-1107 [doi]

Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice ConversionAndy T. Liu, Po-Chun Hsu, Hung-yi Lee. 1108-1112 [doi]

Zero Resource Speech Synthesis Using Transcripts Derived from Perceptual Acoustic UnitsKarthik Pandia D. S, Hema A. Murthy. 1113-1117 [doi]

VQVAE Unsupervised Unit Discovery and Multi-Scale Code2Spec Inverter for Zerospeech Challenge 2019Andros Tjandra, Berrak Sisman, Mingyang Zhang 0003, Sakriani Sakti, Haizhou Li 0001, Satoshi Nakamura 0001. 1118-1122 [doi]

Direct Speech-to-Speech Translation with a Sequence-to-Sequence ModelYe Jia, Ron J. Weiss, Fadi Biadsy, Wolfgang Macherey, Melvin Johnson, Zhifeng Chen, Yonghui Wu. 1123-1127 [doi]

End-to-End Speech Translation with Knowledge DistillationYuchen Liu, Hao Xiong, Jiajun Zhang, Zhongjun He, Hua Wu, Haifeng Wang, Chengqing Zong. 1128-1132 [doi]

Adapting Transformer to End-to-End Spoken Language TranslationMattia Antonino Di Gangi, Matteo Negri, Marco Turchi. 1133-1137 [doi]

Unsupervised Phonetic and Word Level Discovery for Speech to Speech Translation for Unwritten LanguagesSteven Hillis, Anushree Prasanna Kumar, Alan W. Black. 1138-1142 [doi]

Deep Speaker Recognition: Modular or Monolithic?Gautam Bhattacharya, Md. Jahangir Alam, Patrick Kenny. 1143-1147 [doi]

On the Usage of Phonetic Information for Text-Independent Speaker Embedding ExtractionShuai Wang 0016, Johan Rohdin, Lukás Burget, Oldrich Plchot, Yanmin Qian, Kai Yu 0004, Jan Cernocký. 1148-1152 [doi]

Learning Speaker Representations with Mutual InformationMirco Ravanelli, Yoshua Bengio. 1153-1157 [doi]

Multi-Task Learning with High-Order Statistics for x-Vector Based Text-Independent Speaker VerificationLanhua You, Wu Guo, Li-Rong Dai, Jun Du. 1158-1162 [doi]

Data Augmentation Using Variational Autoencoder for Embedding Based Speaker VerificationZhanghao Wu, Shuai Wang 0016, Yanmin Qian, Kai Yu 0004. 1163-1167 [doi]

Deep Neural Network Embeddings with Gating Mechanisms for Text-Independent Speaker VerificationLanhua You, Wu Guo, Li-Rong Dai, Jun Du. 1168-1172 [doi]

Neural Transition Systems for Modeling Hierarchical Semantic RepresentationsRiyaz Ahmad Bhat, John Chen, Rashmi Prasad, Srinivas Bangalore. 1173-1177 [doi]

Mining Polysemous Triplets with Recurrent Neural Networks for Spoken Language UnderstandingVedran Vukotic, Christian Raymond. 1178-1182 [doi]

Iterative Delexicalization for Improved Spoken Language UnderstandingAvik Ray, Yilin Shen, Hongxia Jin. 1183-1187 [doi]

End-to-End Spoken Language Understanding: Bootstrapping in Low Resource ScenariosSwapnil Bhosale, Imran Sheikh, Sri Harsha Dumpala, Sunil Kumar Kopparapu. 1188-1192 [doi]

Recognition of Intentions of Users' Short Responses for Conversational News Delivery SystemHiroaki Takatsu, Katsuya Yokoyama, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, Tetsunori Kobayashi. 1193-1197 [doi]

Curriculum-Based Transfer Learning for an Effective End-to-End Spoken Language Understanding and Domain PortabilityAntoine Caubrière, Natalia A. Tomashenko, Antoine Laurent, Emmanuel Morin, Nathalie Camelin, Yannick Estève. 1198-1202 [doi]

Spatial and Spectral Fingerprint in the Brain: Speaker Identification from Single Trial MEG SignalsDebadatta Dash, Paul Ferrari, Jun Wang 0037. 1203-1207 [doi]

ERP Signal Analysis with Temporal Resolution Using a Time Window BankAnnika Nijveld, Louis ten Bosch, Mirjam Ernestus. 1208-1212 [doi]

Phase Synchronization Between EEG Signals as a Function of Differences Between Stimuli CharacteristicsLouis ten Bosch, Kimberley Mulder, Louis Boves. 1213-1217 [doi]

The Processing of Prosodic Cues to Rhetorical Question Interpretation: Psycholinguistic and Neurolinguistics EvidenceMariya Kharaman, Manluolan Xu, Carsten Eulitz, Bettina Braun. 1218-1222 [doi]

The Neural Correlates Underlying Lexically-Guided Perceptual LearningOdette Scharenborg, Jiska Koemans, Cybelle Smith, Mark A. Hasegawa-Johnson, Kara D. Federmeier. 1223-1227 [doi]

Speech Quality Evaluation of Synthesized Japanese Speech Using EEGIvan Halim Parmonangan, Hiroki Tanaka, Sakriani Sakti, Shinnosuke Takamichi, Satoshi Nakamura 0001. 1228-1232 [doi]

Multi-Microphone Adaptive Noise Cancellation for Robust Hotword DetectionYiteng Huang, Turaj Zakizadeh Shabestary, Alexander Gruenstein, Li Wan. 1233-1237 [doi]

Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech RecognitionShengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma. 1238-1242 [doi]

R-Vectors: New Technique for Adaptation to Room AcousticsYuri Y. Khokhlov, Alexander Zatvornitskiy, Ivan Medennikov, Ivan Sorokin, Tatiana Prisyach, Aleksei Romanenko, Anton Mitrofanov, Vladimir Bataev, Andrei Andrusenko, Mariya Korenevskaya, Oleg Petrov. 1243-1247 [doi]

Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASRNaoyuki Kanda, Christoph Böddeker, Jens Heitkaemper, Yusuke Fujita, Shota Horiguchi, Kenji Nagamatsu, Reinhold Haeb-Umbach. 1248-1252 [doi]

Unsupervised Training of Neural Mask-Based BeamformingLukas Drude, Jahn Heymann, Reinhold Haeb-Umbach. 1253-1257 [doi]

Acoustic Model Ensembling Using Effective Data Augmentation for CHiME-5 ChallengeFeng Ma, Li Chai 0002, Jun Du, Diyuan Liu, Zhongfu Ye, Chin-Hui Lee. 1258-1262 [doi]

Attention Based Hybrid i-Vector BLSTM Model for Language RecognitionBharat Padi, Anand Mohan, Sriram Ganapathy. 1263-1267 [doi]

RawNet: Advanced End-to-End Deep Neural Network Using Raw Waveforms for Text-Independent Speaker VerificationJee-weon Jung, Hee-Soo Heo, Ju-ho Kim, Hye-jin Shim, Ha-Jin Yu. 1268-1272 [doi]

Target Speaker Extraction for Multi-Talker Speaker VerificationWei Rao, Chenglin Xu, Eng Siong Chng, Haizhou Li 0001. 1273-1277 [doi]

Improving Keyword Spotting and Language Identification via Neural Architecture Search at ScaleHanna Mazzawi, Xavi Gonzalvo, Aleks Kracun, Prashant Sridhar, Niranjan Subrahmanya, Ignacio Lopez-Moreno, Hyun-Jin Park, Patrick Violette. 1278-1282 [doi]

Forward-Backward Decoding for Regularizing End-to-End TTSYibin Zheng, Xi Wang, Lei He, Shifeng Pan, Frank K. Soong, Zhengqi Wen, Jianhua Tao. 1283-1287 [doi]

A New GAN-Based End-to-End TTS Training AlgorithmHaohan Guo, Frank K. Soong, Lei He, Lei Xie. 1288-1292 [doi]

Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Neural TTSMutian He, Yan Deng, Lei He. 1293-1297 [doi]

Joint Training Framework for Text-to-Speech and Voice Conversion Using Multi-Source Tacotron and WaveNetMingyang Zhang 0003, Xin Wang 0037, Fuming Fang, Haizhou Li 0001, Junichi Yamagishi. 1298-1302 [doi]

Training Multi-Speaker Neural Text-to-Speech Systems Using Speaker-Imbalanced Speech CorporaHieu-Thi Luong, Xin Wang, Junichi Yamagishi, Nobuyuki Nishizawa. 1303-1307 [doi]

Real-Time Neural Text-to-Speech with Sequence-to-Sequence Acoustic Model and WaveGlow or Single Gaussian WaveRNN VocodersTakuma Okamoto, Tomoki Toda, Yoshinori Shiga, Hisashi Kawai. 1308-1312 [doi]

Fusion Strategy for Prosodic and Lexical Representations of Word ImportanceSushant Kafle, Cecilia Ovesdotter Alm, Matt Huenerfauth. 1313-1317 [doi]

Self Attention in Variational Sequential Learning for SummarizationJen-Tzung Chien, Chun-Wei Wang. 1318-1322 [doi]

Multi-Modal Sentiment Analysis Using Deep Canonical Correlation AnalysisZhongkai Sun, Prathusha Kameswara Sarma, William A. Sethares, Erik P. Bucy. 1323-1327 [doi]

Interpreting and Improving Deep Neural SLU Models via Vocabulary ImportanceYilin Shen, Wenhu Chen, Hongxia Jin. 1328-1332 [doi]

Assessing the Semantic Space Bias Caused by ASR Error Propagation and its Effect on Spoken Document SummarizationMáté Ákos Tündik, Valér Kaszás, György Szaszák. 1333-1337 [doi]

Latent Topic Attention for Domain ClassificationPeisong Huang, Peijie Huang, Wencheng Ai, Jiande Ding, Jinchuan Zhang. 1338-1342 [doi]

A Unified Bayesian Source Modelling for Determined Blind Source SeparationChaitanya Narisetty. 1343-1347 [doi]

Recursive Speech Separation for Unknown Number of SpeakersNaoya Takahashi, Sudarsanam Parthasaarathy, Nabarun Goswami, Yuki Mitsufuji. 1348-1352 [doi]

Practical Applicability of Deep Neural Networks for Overlapping Speaker SeparationPieter Appeltans, Jeroen Zegers, Hugo Van Hamme. 1353-1357 [doi]

Speech Separation Using Independent Vector Analysis with an Amplitude Variable Gaussian Mixture ModelZhaoyi Gu, Jing Lu, Kai Chen. 1358-1362 [doi]

Improved Speech Separation with Time-and-Frequency Cross-Domain Joint Embedding and ClusteringGene-Ping Yang, Chao-I Tuan, Hung-yi Lee, Lin-Shan Lee. 1363-1367 [doi]

WHAM!: Extending Speech Separation to Noisy EnvironmentsGordon Wichern, Joe Antognini, Michael Flynn, Licheng Richard Zhu, Emmett McQuinn, Dwight Crow, Ethan Manilow, Jonathan Le Roux. 1368-1372 [doi]

Evaluating Near End Listening Enhancement Algorithms in Realistic EnvironmentsCarol Chermaz, Cassia Valentini-Botinhao, Henning F. Schepker, Simon King. 1373-1377 [doi]

Improvement and Assessment of Spectro-Temporal Modulation Analysis for Speech Intelligibility EstimationAmin Edraki, Wai-Yip Chan, Jesper Jensen 0001, Daniel Fogerty. 1378-1382 [doi]

Listener Preference on the Local Criterion for Ideal Binary-Masked SpeechZhuohuang Zhang, Yi Shen. 1383-1387 [doi]

Using a Manifold Vocoder for Spectral Voice and Style ConversionTuan Dinh, Alexander Kain, Kris Tjaden. 1388-1392 [doi]

Multi-Span Acoustic Modelling Using Raw Waveform SignalsPatrick von Platen, Chao Zhang, Philip C. Woodland. 1393-1397 [doi]

An Analysis of Local Monotonic Attention VariantsAndré Merboldt, Albert Zeyer, Ralf Schlüter, Hermann Ney. 1398-1402 [doi]

Layer Trajectory BLSTMEric Sun, Jinyu Li, Yifan Gong. 1403-1407 [doi]

Improving Transformer-Based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model IntegrationShigeki Karita, Nelson Enrique Yalta Soplin, Shinji Watanabe, Marc Delcroix, Atsunori Ogawa, Tomohiro Nakatani. 1408-1412 [doi]

Trainable Dynamic Subsampling for End-to-End Speech RecognitionShucong Zhang, Erfan Loweimi, Yumo Xu, Peter Bell 0001, Steve Renals. 1413-1417 [doi]

Shallow-Fusion End-to-End Contextual BiasingDing Zhao, Tara N. Sainath, David Rybach, Pat Rondon, Deepti Bhatia, Bo Li, Ruoming Pang. 1418-1422 [doi]

Modeling Interpersonal Linguistic Coordination in Conversations Using Word Mover's DistanceMd. Nasir, Sandeep Nallan Chakravarthula, Brian R. W. Baucom, David C. Atkins, Panayiotis G. Georgiou, Shrikanth Narayanan. 1423-1427 [doi]

Bag-of-Acoustic-Words for Mental Health Assessment: A Deep Autoencoding ApproachWenchao Du, Louis-Philippe Morency, Jeffrey F. Cohn, Alan W. Black. 1428-1432 [doi]

Objective Assessment of Social Skills Using Automated Language Analysis for Identification of Schizophrenia and Bipolar DisorderRohit Voleti, Stephanie Woolridge, Julie M. Liss, Melissa Milanovic, Christopher R. Bowie, Visar Berisha. 1433-1437 [doi]

Into the Wild: Transitioning from Recognizing Mood in Clinical Interactions to Personal Conversations for Individuals with Bipolar DisorderKatie Matton, Melvin G. McInnis, Emily Mower Provost. 1438-1442 [doi]

Detecting Depression with Word-Level Multimodal FusionMorteza Rohanian, Julian Hough, Matthew Purver. 1443-1447 [doi]

Assessing Neuromotor Coordination in Depression Using Inverted Vocal Tract VariablesCarol Y. Espy-Wilson, Adam C. Lammert, Nadee Seneviratne, Thomas F. Quatieri. 1448-1452 [doi]

Towards Universal Dialogue Act Tagging for Task-Oriented DialoguesShachi Paul, Rahul Goel, Dilek Hakkani-Tür. 1453-1457 [doi]

HyST: A Hybrid Approach for Flexible and Accurate Dialogue State TrackingRahul Goel, Shachi Paul, Dilek Hakkani-Tür. 1458-1462 [doi]

Multi-Lingual Dialogue Act Recognition with Deep Learning MethodsJirí Martínek, Pavel Král, Ladislav Lenc, Christophe Cerisara. 1463-1467 [doi]

BERT-DST: Scalable End-to-End Dialogue State Tracking with Bidirectional Encoder Representations from TransformerGuan-Lin Chao, Ian Lane. 1468-1472 [doi]

Discovering Dialog Rules by Means of an Evolutionary ApproachDavid Griol, Zoraida Callejas. 1473-1477 [doi]

Active Learning for Domain Classification in a Commercial Spoken Personal AssistantXi C. Chen, Adithya Sagar, Justine T. Kao, Tony Y. Li, Christopher Klein, Stephen Pulman, Ashish Garg, Jason D. Williams. 1478-1482 [doi]

The 2018 NIST Speaker Recognition EvaluationSeyed Omid Sadjadi, Craig S. Greenberg, Elliot Singer, Douglas A. Reynolds, Lisa P. Mason, Jaime Hernandez-Cordero. 1483-1487 [doi]

State-of-the-Art Speaker Recognition for Telephone and Video Speech: The JHU-MIT Submission for NIST SRE18Jesús Villalba, Nanxin Chen, David Snyder, Daniel Garcia-Romero, Alan McCree, Gregory Sell, Jonas Borgstrom, Fred Richardson, Suwon Shon, François Grondin, Réda Dehak, Leibny Paola García-Perera, Daniel Povey, Pedro A. Torres-Carrasquillo, Sanjeev Khudanpur, Najim Dehak. 1488-1492 [doi]

x-Vector DNN Refinement with Full-Length Recordings for Speaker RecognitionDaniel Garcia-Romero, David Snyder, Gregory Sell, Alan McCree, Daniel Povey, Sanjeev Khudanpur. 1493-1496 [doi]

I4U Submission to NIST SRE 2018: Leveraging from a Decade of Shared ExperiencesKong-Aik Lee, Ville Hautamäki, Tomi H. Kinnunen, Hitoshi Yamamoto, Koji Okabe, Ville Vestman, Jing Huang 0019, Guohong Ding, Hanwu Sun, Anthony Larcher, Rohan Kumar Das, Haizhou Li 0001, Mickael Rouvier, Pierre-Michel Bousquet, Wei Rao, Qing Wang, Chunlei Zhang, Fahimeh Bahmaninezhad, Héctor Delgado, Massimiliano Todisco. 1497-1501 [doi]

Pindrop Labs' Submission to the First Multi-Target Speaker Detection and Identification ChallengeElie Khoury, Khaled Lakhdhar, Andrew Vaughan, Ganesh Sivaraman, Parav Nagarsheth. 1502-1505 [doi]

Speaker Recognition Benchmark Using the CHiME-5 CorpusDaniel Garcia-Romero, David Snyder, Shinji Watanabe, Gregory Sell, Alan McCree, Daniel Povey, Sanjeev Khudanpur. 1506-1510 [doi]

Investigating the Effects of Noisy and Reverberant Speech in Text-to-Speech SystemsDavid Ayllón, Héctor A. Sánchez-Hevia, Carol Figueroa, Pierre Lanchantin. 1511-1515 [doi]

Selection and Training Schemes for Improving TTS Voice Built on Found DataFang-Yu Kuo, Iris Chuoying Ouyang, Sandesh Aryal, Pierre Lanchantin. 1516-1520 [doi]

All Together Now: The Living Audio DatasetDavid A. Braude, Matthew P. Aylett, Caoimhín Laoide-Kemp, Simone Ashby, Kristen M. Scott, Brian Ó Raghallaigh, Anna Braudo, Alex Brouwer, Adriana Stan. 1521-1525 [doi]

LibriTTS: A Corpus Derived from LibriSpeech for Text-to-SpeechHeiga Zen, Viet Dang, Rob Clark, Yu Zhang, Ron J. Weiss, Ye Jia, Zhifeng Chen, Yonghui Wu. 1526-1530 [doi]

Corpus Design Using Convolutional Auto-Encoder Embeddings for Audio-Book SynthesisMeysam Shamsi, Damien Lolive, Nelly Barbot, Jonathan Chevelu. 1531-1535 [doi]

Evaluating Intention Communication by TTS Using Explicit Definitions of Illocutionary Act PerformanceNobukatsu Hojo, Noboru Miyazaki. 1536-1540 [doi]

MOSNet: Deep Learning-Based Objective Assessment for Voice ConversionChen-Chou Lo, Szu-Wei Fu, Wen-Chin Huang, Xin Wang, Junichi Yamagishi, Yu Tsao, Hsin-Min Wang. 1541-1545 [doi]

Investigating the Robustness of Sequence-to-Sequence Text-to-Speech Models to Imperfectly-Transcribed Training DataJason Fong, Pilar Oplustil Gallegos, Zack Hodari, Simon King. 1546-1550 [doi]

Using Pupil Dilation to Measure Cognitive Load When Listening to Text-to-Speech in Quiet and in NoiseAvashna Govender, Anita E. Wagner, Simon King. 1551-1555 [doi]

A Multimodal Real-Time MRI Articulatory Corpus of French for Speech ResearchIoannis K. Douros, Jacques Felblinger, Jens Frahm, Karyna Isaieva, Arun A. Joseph, Yves Laprie, Freddy Odille, Anastasiia Tsukanova, Dirk Voit, Pierre-André Vuissoz. 1556-1560 [doi]

A Chinese Dataset for Identifying Speakers in NovelsJia-Xiang Chen, Zhen-Hua Ling, Li-Rong Dai. 1561-1565 [doi]

CSS10: A Collection of Single Speaker Speech Datasets for 10 LanguagesKyubyong Park, Thomas Mulc. 1566-1570 [doi]

Attention Model for Articulatory Features DetectionIevgen Karaulov, Dmytro Tkanov. 1571-1575 [doi]

Unbiased Semi-Supervised LF-MMI Training Using DropoutSibo Tong, Apoorv Vyas, Philip N. Garner, Hervé Bourlard. 1576-1580 [doi]

Acoustic Model Optimization Based on Evolutionary Stochastic Gradient Descent with Anchors for Automatic Speech RecognitionXiaodong Cui, Michael Picheny. 1581-1585 [doi]

Whether to Pretrain DNN or not?: An Empirical Analysis for Voice ConversionNirmesh J. Shah, Hardik B. Sailor, Hemant A. Patil. 1586-1590 [doi]

Detection of Glottal Closure Instants from Raw Speech Using Convolutional Neural NetworksMohit Goyal, Varun Srivastava, Prathosh A. P.. 1591-1595 [doi]

Lattice-Based Lightly-Supervised Acoustic Model TrainingJoachim Fainberg, Ondrej Klejch, Steve Renals, Peter Bell 0001. 1596-1600 [doi]

Comparison of Lattice-Free and Lattice-Based Sequence Discriminative Training Criteria for LVCSRWilfried Michel, Ralf Schlüter, Hermann Ney. 1601-1605 [doi]

End-to-End Automatic Speech Recognition with a Reconstruction Criterion Using Speech-to-Text and Text-to-Speech Encoder-DecodersRyo Masumura, Hiroshi Sato, Tomohiro Tanaka, Takafumi Moriya, Yusuke Ijima, Takanobu Oba. 1606-1610 [doi]

Char+CV-CTC: Combining Graphemes and Consonant/Vowel Units for CTC-Based ASR Using Multitask LearningAbdelwahab Heba, Thomas Pellegrini, Jean-Pierre Lorré, Régine André-Obrecht. 1611-1615 [doi]

Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge DistillationGakuto Kurata, Kartik Audhkhasi. 1616-1620 [doi]

Direct Neuron-Wise Fusion of Cognate Neural NetworksTakashi Fukuda, Masayuki Suzuki, Gakuto Kurata. 1621-1625 [doi]

Two Tiered Distributed Training Algorithm for Acoustic ModelingPranav Ladkat, Oleg Rybakov, Radhika Arava, Sree Hari Krishnan Parthasarathi, I-Fan Chen, Nikko Strom. 1626-1630 [doi]

Exploring the Encoder Layers of Discriminative Autoencoders for LVCSRPin-Tuan Huang, Hung-Shin Lee, Syu-Siang Wang, Kuan-Yu Chen, Yu Tsao, Hsin-Min Wang. 1631-1635 [doi]

Multi-Task CTC Training with Auxiliary Feature Reconstruction for End-to-End Speech RecognitionGakuto Kurata, Kartik Audhkhasi. 1636-1640 [doi]

Framewise Supervised Training Towards End-to-End Speech Recognition Models: First ResultsMohan Li, Yuanjiang Cao, Weicong Zhou, Min Liu. 1641-1645 [doi]

Deep Hierarchical Fusion with Application in Sentiment AnalysisEfthymios Georgiou, Charilaos Papaioannou, Alexandros Potamianos. 1646-1650 [doi]

Leveraging Acoustic Cues and Paralinguistic Embeddings to Detect Expression from VoiceVikramjit Mitra, Sue Booker, Erik Marchi, David Scott Farrar, Ute Dorothea Peitz, Bridget Cheng, Ermine Teves, Anuj Mehta, Devang Naik. 1651-1655 [doi]

Analysis of Deep Learning Architectures for Cross-Corpus Speech Emotion RecognitionJack Parry, Dimitri Palaz, Georgia Clarke, Pauline Lecomte, Rebecca Mead, Michael Berger, Gregor Hofer. 1656-1660 [doi]

A Path Signature Approach for Speech Emotion RecognitionBo Wang 0034, Maria Liakata, Hao Ni, Terry Lyons, Alejo J. Nevado-Holgado, Kate Saunders. 1661-1665 [doi]

Employing Bottleneck and Convolutional Features for Speech-Based Physical Load Detection on Limited Data AmountsOlga Egorow, Tarik Mrech, Norman Weißkirchen, Andreas Wendemuth. 1666-1670 [doi]

Speech Emotion Recognition in Dyadic Dialogues with Attentive Interaction ModelingJinming Zhao, Shizhe Chen, Jingjun Liang, Qin Jin. 1671-1675 [doi]

Predicting Group Performances Using a Personality Composite-Network Architecture During Collaborative TaskShun-Chang Zhong, Yun-Shao Lin, Chun-Min Chang, Yi-Ching Liu, Chi-Chun Lee. 1676-1680 [doi]

Enforcing Semantic Consistency for Cross Corpus Valence Regression from Speech Using Adversarial Discrepancy LearningGao-Yi Chao, Yun-Shao Lin, Chun-Min Chang, Chi-Chun Lee. 1681-1685 [doi]

Deep Learning of Segment-Level Feature Representation with Multiple Instance Learning for Utterance-Level Speech Emotion RecognitionShuiyang Mao, P. C. Ching, Tan Lee. 1686-1690 [doi]

Towards Robust Speech Emotion Recognition Using Deep Residual Networks for Speech EnhancementAndreas Triantafyllopoulos, Gil Keren, Johannes Wagner 0001, Ingmar Steiner, Björn W. Schuller. 1691-1695 [doi]

Towards Discriminative Representations and Unbiased Predictions: Class-Specific Angular Softmax for Speech Emotion RecognitionZhixuan Li, Liang He, Jingyang Li, Li Wang, Wei-Qiang Zhang. 1696-1700 [doi]

Learning Temporal Clusters Using Capsule Routing for Speech Emotion RecognitionMd Asif Jalal, Erfan Loweimi, Roger K. Moore, Thomas Hain. 1701-1705 [doi]

L2 Pronunciation Accuracy and Context: A Pilot Study on the Realization of Geminates in Italian as L2 by French LearnersSonia D'Apolito, Barbara Gili Fivela. 1706-1710 [doi]

The Monophthongs of Formal Nigerian English: An Acoustic AnalysisNisad Jamakovic, Robert Fuchs. 1711-1715 [doi]

Quantifying Fundamental Frequency Modulation as a Function of Language, Speaking Style and SpeakerPablo Arantes, Anders Eriksson. 1716-1720 [doi]

The Voicing Contrast in Stops and Affricates in the Western Armenian of LebanonNiamh E. Kelly, Lara Keshishian. 1721-1725 [doi]

" Gra[f] e!" Word-Final Devoicing of Obstruents in Standard French: An Acoustic Study Based on Large CorporaAdèle Jatteau, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker, Nicolas Audibert. 1726-1730 [doi]

Acoustic Indicators of Deception in Mandarin Daily Conversations Recorded from an Interactive GameChih-Hsiang Huang, Huang-Cheng Chou, Yi-Tong Wu, Chi-Chun Lee, Yi-Wen Liu. 1731-1735 [doi]

Prosodic Effects on Plosive Duration in German and Austrian GermanBarbara Schuppler, Margaret Zellers. 1736-1740 [doi]

Cross-Lingual Consistency of Phonological Features: An Empirical StudyCibu Johny, Alexander Gutkin, Martin Jansche. 1741-1745 [doi]

Are IP Initial Vowels Acoustically More Distinct? Results from LDA and CNN ClassificationsFanny Guitard-Ivent, Gabriele Chignoli, Cécile Fougeron, Laurianne Georgeton. 1746-1750 [doi]

Neural Network-Based Modeling of Phonetic DurationsXizi Wei, Melvyn Hunt, Adrian Skilling. 1751-1755 [doi]

An Acoustic Study of Vowel Undershoot in a System with Several Degrees of ProminenceJanina Molczanow, Beata Lukaszewicz, Anna Lukaszewicz. 1756-1760 [doi]

A Preliminary Study of Charismatic Speech on YouTube: Correlating Prosodic Variation with Counts of Subscribers, Views and LikesStephanie Berger, Oliver Niebuhr, Margaret Zellers. 1761-1765 [doi]

Phonetic Detail Encoding in Explaining the Size of Speech Planning WindowShan Luo. 1766-1770 [doi]

Acoustic Cues to Topic and Narrow Focus in Egyptian ArabicDina El Zarka, Barbara Schuppler, Francesco Cangemi. 1771-1775 [doi]

Acoustic and Articulatory Study of Ewe Vowels: A Comparative Study of Male and FemaleKowovi Comivi Alowonou, Jianguo Wei, Wenhuan Lu, Zhicheng Liu, Kiyoshi Honda, Jianwu Dang. 1776-1780 [doi]

Speech Augmentation via Speaker-Specific Noise in Unseen EnvironmentYanan Guo, Ziping Zhao, Yide Ma, Björn W. Schuller. 1781-1785 [doi]

UNetGAN: A Robust Speech Enhancement Approach in Time Domain for Extremely Low Signal-to-Noise Ratio ConditionXiang Hao, Xiangdong Su, Zhiyu Wang, Hui Zhang 0031, Batushiren. 1786-1790 [doi]

Towards Generalized Speech Enhancement with Generative Adversarial NetworksSantiago Pascual, Joan Serrà, Antonio Bonafonte. 1791-1795 [doi]

A Convolutional Neural Network with Non-Local Module for Speech EnhancementXiaoqi Li, Yaxing Li, Meng Li, Shan Xu, Yuanjie Dong, Xinrong Sun, Shengwu Xiong. 1796-1800 [doi]

IA-NET: Acceleration and Compression of Speech Enhancement Using Integer-Adder Deep Neural NetworkYu-Chen Lin, Yi-Te Hsu, Szu-Wei Fu, Yu Tsao 0001, Tei-Wei Kuo. 1801-1805 [doi]

KL-Divergence Regularized Deep Neural Network Adaptation for Low-Resource Speaker-Dependent Speech EnhancementLi Chai 0002, Jun Du, Chin-Hui Lee. 1806-1810 [doi]

Speech Enhancement with Wide Residual Networks in Reverberant EnvironmentsJorge Llombart, Dayana Ribas, Antonio Miguel, Luis Vicente, Alfonso Ortega Giménez, Eduardo Lleida. 1811-1815 [doi]

A Scalable Noisy Speech Dataset and Online Subjective Test FrameworkChandan K. A. Reddy, Ebrahim Beyrami, Jamie Pool, Ross Cutler, Sriram Srinivasan, Johannes Gehrke. 1816-1820 [doi]

Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GANNagaraj Adiga, Yannis Pantazis, Vassilis Tsiaras, Yannis Stylianou. 1821-1825 [doi]

A Non-Causal FFTNet Architecture for Speech EnhancementP. V. Muhammed Shifas, Nagaraj Adiga, Vassilis Tsiaras, Yannis Stylianou. 1826-1830 [doi]

Speech Enhancement with Variance Constrained AutoencodersDaniel T. Braithwaite, W. Bastiaan Kleijn. 1831-1835 [doi]

A Deep Learning Approach to Automatic Characterisation of Rhythm in Non-Native English SpeechKonstantinos Kyriakopoulos, Kate M. Knill, Mark J. F. Gales. 1836-1840 [doi]

Language Learning Using Speech to Image RetrievalDanny Merkx, Stefan L. Frank, Mirjam Ernestus. 1841-1845 [doi]

Using Alexa for Flashcard-Based LearningLucy Skidmore, Roger K. Moore. 1846-1850 [doi]

The 2019 Inaugural Fearless Steps Challenge: A Giant Leap for Naturalistic AudioJohn H. L. Hansen, Aditya Joglekar, Meena Chandra Shekhar, Vinay Kothapally, Chengzhu Yu, Lakshmish Kaushik, Abhijeet Sangwan. 1851-1855 [doi]

Completely Unsupervised Phoneme Recognition by a Generative Adversarial Network Harmonized with Iteratively Refined Hidden Markov ModelsKuan-Yu Chen, Che-Ping Tsai, Da-Rong Liu, Hung-yi Lee, Lin-Shan Lee. 1856-1860 [doi]

Analysis of Native Listeners' Facial Microexpressions While Shadowing Non-Native Speech - Potential of Shadowers' Facial Expressions for Comprehensibility PredictionTasavat Trisitichoke, Shintaro Ando, Daisuke Saito, Nobuaki Minematsu. 1861-1865 [doi]

Transparent Pronunciation Scoring Using Articulatorily Weighted Phoneme Edit DistanceReima Karhila, Anna-Riikka Smolander, Sari Ylinen, Mikko Kurimo. 1866-1870 [doi]

Development of Robust Automated Scoring Models Using Adversarial Input for Oral Proficiency AssessmentSu-Youn Yoon, Chong Min Lee, Klaus Zechner, Keelan Evanini. 1871-1875 [doi]

Impact of ASR Performance on Spoken Grammatical Error DetectionYiting Lu, Mark J. F. Gales, Kate M. Knill, P. P. Manakul, Linlin Wang, Y. Wang. 1876-1880 [doi]

Self-Imitating Feedback Generation Using GAN for Computer-Assisted Pronunciation TrainingSeung-Hee Yang, Minhwa Chung. 1881-1885 [doi]

Joint Student-Teacher Learning for Audio-Visual Scene-Aware DialogChiori Hori, Anoop Cherian, Tim K. Marks, Takaaki Hori. 1886-1890 [doi]

Topical-Chat: Towards Knowledge-Grounded Open-Domain ConversationsKarthik Gopalakrishnan, Behnam Hedayatnia, Qinglang Chen, Anna Gottardi, Sanjeev Kwatra, Anu Venkatesh, Raefer Gabriel, Dilek Hakkani-Tür. 1891-1895 [doi]

Analyzing Verbal and Nonverbal Features for Predicting Group PerformanceUliyana Kubasova, Gabriel Murray, McKenzie Braley. 1896-1900 [doi]

Identifying Therapist and Client Personae for Therapeutic Alliance EstimationVictor R. Martinez, Nikolaos Flemotomos, Victor Ardulov, Krishna Somandepalli, Simon B. Goldberg, Zac E. Imel, David C. Atkins, Shrikanth Narayanan. 1901-1905 [doi]

Do Hesitations Facilitate Processing of Partially Defective System Utterances? An Exploratory Eye Tracking StudyKristin Haake, Sarah Schimke, Simon Betz, Sina Zarrieß. 1906-1910 [doi]

Influence of Contextuality on Prosodic Realization of Information Structure in Chinese DialoguesBin Li, Yuan Jia. 1911-1915 [doi]

Cross-Lingual Transfer Learning for Affective Spoken Dialogue SystemsKristijan Gjoreski, Aleksandar Gjoreski, Ivan Kraljevski, Diane Hirschfeld. 1916-1920 [doi]

Identifying Personality Traits Using Overlap Dynamics in Multiparty DialogueMingzhi Yu, Emer Gilmartin, Diane J. Litman. 1921-1925 [doi]

Identifying Mood Episodes Using Dialogue Features from Clinical InterviewsZakaria Aldeneh, Mimansa Jaiswal, Michael Picheny, Melvin G. McInnis, Emily Mower Provost. 1926-1930 [doi]

Do Conversational Partners Entrain on Articulatory Precision?Nichola Lubold, Stephanie A. Borrie, Tyson S. Barrett, Megan M. Willi, Visar Berisha. 1931-1935 [doi]

Conversational Emotion Analysis via Attention MechanismsZheng Lian, Jianhua Tao, Bin Liu, Jian Huang 0014. 1936-1940 [doi]

The Effect of Phoneme Distribution on Perceptual Similarity in EnglishEmma O'Neill, Julie Carson-Berndsen. 1941-1945 [doi]

Prosodic Representations of Prominence Classification Neural Networks and Autoencoders Using Bottleneck FeaturesSofoklis Kakouros, Antti Suni, Juraj Simko, Martti Vainio. 1946-1950 [doi]

Compensation for French Liquid Deletion During Auditory Sentence ProcessingSharon Peperkamp, Alvaro Martin Iturralde Zurita. 1951-1955 [doi]

Prosodic Factors Influencing Vowel Reduction in RussianDaniil Kocharov, Tatiana Kachkovskaia, Pavel A. Skrelin. 1956-1960 [doi]

Time to Frequency Domain Mapping of the Voice Source: The Influence of Open Quotient and Glottal Skew on the Low End of the Source SpectrumChrister Gobl, Ailbhe Ní Chasaide. 1961-1965 [doi]

Testing the Distinctiveness of Intonational Tunes: Evidence from Imitative Productions in American EnglishEleanor Chodroff, Jennifer S. Cole. 1966-1970 [doi]

A Study of a Cross-Language Perception Based on Cortical Analysis Using Biomimetic STRFsSangwook Park, David K. Han, Mounya Elhilali. 1971-1975 [doi]

Perceptual Evaluation of Early versus Late F0 Peaks in the Intonation Structure of Czech Question-Word QuestionsPavel Sturm, Jan Volín. 1976-1980 [doi]

Acoustic Correlates of Phonation Type in ChichimecAnneliese Kelterer, Barbara Schuppler. 1981-1985 [doi]

F0 Variability Measures Based on Glottal Closure InstantsYu-Ren Chien, Michal Borský, Jón Guðnason. 1986-1989 [doi]

Recognition of Creaky Voice from Emergency CallsLauri Tavi, Tanel Alumäe, Stefan Werner. 1990-1994 [doi]

Direct F0 Estimation with Neural-Network-Based RegressionShuzhuang Xu, Hiroshi Shimodaira. 1995-1999 [doi]

Real Time Online Visual End Point Detection Using Unidirectional LSTMTanay Sharma, Rohith Chandrashekar Aralikatti, Dilip Kumar Margam, Abhinav Thanda, Sharad Roy, Pujitha Appan Kandala, Shankar M. Venkatesan. 2000-2004 [doi]

Fully-Convolutional Network for Pitch Estimation of Speech SignalsLuc Ardaillon, Axel Roebel. 2005-2009 [doi]

Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual NetworkMingye Dong, Jie Wu, Jian Luan. 2010-2014 [doi]

Multi-Level Adaptive Speech Activity Detector for Speech in Naturalistic EnvironmentsBidisha Sharma, Rohan Kumar Das, Haizhou Li 0001. 2015-2019 [doi]

On the Importance of Audio-Source Separation for Singer Identification in Polyphonic MusicBidisha Sharma, Rohan Kumar Das, Haizhou Li 0001. 2020-2024 [doi]

Investigating the Physiological and Acoustic Contrasts Between Choral and Operatic SingingHiroko Terasawa, Kenta Wakasa, Hideki Kawahara, Ken-Ichi Sakakibara. 2025-2029 [doi]

Optimizing Voice Activity Detection for Noisy ConditionsRuixi Lin, Charles Costello, Charles Jankowski, Vishwas Mruthyunjaya. 2030-2034 [doi]

Small-Footprint Magic Word Detection Method Using Convolutional LSTM Neural NetworkTaiki Yamamoto, Ryota Nishimura, Masayuki Misaki, Norihide Kitaoka. 2035-2039 [doi]

Acoustic Modeling for Automatic Lyrics-to-Audio AlignmentChitralekha Gupta, Emre Yilmaz, Haizhou Li 0001. 2040-2044 [doi]

Two-Dimensional Convolutional Recurrent Neural Networks for Speech Activity DetectionAnastasios Vafeiadis, Eleftherios Fanioudakis, Ilyas Potamitis, Konstantinos Votis, Dimitrios Giakoumis, Dimitrios Tzovaras, Liming Chen 0001, Raouf Hamzaoui. 2045-2049 [doi]

A Study of Soprano Singing in Light of the Source-Filter InteractionTokihiko Kaburagi. 2050-2054 [doi]

Boosting Character-Based Chinese Speech Synthesis via Multi-Task Learning and Dictionary TutoringYuxiang Zou, Linhao Dong, Bo Xu 0002. 2055-2059 [doi]

Building a Mixed-Lingual Neural TTS System with Only Monolingual DataLiumeng Xue, Wei Song, Guanghui Xu, Lei Xie, Zhizheng Wu. 2060-2064 [doi]

Neural Machine Translation for Multilingual Grapheme-to-Phoneme ConversionAlex Sokolov, Tracy Rohlin, Ariya Rastrow. 2065-2069 [doi]

Analysis of Pronunciation Learning in End-to-End Speech SynthesisJason Taylor, Korin Richmond. 2070-2074 [doi]

End-to-End Text-to-Speech for Low-Resource Languages by Cross-Lingual Transfer LearningYuan-Jui Chen, Tao Tu, Cheng-chieh Yeh, Hung-yi Lee. 2075-2079 [doi]

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice CloningYu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Zhifeng Chen, R. J. Skerry-Ryan, Ye Jia, Andrew Rosenberg, Bhuvana Ramabhadran. 2080-2084 [doi]

Unified Language-Independent DNN-Based G2P ConverterMarkéta Juzová, Daniel Tihelka, Jakub Vít. 2085-2089 [doi]

Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-Trained BERTDongyang Dai, Zhiyong Wu, Shiyin Kang, Xixin Wu, Jia Jia 0001, Dan Su, Dong Yu 0001, Helen Meng. 2090-2094 [doi]

Transformer Based Grapheme-to-Phoneme ConversionSevinj Yolchuyeva, Géza Németh, Bálint Gyires-Tóth. 2095-2099 [doi]

Developing Pronunciation Models in New Languages Faster by Exploiting Common Grapheme-to-Phoneme Correspondences Across LanguagesHarry Bleyan, Sandy Ritchie, Jonas Fromseier Mortensen, Daan van Esch. 2100-2104 [doi]

Cross-Lingual, Multi-Speaker Text-To-Speech Synthesis Using Neural Speaker EmbeddingMengnan Chen, Minchuan Chen, Shuang Liang, Jun Ma, Lei Chen, Shaojun Wang, Jing Xiao. 2105-2109 [doi]

Polyphone Disambiguation for Mandarin Chinese Using Conditional Neural Network with Multi-Level Embedding FeaturesZexin Cai, Yaogen Yang, Chuxiong Zhang, Xiaoyi Qin, Ming Li. 2110-2114 [doi]

Token-Level Ensemble Distillation for Grapheme-to-Phoneme ConversionHao Sun, Xu Tan, Jun-Wei Gan, Hongzhi Liu, Sheng Zhao, Tao Qin, Tie-Yan Liu. 2115-2119 [doi]

Multilingual Speech Recognition with Corpus Relatedness SamplingXinjian Li, Siddharth Dalmia, Alan W. Black, Florian Metze. 2120-2124 [doi]

Multi-Dialect Acoustic Modeling Using Phone Mapping and Online i-VectorsHarish Arsikere, Ashtosh Sapru, Sri Garimella. 2125-2129 [doi]

Large-Scale Multilingual Speech Recognition with a Streaming End-to-End ModelAnjuli Kannan, Arindrima Datta, Tara N. Sainath, Eugene Weinstein, Bhuvana Ramabhadran, Yonghui Wu, Ankur Bapna, Zhifeng Chen, Seungji Lee. 2130-2134 [doi]

Recognition of Latin American Spanish Using Multi-Task LearningCarlos Mendes, Alberto Abad, João Paulo Neto, Isabel Trancoso. 2135-2139 [doi]

End-to-End Accented Speech RecognitionThibault Viglino, Petr Motlícek, Milos Cernak. 2140-2144 [doi]

End-to-End Articulatory Attribute Modeling for Low-Resource Multilingual Speech RecognitionSheng Li 0010, Chenchen Ding, Xugang Lu, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. 2145-2149 [doi]

Exploiting Monolingual Speech Corpora for Code-Mixed Speech RecognitionKaran Taneja, Satarupa Guha, Preethi Jyothi, Basil Abraham. 2150-2154 [doi]

Phoneme-Based Contextualization for Cross-Lingual Speech Recognition in End-to-End ModelsKe Hu, Antoine Bruguier, Tara N. Sainath, Rohit Prabhavalkar, Golan Pundak. 2155-2159 [doi]

Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual DataYerbolat Khassanov, Haihua Xu, Van Tung Pham, Zhiping Zeng, Eng Siong Chng, Chongjia Ni, Bin Ma. 2160-2164 [doi]

On the End-to-End Solution to Mandarin-English Code-Switching Speech RecognitionZhiping Zeng, Yerbolat Khassanov, Van Tung Pham, Haihua Xu, Eng Siong Chng, Haizhou Li 0001. 2165-2169 [doi]

Towards Language-Universal Mandarin-English Speech RecognitionShiliang Zhang, Yuan Liu, Ming Lei, Bin Ma, Lei Xie. 2170-2174 [doi]

Improving ASR Confidence Scores for Alexa Using Acoustic and Hypothesis EmbeddingsPrakhar Swarup, Roland Maas, Sri Garimella, Sri Harish Mallidi, Björn Hoffmeister. 2175-2179 [doi]

Investigation of Transformer Based Spelling Correction Model for CTC-Based End-to-End Mandarin Speech RecognitionShiliang Zhang, Ming Lei, Zhijie Yan. 2180-2184 [doi]

Improving Performance of End-to-End ASR on Numeric SequencesCal Peyser, Hao Zhang, Tara N. Sainath, Zelin Wu. 2185-2189 [doi]

A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword SpottingYe Bai, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Zhengkun Tian, Chenghao Zhao, Cunhang Fan. 2190-2194 [doi]

Sub-Band Convolutional Neural Networks for Small-Footprint Spoken Term ClassificationChieh-Chi Kao, Ming Sun, Yixin Gao, Shiv Vitaladevuni, Chao Wang. 2195-2199 [doi]

Investigating Radical-Based End-to-End Speech Recognition Systems for Chinese Dialects and JapaneseSheng Li 0010, Xugang Lu, Chenchen Ding, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. 2200-2204 [doi]

Joint Decoding of CTC Based Systems for Speech RecognitionJiaqi Guo, Yongbin You, Yanmin Qian, Kai Yu 0004. 2205-2209 [doi]

A Joint End-to-End and DNN-HMM Hybrid Automatic Speech Recognition System with Transferring Sharable KnowledgeTomohiro Tanaka, Ryo Masumura, Takafumi Moriya, Takanobu Oba, Yushi Aono. 2210-2214 [doi]

Active Learning Methods for Low Resource End-to-End Speech RecognitionKaran Malhotra, Shubham Bansal, Sriram Ganapathy. 2215-2219 [doi]

Analysis of Multilingual Sequence-to-Sequence Speech Recognition SystemsMartin Karafiát, Murali Karthick Baskar, Shinji Watanabe, Takaaki Hori, Matthew Wiesner, Jan Cernocký. 2220-2224 [doi]

Lattice Generation in Attention-Based Speech Recognition ModelsMichal Zapotoczny, Piotr Pietrzak, Adrian Lancucki, Jan Chorowski. 2225-2229 [doi]

Sampling from Stochastic Finite Automata with Applications to CTC DecodingMartin Jansche, Alexander Gutkin. 2230-2234 [doi]

ShrinkML: End-to-End ASR Model Compression Using Reinforcement LearningLukasz Dudziak, Mohamed S. Abdelfattah, Ravichander Vipperla, Stefanos Laskaridis, Nicholas D. Lane. 2235-2239 [doi]

Acoustic-to-Phrase Models for Speech RecognitionYashesh Gaur, Jinyu Li, Zhong Meng, Yifan Gong. 2240-2244 [doi]

Performance Monitoring for End-to-End Speech RecognitionRuizhi Li, Gregory Sell, Hynek Hermansky. 2245-2249 [doi]

The Role of Musical Experience in the Perceptual Weighting of Acoustic Cues for the Obstruent Coda Voicing Contrast in American EnglishMichelle Cohn, Georgia Zellou, Santiago Barreda. 2250-2254 [doi]

Individual Differences in Implicit Attention to Phonetic Detail in Speech PerceptionNatalie Lewandowski, Daniel Duran 0001. 2255-2259 [doi]

Effects of Natural Variability in Cross-Modal Temporal Correlations on Audiovisual Speech Recognition BenefitKaylah Lalonde. 2260-2264 [doi]

Listening with Great Expectations: An Investigation of Word Form Anticipations in Naturalistic SpeechM. Bentum, Louis ten Bosch, A. Van den Bosch, Mirjam Ernestus. 2265-2269 [doi]

Quantifying Expectation Modulation in Human Speech ProcessingM. Bentum, Louis ten Bosch, A. Van den Bosch, Mirjam Ernestus. 2270-2274 [doi]

Perception of Pitch Contours in Speech and NonspeechDaniel R. Turner, Ann R. Bradlow, Jennifer S. Cole. 2275-2279 [doi]

Analyzing Reaction Time and Error Sequences in Lexical Decision ExperimentsLouis ten Bosch, Lou Boves, Kimberley Mulder. 2280-2284 [doi]

Automatic Detection of the Temporal Segmentation of Hand Movements in British English Cued SpeechLi Liu, Jianze Li, Gang Feng, Xiao-Ping (Steven) Zhang. 2285-2289 [doi]

Place Shift as an Autonomous Process: Evidence from Japanese ListenersYuriko Yokoe. 2290-2294 [doi]

A Perceptual Study of CV Syllables in Both Spoken and Whistled Speech: A Tashlhiyt Berber PerspectiveJulien Meyer, Laure Dentel, Silvain Gerber, Rachid Ridouane. 2295-2299 [doi]

Consonant Classification in Mandarin Based on the Depth Image Feature: A Pilot StudyHan-Chi Hsieh, Wei-Zhong Zheng, Ko-Chiang Chen, Ying-Hui Lai. 2300-2304 [doi]

The Different Roles of Expectations in Phonetic and Lexical ProcessingShiri Lev-Ari, Robin Dodsworth, Jeff Mielke, Sharon Peperkamp. 2305-2309 [doi]

Perceptual Adaptation to Device and Human Voices: Learning and Generalization of a Phonetic Shift Across Real and Voice-AI TalkersBruno Ferenc Segedin, Michelle Cohn, Georgia Zellou. 2310-2314 [doi]

End-to-End Convolutional Sequence Learning for ASL Fingerspelling RecognitionKaterina Papadimitriou, Gerasimos Potamianos. 2315-2319 [doi]

Multiview Shared Subspace Learning Across Speakers and Speech CommandsKrishna Somandepalli, Naveen Kumar 0004, Arindam Jati, Panayiotis G. Georgiou, Shrikanth Narayanan. 2320-2324 [doi]

A Machine Learning Based Clustering Protocol for Determining Hearing Aid Initial Configurations from Pure-Tone AudiogramsChelzy Belitz, Hussnain Ali, John H. L. Hansen. 2325-2329 [doi]

Acoustic Scene Classification with Mismatched Devices Using CliqueNets and Mixup Data AugmentationTruc Nguyen, Franz Pernkopf. 2330-2334 [doi]

DeepLung: Smartphone Convolutional Neural Network-Based Inference of Lung Anomalies for Pulmonary PatientsMohsin Y. Ahmed, Md. Mahbubur Rahman, Jilong Kuang. 2335-2339 [doi]

On the Use/Misuse of the Term 'Phoneme'Roger K. Moore, Lucy Skidmore. 2340-2344 [doi]

Understanding and Visualizing Raw Waveform-Based CNNsHannah Muckenhirn, Vinayak Abrol, Mathew Magimai-Doss, Sébastien Marcel. 2345-2349 [doi]

Fréchet Audio Distance: A Reference-Free Metric for Evaluating Music Enhancement AlgorithmsKevin Kilgour, Mauricio Zuluaga, Dominik Roblek, Matthew Sharifi. 2350-2354 [doi]

ReMASC: Realistic Replay Attack Corpus for Voice Controlled SystemsYuan Gong, Jian Yang, Jacob Huber, Mitchell MacKnight, Christian Poellabauer. 2355-2359 [doi]

Analyzing Intra-Speaker and Inter-Speaker Vocal Tract Impedance Characteristics in a Low-Dimensional Feature Space Using t-SNEBalamurali B. T., Jer-Ming Chen. 2360-2363 [doi]

Directional Audio Rendering Using a Neural Network Based Personalized HRTFGeon Woo Lee, Jung Hyuk Lee, Seong-Ju Kim, Hong Kook Kim. 2364-2365 [doi]

Online Speech Processing and Analysis SuiteWikus Pienaar, Daan Wissing. 2366-2367 [doi]

Formant Pattern and Spectral Shape Ambiguity of Vowel Sounds, and Related Phenomena of Vowel Acoustics - Exemplary EvidenceDieter Maurer, Heidy Suter, Christian d'Hereuse, Volker Dellwo. 2368-2369 [doi]

Sound Tools eXtended (STx) 5.0 - A Powerful Sound Analysis Tool Optimized for SpeechAnton Noll, Jonathan Stuefer, Nicola Klingler, Hannah Leykum, Carina Lozo, Jan Luttenberger, Michael Pucher, Carolin Schmid. 2370-2371 [doi]

FarSpeech: Arabic Natural Language Processing for Live Arabic SpeechMohamed Eldesouki, Naassih Gopee, Ahmed Ali, Kareem Darwish. 2372-2373 [doi]

A System for Real-Time Privacy Preserving Data Collection for Ambient Assisted LivingFasih Haider, Saturnino Luz. 2374-2375 [doi]

NUS Speak-to-Sing: A Web Platform for Personalized Speech-to-Singing ConversionChitralekha Gupta, Karthika Vijayan, Bidisha Sharma, Xiaoxue Gao, Haizhou Li 0001. 2376-2377 [doi]

The INTERSPEECH 2019 Computational Paralinguistics Challenge: Styrian Dialects, Continuous Sleepiness, Baby Sounds & Orca ActivityBjörn W. Schuller, Anton Batliner, Christian Bergler, Florian B. Pokorny, Jarek Krajewski, Margaret Cychosz, Ralf Vollmann, Sonja-Dana Roelen, Sebastian Schnieder, Elika Bergelson, Alejandrina Cristià, Amanda Seidl, Anne S. Warlaumont, Lisa Yankowitz, Elmar Nöth, Shahin Amiriparian, Simone Hantke, Maximilian Schmitt. 2378-2382 [doi]

Using Speech Production Knowledge for Raw Waveform Modelling Based Styrian Dialect IdentificationS. Pavankumar Dubagunta, Mathew Magimai-Doss. 2383-2387 [doi]

Deep Neural Baselines for Computational ParalinguisticsDaniel Elsner, Stefan Langer, Fabian Ritz, Robert Müller, Steffen Illium. 2388-2392 [doi]

Styrian Dialect Classification: Comparing and Fusing Classifiers Based on a Feature Selection Using a Genetic AlgorithmThomas Kisler, Raphael Winkelmann, Florian Schiel. 2393-2397 [doi]

Using Attention Networks and Adversarial Augmentation for Styrian Dialect Continuous Sleepiness and Baby Sound RecognitionSung-Lin Yeh, Gao-Yi Chao, Bo-Hao Su, Yu-Lin Huang, Meng-Han Lin, Yin-Chun Tsai, Yu-Wen Tai, Zheng-Chi Lu, Chieh-Yu Chen, Tsung-Ming Tai, Chiu-Wang Tseng, Cheng-Kuang Lee, Chi-Chun Lee. 2398-2402 [doi]

Ordinal Triplet Loss: Investigating Sleepiness Detection from SpeechPeter Wu, Sai Krishna Rallabandi, Alan W. Black, Eric Nyberg. 2403-2407 [doi]

Voice Quality and Between-Frame Entropy for Sleepiness EstimationVijay Ravi, Soo-Jin Park, Amber Afshan, Abeer Alwan. 2408-2412 [doi]

Using Fisher Vector and Bag-of-Audio-Words Representations to Identify Styrian Dialects, Sleepiness, Baby & Orca SoundsGábor Gosztolya. 2413-2417 [doi]

Instantaneous Phase and Long-Term Acoustic Cues for Orca Activity DetectionRohan Kumar Das, Haizhou Li 0001. 2418-2422 [doi]

Relevance-Based Feature Masking: Improving Neural Network Based Whale Classification Through Explainable Artificial IntelligenceDominik Schiller, Tobias Huber, Florian Lingenfelser, Michael Dietz, Andreas Seiderer, Elisabeth André. 2423-2427 [doi]

Spatial, Temporal and Spectral Multiresolution Analysis for the INTERSPEECH 2019 ComParE ChallengeMarie-José Caraty, Claude Montacié. 2428-2432 [doi]

The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic ChallengeHaiwei Wu, Weiqing Wang, Ming Li. 2433-2437 [doi]

The VOiCES from a Distance Challenge 2019Mahesh Kumar Nandwana, Julien van Hout, Colleen Richey, Mitchell McLaren, Maria Auxiliadora Barrios, Aaron Lawson. 2438-2442 [doi]

The I2R's ASR System for the VOiCES from a Distance Challenge 2019Tze Yuang Chong, Kye Min Tan, Kah Kuan Teh, Chang Huai You, Hanwu Sun, Tran Huy Dat. 2458-2462 [doi]

Multi-Task Discriminative Training of Hybrid DNN-TVM Model for Speaker Verification with Noisy and Far-Field SpeechArindam Jati, Raghuveer Peri, Monisankha Pal, Tae-Jin Park, Naveen Kumar 0004, Ruchir Travadi, Panayiotis G. Georgiou, Shrikanth Narayanan. 2463-2467 [doi]

The JHU Speaker Recognition System for the VOiCES 2019 ChallengeDavid Snyder, Jesús Villalba, Nanxin Chen, Daniel Povey, Gregory Sell, Najim Dehak, Sanjeev Khudanpur. 2468-2472 [doi]

Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019Jonathan Huang, Tobias Bocklet. 2473-2477 [doi]

The I2R's Submission to VOiCES Distance Speaker Recognition Challenge 2019Hanwu Sun, Kah Kuan Teh, Ivan Kukanov, Tran Huy Dat. 2478-2482 [doi]

The LeVoice Far-Field Speech Recognition System for VOiCES from a Distance Challenge 2019Yulong Liang, Lin Yang, Xuyang Wang, Yingjie Li, Chen Jia, Junjie Wang. 2483-2487 [doi]

The JHU ASR System for VOiCES from a Distance Challenge 2019Yiming Wang, David Snyder, Hainan Xu, Vimal Manohar, Phani Sankar Nidadavolu, Daniel Povey, Sanjeev Khudanpur. 2488-2492 [doi]

The DKU System for the Speaker Recognition Task of the 2019 VOiCES from a Distance ChallengeDanwei Cai, Xiaoyi Qin, Weicheng Cai, Ming Li. 2493-2497 [doi]

Identifying Distinctive Acoustic and Spectral Features in Parkinson's DiseaseYermiyahu Hauptman, Ruth Aloni-Lavi, Itshak Lapidot, Tanya Gurevich, Yael Manor, Stav Naor, Noa Diamant, Irit Opher. 2498-2502 [doi]

Aerodynamics and Lumped-Masses Combined with Delay Lines for Modeling Vertical and Anterior-Posterior Phase Differences in Pathological Vocal Fold VibrationCarlo Drioli, Philipp Aichinger. 2503-2507 [doi]

Mel-Frequency Cepstral Coefficients of Voice Source Waveforms for Classification of Phonation Types in SpeechSudarsana Reddy Kadiri, Paavo Alku. 2508-2512 [doi]

Automatic Detection of Autism Spectrum Disorder in Children Using Acoustic and Text Features from Brief Natural ConversationsSunghye Cho, Mark Liberman, Neville Ryant, Meredith Cola, Robert T. Schultz, Julia Parish-Morris. 2513-2517 [doi]

Analysis and Synthesis of Vocal Flutter and Vocal JitterJean Schoentgen, Philipp Aichinger. 2518-2522 [doi]

Reliability of Clinical Voice Parameters Captured with Smartphones - Measurements of Added Noise and Spectral TiltFelix Schaeffler, Stephen Jannetts, Janet Beck. 2523-2527 [doi]

Say What? A Dataset for Exploring the Error Patterns That Two ASR Engines MakeMeredith Moore, Michael Saxon, Hemanth Venkateswara, Visar Berisha, Sethuraman Panchanathan. 2528-2532 [doi]

Dimensions of Prosodic Prominence in an Attractor ModelSimon Roessig, Doris Mücke, Lena Pagel. 2533-2537 [doi]

Comparative Analysis of Prosodic Characteristics Using WaveNet EmbeddingsAntti Suni, Marcin Wlodarczak, Martti Vainio, Juraj Simko. 2538-2542 [doi]

The Role of Voice Quality in the Perception of Prominence in Synthetic SpeechAndy Murphy, Irena Yanushevskaya, Ailbhe Ní Chasaide, Christer Gobl. 2543-2547 [doi]

Phonological Awareness of French Rising Contours in Japanese LearnersRachel Albar, Hiyon Yoo. 2548-2552 [doi]

Audio Classification of Bit-Representation WaveformMasaki Okawa, Takuya Saito, Naoki Sawada, Hiromitsu Nishizaki. 2553-2557 [doi]

Locality-Constrained Linear Coding Based Fused Visual Features for Robust Acoustic Event ClassificationManjunath Mulimani, Shashidhar G. Koolagudi. 2558-2562 [doi]

Learning How to Listen: A Temporal-Frequential Attention Model for Sound Event DetectionYu-Han Shen, Ke-Xin He, Wei-Qiang Zhang. 2563-2567 [doi]

A Deep Residual Network for Large-Scale Acoustic Scene AnalysisLogan Ford, Hao Tang, François Grondin, James R. Glass. 2568-2572 [doi]

Supervised Classifiers for Audio Impairments with Noisy LabelsChandan K. A. Reddy, Ross Cutler, Johannes Gehrke. 2573-2577 [doi]

Self-Attention for Speech Emotion RecognitionLorenzo Tarantino, Philip N. Garner, Alexandros Lazaridis. 2578-2582 [doi]

Unsupervised Singing Voice ConversionEliya Nachmani, Lior Wolf. 2583-2587 [doi]

Adversarially Trained End-to-End Korean Singing Voice Synthesis SystemJuheon Lee, Hyeong-Seok Choi, Chang-Bin Jeon, Junghyun Koo, Kyogu Lee. 2588-2592 [doi]

Singing Voice Synthesis Using Deep Autoregressive Neural Networks for Acoustic ModelingYuan-Hao Yi, Yang Ai, Zhen-Hua Ling, Li-Rong Dai. 2593-2597 [doi]

Conditional Variational Auto-Encoder for Text-Driven Expressive AudioVisual Speech SynthesisSara Dahmani, Vincent Colotte, Valérian Girard, Slim Ouni. 2598-2602 [doi]

A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing SynthesisDavid Ayllón, Fernando Villavicencio, Pierre Lanchantin. 2603-2607 [doi]

Modeling Labial Coarticulation with Bidirectional Gated Recurrent Networks and Transfer LearningThéo Biasutto-Lervat, Sara Dahmani, Slim Ouni. 2608-2612 [doi]

SpecAugment: A Simple Data Augmentation Method for Automatic Speech RecognitionDaniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le. 2613-2617 [doi]

Forget a Bit to Learn Better: Soft Forgetting for CTC-Based Automatic Speech RecognitionKartik Audhkhasi, George Saon, Zoltán Tüske, Brian Kingsbury, Michael Picheny. 2618-2622 [doi]

Online Hybrid CTC/Attention Architecture for End-to-End Speech RecognitionHaoran Miao, Gaofeng Cheng, Pengyuan Zhang, Ta Li, Yonghong Yan 0002. 2623-2627 [doi]

A Highly Efficient Distributed Deep Learning System for Automatic Speech RecognitionWei Zhang, Xiaodong Cui, Ulrich Finkler, George Saon, Abdullah Kayi, Alper Buyuktosunoglu, Brian Kingsbury, David S. Kung 0001, Michael Picheny. 2628-2632 [doi]

Knowledge Distillation for End-to-End Monaural Multi-Talker ASR SystemWangyou Zhang, Xuankai Chang, Yanmin Qian. 2633-2637 [doi]

Analysis of Deep Clustering as Preprocessing for Automatic Speech Recognition of Sparsely Overlapping SpeechTobias Menne, Ilya Sklyar, Ralf Schlüter, Hermann Ney. 2638-2642 [doi]

The Effects of Time Expansion on English as a Second Language IndividualsJohn S. Novak III, Daniel Bunn, Robert V. Kenyon. 2643-2647 [doi]

Capturing L1 Influence on L2 Pronunciation by Simulating Perceptual Space Using Acoustic FeaturesShuju Shi, Chilin Shih, Jinsong Zhang. 2648-2652 [doi]

Cognitive Factors in Thai-Naïve Mandarin Speakers' Imitation of Thai Lexical TonesJuqiang Chen, Catherine T. Best, Mark Antoniou. 2653-2657 [doi]

Foreign-Language Knowledge Enhances Artificial-Language SegmentationAnnie Tremblay, Mirjam Broersma. 2658-2662 [doi]

Neural Named Entity Recognition from Subword UnitsAbdalghani Abujabal, Judith Gaspers. 2663-2667 [doi]

Unsupervised Acoustic Segmentation and Clustering Using Siamese Network EmbeddingsSaurabhchand Bhati, Shekhar Nayak, K. Sri Rama Murty, Najim Dehak. 2668-2672 [doi]

An Empirical Evaluation of DTW Subsampling Methods for Keyword SearchBolaji Yusuf, Murat Saraclar. 2673-2677 [doi]

Linguistically-Informed Training of Acoustic Word Embeddings for Low-Resource LanguagesZixiaofan Yang, Julia Hirschberg. 2678-2682 [doi]

Multimodal Word Discovery and Retrieval with Phone Sequence and Image ConceptsLiming Wang, Mark A. Hasegawa-Johnson. 2683-2687 [doi]

Empirical Evaluation of Sequence-to-Sequence Models for Word Discovery in Low-Resource SettingsMarcely Zanon Boito, Aline Villavicencio, Laurent Besacier. 2688-2692 [doi]

Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in ReverberationWei Xue, Ying Tong, Guohong Ding, Chao Zhang, Tao Ma, Xiaodong He, Bowen Zhou. 2693-2697 [doi]

Multiple Sound Source Localization with SVD-PHATFrançois Grondin, James R. Glass. 2698-2702 [doi]

Robust DOA Estimation Based on Convolutional Neural Network and Time-Frequency MaskingWangyou Zhang, Ying Zhou, Yanmin Qian. 2703-2707 [doi]

Multichannel Loss Function for Supervised Speech Source Separation by Mask-Based BeamformingYoshiki Masuyama, Masahito Togami, Tatsuya Komatsu. 2708-2712 [doi]

Direction-Aware Speaker Beam for Multi-Channel Speaker ExtractionGuanjun Li, Shan Liang, Shuai Nie, Wenju Liu, Meng Yu, LianWu Chen, Shouye Peng, Changliang Li. 2713-2717 [doi]

Multimodal SpeakerBeam: Single Channel Target Speech Extraction with Audio-Visual Speaker CluesTsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Tomohiro Nakatani. 2718-2722 [doi]

Speech Denoising with Deep Feature LossesFrançois G. Germain, Qifeng Chen, Vladlen Koltun. 2723-2727 [doi]

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram MaskingQuan Wang, Hannah Muckenhirn, Kevin W. Wilson, Prashant Sridhar, Zelin Wu, John R. Hershey, Rif A. Saurous, Ron J. Weiss, Ye Jia, Ignacio Lopez-Moreno. 2728-2732 [doi]

Incorporating Symbolic Sequential Modeling for Speech EnhancementChien-Feng Liao, Yu Tsao 0001, Xugang Lu, Hisashi Kawai. 2733-2737 [doi]

Maximum a posteriori Speech Enhancement Based on Double SpectrumPejman Mowlaee, Daniel Scheran, Johannes Stahl 0003, Sean U. N. Wood, W. Bastiaan Kleijn. 2738-2742 [doi]

Coarse-to-Fine Optimization for Speech EnhancementJian Yao, Ahmad Al-Dahle. 2743-2747 [doi]

Kernel Machines Beat Deep Neural Networks on Mask-Based Single-Channel Speech EnhancementLike Hui, Siyuan Ma, Mikhail Belkin. 2748-2752 [doi]

MobiVSR : Efficient and Light-Weight Neural Network for Visual Speech Recognition on Mobile DevicesNilay Shrivastava, Astitwa Saxena, Yaman Kumar, Rajiv Ratn Shah, Amanda Stent, Debanjan Mahata, Preeti Kaur, Roger Zimmermann. 2753-2757 [doi]

Speaker Adaptation for Lip-Reading Using Visual Identity VectorsPujitha Appan Kandala, Abhinav Thanda, Dilip Kumar Margam, Rohith Chandrashekar Aralikatti, Tanay Sharma, Sharad Roy, Shankar M. Venkatesan. 2758-2762 [doi]

MobiLipNet: Resource-Efficient Deep Learning Based LipreadingAlexandros Koumparoulis, Gerasimos Potamianos. 2763-2767 [doi]

LipSound: Neural Mel-Spectrogram Reconstruction for Lip ReadingLeyuan Qu, Cornelius Weber, Stefan Wermter. 2768-2772 [doi]

Two-Pass End-to-End Speech RecognitionTara N. Sainath, Ruoming Pang, David Rybach, Yanzhang He, Rohit Prabhavalkar, Wei Li, Mirkó Visontai, Qiao Liang, Trevor Strohman, Yonghui Wu, Ian McGraw, Chung-Cheng Chiu. 2773-2777 [doi]

Extract, Adapt and Recognize: An End-to-End Neural Network for Corrupted Monaural Speech RecognitionMax W. Y. Lam, Jun Wang, Xunying Liu, Helen Meng, Dan Su, Dong Yu. 2778-2782 [doi]

Multi-Task Multi-Resolution Char-to-BPE Cross-Attention Decoder for End-to-End Speech RecognitionDhananjaya Gowda, Abhinav Garg, Kwangyoun Kim, Mehul Kumar, Chanwoo Kim. 2783-2787 [doi]

Multi-Stride Self-Attention for Speech RecognitionKyu J. Han, Jing Huang 0019, Yun Tang, Xiaodong He, Bowen Zhou. 2788-2792 [doi]

LF-MMI Training of Bayesian and Gaussian Process Time Delay Neural Networks for Speech RecognitionShoukang Hu, Xurong Xie, Shansong Liu, Max W. Y. Lam, Jianwei Yu, Xixin Wu, Xunying Liu, Helen Meng. 2793-2797 [doi]

Self-Teaching NetworksLiang Lu, Eric Sun, Yifan Gong. 2798-2802 [doi]

Improved End-to-End Speech Emotion Recognition Using Self Attention Mechanism and Multitask LearningYuanchao Li, Tianyu Zhao, Tatsuya Kawahara. 2803-2807 [doi]

Continuous Emotion Recognition in Speech - Do We Need Recurrence?Maximilian Schmitt, Nicholas Cummins, Björn W. Schuller. 2808-2812 [doi]

Speech Based Emotion Prediction: Can a Linear Model Work?Anda Ouyang, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 2813-2817 [doi]

Speech Emotion Recognition Based on Multi-Label Emotion Existence ModelAtsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono. 2818-2822 [doi]

Gender De-Biasing in Speech Emotion RecognitionCristina Gorrostieta, Reza Lotfian, Kye Taylor, Richard Brutti, John Kane. 2823-2827 [doi]

CycleGAN-Based Emotion Style Transfer as Data Augmentation for Speech Emotion RecognitionFang Bao, Michael Neumann, Ngoc Thang Vu. 2828-2832 [doi]

Lombard Speech Synthesis Using Transfer Learning in a Tacotron Text-to-Speech SystemBajibabu Bollepalli, Lauri Juvela, Paavo Alku. 2833-2837 [doi]

Augmented CycleGANs for Continuous Scale Normal-to-Lombard Speaking Style ConversionShreyas Seshadri, Lauri Juvela, Paavo Alku, Okko Räsänen. 2838-2842 [doi]

Foreign Accent Conversion by Synthesizing Speech from Phonetic PosteriorgramsGuanlong Zhao, Shaojin Ding, Ricardo Gutierrez-Osuna. 2843-2847 [doi]

A Multi-Speaker Emotion Morphing Model Using Highway Networks and Maximum Likelihood ObjectiveRavi Shankar, Jacob Sager, Archana Venkataraman. 2848-2852 [doi]

Effects of Waveform PMF on Anti-Spoofing DetectionItshak Lapidot, Jean-François Bonastre. 2853-2857 [doi]

Nonparallel Emotional Speech ConversionJian Gao 0006, Deep Chakraborty, Hamidou Tembine, Olaitan Olaleye. 2858-2862 [doi]

Self-Supervised Speaker EmbeddingsThemos Stafylakis, Johan Rohdin, Oldrich Plchot, Petr Mizera, Lukás Burget. 2863-2867 [doi]

Privacy-Preserving Speaker Recognition with Cohort Score NormalisationAndreas Nautsch, Jose Patino 0001, Amos Treiber, Themos Stafylakis, Petr Mizera, Massimiliano Todisco, Thomas Schneider 0003, Nicholas W. D. Evans. 2868-2872 [doi]

Large Margin Softmax Loss for Speaker VerificationYi Liu, Liang He, Jia Liu. 2873-2877 [doi]

A Deep Neural Network for Short-Segment Speaker RecognitionAmirhossein Hajavi, Ali Etemad. 2878-2882 [doi]

Deep Speaker Embedding Extraction with Channel-Wise Feature Responses and Additive Supervision Softmax Loss FunctionJianfeng Zhou, Tao Jiang, Zheng Li, Lin Li, Qingyang Hong. 2883-2887 [doi]

VoiceID Loss: Speech Enhancement for Speaker VerificationSuwon Shon, Hao Tang, James R. Glass. 2888-2892 [doi]

Blind Channel Response Estimation for Replay Attack DetectionAnderson R. Avila, Md. Jahangir Alam, Douglas D. O'Shaughnessy, Tiago H. Falk. 2893-2897 [doi]

Energy Separation-Based Instantaneous Frequency Estimation for Cochlear Cepstral Feature for Replay Spoof DetectionAnkur T. Patil, Rajul Acharya, Pulikonda Krishna Aditya Sai, Hemant A. Patil. 2898-2902 [doi]

Optimization of False Acceptance/Rejection Rates and Decision Threshold for End-to-End Text-Dependent Speaker Verification SystemsVictoria Mingote, Antonio Miguel, Dayana Ribas, Alfonso Ortega Giménez, Eduardo Lleida. 2903-2907 [doi]

Deep Hashing for Speaker Identification and RetrievalLei Fan, Qing-Yuan Jiang, Ya-Qi Yu, Wu-Jun Li. 2908-2912 [doi]

Adversarial Optimization for Dictionary Attacks on Speaker VerificationMirko Marras, Pawel Korus, Nasir D. Memon, Gianni Fenu. 2913-2917 [doi]

An Adaptive-Q Cochlear Model for Replay Spoofing DetectionTharshini Gunendradasan, Eliathamby Ambikairajah, Julien Epps, Haizhou Li 0001. 2918-2922 [doi]

An End-to-End Text-Independent Speaker Verification Framework with a Keyword Adversarial NetworkSungrack Yun, Janghoon Cho, Jungyun Eum, Wonil Chang, Kyuwoong Hwang. 2923-2927 [doi]

Shortcut Connections Based Deep Speaker Embeddings for End-to-End Speaker Verification SystemSoonshin Seo, Daniel Jun Rim, Minkyu Lim, Donghyun Lee, Hosung Park, Junseok Oh, Changmin Kim, Ji-Hwan Kim. 2928-2932 [doi]

Device Feature Extractor for Replay Spoofing DetectionChang Huai You, Jichen Yang, Huy Dat Tran. 2933-2937 [doi]

Cross-Domain Replay Spoofing Attack Detection Using Domain Adversarial TrainingHongji Wang, Heinrich Dinkel, Shuai Wang 0016, Yanmin Qian, Kai Yu 0004. 2938-2942 [doi]

A Study of x-Vector Based Speaker Recognition on Short UtterancesAhilan Kanagasundaram, S. Sridharan, G. Sriram, S. Prachi, Clinton Fookes. 2943-2947 [doi]

Tied Mixture of Factor Analyzers Layer to Combine Frame Level Representations in Neural Speaker EmbeddingsNanxin Chen, Jesús Villalba, Najim Dehak. 2948-2952 [doi]

Biologically Inspired Adaptive-Q Filterbanks for Replay Spoofing Attack DetectionBuddhi Wickramasinghe, Eliathamby Ambikairajah, Julien Epps. 2953-2957 [doi]

On Robustness of Unsupervised Domain Adaptation for Speaker RecognitionPierre-Michel Bousquet, Mickael Rouvier. 2958-2962 [doi]

Large-Scale Speaker Retrieval on Random Speaker Variability SubspaceSuwon Shon, Younggun Lee, Taesu Kim. 2963-2967 [doi]

Meeting Transcription Using Asynchronous Distant MicrophonesTakuya Yoshioka, Dimitrios Dimitriadis, Andreas Stolcke, William Hinthorn, Zhuo Chen, Michael Zeng, Xuedong Huang. 2968-2972 [doi]

Detection and Recovery of OOVs for Improved English Broadcast News CaptioningSamuel Thomas, Kartik Audhkhasi, Zoltán Tüske, Yinghui Huang, Michael Picheny. 2973-2977 [doi]

Improving Large Vocabulary Urdu Speech Recognition System Using Deep Neural NetworksMuhammad Umar Farooq, Farah Adeeba, Sahar Rauf, Sarmad Hussain. 2978-2982 [doi]

Hybrid Arbitration Using Raw ASR String and NLU Information - Taking the Best of Both Embedded World and Cloud WorldMin Tang. 2983-2987 [doi]

Leveraging a Character, Word and Prosody Triplet for an ASR Error Robust and Agglutination Friendly Punctuation ApproachGyörgy Szaszák, Máté Ákos Tündik. 2988-2992 [doi]

The Airbus Air Traffic Control Speech Recognition 2018 Challenge: Towards ATC Automatic Transcription and Call Sign DetectionThomas Pellegrini, Jérôme Farinas, Estelle Delpech, François Lancelot. 2993-2997 [doi]

Kite: Automatic Speech Recognition for Unmanned Aerial VehiclesDan Oneata, Horia Cucu. 2998-3002 [doi]

Exploring Methods for the Automatic Detection of Errors in Manual TranscriptionXiaofei Wang, Jinyi Yang, Ruizhi Li, Samik Sadhu, Hynek Hermansky. 3003-3007 [doi]

Improved Low-Resource Somali Speech Recognition by Semi-Supervised Acoustic and Language Model TrainingAstik Biswas, Raghav Menon, Ewald van der Westhuizen, Thomas Niesler. 3008-3012 [doi]

The Althingi ASR SystemInga Rún Helgadóttir, Anna Björk Nikulásdóttir, Michal Borský, Judy Y. Fong, Róbert Kjaran, Jón Guðnason. 3013-3017 [doi]

CRIM's Speech Transcription and Call Sign Detection System for the ATC Airbus Challenge TaskVishwa Gupta, Lise Rebout, Gilles Boulianne, Pierre André Ménard, Jahangir Alam. 3018-3022 [doi]

Optimizing Speech-Input Length for Speaker-Independent Depression ClassificationTomasz Rutowski, Amir Harati, Yang Lu, Elizabeth Shriberg. 3023-3027 [doi]

A New Approach for Automating Analysis of Responses on Verbal Fluency Tests from Subjects At-Risk for SchizophreniaMary Pietrowicz, Carla Agurto, Raquel Norel, Elif Eyigöz, Guillermo A. Cecchi, Zarina R. Bilgrami, Cheryl Corcoran. 3028-3032 [doi]

Comparison of Telephone Recordings and Professional Microphone Recordings for Early Detection of Parkinson's Disease, Using Mel-Frequency Cepstral Coefficients with Gaussian Mixture ModelsLaetitia Jeancolas, Graziella Mangone, Jean-Christophe Corvol, Marie Vidailhet, Stéphane Lehéricy, Badr-Eddine Benkelfat, Habib Benali, Dijana Petrovska-Delacrétaz. 3033-3037 [doi]

Spectral Subspace Analysis for Automatic Assessment of Pathological Speech IntelligibilityParvaneh Janbakhshi, Ina Kodrasi, Hervé Bourlard. 3038-3042 [doi]

An Investigation of Therapeutic Rapport Through Prosody in Brief Psychodynamic PsychotherapyCarolina De Pasquale, Charlie Cullen, Brian Vaughan. 3043-3047 [doi]

Feature Representation of Pathophysiology of Parkinsonian DysarthriaAlice Rueda, Juan Camilo Vásquez-Correa, Cristian David Rios-Urrego, Juan Rafael Orozco-Arroyave, Sridhar Krishnan 0001, Elmar Nöth. 3048-3052 [doi]

Neural Transfer Learning for Cry-Based Diagnosis of Perinatal AsphyxiaCharles C. Onu, Jonathan Lebensold, William L. Hamilton, Doina Precup. 3053-3057 [doi]

Investigating the Variability of Voice Quality and Pain Levels as a Function of Multiple Clinical ParametersHui-Ting Hong, Jeng-Lin Li, Yi-Ming Weng, Chip-Jin Ng, Chi-Chun Lee. 3058-3062 [doi]

Assessing Parkinson's Disease from Speech Using Fisher VectorsJosé Vicente Egas López, Juan Rafael Orozco-Arroyave, Gábor Gosztolya. 3063-3067 [doi]

Feature Space Visualization with Spatial Similarity Maps for Pathological Speech DataPhilipp Klumpp, Juan Camilo Vásquez-Correa, Tino Haderlein, Elmar Nöth. 3068-3072 [doi]

Predicting Behavior in Cancer-Afflicted Patient and Spouse Interactions Using Speech and LanguageSandeep Nallan Chakravarthula, HaoQi Li, Shao-Yen Tseng, Maija Reblin, Panayiotis G. Georgiou. 3073-3077 [doi]

Automatic Assessment of Language Impairment Based on Raw ASR OutputYing Qin, Tan Lee, Anthony Pak-Hin Kong. 3078-3082 [doi]

Effects of Spectral and Temporal Cues to Mandarin Concurrent-Vowels Identification for Normal-Hearing and Hearing-Impaired ListenersZhen Fu, Xihong Wu, Jing Chen. 3083-3087 [doi]

Disfluencies and Human Speech Transcription ErrorsVicky Zayats, Trang tran, Richard A. Wright, Courtney Mansfield, Mari Ostendorf. 3088-3092 [doi]

The Influence of Distraction on Speech Processing: How Selective is Selective Attention?Sandra I. Parhammer, Miriam Ebersberg, Jenny Tippmann, Katja Stärk, Andreas Opitz, Barbara Hinger, Sonja Rossi. 3093-3097 [doi]

Subjective Evaluation of Communicative Effort for Younger and Older Adults in Interactive Tasks with Energetic and Informational MaskingValérie Hazan, Outi Tuomainen, Linda Taschenberger. 3098-3102 [doi]

Perceiving Older Adults Producing Clear and Lombard SpeechChris Davis 0001, Jeesun Kim. 3103-3107 [doi]

Phone-Attribute Posteriors to Evaluate the Speech of Cochlear Implant UsersTomas Arias-Vergara, Juan Rafael Orozco-Arroyave, Milos Cernak, Sandra Gollwitzer, Maria Schuster, Elmar Nöth. 3108-3112 [doi]

Effects of Urgent Speech and Congruent/Incongruent Text on Speech Intelligibility in Noise and ReverberationNao Hodoshima. 3113-3117 [doi]

Quantifying Cochlear Implant Users' Ability for Speaker Identification Using CI Auditory StimuliNursadul Mamun, Ria Ghosh, John H. L. Hansen. 3118-3122 [doi]

Lexically Guided Perceptual Learning of a Vowel Shift in an Interactive L2 Listening ContextE. Felker, Mirjam Ernestus, Mirjam Broersma. 3123-3127 [doi]

Talker Intelligibility and Listening Effort with Temporally Modified SpeechMaximillian Paulus, Valérie Hazan, Patti Adank. 3128-3132 [doi]

2SPIN: Re-Recording the Revised Speech Perception in Noise TestLauren Ward, Catherine Robinson, Matthew Paradis, Katherine M. Tucker, Ben G. Shirley. 3133-3137 [doi]

Contributions of Consonant-Vowel Transitions to Mandarin Tone Identification in Simulated Electric-Acoustic HearingFei Chen. 3138-3142 [doi]

Monaural Speech Enhancement with Dilated ConvolutionsShadi Pirhosseinloo, Jonathan S. Brumberg. 3143-3147 [doi]

Noise Adaptive Speech Enhancement Using Domain Adversarial TrainingChien-Feng Liao, Yu Tsao 0001, Hung-yi Lee, Hsin-Min Wang. 3148-3152 [doi]

Environment-Dependent Attention-Driven Recurrent Convolutional Neural Network for Robust Speech EnhancementMeng Ge, Longbiao Wang, Nan Li, Hao Shi, Jianwu Dang, Xiangang Li. 3153-3157 [doi]

A Statistically Principled and Computationally Efficient Approach to Speech Enhancement Using Variational AutoencodersManuel Pariente, Antoine Deleforge, Emmanuel Vincent. 3158-3162 [doi]

Speech Enhancement Using Forked Generative Adversarial Networks with Spectral SubtractionJu Lin, Sufeng Niu, Zice Wei, Xiang Lan, Adriaan J. van Wijngaarden, Melissa C. Smith, Kuang-Ching Wang. 3163-3167 [doi]

Specialized Speech Enhancement Model Selection Based on Learned Non-Intrusive Quality Assessment MetricRyandhimas E. Zezario, Szu-Wei Fu, Xugang Lu, Hsin-Min Wang, Yu Tsao. 3168-3172 [doi]

Speaker-Aware Deep Denoising Autoencoder with Embedded Speaker Identity for Speech EnhancementFu-Kai Chuang, Syu-Siang Wang, Jeih-Weih Hung, Yu Tsao, Shih-Hau Fang. 3173-3177 [doi]

Investigation of Cost Function for Supervised Monaural Speech SeparationYun Liu, Hui Zhang, Xueliang Zhang, Yuhang Cao. 3178-3182 [doi]

Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech SeparationZiqiang Shi, Huibin Lin, Liu Liu, Rujie Liu, Jiqing Han, Anyan Shi. 3183-3187 [doi]

Masking Estimation with Phase Restoration of Clean Speech for Monaural Speech EnhancementXianyun Wang, Changchun Bao. 3188-3192 [doi]

Progressive Speech Enhancement with Residual ConnectionsJorge Llombart, Dayana Ribas, Antonio Miguel, Luis Vicente, Alfonso Ortega Giménez, Eduardo Lleida. 3193-3197 [doi]

Acoustic Model Bootstrapping Using Semi-Supervised LearningLangzhou Chen, Volker Leutnant. 3198-3202 [doi]

Bandwidth Embeddings for Mixed-Bandwidth Speech RecognitionGautam Mantena, Ozlem Kalinli, Ossama Abdel Hamid, Don McAllaster. 3203-3207 [doi]

Adversarial Black-Box Attacks on Automatic Speech Recognition Systems Using Multi-Objective Evolutionary OptimizationShreya Khare, Rahul Aralikatte, Senthil Mani. 3208-3212 [doi]

Towards Debugging Deep Neural Networks by Generating Speech UtterancesBilal Soomro, Anssi Kanervisto, Trung Ngo Trong, Ville Hautamäki. 3213-3217 [doi]

Compression of CTC-Trained Acoustic Models by Dynamic Frame-Wise Distillation or Segment-Wise N-Best Hypotheses ImitationHaisong Ding, Kai Chen 0001, Qiang Huo. 3218-3222 [doi]

Keyword Spotting for Hearing Assistive Devices Robust to External SpeakersIván López-Espejo, Zheng-Hua Tan, Jesper Jensen 0001. 3223-3227 [doi]

Latent Dirichlet Allocation Based Acoustic Data Selection for Automatic Speech RecognitionMortaza Doulaty, Thomas Hain. 3228-3232 [doi]

Target Speaker Recovery and Recognition Network with Average x-Vector and Global TrainingWenjie Li, Pengyuan Zhang, Yonghong Yan 0002. 3233-3237 [doi]

Lyrics Recognition from Singing Voice Focused on Correspondence Between Voice and NotesMotoyuki Suzuki, Sho Tomita, Tomoki Morita. 3238-3241 [doi]

Transfer Learning from Audio-Visual Grounding to Speech RecognitionWei-Ning Hsu, David Harwath, James R. Glass. 3242-3246 [doi]

Cross-Corpus Speech Emotion Recognition Using Semi-Supervised Transfer Non-Negative Matrix Factorization with Adaptation RegularizationHui Luo, Jiqing Han. 3247-3251 [doi]

Modeling User Context for Valence Prediction from NarrativesAniruddha Tammewar, Alessandra Cervone, Eva-Maria Messner, Giuseppe Riccardi. 3252-3256 [doi]

Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion RecognitionRupayan Chakraborty, Ashish Panda, Meghna Pandharipande, Sonal Joshi, Sunil Kumar Kopparapu. 3257-3261 [doi]

The Contribution of Acoustic Features Analysis to Model Emotion Perceptual Process for Language DiversityXingfeng Li, Masato Akagi. 3262-3266 [doi]

Design and Development of a Multi-Lingual Speech Corpora (TaMaR-EmoDB) for Emotion AnalysisRajeev Rajan, Haritha U. G., Sujitha A. C., Rejisha T. M.. 3267-3271 [doi]

Speech Emotion Recognition with a Reject OptionKusha Sridhar, Carlos Busso. 3272-3276 [doi]

Development of Emotion Rankers Based on Intended and Perceived Emotion LabelsZhenghao Jin, Houwei Cao. 3277-3281 [doi]

Emotion Recognition from Natural Phone Conversations in Individuals with and without Recent Suicidal IdeationJohn Gideon, Heather T. Schatten, Melvin G. McInnis, Emily Mower Provost. 3282-3286 [doi]

An Acoustic and Lexical Analysis of Emotional Valence in Spontaneous Speech: Autobiographical Memory Recall in Older AdultsDeniece S. Nazareth, Ellen Tournier, Sarah Leimkötter, Esther Janse, Dirk Heylen, Gerben J. Westerhof, Khiet P. Truong. 3287-3291 [doi]

Does the Lombard Effect Improve Emotional Communication in Noise? - Analysis of Emotional Speech Acted in NoiseYi Zhao 0006, Atsushi Ando, Shinji Takaki, Junichi Yamagishi, Satoshi Kobashikawa. 3292-3296 [doi]

Linear Discriminant Differential Evolution for Feature Selection in Emotional Speech RecognitionSoumaya Gharsellaoui, Sid-Ahmed Selouani, Mohammed Sidi Yakoub. 3297-3301 [doi]

Multi-Modal Learning for Speech Emotion Recognition: An Analysis and Comparison of ASR Outputs with Ground Truth TranscriptionSaurabh Sahu, Vikramjit Mitra, Nadee Seneviratne, Carol Y. Espy-Wilson. 3302-3306 [doi]

Articulatory Characteristics of Secondary Palatalization in Romanian FricativesLaura Spinu, Maida Percival, Alexei Kochetov. 3307-3311 [doi]

Articulation of Vowel Length Contrasts in Australian EnglishLouise Ratko, Michael I. Proctor, Felicity Cox. 3312-3316 [doi]

V-to-V Coarticulation Induced Acoustic and Articulatory Variability of Vowels: The Effect of Pitch-AccentAndrea Deme, Márton Bartók, Tekla Etelka Gráczi, Tamás Gábor Csapó, Alexandra Markó. 3317-3321 [doi]

The Contribution of Lip Protrusion to Anglo-English /r/: Evidence from Hyper- and Non-Hyperarticulated SpeechHannah King, Emmanuel Ferragne. 3322-3326 [doi]

Articulatory Analysis of Transparent Vowel /iː/ in Harmonic and Antiharmonic Hungarian Stems: Is There a Difference?Alexandra Markó, Márton Bartók, Tamás Gábor Csapó, Tekla Etelka Gráczi, Andrea Deme. 3327-3331 [doi]

On the Role of Oral Configurations in European Portuguese Nasal VowelsConceição Cunha, Samuel S. Silva, António J. S. Teixeira, Catarina Oliveira, Paula Martins, Arun A. Joseph, Jens Frahm. 3332-3336 [doi]

Residual + Capsule Networks (ResCap) for Simultaneous Single-Channel Overlapped Keyword RecognitionYan Xiong, Visar Berisha, Chaitali Chakrabarti. 3337-3341 [doi]

A Study for Improving Device-Directed Speech Detection Toward Frictionless Human-Machine InteractionChe-Wei Huang, Roland Maas, Sri Harish Mallidi, Björn Hoffmeister. 3342-3346 [doi]

Unsupervised Methods for Audio Classification from Lecture Discussion RecordingsHang Su, Borislav Dzodzo, Xixin Wu, Xunying Liu, Helen Meng. 3347-3351 [doi]

Neural Whispered Speech Detection with Imbalanced LearningTakanori Ashihara, Yusuke Shinohara, Hiroshi Sato, Takafumi Moriya, Kiyoaki Matsui, Takaaki Fukutomi, Yoshikazu Yamaguchi, Yushi Aono. 3352-3356 [doi]

Deep Learning for Orca Call Type Identification - A Fully Unsupervised ApproachChristian Bergler, Manuel Schmitt, Rachael Xi Cheng, Andreas K. Maier, Volker Barth, Elmar Nöth. 3357-3361 [doi]

Open-Vocabulary Keyword Spotting with Audio and Text EmbeddingsNiccolò Sacchi, Alexandre Nanchen, Martin Jaggi, Milos Cernak. 3362-3366 [doi]

ToneNet: A CNN Model of Tone Classification of Mandarin ChineseQiang Gao, Shutao Sun, Yaping Yang. 3367-3371 [doi]

Temporal Convolution for Real-Time Keyword Spotting on Mobile DevicesSeungwoo Choi, Seokjun Seo, Beomjun Shin, Hyeongmin Byun, Martin Kersner, Beomsu Kim, Dongyoung Kim, Sungjoo Ha. 3372-3376 [doi]

Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data AugmentationZhiying Huang, Shiliang Zhang, Ming Lei. 3377-3381 [doi]

Music Genre Classification Using Duplicated Convolutional Layers in Neural NetworksHansi Yang, Wei-Qiang Zhang. 3382-3386 [doi]

A Storyteller's Tale: Literature Audiobooks Genre Classification Using CNN and RNN ArchitecturesNehory Carmi, Azaria Cohen, Mireille Avigal, Anat Lerner. 3387-3390 [doi]

Parameter Enhancement for MELP Speech Codec in Noisy Communication EnvironmentMin-Jae Hwang, Hong-Goo Kang. 3391-3395 [doi]

Cascaded Cross-Module Residual Learning Towards Lightweight End-to-End Speech CodingKai Zhen, Jongmo Sung, Mi Suk Lee, Seungkwon Beack, Minje Kim. 3396-3400 [doi]

End-to-End Optimization of Source Models for Speech and Audio Coding Using a Machine Learning FrameworkTom Bäckström. 3401-3405 [doi]

A Real-Time Wideband Neural Vocoder at 1.6kb/s Using LPCNetJean-Marc Valin, Jan Skoglund. 3406-3410 [doi]

Super-Wideband Spectral Envelope Modeling for Speech CodingGuillaume Fuchs, Chamran Ashour, Tom Bäckström. 3411-3415 [doi]

Speech Audio Super-Resolution for Speech RecognitionXinyu Li, Venkata Chebiyyam, Katrin Kirchhoff. 3416-3420 [doi]

Artificial Bandwidth Extension Using H∞ OptimizationDeepika Gupta, Hanumant Singh Shekhawat. 3421-3425 [doi]

Quality Degradation Diagnosis for Voice Networks - Estimating the Perceived Noisiness, Coloration, and Discontinuity of Transmitted SpeechGabriel Mittag, Sebastian Möller 0001. 3426-3430 [doi]

A Cross-Entropy-Guided (CEG) Measure for Speech Enhancement Front-End Assessing Performances of Back-End Automatic Speech RecognitionLi Chai 0002, Jun Du, Chin-Hui Lee. 3431-3435 [doi]

Extending the E-Model Towards Super-Wideband and Fullband Speech Communication ScenariosSebastian Möller 0001, Gabriel Mittag, Thilo Michael, Vincent Barriac, Hitoshi Aoki. 3436-3440 [doi]

Modulation Vectors as Robust Feature Representation for ASR in Domain Mismatched ConditionsSamik Sadhu, Hynek Hermansky. 3441-3445 [doi]

Prosody Usage Optimization for Children Speech Recognition with Zero Resource Children SpeechChenda Li, Yanmin Qian. 3446-3450 [doi]

Unsupervised Raw Waveform Representation Learning for ASRPurvi Agrawal, Sriram Ganapathy. 3451-3455 [doi]

Low-Dimensional Bottleneck Features for On-Device Continuous Speech RecognitionDavid B. Ramsay, Kevin Kilgour, Dominik Roblek, Matthew Sharifi. 3456-3459 [doi]

Binary Speech Features for Keyword Spotting TasksAlexandre Riviello, Jean-Pierre David. 3460-3464 [doi]

wav2vec: Unsupervised Pre-Training for Speech RecognitionSteffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli. 3465-3469 [doi]

Automatic Detection of Prosodic Focus in American EnglishSunghye Cho, Mark Liberman, Yong-cheol Lee. 3470-3474 [doi]

Feature Exploration for Almost Zero-Resource ASR-Free Keyword Spotting Using a Multilingual Bottleneck Extractor and Correspondence AutoencodersRaghav Menon, Herman Kamper, Ewald van der Westhuizen, John Quinn, Thomas Niesler. 3475-3479 [doi]

On Learning Interpretable CNNs with Parametric Modulated Kernel-Based FiltersErfan Loweimi, Peter Bell 0001, Steve Renals. 3480-3484 [doi]

Reverse Transfer Learning: Can Word Embeddings Trained for Different NLP Tasks Improve Neural Language Models?Lyan Verwimp, Jerome R. Bellegarda. 3485-3489 [doi]

Joint Grapheme and Phoneme Embeddings for Contextual End-to-End ASRZhehuai Chen, Mahaveer Jain, Yongqiang Wang, Michael L. Seltzer, Christian Fuegen. 3490-3494 [doi]

Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASRChang Liu, Zhen Zhang, Pengyuan Zhang, Yonghong Yan 0002. 3495-3499 [doi]

Connecting and Comparing Language Model Interpolation TechniquesErnest Pusateri, Christophe Van Gysel, Rami Botros, Sameer Badaskar, Mirko Hannemann, Youssef Oualil, Ilya Oparin. 3500-3504 [doi]

Enriching Rare Word Representations in Neural Language Models by Embedding Matrix AugmentationYerbolat Khassanov, Zhiping Zeng, Van Tung Pham, Haihua Xu, Eng Siong Chng. 3505-3509 [doi]

Comparative Study of Parametric and Representation Uncertainty Modeling for Recurrent Neural Network Language ModelsJianwei Yu, Max W. Y. Lam, Shoukang Hu, Xixin Wu, Xu Li, Yuewen Cao, Xunying Liu, Helen Meng. 3510-3514 [doi]

Improving Automatically Induced Lexicons for Highly Agglutinating Languages Using Data-Driven Morphological SegmentationWiehan Agenbag, Thomas Niesler. 3515-3519 [doi]

Attention-Based Word Vector Prediction with LSTMs and its Application to the OOV Problem in ASRAlejandro Coucheiro-Limeres, Fernando Fernández-Martínez, Rubén San Segundo, Javier Ferreiros López. 3520-3524 [doi]

Code-Switching Sentence Generation by Bert and Generative Adversarial NetworksYingying Gao, Junlan Feng, Ying Liu, Leijing Hou, Xin Pan, Yong Ma. 3525-3529 [doi]

Unified Verbalization for Speech Recognition & Synthesis Across LanguagesSandy Ritchie, Richard Sproat, Kyle Gorman, Daan van Esch, Christian Schallhart, Nikos Bampounis, Benoît Brard, Jonas Fromseier Mortensen, Millie Holt, Eoin Mahon. 3530-3534 [doi]

Better Morphology Prediction for Better Speech SystemsDravyansh Sharma, Melissa Wilson, Antoine Bruguier. 3535-3539 [doi]

Vietnamese Learners Tackling the German /ʃt/ in PerceptionAnke Sennema, Silke Hamann. 3540-3543 [doi]

An Articulatory-Acoustic Investigation into GOOSE-Fronting in German-English Bilinguals Residing in London, UKScott Lewis, Adib Mehrabi, Esther de Leeuw. 3544-3548 [doi]

Multimodal Articulation-Based Pronunciation Error Detection with Spectrogram and Acoustic FeaturesSabrina Jenne, Ngoc Thang Vu. 3549-3553 [doi]

Using Prosody to Discover Word Order Alternations in a Novel LanguageAnouschka Foltz, Sarah Cooper, Tamsin M. McKelvey. 3554-3558 [doi]

Speaking Rate, Information Density, and Information Rate in First-Language and Second-Language SpeechAnn R. Bradlow. 3559-3563 [doi]

Articulation Rate as a Metric in Spoken Language AssessmentCalbert Graham, Francis Nolan. 3564-3568 [doi]

Learning Alignment for Multimodal Emotion Recognition from SpeechHaiyang Xu, Hui Zhang, Kun Han, Yun Wang, Yiping Peng, Xiangang Li. 3569-3573 [doi]

Liquid Deletion in French Child-Directed SpeechSharon Peperkamp, Monica Hegde, Maria Julia Carbajal. 3574-3578 [doi]

Towards Detection of Canonical Babbling by Citizen Scientists: Performance as a Function of Clip LengthAmanda Seidl, Anne S. Warlaumont, Alejandrina Cristià. 3579-3583 [doi]

Nasal Consonant Discrimination in Infant- and Adult-Directed SpeechBogdan Ludusan, Annett Jorschick, Reiko Mazuka. 3584-3588 [doi]

No Distributional Learning in Adults from Attended Listening to Non-SpeechEllen Marklund, Johan Sjons, Lisa Gustavsson, Elísabet Eir Cortes. 3589-3593 [doi]

A Computational Model of Early Language Acquisition from Audiovisual Experiences of Young InfantsOkko Räsänen, Khazar Khorrami. 3594-3598 [doi]

h/ by Native Urdu SpeakersDan Du, Jinsong Zhang. 3599-3603 [doi]

Multi-Stream Network with Temporal Attention for Environmental Sound ClassificationXinyu Li, Venkata Chebiyyam, Katrin Kirchhoff. 3604-3608 [doi]

Neural Network Distillation on IoT Platforms for Sound Event DetectionGianmarco Cerutti, Rahul Prasad, Alessio Brutti, Elisabetta Farella. 3609-3613 [doi]

Class-Wise Centroid Distance Metric Learning for Acoustic Event DetectionXugang Lu, Peng Shen, Sheng Li 0010, Yu Tsao 0001, Hisashi Kawai. 3614-3618 [doi]

A Hybrid Approach to Acoustic Scene Classification Based on Universal Acoustic ModelsXue Bai, Jun Du, Zi-Rui Wang, Chin-Hui Lee. 3619-3623 [doi]

Hierarchical Pooling Structure for Weakly Labeled Sound Event DetectionKe-Xin He, Yu-Han Shen, Wei-Qiang Zhang. 3624-3628 [doi]

Sound Event Detection in Multichannel Audio Using Convolutional Time-Frequency-Channel Squeeze and ExcitationWei Xia, Kazuhito Koishida. 3629-3633 [doi]

A Robust Framework for Acoustic Scene ClassificationLam Dang Pham, Ian Vince McLoughlin, Huy Phan, Ramaswamy Palaniappan. 3634-3638 [doi]

Compression of Acoustic Event Detection Models with Quantized DistillationBowen Shi, Ming Sun, Chieh-Chi Kao, Viktor Rozgic, Spyros Matsoukas, Chao Wang. 3639-3643 [doi]

An End-to-End Audio Classification System Based on Raw Waveforms and Mix-Training StrategyJiaxu Chen, Jing Hao, Kai Chen, Di Xie, Shicai Yang, Shiliang Pu. 3644-3648 [doi]

Few-Shot Audio Classification with Attentional Graph Neural NetworksShilei Zhang, Yong Qin 0001, Kewei Sun, Yonghua Lin. 3649-3653 [doi]

Semi-Supervised Audio Classification with Consistency-Based RegularizationKangkang Lu, Chuan-Sheng Foo, Kah Kuan Teh, Huy Dat Tran, Vijay Ramaseshan Chandrasekhar. 3654-3658 [doi]

Avaya Conversational Intelligence: A Real-Time System for Spoken Language Understanding in Human-Human Call Center ConversationsJan Mizgajski, Adrian Szymczak, Robert Glowski, Piotr Szymanski, Piotr Zelasko, Lukasz Augustyniak, Mikolaj Morzy, Yishay Carmiel, Jeff Hodson, Lukasz Wójciak, Daniel Smoczyk, Adam Wróbel, Bartosz Borowik, Adam Artajew, Marcin Baran, Cezary Kwiatkowski, Marzena Zyla-Hoppe. 3659-3660 [doi]

Robust Keyword Spotting via Recycle-Pooling for Mobile GameShounan An, Youngsoo Kim, Hu Xu, Jinwoo Lee, Myungwoo Lee, Insoo Oh. 3661-3662 [doi]

Multimodal Dialog with the MALACH Audiovisual ArchiveAdam Chýlek, Lubos Smídl, Jan Svec. 3663-3664 [doi]

SpeechMarker: A Voice Based Multi-Level Attendance ApplicationSarfaraz Jelil, Abhishek Shrivastava, Rohan Kumar Das, S. R. Mahadeva Prasanna, Rohit Sinha 0003. 3665-3666 [doi]

Robust Sound Recognition: A Neuromorphic ApproachJibin Wu, Zihan Pan, Malu Zhang, Rohan Kumar Das, Yansong Chua, Haizhou Li 0001. 3667-3668 [doi]

The CUHK Dysarthric Speech Recognition Systems for English and CantoneseShoukang Hu, Shansong Liu, Heng Fai Chang, Mengzhe Geng, Jiani Chen, Lau Wing Chung, To Ka Hei, Jianwei Yu, Ka-Ho Wong, Xunying Liu, Helen Meng. 3669-3670 [doi]

BAS Web Services for Automatic Subtitle Creation and AnonymizationFlorian Schiel, Thomas Kisler. 3671-3672 [doi]

A User-Friendly and Adaptable Re-Implementation of an Acoustic Prominence Detection and Annotation ToolJana Voße, Petra Wagner. 3673-3674 [doi]

PyToBI: A Toolkit for ToBI Labeling Under PythonMónica Domínguez, Patrick Louis Rohrer, Juan Soler Company. 3675-3676 [doi]

GECKO - A Tool for Effective Annotation of Human ConversationsGolan Levy, Raquel Sitman, Ido Amir, Eduard Golshtein, Ran Mochary, Eilon Reshef, Roi Reichart, Omri Allouche. 3677-3678 [doi]

SLP-AA: Tools for Sign Language Phonetic and Phonological ResearchRoger Yu-Hsiang Lo, Kathleen Currie Hall. 3679-3680 [doi]

SANTLR: Speech Annotation Toolkit for Low Resource LanguagesXinjian Li, Zhong Zhou, Siddharth Dalmia, Alan W. Black, Florian Metze. 3681-3682 [doi]

Web-Based Speech Synthesis EditorMartin Gruber, Jakub Vít, Jindrich Matousek. 3683-3684 [doi]

GFM-Voc: A Real-Time Voice Quality Modification SystemOlivier Perrotin, Ian Vince McLoughlin. 3685-3686 [doi]

Off the Cuff: Exploring Extemporaneous Speech Delivery with TTSÉva Székely, Gustav Eje Henter, Jonas Beskow, Joakim Gustafson. 3687-3688 [doi]

Synthesized Spoken Names: Biases Impacting PerceptionLucas Kessler, Cecilia Ovesdotter Alm, Reynold Bailey. 3689-3690 [doi]

Unbabel Talk - Human Verified Translations for Voice Instant MessagingLuís Bernardo, Mathieu Giquel, Sebastião Quintas, Paulo Dimas, Helena Moniz, Isabel Trancoso. 3691-3692 [doi]

Adjusting Pleasure-Arousal-Dominance for Continuous Emotional Text-to-Speech SynthesizerAzam Rabiee, Tae-Ho Kim, Soo-Young Lee. 3693-3694 [doi]

The GDPR & Speech Data: Reflections of Legal and Technology Communities, First Steps Towards a Common UnderstandingAndreas Nautsch, Catherine Jasserand, Els Kindt, Massimiliano Todisco, Isabel Trancoso, Nicholas W. D. Evans. 3695-3699 [doi]

Privacy-Preserving Adversarial Representation Learning in ASR: Reality or Illusion?Brij Mohan Lal Srivastava, Aurélien Bellet, Marc Tommasi, Emmanuel Vincent. 3700-3704 [doi]

Privacy-Preserving Siamese Feature Extraction for Gender Recognition versus Speaker IdentificationAlexandru Nelus, Silas Rech, Timm Koppelmann, Henrik Biermann, Rainer Martin. 3705-3709 [doi]

Privacy-Preserving Variational Information Feature Extraction for Domestic Activity Monitoring versus Speaker IdentificationAlexandru Nelus, Janek Ebbers, Reinhold Haeb-Umbach, Rainer Martin. 3710-3714 [doi]

Extracting Mel-Frequency and Bark-Frequency Cepstral Coefficients from Encrypted SignalsPatricia Thaine, Gerald Penn. 3715-3719 [doi]

Sound Privacy: A Conversational Speech Corpus for Quantifying the Experience of PrivacyPablo Pérez Zarazaga, Sneha Das, Tom Bäckström, Vishnu Vidyadhara Raju Vegesna, Anil Kumar Vuppala. 3720-3724 [doi]

Improving Code-Switched Language Modeling Performance Using Cognate FeaturesVictor Soto, Julia Hirschberg. 3725-3729 [doi]

Linguistically Motivated Parallel Data Augmentation for Code-Switch Language ModelingGrandee Lee, Xianghu Yue, Haizhou Li 0001. 3730-3734 [doi]

Variational Attention Using Articulatory Priors for Generating Code Mixed Speech Using Monolingual CorporaSai Krishna Rallabandi, Alan W. Black. 3735-3739 [doi]

Code-Switching Detection Using ASR-Generated Language PosteriorsQinyi Wang, Emre Yilmaz, Adem Derinel, Haizhou Li 0001. 3740-3744 [doi]

Semi-Supervised Acoustic Model Training for Five-Lingual Code-Switched ASRAstik Biswas, Emre Yilmaz, Febe de Wet, Ewald van der Westhuizen, Thomas Niesler. 3745-3749 [doi]

Multi-Graph Decoding for Code-Switching ASREmre Yilmaz, Samuel Cohen, Xianghu Yue, David A. van Leeuwen, Haizhou Li 0001. 3750-3754 [doi]

End-to-End Multilingual Multi-Speaker Speech RecognitionHiroshi Seki, Takaaki Hori, Shinji Watanabe, Jonathan Le Roux, John R. Hershey. 3755-3759 [doi]

An Extended Two-Dimensional Vocal Tract Model for Fast Acoustic Simulation of Single-Axis Symmetric Three-Dimensional TubesDebasish Ray Mohapatra, Victor Zappi, Sidney S. Fels. 3760-3764 [doi]

Perceptual Optimization of an Enhanced Geometric Vocal Fold Model for Articulatory Speech SynthesisPeter Birkholz, Susanne Drechsel, Simon Stone. 3765-3769 [doi]

Articulatory Copy Synthesis Based on a Genetic AlgorithmYingming Gao, Simon Stone, Peter Birkholz. 3770-3774 [doi]

A Phonetic-Level Analysis of Different Input Features for Articulatory InversionAbdolreza Sabzi Shahrebabaki, Negar Olfati, Ali Shariq Imran, Sabato Marco Siniscalchi, Torbjørn Svendsen. 3775-3779 [doi]

Advancing Sequence-to-Sequence Based Speech RecognitionZoltán Tüske, Kartik Audhkhasi, George Saon. 3780-3784 [doi]

Sequence-to-Sequence Speech Recognition with Time-Depth Separable ConvolutionsAwni Hannun, Ann Lee 0001, Qiantong Xu, Ronan Collobert. 3785-3789 [doi]

Semi-Supervised Sequence-to-Sequence ASR Using Unpaired Speech and TextMurali Karthick Baskar, Shinji Watanabe, Ramón Fernández Astudillo, Takaaki Hori, Lukás Burget, Jan Cernocký. 3790-3794 [doi]

Learn Spelling from Teachers: Transferring Knowledge from Language Models to Sequence-to-Sequence Speech RecognitionYe Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen. 3795-3799 [doi]

On the Choice of Modeling Unit for Sequence-to-Sequence Speech RecognitionKazuki Irie, Rohit Prabhavalkar, Anjuli Kannan, Antoine Bruguier, David Rybach, Patrick Nguyen. 3800-3804 [doi]

Listen, Attend, Spell and Adapt: Speaker Adapted Sequence-to-Sequence ASRFelix Weninger, Jesús Andrés-Ferrer, Xinwei Li, Puming Zhan. 3805-3809 [doi]

Lattice Re-Scoring During Manual Editing for Automatic Error Correction of ASR TranscriptsAnna V. Rúnarsdóttir, Inga Rún Helgadóttir, Jón Guðnason. 3810-3814 [doi]

GPU-Based WFST Decoding with Extra Large Language ModelDaisuke Fukunaga, Yoshiki Tanaka, Yuichi Kageyama. 3815-3819 [doi]

Real-Time One-Pass Decoder for Speech Recognition Using LSTM Language ModelsJavier Jorge, Adrià Giménez, Javier Iranzo-Sánchez, Jorge Civera, Albert Sanchís, Alfons Juan. 3820-3824 [doi]

Vectorized Beam Search for CTC-Attention-Based Speech RecognitionHiroshi Seki, Takaaki Hori, Shinji Watanabe, Niko Moritz, Jonathan Le Roux. 3825-3829 [doi]

Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech RecognitionJack Serrino, Leonid Velikovich, Petar S. Aleksic, Cyril Allauzen. 3830-3834 [doi]

Sequence-to-Sequence Learning via Attention Transfer for Incremental Speech RecognitionSashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 3835-3839 [doi]

Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion RecognitionZheng Lian, Jianhua Tao, Bin Liu, Jian Huang 0014. 3840-3844 [doi]

Spatio-Temporal Attention Pooling for Audio Scene ClassificationHuy Phan, Oliver Y. Chén, Lam Pham, Philipp Koch, Maarten De Vos, Ian Vince McLoughlin, Alfred Mertins. 3845-3849 [doi]

Subspace Pooling Based Temporal Features Extraction for Audio Event RecognitionQiuying Shi, Hui Luo, Jiqing Han. 3850-3854 [doi]

Multi-Scale Time-Frequency Attention for Acoustic Event DetectionJingyang Zhang, Wenhao Ding, Jintao Kang, Liang He. 3855-3859 [doi]

Acoustic Scene Classification by Implicitly Identifying Distinct Sound EventsHongwei Song, Jiqing Han, Shiwen Deng, Zhihao Du. 3860-3864 [doi]

Parameter-Transfer Learning for Low-Resource Individualization of Head-Related Transfer FunctionsXiaoke Qi, Lu Wang 0002. 3865-3869 [doi]

Prosodic Characteristics of Mandarin Declarative and Interrogative Utterances in Parkinson's DiseaseLei Liu, Meng Jian, Wentao Gu. 3870-3874 [doi]

Study of the Performance of Automatic Speech Recognition Systems in Speakers with Parkinson's DiseaseLaureano Moro-Velázquez, Jaejin Cho, Shinji Watanabe, Mark A. Hasegawa-Johnson, Odette Scharenborg, Heejin Kim, Najim Dehak. 3875-3879 [doi]

Towards the Speech Features of Mild Cognitive Impairment: Universal Evidence from Structured and Unstructured Connected Speech of ChineseTianqi Wang, Chongyuan Lian, Jingshen Pan, Quanlei Yan, Feiqi Zhu, Manwa L. Ng, Lan Wang, Nan Yan. 3880-3884 [doi]

Child Speech Disorder Detection with Siamese Recurrent Network Using Speech Attribute FeaturesJiarui Wang, Ying Qin, Zhiyuan Peng, Tan Lee. 3885-3889 [doi]

Interpretable Deep Learning Model for the Detection and Reconstruction of Dysarthric SpeechDaniel Korzekwa, Roberto Barra-Chicote, Bozena Kostek, Thomas Drugman, Mateusz Lajszczak. 3890-3894 [doi]

Vocal Biomarker Assessment Following Pediatric Traumatic Brain Injury: A Retrospective Cohort StudyCamille Noufi, Adam C. Lammert, Daryush D. Mehta, James R. Williamson, Gregory Ciccarelli, Douglas E. Sturim, Jordan R. Green, Thomas F. Campbell, Thomas F. Quatieri. 3895-3899 [doi]

Improved Deep Duel Model for Rescoring N-Best Speech Recognition List Using Backward LSTMLM and Ensemble EncodersAtsunori Ogawa, Marc Delcroix, Shigeki Karita, Tomohiro Nakatani. 3900-3904 [doi]

Language Modeling with Deep TransformersKazuki Irie, Albert Zeyer, Ralf Schlüter, Hermann Ney. 3905-3909 [doi]

Scalable Multi Corpora Neural Language Models for ASRAnirudh Raju, Denis Filimonov, Gautam Tiwari, Guitang Lan, Ariya Rastrow. 3910-3914 [doi]

Who Needs Words? Lexicon-Free Speech RecognitionTatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert. 3915-3919 [doi]

Direct Modelling of Speech Emotion from Raw SpeechSiddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Julien Epps. 3920-3924 [doi]

Improving Emotion Identification Using Phone Posteriors in Raw Speech Waveform Based DNNMousmita Sarma, Pegah Ghahremani, Daniel Povey, Nagendra Kumar Goel, Kandarpa Kumar Sarma, Najim Dehak. 3925-3929 [doi]

Pyramid Memory Block and Timestep Attention for Speech Emotion RecognitionMiao Cao, Chun Yang, Fang Zhou, Xu-Cheng Yin. 3930-3934 [doi]

Robust Speech Emotion Recognition Under Different Encoding ConditionsChristopher Oates, Andreas Triantafyllopoulos, Ingmar Steiner, Björn W. Schuller. 3935-3939 [doi]

Using the Bag-of-Audio-Word Feature Representation of ASR DNN Posteriors for Paralinguistic ClassificationGábor Gosztolya. 3940-3944 [doi]

Disentangling Style Factors from Speaker RepresentationsJennifer Williams, Simon King. 3945-3949 [doi]

Sentence Prosody and Wh-Indeterminates in Taiwan MandarinYu-Yin Hsu, Anqi Xu. 3950-3954 [doi]

Frication as a Vowel Feature? - Evidence from the Rui'an Wu Chinese DialectFang Hu, Youjue He. 3955-3959 [doi]

Vowels and Diphthongs in the Xupu Xiang Chinese DialectZhenrui Zhang, Fang Hu. 3960-3964 [doi]

Age-Related Changes in European Portuguese Vowel AcousticsLuciana Albuquerque, Catarina Oliveira, António J. S. Teixeira, Pedro Sá Couto, Daniela Figueiredo. 3965-3969 [doi]

Vowel-Tone Interaction in Two Tibeto-Burman LanguagesWendy Lalhminghlui, Viyazonuo Terhiija, Priyankoo Sarmah. 3970-3974 [doi]

The Vowel System of KorebajuJenifer Vega Rodríguez. 3975-3979 [doi]

Fundamental Frequency Accommodation in Multi-Party Human-Robot Game Interactions: The Effect of Winning or LosingOmnia Ibrahim, Gabriel Skantze, Sabine Stoll, Volker Dellwo. 3980-3984 [doi]

Pitch Accent Trajectories Across Different Conditions of Visibility and Information Structure - Evidence from Spontaneous Dyadic InteractionPetra Wagner, Nataliya Bryhadyr, Marin Schröer. 3985-3989 [doi]

The Greennn Tree - Lengthening Position Influences Uncertainty PerceptionSimon Betz, Sina Zarrieß, Éva Székely, Petra Wagner. 3990-3994 [doi]

CNN-BLSTM Based Question Detection from Dialogs Considering Phase and Context InformationYuke Si, Longbiao Wang, Jianwu Dang, Mengfei Wu, Aijun Li. 3995-3999 [doi]

Mirroring to Build Trust in Digital AssistantsKatherine Metcalf, Barry-John Theobald, Garrett Weinberg, Robert Lee, Ing-Marie Jonsson, Russ Webb, Nicholas Apostoloff. 4000-4004 [doi]

Three's a Crowd? Effects of a Second Human on Vocal Accommodation with a Voice AssistantEran Raveh, Ingo Siegert, Ingmar Steiner, Iona Gessinger, Bernd Möbius. 4005-4009 [doi]

Adversarial Regularization for End-to-End Robust Speaker VerificationQing Wang, Pengcheng Guo, Sining Sun, Lei Xie, John H. L. Hansen. 4010-4014 [doi]

Combining Speaker Recognition and Metric Learning for Speaker-Dependent Representation LearningJoão Monteiro, Md. Jahangir Alam, Tiago H. Falk. 4015-4019 [doi]

VAE-Based Regularization for Deep Speaker EmbeddingYang Zhang, Lantian Li, Dong Wang 0013. 4020-4024 [doi]

Language Recognition Using Triplet Neural NetworksVictoria Mingote, Diego Castán, Mitchell McLaren, Mahesh Kumar Nandwana, Alfonso Ortega Giménez, Eduardo Lleida, Antonio Miguel. 4025-4029 [doi]

Spatial Pyramid Encoding with Convex Length Normalization for Text-Independent Speaker VerificationYoungmoon Jung, Younggwan Kim, Hyungjun Lim, Yeunju Choi, Hoirin Kim. 4030-4034 [doi]

End-to-End Losses Based on Speaker Basis Vectors and All-Speaker Hard Negative Mining for Speaker VerificationHee-Soo Heo, Jee-weon Jung, Il-Ho Yang, Sung Hyun Yoon, Hye-jin Shim, Ha-Jin Yu. 4035-4039 [doi]

An Effective Deep Embedding Learning Architecture for Speaker VerificationYiheng Jiang, Yan Song, Ian McLoughlin, Zhifu Gao, Li-Rong Dai. 4040-4044 [doi]

Far-Field End-to-End Text-Dependent Speaker Verification Based on Mixed Training Data with Transfer Learning and Enrollment Data AugmentationXiaoyi Qin, Danwei Cai, Ming Li. 4045-4049 [doi]

Two-Stage Training for Chinese Dialect RecognitionZongze Ren, Guofu Yang, Shugong Xu. 4050-4054 [doi]

Investigation on Blind Bandwidth Extension with a Non-Linear Function and its Evaluation of x-Vector-Based Speaker VerificationRyota Kaminishi, Haruna Miyamoto, Sayaka Shiota, Hitoshi Kiya. 4055-4059 [doi]

Auto-Encoding Nearest Neighbor i-Vectors for Speaker VerificationUmair Khan, Miquel India, Javier Hernando. 4060-4064 [doi]

Towards a Fault-Tolerant Speaker Verification System: A Regularization Approach to Reduce the Condition NumberSiqi Zheng, Gang Liu, Hongbin Suo, Yun Lei. 4065-4069 [doi]

Deep Learning Based Multi-Channel Speaker Recognition in Noisy and Reverberant EnvironmentsHassan Taherian, Zhong-qiu Wang, DeLiang Wang. 4070-4074 [doi]

Joint Optimization of Neural Acoustic Beamforming and Dereverberation with x-Vectors for Robust Speaker VerificationJoon-Young Yang, Joon-Hyuk Chang. 4075-4079 [doi]

A New Time-Frequency Attention Mechanism for TDNN and CNN-LSTM-TDNN, with Application to Language IdentificationXiaoxiao Miao, Ian McLoughlin, Yonghong Yan 0002. 4080-4084 [doi]

An Attention-Based Hybrid Network for Automatic Detection of Alzheimer's Disease from Narrative SpeechJun Chen, Ji Zhu, Jieping Ye. 4085-4089 [doi]

Investigating the Lombard Effect Influence on End-to-End Audio-Visual Speech RecognitionPingchuan Ma 0001, Stavros Petridis, Maja Pantic. 4090-4094 [doi]

"Computer, Test My Hearing": Accurate Speech Audiometry with Smart SpeakersJasper Ooster, Pia Nancy Porysek Moreta, Jörg-Hendrik Bach, Inga Holube, Bernd T. Meyer. 4095-4099 [doi]

Synchronising Audio and Ultrasound by Learning Cross-Modal EmbeddingsAciel Eshky, Manuel Sam Ribeiro, Korin Richmond, Steve Renals. 4100-4104 [doi]

Automatic Hierarchical Attention Neural Network for Detecting ADYilin Pan, Bahman Mirheidari, Markus Reuber, Annalena Venneri, Daniel Blackburn, Heidi Christensen. 4105-4109 [doi]

Deep Sensing of Breathing Signal During Conversational SpeechVenkata Srikanth Nallanthighal, Aki Härmä, Helmer Strik. 4110-4114 [doi]

Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech SeparationFadi Biadsy, Ron J. Weiss, Pedro J. Moreno, Dimitri Kanvesky, Ye Jia. 4115-4119 [doi]

Exploiting Visual Features Using Bayesian Gated Neural Networks for Disordered Speech RecognitionShansong Liu, Shoukang Hu, Yi Wang, Jianwei Yu, Rongfeng Su, Xunying Liu, Helen Meng. 4120-4124 [doi]

Video-Driven Speech Reconstruction Using Generative Adversarial NetworksKonstantinos Vougioukas, Pingchuan Ma 0001, Stavros Petridis, Maja Pantic. 4125-4129 [doi]

On the Use of Pitch Features for Disordered Speech RecognitionShansong Liu, Shoukang Hu, Xunying Liu, Helen Meng. 4130-4134 [doi]

Large-Scale Visual Speech RecognitionBrendan Shillingford, Yannis M. Assael, Matthew W. Hoffman, Thomas Paine, Cían Hughes, Utsav Prabhu, Hank Liao, Hasim Sak, Kanishka Rao, Lorrayne Bennett, Marie Mulville, Misha Denil, Ben Coppin, Ben Laurie, Andrew W. Senior, Nando de Freitas. 4135-4139 [doi]

Investigating Linguistic and Semantic Features for Turn-Taking Prediction in Open-Domain Human-Computer ConversationSeyedeh Zahra Razavi, Benjamin Kane, Lenhart K. Schubert. 4140-4144 [doi]

Benchmarking Benchmarks: Introducing New Automatic Indicators for Benchmarking Spoken Language Understanding CorporaFrédéric Béchet, Christian Raymond. 4145-4149 [doi]

A Neural Turn-Taking Model without RNNChaoran Liu, Carlos Toshinori Ishi, Hiroshi Ishiguro. 4150-4154 [doi]

An Incremental Turn-Taking Model for Task-Oriented Dialog SystemsAndrei C. Coman, Koichiro Yoshino, Yukitoshi Murase, Satoshi Nakamura 0001, Giuseppe Riccardi. 4155-4159 [doi]

Personalized Dialogue Response Generation Learned from MonologuesFeng-Guang Su, Aliyah R. Hsu, Yi-Lin Tuan, Hung-yi Lee. 4160-4164 [doi]

Voice Quality as a Turn-Taking CueMattias Heldner, Marcin Wlodarczak, Stefan Benus, Agustín Gravano. 4165-4169 [doi]

Turn-Taking Prediction Based on Detection of Transition Relevance PlaceKohei Hara, Koji Inoue, Katsuya Takanashi, Tatsuya Kawahara. 4170-4174 [doi]

Analysis of Effect and Timing of Fillers in Natural Turn-TakingDivesh Lala, Shizuka Nakamura, Tatsuya Kawahara. 4175-4179 [doi]

Multimodal Response Obligation Detection with Unsupervised Online Domain AdaptationShota Horiguchi, Naoyuki Kanda, Kenji Nagamatsu. 4180-4184 [doi]

Follow-Up Question Generation Using Neural Tensor Network-Based Domain Ontology Population in an Interview Coaching SystemMing-Hsiang Su, Chung-Hsien Wu, Yi Chang. 4185-4189 [doi]

On the Role of Style in Parsing Speech with Neural ModelsTrang tran, Jiahong Yuan, Yang Liu 0004, Mari Ostendorf. 4190-4194 [doi]

On the Contributions of Visual and Textual Supervision in Low-Resource Semantic Speech RetrievalAnkita Pasad, Bowen Shi, Herman Kamper, Karen Livescu. 4195-4199 [doi]

Automatic Detection of Off-Topic Spoken Responses Using Very Deep Convolutional Neural NetworksXinhao Wang, Su-Youn Yoon, Keelan Evanini, Klaus Zechner, Yao Qian. 4200-4204 [doi]

Rescoring Keyword Search Confidence Estimates with Graph-Based Re-Ranking Using Acoustic Word EmbeddingsAnna Piunova, Eugen Beck, Ralf Schlüter, Hermann Ney. 4205-4209 [doi]

SpeechYOLO: Detection and Localization of Speech ObjectsYael Segal, Tzeviya Sylvia Fuchs, Joseph Keshet. 4210-4214 [doi]

Prosodic Phrase Alignment for Machine DubbingAlp Öktem, Mireia Farrús, Antonio Bonafonte. 4215-4219 [doi]

Spot the Pleasant People! Navigating the Cocktail Party BuzzChristina Tånnander, Per Fallgren, Jens Edlund, Joakim Gusafsson. 4220-4224 [doi]

Neural Text Clustering with Document-Level Attention Based on Dynamic Soft LabelsZhi Chen, Wu Guo, Li-Rong Dai, Zhen-Hua Ling, Jun Du. 4225-4229 [doi]

Noisy BiLSTM-Based Models for Disfluency DetectionNguyen Bach, Fei Huang. 4230-4234 [doi]

Subword RNNLM Approximations for Out-Of-Vocabulary Keyword SearchMittul Singh, Sami Virpioja, Peter Smit, Mikko Kurimo. 4235-4239 [doi]

Simultaneous Detection and Localization of a Wake-Up Word Using Multi-Task Learning of the Duration and EndpointTakashi Maekaku, Yusuke Kida, Akihiko Sugiyama. 4240-4244 [doi]

On Mitigating Acoustic Feedback in Hearing Aids with Frequency Warping by All-Pass NetworksChing Hua Lee, Kuan-Lin Chen, Fredric J. Harris, Bhaskar D. Rao, Harinath Garudadri. 4245-4249 [doi]

Deep Multitask Acoustic Echo CancellationAmin Fazel, Mostafa El-Khamy, Jungwon Lee. 4250-4254 [doi]

Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear DistortionsHao Zhang, Ke Tan, DeLiang Wang. 4255-4259 [doi]

Harmonic Beamformers for Non-Intrusive Speech Intelligibility PredictionCharlotte Sørensen, Jesper Bünsow Boldt, Mads Græsbøll Christensen. 4260-4264 [doi]

Convolutional Neural Network-Based Speech Enhancement for Cochlear Implant RecipientsNursadul Mamun, Soheil Khorram, John H. L. Hansen. 4265-4269 [doi]

Validation of the Non-Intrusive Codebook-Based Short Time Objective Intelligibility Metric for Processed SpeechCharlotte Sørensen, Jesper B. Boldt, Mads G. Christensen. 4270-4274 [doi]

Predicting Speech Intelligibility of Enhanced Speech Using Phone Accuracy of DNN-Based ASR SystemKenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Katsuhiko Yamamoto, Toshio Irino. 4275-4279 [doi]

A Novel Method to Correct Steering Vectors in MVDR Beamformer for Noise Robust ASRSuliang Bu, Yunxin Zhao, Mei-Yuh Hwang. 4280-4284 [doi]

End-to-End Multi-Channel Speech Enhancement Using Inter-Channel Time-Restricted Attention on Raw WaveformHyeon Seung Lee, Hyung Yong Kim, Woo Hyun Kang, Jeunghun Kim, Nam Soo Kim. 4285-4289 [doi]

Neural Spatial Filter: Target Speaker Speech Separation Assisted with Directional InformationRongzhi Gu, LianWu Chen, Shi-Xiong Zhang, Jimeng Zheng, Yong Xu, Meng Yu, Dan Su, Yuexian Zou, Dong Yu 0001. 4290-4294 [doi]

My Lips Are Concealed: Audio-Visual Speech Enhancement Through ObstructionsTriantafyllos Afouras, Joon Son Chung, Andrew Zisserman. 4295-4299 [doi]

End-to-End Neural Speaker Diarization with Permutation-Free ObjectivesYusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Kenji Nagamatsu, Shinji Watanabe. 4300-4304 [doi]

Self Multi-Head Attention for Speaker RecognitionMiquel India, Pooyan Safari, Javier Hernando. 4305-4309 [doi]

Phonetically-Aware Embeddings, Wide Residual Networks with Time-Delay Neural Networks and Self Attention Models for the 2018 NIST Speaker Recognition EvaluationIgnacio Viñals, Dayana Ribas, Victoria Mingote, Jorge Llombart, Pablo Gimeno, Antonio Miguel, Alfonso Ortega Giménez, Eduardo Lleida. 4310-4314 [doi]

Variational Domain Adversarial Learning for Speaker VerificationYouzhi Tu, Man-Wai Mak, Jen-Tzung Chien. 4315-4319 [doi]

A Unified Framework for Speaker and Utterance VerificationTianchi Liu 0004, Maulik C. Madhavi, Rohan Kumar Das, Haizhou Li 0001. 4320-4324 [doi]

Analysis of Critical Metadata Factors for the Calibration of Speaker Recognition SystemsMahesh Kumar Nandwana, Luciana Ferrer, Mitchell McLaren, Diego Castán, Aaron Lawson. 4325-4329 [doi]

Factorization of Discriminatively Trained i-Vector Extractor for Speaker RecognitionOndrej Novotný, Oldrich Plchot, Ondrej Glembek, Lukás Burget. 4330-4334 [doi]

End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural NetworksDaniele Salvati, Carlo Drioli, Gian Luca Foresti. 4335-4339 [doi]

Whisper to Neutral Mapping Using Cosine Similarity Maximization in i-Vector Space for Speaker VerificationAbinay Reddy Naini, Achuth Rao M. V, Prasanta Kumar Ghosh. 4340-4344 [doi]

Mixup Learning Strategies for Text-Independent Speaker VerificationYingke Zhu, Tom Ko, Brian Mak. 4345-4349 [doi]

Optimizing a Speaker Embedding Extractor Through Backend-Driven RegularizationLuciana Ferrer, Mitchell McLaren. 4350-4354 [doi]

The NEC-TT 2018 Speaker Verification SystemKong-Aik Lee, Hitoshi Yamamoto, Koji Okabe, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda. 4355-4359 [doi]

Autoencoder-Based Semi-Supervised Curriculum Learning for Out-of-Domain Speaker VerificationSiqi Zheng, Gang Liu, Hongbin Suo, Yun Lei. 4360-4364 [doi]

Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy EnvironmentDanwei Cai, Xiaoyi Qin, Ming Li. 4365-4369 [doi]

The DKU-SMIIP System for NIST 2018 Speaker Recognition EvaluationDanwei Cai, Weicheng Cai, Ming Li. 4370-4374 [doi]

Pretraining by Backtranslation for End-to-End ASR in Low-Resource SettingsMatthew Wiesner, Adithya Renduchintala, Shinji Watanabe, Chunxi Liu, Najim Dehak, Sanjeev Khudanpur. 4375-4379 [doi]

Cross-Attention End-to-End ASR for Two-Party ConversationsSuyoun Kim, Siddharth Dalmia, Florian Metze. 4380-4384 [doi]

Towards Using Context-Dependent Symbols in CTC Without State-Tying Decision TreesJan Chorowski, Adrian Lancucki, Bartosz Kostka, Michal Zapotoczny. 4385-4389 [doi]

An Online Attention-Based Model for Speech RecognitionRuchao Fan, Pan Zhou, Wei Chen 0004, Jia Jia 0001, Gang Liu. 4390-4394 [doi]

Self-Attention Transducers for End-to-End Speech RecognitionZhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengqi Wen. 4395-4399 [doi]

Improving Transformer-Based Speech Recognition Systems with Compressed Structure and Speech Attributes AugmentationSheng Li 0010, Dabre Raj, Xugang Lu, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. 4400-4404 [doi]

Extending an Acoustic Data-Driven Phone Set for Spontaneous Speech RecognitionJeong-Uk Bang, Mu Yeol Choi, Sang-hun Kim, Oh-Wook Kwon. 4405-4409 [doi]

Joint Maximization Decoder with Neural Converters for Fully Neural Network-Based Japanese Speech RecognitionTakafumi Moriya, Jian Wang, Tomohiro Tanaka, Ryo Masumura, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono. 4410-4414 [doi]

Real to H-Space Encoder for Speech RecognitionTitouan Parcollet, Mohamed Morchid, Georges Linarès, Renato de Mori. 4415-4419 [doi]

Ectc-Docd: An End-to-End Structure with CTC Encoder and OCD Decoder for Speech RecognitionCheng Yi, Feng Wang, Bo Xu. 4420-4424 [doi]

End-to-End Multi-Speaker Speech Recognition Using Speaker Embeddings and Transfer LearningPavel Denisov, Ngoc Thang Vu. 4425-4429 [doi]

Pre-Trained Text Embeddings for Enhanced Text-to-Speech SynthesisTomoki Hayashi, Shinji Watanabe, Tomoki Toda, Kazuya Takeda, Shubham Toshniwal, Karen Livescu. 4430-4434 [doi]

Spontaneous Conversational Speech Synthesis from Found DataÉva Székely, Gustav Eje Henter, Jonas Beskow, Joakim Gustafson. 4435-4439 [doi]

Fine-Grained Robust Prosody Transfer for Single-Speaker Neural Text-To-SpeechViacheslav Klimkov, Srikanth Ronanki, Jonas Rohnke, Thomas Drugman. 4440-4444 [doi]

Speech Driven Backchannel Generation Using Deep Q-Network for Enhancing Engagement in Human-Robot InteractionNusrah Hussain, Engin Erzin, T. Metin Sezgin, Yücel Yemez. 4445-4449 [doi]

Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable ModelTomoki Koriyama, Takao Kobayashi. 4450-4454 [doi]

Bootstrapping a Text Normalization System for an Inflected Language. Numbers as a Test CaseAnna Björk Nikulásdóttir, Jón Guðnason. 4455-4459 [doi]

Exploiting Syntactic Features in a Parsed Tree to Improve End-to-End TTSHaohan Guo, Frank K. Soong, Lei He, Lei Xie. 4460-4464 [doi]

Duration Modeling with Global Phoneme-Duration VectorsJinfu Ni, Yoshinori Shiga, Hisashi Kawai. 4465-4469 [doi]

Improving Speech Synthesis with Discourse RelationsAdèle Aubin, Alessandra Cervone, Oliver Watts, Simon King. 4470-4474 [doi]

Visualization and Interpretation of Latent Spaces for Controlling Expressive Speech Synthesis Through Audio AnalysisNoé Tits, Fengna Wang, Kevin El Haddad, Vincent Pagel, Thierry Dutoit. 4475-4479 [doi]

Pre-Trained Text Representations for Improving Front-End Text Processing in Mandarin Text-to-Speech SynthesisBing Yang, Jiaqi Zhong, Shan Liu. 4480-4484 [doi]

A Mandarin Prosodic Boundary Prediction Model Based on Multi-Task LearningHuashan Pan, Xiulin Li, Zhiqiang Huang. 4485-4488 [doi]

Dual Encoder Classifier Models as Constraints in Neural Text NormalizationAjda Gokcen, Hao Zhang, Richard Sproat. 4489-4493 [doi]

Knowledge-Based Linguistic Encoding for End-to-End Mandarin Text-to-Speech SynthesisJingbei Li, Zhiyong Wu, Runnan Li, Pengpeng Zhi, Song Yang, Helen Meng. 4494-4498 [doi]

Automated Emotion Morphing in Speech Based on Diffeomorphic Curve Registration and Highway NetworksRavi Shankar, Hsi-Wei Hsieh, Nicolas Charon, Archana Venkataraman. 4499-4503 [doi]

Use of Beiwe Smartphone App to Identify and Track Speech Decline in Amyotrophic Lateral Sclerosis (ALS)Kathryn P. Connaghan, Jordan R. Green, Sabrina Paganoni, James Chan, Harli Weber, Ella Collins, Brian Richburg, Marziye Eshghi, Jukka-Pekka Onnela, James D. Berry. 4504-4508 [doi]

Profiling Speech Motor Impairments in Persons with Amyotrophic Lateral Sclerosis: An Acoustic-Based ApproachHannah P. Rowe, Jordan R. Green. 4509-4513 [doi]

Diagnosing Dysarthria with Long Short-Term Memory NetworksAlex Mayle, Zhiwei Mou, Razvan C. Bunescu, Sadegh Mirshekarian, Li Xu, Chang Liu 0028. 4514-4518 [doi]

Modification of Devoicing Error in Cleft Lip and Palate SpeechProtima Nomo Sudro, S. R. Mahadeva Prasanna. 4519-4523 [doi]

Reduced Task Adaptation in Alternating Motion Rate Tasks as an Early Marker of Bulbar Involvement in Amyotrophic Lateral SclerosisMarziye Eshghi, Panying Rong, Antje S. Mefferd, Kaila L. Stipancic, Yana Yunusova, Jordan R. Green. 4524-4528 [doi]

Towards the Speech Features of Early-Stage Dementia: Design and Application of the Mandarin Elderly Cognitive Speech DatabaseTianqi Wang, Quanlei Yan, Jingshen Pan, Feiqi Zhu, Rongfeng Su, Yi Guo, Lan Wang, Nan Yan. 4529-4533 [doi]

Acoustic Characteristics of Lexical Tone Disruption in Mandarin Speakers After Brain DamageWenjun Chen, Jeroen van de Weijer, Shuangshuang Zhu, Qian Qian, Manna Wang. 4534-4538 [doi]

Intragestural Variation in Natural Sentence Production: Essential Tremor Patients Treated with DBSAnne Hermes, Doris Mücke, Tabea Thies, Michael T. Barbe. 4539-4543 [doi]

Nasal Air Emission in Sibilant Fricatives of Cleft Lip and Palate SpeechSishir Kalita, Protima Nomo Sudro, S. R. Mahadeva Prasanna, Samarendra Dandapat. 4544-4548 [doi]

Parallel vs. Non-Parallel Voice Conversion for Esophageal SpeechLuis Serrano, Sneha Raman, David Tavarez, Eva Navas, Inma Hernáez. 4549-4553 [doi]

Hypernasality Severity Detection Using Constant Q Cepstral CoefficientsAkhilesh Kumar Dubey, S. R. Mahadeva Prasanna, S. Dandapat. 4554-4558 [doi]

p-Norm PoolingMingyue Niu, Jianhua Tao, Bin Liu, Cunhang Fan. 4559-4563 [doi]

Comparison of Speech Tasks and Recording Devices for Voice Based Automatic Classification of Healthy Subjects and Patients with Amyotrophic Lateral SclerosisSuhas B. N., Deep Patel, Nithin Rao Koluguri, Yamini Belur, Pradeep Reddy, Atchayaram Nalini, Ravi Yadav, Dipanjan Gope, Prasanta Kumar Ghosh. 4564-4568 [doi]

A Modified Algorithm for Multiple Input Spectrogram InversionDongxiao Wang, Hirokazu Kameoka, Koichi Shinoda. 4569-4573 [doi]

A Comprehensive Study of Speech Separation: Spectrogram vs Waveform SeparationFahimeh Bahmaninezhad, Jian Wu, Rongzhi Gu, Shi-Xiong Zhang, Yong Xu, Meng Yu, Dong Yu 0001. 4574-4578 [doi]

Evaluating Audiovisual Source Separation in the Context of Video ConferencingBerkay Inan, Milos Cernak, Helmut Grabner, Helena Peic Tukuljac, Rodrigo C. G. Pena, Benjamin Ricaud. 4579-4583 [doi]

Influence of Speaker-Specific Parameters on Speech Separation SystemsDavid Ditter, Timo Gerkmann. 4584-4588 [doi]

CNN-LSTM Models for Multi-Speaker Source Separation Using Bayesian Hyper Parameter OptimizationJeroen Zegers, Hugo Van Hamme. 4589-4593 [doi]

Towards Joint Sound Scene and Polyphonic Sound Event RecognitionHelen L. Bear, Inês Nolasco, Emmanouil Benetos. 4594-4598 [doi]

Discriminative Learning for Monaural Speech Separation Using Deep Embedding FeaturesCunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, Zhengqi Wen. 4599-4603 [doi]

Probabilistic Permutation Invariant Training for Speech SeparationMidia Yousefi, Soheil Khorram, John H. L. Hansen. 4604-4608 [doi]

Which Ones Are Speaking? Speaker-Inferred Model for Multi-Talker Speech SeparationJing Shi 0003, Jiaming Xu, Bo Xu 0011. 4609-4613 [doi]

End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid NetworkZiqiang Shi, Huibin Lin, Liu Liu, Rujie Liu, Shoji Hayakawa, Shouji Harada, Jiqing Han. 4614-4618 [doi]

End-to-End Music Source Separation: Is it Possible in the Waveform Domain?Francesc Lluís, Jordi Pons, Xavier Serra. 4619-4623 [doi]

Elpis, an Accessible Speech-to-Text ToolBen Foley, Alina Rakhi, Nicholas Lambourne, Nicholas Buckeridge, Janet Wiles. 4624-4625 [doi]

Framework for Conducting Tasks Requiring Human AssessmentMartin Gruber, Adam Chýlek, Jindrich Matousek. 4626-4627 [doi]

Multimedia Simultaneous Translation System for Minority Language Communication with MandarinShen Huang, Bojie Hu, Shan Huang, Pengfei Hu, Jian Kang 0006, Zhiqiang Lv, Jinghao Yan, Qi Ju, Shiyin Kang, Deyi Tuo, Guangzhi Li, Nurmemet Yolwas. 4628-4629 [doi]

The SAIL LABS Media Mining Indexer and the CAVA FrameworkErinç Dikici, Gerhard Backfried, Jürgen Riedler. 4630-4631 [doi]

CaptionAI: A Real-Time Multilingual Captioning ApplicationNagendra Kumar Goel, Mousmita Sarma, Saikiran Valluri, Dharmeshkumar Agrawal, Steve Braich, Tejendra Singh Kuswah, Zikra Iqbal, Surbhi Chauhan, Raj Karbar. 4632-4633 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, 15-19 September 2019

Abstract

Table of Contents