Interspeech 2018, 19th Annual Conference of the International Speech Communication Association, Hyderabad, India, 2-6 September 2018

researchr

You are not signed in
Sign in
Sign up

B. Yegnanarayana, editor, Interspeech 2018, 19th Annual Conference of the International Speech Communication Association, Hyderabad, India, 2-6 September 2018. ISCA, 2018. [doi]

Conference: interspeech2018

Abstract is missing.

From Vocoders to Code-Excited Linear Prediction: Learning How We Hear What We HearBishnu S. Atal. 1 [doi]

Semi-Supervised End-to-End Speech RecognitionShigeki Karita, Shinji Watanabe, Tomoharu Iwata, Atsunori Ogawa, Marc Delcroix. 2-6 [doi]

Improved Training of End-to-end Attention Models for Speech RecognitionAlbert Zeyer, Kazuki Irie, Ralf Schlüter, Hermann Ney. 7-11 [doi]

End-to-end Speech Recognition Using Lattice-free MMIHossein Hadian, Hossein Sameti, Daniel Povey, Sanjeev Khudanpur. 12-16 [doi]

Multi-channel Attention for End-to-End Speech RecognitionStefan Braun 0005, Daniel Neil, Jithendar Anumula, Enea Ceolini, Shih-Chii Liu. 17-21 [doi]

Quaternion Convolutional Neural Networks for End-to-End Automatic Speech RecognitionTitouan Parcollet, Ying Zhang, Mohamed Morchid, Chiheb Trabelsi, Georges Linarès, Renato de Mori, Yoshua Bengio. 22-26 [doi]

Compression of End-to-End ModelsRuoming Pang, Tara N. Sainath, Rohit Prabhavalkar, Suyog Gupta, Yonghui Wu, Shuyuan Zhang, Chung-Cheng Chiu. 27-31 [doi]

Learning Interpretable Control Dimensions for Speech Synthesis by Using External DataZack Hodari, Oliver Watts, Srikanth Ronanki, Simon King. 32-36 [doi]

Investigating Accuracy of Pitch-accent Annotations in Neural Network-based Speech Synthesis and Denoising EffectsHieu-Thi Luong, Xin Wang 0037, Junichi Yamagishi, Nobuyuki Nishizawa. 37-41 [doi]

An Exploration of Local Speaking Rate Variations in Mandarin Read SpeechGuan-Ting Liou, Chen-Yu Chiang, Yih-Ru Wang, Sin-Horng Chen. 42-46 [doi]

BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in a Text-to-Speech Front-EndYibin Zheng, Jianhua Tao, Zhengqi Wen, Ya Li. 47-51 [doi]

Wavelet Analysis of Speaker Dependent and Independent Prosody for Voice ConversionBerrak Sisman, Haizhou Li 0001. 52-56 [doi]

Improving Mongolian Phrase Break Prediction by Using Syllable and Morphological Embeddings with BiLSTM ModelRui Liu, Feilong Bao, Guanglai Gao, Hui Zhang, Yonghe Wang. 57-61 [doi]

Improved Supervised Locality Preserving Projection for I-vector Based Speaker VerificationLanhua You, Wu Guo, Yan Song, Sheng Zhang. 62-66 [doi]

Double Joint Bayesian Modeling of DNN Local I-Vector for Text Dependent Speaker Verification with Random Digit StringsZiqiang Shi, Huibin Lin, Liu Liu, Rujie Liu. 67-71 [doi]

Fast Variational Bayes for Heavy-tailed PLDA Applied to i-vectors and x-vectorsAnna Silnova, Niko Brümmer, Daniel Garcia-Romero, David Snyder, Lukás Burget. 72-76 [doi]

Integrated Presentation Attack Detection and Automatic Speaker Verification: Common Features and Gaussian Back-end FusionMassimiliano Todisco, Héctor Delgado, Kong-Aik Lee, Md. Sahidullah, Nicholas W. D. Evans, Tomi Kinnunen, Junichi Yamagishi. 77-81 [doi]

A Generalization of PLDA for Joint Modeling of Speaker Identity and Multiple Nuisance ConditionsLuciana Ferrer, Mitchell McLaren. 82-86 [doi]

An Investigation of Non-linear i-vectors for Speaker VerificationNanxin Chen, Jesús Villalba, Najim Dehak. 87-91 [doi]

CNN Based Query by Example Spoken Term DetectionDhananjay Ram, Lesly Miculicich Werlen, Hervé Bourlard. 92-96 [doi]

Learning Acoustic Word Embeddings with Temporal Context for Query-by-Example Speech SearchYougen Yuan, Cheung Chi Leung, Lei Xie 0001, Hongjie Chen, Bin Ma, Haizhou Li 0001. 97-101 [doi]

Siamese Recurrent Auto-Encoder Representation for Query-by-Example Spoken Term DetectionZiwei Zhu, Zhiyong Wu, Runnan Li, Helen Meng, Lianhong Cai. 102-106 [doi]

Fast Derivation of Cross-lingual Document Vectors from Self-attentive Neural Machine Translation ModelWei Li, Brian Mak. 107-111 [doi]

LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi LanguageLaxmi Pandey, Karan Nathwani. 112-116 [doi]

Spoken Keyword Detection Using Joint DTW-CNNRavi Shankar, Vikram C. M., S. R. Mahadeva Prasanna. 117-121 [doi]

The INTERSPEECH 2018 Computational Paralinguistics Challenge: Atypical & Self-Assessed Affect, Crying & Heart BeatsBjörn W. Schuller, Stefan Steidl, Anton Batliner, Peter B. Marschik, Harald Baumeister, Fengquan Dong, Simone Hantke, Florian B. Pokorny, Eva-Maria Rathner, Katrin D. Bartl-Pokorny, Christa Einspieler, Dajie Zhang, Alice Baird, Shahin Amiriparian, Kun Qian 0003, Zhao Ren, Maximilian Schmitt, Panagiotis Tzirakis, Stefanos Zafeiriou. 122-126 [doi]

An Ensemble of Transfer, Semi-supervised and Supervised Learning Methods for Pathological Heart Sound ClassificationAhmed Imtiaz Humayun, Md. Tauhiduzzaman Khan, Shabnam Ghaffarzadegan, Zhe Feng 0003, Taufiq Hasan. 127-131 [doi]

Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network ArchitectureMehmet Ali Tugtekin Turan, Engin Erzin. 132-136 [doi]

Neural Network Architecture That Combines Temporal and Summative Features for Infant Cry Classification in the Interspeech 2018 Computational Paralinguistics ChallengeMark Huckvale. 137-141 [doi]

Evolving Learning for Analysing Mood-Related Infant VocalisationZixing Zhang 0001, Jing Han 0010, Kun Qian 0003, Björn W. Schuller. 142-146 [doi]

Deep Learning in Paralinguistic Recognition Tasks: Are Hand-crafted Features Still Relevant?Johannes Wagner 0001, Dominik Schiller, Andreas Seiderer, Elisabeth André. 147-151 [doi]

Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion RecognitionDanqing Luo, Yuexian Zou, Dongyan Huang. 152-156 [doi]

Using Voice Quality Supervectors for Affect IdentificationSoo-Jin Park, Amber Afshan, Zhi Ming Chua, Abeer Alwan. 157-161 [doi]

An End-to-End Deep Learning Framework for Speech Emotion Recognition of Atypical IndividualsDengke Tang, Junlin Zeng, Ming Li. 162-166 [doi]

DialogOS: Simple and Extensible Dialogue ModelingAlexander Koller, Timo Baumann, Arne Köhn. 167-168 [doi]

A Framework for Speech Recognition BenchmarkingFranck Dernoncourt, Trung Bui, Walter Chang. 169-170 [doi]

Flexible Tongue Housed in a Static Model of the Vocal Tract With Jaws, Lips and TeethTakayuki Arai. 171-172 [doi]

Voice Analysis Using Acoustic and Throat Microphones for Speech TherapyLani Mathew, K. Gopakumar. 173-174 [doi]

A Robust Context-Dependent Speech-to-Speech Phraselator Toolkit for AlexaManny Rayner, Nikos Tsourakis, Jan Stanek. 175-176 [doi]

Discriminating Nasals and Approximants in English Language Using Zero Time WindowingRaviShankar Prasad, Sudarsana Reddy Kadiri, Suryakanth V. Gangashetty, Bayya Yegnanarayana. 177-181 [doi]

Gestural Lenition of Rhotics Captures Variation in Brazilian PortuguesePhil Howson, Alexei Kochetov. 182-186 [doi]

Identification and Classification of Fricatives in Speech Using Zero Time Windowing MethodRaviShankar Prasad, Bayya Yegnanarayana. 187-191 [doi]

GlobalTIMIT: Acoustic-Phonetic Datasets for the World's LanguagesNattanun Chanchaochai, Christopher Cieri, Japhet Debrah, Hongwei Ding, Yue Jiang, Sishi Liao, Mark Liberman, Jonathan Wright, Jiahong Yuan, Juhong Zhan, Yuqing Zhan. 192-196 [doi]

Structural Effects on Properties of Consonantal Gestures in TashlhiytAnne Hermes, Doris Mücke, Bastian Auris, Rachid Ridouane. 197-201 [doi]

The Retroflex-dental Contrast in Punjabi Stops and Nasals: A Principal Component Analysis of Ultrasound ImagesAlexei Kochetov, Matthew Faytak, Kiranpreet Nara. 202-206 [doi]

Vowels and Diphthongs in Hangzhou Wu Chinese DialectYang Yue, Fang Hu. 207-211 [doi]

Resyllabification in Indian Languages and Its Implications in Text-to-speech SystemsMahesh M, Jeena J. Prakash, Hema A. Murthy. 212-216 [doi]

Voice Source Contribution to Prominence Perception: Rd ImplementationAndy Murphy, Irena Yanushevskaya, Ailbhe Ní Chasaide, Christer Gobl. 217-221 [doi]

On the Relationship between Glottal Pulse Shape and Its Spectrum: Correlations of Open Quotient, Pulse Skew and Peak Flow with Source Harmonic AmplitudesChrister Gobl, Andy Murphy, Irena Yanushevskaya, Ailbhe Ní Chasaide. 222-226 [doi]

The Individual and the System: Assessing the Stability of the Output of a Semi-automatic Forensic Voice Comparison SystemVincent Hughes, Philip Harrison, Paul Foulkes, Peter French, Colleen Kavanagh, Eugenia San Segundo Fernández. 227-231 [doi]

Breathy to Tense Voice Discrimination using Zero-Time Windowing Cepstral Coefficients (ZTWCCs)Sudarsana Reddy Kadiri, Bayya Yegnanarayana. 232-236 [doi]

Analysis of Breathiness in Contextual Vowel of Voiceless Nasals in MizoPamir Gogoi, Sishir Kalita, Parismita Gogoi, Ratree Wayland, Priyankoo Sarmah, S. R. Mahadeva Prasanna. 237-241 [doi]

Infant Emotional Outbursts Detection in Infant-parent Spoken InteractionsYijia Xu, Mark Hasegawa-Johnson, Nancy McElwain. 242-246 [doi]

Deep Neural Networks for Emotion Recognition Combining Audio and TranscriptsJaejin Cho, Raghavendra Pappagari, Purva Kulkarni, Jesús Villalba, Yishay Carmiel, Najim Dehak. 247-251 [doi]

Preference-Learning with Qualitative Agreement for Sentence Level Emotional AnnotationsSrinivas Parthasarathy, Carlos Busso. 252-256 [doi]

Transfer Learning for Improving Speech Emotion Classification AccuracySiddique Latif, Rajib Rana, Shahzad Younis, Junaid Qadir, Julien Epps. 257-261 [doi]

What Do Classifiers Actually Learn? a Case Study on Emotion Recognition DatasetsPatrick Meyer, Eric Buschermöhle, Tim Fingscheidt. 262-266 [doi]

State of Mind: Classification through Self-reported Affect and Word Use in SpeechEva-Maria Rathner, Yannik Terhorst, Nicholas Cummins, Björn W. Schuller, Harald Baumeister. 267-271 [doi]

Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion RecognitionZiping Zhao, Yu Zheng, Zixing Zhang 0001, Haishuai Wang, Yiqin Zhao, Chao Li. 272-276 [doi]

End-to-end Deep Neural Network Age EstimationPegah Ghahremani, Phani Sankar Nidadavolu, Nanxin Chen, Jesús Villalba, Daniel Povey, Sanjeev Khudanpur, Najim Dehak. 277-281 [doi]

Improving Gender Identification in Movie Audio Using Cross-Domain DataRajat Hebbar, Krishna Somandepalli, Shrikanth Narayanan. 282-286 [doi]

On Learning to Identify Genders from Raw Speech Signal Using CNNsSelen Hande Kabil, Hannah Muckenhirn, Mathew Magimai-Doss. 287-291 [doi]

Denoising and Raw-waveform Networks for Weakly-Supervised Gender Identification on Noisy SpeechJilt Sebastian, Manoj Kumar, Pavan Kumar D. S., Mathew Magimai-Doss, Hema A. Murthy, Shrikanth Narayanan. 292-296 [doi]

The Effect of Exposure to High Altitude and Heat on Speech Articulatory CoordinationJames R. Williamson, Thomas F. Quatieri, Adam C. Lammert, Katherine Mitchell, Katherine Finkelstein, Nicole Ekon, Caitlin Dillon, Robert Kenefick, Kristin Heaton. 297-301 [doi]

Permutation Invariant Training of Generative Adversarial Network for Monaural Speech SeparationLianWu Chen, Meng Yu, Yanmin Qian, Dan Su, Dong Yu. 302-306 [doi]

Deep Extractor Network for Target Speaker Recovery from Single Channel Speech MixturesJun Wang, Jie Chen, Dan Su, LianWu Chen, Meng Yu, Yanmin Qian, Dong Yu. 307-311 [doi]

Joint Localization and Classification of Multiple Sound Sources Using a Multi-task Neural NetworkWeipeng He, Petr Motlícek, Jean-Marc Odobez. 312-316 [doi]

Detection of Glottal Closure Instants from Speech Signals: A Convolutional Neural Network Based MethodShuai Yang, Zhiyong Wu, Binbin Shen, Helen Meng. 317-321 [doi]

Robust TDOA Estimation Based on Time-Frequency Masking and Deep Neural NetworksZhong-qiu Wang, Xueliang Zhang, DeLiang Wang. 322-326 [doi]

Waveform to Single Sinusoid Regression to Estimate the F0 Contour from Noisy Speech Using Recurrent Deep Neural NetworksAkihiro Kato, Tomi Kinnunen. 327-331 [doi]

Reducing Interference with Phase Recovery in DNN-based Monaural Singing Voice SeparationPaul Magron, Konstantinos Drossos, Stylianos Ioannis Mimilakis, Tuomas Virtanen. 332-336 [doi]

Nebula: F0 Estimation and Voicing Detection by Modeling the Statistical Properties of Feature ExtractorsKanru Hua. 337-341 [doi]

Real-time Single-channel Dereverberation and Separation with Time-domain Audio Separation NetworkYi Luo 0004, Nima Mesgarani. 342-346 [doi]

Music Source Activity Detection and Separation Using Deep Attractor NetworkRajath Kumar, Yi Luo 0004, Nima Mesgarani. 347-351 [doi]

Improving Mandarin Tone Recognition Using Convolutional Bidirectional Long Short-Term Memory with AttentionLongfei Yang, Yanlu Xie, Jinsong Zhang. 352-356 [doi]

Vowel Space as a Tool to Evaluate Articulation ProblemsRob van Son, Catherine Middag, Kris Demuynck. 357-361 [doi]

Towards a Better Characterization of Parkinsonian Speech: A Multidimensional Acoustic StudyVéronique Delvaux, Kathy Huet, Myriam Piccaluga, Sophie van Malderen, Bernard Harmegnies. 362-366 [doi]

Self-similarity Matrix Based Intelligibility Assessment of Cleft Lip and Palate SpeechSishir Kalita, S. R. Mahadeva Prasanna, Samarendra Dandapat. 367-371 [doi]

Pitch-Adaptive Front-end Feature for Hypernasality DetectionAkhilesh Kumar Dubey, S. R. Mahadeva Prasanna, Samarendra Dandapat. 372-376 [doi]

Detection of Amyotrophic Lateral Sclerosis (ALS) via Acoustic AnalysisRaquel Norel, Mary Pietrowicz, Carla Agurto, Shay Rishoni, Guillermo A. Cecchi. 377-381 [doi]

Detection of Glottal Activity Errors in Production of Stop Consonants in Children with Cleft Lip and PalateVikram C. M., S. R. Mahadeva Prasanna, Ajish K. Abraham, Pushpavathi M, Girish K. S. 382-386 [doi]

Cold Fusion: Training Seq2Seq Models Together with Language ModelsAnuroop Sriram, Heewoo Jun, Sanjeev Satheesh, Adam Coates. 387-391 [doi]

Investigation on Estimation of Sentence Probability by Combining Forward, Backward and Bi-directional LSTM-RNNsKazuki Irie, Zhihong Lei, Liuhui Deng, Ralf Schlüter, Hermann Ney. 392-395 [doi]

Subword and Crossword Units for CTC Acoustic ModelsThomas Zenkel, Ramon Sanabria, Florian Metze, Alex Waibel. 396-400 [doi]

Neural Error Corrective Language Models for Automatic Speech RecognitionTomohiro Tanaka, Ryo Masumura, Hirokazu Masataki, Yushi Aono. 401-405 [doi]

Entity-Aware Language Model as an Unsupervised RerankerMohammad Sadegh Rasooli, Sarangarajan Parthasarathy. 406-410 [doi]

Character-level Language Modeling with Gated Hierarchical Recurrent Neural NetworksIksoo Choi, Jinhwan Park, Wonyong Sung. 411-415 [doi]

Acoustic-Prosodic Indicators of Deception and Trust in Interview DialoguesSarah Ita Levitan, Angel Maredia, Julia Hirschberg. 416-420 [doi]

Deep Personality Recognition for Deception DetectionGuozhen An, Sarah Ita Levitan, Julia Hirschberg, Rivka Levitan. 421-425 [doi]

Cross-cultural (A)symmetries in Audio-visual Attitude PerceptionHansjörg Mixdorff, Albert Rilliard, Tan Lee, Matthew K. H. Ma, Angelika Hönemann. 426-430 [doi]

An Active Feature Transformation Method for Attitude Recognition of Video BloggersFasih Haider, Fahim A. Salim, Owen Conlan, Saturnino Luz. 431-435 [doi]

Automatic Assessment of Individual Culture Attribute of Power Distance Using a Social Context-Enhanced Prosodic Network RepresentationFu-Sheng Tsai, Hao Chun Yang, Wei-Wen Chang, Chi-Chun Lee. 436-440 [doi]

Analysis and Detection of Phonation Modes in Singing Voice using Excitation Source Features and Single Frequency Filtering Cepstral Coefficients (SFFCC)Sudarsana Reddy Kadiri, Bayya Yegnanarayana. 441-445 [doi]

A Deep Learning Method for Pathological Voice Detection Using Convolutional Deep Belief NetworksHuiyi Wu, John J. Soraghan, Anja Lowit, Gaetano Di Caterina. 446-450 [doi]

Dysarthric Speech Recognition Using Time-delay Neural Network Based Denoising AutoencoderChitralekha Bhat, Biswajit Das, Bhavik Vachhani, Sunil Kumar Kopparapu. 451-455 [doi]

A Multitask Learning Approach to Assess the Dysarthria Severity in Patients with Parkinson's DiseaseJuan Camilo Vásquez-Correa, Tomas Arias-Vergara, Juan Rafael Orozco-Arroyave, Elmar Nöth. 456-460 [doi]

The Use of Machine Learning and Phonetic Endophenotypes to Discover Genetic Variants Associated with Speech Sound DisorderJason Lilley, Erin Crowgey, H. Timothy Bunnell. 461-465 [doi]

Whistle-blowing ASRs: Evaluating the Need for More Inclusive Speech Recognition SystemsMeredith Moore, Hemanth Venkateswara, Sethuraman Panchanathan. 466-470 [doi]

Data Augmentation Using Healthy Speech for Dysarthric Speech RecognitionBhavik Vachhani, Chitralekha Bhat, Sunil Kumar Kopparapu. 471-475 [doi]

Improving Sparse Representations in Exemplar-Based Voice Conversion with a Phoneme-Selective Objective FunctionShaojin Ding, Guanlong Zhao, Christopher Liberatore, Ricardo Gutierrez-Osuna. 476-480 [doi]

Learning Structured Dictionaries for Exemplar-based Voice ConversionShaojin Ding, Christopher Liberatore, Ricardo Gutierrez-Osuna. 481-485 [doi]

Exemplar-Based Spectral Detail Compensation for Voice ConversionYu-Huai Peng, Hsin-Te Hwang, Yi-Chiao Wu, Yu Tsao, Hsin-Min Wang. 486-490 [doi]

Whispered Speech to Neutral Speech Conversion Using Bidirectional LSTMsG. Nisha Meenakshi, Prasanta Kumar Ghosh. 491-495 [doi]

Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker UtteranceSongxiang Liu, Jinghua Zhong, Lifa Sun, Xixin Wu, Xunying Liu, Helen Meng. 496-500 [doi]

Multi-target Voice Conversion without Parallel Data by Adversarially Learning Disentangled Audio RepresentationsJu-Chieh Chou, Cheng-chieh Yeh, Hung-yi Lee, Lin-Shan Lee. 501-505 [doi]

Attention-based Sequence Classification for Affect DetectionCristina Gorrostieta, Richard Brutti, Kye Taylor, Avi Shapiro, Joseph Moran, Ali Azarbayejani, John Kane. 506-510 [doi]

Computational Paralinguistics: Automatic Assessment of Emotions, Mood and Behavioural State from Acoustics of SpeechZafi Sherhan Syed, Julien Schroeter, Kirill A. Sidorov, A. David Marshall. 511-515 [doi]

Investigating Utterance Level Representations for Detecting Intent from AcousticsSai Krishna Rallabandi, Bhavya Karki, Carla Viegas, Eric Nyberg, Alan W. Black. 516-520 [doi]

LSTM Based Cross-corpus and Cross-task Acoustic Emotion RecognitionHeysem Kaya, Dmitrii Fedotov, Ali Yesilkanat, Oxana Verkholyak, Yang Zhang, Alexey Karpov 0001. 521-525 [doi]

Implementing Fusion Techniques for the Classification of Paralinguistic InformationBogdan Vlasenko, Jilt Sebastian, Pavan Kumar D. S., Mathew Magimai-Doss. 526-530 [doi]

General Utterance-Level Feature Extraction for Classifying Crying Sounds, Atypical & Self-Assessed Affect and Heart BeatsGábor Gosztolya, Tamás Grósz, László Tóth. 531-535 [doi]

Self-Assessed Affect Recognition Using Fusion of Attentional BLSTM and Static Acoustic FeaturesBo-Hao Su, Sung-Lin Yeh, Ming-Ya Ko, Huan-Yu Chen, Shun-Chang Zhong, Jeng-Lin Li, Chi-Chun Lee. 536-540 [doi]

Vocalic, Lexical and Prosodic Cues for the INTERSPEECH 2018 Self-Assessed Affect ChallengeClaude Montacié, Marie-José Caraty. 541-545 [doi]

Intonation tutor by SPIRE (In-SPIRE): An Online Tool for an Automatic Feedback to the Second Language Learners in Learning IntonationAnand P. A, Chiranjeevi Yarra, N. K. Kausthubha, Prasanta Kumar Ghosh. 546-547 [doi]

Game-based Spoken Dialog Language Learning Applications for Young StudentsKeelan Evanini, Veronika Timpe-Laughlin, Eugene Tsuprun, Ian Blood, Jeremy Lee, James Bruno, Vikram Ramanarayanan, Patrick L. Lange, David Suendermann-Oeft. 548-549 [doi]

The IBM Virtual Voice CreatorAlexander Sorin, Slava Shechtman, Zvi Kons, Ron Hoory, Shay Ben-David, Joe Pavitt, Shai Rozenberg, Carmel Rabinovitz, Tal Drory. 550-551 [doi]

Mobile Application for Learning Languages for the UnletteredGayathri G, N. Mohana, Radhika Pal, Hema A. Murthy. 552-553 [doi]

Mandarin-English Code-switching Speech RecognitionHaihua Xu, Van Tung Pham, Zin Tun Kyaw, Zhi Hao Lim, Eng Siong Chng, Haizhou Li 0001. 554-555 [doi]

Joint Learning of Domain Classification and Out-of-Domain Detection with Dynamic Class Weighting for Satisficing False Acceptance RatesJoo-Kyung Kim, Young-Bum Kim. 556-560 [doi]

Analyzing Vocal Tract Movements During Speech AccommodationSankar Mukherjee, Thierry Legou, Leonardo Lancia, Pauline Hilt, Alice Tomassini, Luciano Fadiga, Alessandro D'Ausilio, Leonardo Badino, Noël Nguyen. 561-565 [doi]

Cross-Lingual Multi-Task Neural Architecture for Spoken Language UnderstandingYujiang Li, Xuemin Zhao, Weiqun Xu, Yonghong Yan 0002. 566-570 [doi]

Statistical Model Compression for Small-Footprint Natural Language UnderstandingGrant P. Strimel, Kanthashree Mysore Sathyendra, Stanislav Peshterliev. 571-575 [doi]

Comparison of an End-to-end Trainable Dialogue System with a Modular Statistical Dialogue SystemNorbert Braunschweiler, Alexandros Papangelis. 576-580 [doi]

A Discriminative Acoustic-Prosodic Approach for Measuring Local EntrainmentMegan M. Willi, Stephanie A. Borrie, Tyson S. Barrett, Ming Tu, Visar Berisha. 581-585 [doi]

Investigating Speech Features for Continuous Turn-Taking Prediction Using LSTMsMatthew Roddy, Gabriel Skantze, Naomi Harte. 586-590 [doi]

Classification of Correction Turns in Multilingual Dialogue CorpusIvan Kraljevski, Diane Hirschfeld. 591-595 [doi]

Contextual Slot Carryover for Disparate SchemasChetan Naik, Arpit Gupta, Hancheng Ge, Lambert Mathias, Ruhi Sarikaya. 596-600 [doi]

Capsule Networks for Low Resource Spoken Language UnderstandingVincent Renkens, Hugo Van Hamme. 601-605 [doi]

Intent Discovery Through Unsupervised Semantic Text ClusteringPadmasundari, Srinivas Bangalore. 606-610 [doi]

Multimodal Polynomial Fusion for Detecting Driver DistractionYulun Du, Alan W. Black, Louis-Philippe Morency, Maxine Eskénazi. 611-615 [doi]

Engagement Recognition in Spoken Dialogue via Neural Network by Aggregating Different Annotators' ModelsKoji Inoue, Divesh Lala, Katsuya Takanashi, Tatsuya Kawahara. 616-620 [doi]

A First Investigation of the Timing of Turn-taking in RuuliTuarik Buanzur, Margaret Zellers, Saudah Namyalo, Alena Witzlack-Makarevich. 621-625 [doi]

Spoofing Detection Using Adaptive Weighting Framework and Clustering AnalysisYuanjun Zhao, Roberto Togneri, Victor Sreeram. 626-630 [doi]

Exploration of Compressed ILPR Features for Replay Attack DetectionSarfaraz Jelil, Sishir Kalita, S. R. Mahadeva Prasanna, Rohit Sinha 0003. 631-635 [doi]

Detection of Replay-Spoofing Attacks Using Frequency Modulation FeaturesTharshini Gunendradasan, Buddhi Wickramasinghe, Phu Ngoc Le, Eliathamby Ambikairajah, Julien Epps. 636-640 [doi]

Effectiveness of Speech Demodulation-Based Features for Replay DetectionMadhu R. Kamble, Hemlata Tak, Hemant A. Patil. 641-645 [doi]

Novel Variable Length Energy Separation Algorithm Using Instantaneous Amplitude Features for Replay DetectionMadhu R. Kamble, Hemant A. Patil. 646-650 [doi]

Feature with Complementarity of Statistics and Principal Information for Spoofing DetectionJi-Chen Yang, Changhuai You, Qianhua He. 651-655 [doi]

Multiple Phase Information Combination for Replay Attacks DetectionDongbo Li, Longbiao Wang, Jianwu Dang, Meng Liu, Zeyan Oo, Seiichi Nakagawa, Haotian Guan, Xiangang Li. 656-660 [doi]

Frequency Domain Linear Prediction Features for Replay Spoofing Attack DetectionBuddhi Wickramasinghe, Saad Irtza, Eliathamby Ambikairajah, Julien Epps. 661-665 [doi]

Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech DetectionHardik B. Sailor, Madhu R. Kamble, Hemant A. Patil. 666-670 [doi]

Deep Siamese Architecture Based Replay Detection for Secure Voice BiometricKaavya Sriskandaraja, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 671-675 [doi]

A Deep Identity Representation for Noise Robust Spoofing DetectionAlejandro Gómez Alanís, Antonio M. Peinado, José A. González 0001, Ángel M. Gómez. 676-680 [doi]

End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with AttentionFrancis Tom, Mohit Jain, Prasenjit Dey. 681-685 [doi]

Decision-level Feature Switching as a Paradigm for Replay Attack DetectionM. S. Saranya, Hema A. Murthy. 686-690 [doi]

Modulation Dynamic Features for the Detection of Replay AttacksGajan Suthokumar, Vidhyasaharan Sethu, Chamith Wijenayake, Eliathamby Ambikairajah. 691-695 [doi]

On the Usefulness of the Speech Phase Spectrum for Pitch ExtractionErfan Loweimi, Jon Barker, Thomas Hain. 696-700 [doi]

Time-regularized Linear Prediction for Noise-robust Extraction of the Spectral Envelope of SpeechManu Airaksinen, Lauri Juvela, Okko Räsänen, Paavo Alku. 701-705 [doi]

Auditory Filterbank Learning Using ConvRBM for Infant Cry ClassificationHardik B. Sailor, Hemant A. Patil. 706-710 [doi]

Effectiveness of Dynamic Features in INCA and Temporal Context-INCANirmesh J. Shah, Hemant A. Patil. 711-715 [doi]

Singing Voice Phoneme Segmentation by Hierarchically Inferring Syllable and Phoneme Onset PositionsRong Gong, Xavier Serra. 716-720 [doi]

Novel Empirical Mode Decomposition Cepstral Features for Replay Spoof DetectionPrasad Tapkir, Hemant A. Patil. 721-725 [doi]

Novel Linear Frequency Residual Cepstral Features for Replay Attack DetectionHemlata Tak, Hemant A. Patil. 726-730 [doi]

Analysis of sparse representation based feature on speech mode classificationKumud Tripathi, K. Sreenivasa Rao. 731-735 [doi]

Multicomponent 2-D AM-FM Modeling of Speech SpectrogramsJitendra Kumar Dhiman, Neeraj Sharma, Chandra Sekhar Seelamantula. 736-740 [doi]

An Optimization Framework for Recovery of Speech from Phase-Encoded SpectrogramsAbhilash Sainathan, Sunil Rudresh, Chandra Sekhar Seelamantula. 741-745 [doi]

Speaker Recognition with Nonlinear Distortion: Clipping Analysis and ImpactWei Xia, John H. L. Hansen. 746-750 [doi]

Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks DetectionMadhusudan Singh, Debadatta Pati. 751-755 [doi]

Analysis of Variational Mode Functions for Robust Detection of VowelsSurbhi Sakshi, Avinash Kumar, Gayadhar Pradhan. 756-760 [doi]

Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech RecognitionChao Weng, Jia Cui, Guangsen Wang, Jun Wang, Chengzhu Yu, Dan Su, Dong Yu. 761-765 [doi]

Segmental Encoder-Decoder Models for Large Vocabulary Automatic Speech RecognitionEugen Beck, Mirko Hannemann, Patrick Dötsch, Ralf Schlüter, Hermann Ney. 766-770 [doi]

Acoustic Modeling with DFSMN-CTC and Joint CTC-CE LearningShiliang Zhang, Ming Lei. 771-775 [doi]

End-to-End Speech Command Recognition with Capsule NetworkJaesung Bae, Dae-Shik Kim. 776-780 [doi]

End-to-End Speech Recognition from the Raw WaveformNeil Zeghidour, Nicolas Usunier, Gabriel Synnaeve, Ronan Collobert, Emmanuel Dupoux. 781-785 [doi]

A Multistage Training Framework for Acoustic-to-Word ModelChengzhu Yu, Chunlei Zhang, Chao Weng, Jia Cui, Dong Yu. 786-790 [doi]

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin ChineseShiyu Zhou, Linhao Dong, Shuang Xu, Bo Xu. 791-795 [doi]

Densely Connected Networks for Conversational Speech RecognitionKyu J. Han, Akshay Chandrashekaran, Jungsuk Kim, Ian Lane. 796-800 [doi]

Multi-Head Decoder for End-to-End Speech RecognitionTomoki Hayashi, Shinji Watanabe, Tomoki Toda, Kazuya Takeda. 801-805 [doi]

Compressing End-to-end ASR Networks by Tensor-Train DecompositionTakuma Mori, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 806-810 [doi]

Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from SpeechYu-An Chung, James R. Glass. 811-815 [doi]

Extending Recurrent Neural Aligner for Streaming End-to-End Speech Recognition in MandarinLinhao Dong, Shiyu Zhou, Wei Chen, Bo Xu. 816-820 [doi]

Joint Noise and Reverberation Adaptive Learning for Robust Speaker DOA Estimation with an Acoustic Vector SensorDisong Wang, Yuexian Zou. 821-825 [doi]

Multiple Concurrent Sound Source Tracking Based on Observation-Guided Adaptive Particle FilterHong Liu, Haipeng Lan, Bing Yang, Cheng Pang. 826-830 [doi]

Harmonic-Percussive Source Separation of Polyphonic Music by Suppressing Impulsive Noise EventsGurunath Reddy M., K. Sreenivasa Rao, Partha Pratim Das. 831-835 [doi]

Speaker Activity Detection and Minimum Variance Beamforming for Source SeparationEnea Ceolini, Jithendar Anumula, Adrian E. G. Huber, Ilya Kiselev, Shih-Chii Liu. 836-840 [doi]

Sparsity-Constrained Weight Mapping for Head-Related Transfer Functions Individualization from Anthropometric FeaturesXiaoke Qi, Jianhua Tao. 841-845 [doi]

Speech Source Separation Using ICA in Constant Q Transform DomainDheeraj Sai D. V. L. N, Kishor K. S, Sri Rama Murty Kodukula. 846-850 [doi]

Multi-talker Speech Separation Based on Permutation Invariant Training and BeamformingLu Yin, Ziteng Wang, Risheng Xia, Junfeng Li, Yonghong Yan 0002. 851-855 [doi]

Expectation-Maximization Algorithms for Itakura-Saito Nonnegative Matrix FactorizationPaul Magron, Tuomas Virtanen. 856-860 [doi]

Subband Weighting for Binaural Speech Source LocalizationGirija Ramesan Karthik, Parth Suresh, Prasanta Kumar Ghosh. 861-865 [doi]

Universal Tendencies for Cross-Linguistic Prosodic Tendencies: A Review and Some New ProposalsJacqueline Vaissière. 866 [doi]

Learning to Adapt: A Meta-learning Approach for Speaker AdaptationOndrej Klejch, Joachim Fainberg, Peter Bell 0001. 867-871 [doi]

Speaker Adaptation and Adaptive Training for Jointly Optimised Tandem SystemsYu Wang, Chao Zhang, Mark J. F. Gales, Philip C. Woodland. 872-876 [doi]

Comparison of BLSTM-Layer-Specific Affine Transformations for Speaker AdaptationMarkus Kitza, Ralf Schlüter, Hermann Ney. 877-881 [doi]

Correlational Networks for Speaker Normalization in Automatic Speech RecognitionRini A. Sharon, Sandeep Reddy Kothinti, Srinivasan Umesh. 882-886 [doi]

Machine Speech Chain with One-shot Speaker AdaptationAndros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 887-891 [doi]

Domain Adaptation Using Factorized Hidden Layer for Robust Automatic Speech RecognitionKhe Chai Sim, Arun Narayanan, Ananya Misra, Anshuman Tripathi, Golan Pundak, Tara N. Sainath, Parisa Haghani, Bo Li 0028, Michiel Bacchiani. 892-896 [doi]

Waveform-Based Speaker Representations for Speech SynthesisMoquan Wan, Gilles Degottex, Mark J. F. Gales. 897-901 [doi]

Incremental TTS for Japanese LanguageTomoya Yanagita, Sakriani Sakti, Satoshi Nakamura 0001. 902-906 [doi]

Transfer Learning Based Progressive Neural Networks for Acoustic Modeling in Statistical Parametric Speech SynthesisRuibo Fu, Jianhua Tao, Yibin Zheng, Zhengqi Wen. 907-911 [doi]

A Unified Framework for the Generation of Glottal Signals in Deep Learning-based Parametric Speech Synthesis SystemsMin-Jae Hwang, Eunwoo Song, Jin Seob Kim, Hong-Goo Kang. 912-916 [doi]

Acoustic Modeling Using Adversarially Trained Variational Recurrent Neural Network for Speech SynthesisJoun Yeop Lee, Sung Jun Cheon, Byoung Jin Choi, Nam Soo Kim, Eunwoo Song. 917-921 [doi]

On the Application and Compression of Deep Time Delay Neural Network for Embedded Statistical Parametric Speech SynthesisYibin Zheng, Jianhua Tao, Zhengqi Wen, Ruibo Fu. 922-926 [doi]

Integrating Recurrence Dynamics for Speech Emotion RecognitionEfthymios Tzinis, Georgios Paraskevopoulos, Christos Baziotis, Alexandros Potamianos. 927-931 [doi]

Towards Temporal Modelling of Categorical Speech Emotion RecognitionWenjing Han, Huabin Ruan, Xiaomin Chen, Zhixiang Wang, Haifeng Li 0001, Björn W. Schuller. 932-936 [doi]

Emotion Recognition from Human Speech Using Temporal Information and Deep LearningJohn Kim, Rif A. Saurous. 937-940 [doi]

Role of Regularization in the Prediction of Valence from SpeechKusha Sridhar, Srinivas Parthasarathy, Carlos Busso. 941-945 [doi]

Learning Spontaneity to Improve Emotion Recognition in SpeechKarttikeya Mangalam, Tanaya Guha. 946-950 [doi]

Predicting Categorical Emotions by Jointly Learning Primary and Secondary Emotions through Multitask LearningReza Lotfian, Carlos Busso. 951-955 [doi]

Picture Naming or Word Reading: Does the Modality Affect Speech Motor Adaptation and Its Transfer?Tiphaine Caudrelier, Pascal Perrier, Jean-Luc Schwartz, Amélie Rochet-Capellan. 956-960 [doi]

Measuring the Band Importance Function for Mandarin Chinese with a Bayesian Adaptive ProcedureYufan Du, Yi Shen, Hongying Yang, Xihong Wu, Jing Chen. 961-965 [doi]

Wide Learning for Auditory ComprehensionElnaz Shafaei-Bajestan, R. Harald Baayen. 966-970 [doi]

Analyzing Reaction Time Sequences from Human Participants in Auditory ExperimentsLouis ten Bosch, Mirjam Ernestus, Lou Boves. 971-975 [doi]

Prediction of Perceived Speech Quality Using Deep Machine ListeningJasper Ooster, Rainer Huber, Bernd T. Meyer. 976-980 [doi]

Prediction of Subjective Listening Effort from Acoustic Data with Non-Intrusive Deep ModelsPaul Kranzusch, Rainer Huber, Melanie Krüger, Birger Kollmeier, Bernd T. Meyer. 981-985 [doi]

A Case Study on the Importance of Belief State Representation for Dialogue Policy ManagementMargarita Kotti, Vassilios Diakoloukas, Alexandros Papangelis, Michail Lagoudakis, Yannis Stylianou. 986-990 [doi]

Prediction of Turn-taking Using Multitask Learning with Prediction of Backchannels and FillersKohei Hara, Koji Inoue, Katsuya Takanashi, Tatsuya Kawahara. 991-995 [doi]

Conversational Analysis Using Utterance-level Attention-based Bidirectional Recurrent Neural NetworksChandrakant Bothe, Sven Magg, Cornelius Weber, Stefan Wermter. 996-1000 [doi]

A Comparative Study of Statistical Conversion of Face to Voice Based on Their Subjective ImpressionsYasuhito Ohsugi, Daisuke Saito, Nobuaki Minematsu. 1001-1005 [doi]

Follow-up Question Generation Using Pattern-based Seq2seq with a Small Corpus for Interview CoachingMing-Hsiang Su, Chung-Hsien Wu, Kun-Yi Huang, Qian-Bei Hong, Huai-Hung Huang. 1006-1010 [doi]

Coherence Models for DialogueAlessandra Cervone, Evgeny A. Stepanov, Giuseppe Riccardi. 1011-1015 [doi]

Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusionK. E. Manjunath, K. Sreenivasa Rao, Dinesh Babu Jayagopi, V. Ramasubramanian. 1016-1020 [doi]

Rapid Collection of Spontaneous Speech Corpora Using Telephonic Community ForumsAgha Ali Raza, Awais Athar, Shan Randhawa, Zain Tariq, Muhammad Bilal Saleem, Haris Bin Zia, Umar Saif, Roni Rosenfeld. 1021-1025 [doi]

Effect of TTS Generated Audio on OOV Detection and Word Error Rate in ASR for Low-resource LanguagesSavitha Murthy, Dinkar Sitaram, Sunayana Sitaram. 1026-1030 [doi]

Development of Large Vocabulary Speech Recognition System with Keyword Search for ManipuriTanvina Patel, Krishna D. N, Noor Fathima, Nisar Shah, Mahima C, Deepak Kumar, Anuroop Iyengar. 1031-1035 [doi]

Robust Mizo Continuous Speech RecognitionAbhishek Dey, Biswajit Dev Sarma, Wendy Lalhminghlui, Lalnunsiami Ngente, Parismita Gogoi, Priyankoo Sarmah, S. R. Mahadeva Prasanna, Rohit Sinha 0003, Nirmala S. R.. 1036-1040 [doi]

Semi-supervised and Active-learning Scenarios: Efficient Acoustic Model Refinement for a Low Resource Indian LanguageMaharajan Chellapriyadharshini, Anoop Toffy, Srinivasa Raghavan K. M., V. Ramasubramanian. 1041-1045 [doi]

Automatic Speech Recognition with Articulatory Information and a Unified Dictionary for Hindi, Marathi, Bengali and OriyaDebadatta Dash, Myung Jong Kim, Kristin Teplansky, Jun Wang 0037. 1046-1050 [doi]

Captaina: Integrated Pronunciation Practice and Data Collection PortalAku Rouhe, Reima Karhila, Aija Elg, Minnaleena Toivola, Peter Smit, Anna-Riikka Smolander, Mikko Kurimo. 1051-1052 [doi]

auMina™ - Enterprise Speech AnalyticsUmesh Sachdev, Rajagopal Jayaraman, Zainab Millwala. 1053-1054 [doi]

HoloCompanion: An MR Friend for EveryOneAnnam Naresh, Rushabh Gandhi, Mallikarjuna Rao Bellamkonda, Mithun Das Gupta. 1055-1056 [doi]

akeira™ - Virtual AssistantUmesh Sachdev, Rajagopal Jayaraman, Zainab Millwala. 1057-1058 [doi]

Brain-Computer Interface using Electroencephalogram Signatures of Eye BlinksSrihari Maruthachalam, Sidharth Aggarwal, Mari Ganesh Kumar, Mriganka Sur, Hema A. Murthy. 1059-1060 [doi]

Voice Comparison and Rhythm: Behavioral Differences between Target and Non-target ComparisonsMoez Ajili, Jean-François Bonastre, Solange Rossato. 1061-1065 [doi]

Co-whitening of I-vectors for Short and Long Duration Speaker VerificationLongting Xu, Kong-Aik Lee, Haizhou Li 0001, Zhen Yang. 1066-1070 [doi]

Compensation for Domain Mismatch in Text-independent Speaker RecognitionFahimeh Bahmaninezhad, John H. L. Hansen. 1071-1075 [doi]

Joint Learning of J-Vector Extractor and Joint Bayesian Model for Text Dependent Speaker VerificationZiqiang Shi, Liu Liu, Huibin Lin, Rujie Liu. 1076-1080 [doi]

Latent Factor Analysis of Deep Bottleneck Features for Speaker Verification with Random Digit StringsZiqiang Shi, Huibin Lin, Liu Liu, Rujie Liu. 1081-1085 [doi]

VoxCeleb2: Deep Speaker RecognitionJoon Son Chung, Arsha Nagrani, Andrew Zisserman. 1086-1090 [doi]

Supervised I-vector Modeling - Theory and ApplicationsShreyas Ramoji, Sriram Ganapathy. 1091-1095 [doi]

LOCUST - Longitudinal Corpus and Toolset for Speaker VerificationEvgeny Dmitriev, Yulia Kim, Anastasia Matveeva, Claude Montacié, Yannick Boulard, Yadviga Sinyavskaya, Yulia Zhukova, Adam Zarazinski, Egor Akhanov, Ilya I. Viksnin, Andrei A. Shlykov, Maria Usova. 1096-1100 [doi]

Analysis of Language Dependent Front-End for Speaker RecognitionSrikanth R. Madikeri, Subhadeep Dey, Petr Motlícek. 1101-1105 [doi]

Robust Speaker Recognition from Distant Speech under Real Reverberant Environments Using Speaker EmbeddingsMahesh Kumar Nandwana, Julien van Hout, Mitchell McLaren, Allen R. Stauffer, Colleen Richey, Aaron Lawson, Martin Graciarena. 1106-1110 [doi]

Investigation on Bandwidth Extension for Speaker RecognitionPhani Sankar Nidadavolu, Cheng-I Lai, Jesús Villalba, Najim Dehak. 1111-1115 [doi]

On Learning Vocal Tract System Related Speaker Discriminative Information from Raw Signal Using CNNsHannah Muckenhirn, Mathew Magimai-Doss, Sébastien Marcel. 1116-1120 [doi]

On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker VerificationRajath Kumar, Vaishnavi Yeruva, Sriram Ganapathy. 1121-1125 [doi]

Cosine Metric Learning for Speaker Verification in the I-vector SpaceZhongxin Bai, Xiao-lei Zhang, Jingdong Chen. 1126-1130 [doi]

An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural NetworksArindam Jati, Panayiotis G. Georgiou. 1131-1135 [doi]

A New Framework for Supervised Speech Enhancement in the Time DomainAshutosh Pandey, DeLiang Wang. 1136-1140 [doi]

Speech Enhancement Using the Minimum-probability-of-error CriterionJishnu Sadasivan, Subhadip Mukherjee, Chandra Sekhar Seelamantula. 1141-1145 [doi]

Exploring the Relationship between Conic Affinity of NMF Dictionaries and Speech Enhancement MetricsPavlos Papadopoulos, Colin Vaz, Shrikanth Narayanan. 1146-1150 [doi]

Using Shifted Real Spectrum Mask as Training Target for Supervised Speech SeparationYun Liu, Hui Zhang, Xueliang Zhang. 1151-1155 [doi]

Enhancement of Noisy Speech Signal by Non-Local Means Estimation of Variational Mode FunctionsNagapuri Srinivas, Gayadhar Pradhan, Syed Shahnawazuddin. 1156-1160 [doi]

Phase-locked Loop (PLL) Based Phase Estimation in Single Channel Speech EnhancementPriya Pallavi, Ch. V. Rama Rao. 1161-1164 [doi]

Cycle-Consistent Speech EnhancementZhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang Fred Juang. 1165-1169 [doi]

Visual Speech EnhancementAviv Gabbay, Asaph Shamir, Shmuel Peleg. 1170-1174 [doi]

Implementation of Digital Hearing Aid as a Smartphone ApplicationSaketh Sharma, Nitya Tiwari, Prem C. Pandey. 1175-1179 [doi]

Bone-Conduction Sensor Assisted Noise Estimation for Improved Speech EnhancementChing Hua Lee, Bhaskar D. Rao, Harinath Garudadri. 1180-1184 [doi]

Artificial Bandwidth Extension with Memory Inclusion Using Semi-supervised Stacked Auto-encodersPramod B. Bachhav, Massimiliano Todisco, Nicholas W. D. Evans. 1185-1189 [doi]

Large Vocabulary Concatenative ResynthesisSoumi Maiti, Joey Ching, Michael I. Mandel. 1190-1194 [doi]

Concatenative Resynthesis with Improved Training Signals for Speech EnhancementAli Raza Syed, Viet Anh Trinh, Michael I. Mandel. 1195-1199 [doi]

Comparison of Syllabification Algorithms and Training Strategies for Robust Word Count Estimation across Different Languages and Recording ConditionsOkko Räsänen, Shreyas Seshadri, Marisa Casillas. 1200-1204 [doi]

A Comparison of Input Types to a Deep Neural Network-based Forced AlignerMatthew C. Kelley, Benjamin V. Tucker. 1205-1209 [doi]

Joint Learning Using Denoising Variational Autoencoders for Voice Activity DetectionYoungmoon Jung, Younggwan Kim, Yeunju Choi, Hoirin Kim. 1210-1214 [doi]

Information Bottleneck Based Percussion Instrument Diarization System for Taniavartanam Segments of Carnatic Music ConcertsNauman Dawalatabad, Jom Kuriakose, Chellu Chandra Sekhar, Hema A. Murthy. 1215-1219 [doi]

Robust Voice Activity Detection Using Frequency Domain Long-Term Differential EntropyDebayan Ghosh, Muralishankar R, Sanjeev Gurugopinath. 1220-1224 [doi]

Device-directed Utterance DetectionSri Harish Reddy Mallidi, Roland Maas, Kyle Goehner, Ariya Rastrow, Spyros Matsoukas, Björn Hoffmeister. 1225-1228 [doi]

Acoustic-Prosodic Features of Tabla Bol Recitation and Correspondence with the Tabla ImitationRohit M. A, Preeti Rao. 1229-1233 [doi]

Who Said That? a Comparative Study of Non-negative Matrix Factorization TechniquesTeun F. Krikke, Frank Broz, David Lane. 1234-1238 [doi]

AVA-Speech: A Densely Labeled Dataset of Speech Activity in MoviesSourish Chaudhuri, Joseph Roth, Daniel P. W. Ellis, Andrew Gallagher, Liat Kaver, Radhika Marvin, Caroline Pantofaru, Nathan Reale, Loretta Guarino Reid, Kevin W. Wilson, Zhonghua Xi. 1239-1243 [doi]

Audiovisual Speech Activity Detection with Advanced Long Short-Term MemoryFei Tao, Carlos Busso. 1244-1248 [doi]

Towards Automatic Speech Identification from Vocal Tract Shape Dynamics in Real-time MRIPramit Saha, Praneeth Srungarapu, Sidney Fels. 1249-1253 [doi]

Structured Word Embedding for Low Memory Neural Network Language ModelKaiyu Shi, Kai Yu. 1254-1258 [doi]

Role Play Dialogue Aware Language Models Based on Conditional Hierarchical Recurrent Encoder-DecoderRyo Masumura, Tomohiro Tanaka, Atsushi Ando, Hirokazu Masataki, Yushi Aono. 1259-1263 [doi]

Efficient Keyword Spotting Using Time Delay Neural NetworksSamuel Myer, Vikrant Singh Tomar. 1264-1268 [doi]

Automatic DNN Node Pruning Using Mixture Distribution-based Group RegularizationTsukasa Yoshida, Takafumi Moriya, Kazuho Watanabe, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono. 1269-1273 [doi]

Conditional-Computation-Based Recurrent Neural Networks for Computationally Efficient Acoustic ModellingRaffaele Tavarone, Leonardo Badino. 1274-1278 [doi]

Leveraging Translations for Speech Transcription in Low-resource SettingsAntonios Anastasopoulos, David Chiang 0001. 1279-1283 [doi]

Sequence-to-sequence Neural Network Model with 2D Attention for Learning Japanese Pitch AccentsAntoine Bruguier, Heiga Zen, Arkady Arkhangorodsky. 1284-1287 [doi]

Task Specific Sentence Embeddings for ASR Error DetectionSahar Ghannay, Yannick Estève, Nathalie Camelin. 1288-1292 [doi]

Low-Latency Neural Speech TranslationJan Niehues, Ngoc-Quan Pham, Thanh-Le Ha, Matthias Sperber, Alex Waibel. 1293-1297 [doi]

Low-Resource Speech-to-Text TranslationSameer Bansal, Herman Kamper, Karen Livescu, Adam Lopez, Sharon Goldwater. 1298-1302 [doi]

VoiceGuard: Secure and Private Speech ProcessingFerdinand Brasser, Tommaso Frassetto, Korbinian Riedhammer, Ahmad-Reza Sadeghi, Thomas Schneider 0003, Christian Weinert. 1303-1307 [doi]

Deep Learning based Situated Goal-oriented Dialogue SystemsDilek Hakkani-Tür. 1308 [doi]

Single-channel Speech Dereverberation via Generative Adversarial TrainingChenxing Li, Tieqiang Wang, Shuang Xu, Bo Xu. 1309-1313 [doi]

Single-Channel Dereverberation Using Direct MMSE Optimization and Bidirectional LSTM NetworksWolfgang Mack, Soumitro Chakrabarty, Fabian-Robert Stöter, Sebastian Braun, Bernd Edler, Emanuel A. P. Habets. 1314-1318 [doi]

Single-channel Late Reverberation Power Spectral Density Estimation Using Denoising AutoencodersIna Kodrasi, Hervé Bourlard. 1319-1323 [doi]

A Non-convolutive NMF Model for Speech DereverberationNikhil Mohanan, Rajbabu Velmurugan, Preeti Rao. 1324-1328 [doi]

Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech EnhancementPeter Guzewich, Stephen A. Zahorian, Xiao Chen, Hao Zhang. 1329-1333 [doi]

Dereverberation and Beamforming in Robust Far-Field Speaker RecognitionLadislav Mosner, Oldrich Plchot, Pavel Matejka, Ondrej Novotný, Jan Cernocký. 1334-1338 [doi]

Comparing the Max and Noisy-Or Pooling Functions in Multiple Instance Learning for Weakly Supervised Sequence Learning TasksYun Wang 0005, Juncheng Li, Florian Metze. 1339-1343 [doi]

A Simple Model for Detection of Rare Sound EventsWeiran Wang, Chieh-Chi Kao, Chao Wang. 1344-1348 [doi]

Temporal Transformer Networks for Acoustic Scene ClassificationTeng Zhang, Kailai Zhang, Ji Wu. 1349-1353 [doi]

Temporal Attentive Pooling for Acoustic Event DetectionXugang Lu, Peng Shen, Sheng Li 0010, Yu Tsao, Hisashi Kawai. 1354-1357 [doi]

R-CRNN: Region-based Convolutional Recurrent Neural Network for Audio Event DetectionChieh-Chi Kao, Weiran Wang, Ming Sun, Chao Wang. 1358-1362 [doi]

Detecting Media Sound Presence in Acoustic ScenesConstantinos Papayiannis, Justice Amoh, Viktor Rozgic, Shiva Sundaram, Chao Wang. 1363-1367 [doi]

S4D: Speaker Diarization Toolkit in PythonPierre-Alexandre Broux, Florent Desnous, Anthony Larcher, Simon Petitrenaud, Jean Carrive, Sylvain Meignier. 1368-1372 [doi]

Multimodal Speaker Segmentation and Diarization Using Lexical and Acoustic Cues via Sequence to Sequence Neural NetworksTae-Jin Park, Panayiotis G. Georgiou. 1373-1377 [doi]

Combined Speaker Clustering and Role Recognition in Conversational SpeechNikolaos Flemotomos, Pavlos Papadopoulos, James Gibson, Shrikanth Narayanan. 1378-1382 [doi]

The ACLEW DiViMe: An Easy-to-use Diarization ToolAdrien Le Franc, Eric Riebling, Julien Karadayi, Yun Wang 0005, Camila Scaff, Florian Metze, Alejandrina Cristià. 1383-1387 [doi]

Automatic Detection of Multi-speaker Fragments with High Time ResolutionEvdokia Kazimirova, Andrey Belyaev. 1388-1392 [doi]

Neural Speech Turn Segmentation and Affinity Propagation for Speaker DiarizationRuiqing Yin, Hervé Bredin, Claude Barras. 1393-1397 [doi]

Pitch or Phonation: on the Glottalization in Tone Productions in the Ruokeng Hui Chinese DialectMinghui Zhang, Fang Hu. 1398-1402 [doi]

Speaker-specific Structure in German Voiceless Stop Voice Onset TimesMarc Antony Hullebus, Stephen J. Tobin, Adamantios I. Gafos. 1403-1407 [doi]

Creak in the Respiratory CycleKätlin Aare, Pärtel Lippus, Marcin Wlodarczak, Mattias Heldner. 1408-1412 [doi]

Acoustic Analysis of Whispery Voice Disguise in Mandarin ChineseCuiling Zhang, Bin Li, Si Chen, Yike Yang. 1413-1416 [doi]

The Zurich Corpus of Vowel and Voice Quality, Version 1.0Dieter Maurer, Christian d'Heureuse, Heidy Suter, Volker Dellwo, Daniel Friedrichs, Thayabaran Kathiresan. 1417-1421 [doi]

Weighting of Coda Voicing Cues: Glottalisation and Vowel DurationJoshua Penney, Felicity Cox, Anita Szakay. 1422-1426 [doi]

Revealing Spatiotemporal Brain Dynamics of Speech Production Based on EEG and Eye MovementBin Zhao, Jinfeng Huang, Gaoyan Zhang, Jianwu Dang, Minbo Chen, YingjianFu, Longbiao Wang. 1427-1431 [doi]

Neural Response Development During Distributional LearningNatalie Boll-Avetisyan, Jessie S. Nixon, Tomas O. Lentz, Liquan Liu, Sandrien van Ommen, Çagri Çöltekin, Jacolien van Rij. 1432-1436 [doi]

Learning Two Tone Languages Enhances the Brainstem Encoding of Lexical TonesAkshay Raj Maggu, Wenqing Zong, Vina Law, Patrick C. M. Wong. 1437-1441 [doi]

Perceptual Sensitivity to Spectral Change in Australian English Close Front Vowels: An Electroencephalographic InvestigationDaniel Williams 0002, Paola Escudero, Adamantios I. Gafos. 1442-1446 [doi]

Effective Acoustic Cue Learning Is Not Just Statistical, It Is DiscriminativeJessie S. Nixon. 1447-1451 [doi]

Analyzing EEG Signals in Auditory Speech Comprehension Using Temporal Response Functions and Generalized Additive ModelsKimberley Mulder, Louis ten Bosch, Lou Boves. 1452-1456 [doi]

Information Encoding by Deep Neural Networks: What Can We Learn?Louis ten Bosch, Lou Boves. 1457-1461 [doi]

Scalable Factorized Hierarchical Variational Autoencoder TrainingWei-Ning Hsu, James R. Glass. 1462-1466 [doi]

State Gradients for RNN Memory AnalysisLyan Verwimp, Hugo Van Hamme, Vincent Renkens, Patrick Wambacq. 1467-1471 [doi]

Exploring How Phone Classification Neural Networks Learn Phonetic Information by Visualising and Interpreting Bottleneck FeaturesLinxue Bai, Philip Weber, Peter Jancovic, Martin J. Russell. 1472-1476 [doi]

Memory Time Span in LSTMs for Multi-Speaker Source SeparationJeroen Zegers, Hugo Van Hamme. 1477-1481 [doi]

Visualizing Phoneme Category Adaptation in Deep Neural NetworksOdette Scharenborg, Sebastian Tiesmeyer, Mark Hasegawa-Johnson, Najim Dehak. 1482-1486 [doi]

Early Vocabulary Development Through Picture-based Software SolutionsG. R. Kasthuri, Prabha Ramanathan, Hema A. Murthy, Namita Jacob, Anil Prabhakar. 1487-1488 [doi]

Automatic Detection of Expressiveness in Oral ReadingKamini Sabu, Kanhaiya Kumar, Preeti Rao. 1489-1490 [doi]

PannoMulloKathan: Voice Enabled Mobile App for Agricultural Commodity Price Dissemination in Bengali LanguageMadhab Pal, Rajib Roy, Soma Khan, Milton Samirakshma Bepari, Joyanta Basu. 1491-1492 [doi]

Visualizing Punctuation Restoration in Speech Transcripts with ProsographAlp Öktem, Mireia Farrús, Antonio Bonafonte. 1493-1494 [doi]

CACTAS - Collaborative Audio Categorization and Transcription for ASR SystemsMithul Mathivanan, Kinnera Saranu, Abhishek Pandey, Jithendra Vepa. 1495-1496 [doi]

FACTS: A Hierarchical Task-based Control Model of Speech Incorporating Sensory FeedbackBenjamin Parrell, Vikram Ramanarayanan, Srikantan S. Nagarajan, John F. Houde. 1497-1501 [doi]

Sensorimotor Response to Tongue Displacement Imagery by Talkers with Parkinson's DiseaseWilliam F. Katz, Patrick Reidy, Divya Prabhakaran. 1502-1506 [doi]

Automatic Pronunciation Evaluation of SingingChitralekha Gupta, Haizhou Li 0001, Ye Wang. 1507-1511 [doi]

Classification of Nonverbal Human Produced Audio Events: A Pilot StudyRachel E. Bouserhal, Philippe Chabot, Milton Sarria Paja, Patrick Cardinal, Jérémie Voix. 1512-1516 [doi]

UltraFit: A Speaker-friendly Headset for Ultrasound Recordings in Speech ScienceLorenzo Spreafico, Michael Pucher, Anna Matosova. 1517-1520 [doi]

Articulatory Consequences of Vocal Effort Elicitation MethodElisabet Eir Cortes, Marcin Wlodarczak, Juraj Simko. 1521-1525 [doi]

Age-related Effects on Sensorimotor Control of Speech ProductionAnne Hermes, Jane Mertens, Doris Mücke. 1526-1530 [doi]

An Ultrasound Study of Gemination in Coronal Stops in Eastern OromoMaida Percival, Alexei Kochetov, Yoonjung Kang. 1531-1535 [doi]

Processing Transition Regions of Glottal Stop Substituted /S/ for Intelligibility Enhancement of Cleft Palate SpeechProtima Nomo Sudro, Sishir Kalita, S. R. Mahadeva Prasanna. 1536-1540 [doi]

Reconstructing Neutral Speech from Tracheoesophageal SpeechAbinay Reddy N, M. V. Achuth Rao, G. Nisha Meenakshi, Prasanta Kumar Ghosh. 1541-1545 [doi]

Automatic Evaluation of Soft Articulatory Contact for Stuttering TreatmentKeiko Ochi, Koichi Mori, Naomi Sakai. 1546-1550 [doi]

Korean Singing Voice Synthesis Based on an LSTM Recurrent Neural NetworkJuntae Kim, Heejin Choi, Jinuk Park, Minsoo Hahn, Sang-Jin Kim, Jong Jin Kim. 1551-1555 [doi]

The Trajectory of Voice Onset Time with Vocal AgingXuanda Chen, Ziyu Xiong, Jian Hu. 1556-1560 [doi]

The Fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, Task and BaselinesJon Barker, Shinji Watanabe, Emmanuel Vincent, Jan Trmal. 1561-1565 [doi]

Voices Obscured in Complex Environmental Settings (VOiCES) CorpusColleen Richey, María Auxiliadora Barrios, Zeb Armstrong, Chris Bartels, Horacio Franco, Martin Graciarena, Aaron Lawson, Mahesh Kumar Nandwana, Allen R. Stauffer, Julien van Hout, Paul Gamble, Jeffrey Hetherly, Cory Stephenson, Karl Ni. 1566-1570 [doi]

Building State-of-the-art Distant Speech Recognition Using the CHiME-4 Challenge with a Setup of Speech Enhancement BaselineSzu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, Shinji Watanabe. 1571-1575 [doi]

Unsupervised Adaptation with Interpretable Disentangled Representations for Distant Conversational Speech RecognitionWei-Ning Hsu, Hao Tang, James R. Glass. 1576-1580 [doi]

Investigating Generative Adversarial Networks Based Speech Dereverberation for Robust Speech RecognitionKe Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie. 1581-1585 [doi]

Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional NetworksXuankai Chang, Yanmin Qian, Dong Yu 0001. 1586-1590 [doi]

Weighting Time-Frequency Representation of Speech Using Auditory Saliency for Automatic Speech RecognitionCong-Thanh Do, Yannis Stylianou. 1591-1595 [doi]

Acoustic Modeling from Frequency Domain Representations of SpeechPegah Ghahremani, Hossein Hadian, Hang Lv 0001, Daniel Povey, Sanjeev Khudanpur. 1596-1600 [doi]

Non-Uniform Spectral Smoothing for Robust Children's Speech RecognitionIshwar Chandra Yadav, Avinash Kumar, Syed Shahnawazuddin, Gayadhar Pradhan. 1601-1605 [doi]

Bidirectional Long-Short Term Memory Network-based Estimation of Reliable Spectral Component LocationsAaron Nicolson, Kuldip K. Paliwal. 1606-1610 [doi]

Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural NetworkLili Guo, Longbiao Wang, Jianwu Dang, Linjuan Zhang, Haotian Guan, Xiangang Li. 1611-1615 [doi]

Bubble Cooperative Networks for Identifying Important Speech CuesViet Anh Trinh, Brian McFee, Michael I. Mandel. 1616-1620 [doi]

Real-Time Scoring of an Oral Reading Assessment on Mobile DevicesJian Cheng. 1621-1625 [doi]

A Deep Learning Approach to Assessing Non-native Pronunciation of English Using Phone DistancesKonstantinos Kyriakopoulos, Kate Knill, Mark J. F. Gales. 1626-1630 [doi]

Paired Phone-Posteriors Approach to ESL Pronunciation Quality AssessmentYujia Xiao, Frank K. Soong, Wenping Hu. 1631-1635 [doi]

Investigating the Role of L1 in Automatic Pronunciation Evaluation of L2 SpeechMing Tu, Anna Grabek, Julie Liss, Visar Berisha. 1636-1640 [doi]

Impact of ASR Performance on Free Speaking Language AssessmentKate Knill, Mark J. F. Gales, Konstantinos Kyriakopoulos, Andrey Malinin, Anton Ragni, Yu Wang, Andrew Caines. 1641-1645 [doi]

Automatic Miscue Detection Using RNN Based Models with Data AugmentationYoon Seok Hong, Kyung Seo Ki, Gahgene Gweon. 1646-1650 [doi]

A Study of Objective Measurement of Comprehensibility through Native Speakers' Shadowing of Learners' UtterancesYusuke Inoue, Suguru Kabashima, Daisuke Saito, Nobuaki Minematsu, Kumi Kanamura, Yutaka Yamauchi. 1651-1655 [doi]

Factorized Deep Neural Network Adaptation for Automatic Scoring of L2 Speech in English Speaking TestsDean Luo, Chunxiao Zhang, Linzhong Xia, Lixin Wang. 1656-1660 [doi]

On the Difficulties of Automatic Speech Recognition for Kindergarten-Aged ChildrenGary Yeung, Abeer Alwan. 1661-1665 [doi]

Improved Acoustic Modelling for Automatic Literacy Assessment of ChildrenMauro Nicolao, Michiel Sanders, Thomas Hain. 1666-1670 [doi]

Anomaly Detection Approach for Pronunciation Verification of Disordered Speech Using Speech Attribute FeaturesMostafa Ali Shahin, Beena Ahmed, Jim X. Ji, Kirrie J. Ballard. 1671-1675 [doi]

Effectiveness of Voice Quality Features in Detecting DepressionAmber Afshan, Jinxi Guo, Soo-Jin Park, Vijay Ravi, Jonathan Flint, Abeer Alwan. 1676-1680 [doi]

Fusing Text-dependent Word-level i-Vector Models to Screen 'at Risk' Child SpeechPrasanna V. Kothalkar, Johanna Rudolph, Christine Dollaghan, Jennifer McGlothlin, Thomas F. Campbell, John H. L. Hansen. 1681-1685 [doi]

Testing Paradigms for Assistive Hearing Devices in Diverse Acoustic EnvironmentsRam Charan Chandra Shekar, Hussnain Ali, John H. L. Hansen. 1686-1690 [doi]

Detection of Dementia from Responses to Atypical Questions Asked by Embodied Conversational AgentsTsuyoki Ujiro, Hiroki Tanaka, Hiroyoshi Adachi, Hiroaki Kazui, Manabu Ikeda, Takashi Kudo, Satoshi Nakamura 0001. 1691-1695 [doi]

Acoustic Features Associated with Sustained Vowel and Continuous Speech Productions by Chinese Children with Functional Articulation DisordersWang Zhang, Xiangquan Gui, Tianqi Wang, Manwa L. Ng, Feng Yang, Lan Wang, Nan Yan. 1696-1700 [doi]

Estimation of Hypernasality Scores from Cleft Lip and Palate SpeechVikram C. M., Ayush Tripathi, Sishir Kalita, S. R. Mahadeva Prasanna. 1701-1705 [doi]

Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio DataTifani Warnita, Nakamasa Inoue, Koichi Shinoda. 1706-1710 [doi]

Automatic Detection of Orofacial Impairment in StrokeAndrea Bandini, Jordan Green, Brian Richburg, Yana Yunusova. 1711-1715 [doi]

Detecting Depression with Audio/Text Sequence Modeling of InterviewsTuka Al Hanai, Mohammad M. Ghassemi, James R. Glass. 1716-1720 [doi]

Discourse Marker Detection for Hesitation Events on Mandarin ConversationYu-Wun Wang, Hen-Hsen Huang, Kuan-Yu Chen, Hsin-Hsi Chen. 1721-1725 [doi]

Acoustic and Perceptual Characteristics of Mandarin Speech in Homosexual and Heterosexual Male SpeakersPuyang Geng, Wentao Gu, Hiroya Fujisaki. 1726-1730 [doi]

Automatic Question Detection from Acoustic and Phonetic Features Using Feature-wise Pre-trainingAtsushi Ando, Reine Asakawa, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono. 1731-1735 [doi]

Improving Response Time of Active Speaker Detection Using Visual Prosody Information Prior to ArticulationFasih Haider, Saturnino Luz, Carl Vogel, Nick Campbell 0001. 1736-1740 [doi]

Audio-Visual Prediction of Head-Nod and Turn-Taking Events in Dyadic InteractionsBekir Berker Türker, Engin Erzin, Yücel Yemez, T. Metin Sezgin. 1741-1745 [doi]

Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language LearningHaoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito. 1746-1750 [doi]

Analysis of the Effect of Speech-Laugh on Speaker Recognition SystemSri Harsha Dumpala, Ashish Panda, Sunil Kumar Kopparapu. 1751-1755 [doi]

Vocal Biomarkers for Cognitive Performance Estimation in a Working Memory TaskJennifer Sloboda, Adam C. Lammert, James R. Williamson, Christopher J. Smalt, Daryush D. Mehta, C. O. L. Ian Curry, Kristin Heaton, Jeff Palmer, Thomas F. Quatieri. 1756-1760 [doi]

Lexical and Acoustic Deep Learning Model for Personality RecognitionGuozhen An, Rivka Levitan. 1761-1765 [doi]

Open Problems in Speech RecognitionBhuvana Ramabhadran. 1766 [doi]

Evolution of Neural Network Architectures for Speech RecognitionHervé Bourlard. 1767 [doi]

Layer Trajectory LSTMJinyu Li, Changliang Liu, Yifan Gong. 1768-1772 [doi]

Semi-tied Units for Efficient Gating in LSTM and Highway NetworksChao Zhang, Philip C. Woodland. 1773-1777 [doi]

Gaussian Process Neural Networks for Speech RecognitionMax W. Y. Lam, Shoukang Hu, Xurong Xie, Shansong Liu, Jianwei Yu, Rongfeng Su, Xunying Liu, Helen Meng. 1778-1782 [doi]

Acoustic Modeling with Densely Connected Residual Network for Multichannel Speech RecognitionJian Tang, Yan Song, Lirong Dai, Ian Vince McLoughlin. 1783-1787 [doi]

Gated Recurrent Unit Based Acoustic Modeling with Future ContextJie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li. 1788-1792 [doi]

Output-Gate Projected Gated Recurrent Unit for Speech RecognitionGaofeng Cheng, Daniel Povey, Lu Huang, Ji Xu, Sanjeev Khudanpur, Yonghong Yan 0002. 1793-1797 [doi]

Performance Analysis of the 2017 NIST Language Recognition EvaluationSeyed Omid Sadjadi, Timothée Kheyrkhah, Craig S. Greenberg, Elliot Singer, Douglas A. Reynolds, Lisa P. Mason, Jaime Hernandez-Cordero. 1798-1802 [doi]

Using Deep Neural Networks for Identification of Slavic Languages from Acoustic SignalLukás Mateju, Petr Cerva, Jindrich Zdánský, Radek Safarík. 1803-1807 [doi]

Adding New Classes without Access to the Original Training Data with Applications to Language IdentificationHagai Taitelbaum, Ehud Ben-Reuven, Jacob Goldberger. 1808-1812 [doi]

Feature Representation of Short Utterances Based on Knowledge Distillation for Spoken Language IdentificationPeng Shen, Xugang Lu, Sheng Li 0010, Hisashi Kawai. 1813-1817 [doi]

Sub-band Envelope Features Using Frequency Domain Linear Prediction for Short Duration Language IdentificationSarith Fernando, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 1818-1822 [doi]

Effectiveness of Single-Channel BLSTM Enhancement for Language IdentificationPeter Sibbern Frederiksen, Jesús Villalba, Shinji Watanabe, Zheng-Hua Tan, Najim Dehak. 1823-1827 [doi]

Articulation Rate as a Speaker Discriminant in British EnglishErica Gold. 1828-1832 [doi]

Truncation and Compression in Southern German and Australian EnglishJenny Yu, Katharina Zahner. 1833-1837 [doi]

Prominence-based Evaluation of L2 ProsodyHeini Kallio, Antti Suni, Päivi Virkkunen, Juraj Simko. 1838-1842 [doi]

Length Contrast and Covarying Features: Whistled Speech as a Case StudyRachid Ridouane, Giuseppina Turco, Julien Meyer. 1843-1847 [doi]

Information Structure, Affect and Prenuclear Prominence in American EnglishEleanor Chodroff, Jennifer Cole. 1848-1852 [doi]

Effects of User Controlled Speech Rate on Intelligibility in Noisy EnvironmentsJohn S. Novak III, Robert V. Kenyon. 1853-1857 [doi]

Binaural Speech Intelligibility Estimation Using Deep Neural NetworksKazuhiro Kondo, Kazuya Taira, Yosuke Kobayashi. 1858-1862 [doi]

Multi-resolution Gammachirp Envelope Distortion Index for Intelligibility Prediction of Noisy SpeechKatsuhiko Yamamoto, Toshio Irino, Narumi Ohashi, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani. 1863-1867 [doi]

Speech Intelligibility Enhancement Based on a Non-causal Wavenet-like ModelP. V. Muhammed Shifas, Vassilis Tsiaras, Yannis Stylianou. 1868-1872 [doi]

Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model Based on BLSTMSzu-Wei Fu, Yu Tsao, Hsin-Te Hwang, Hsin-Min Wang. 1873-1877 [doi]

Global SNR Estimation of Speech Signals Using Entropy and Uncertainty Estimates from Dropout NetworksRohith Aralikatti, Dilip Kumar Margam, Tanay Sharma, Abhinav Thanda, Shankar M. Venkatesan. 1878-1882 [doi]

Detecting Packet-Loss Concealment Using Formant Features and Decision Tree LearningGabriel Mittag, Sebastian Möller. 1883-1887 [doi]

UltraSuite: A Repository of Ultrasound and Acoustic Data from Child Speech Therapy SessionsAciel Eshky, Manuel Sam Ribeiro, Joanne Cleland, Korin Richmond, Zoe Roxburgh, James M. Scobbie, Alan Wrench. 1888-1892 [doi]

Detecting Signs of Dementia Using Word Vector RepresentationsBahman Mirheidari, Daniel Blackburn, Traci Walker, Annalena Venneri, Markus Reuber, Heidi Christensen. 1893-1897 [doi]

Classification of Huntington Disease Using Acoustic and Lexical FeaturesMatthew Perez, Wenyu Jin, Duc Le, Noelle Carlozzi, Praveen Dayalu, Angela Roberts, Emily Mower Provost. 1898-1902 [doi]

The PRIORI Emotion Dataset: Linking Mood to Emotion Detected In-the-WildSoheil Khorram, Mimansa Jaiswal, John Gideon, Melvin G. McInnis, Emily Mower Provost. 1903-1907 [doi]

Language Features for Automated Evaluation of Cognitive Behavior Psychotherapy SessionsNikolaos Flemotomos, Victor R. Martinez, James Gibson, David C. Atkins, Torrey Creed, Shrikanth Narayanan. 1908-1912 [doi]

Automatic Early Detection of Amyotrophic Lateral Sclerosis from Intelligible Speech Using Convolutional Neural NetworksKwanghoon An, Myung Jong Kim, Kristin Teplansky, Jordan Green, Thomas Campbell, Yana Yunusova, Daragh Heitzman, Jun Wang 0037. 1913-1917 [doi]

A Study of Lexical and Prosodic Cues to Segmentation in a Hindi-English Code-switched DiscoursePreeti Rao, Mugdha Pandya, Kamini Sabu, Kanhaiya Kumar, Nandini Bondale. 1918-1922 [doi]

Building a Unified Code-Switching ASR System for South African LanguagesEmre Yilmaz, Astik Biswas, Ewald van der Westhuizen, Febe de Wet, Thomas Niesler. 1923-1927 [doi]

Study of Semi-supervised Approaches to Improving English-Mandarin Code-Switching Speech RecognitionPengcheng Guo, Haihua Xu, Lei Xie, Eng Siong Chng. 1928-1932 [doi]

Acoustic and Textual Data Augmentation for Improved ASR of Code-Switching SpeechEmre Yilmaz, Henk van den Heuvel, David A. van Leeuwen. 1933-1937 [doi]

The Role of Cognate Words, POS Tags and Entrainment in Code-SwitchingVictor Soto, Nishmar Cestero, Julia Hirschberg. 1938-1942 [doi]

Homophone Identification and Merging for Code-switched Speech RecognitionBrij Mohan Lal Srivastava, Sunayana Sitaram. 1943-1947 [doi]

Code-switching in Indic Speech SynthesisersAnju Leela Thomas, Anusha Prakash, Arun Baby, Hema A. Murthy. 1948-1952 [doi]

A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language ModelGanji Sreeram, Rohit Sinha 0003. 1953-1957 [doi]

Hierarchical Accent Determination and Application in a Large Scale ASR SystemRamya Viswanathan, Periyasamy Paramasivam, Jithendra Vepa. 1958-1959 [doi]

Toward Scalable Dialog Technology for Conversational Language Learning: Case Study of the TOEFL® MOOCVikram Ramanarayanan, David Pautler, Patrick L. Lange, Eugene Tsuprun, Rutuja Ubale, Keelan Evanini, David Suendermann-Oeft. 1960-1961 [doi]

Machine Learning Powered Data Platform for High-Quality Speech and NLP WorkflowsJoão Freitas, Jorge Ribeiro, Daan Baldewijns, Sara Oliveira, Daniela Braga. 1962-1963 [doi]

Fully Automatic Speaker Separation System, with Automatic Enrolling of Recurrent SpeakersRaphael Cohen, Orgad Keller, Jason Levy, Russell Levy, Micha Breakstone, Amit Ashkenazi. 1964-1965 [doi]

Online Speech Translation System for TamilMadhavaraj Ayyavu, Shiva Kumar H. R, Ramakrishnan A. G. 1966-1967 [doi]

Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice ConversionNirmesh J. Shah, Maulik C. Madhavi, Hemant A. Patil. 1968-1972 [doi]

Voice Conversion with Conditional SampleRNNCong Zhou, Michael Horgan, Vivek Kumar, Cristina Vasco, Dan Darcy. 1973-1977 [doi]

A Voice Conversion Framework with Tandem Feature Sparse Representation and Speaker-Adapted WaveNet VocoderBerrak Sisman, Mingyang Zhang, Haizhou Li 0001. 1978-1982 [doi]

WaveNet Vocoder with Limited Training Data for Voice ConversionLi-juan Liu, Zhen-Hua Ling, Yuan Jiang, Ming Zhou, Li-Rong Dai. 1983-1987 [doi]

Collapsed Speech Segment Detection and Suppression for WaveNet VocoderYi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Hayashi, Patrick Lumban Tobing, Tomoki Toda. 1988-1992 [doi]

High-quality Voice Conversion Using Spectrogram-Based WaveNet VocoderKuan Chen, Bo Chen, Jiahao Lai, Kai Yu. 1993-1997 [doi]

Spanish Statistical Parametric Speech Synthesis Using a Neural VocoderAntonio Bonafonte, Santiago Pascual, Georgina Dorca. 1998-2001 [doi]

Experiments with Training Corpora for Statistical Text-to-speech SystemsMonika Podsiadlo, Victor Ungureanu. 2002-2006 [doi]

Multi-task WaveNet: A Multi-task Generative Model for Statistical Parametric Speech Synthesis without Fundamental Frequency ConditionsYu Gu, Yongguo Kang. 2007-2011 [doi]

Speaker-independent Raw Waveform Model for Glottal ExcitationLauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku. 2012-2016 [doi]

A New Glottal Neural Vocoder for Speech SynthesisYang Cui, Xi Wang, Lei He, Frank K. Soong. 2017-2021 [doi]

Exemplar-based Speech Waveform GenerationOliver Watts, Cassia Valentini-Botinhao, Felipe Espic, Simon King. 2022-2026 [doi]

Frequency Domain Variants of Velvet Noise and Their Application to Speech Processing and SynthesisHideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino. 2027-2031 [doi]

Joint Learning of Interactive Spoken Content Retrieval and Trainable User SimulatorPei-Hung Chung, Kuan Tung, Ching-Lun Tai, Hung-yi Lee. 2032-2036 [doi]

Attention-based End-to-End Models for Small-Footprint Keyword SpottingChanghao Shan, Junbo Zhang, Yujun Wang, Lei Xie. 2037-2041 [doi]

Prediction of Aesthetic Elements in Karnatic Music: A Machine Learning ApproachRagesh Rajan M, Ashwin Vijayakumar, Deepu Vijayasenan. 2042-2046 [doi]

Topic and Keyword Identification for Low-resourced Speech Using Cross-Language Transfer LearningWenda Chen, Mark Hasegawa-Johnson, Nancy F. Chen. 2047-2051 [doi]

Automatic Speech Recognition and Topic Identification from Speech for Almost-Zero-Resource LanguagesMatthew Wiesner, Chunxi Liu, Lucas Ondel, Craig Harman, Vimal Manohar, Jan Trmal, Zhongqiang Huang, Najim Dehak, Sanjeev Khudanpur. 2052-2056 [doi]

Play Duration Based User-Entity Affinity Modeling in Spoken Dialog SystemBo Xiao, Nicholas Monath, Shankar Ananthakrishnan, Abishek Ravi. 2057-2061 [doi]

Empirical Analysis of Score Fusion Application to Combined Neural Networks for Open Vocabulary Spoken Term DetectionShi-wook Lee, Kazuyo Tanaka, Yoshiaki Itoh 0001. 2062-2066 [doi]

Phonological Posterior Hashing for Query by Example Spoken Term DetectionAfsaneh Asaei, Dhananjay Ram, Hervé Bourlard. 2067-2071 [doi]

Term Extraction via Neural Sequence Labeling a Comparative Evaluation of Strategies Using Recurrent Neural NetworksMaren Kucza, Jan Niehues, Thomas Zenkel, Alex Waibel, Sebastian Stüker. 2072-2076 [doi]

Semi-supervised Learning for Information Extraction from DialogueAnjuli Kannan, Kai Chen 0010, Diana Jaunzeikare, Alvin Rajkomar. 2077-2081 [doi]

Slot Filling with Delexicalized Sentence GenerationYouhyun Shin, Kang Min Yoo, Sang-goo Lee. 2082-2086 [doi]

Music Genre Recognition Using Deep Neural Networks and Transfer LearningDeepanway Ghosal, Maheshkumar H. Kolekar. 2087-2091 [doi]

Efficient Voice Trigger Detection for Low Resource HardwareSiddharth Sigtia, Rob Haynes, Hywel Richards, Erik Marchi, John Bridle. 2092-2096 [doi]

A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity DetectionQiguang Lin, Yiwen Shao. 2097-2101 [doi]

Estimation of the Vocal Tract Length of Vowel Sounds Based on the Frequency of the Significant Spectral ValleyT. V. Ananthapadmanabha, Ramakrishnan A. G.. 2102-2106 [doi]

Deep Learning Techniques for Koala Activity DetectionIvan Himawan, Michael Towsey, Bradley Law, Paul Roe. 2107-2111 [doi]

Glottal Closure Instant Detection from Speech Signal Using Voting Classifier and Recursive Feature EliminationJindrich Matousek, Daniel Tihelka. 2112-2116 [doi]

Assessing Speaker Engagement in 2-Person Debates: Overlap Detection in United States Presidential DebatesMidia Yousefi, Navid Shokouhi, John H. L. Hansen. 2117-2121 [doi]

All-Conv Net for Bird Activity Detection: Significance of Learned PoolingArjun Pankajakshan, Anshul Thakur, Daksh Thapar, Padmanabhan Rajan, Aditya Nigam. 2122-2126 [doi]

Deep Convex Representations: Feature Representations for Bioacoustics ClassificationAnshul Thakur, Vinayak Abrol, Pulkit Sharma, Padmanabhan Rajan. 2127-2131 [doi]

Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert EnvelopeHirak Dasgupta, Prem C. Pandey, K. S. Nataraj. 2132-2136 [doi]

Analyzing Thai Tone Distribution through Functional Data AnalysisHong Zhang. 2137-2141 [doi]

Articulatory Feature Classification Using Convolutional Neural NetworksDanny Merkx, Odette Scharenborg. 2142-2146 [doi]

A New Frequency Coverage Metric and a New Subband Encoding Model, with an Application in Pitch EstimationShoufeng Lin. 2147-2151 [doi]

Improved Epoch Extraction from Telephonic Speech Using Chebfun and Zero Frequency FilteringB. Ganga Gowri, Soman K. P, D. Govind. 2152-2156 [doi]

An Empirical Analysis of the Correlation of Syntax and ProsodyArne Köhn, Timo Baumann, Oskar Dörfler. 2157-2161 [doi]

Analysing the Focus of a Hierarchical Attention Network: the Importance of Enjambments When Classifying Post-modern PoetryTimo Baumann, Hussein Hussein, Burkhard Meyer-Sickendiek. 2162-2166 [doi]

Language-Dependent Melody EmbeddingsDaniil Kocharov, Alla Menshikova. 2167-2170 [doi]

Stress Distribution of Given Information in Chinese Reading TextsYuan Jia, Xiaoxiao Ma. 2171-2175 [doi]

Acoustic-prosodic Entrainment in Structural Metadata EventsVera Cabarrão, Fernando Batista, Helena Moniz, Isabel Trancoso, Ana Isabel Mata. 2176-2180 [doi]

Formant Measures of Vowels Adjacent to Alveolar and Retroflex Consonants in Arrernte: Stressed and Unstressed PositionMarija Tabain, Richard Beare, Andrew Butcher. 2181-2185 [doi]

Automatic Assessment of L2 English Word Prosody Using Weighted Distances of F0 and Intensity ContoursQuy-Thao Truong, Tsuneo Kato, Seiichi Yamamoto. 2186-2190 [doi]

Homogeneity vs Heterogeneity in Indian English: Investigating Influences of L1 on f0 RangeOlga Maxwell, Elinor Payne, Rosey Billington. 2191-2195 [doi]

Emotional Prosody Perception in Mandarin-speaking Congenital AmusicsYixin Zhang, Tianzhu Geng, Jinsong Zhang. 2196-2200 [doi]

Cultural Differences in Pattern Matching: Multisensory Recognition of Socio-affective ProsodyTakaaki Shochi, Jean-Luc Rouas, Marine Guerry, Donna Erickson. 2201-2205 [doi]

Speech Processing in the Human Brain Meets Deep LearningNima Mesgarani. 2206 [doi]

ESPnet: End-to-End Speech Processing ToolkitShinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson Enrique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, Adithya Renduchintala, Tsubasa Ochiai. 2207-2211 [doi]

A GPU-based WFST Decoder with Exact Lattice GenerationZhehuai Chen, Justin Luitjens, Hainan Xu, Yiming Wang, Daniel Povey, Sanjeev Khudanpur. 2212-2216 [doi]

Automatic Speech Recognition System Development in the "Wild"Anton Ragni, Mark J. F. Gales. 2217-2221 [doi]

Semantic Lattice Processing in Contextual Automatic Speech Recognition for Google AssistantLeonid Velikovich, Ian Williams, Justin Scheiner, Petar S. Aleksic, Pedro J. Moreno, Michael Riley. 2222-2226 [doi]

Contextual Speech Recognition in End-to-end Neural Network Systems Using Beam SearchIan Williams, Anjuli Kannan, Petar S. Aleksic, David Rybach, Tara N. Sainath. 2227-2231 [doi]

Forward-Backward Attention DecoderMasato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 2232-2236 [doi]

Learning Discriminative Features for Speaker Identification and VerificationSarthak Yadav, Atul Rai. 2237-2241 [doi]

Triplet Loss Based Cosine Similarity Metric Learning for Text-independent Speaker RecognitionSergey Novoselov, Vadim Shchemelinin, Andrey Shulipa, Alexander Kozlov, Ivan Kremnev. 2242-2246 [doi]

Speaker Embedding Extraction with Phonetic InformationYi Liu, Liang He 0003, Jia Liu, Michael T. Johnson. 2247-2251 [doi]

Attentive Statistics Pooling for Deep Speaker EmbeddingKoji Okabe, Takafumi Koshinaka, Koichi Shinoda. 2252-2256 [doi]

Robust and Discriminative Speaker Embedding via Intra-Class Distance Variance RegularizationNam Le, Jean-Marc Odobez. 2257-2261 [doi]

Deep Discriminative Embeddings for Duration Robust Speaker VerificationNa Li, Deyi Tuo, Dan Su, Zhifeng Li, Dong Yu. 2262-2266 [doi]

Impact of Different Speech Types on Listening EffortOlympia Simantiraki, Martin Cooke, Simon King. 2267-2271 [doi]

Who Are You Listening to? Towards a Dynamic Measure of Auditory Attention to Speech-on-speechMoïra-Phoebé Huet, Christophe Micheyl, Etienne Gaudrain, Etienne Parizet. 2272-2275 [doi]

Investigating the Role of Familiar Face and Voice Cues in Speech Processing in NoiseJeesun Kim, Sonya Karisma, Vincent Aubanel, Chris Davis 0001. 2276-2279 [doi]

The Conversation Continues: the Effect of Lyrics and Music Complexity of Background Music on Spoken-Word RecognitionOdette Scharenborg, Martha Larson. 2280-2284 [doi]

Loud and Shouted Speech Perception at Variable Distances in a ForestJulien Meyer, Fanny Meunier, Laure Dentel, Noelia Do Carmo Blanco, Frédéric Sèbe. 2285-2289 [doi]

Phoneme Resistance and Phoneme Confusion in Noise: Impact of DyslexiaNoelia Do Carmo Blanco, Julien Meyer, Michel Hoen, Fanny Meunier. 2290-2294 [doi]

Conditional End-to-End Audio TransformsAlbert Haque, Michelle Guo, Prateek Verma. 2295-2299 [doi]

Detection of Glottal Closure Instants in Degraded Speech Using Single Frequency Filtering AnalysisGunnam Aneeja, Sudarsana Reddy Kadiri, Bayya Yegnanarayana. 2300-2304 [doi]

Tone Recognition Using Lifters and CTCLoren Lugosch, Vikrant Singh Tomar. 2305-2309 [doi]

Epoch Extraction from Pathological Children Speech Using Single Pole Filtering ApproachVikram C. M., S. R. Mahadeva Prasanna. 2310-2314 [doi]

Automated Classification of Vowel-Gesture Parameters Using External Broadband ExcitationBalamurali B. T, Jer-Ming Chen. 2315-2318 [doi]

Estimation of Fundamental Frequency from Singing Voice Using Harmonics of Impulse-like Excitation SourceSudarsana Reddy Kadiri, Bayya Yegnanarayana. 2319-2323 [doi]

Investigating the Effect of Audio Duration on Dementia Detection Using Acoustic FeaturesJochen Weiner, Miguel Angrick, Srinivasan Umesh, Tanja Schultz. 2324-2328 [doi]

An Interlocutor-Modulated Attentional LSTM for Differentiating between Subgroups of Autism Spectrum DisorderYun-Shao Lin, Susan Shur-Fen Gau, Chi-Chun Lee. 2329-2333 [doi]

Recognition of Echolalic Autistic Child Vocalisations Utilising Convolutional Recurrent Neural NetworksShahin Amiriparian, Alice Baird, Sahib Julka, Alyssa Alcorn, Sandra Ottl, Suncica Petrovic, Eloise Ainger, Nicholas Cummins, Björn W. Schuller. 2334-2338 [doi]

Modeling Interpersonal Influence of Verbal Behavior in Couples Therapy Dyadic InteractionsSandeep Nallan Chakravarthula, Brian R. Baucom, Panayiotis G. Georgiou. 2339-2343 [doi]

Computational Modeling of Conversational Humor in PsychotherapyAnil Ramakrishna, Timothy Greer, David C. Atkins, Shrikanth Narayanan. 2344-2348 [doi]

Multimodal I-vectors to Detect and Evaluate Parkinson's DiseaseNicanor García, Juan Camilo Vásquez-Correa, Juan Rafael Orozco-Arroyave, Elmar Nöth. 2349-2353 [doi]

Overview of the 2018 Spoken CALL Shared TaskClaudia Baur, Andrew Caines, Cathy Chua, Johanna Gerlach, Mengjie Qian, Manny Rayner, Martin J. Russell, Helmer Strik, Xizi Wei. 2354-2358 [doi]

The CSU-K Rule-Based System for the 2nd Edition Spoken CALL Shared TaskDominik Jülg, Mario Kunstek, Cem Philipp Freimoser, Kay Berkling, Mengjie Qian. 2359-2363 [doi]

Liulishuo's System for the Spoken CALL Shared Task 2018Huy Nguyen, Lei Chen, Ramon Prieto, Chuan Wang, Yang Liu. 2364-2368 [doi]

An Optimization Based Approach for Solving Spoken CALL Shared TaskMohammad Ateeq, Abualsoud Hanani, Aziz Qaroush. 2369-2373 [doi]

The University of Birmingham 2018 Spoken CALL Shared Task SystemsMengjie Qian, Xizi Wei, Peter Jancovic, Martin J. Russell. 2374-2378 [doi]

Improvements to an Automated Content Scoring System for Spoken CALL Responses: the ETS Submission to the Second Spoken CALL Shared TaskKeelan Evanini, Matthew Mulholland, Rutuja Ubale, Yao Qian, Robert A. Pugh, Vikram Ramanarayanan, Aoife Cahill. 2379-2383 [doi]

Extracting Speaker's Gender, Accent, Age and Emotional State from SpeechNagendra Kumar Goel, Mousmita Sarma, Tejendra Kushwah, Dharmesh Agarwal, Zikra Iqbal, Surbhi Chauhan. 2384-2385 [doi]

Determining Speaker Location from Speech in a Practical EnvironmentB. H. V. S. Narayanamurthy, J. V. Satyanarayana, Bayya Yegnanarayana. 2386-2387 [doi]

An Automatic Speech Transcription System for Manipuri LanguageTanvina Patel, Krishna D. N, Noor Fathima, Nisar Shah, Mahima C, Deepak Kumar, Anuroop Iyengar. 2388-2389 [doi]

SPIRE-SST: An Automatic Web-based Self-learning Tool for Syllable Stress Tutoring (SST) to the Second Language LearnersChiranjeevi Yarra, Anand P. A, N. K. Kausthubha, Prasanta Kumar Ghosh. 2390-2391 [doi]

Glotto Vibrato Graph: A Device and Method for Recording, Analysis and Visualization of Glottal ActivityKishalay Chakraborty, Senjam Shantirani Devi, Sanjeevan Devnath, S. R. Mahadeva Prasanna, Priyankoo Sarmah. 2392-2393 [doi]

Multi-Modal Data Augmentation for End-to-end ASRAdithya Renduchintala, Shuoyang Ding, Matthew Wiesner, Shinji Watanabe. 2394-2398 [doi]

Multi-task Learning with Augmentation Strategy for Acoustic-to-word Attention-based Encoder-decoder Speech RecognitionTakafumi Moriya, Sei Ueno, Yusuke Shinohara, Marc Delcroix, Yoshikazu Yamaguchi, Yushi Aono. 2399-2403 [doi]

Training Augmentation with Adversarial Examples for Robust Speech RecognitionSining Sun, Ching-feng Yeh, Mari Ostendorf, Mei-Yuh Hwang, Lei Xie. 2404-2408 [doi]

Data Augmentation Improves Recognition of Foreign Accented SpeechTakashi Fukuda, Raul Fernandez, Andrew Rosenberg, Samuel Thomas, Bhuvana Ramabhadran, Alexander Sorin, Gakuto Kurata. 2409-2413 [doi]

Speaker Adaptive Training and Mixup Regularization for Neural Network Acoustic Models in Automatic Speech RecognitionNatalia A. Tomashenko, Yuri Y. Khokhlov, Yannick Estève. 2414-2418 [doi]

Neural Language Codes for Multilingual Acoustic ModelsMarkus Müller 0001, Sebastian Stüker, Alex Waibel. 2419-2423 [doi]

Encoder Transfer for Attention-based Acoustic-to-word Speech RecognitionSei Ueno, Takafumi Moriya, Masato Mimura, Shinsuke Sakai, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono, Tatsuya Kawahara. 2424-2428 [doi]

Empirical Evaluation of Speaker Adaptation on DNN Based Acoustic ModelKe Wang, Junbo Zhang, Yujun Wang, Lei Xie. 2429-2433 [doi]

Improving DNNs Trained with Non-Native Transcriptions Using Knowledge Distillation and Target InterpolationAmit Das, Mark Hasegawa-Johnson. 2434-2438 [doi]

Improving Cross-Lingual Knowledge Transferability Using Multilingual TDNN-BLSTM with Language-Dependent Pre-Final LayerSiyuan Feng, Tan Lee. 2439-2443 [doi]

Auxiliary Feature Based Adaptation of End-to-end ASR SystemsMarc Delcroix, Shinji Watanabe, Atsunori Ogawa, Shigeki Karita, Tomohiro Nakatani. 2444-2448 [doi]

Leveraging Native Language Information for Improved Accented Speech RecognitionShahram Ghorbani, John H. L. Hansen. 2449-2453 [doi]

Improved Accented Speech Recognition Using Accent Embeddings and Multi-task LearningAbhinav Jain, Minali Upreti, Preethi Jyothi. 2454-2458 [doi]

Fast Language Adaptation Using Phonological InformationSibo Tong, Philip N. Garner, Hervé Bourlard. 2459-2463 [doi]

Naturalness Improvement Algorithm for Reconstructed Glossectomy Patient's Speech Using Spectral Differential Modification in Voice ConversionHiroki Murakami, Sunao Hara, Masanobu Abe, Masaaki Sato, Shogo Minagi. 2464-2468 [doi]

Audio-visual Voice Conversion Using Deep Canonical Correlation Analysis for Deep Bottleneck FeaturesSatoshi Tamura, Kento Horio, Hajime Endo, Satoru Hayamizu, Tomoki Toda. 2469-2473 [doi]

An Investigation of Convolution Attention Based Models for Multilingual Speech Synthesis of Indian LanguagesPallavi Baljekar, Sai Krishna Rallabandi, Alan W. Black. 2474-2478 [doi]

The Effect of Real-Time Constraints on Automatic Speech AnimationDanny Websdale, Sarah Taylor, Ben Milner. 2479-2483 [doi]

Joint Learning of Facial Expression and Head Pose from SpeechDavid Greenwood, Iain Matthews, Stephen D. Laycock. 2484-2488 [doi]

Acoustic-dependent Phonemic Transcription for Text-to-speech SynthesisKevin Vythelingum, Yannick Estève, Olivier Rosec. 2489-2493 [doi]

Multimodal Speech Synthesis Architecture for Unsupervised Speaker AdaptationHieu-Thi Luong, Junichi Yamagishi. 2494-2498 [doi]

Articulatory-to-speech Conversion Using Bi-directional Long Short-term MemoryFumiaki Taguchi, Tokihiko Kaburagi. 2499-2503 [doi]

Implementation of Respiration in Articulatory Synthesis Using a Pressure-Volume Lung ModelKeisuke Tanihara, Shogo Yonekura, Yasuo Kuniyoshi. 2504-2508 [doi]

Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech SynthesisXiao Zhou, Zhen-Hua Ling, Zhi-Ping Zhou, Li-Rong Dai. 2509-2513 [doi]

Deep Metric Learning for the Target Cost in Unit-Selection Speech SynthesizerRuibo Fu, Jianhua Tao, Yibin Zheng, Zhengqi Wen. 2514-2518 [doi]

DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text ConversionKentaro Sone, Toru Nakashika. 2519-2523 [doi]

A Weighted Superposition of Functional Contours Model for Modelling Contextual Prominence of Elementary Prosodic ContoursBranislav Gerazov, Gérard Bailly, Yi Xu. 2524-2528 [doi]

LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term MemoryToru Nakashika. 2529-2533 [doi]

Should Code-switching Models Be Asymmetric?Barbara E. Bullock, Gualberto A. Guzmán, Jacqueline Serigos, Almeida Jacqueline Toribio. 2534-2538 [doi]

Cross-language Perception of Mandarin Lexical Tones by Mongolian-speaking Bilinguals in the Inner Mongolia Autonomous Region, ChinaKimiko Tsukada, Yu Rong. 2539-2543 [doi]

Automatically Measuring L2 Speech Fluency without the Need of ASR: A Proof-of-concept Study with Japanese Learners of FrenchLionel Fontan, Maxime Le Coz, Sylvain Detey. 2544-2548 [doi]

Analysis of L2 Learners' Progress of Distinguishing Mandarin Tone 2 and Tone 3Yue Sun, Win Thuzar Kyaw, Jinsong Zhang, Yoshinori Sagisaka. 2549-2553 [doi]

Unsupervised Discovery of Non-native Phonetic Patterns in L2 English Speech for Mispronunciation Detection and DiagnosisXu Li, Shaoguang Mao, Xixin Wu, Kun Li, Xunying Liu, Helen Meng. 2554-2558 [doi]

Wuxi Speakers' Production and Perception of Coda Nasals in MandarinLei Wang, Jie Cui, Ying Chen. 2559-2562 [doi]

The Diphthongs of Formal Nigerian English: A Preliminary Acoustic AnalysisNatalia Dyrenko, Robert Fuchs. 2563-2567 [doi]

Characterizing Rhythm Differences between Strong and Weak Accented L2 SpeechChris Davis 0001, Jeesun Kim. 2568-2572 [doi]

Analysis of Phone Errors Attributable to Phonological Effects Associated With Language Acquisition Through Bottleneck Feature VisualisationsEva Fringi, Martin J. Russell. 2573-2577 [doi]

Category Similarity in Multilingual Pronunciation TrainingJacques C. Koreman. 2578-2582 [doi]

Talker Diarization in the Wild: the Case of Child-centered Daylong Audio-recordingsAlejandrina Cristià, Shobhana Ganesh, Marisa Casillas, Sriram Ganapathy. 2583-2587 [doi]

Automated Classification of Children's Linguistic versus Non-Linguistic VocalisationsZixing Zhang 0001, Alejandrina Cristià, Anne A. Warlaumont, Björn W. Schuller. 2588-2592 [doi]

Pitch Characteristics of L2 English Speech by Chinese Speakers: A Large-scale StudyJiahong Yuan, Qiusi Dong, Fei Wu, Huan Luan, Xiaofei Yang, Hui Lin, Yang Liu. 2593-2597 [doi]

Dual Language Models for Code Switched Speech RecognitionSaurabh Garg, Tanmay Parekh, Preethi Jyothi. 2598-2602 [doi]

Multilingual Neural Network Acoustic Modelling for ASR of Under-Resourced English-isiZulu Code-Switched SpeechAstik Biswas, Febe de Wet, Ewald van der Westhuizen, Emre Yilmaz, Thomas Niesler. 2603-2607 [doi]

Fast ASR-free and Almost Zero-resource Keyword Spotting Using DTW and CNNs for Humanitarian MonitoringRaghav Menon, Herman Kamper, John Quinn, Thomas Niesler. 2608-2612 [doi]

Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword DetectionMeng Yu, Xuan Ji, Yi Gao, LianWu Chen, Jie Chen, Jimeng Zheng, Dan Su, Dong Yu. 2613-2617 [doi]

Improved ASR for Under-resourced Languages through Multi-task Learning with Acoustic LandmarksDi He, Boon Pang Lim, Xuesong Yang, Mark Hasegawa-Johnson, Deming Chen. 2618-2622 [doi]

Cross-language Phoneme Mapping for Low-resource Languages: An Exploration of Benefits and Trade-offsNick K. Chibuye, Todd Rosenstock, Brian DeRenzi. 2623-2627 [doi]

User-centric Evaluation of Automatic Punctuation in ASR Closed CaptioningMáté Ákos Tündik, György Szaszák, Gábor Gosztolya, András Beke. 2628-2632 [doi]

Punctuation Prediction Model for Conversational SpeechPiotr Zelasko, Piotr Szymanski, Jan Mizgajski, Adrian Szymczak, Yishay Carmiel, Najim Dehak. 2633-2637 [doi]

BUT OpenSAT 2017 Speech Recognition SystemMartin Karafiát, Murali Karthick Baskar, Igor Szöke, Vladimír Malenovský, Karel Veselý, Frantisek Grézl, Lukás Burget, Jan Cernocký. 2638-2642 [doi]

Visual Recognition of Continuous Cued Speech Using a Tandem CNN-HMM ApproachLi Liu, Thomas Hueber, Gang Feng 0002, Denis Beautemps. 2643-2647 [doi]

Building Large-vocabulary Speaker-independent Lipreading SystemsKwanchiva Thangthai, Richard W. Harvey. 2648-2652 [doi]

CRIM's System for the MGB-3 English Multi-Genre Broadcast Media TranscriptionVishwa Gupta, Gilles Boulianne. 2653-2657 [doi]

Sampling Strategies in Siamese Networks for Unsupervised Speech Representation LearningRachid Riad, Corentin Dancette, Julien Karadayi, Neil Zeghidour, Thomas Schatz, Emmanuel Dupoux. 2658-2662 [doi]

Compact Feedforward Sequential Memory Networks for Small-footprint Keyword SpottingMengzhe Chen, Shiliang Zhang, Ming Lei, Yong Liu, Haitao Yao, Jie Gao. 2663-2667 [doi]

Multilingual Bottleneck Features for Subword Modeling in Zero-resource LanguagesEnno Hermann, Sharon Goldwater. 2668-2672 [doi]

Exploiting Speaker and Phonetic Diversity of Mismatched Language Resources for Unsupervised Subword ModelingSiyuan Feng, Tan Lee. 2673-2677 [doi]

Unsupervised Word Segmentation from Speech with AttentionPierre Godard, Marcely Zanon Boito, Lucas Ondel, Alexandre Berard, François Yvon, Aline Villavicencio, Laurent Besacier. 2678-2682 [doi]

Learning Word Embeddings: Unsupervised Methods for Fixed-size Representations of Variable-length Speech SegmentsNils Holzenberger, Mingxing Du, Julien Karadayi, Rachid Riad, Emmanuel Dupoux. 2683-2687 [doi]

Full Bayesian Hidden Markov Model Variational Autoencoder for Acoustic Unit DiscoveryThomas Glarner, Patrick Hanebrink, Janek Ebbers, Reinhold Haeb-Umbach. 2688-2692 [doi]

Unspeech: Unsupervised Speech Context EmbeddingsBenjamin Milde, Chris Biemann. 2693-2697 [doi]

Impact of Aliasing on Deep CNN-Based End-to-End Acoustic ModelsYuan Gong, Christian Poellabauer. 2698-2702 [doi]

Keyword Based Speaker Localization: Localizing a Target Speaker in a Multi-speaker EnvironmentSunit Sivasankaran, Emmanuel Vincent, Dominique Fohr. 2703-2707 [doi]

End-to-End Speech Separation with Unfolded Iterative Phase ReconstructionZhong-qiu Wang, Jonathan Le Roux, DeLiang Wang, John R. Hershey. 2708-2712 [doi]

PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source SeparationNaoya Takahashi, Purvi Agrawal, Nabarun Goswami, Yuki Mitsufuji. 2713-2717 [doi]

Integrating Spectral and Spatial Features for Multi-Channel Speaker SeparationZhong-qiu Wang, DeLiang Wang. 2718-2722 [doi]

DNN Driven Speaker Independent Audio-Visual Mask Estimation for Speech SeparationMandar Gogate, Ahsan Adeel, Ricard Marxer, Jon Barker, Amir Hussain. 2723-2727 [doi]

Exploring Temporal Reduction in Dialectal Spanish: A Large-scale Study of Lenition of Voiced Stops and Coda-sIoana Vasilescu, Nidia Hernandez, Bianca Vieru, Lori Lamel. 2728-2732 [doi]

Dialect-geographical Acoustic-Tonetics: Five Disyllabic Tone Sandhi Patterns in Cognate Words from the Wu Dialects of ZhèJiāNg ProvincePhil Rose. 2733-2737 [doi]

Regional Variation of /r/ in Swiss German DialectsAdrian Leemann, Stephan Schmid, Dieter Studer-Joho, Marie-José Kolly. 2738-2742 [doi]

Variation in the FACE Vowel across West Yorkshire: Implications for Forensic Speaker ComparisonsKate Earnshaw, Erica Gold. 2743-2747 [doi]

The 'West Yorkshire Regional English Database': Investigations into the Generalizability of Reference Populations for Forensic Speaker Comparison CaseworkErica Gold, Sula Ross, Kate Earnshaw. 2748-2752 [doi]

Studying Vowel Variation in French-Algerian Arabic Code-switched SpeechJane Wottawa, Djegdjiga Amazouz, Martine Adda-Decker, Lori Lamel. 2753-2757 [doi]

Fearless Steps: Apollo-11 Corpus Advancements for Speech Technologies from Earth to the MoonJohn H. L. Hansen, Abhijeet Sangwan, Aditya Joglekar, Ahmet Emin Bulut, Lakshmish Kaushik, Chengzhu Yu. 2758-2762 [doi]

A Knowledge Driven Structural Segmentation Approach for Play-Talk Classification During Autism AssessmentManoj Kumar, Pooja Chebolu, So-Hyun Kim, Kassandra Martinez, Catherine Lord, Shrikanth Narayanan. 2763-2767 [doi]

An Open Source Emotional Speech Corpus for Human Robot Interaction ApplicationsJesin James, Li Tian, Catherine Inez Watson. 2768-2772 [doi]

Speech Database and Protocol Validation Using Waveform EntropyItshak Lapidot, Héctor Delgado, Massimiliano Todisco, Nicholas W. D. Evans, Jean-François Bonastre. 2773-2777 [doi]

A French-Spanish Multimodal Speech Communication Corpus Incorporating Acoustic Data, Facial, Hands and Arms Gestures InformationLucas D. Terissi, Gonzalo D. Sad, Mauricio Cerda, Slim Ouni, Rodrigo Galvez, Juan Carlos Gómez, Bernard Girau, Nancy Hitschfeld-Kahler. 2778-2782 [doi]

L2-ARCTIC: A Non-native English Speech CorpusGuanlong Zhao, Sinem Sonsaat, Alif Silpachai, Ivana Lucic, Evgeny Chukharev-Hudilainen, John Levis, Ricardo Gutierrez-Osuna. 2783-2787 [doi]

ZCU-NTIS Speaker Diarization System for the DIHARD 2018 ChallengeZbynek Zajíc, Marie Kunesová, Jan Zelinka, Marek Hrúz. 2788-2792 [doi]

Speaker Diarization with Enhancing Speech for the First DIHARD ChallengeLei Sun, Jun Du, Chao Jiang, Xueyang Zhang, Shan He, Bing Yin, Chin-Hui Lee. 2793-2797 [doi]

BUT System for DIHARD Speech Diarization Challenge 2018Mireia Díez, Federico Landini, Lukás Burget, Johan Rohdin, Anna Silnova, Katerina Zmolíková, Ondrej Novotný, Karel Veselý, Ondrej Glembek, Oldrich Plchot, Ladislav Mosner, Pavel Matejka. 2798-2802 [doi]

Estimation of the Number of Speakers with Variational Bayesian PLDA in the DIHARD Diarization ChallengeIgnacio Viñals, Pablo Gimeno, Alfonso Ortega, Antonio Miguel, Eduardo Lleida. 2803-2807 [doi]

Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD ChallengeGregory Sell, David Snyder, Alan McCree, Daniel Garcia-Romero, Jesús Villalba, Matthew Maciejewski, Vimal Manohar, Najim Dehak, Daniel Povey, Shinji Watanabe, Sanjeev Khudanpur. 2808-2812 [doi]

The EURECOM Submission to the First DIHARD ChallengeJose Patino, Héctor Delgado, Nicholas W. D. Evans. 2813-2817 [doi]

Joint Discriminative Embedding Learning, Speech Activity and Overlap Detection for the DIHARD Speaker Diarization ChallengeValter Akira Miasato Filho, Diego Augusto Silva, Luis Gustavo Depra Cuozzo. 2818-2822 [doi]

Multilingual Grapheme-to-Phoneme Conversion with Global Character VectorsJinfu Ni, Yoshinori Shiga, Hisashi Kawai. 2823-2827 [doi]

A Hybrid Approach to Grapheme to Phoneme Conversion in AssameseSomnath Roy, Shakuntala Mahanta. 2828-2832 [doi]

Investigation of Using Disentangled and Interpretable Representations for One-shot Cross-lingual Voice ConversionSeyed Hamidreza Mohammadi, Taehwan Kim. 2833-2837 [doi]

Using Pupillometry to Measure the Cognitive Load of Synthetic SpeechAvashna Govender, Simon King. 2838-2842 [doi]

Measuring the Cognitive Load of Synthetic Speech Using a Dual Task ParadigmAvashna Govender, Simon King. 2843-2847 [doi]

Attentive Sequence-to-Sequence Learning for Diacritic Restoration of YorùBá Language TextIroro Orife. 2848-2852 [doi]

Gated Convolutional Neural Network for Sentence MatchingPeixin Chen, Wu Guo, Zhi Chen, Jian Sun, Lanhua You. 2853-2857 [doi]

On Training and Evaluation of Grapheme-to-Phoneme Mappings with Limited DataDravyansh Sharma. 2858-2862 [doi]

The Perception and Analysis of the Likeability and Human Likeness of Synthesized SpeechAlice Baird, Emilia Parada-Cabaleiro, Simone Hantke, Felix Burkhardt, Nicholas Cummins, Björn W. Schuller. 2863-2867 [doi]

Word Emphasis Prediction for Expressive Text to SpeechYosi Mass, Slava Shechtman, Moran Mordechay, Ron Hoory, Oren Sar Shalom, Guy Lev, David Konopnicki. 2868-2872 [doi]

A Comparison of Speaker-based and Utterance-based Data Selection for Text-to-Speech SynthesisKai-Zhan Lee, Erica Cooper, Julia Hirschberg. 2873-2877 [doi]

Data Requirements, Selection and Augmentation for DNN-based Speech Synthesis from Crowdsourced DataMarkus Toman, Geoffrey S. Meltzner, Rupal Patel. 2878-2882 [doi]

Lightly Supervised vs. Semi-supervised Training of Acoustic Model on Luxembourgish for Low-resource Automatic Speech RecognitionKarel Veselý, Carlos Segura, Igor Szöke, Jordi Luque, Jan Cernocký. 2883-2887 [doi]

Investigation on the Combination of Batch Normalization and Dropout in BLSTM-based Acoustic Modeling for ASRWenjie Li, Gaofeng Cheng, Fengpei Ge, Pengyuan Zhang, Yonghong Yan 0002. 2888-2892 [doi]

Inference-Invariant Transformation of Batch Normalization for Domain Adaptation of Acoustic ModelsMasayuki Suzuki, Tohru Nagano, Gakuto Kurata, Samuel Thomas. 2893-2897 [doi]

Active Learning for LF-MMI Trained Neural Networks in ASRYanhua Long, Hong Ye, Yijie Li, Jiaen Liang. 2898-2902 [doi]

An Investigation of Mixup Training Strategies for Acoustic Models in ASRIvan Medennikov, Yuri Y. Khokhlov, Aleksei Romanenko, Dmitry Popov, Natalia A. Tomashenko, Ivan Sorokin, Alexander Zatvornitskiy. 2903-2907 [doi]

Comparison of Unsupervised Modulation Filter Learning Methods for ASRPurvi Agrawal, Sriram Ganapathy. 2908-2912 [doi]

Improved Training for Online End-to-end Speech Recognition SystemsSuyoun Kim, Michael L. Seltzer, Jinyu Li, Rui Zhao. 2913-2917 [doi]

Combining Natural Gradient with Hessian Free Methods for Sequence TrainingAdnan Haider, Philip C. Woodland. 2918-2922 [doi]

Lattice-free State-level Minimum Bayes Risk Training of Acoustic ModelsNaoyuki Kanda, Yusuke Fujita, Kenji Nagamatsu. 2923-2927 [doi]

A Study of Enhancement, Augmentation and Autoencoder Methods for Domain Adaptation in Distant Speech RecognitionHao Tang, Wei-Ning Hsu, François Grondin, James R. Glass. 2928-2932 [doi]

Multilingual Deep Neural Network Training Using Cyclical Learning RateAndreas Søeborg Kirkedal, Yeon-Jun Kim. 2933-2937 [doi]

Development of the CUHK Dysarthric Speech Recognition System for the UA Speech CorpusJianwei Yu, Xurong Xie, Shansong Liu, Shoukang Hu, Max W. Y. Lam, Xixin Wu, Ka-Ho Wong, Xunying Liu, Helen Meng. 2938-2942 [doi]

Automatic Evaluation of Speech Intelligibility Based on I-vectors in the Context of Head and Neck CancersImed Laaridh, Corinne Fredouille, Alain Ghio, Muriel Lalain, Virginie Woisard. 2943-2947 [doi]

Dysarthric Speech Recognition Using Convolutional LSTM Neural NetworkMyung Jong Kim, Beiming Cao, Kwanghoon An, Jun Wang 0037. 2948-2952 [doi]

Perceptual and Automatic Evaluations of the Intelligibility of Speech Degraded by Noise Induced Hearing Loss SimulationImed Laaridh, Julien Tardieu, Cynthia Magnen, Pascal Gaillard, Jérôme Farinas, Julien Pinquier. 2953-2957 [doi]

Articulatory Features for ASR of Pathological SpeechEmre Yilmaz, Vikramjit Mitra, Chris Bartels, Horacio Franco. 2958-2962 [doi]

Mining Multimodal Repositories for Speech Affecting DiseasesM. Joana Correia, Bhiksha Raj, Isabel Trancoso, Francisco Teixeira. 2963-2967 [doi]

Long Distance Voice Channel Diagnosis Using Deep Neural NetworksZhen Qin, Tom Ko, Guangjian Tian. 2968-2971 [doi]

Speech Recognition for Medical ConversationsChung-Cheng Chiu, Anshuman Tripathi, Katherine Chou, Chris Co, Navdeep Jaitly, Diana Jaunzeikare, Anjuli Kannan, Patrick Nguyen, Hasim Sak, Ananth Sankar, Justin Tansuwan, Nathan Wan, Yonghui Wu, Xuedong Zhang. 2972-2976 [doi]

Prosodic Focus Acquisition in French Early Cochlear Implanted ChildrenChadi Farah, Stephane Roman, Mariapaola D'Imperio. 2977-2981 [doi]

The Role of Temporal Variation in Narrative OrganizationNassima Fezza. 2982-2986 [doi]

Interaction Mechanisms between Glottal Source and Vocal Tract in Pitch GlidesTiina Murtola, Jarmo Malinen. 2987-2991 [doi]

Relating Articulatory Motions in Different Speaking RatesAstha Singh, G. Nisha Meenakshi, Prasanta Kumar Ghosh. 2992-2996 [doi]

Estimation of the Asymmetry Parameter of the Glottal Flow Waveform Using the Electroglottographic SignalJoão Cabral. 2997-3001 [doi]

Classification of Disorders in Vocal Folds Using Electroglottographic SignalTanumay Mandal, K. Sreenivasa Rao, Sanjay Kumar Gupta. 3002-3006 [doi]

Automatic Glottis Localization and Segmentation in Stroboscopic Videos Using Deep Neural NetworkM. V. Achuth Rao, Rahul Krishnamurthy, Pebbili Gopikishore, Veeramani Priyadharshini, Prasanta Kumar Ghosh. 3007-3011 [doi]

Respiratory and Respiratory Muscular Control in JL1's and JL2's Text Reading Utilizing 4-RSTs and a Soft Respiratory Mask with a Two-Way BulbToshiko Isei-Jaakkola, Keiko Ochi, Keikichi Hirose. 3012-3016 [doi]

A Preliminary Study on Tonal Coarticulation in Continuous SpeechLixia Hao, Wei Zhang, Yanlu Xie, Jinsong Zhang. 3017-3021 [doi]

Speech and Language Processing for Learning and WellbeingHelen Meng. 3022 [doi]

Far-Field Speech Recognition Using Multivariate Autoregressive ModelsSriram Ganapathy, Madhumita Harish. 3023-3027 [doi]

Efficient Implementation of the Room Simulator for Training Deep Neural Network Acoustic ModelsChanwoo Kim, Ehsan Variani, Arun Narayanan, Michiel Bacchiani. 3028-3032 [doi]

Stream Attention for Distributed Multi-Microphone Speech RecognitionXiaofei Wang, Ruizhi Li, Hynek Hermansky. 3033-3037 [doi]

Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural NetworksTakuya Yoshioka, Hakan Erdogan, Zhuo Chen, Xiong Xiao, Fil Alleva. 3038-3042 [doi]

Integrating Neural Network Based Beamforming and Weighted Prediction Error DereverberationLukas Drude, Christoph Böddeker, Jahn Heymann, Reinhold Haeb-Umbach, Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani. 3043-3047 [doi]

A Probability Weighted Beamformer for Noise Robust ASRSuliang Bu, Yunxin Zhao, Mei-Yuh Hwang, Sining Sun. 3048-3052 [doi]

Effects of Dimensional Input on Paralinguistic Information Perceived from Synthesized Dialogue Speech with Neural NetworkMasaki Yokoyama, Tomohiro Nagata, Hiroki Mori. 3053-3056 [doi]

Neural MultiVoice Models for Expressing Novel Personalities in DialogShereen Oraby, Lena Reed, Sharath T. S., Shubhangi Tandon, Marilyn A. Walker. 3057-3061 [doi]

Expressive Speech Synthesis Using Sentiment EmbeddingsIgor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte. 3062-3066 [doi]

Expressive Speech Synthesis via Modeling Expressions with Variational AutoencoderKei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo. 3067-3071 [doi]

Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech SynthesisXixin Wu, Yuewen Cao, Mu Wang, Songxiang Liu, Shiyin Kang, Zhiyong Wu, Xunying Liu, Dan Su, Dong Yu, Helen Meng. 3072-3076 [doi]

EMPHASIS: An Emotional Phoneme-based Acoustic Model for Speech Synthesis SystemHao Li, Yongguo Kang, Zhenyu Wang. 3077-3081 [doi]

Bags in Bag: Generating Context-Aware Bags for Tracking Emotions from SpeechJing Han 0010, Zixing Zhang 0001, Maximilian Schmitt, Zhao Ren, Fabien Ringeval, Björn W. Schuller. 3082-3086 [doi]

An Attention Pooling Based Representation Learning Method for Speech Emotion RecognitionPengcheng Li, Yan Song, Ian Vince McLoughlin, Wu Guo, Lirong Dai. 3087-3091 [doi]

Predicting Arousal and Valence from Waveforms and Spectrograms Using Deep Neural NetworksZixiaofan Yang, Julia Hirschberg. 3092-3096 [doi]

Emotion Identification from Raw Speech Signals Using DNNsMousmita Sarma, Pegah Ghahremani, Daniel Povey, Nagendra Kumar Goel, Kandarpa Kumar Sarma, Najim Dehak. 3097-3101 [doi]

Encoding Individual Acoustic Features Using Dyad-Augmented Deep Variational Representations for Dialog-level Emotion RecognitionJeng-Lin Li, Chi-Chun Lee. 3102-3106 [doi]

Variational Autoencoders for Learning Latent Representations of Speech Emotion: A Preliminary StudySiddique Latif, Rajib Rana, Junaid Qadir, Julien Epps. 3107-3111 [doi]

Phoneme-to-Articulatory Mapping Using Bidirectional Gated RNNThéo Biasutto-Lervat, Slim Ouni. 3112-3116 [doi]

Tongue Segmentation with Geometrically Constrained Snake ModelZhihua Su, Jianguo Wei, Qiang Fang, Jianrong Wang, Kiyoshi Honda. 3117-3121 [doi]

Low Resource Acoustic-to-articulatory Inversion Using Bi-directional Long Short Term MemoryAravind Illa, Prasanta Kumar Ghosh. 3122-3126 [doi]

Automatic Visual Augmentation for Concatenation Based Synthesized Articulatory Videos from Real-time MRI Data for Spoken Language TrainingChandana S, Chiranjeevi Yarra, Ritu Aggarwal, Sanjeev Kumar Mittal, N. K. Kausthubha, Raseena K. T, Astha Singh, Prasanta Kumar Ghosh. 3127-3131 [doi]

Air-Tissue Boundary Segmentation in Real-Time Magnetic Resonance Imaging Video Using Semantic Segmentation with Fully Convolutional NetworksC. A. Valliappan, Renuka Mannem, Prasanta Kumar Ghosh. 3132-3136 [doi]

Noise Robust Acoustic to Articulatory Speech InversionNadee Seneviratne, Ganesh Sivaraman, Vikramjit Mitra, Carol Y. Espy-Wilson. 3137-3141 [doi]

Designing a Pneumatic Bionic Voice Prosthesis - A Statistical Approach for Source Excitation GenerationFarzaneh Ahmadi, Tomoki Toda. 3142-3146 [doi]

A Neural Model to Predict Parameters for a Generalized Command Response Model of IntonationBastian Schnell, Philip N. Garner. 3147-3151 [doi]

Articulation-to-Speech Synthesis Using Articulatory Flesh Point Sensors' Orientation InformationBeiming Cao, Myung Jong Kim, Jun R. Wang, Jan P. H. van Santen, Ted Mau, Jun Wang 0037. 3152-3156 [doi]

Effectiveness of Generative Adversarial Network for Non-Audible Murmur-to-Whisper Speech ConversionNeil Shah, Nirmesh J. Shah, Hemant A. Patil. 3157-3161 [doi]

Investigating Objective Intelligibility in Real-Time EMG-to-Speech ConversionLorenz Diener, Tanja Schultz. 3162-3166 [doi]

Domain-Adversarial Training for Session Independent EMG-based Speech RecognitionMichael Wand, Tanja Schultz, Jürgen Schmidhuber. 3167-3171 [doi]

Multi-Task Learning of Speech Recognition and Speech Synthesis Parameters for Ultrasound-based Silent Speech InterfacesLászló Tóth, Gábor Gosztolya, Tamás Grósz, Alexandra Markó, Tamás Gábor Csapó. 3172-3176 [doi]

Transcription Correction for Indian Languages Using Acoustic SignaturesJeena J. Prakash, Golda Brunet Rajan, Hema A. Murthy. 3177-3181 [doi]

BUT System for Low Resource Indian Language ASRBhargav Pulugundla, Murali Karthick Baskar, Santosh Kesiraju, Ekaterina Egorova, Martin Karafiát, Lukás Burget, Jan Cernocký. 3182-3186 [doi]

DA-IICT/IIITV System for Low Resource Speech Recognition Challenge 2018Hardik B. Sailor, Maddala Venkata Siva Krishna, Diksha Chhabra, Ankur T. Patil, Madhu R. Kamble, Hemant A. Patil. 3187-3191 [doi]

An Exploration towards Joint Acoustic Modeling for Indian Languages: IIIT-H Submission for Low Resource Speech Recognition Challenge for Indian Languages, INTERSPEECH 2018Hari Krishna Vydana, Krishna Gurugubelli, Vishnu Vidyadhara Raju Vegesna, Anil Kumar Vuppala. 3192-3196 [doi]

TDNN-based Multilingual Speech Recognition System for Low Resource Indian LanguagesNoor Fathima, Tanvina Patel, Mahima C, Anuroop Iyengar. 3197-3201 [doi]

Articulatory and Stacked Bottleneck Features for Low Resource Speech RecognitionVishwas M. Shetty, Rini A. Sharon, Basil Abraham, Tejaswi Seeram, Anusha Prakash, Nithya Ravi, S. Umesh. 3202-3206 [doi]

ISI ASR System for the Low Resource Speech Recognition Challenge for Indian LanguagesJayadev Billa. 3207-3211 [doi]

An Automated Assistant for Medical ScribesGregory P. Finley, Erik Edwards, Amanda Robinson 0002, Najmeh Sadoughi, James Fone, Mark Miller 0001, David Suendermann-Oeft, Michael Brenndoerfer, Nico Axtmann. 3212-3213 [doi]

AGROASSAM: A Web Based Assamese Speech Recognition Application for Retrieving Agricultural Commodity Price and Weather InformationAbhishek Dey, Abhash Deka, Siddika Imani, Barsha Deka, Rohit Sinha 0003, S. R. Mahadeva Prasanna, Priyankoo Sarmah, K. Samudravijaya, Nirmala S. R.. 3214-3215 [doi]

Voice-powered Solutions with Cloud AIDan Aharon. 3216 [doi]

Speech Synthesis in the WildGanesh Sivaraman, Parav Nagarsheth, Elie Khoury. 3217-3218 [doi]

Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech EnhancementShuai Nie, Shan Liang, Bin Liu, Yaping Zhang, Wenju Liu, Jianhua Tao. 3219-3223 [doi]

A Deep Neural Network Based Harmonic Noise Model for Speech EnhancementZhiheng Ouyang, Hongjiang Yu, Wei-Ping Zhu, Benoît Champagne. 3224-3228 [doi]

A Convolutional Recurrent Neural Network for Real-Time Speech EnhancementKe Tan, DeLiang Wang. 3229-3233 [doi]

All-Neural Multi-Channel Speech EnhancementZhong-qiu Wang, DeLiang Wang. 3234-3238 [doi]

Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk ScenariosHao Zhang, DeLiang Wang. 3239-3243 [doi]

The Conversation: Deep Audio-Visual Speech EnhancementTriantafyllos Afouras, Joon Son Chung, Andrew Zisserman. 3244-3248 [doi]

Student-Teacher Learning for BLSTM Mask-based Speech EnhancementAswin Shanmugam Subramanian, Szu-Jui Chen, Shinji Watanabe. 3249-3253 [doi]

Speech Enhancement Using Deep Mixture of Experts Based on Hard Expectation MaximizationPavan Karjol, Prasanta Kumar Ghosh. 3254-3258 [doi]

Adversarial Feature-Mapping for Speech EnhancementZhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang Fred Juang. 3259-3263 [doi]

Biophysically-inspired Features Improve the Generalizability of Neural Network-based Speech Enhancement SystemsDeepak Baby, Sarah Verhulst. 3264-3268 [doi]

Error Modeling via Asymmetric Laplace Distribution for Deep Neural Network Based Single-Channel Speech EnhancementLi Chai, Jun Du, Chin-Hui Lee. 3269-3273 [doi]

A Priori SNR Estimation Based on a Recurrent Neural Network for Robust Speech EnhancementYangyang Xia, Richard Stern. 3274-3278 [doi]

Multiple Instance Deep Learning for Weakly Supervised Small-Footprint Audio Event DetectionShao-Yen Tseng, Juncheng Li, Yun Wang 0005, Florian Metze, Joseph Szurley, Samarjit Das. 3279-3283 [doi]

Unsupervised Temporal Feature Learning Based on Sparse Coding Embedded BoAW for Acoustic Event RecognitionLiwen Zhang, Jiqing Han, Shiwen Deng. 3284-3288 [doi]

Data Independent Sequence Augmentation Method for Acoustic Scene ClassificationZhang Teng, Kailai Zhang, Ji Wu. 3289-3293 [doi]

A Compact and Discriminative Feature Based on Auditory Summary Statistics for Acoustic Scene ClassificationHongwei Song, Jiqing Han, Shiwen Deng. 3294-3298 [doi]

ASe: Acoustic Scene Embedding Using Deep Archetypal Analysis and GMMPulkit Sharma, Vinayak Abrol, Anshul Thakur. 3299-3303 [doi]

Deep Convolutional Neural Network with Scalogram for Audio Scene ModelingHangting Chen, Pengyuan Zhang, Haichuan Bai, Qingsheng Yuan, Xiuguo Bao, Yonghong Yan 0002. 3304-3308 [doi]

Time Aggregation Operators for Multi-label Audio Event DetectionPankaj Joshi, Digvijaysingh Gautam, Ganesh Ramakrishnan, Preethi Jyothi. 3309-3313 [doi]

Early Detection of Continuous and Partial Audio Events Using CNNIan Vince McLoughlin, Yan Song, Lam Dang Pham, Ramaswamy Palaniappan, Huy Phan, Yue Lang. 3314-3318 [doi]

Robust Acoustic Event Classification Using Bag-of-Visual-WordsManjunath Mulimani, Shashidhar G. Koolagudi. 3319-3322 [doi]

Wavelet Transform Based Mel-scaled Features for Acoustic Scene ClassificationShefali Waldekar, Goutam Saha. 3323-3327 [doi]

Multi-modal Attention Mechanisms in LSTM and Its Application to Acoustic Scene ClassificationTeng Zhang, Kailai Zhang, Ji Wu. 3328-3332 [doi]

Contextual Language Model Adaptation for Conversational AgentsAnirudh Raju, Behnam Hedayatnia, Linda Liu, Ankur Gandhe, Chandra Khatri, Angeliki Metallinou, Anu Venkatesh, Ariya Rastrow. 3333-3337 [doi]

Active Memory Networks for Language ModelingOscar Chen, Anton Ragni, Mark J. F. Gales, Xie Chen. 3338-3342 [doi]

Unsupervised and Efficient Vocabulary Expansion for Recurrent Neural Network Language Models in ASRYerbolat Khassanov, Eng Siong Chng. 3343-3347 [doi]

Improving Language Modeling with an Adversarial Critic for Automatic Speech RecognitionYike Zhang, Pengyuan Zhang, Yonghong Yan 0002. 3348-3352 [doi]

Training Recurrent Neural Network through Moment Matching for NLP ApplicationsYue Deng, Yilin Shen, KaWai Chen, Hongxia Jin. 3353-3357 [doi]

Investigation on LSTM Recurrent N-gram Language Models for Speech RecognitionZoltán Tüske, Ralf Schlüter, Hermann Ney. 3358-3362 [doi]

Online Incremental Learning for Speaker-Adaptive Language ModelsChih Chi Hu, Bing Liu, John Shen, Ian Lane. 3363-3367 [doi]

Efficient Language Model Adaptation with Noise Contrastive Estimation and Kullback-Leibler RegularizationJesús Andrés-Ferrer, Nathan Bodenstab, Paul Vozila. 3368-3372 [doi]

Recurrent Neural Network Language Model Adaptation for Conversational Speech RecognitionKe Li, Hainan Xu, Yiming Wang, Daniel Povey, Sanjeev Khudanpur. 3373-3377 [doi]

What to Expect from Expected Kneser-Ney SmoothingMichael Levit, Sarangarajan Parthasarathy, Shuangyu Chang. 3378-3382 [doi]

i-Vectors in Language Modeling: An Efficient Way of Domain Adaptation for Feed-Forward ModelsKarel Benes, Santosh Kesiraju, Lukás Burget. 3383-3387 [doi]

How Did You like 2017? Detection of Language Markers of Depression and Narcissism in Personal NarrativesEva-Maria Rathner, Julia Djamali, Yannik Terhorst, Björn W. Schuller, Nicholas Cummins, Gudrun Salamon, Christina Hunger-Schoppe, Harald Baumeister. 3388-3392 [doi]

Depression Detection from Short Utterances via Diverse Smartphones in Natural Environmental ConditionsZhaocheng Huang, Julien Epps, Dale Joachim, Michael Chen. 3393-3397 [doi]

Multi-Lingual Depression-Level Assessment from Conversational Speech Using Acoustic and Text FeaturesYasin Özkanca, Cenk Demiroglu, Asli Besirli, Selime Celik. 3398-3402 [doi]

Dysarthric Speech Classification Using Glottal Features Computed from Non-words, Words and SentencesN. P. Narendra, Paavo Alku. 3403-3407 [doi]

Identifying Schizophrenia Based on Temporal Parameters in Spontaneous SpeechGábor Gosztolya, Anita Bagi, Szilvia Szalóki, István Szendi, Ildikó Hoffmann. 3408-3412 [doi]

Using Prosodic and Lexical Information for Learning Utterance-level Behaviors in PsychotherapyKaran Singla, Zhuohao Chen, Nikolaos Flemotomos, James Gibson, Dogan Can, David C. Atkins, Shrikanth Narayanan. 3413-3417 [doi]

Automatic Speech Assessment for People with Aphasia Using TDNN-BLSTM with Multi-Task LearningYing Qin, Tan Lee, Siyuan Feng, Anthony Pak-Hin Kong. 3418-3422 [doi]

Towards an Unsupervised Entrainment Distance in Conversational Speech Using Deep Neural NetworksMd. Nasir, Brian R. Baucom, Shrikanth Narayanan, Panayiotis G. Georgiou. 3423-3427 [doi]

Patient Privacy in Paralinguistic TasksFrancisco Teixeira, Alberto Abad, Isabel Trancoso. 3428-3432 [doi]

A Lightly Supervised Approach to Detect Stuttering in Children's SpeechSadeen Alharbi, Madina Hasan, Anthony J. H. Simons, Shelagh Brumfitt, Phil D. Green. 3433-3437 [doi]

Learning Conditional Acoustic Latent Representation with Gender and Age Attributes for Automatic Pain Level RecognitionJeng-Lin Li, Yi-Ming Weng, Chip-Jin Ng, Chi-Chun Lee. 3438-3442 [doi]

Speaker and Language Recognition - From Laboratory Technologies to the WildSriram Ganapathy. 3443 [doi]

A Deep Reinforcement Learning Based Multimodal Coaching Model (DCM) for Slot Filling in Spoken Language Understanding(SLU)Yu Wang, Abhishek Patel, Yilin Shen, Hongxia Jin. 3444-3448 [doi]

Is ATIS Too Shallow to Go Deeper for Benchmarking Spoken Language Understanding Models?Frédéric Béchet, Christian Raymond. 3449-3453 [doi]

Robust Spoken Language Understanding via ParaphrasingAvik Ray, Yilin Shen, Hongxia Jin. 3454-3458 [doi]

Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening ComprehensionChia-Hsuan Lee, Szu-Lin Wu, Chi-Liang Liu, Hung-yi Lee. 3459-3463 [doi]

User Information Augmented Semantic Frame Parsing Using Progressive Neural NetworksYilin Shen, Xiangyu Zeng, Yu Wang, Hongxia Jin. 3464-3468 [doi]

An Efficient Approach to Encoding Context for Spoken Language UnderstandingRaghav Gupta, Abhinav Rastogi, Dilek Hakkani-Tür. 3469-3473 [doi]

Deep Speech Denoising with Vector Space ProjectionsJeffrey Hetherly, Paul Gamble, Maria Alejandra Barrios, Cory Stephenson, Karl Ni. 3474-3478 [doi]

A Shifted Delta Coefficient Objective for Monaural Speech Separation Using Multi-task LearningChenglin Xu, Wei Rao, Eng Siong Chng, Haizhou Li 0001. 3479-3483 [doi]

A Two-Stage Approach to Noisy Cochannel Speech Separation with Gated Residual NetworksKe Tan, DeLiang Wang. 3484-3488 [doi]

Monoaural Audio Source Separation Using Variational AutoencodersLaxmi Pandey, Anurendra Kumar, Vinay Namboodiri. 3489-3493 [doi]

Towards Automated Single Channel Source Separation Using Neural NetworksArpita Gang, Pravesh Biyani, Akshay Soni. 3494-3498 [doi]

Investigations on Data Augmentation and Loss Functions for Deep Learning Based Speech-Background SeparationHakan Erdogan, Takuya Yoshioka. 3499-3503 [doi]

Annotator Trustability-based Cooperative Learning Solutions for Intelligent Audio AnalysisSimone Hantke, Christoph Stemp, Björn W. Schuller. 3504-3508 [doi]

Semi-supervised Cross-domain Visual Feature Learning for Audio-Visual Broadcast Speech TranscriptionRongfeng Su, Xunying Liu, Lan Wang. 3509-3513 [doi]

Deep Lip Reading: A Comparison of Models and an Online ApplicationTriantafyllos Afouras, Joon Son Chung, Andrew Zisserman. 3514-3518 [doi]

Iterative Learning of Speech Recognition Models for Air Traffic ControlAjay Srinivasamurthy, Petr Motlícek, Mittul Singh, Youssef Oualil, Matthias Kleinert, Heiko Ehr, Hartmut Helmke. 3519-3523 [doi]

Speaker Adaptive Audio-Visual Fusion for the Open-Vocabulary Section of AVICARLeda Sari, Mark Hasegawa-Johnson, Kumaran S, Georg Stemmer, Krishnakumar N. Nair. 3524-3528 [doi]

Multimodal Name Recognition in Live TV SubtitlingMarek Hrúz, Ales Prazák, Michal Busta. 3529-3532 [doi]

Dithered Quantization for Frequency-Domain Speech and Audio CodingTom Bäckström, Johannes Fischer 0002, Sneha Das. 3533-3537 [doi]

Postfiltering with Complex Spectral Correlations for Speech and Audio CodingSneha Das, Tom Bäckström. 3538-3542 [doi]

Postfiltering Using Log-Magnitude Spectrum for Speech and Audio CodingSneha Das, Tom Bäckström. 3543-3547 [doi]

Temporal Noise Shaping with CompandingArijit Biswas, Per Hedelin, Lars F. Villemoes, Vinay Melkote. 3548-3552 [doi]

Multi-frame Quantization of LSF Parameters Using a Deep Autoencoder and Pyramid Vector QuantizerYaxing Li, Eshete Derb Emiru, Shengwu Xiong, Anna Zhu, Pengfei Duan, Yichang Li. 3553-3557 [doi]

Multi-frame Coding of LSF Parameters Using Block-Constrained Trellis Coded Vector QuantizationYaxing Li, Shan Xu, Shengwu Xiong, Anna Zhu, Pengfei Duan, Yueming Ding. 3558-3562 [doi]

Training Utterance-level Embedding Networks for Speaker Identification and VerificationHeewoong Park, Sukhyun Cho, Kyubyong Park, Namju Kim, Jonghun Park. 3563-3567 [doi]

Analysis of Complementary Information Sources in the Speaker Embeddings FrameworkMahesh Kumar Nandwana, Mitchell McLaren, Diego Castán, Julien van Hout, Aaron Lawson. 3568-3572 [doi]

Self-Attentive Speaker Embeddings for Text-Independent Speaker VerificationYingke Zhu, Tom Ko, David Snyder, Brian Mak, Daniel Povey. 3573-3577 [doi]

An Improved Deep Embedding Learning Method for Short Duration Speaker VerificationZhifu Gao, Yan Song, Ian Vince McLoughlin, Wu Guo, Lirong Dai. 3578-3582 [doi]

Avoiding Speaker Overfitting in End-to-End DNNs Using Raw Waveform for Text-Independent Speaker VerificationJee-weon Jung, Hee-Soo Heo, Il-Ho Yang, Hye-jin Shim, Ha-Jin Yu. 3583-3587 [doi]

Deeply Fused Speaker Embeddings for Text-Independent Speaker VerificationGautam Bhattacharya, Md. Jahangir Alam, Vishwa Gupta, Patrick Kenny. 3588-3592 [doi]

Employing Phonetic Information in DNN Speaker Embeddings to Improve Speaker Recognition PerformanceMd. Hafizur Rahman, Ivan Himawan, Mitchell McLaren, Clinton Fookes, Sridha Sridharan. 3593-3597 [doi]

End-to-end Text-dependent Speaker Verification Using Novel Distance MeasuresSubhadeep Dey, Srikanth R. Madikeri, Petr Motlícek. 3598-3602 [doi]

Robust Speaker Clustering using Mixtures of von Mises-Fisher Distributions for Naturalistic Audio StreamsHarishchandra Dubey, Abhijeet Sangwan, John H. L. Hansen. 3603-3607 [doi]

Triplet Network with Attention for Speaker DiarizationHuan Song, Megan M. Willi, Jayaraman J. Thiagarajan, Visar Berisha, Andreas Spanias. 3608-3612 [doi]

I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker VerificationJiacen Zhang, Nakamasa Inoue, Koichi Shinoda. 3613-3617 [doi]

Analysis of Length Normalization in End-to-End Speaker Verification SystemWeicheng Cai, Jinkun Chen, Ming Li. 3618-3622 [doi]

Angular Softmax for Short-Duration Text-independent Speaker VerificationZili Huang, Shuai Wang, Kai Yu 0004. 3623-3627 [doi]

An End-to-End Text-Independent Speaker Identification System on Short UtterancesRuifang Ji, Xinyuan Cai, Xu Bo. 3628-3632 [doi]

MTGAN: Speaker Verification through Multitasking Triplet Generative Adversarial NetworksWenhao Ding, Liang He. 3633-3637 [doi]

Categorical vs Dimensional Perception of Italian Emotional SpeechEmilia Parada-Cabaleiro, Giovanni Costantini, Anton Batliner, Alice Baird, Björn W. Schuller. 3638-3642 [doi]

A Three-Layer Emotion Perception Model for Valence and Arousal-Based Detection from Multilingual SpeechXingfeng Li, Masato Akagi. 3643-3647 [doi]

Cross-lingual Speech Emotion Recognition through Factor AnalysisBrecht Desplanques, Kris Demuynck. 3648-3652 [doi]

Modeling Self-Reported and Observed Affect from SpeechJian Cheng, Jared Bernstein, Elizabeth Rosenfeld, Peter W. Foltz, Alex S. Cohen, Terje B. Holmlund, Brita Elvevåg. 3653-3657 [doi]

Stochastic Shake-Shake Regularization for Affective Learning from SpeechChe-Wei Huang, Shrikanth Narayanan. 3658-3662 [doi]

Investigating Speech Enhancement and Perceptual Quality for Speech Emotion RecognitionAnderson R. Avila, Md. Jahangir Alam, Douglas D. O'Shaughnessy, Tiago H. Falk. 3663-3667 [doi]

Demonstrating and Modelling Systematic Time-varying Annotator Disagreement in Continuous Emotion AnnotationMia Atcheson, Vidhyasaharan Sethu, Julien Epps. 3668-3672 [doi]

Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss FunctionJian Huang, Ya Li, Jianhua Tao, Zhen Lian. 3673-3677 [doi]

Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies TaskXiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng. 3678-3682 [doi]

Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on SpectrogramsXi Ma, Zhiyong Wu, Jia Jia 0001, Mingxing Xu, Helen Meng, Lianhong Cai. 3683-3687 [doi]

Speech Emotion Recognition Using Spectrogram & Phoneme EmbeddingPromod Yenigalla, Abhay Kumar, Suraj Tripathi, Chirag Singh, Sibsambhu Kar, Jithendra Vepa. 3688-3692 [doi]

On Enhancing Speech Emotion Recognition Using Generative Adversarial NetworksSaurabh Sahu, Rahul Gupta, Carol Y. Espy-Wilson. 3693-3697 [doi]

Ladder Networks for Emotion Recognition: Using Unsupervised Auxiliary Tasks to Improve Predictions of Emotional AttributesSrinivas Parthasarathy, Carlos Busso. 3698-3702 [doi]

Knowledge Distillation for Sequence ModelMingkun Huang, Yongbin You, Zhehuai Chen, Yanmin Qian, Kai Yu 0004. 3703-3707 [doi]

Improving CTC-based Acoustic Model with Very Deep Residual Time-delay Neural NetworksSheng Li 0010, Xugang Lu, Ryoichi Takashima, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. 3708-3712 [doi]

Filter Sampling and Combination CNN (FSC-CNN): A Compact CNN Model for Small-footprint ASR Acoustic Modeling Using Raw WaveformsJinxi Guo, Ning Xu, Xin Chen, Yang Shi, Kaiyuan Xu, Abeer Alwan. 3713-3717 [doi]

Twin Regularization for Online Speech RecognitionMirco Ravanelli, Dmitriy Serdyuk, Yoshua Bengio. 3718-3722 [doi]

Self-Attentional Acoustic ModelsMatthias Sperber, Jan Niehues, Graham Neubig, Sebastian Stüker, Alex Waibel. 3723-3727 [doi]

Hierarchical Recurrent Neural Networks for Acoustic ModelingJinhwan Park, Iksoo Choi, Yoonho Boo, Wonyong Sung. 3728-3732 [doi]

Dictionary Augmented Sequence-to-Sequence Neural Network for Grapheme to Phoneme PredictionAntoine Bruguier, Anton Bakhtin, Dravyansh Sharma. 3733-3737 [doi]

Leveraging Second-Order Log-Linear Model for Improved Deep Learning Based ASR PerformanceAnkit Raj, Shakti P. Rath, Jithendra Vepa. 3738-3742 [doi]

Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural NetworksDaniel Povey, Gaofeng Cheng, Yiming Wang, Ke Li, Hainan Xu, Mahsa Yarmohammadi, Sanjeev Khudanpur. 3743-3747 [doi]

Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio EmbeddingsDa-Rong Liu, Kuan-Yu Chen, Hung-yi Lee, Lin-Shan Lee. 3748-3752 [doi]

Phone Recognition Using a Non-Linear Manifold with Broad Phone Class Dependent DNNsMengjie Qian, Linxue Bai, Peter Jancovic, Martin J. Russell. 3753-3757 [doi]

A Multi-Discriminator CycleGAN for Unsupervised Non-Parallel Speech Domain AdaptationEhsan Hosseini-Asl, Yingbo Zhou, Caiming Xiong, Richard Socher. 3758-3762 [doi]

Interactions between Vowels and Nasal Codas in Mandarin Speakers' Perception of Nasal FinalsChong Cao, Wei Wei, Wei Wang, Yanlu Xie, Jinsong Zhang. 3763-3767 [doi]

Weighting Pitch Contour and Loudness Contour in Mandarin Tone Perception in Cochlear Implant ListenersQinglin Meng, Nengheng Zheng, Ambika Prasad Mishra, Jacinta Dan Luo, Jan W. H. Schnupp. 3768-3771 [doi]

Implementing DIANA to Model Isolated Auditory Word Recognition in EnglishFilip Nenadic, Louis ten Bosch, Benjamin V. Tucker. 3772-3776 [doi]

Effects of Homophone Density on Spoken Word Recognition in Mandarin ChineseBhamini Sharma. 3777-3780 [doi]

Visual Timing Information in Audiovisual Speech Perception: Evidence from Lexical Tone ContourHui Xie, Biao Zeng, Rui Wang. 3781-3785 [doi]

COSMO SylPhon: A Bayesian Perceptuo-motor Model to Assess Phonological LearningMarie-Lou Barnaud, Julien Diard, Pierre Bessière, Jean-Luc Schwartz. 3786-3790 [doi]

Experience-dependent Influence of Music and Language on Lexical Pitch Learning Is Not AdditiveAkshay Raj Maggu, Patrick C. M. Wong, Hanjun Liu, Francis C. K. Wong. 3791-3794 [doi]

Influences of Fundamental Oscillation on Speaker Identification in Vocalic Utterances by Humans and ComputersVolker Dellwo, Thayabaran Kathiresan, Elisa Pellegrino, Lei He, Sandra Schwab, Dieter Maurer. 3795-3799 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Interspeech 2018, 19th Annual Conference of the International Speech Communication Association, Hyderabad, India, 2-6 September 2018

Abstract

Table of Contents