2015 IEEE Workshop on Automatic Speech Recognition and Understanding, ASRU 2015, Scottsdale, AZ, USA, December 13-17, 2015

researchr

You are not signed in
Sign in
Sign up

2015 IEEE Workshop on Automatic Speech Recognition and Understanding, ASRU 2015, Scottsdale, AZ, USA, December 13-17, 2015. IEEE, 2015. [doi]

Conference: asru2015

Abstract is missing.

Different word representations and their combination for proper name retrieval from diachronic documentsIrina Illina, Dominique Fohr. 1-7 [doi]

Sparse non-negative matrix language modeling for geo-annotated query session dataCiprian Chelba, Noam Shazeer. 8-14 [doi]

Training data pseudo-shuffling and direct decoding framework for recurrent neural network based acoustic modelingNaoyuki Kanda, Mitsuyoshi Tachimori, Xugang Lu, Hisashi Kawai. 15-21 [doi]

On constructing and analysing an interpretable brain model for the DNN based on hidden activity patternsKhe Chai Sim. 22-29 [doi]

Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveformsTara N. Sainath, Ron J. Weiss, Kevin W. Wilson, Arun Narayanan, Michiel Bacchiani, Andrew W. Senior. 30-36 [doi]

Hybrid DNN-Latent structured SVM acoustic models for continuous speech recognitionSuman V. Ravuri. 37-44 [doi]

Discriminative training of context-dependent language model scaling factors and interpolation weightsShuangyu Chang, Abhik Lahiri, Issac Alphonso, Barlas Oguz, Michael Levit, Benoît Dumoulin. 45-51 [doi]

Acoustic model training based on node-wise weight boundary model increasing speed of discrete neural networksRyu Takeda, Kazunori Komatani, Kazuhiro Nakadai. 52-58 [doi]

Two-stage ASGD framework for parallel training of DNN acoustic models using EthernetZhichao Wang, Xingyu Na, Xin Li, Jielin Pan, Yonghong Yan 0002. 59-64 [doi]

RNNDROP: A novel dropout for RNNS in ASRTaesup Moon, Heeyoul Choi, Hoshik Lee, Inchul Song. 65-70 [doi]

Spectral learning with non negative probabilities for finite state automatonHadrien Glaude, Cyrille Enderli, Olivier Pietquin. 71-77 [doi]

Deep bi-directional recurrent networks over spectral windowsAbdel-rahman Mohamed, Frank Seide, Dong Yu, Jasha Droppo, Andreas Stoicke, Geoffrey Zweig, Gerald Penn. 78-83 [doi]

Personalizing universal recurrent neural network language model with user characteristic features by social network crowdsourcingBo-Hsiang Tseng, Hung-yi Lee, Lin-Shan Lee. 84-91 [doi]

Time delay deep neural network-based universal background models for speaker recognitionDavid Snyder, Daniel Garcia-Romero, Daniel Povey. 92-97 [doi]

Automatic prosody prediction for Chinese speech synthesis using BLSTM-RNN and embedding featuresChuang Ding, Lei Xie, Jie Yan, Weini Zhang, Yang Liu. 98-102 [doi]

Naturalness and rapport in a pitch adaptive learning companionNichola Lubold, Heather Pon-Barry, Erin Walker. 103-110 [doi]

Learning continuous representation of text for phone duration modeling in statistical parametric speech synthesisSai Krishna Rallabandi, Sai Sirisha Rallabandi, Padmini Bandi, Suryakanth V. Gangashetty. 111-115 [doi]

Speaker intonation adaptation for transforming text-to-speech synthesis speaker identityMahsa Sadat Elyasi Langarani, Jan P. H. van Santen. 116-123 [doi]

Investigating sparse deep neural networks for speech recognitionGueorgui Pironkov, Stéphane Dupont, Thierry Dutoit. 124-129 [doi]

Latent Dirichlet Allocation based organisation of broadcast media archives for deep neural network adaptationMortaza Doulaty, Oscar Saz, Raymond W. M. Ng, Thomas Hain. 130-136 [doi]

Towards structured deep neural network for automatic speech recognitionYi-Hsiu Liao, Hung-yi Lee, Lin-Shan Lee. 137-144 [doi]

Learning factorized feature transforms for speaker normalizationLahiru Samarakoon, Khe Chai Sim. 145-152 [doi]

Improving data selection for low-resource STT and KWSThiago Fraga-Silva, Antoine Laurent, Jean-Luc Gauvain, Lori Lamel, Viet Bac Le, Abdelkhalek Messaoudi. 153-159 [doi]

Structured discriminative models using deep neural-network featuresRogier C. van Dalen, Jingzhou Yang, Haipeng Wang, Anton Ragni, Chao Zhang, Mark J. F. Gales. 160-166 [doi]

EESEN: End-to-end speech recognition using deep RNN models and WFST-based decodingYajie Miao, Mohammad Gowayyed, Florian Metze. 167-174 [doi]

Stochastic Gradient Variational Bayes for deep learning-based ASRAndros Tjandra, Sakriani Sakti, Satoshi Nakamura, Mirna Adriani. 175-180 [doi]

Investigation of back-off based interpolation between recurrent neural network and n-gram language modelsXie Chen, Xunying Liu, Mark J. F. Gales, Philip C. Woodland. 181-186 [doi]

LSTM time and frequency recurrence for automatic speech recognitionJinyu Li, Abdelrahman Mohamed, Geoffrey Zweig, Yifan Gong. 187-191 [doi]

Incorporating user feedback to re-rank keyword search resultsScott Novotney, Kevin Jett, Owen Kimball. 192-199 [doi]

Combination of syllable based N-gram search and word search for spoken term detection through spoken queries and IV/OOV classificationNagisa Sakamoto, Kazumasa Yamamoto, Seiichi Nakagawa. 200-206 [doi]

Incorporating paragraph embeddings and density peaks clustering for spoken document summarizationKuan-Yu Chen, Kai-Wun Shih, Shih-Hung Liu, Berlin Chen, Hsin-Min Wang. 207-214 [doi]

High-performance Swahili keyword search with very limited language pack: The THUEE system for the OpenKWS15 evaluationMeng Cai, Zhiqiang Lv, Cheng Lu, Jian Kang, Like Hui, Zhuo Zhang, Jia Liu. 215-222 [doi]

Phonetic unit selection for cross-lingual query-by-example spoken term detectionPaula Lopez-Otero, Laura Docío Fernández, Carmen García-Mateo. 223-229 [doi]

Improved system fusion for keyword searchZhiqiang Lv, Meng Cai, Cheng Lu, Jian Kang, Like Hui, Wei-Qiang Zhang, Jia Liu. 230-236 [doi]

Deep multimodal semantic embeddings for speech and imagesDavid F. Harwath, James R. Glass. 237-244 [doi]

An iterative deep learning framework for unsupervised discovery of speech features and linguistic units with applications on spoken term detectionCheng-Tao Chung, Cheng-Yu Tsai, Hsiang-Hung Lu, Chia-Hsiang Liu, Hung-yi Lee, Lin-Shan Lee. 245-251 [doi]

Incremental sentence compression using LSTM recurrent networksSakriani Sakti, Faiz Ilham, Graham Neubig, Tomoki Toda, Ayu Purwarianti, Satoshi Nakamura. 252-258 [doi]

Multilingual representations for low resource speech recognition and keyword searchJia Cui, Brian Kingsbury, Bhuvana Ramabhadran, Abhinav Sethy, Kartik Audhkhasi, Xiaodong Cui, Ellen Kislal, Lidia Mangu, Markus Nußbaum-Thom, Michael Picheny, Zoltán Tüske, Pavel Golik, Ralf Schlüter, Hermann Ney, Mark J. F. Gales, Kate M. Knill, Anton Ragni, Haipeng Wang, Philip C. Woodland. 259-266 [doi]

Spoken language translation graphs re-decoding using automatic quality assessmentLaurent Besacier, Benjamin Lecouteux, Ngoc-Quang Luong, Ngoc-Tien Le. 267-274 [doi]

The DIRHA-ENGLISH corpus and related tasks for distant-speech recognition in domestic environmentsMirco Ravanelli, Luca Cristoforetti, Roberto Gretter, Marco Pellin, Alessandro Sosi, Maurizio Omologo. 275-282 [doi]

Uncertainty estimation of DNN classifiersSri Harish Reddy Mallidi, Tetsuji Ogawa, Hynek Hermansky. 283-288 [doi]

Towards utterance-based neural network adaptation in acoustic modelingIvan Himawan, Petr Motlícek, Marc Ferras Font, Srikanth R. Madikeri. 289-295 [doi]

Phonetically-oriented word error alignment for speech recognition error analysis in speech translationNicholas Ruiz, Marcello Federico. 296-302 [doi]

Utterance classification in speech-to-speech translation for zero-resource languages in the hospital administration domainLara J. Martin, Andrew Wilkinson, Sai Sumanth Miryala, Vivian Robison, Alan W. Black. 303-309 [doi]

Multi-task joint-learning of deep neural networks for robust speech recognitionYanmin Qian, Maofan Yin, Yongbin You, Kai Yu. 310-316 [doi]

Time-frequency convolutional networks for robust speech recognitionVikramjit Mitra, Horacio Franco. 317-323 [doi]

Name-aware language model adaptation and sparse features for statistical machine translationWen Wang, Haibo Li, Heng Ji. 324-330 [doi]

An i-Vector PLDA based gender identification approach for severely distorted and multilingual DARPA RATS dataShivesh Ranjan, Gang Liu, John H. L. Hansen. 331-337 [doi]

Using bidirectional lstm recurrent neural networks to learn high-level abstractions of sequential features for automated scoring of non-native spontaneous speechZhou Yu, Vikram Ramanarayanan, David Suendermann-Oeft, Xinhao Wang, Klaus Zechner, Lei Chen 0004, Jidong Tao, Aliaksei Ivanou, Yao Qian. 338-345 [doi]

Topic-space based setup of a neural network for theme identification of highly imperfect transcriptionsMohamed Morchid, Richard Dufour, Georges Linarès. 346-352 [doi]

Semi-supervised slot tagging in spoken language understanding using recurrent transductive support vector machinesYangyang Shi, Kaisheng Yao, Hu Chen, Yi-Cheng Pan, Mei-Yuh Hwang. 353-360 [doi]

A universal model for flexible item selection in conversational dialogsAsli Çelikyilmaz, Zhaleh Feizollahi, Dilek Z. Hakkani-Tür, Ruhi Sarikaya. 361-367 [doi]

A comparative study of neural network models for lexical intent classificationSuman V. Ravuri, Andreas Stolcke. 368-374 [doi]

Detecting actionable items in meetings by convolutional deep structured semantic modelsYun-Nung Chen, Dilek Hakkani-Tür, Xiaodong He. 375-382 [doi]

Multimodal embedding fusion for robust speaker role recognition in video broadcastMickael Rouvier, Sebastien Delecraz, Benoît Favre, Meriem Bendris, Frédéric Béchet. 383-389 [doi]

Recent improvements to NeuroCRFs for named entity recognitionMarc-Antoine Rondeau, Yi Su. 390-396 [doi]

Natural language understanding for partial queriesXiaohu Liu, Asli Çelikyilmaz, Ruhi Sarikaya. 397-400 [doi]

Adaptive beamforming and adaptive training of DNN acoustic models for enhanced multichannel noisy speech recognitionAlexey Prudnikov, Maxim Korenevsky, Sergei Aleinik. 401-408 [doi]

Boosted acoustic model learning and hypotheses rescoring on the CHiME-3 taskShahab Jalalvand, Daniele Falavigna, Marco Matassoni, Piergiorgio Svaizer, Maurizio Omologo. 409-415 [doi]

Unified ASR system using LGM-based source separation, noise-robust feature extraction, and word hypothesis selectionYusuke Fujita, Ryoichi Takashima, Takeshi Homma, Rintaro Ikeshita, Yohei Kawaguchi, Takashi Sumiyoshi, Takashi Endo, Masahito Togami. 416-422 [doi]

Speech enhancement using beamforming and non negative matrix factorization for robust speech recognition in the CHiME-3 challengeThanh T. Vu, Benjamin Bigot, Engsiong Chng. 423-429 [doi]

An information fusion approach to recognizing microphone array speech in the CHiME-3 challenge based on a deep learning frameworkJun Du, Qing Wang, Yanhui Tu, Xiao-bao, Li-Rong Dai, Chin-Hui Lee. 430-435 [doi]

The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devicesTakuya Yoshioka, Nobutaka Ito, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Masakiyo Fujimoto, Chengzhu Yu, Wojciech J. Fabian, Miquel Espi, Takuya Higuchi, Shoko Araki, Tomohiro Nakatani. 436-443 [doi]

BLSTM supported GEV beamformer front-end for the 3RD CHiME challengeJahn Heymann, Lukas Drude, Aleksej Chinaev, Reinhold Haeb-Umbach. 444-451 [doi]

Multi-channel speech processing architectures for noise robust speech recognition: 3rd CHiME challenge resultsLukas Pfeifenberger, Tobias Schrank, Matthias Zöhrer, Martin Hagmüller, Franz Pernkopf. 452-459 [doi]

Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reductionShengkui Zhao, Xiong Xiao, Zhaofeng Zhang, Thi Ngoc Tho Nguyen, Xionghu Zhong, Bo Ren, Longbiao Wang, Douglas L. Jones, Engsiong Chng, Haizhou Li. 460-467 [doi]

A CHiME-3 challenge system: Long-term acoustic features for noise robust automatic speech recognitionNiko Moritz, Stephan Gerlach, Kamil Adiloglu, Jörn Anemüller, Birger Kollmeier, Stefan Goetze. 468-474 [doi]

The MERL/SRI system for the 3RD CHiME challenge using beamforming, robust feature extraction, and advanced speech recognitionTakaaki Hori, Zhuo Chen, Hakan Erdogan, John R. Hershey, Jonathan Le Roux, Vikramjit Mitra, Shinji Watanabe. 475-481 [doi]

Robust ASR using neural network based speech enhancement and feature simulationSunit Sivasankaran, Aditya Arie Nugraha, Emmanuel Vincent, Juan Andres Morales-Cordovilla, Siddharth Dalmia, Irina Illina, Antoine Liutkus. 482-489 [doi]

Exploiting synchrony spectra and deep neural networks for noise-robust automatic speech recognitionNing Ma, Ricard Marxer, Jon Barker, Guy J. Brown. 490-495 [doi]

Combining spectral feature mapping and multi-channel model-based source separation for noise-robust automatic speech recognitionDeblin Bagchi, Michael I. Mandel, Zhongqiu Wang, Yanzhang He, Andrew R. Plummer, Eric Fosler-Lussier. 496-503 [doi]

The third 'CHiME' speech separation and recognition challenge: Dataset, task and baselinesJon Barker, Ricard Marxer, Emmanuel Vincent, Shinji Watanabe. 504-511 [doi]

Analysis of factors affecting system performance in the ASpIRE challengeJennifer Melot, Nicolas Malyska, Jessica Ray, Wade Shen. 512-517 [doi]

Single and multi-channel approaches for distant speech recognition under noisy reverberant conditions: I2R'S system description for the ASpIRE challengeJonathan William Dennis, Tran Huy Dat. 518-524 [doi]

Improving robustness against reverberation for automatic speech recognitionVikramjit Mitra, Julien van Hout, Wen Wang, Martin Graciarena, Mitchell McLaren, Horacio Franco, Dimitra Vergyri. 525-532 [doi]

Robust speech recognition in unknown reverberant and noisy conditionsRoger Hsiao, Jeff Z. Ma, William Hartmann, Martin Karafiát, Frantisek Grézl, Lukás Burget, Igor Szöke, Jan Cernocký, Shinji Watanabe, Zhuo Chen, Sri Harish Reddy Mallidi, Hynek Hermansky, Stavros Tsakalidis, Richard M. Schwartz. 533-538 [doi]

JHU ASpIRE system: Robust LVCSR with TDNNS, iVector adaptation and RNN-LMSVijayaditya Peddinti, Guoguo Chen, Vimal Manohar, Tom Ko, Daniel Povey, Sanjeev Khudanpur. 539-546 [doi]

The Automatic Speech recogition In Reverberant Environments (ASpIRE) challengeMary Harper. 547-554 [doi]

Deep bottleneck features for i-vector based text-independent speaker verificationSina Hamidi Ghalehjegh, Richard C. Rose. 555-560 [doi]

Discriminative segmental cascades for feature-rich phone recognitionHao Tang, Weiran Wang, Kevin Gimpel, Karen Livescu. 561-568 [doi]

Hilbert spectral analysis of vowels using intrinsic mode functionsSteven Sandoval, Phillip L. De Leon, Julie M. Liss. 569-575 [doi]

Multi-reference WER for evaluating ASR for languages with no orthographic rulesAhmed M. Ali, Walid Magdy, Peter Bell 0001, Steve Renals. 576-580 [doi]

Acoustic modeling with neural graph embeddingsYuzong Liu, Katrin Kirchhoff. 581-588 [doi]

Multitask learning and system combination for automatic speech recognitionOlivier Siohan, David Rybach. 589-595 [doi]

Speaker adaptive joint training of Gaussian mixture models and bottleneck featuresZoltán Tüske, Pavel Golik, Ralf Schlüter, Hermann Ney. 596-603 [doi]

Acoustic modelling with CD-CTC-SMBR LSTM RNNSAndrew W. Senior, Hasim Sak, Felix de Chaumont Quitry, Tara N. Sainath, Kanishka Rao. 604-609 [doi]

Automation of system building for state-of-the-art large vocabulary speech recognition using evolution strategyTakafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh. 610-616 [doi]

Improving the interpretability of deep neural networks with stimulated learningShawn Tan, Khe Chai Sim, Mark J. F. Gales. 617-623 [doi]

The 2015 sheffield system for transcription of Multi-Genre Broadcast mediaOscar Saz, Mortaza Doulaty, Salil Deena, Rosanna Milner, Raymond W. M. Ng, Madina Hasan, Yulan Liu, Thomas Hain. 624-631 [doi]

The 2015 sheffield system for longitudinal diarisation of broadcast mediaRosanna Milner, Oscar Saz, Salil Deena, Mortaza Doulaty, Raymond W. M. Ng, Thomas Hain. 632-638 [doi]

Cambridge university transcription systems for the multi-genre broadcast challengePhilip C. Woodland, Xunying Liu, Yanmin Qian, Chao Zhang, Mark J. F. Gales, Penny Karanasou, Pierre Lanchantin, Linlin Wang. 639-646 [doi]

The development of the cambridge university alignment systems for the multi-genre broadcast challengePierre Lanchantin, Mark J. F. Gales, Penny Karanasou, Xunying Liu, Yanmin Qian, Linlin Wang, Philip C. Woodland, Chao Zhang. 647-653 [doi]

The NAIST ASR system for the 2015 Multi-Genre Broadcast challenge: On combination of deep learning systems using a rank-score functionQuoc Truong Do, Michael Heck, Sakriani Sakti, Graham Neubig, Tomoki Toda, Satoshi Nakamura. 654-659 [doi]

Speaker diarisation and longitudinal linking in multi-genre broadcast dataPenny Karanasou, Mark J. F. Gales, Pierre Lanchantin, Xunying Liu, Yanmin Qian, Linlin Wang, Philip C. Woodland, Chao Zhang. 660-666 [doi]

Variational Bayesian PLDA for speaker diarization in the MGB challengeJesús A. Villalba, Alfonso Ortega, Antonio Miguel, Eduardo Lleida. 667-674 [doi]

A system for automatic alignment of broadcast media captions using weighted finite-state transducersPeter Bell 0001, Steve Renals. 675-680 [doi]

CRIM and LIUM approaches for multi-genre broadcast media transcriptionVishwa Gupta, Paul Deléglise, Gilles Boulianne, Yannick Estève, Sylvain Meignier, Anthony Rousseau. 681-686 [doi]

The MGB challenge: Evaluating multi-genre broadcast media recognitionPeter Bell 0001, Mark J. F. Gales, Thomas Hain, Jonathan Kilgour, Pierre Lanchantin, Xunying Liu, Andrew McParland, Steve Renals, Oscar Saz, Mirjam Wester, Philip C. Woodland. 687-693 [doi]

Incremental LSTM-based dialog state trackerLukás Zilka, Filip Jurcícek. 757-762 [doi]

Multi-domain dialogue success classifiers for policy trainingDavid Vandyke, Pei-hao Su, Milica Gasic, Nikola Mrksic, Tsung-Hsien Wen, Steve J. Young. 763-770 [doi]

Open-domain personalized dialog system using user-interested topics in system responsesJeesoo Bang, Sangdo Han, Kyusong Lee, Gary Geunbae Lee. 771-776 [doi]

A study of social-affective communication: Automatic prediction of emotion triggers and responses in television talk showsNurul Lubis, Sakriani Sakti, Graham Neubig, Koichiro Yoshino, Tomoki Toda, Satoshi Nakamura. 777-783 [doi]

Adaptive selection from multiple response candidates in example-based dialogueMasahiro Mizukami, Hideaki Kizuki, Toshio Nomura, Graham Neubig, Koichiro Yoshino, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura. 784-790 [doi]

Optimizing human-interpretable dialog management policy using genetic algorithmHang Ren, Weiqun Xu, Yonghong Yan 0002. 791-797 [doi]

Implementation of generic positive-negative tracker in extensible dialog systemSangjun Koo, Seonghan Ryu, Gary Geunbae Lee. 798-805 [doi]

Policy committee for adaptation in multi-domain spoken dialogue systemsMilica Gasic, Nikola Mrksic, Pei-hao Su, David Vandyke, Tsung-Hsien Wen, Steve J. Young. 806-812 [doi]

Applying deep learning to answer selection: A study and an open taskMinwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou. 813-820 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

2015 IEEE Workshop on Automatic Speech Recognition and Understanding, ASRU 2015, Scottsdale, AZ, USA, December 13-17, 2015

Abstract

Table of Contents