2011 IEEE Workshop on Automatic Speech Recognition & Understanding, ASRU 2011, Waikoloa, HI, USA, December 11-15, 2011 - researchr publication

researchr

You are not signed in
Sign in
Sign up

David Nahamoo, Michael Picheny, editors, 2011 IEEE Workshop on Automatic Speech Recognition & Understanding, ASRU 2011, Waikoloa, HI, USA, December 11-15, 2011. IEEE, 2011. [doi]

Conference: asru2011

Abstract is missing.

A convergence analysis of log-linear training and its application to speech recognitionSimon Wiesler, Ralf Schlüter, Hermann Ney. 1-6 [doi]

Discriminative splitting of Gaussian/log-linear mixture HMMs for speech recognitionMuhammad Ali Tahir, Ralf Schlüter, Hermann Ney. 7-11 [doi]

Frame-level AnyBoost for LVCSR with the MMI CriterionRyuki Tachibana, Takashi Fukuda, Upendra V. Chaudhari, Bhuvana Ramabhadran, Puming Zhan. 12-17 [doi]

Extending noise robust structured support vector machines to larger vocabulary tasksShi-Xiong Zhang, M. J. F. Gales. 18-23 [doi]

Feature engineering in Context-Dependent Deep Neural Networks for conversational speech transcriptionFrank Seide, Gang Li, Xie Chen, Dong Yu. 24-29 [doi]

Making Deep Belief Networks effective for large vocabulary continuous speech recognitionTara N. Sainath, Brian Kingsbury, Bhuvana Ramabhadran, Petr Fousek, Petr Novák, Abdel-rahman Mohamed. 30-35 [doi]

A novel bottleneck-BLSTM front-end for feature-level context modeling in conversational speech recognitionMartin Wöllmer, Björn Schuller, Gerhard Rigoll. 36-41 [doi]

Convolutive Bottleneck Network features for LVCSRKarel Veselý, Martin Karafiát, Frantisek Grézl. 42-47 [doi]

Speaker adaptation based on speaker-dependent eigenphone estimationWen-Lin Zhang, Wei-Qiang Zhang, Bi-Cheng Li. 48-52 [doi]

Sparse Maximum A Posteriori adaptationPeder A. Olsen, Jing Huang, Vaibhava Goel, Steven J. Rennie. 53-58 [doi]

A convex hull approach to sparse representations for exemplar-based speech recognitionTara N. Sainath, David Nahamoo, Dimitri Kanevsky, Bhuvana Ramabhadran, Parikshit M. Shah. 59-64 [doi]

Some properties of Bayesian sensing hidden Markov modelsGeorge Saon, Jen-Tzung Chien. 65-70 [doi]

Don't multiply lightly: Quantifying problems with the acoustic model assumptions in speech recognitionDan Gillick, Larry Gillick, Steven Wegmann. 71-76 [doi]

A factored conditional random field model for articulatory feature forced transcriptionRohit Prabhavalkar, Eric Fosler-Lussier, Karen Livescu. 77-82 [doi]

N-Best rescoring by adaboost phoneme classifiers for isolated word recognitionHiroshi Fujimura, Masanobu Nakamura, Yusuke Shinohara, Takashi Masuko. 83-88 [doi]

Multi-level context-dependent acoustic modeling for automatic speech recognitionHung-An Chang, James R. Glass. 89-94 [doi]

Leveraging large amounts of loosely transcribed corporate videos for acoustic model trainingMatthias Paulik, Panchi Panchapagesan. 95-100 [doi]

An hierarchical exemplar-based sparse model of speech, with an application to ASRJort F. Gemmeke, Hugo Van Hamme. 101-106 [doi]

A Trajectory-based Parallel Model Combination with a unified static and dynamic parameter compensation for noisy speech recognitionKhe Chai Sim, Minh-Thang Luong. 107-112 [doi]

Improving reverberant VTS for hands-free robust speech recognitionYongqiang Wang, M. J. F. Gales. 113-118 [doi]

Derivative kernels for noise robust ASRAnton Ragni, M. J. F. Gales. 119-124 [doi]

A variational perspective on noise-robust speech recognitionRogier C. van Dalen, M. J. F. Gales. 125-130 [doi]

Robust speech recognition using articulatory gestures in a Dynamic Bayesian Network frameworkVikramjit Mitra, Hosung Nam, Carol Y. Espy-Wilson. 131-136 [doi]

Matched-condition robust Dynamic Noise AdaptationSteven J. Rennie, Pierre L. Dognin, Petr Fousek. 137-140 [doi]

Factor analysis based session variability compensation for Automatic Speech RecognitionMickael Rouvier, Mohamed Bouallegue, Driss Matrouf, Georges Linarès. 141-145 [doi]

Factored adaptation for separable compensation of speaker and environmental variabilityMichael L. Seltzer, Alex Acero. 146-151 [doi]

iVector-based discriminative adaptation for automatic speech recognitionMartin Karafiát, Lukás Burget, Pavel Matejka, Ondrej Glembek, Jan Cernocký. 152-157 [doi]

Speaker adaptation with an Exponential TransformDaniel Povey, Geoffrey Zweig, Alex Acero. 158-163 [doi]

Evolutionary discriminative speaker adaptationSid-Ahmed Selouani. 164-168 [doi]

Robust seed model training for speaker adaptation using pseudo-speaker features generated by inverse CMLLR transformationArata Itoh, Sunao Hara, Norihide Kitaoka, Kazuya Takeda. 169-172 [doi]

Bidirectional OM-LSA speech estimator for noise robust speech recognitionYasunari Obuchi, Ryu Takeda, Masahito Togami. 173-178 [doi]

Maximum kurtosis beamforming with a subspace filter for distant speech recognitionKen'ichi Kumatani, John W. McDonough, Bhiksha Raj. 179-184 [doi]

Gain estimation approaches in catalog-based single-channel speech-music separationCemil Demir, Ali Taylan Cemgil, Murat Saraclar. 185-190 [doi]

Designing text corpus using phone-error distribution for acoustic modelingHiroko Murakami, Koichi Shinoda, Sadaoki Furui. 191-195 [doi]

Strategies for training large scale neural network language modelsTomas Mikolov, Anoop Deoras, Daniel Povey, Lukas Burget, Jan Cernocký. 196-201 [doi]

Discriminative reranking of ASR hypotheses with morpholexical and N-best-list featuresHasim Sak, Murat Saraclar, Tunga Gungor. 202-207 [doi]

Minimum Bayes risk discriminative language models for Arabic speech recognitionHong-Kwang Jeff Kuo, Ebru Arisoy, Lidia Mangu, George Saon. 208-213 [doi]

Efficient discriminative training of long-span language modelsAriya Rastrow, Mark Dredze, Sanjeev Khudanpur. 214-219 [doi]

Adapting n-gram maximum entropy language models with conditional entropy regularizationAriya Rastrow, Mark Dredze, Sanjeev Khudanpur. 220-225 [doi]

Randomized maximum entropy language modelsPuyang Xu, Sanjeev Khudanpur, Asela Gunawardana. 226-230 [doi]

Efficient representation and fast look-up of Maximum Entropy language modelsJia Cui, Stanley F. Chen, Bowen Zhou. 231-236 [doi]

Pruning exponential language modelsStanley F. Chen, Abhinav Sethy, Bhuvana Ramabhadran. 237-242 [doi]

Subword-based automatic lexicon learning for Speech RecognitionTimo Mertens, Stephanie Seneff. 243-248 [doi]

An investigation of heuristic, manual and statistical pronunciation derivation for PashtoUpendra V. Chaudhari, Xiaodong Cui, Bowen Zhou, Rong Zhang. 249-253 [doi]

Subword-based multi-span pronunciation adaptation for recognizing accented speechTimo Mertens, Kit Thambiratnam, Frank Seide. 254-259 [doi]

Investigating the role of machine translated text in ASR domain adaptation: Unsupervised and semi-supervised methodsHoria Cucu, Laurent Besacier, Corneliu Burileanu, Andi Buzo. 260-265 [doi]

From Modern Standard Arabic to Levantine ASR: Leveraging GALE for dialectsHagen Soltau, Lidia Mangu, Fadi Biadsy. 266-271 [doi]

The IBM 2011 GALE Arabic speech transcription systemLidia Mangu, Hong-Kwang Kuo, Stephen M. Chu, Brian Kingsbury, George Saon, Hagen Soltau, Fadi Biadsy. 272-277 [doi]

Bag of n-gram driven decoding for LVCSR system harnessingFethi Bougares, Yannick Estève, Paul Deléglise, Georges Linarès. 278-282 [doi]

Efficient determinization of tagged word lattices using categorial and lexicographic semiringsIzhak Shafran, Richard Sproat, Mahsa Yarmohammadi, Brian Roark. 283-288 [doi]

Automatic detection of unnatural word-level segments in unit-selection speech synthesisWilliam Yang Wang, Kallirroi Georgila. 289-294 [doi]

Accent level adjustment in bilingual Thai-English text-to-speech synthesisChai Wutiwiwatchai, Ausdang Thangthai, Ananlada Chotimongkol, Chatchawarn Hansakunbuntheung, Nattanun Thatphithakkul. 295-299 [doi]

Sentiment analysis of text-to-speech input using latent affective mappingJerome R. Bellegarda. 300-305 [doi]

Towards choosing better primes for spoken dialog systemsJosé Lopes, Maxine Eskenazi, Isabel Trancoso. 306-311 [doi]

On-line policy optimisation of spoken dialogue systems via live interaction with human subjectsMilica Gasic, Filip Jurcícek, Blaise Thomson, Kai Yu, Steve Young. 312-317 [doi]

Wizard of Oz evaluation of listening-oriented dialogue control using POMDPToyomi Meguro, Yasuhiro Minami, Ryuichiro Higashinaka, Kohji Dohsaka. 318-323 [doi]

A dialogue system for accessing drug reviewsJingjing Liu, Stephanie Seneff. 324-329 [doi]

Building a conversational model from two-tweetsRyuichiro Higashinaka, Noriaki Kawamae, Kugatsu Sadamitsu, Yasuhiro Minami, Toyomi Meguro, Kohji Dohsaka, Hirohito Inagaki. 330-335 [doi]

Utterance verification using garbage words for a hospital appointment system with speech interfaceMitsuru Takaoka, Hiromitsu Nishizaki, Yoshihiro Sekiguchi. 336-341 [doi]

Bootstrapping a spoken language identification system using unsupervised integrated sensing and processing decision treesShuai Huang, Damianos Karakos, Glen A. Coppersmith, Kenneth Ward Church, Sabato Marco Siniscalchi. 342-347 [doi]

Fast and flexible Kullback-Leibler divergence based acoustic modeling for non-native speech recognitionDavid Imseng, Ramya Rasipuram, Mathew Magimai-Doss. 348-353 [doi]

Strategies for using MLP based features with limited target-language training dataYanmin Qian, Ji Xu, Daniel Povey, Jia Liu. 354-358 [doi]

Study of probabilistic and Bottle-Neck features in multilingual environmentFrantisek Grézl, Martin Karafiát, Milos Janda. 359-364 [doi]

Regularized subspace Gaussian mixture models for cross-lingual speech recognitionLiang Lu, Arnab Ghoshal, Steve Renals. 365-370 [doi]

Cross-lingual portability of Chinese and english neural network features for French and German LVCSRChristian Plahl, Ralf Schlüter, Hermann Ney. 371-376 [doi]

Multi-site heterogeneous system fusions for the Albayzin 2010 Language Recognition EvaluationLuis Javier Rodríguez, Mikel Peñagarikano, Amparo Varona, Mireia Díez, Germán Bordel, David Martínez González, Jesús A. Villalba, Antonio Miguel, Alfonso Ortega, Eduardo Lleida, Alberto Abad, Oscar Koller, Isabel Trancoso, Paula Lopez-Otero, Laura Docío Fernández, Carmen García-Mateo, Rahim Saeidi, Mehdi Soufifar, Tomi Kinnunen, Torbjørn Svendsen, Pasi Fränti. 377-382 [doi]

Improved spoken term detection using support vector machines with acoustic and context features from pseudo-relevance feedbackTsung-wei Tu, Hung-yi Lee, Lin-Shan Lee. 383-388 [doi]

Query modeling for spoken document retrievalBerlin Chen, Pei-Ning Chen, Kuan-Yu Chen. 389-394 [doi]

Topic modeling for spoken documents using only phonetic informationTimothy J. Hazen, Man-Hung Siu, Herbert Gish, Steve Lowe, Arthur Chan. 395-400 [doi]

Efficient spoken term discovery using randomized algorithmsAren Jansen, Benjamin Van Durme. 401-406 [doi]

Estimating document frequencies in a speech corpusDamianos Karakos, Mark Dredze, Ken Ward Church, Aren Jansen, Sanjeev Khudanpur. 407-412 [doi]

Robust understanding of spoken Chinese through character-based tagging and prior knowledge exploitationWeiqun Xu, Changchun Bao, Yali Li, Jielin Pan, YongHong Yan. 413-418 [doi]

Employing web search query click logs for multi-domain spoken language understandingDilek Hakkani-Tür, Gökhan Tür, Larry P. Heck, Asli Çelikyilmaz, Ashley Fidler, Dustin Hillard, Rukmini Iyer, Sarangarajan Parthasarathy. 419-424 [doi]

Exploiting distance based similarity in topic models for user intent detectionAsli Çelikyilmaz, Dilek Hakkani-Tür, Gökhan Tür, Ashley Fidler, Dustin Hillard. 425-430 [doi]

Applying Multiclass Bandit algorithms to call-type classificationLiva Ralaivola, Benoît Favre, Pierre Gotab, Frédéric Béchet, Géraldine Damnati. 431-436 [doi]

Latent semantic analysis for question classification with neural networksBabak Loni, Seyedeh Halleh Khoshnevis, Pascal Wiggers. 437-442 [doi]

Analyzing conversations using rich phrase patternsBin Zhang 0009, Alex Marin, Brian Hutchinson, Mari Ostendorf. 443-448 [doi]

Supervised and unsupervised feature selection for inferring social nature of telephone conversations from their contentAnthony P. Stark, Izhak Shafran, Jeffrey Kaye. 449-454 [doi]

Socio-situational setting classification based on language useYangyang Shi, Pascal Wiggers, Catholijn M. Jonker. 455-460 [doi]

Evaluating prosodic features for automated scoring of non-native read speechKlaus Zechner, Xiaoming Xi, Lei Chen. 461-466 [doi]

Decision of response timing for incremental speech recognition with reinforcement learningDi Lu, Takuya Nishimoto, Nobuaki Minematsu. 467-472 [doi]

Applying feature bagging for more accurate and robust automated speaking assessmentLei Chen. 473-477 [doi]

Detection of persons with Parkinson's disease by acoustic, vocal, and prosodic analysisTobias Bocklet, Elmar Nöth, Georg Stemmer, Hana Ruzickova, Jan Rusz. 478-483 [doi]

Alignment of spoken narratives for automated neuropsychological assessmentEmily Tucker Prud'hommeaux, Brian Roark. 484-489 [doi]

Automatic detection of "g-dropping" in American English using forced alignmentJiahong Yuan, Mark Liberman. 490-493 [doi]

Blind noise suppression for Non-Audible Murmur recognition with stereo signal processingShunta Ishii, Tomoki Toda, Hiroshi Saruwatari, Sakriani Sakti, Satoshi Nakamura. 494-499 [doi]

Detection-based accented speech recognition using articulatory featuresChao Zhang, Yi Liu, Chin-Hui Lee. 500-505 [doi]

Minimum detection error training of subword detectorsAlfonso M. Canterla, Magne Hallstein Johnsen. 506-511 [doi]

Subspace Gaussian Mixture Models for vectorial HMM-states representationMohamed Bouallegue, Driss Matrouf, Mickael Rouvier, Georges Linarès. 512-516 [doi]

A novel neural-based pronunciation modeling method for robust speech recognitionGuangpu Huang, Meng Joo Er. 517-522 [doi]

Unsupervised learning in cross-corpus acoustic emotion recognitionZixing Zhang, Felix Weninger, Martin Wöllmer, Björn Schuller. 523-528 [doi]

Model-based parametric features for emotion recognition from speechSankaranarayanan Ananthakrishnan, Aravind Namandi Vembu, Rohit Prasad. 529-534 [doi]

Crowd-sourcing for difficult transcription of speechJason D. Williams, I. Dan Melamed, Tirso Alonso, Barbara Hollister, Jay G. Wilpon. 535-540 [doi]

Detection of precisely transcribed parts from inexact transcribed corpusKengo Ohta, Masatoshi Tsuchiya, Seiichi Nakagawa. 541-546 [doi]

Multi-taper MFCC features for speaker verification using I-vectorsMd. Jahangir Alam, Tomi Kinnunen, Patrick Kenny, Pierre Ouellet, Douglas D. O'Shaughnessy. 547-552 [doi]

Fast speaker diarization using a high-level scripting languageEkaterina Gonina, Gerald Friedland, Henry Cook, Kurt Keutzer. 553-558 [doi]

Linear versus mel frequency cepstral coefficients for speaker recognitionXinhui Zhou, Daniel Garcia-Romero, Ramani Duraiswami, Carol Y. Espy-Wilson, Shihab A. Shamma. 559-564 [doi]

runs on WebDSL