IEEE Workshop on Automatic Speech Recognition & Understanding, ASRU 2007, Kyoto, Japan, December 9-13, 2007 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Sadaoki Furui, Tatsuya Kawahara, editors, IEEE Workshop on Automatic Speech Recognition & Understanding, ASRU 2007, Kyoto, Japan, December 9-13, 2007. IEEE, 2007. [doi]

Conference: asru2007

Abstract is missing.

Roles of high-fidelity acoustic modeling in robust speech recognitionLi Deng. 1-13 [doi]

Interpolation of lost speech segments using LP-HNM model with codebook-mapping post-processingEsfandiar Zavarehei, Saeed Vaseghi. 14-18 [doi]

Speech enhancement using PCA and variance of the reconstruction error in distributed speech recognitionAmin Haji Abolhassani, Sid-Ahmed Selouani, Douglas D. O'Shaughnessy. 19-23 [doi]

Development of a phonetic system for large vocabulary Arabic speech recognitionMark J. F. Gales, Frank Diehl, Chandra Kant Raut, Marcus Tomalin, Philip C. Woodland, Kai Yu. 24-29 [doi]

Factor analysis of acoustic features for streamed hidden Markov modelingChuan-Wei Ting, Jen-Tzung Chien. 30-35 [doi]

Monolingual and crosslingual comparison of tandem features derived from articulatory and phone MLPSÖzgür Çetin, Mathew Magimai-Doss, Karen Livescu, Arthur Kantor, Simon King, Chris D. Bartels, Joe Frankel. 36-41 [doi]

Incorporating the voicing information into HMM-based automatic speech recognitionPeter Jancovic, Münevver Köküer. 42-46 [doi]

Exploiting complementary aspects of phonological features in automatic speech recognitionParya Momayyez, James Waterhouse, Richard Rose. 47-52 [doi]

Robust speech recognition using noise suppression based on multiple composite models and multi-pass searchTakatoshi Jitsuhiro, Tomoji Toriyama, Kiyoshi Kogure. 53-58 [doi]

Predictive linear transforms for noise robust speech recognitionMark J. F. Gales, Rogier C. van Dalen. 59-64 [doi]

High-performance hmm adaptation with joint compensation of additive and convolutive distortions via Vector Taylor SeriesJinyu Li, Li Deng, Dong Yu, Yifan Gong, Alex Acero. 65-70 [doi]

Minimum mutual information beamforming for simultaneous active speakersKen'ichi Kumatani, Uwe Mayer, Tobias Gehrig, Emilian Stoimenov, John W. McDonough, Matthias Wölfel. 71-76 [doi]

Two extensions to ensemble speaker and speaking environment modeling for robust automatic speech recognitionYu Tsao, Chin-Hui Lee. 77-80 [doi]

Modulation spectrum equalization for robust speech recognitionLiang-Che Sun, Chang-Wen Hsu, Lin-Shan Lee. 81-86 [doi]

Investigating the use of speech features and their corresponding distribution characteristics for robust speech recognitionShih-Hsiang Lin, Yao-Ming Yeh, Berlin Chen. 87-92 [doi]

Joint decoding of multiple speech patterns for robust speech recognitionNishanth Ulhas Nair, T. V. Sreenivas. 93-98 [doi]

Robust speech recognition by properly utilizing reliable frames and segments in corrupted signalsYi Chen, Chia-Yu Wan, Lin-Shan Lee. 99-104 [doi]

Robust speech recognition with on-line unsupervised acoustic feature compensationLuis Buera, Antonio Miguel, Eduardo Lleida, Oscar Saz, Alfonso Ortega. 105-110 [doi]

Design and implementation of a robot audition system for automatic speech recognition of simultaneous speechShun'ichi Yamamoto, Kazuhiro Nakadai, Mikio Nakano, Hiroshi Tsujino, Jean-Marc Valin, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno. 111-116 [doi]

Experiments on cross-system acoustic model adaptationDiego Giuliani, Fabio Brugnara. 117-122 [doi]

Voice search - Information access via voice queriesYe-Yi Wang. 123 [doi]

Hierarchical Pitman-Yor language models for ASR in meetingsSongfang Huang, Steve Renals. 124-129 [doi]

Adapting grapheme-to-phoneme conversion for name recognitionXiao Li, Asela Gunawardana, Alex Acero. 130-135 [doi]

Generalized linear interpolation of language modelsBo-June Hsu. 136-140 [doi]

Refine bigram PLSA model by assigning latent topics unevenlyJiazhong Nie, Runxin Li, Dingsheng Luo, Xihong Wu. 141-146 [doi]

Empirical study of neural network language models for Arabic speech recognitionAhmad Emami, Lidia Mangu. 147-152 [doi]

Discriminative language model adaptation for Mandarin broadcast speech transcription and translationXunying Liu, William J. Byrne, Mark J. F. Gales, Adrià de Gispert, Marcus Tomalin, Philip C. Woodland, Kai Yu. 153-158 [doi]

Reranking machine translation hypotheses with structured and web-based language modelsWen Wang, Andreas Stolcke, Jing Zheng. 159-164 [doi]

Dynamic language modeling for a daily broadcast news transcription systemCiro Martins, António J. S. Teixeira, João Paulo Neto. 165-170 [doi]

Investigating linguistic knowledge in a maximum entropy token-based language modelJia Cui, Yi Su, Keith Hall, Frederick Jelinek. 171-176 [doi]

Robust topic inference for latent semantic language model adaptationAaron Heidel, Lin-Shan Lee. 177-182 [doi]

Spoken language understanding with kernels for syntactic/semantic structuresAlessandro Moschitti, Giuseppe Riccardi, Christian Raymond. 183-188 [doi]

Spoken document summarization using relevant informationYi-Ting Chen, Shih-Hsiang Lin, Hsin-Min Wang, Berlin Chen. 189-194 [doi]

Improving lecture speech summarization using rhetorical informationJustin Jian Zhang, Ricky Ho Yin Chan, Pascale Fung. 195-200 [doi]

Automatic detection of contrastive elements in spontaneous speechAni Nenkova, Dan Jurafsky. 201-206 [doi]

Call classification for automated troubleshooting on large corporaKeelan Evanini, David Suendermann, Roberto Pieraccini. 207-212 [doi]

Maximum entropy model parameterization with TF∗IDF weighted vector space modelYe-Yi Wang, Alex Acero. 213-218 [doi]

A language modeling approach to question answering on speech transcriptsMatthias H. Heie, Edward W. D. Whittaker, Josef R. Novak, Sadaoki Furui. 219-224 [doi]

Automatic lexical pronunciations generation and updateGhinwa F. Choueiter, Stephanie Seneff, James R. Glass. 225-230 [doi]

Non-native pronunciation variation modeling using an indirect data driven methodMina Kim, Yoo Rhee Oh, Hong Kook Kim. 231-236 [doi]

The GALE project: A description and an updateJordan Cohen. 237 [doi]

Recognition and understanding of meetings the AMI and AMIDA projectsSteve Renals, Thomas Hain, Hervé Bourlard. 238-247 [doi]

Introduction of the METI project "development of fundamental speech recognition technology"Sadaoki Furui, Tetsunori Kobayashi. 248 [doi]

Submodularity and adaptationJeff A. Bilmes. 249 [doi]

Agglomerative information bottleneck for speaker diarization of meetings dataDeepu Vijayasenan, Fabio Valente, Hervé Bourlard. 250-255 [doi]

1Themos Stafylakis, Vassilios Katsouros, George Carayannis. 256-261 [doi]

Robust speaker clustering strategies to data source variation for improved speaker diarizationKyu Jeong Han, Samuel Kim, Shrikanth S. Narayanan. 262-267 [doi]

A study on soft margin estimation for LVCSRJinyu Li, Zhi-Jie Yan, Chin-Hui Lee, Ren-Hua Wang. 268-271 [doi]

Hierarchical large-margin Gaussian mixture models for phonetic classificationHung-An Chang, James R. Glass. 272-277 [doi]

Automatic speech recognition based on weighted minimum classification error (W-MCE) training methodQiang Fu, Biing-Hwang Juang. 278-283 [doi]

Training data selection for improving discriminative training of acoustic modelsShih-Hung Liu, Fang-Hui Chu, Shih-Hsiang Lin, Hung-Shin Lee, Berlin Chen. 284-289 [doi]

A constrained line search approach to general discriminative HMM trainingPeng Liu 0001, Cong Liu, Hui Jiang 0001, Frank K. Soong, Ren-Hua Wang. 290-295 [doi]

Mixture Gaussian HMM-trajctory method using likelihood compensationYasuhiro Minami. 296-299 [doi]

State-dependent mixture tying with variable codebook size for accented speech recognitionYi Liu, Fang Zheng, Lei He, Yunqing Xia. 300-305 [doi]

Broad phonetic class recognition in a Hidden Markov model framework using extended Baum-Welch transformationsTara N. Sainath, Dimitri Kanevsky, Bhuvana Ramabhadran. 306-311 [doi]

A compact semidefinite programming (SDP) formulation for large margin estimation of HMMS in speech recognitionYan Yin, Hui Jiang 0001. 312-317 [doi]

HMM training based on CV-EM and CV Gaussian mixture optimizationTakahiro Shinozaki, Tatsuya Kawahara. 318-322 [doi]

Variational Kullback-Leibler divergence for Hidden Markov modelsJohn R. Hershey, Peder A. Olsen, Steven J. Rennie. 323-328 [doi]

Bayesian adaptation in HMM training and decoding using a mixture of feature transformsStavros Tsakalidis, Spyros Matsoukas. 329-334 [doi]

Use of syllable nuclei locations to improve ASRChris D. Bartels, Jeff A. Bilmes. 335-340 [doi]

Speech recognition with localized time-frequency pattern detectorsKen Schutte, James R. Glass. 341-346 [doi]

Regularization, adaptation, and non-independent features improve hidden conditional random fields for phone classificationYun-Hsuan Sung, Constantinos Boulis, Christopher D. Manning, Dan Jurafsky. 347-352 [doi]

Discriminative training of multi-state barge-in modelsAndrej Ljolje, Vincent Goffin. 353-358 [doi]

Graph-based learning for phonetic classificationAndrei Alexandrescu, Katrin Kirchhoff. 359-364 [doi]

Spoken language understanding: a surveyRenato de Mori. 365-376 [doi]

Combining statistical models with symbolic grammar in parsingJunichi Tsujii. 377-378 [doi]

Speech-translation: from domain-limited to domain-unlimited translation tasksStephan Vogel. 379 [doi]

Consolidation based speech translationChiori Hori, Bing Zhao, Stephan Vogel, Alex Waibel. 380-385 [doi]

Lattice-based Viterbi decoding techniques for speech translationGeorge Saon, Michael Picheny. 386-389 [doi]

Semantic translation error rate for evaluating translation systemsKrishna Subramanian, David Stallard, Rohit Prasad, Shirin Saleem, Prem Natarajan. 390-395 [doi]

The RWTH Arabic-to-English spoken language translation systemOliver Bender, Evgeny Matusov, Stefan Hahn, Sasa Hasan, Shahram Khadivi, Hermann Ney. 396-401 [doi]

A comparisonal study of the multi-layer Kohonen self-organizing feature maps for spoken language identificationLiang Wang 0003, Eliathamby Ambikairajah, Eric H. C. Choi. 402-407 [doi]

A novel weighting technique for fusing Language Identification systems based on pair-wise performancesBo Yin, Eliathamby Ambikairajah, Fang Chen. 408-412 [doi]

Non-native speech databasesMartin Raab, Rainer Gruhn, Elmar Nöth. 413-418 [doi]

Dealing with cross-lingual aspects in spoken name recognitionFrederik Stouten, Jean-Pierre Martens. 419-424 [doi]

Crosslingual acoustic model development for automatics speech recognitionFrank Diehl, Asunción Moreno, Enric Monte. 425-430 [doi]

Multi-stream dialect classification using SVM-GMM hybrid classifiersRahul Chitturi, John H. L. Hansen. 431-436 [doi]

Deriving salient learners' mispronunciations from cross-language phonological comparisonsHelen Mei-Ling Meng, Yuen Yee Lo, Lan Wang, Wing Yiu Lau. 437-442 [doi]

The Titech large vocabulary WFST speech recognition systemPaul R. Dixon, Diamantino Caseiro, Tasuku Oonishi, Sadaoki Furui. 443-448 [doi]

Advances in Arabic broadcast news transcription at RWTHDavid Rybach, Stefan Hahn, Christian Gollan, Ralf Schlüter, Hermann Ney. 449-454 [doi]

Development of the 2007 RWTH Mandarin LVCSR systemBjörn Hoffmeister, Christian Plahl, Peter Fritz, Georg Heigold, Jonas Lööf, Ralf Schlüter, Hermann Ney. 455-460 [doi]

An algorithm for fast composition of weighted finite-state transducersJohn W. McDonough, Emilian Stoimenov, Dietrich Klakow. 461-466 [doi]

A Mandarin lecture speech transcription system for speech summarizationRicky Ho Yin Chan, Justin Jian Zhang, Pascale Fung, Lu Cao. 467-471 [doi]

The IBM 2007 speech transcription system for European parliamentary speechesBhuvana Ramabhadran, Olivier Siohan, Abhinav Sethy. 472-477 [doi]

OOV detection by joint word/phone lattice alignmentHui Lin, Jeff Bilmes, Dimitra Vergyri, Katrin Kirchhoff. 478-483 [doi]

Uncertainty in training large vocabulary speech recognizersAmarnag Subramanya, Chris D. Bartels, Jeff Bilmes, Patrick Nguyen. 484-489 [doi]

Building a highly accurate Mandarin speech recognizerMei-Yuh Hwang, Gang Peng, Wen Wang, Arlo Faria, Aaron Heidel, Mari Ostendorf. 490-495 [doi]

Implicit user-adaptive system engagement in speech, pen and multimodal interfacesSharon Oviatt. 496-501 [doi]

Using particle filters to track dialogue stateJason D. Williams. 502-507 [doi]

A method for evaluating and comparing user simulations: The Cramér-von Mises divergenceJason D. Williams. 508-513 [doi]

A multi-layer architecture for semi-synchronous event-driven dialogue managementAntoine Raux, Maxine Eskenazi. 514-519 [doi]

Development and portability of ASR and Q&A modules for real-environment speech-oriented guidance systemsTobias Cincarek, Hiromichi Kawanami, Hiroshi Saruwatari, Kiyohiro Shikano. 520-525 [doi]

Error simulation for training statistical dialogue systemsJost Schatzmann, Blaise Thomson, Steve Young. 526-531 [doi]

A data-centric architecture for data-driven spoken dialog systemsSebastian Varges, Giuseppe Riccardi. 532-537 [doi]

Example-based error recovery strategy for spoken dialog systemCheongjae Lee, Sangkeun Jung, Donghyeon Lee, Gary Geunbae Lee. 538-543 [doi]

Type-II dialogue systems for information access from unstructured knowledge sourcesYi-Cheng Pan, Lin-Shan Lee. 544-549 [doi]

Unsupervised state clustering for stochastic dialog managementFabrice Lefèvre, Renato de Mori. 550-555 [doi]

Dynamic vocabulary prediction for isolated-word dictation on embedded devicesJussi Leppänen, Jilei Tian. 556-561 [doi]

Data selection for speech recognitionYi Wu, Rong Zhang, Alexander I. Rudnicky. 562-565 [doi]

Towards bottom-up continuous phone recognitionSabato Marco Siniscalchi, Torbjørn Svendsen, Chin-Hui Lee. 566-569 [doi]

A study on rescoring using HMM-based detectors for continuous speech recognitionQiang Fu, Biing-Hwang Juang. 570-575 [doi]

Random discriminant structure analysis for automatic recognition of connected vowelsYu Qiao, Satoshi Asakawa, Nobuaki Minematsu. 576-581 [doi]

Phonological feature based variable frame rate scheme for improved speech recognitionAbhijeet Sangwan, John H. L. Hansen. 582-586 [doi]

An enhanced minimum classification error learning framework for balancing insertion, deletion and substitution errorsYuan-Fu Liao, Jia Jang Tu, Sen-Chia Chang, Chin-Hui Lee. 587-590 [doi]

Interpolative variable frame rate transmission of speech features for distributed speech recognitionHuiqun Deng, Douglas D. O'Shaughnessy, Jean-Guy Dahan, William F. Ganong III. 591-595 [doi]

Comparing one and two-stage acoustic modeling in the recognition of emotion in speechBjörn Schuller, Bogdan Vlasenko, Ricardo Minguez, Gerhard Rigoll, Andreas Wendemuth. 596-600 [doi]

Extensible speech recognition system using proxy-agentTeppei Nakano, Shinya Fujie, Tetsunori Kobayashi. 601-606 [doi]

Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performanceNorihide Kitaoka, Kazumasa Yamamoto, Tomohiro Kusamizu, Seiichi Nakagawa, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura. 607-612 [doi]

Voice/audio information retrieval: minimizing the need for human earsMark Clements, Marsal Gavaldà. 613-623 [doi]

A system for speech driven information retrievalCésar González Ferreras, Valentín Cardeñoso-Payo. 624-628 [doi]

Towards spoken-document retrieval for the enterprise: Approximate word-lattice indexing with text indexersFrank Seide, Peng Yu, Yu Shi. 629-634 [doi]

A study of lattice-based spoken term detection for Chinese spontaneous speechSha Meng, Peng Yu, Frank Seide, Jia Liu. 635-640 [doi]

Fast audio search using vector space modellingBrett Matthews, Upendra V. Chaudhari, Bhuvana Ramabhadran. 641-646 [doi]

The LIMSI QAst systems: Comparison between human and automatic rules generation for question-answering on speech transcriptionsSophie Rosset, Olivier Galibert, Gilles Adda, Eric Bilinski. 647-652 [doi]

Soundbite identification using reference and automatic transcripts of broadcast news speechFeifan Liu, Yang Liu. 653-658 [doi]

Topic identification from audio recordings using word and phone recognition latticesTimothy J. Hazen, Fred Richardson, Anna Margolis. 659-664 [doi]

Improvements in phone based audio search via constrained match with high order confusion estimatesUpendra V. Chaudhari, Michael Picheny. 665-670 [doi]

Integrating several annotation layers for statistical information distillationMichael Levit, Dilek Hakkani-Tür, Gökhan Tür, Daniel Gillick. 671-676 [doi]

Analytical comparison between position specific posterior lattices and confusion networks based on words and subword units for spoken document indexingYi-Cheng Pan, Hung-lin Chang, Lin-Shan Lee. 677-682 [doi]

Efficient use of overlap information in speaker diarizationScott Otterson, Mari Ostendorf. 683-686 [doi]

Speechfind for CDP: Advances in spoken document retrieval for the U. S. collaborative digitization programWooil Kim, John H. L. Hansen. 687-692 [doi]

A fast-match approach for robust, faster than real-time speaker diarizationYan Huang, Oriol Vinyals, Gerald Friedland, Christian A. Müller, Nikki Mirghafori, Chuck Wooters. 693-698 [doi]

Never-ending learning system for on-line speaker diarizationKonstantin Markov, Satoshi Nakamura. 699-704 [doi]

Multiple feature combination to improve speaker diarization of telephone conversationsVishwa Gupta, Patrick Kenny, Pierre Ouellet, Gilles Boulianne, Pierre Dumouchel. 705-710 [doi]

Sensei: Spoken language assessment for call center agentsAbhishek Chandel, Abhinav Parate, Maymon Madathingal, Himanshu Pant, Nitendra Rajput, Shajith Ikbal, Om Deshmukh, Ashish Verma. 711-716 [doi]

Towards robust automatic evaluation of pathologic telephone speechKorbinian Riedhammer, Georg Stemmer, Tino Haderlein, Maria Schuster, Frank Rosanowski, Elmar Nöth, Andreas K. Maier. 717-722 [doi]

runs on WebDSL