2016 IEEE Spoken Language Technology Workshop, SLT 2016, San Diego, CA, USA, December 13-16, 2016

researchr

You are not signed in
Sign in
Sign up

2016 IEEE Spoken Language Technology Workshop, SLT 2016, San Diego, CA, USA, December 13-16, 2016. IEEE, 2016. [doi]

Conference: slt2016

Abstract is missing.

I-Vector estimation as auxiliary task for Multi-Task Learning based acoustic modeling for automatic speech recognitionGueorgui Pironkov, Stéphane Dupont, Thierry Dutoit. 1-7 [doi]

BBN technologies' OpenSAD systemScott Novotney, Damianos Karakos, Jan Silovský, Richard M. Schwartz. 8-12 [doi]

A study of speech distortion conditions in real scenarios for speech processing applicationsDayana Ribas, Emmanuel Vincent, José Ramón Calvo de Lara. 13-20 [doi]

Automatic optimization of data perturbation distributions for multi-style training in speech recognitionMortaza Doulaty, Richard Rose, Olivier Siohan. 21-27 [doi]

Batch-normalized joint training for DNN-based distant speech recognitionMirco Ravanelli, Philemon Brakel, Maurizio Omologo, Yoshua Bengio. 28-34 [doi]

Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental soundsSakriani Sakti, Seiji Kawanishi, Graham Neubig, Koichiro Yoshino, Satoshi Nakamura. 35-42 [doi]

Learning utterance-level normalisation using Variational Autoencoders for robust automatic speech recognitionShawn Tan, Khe Chai Sim. 43-49 [doi]

Performance monitoring for automatic speech recognition in noisy multi-channel environmentsBernd T. Meyer, Sri Harish Reddy Mallidi, Angel Mario Castro Martinez, Guillermo Payá Vayá, Hendrik Kayser, Hynek Hermansky. 50-56 [doi]

Iterative training of a DPGMM-HMM acoustic unit recognizer in a zero resource scenarioMichael Heck, Sakriani Sakti, Satoshi Nakamura. 57-63 [doi]

Toward human-assisted lexical unit discovery without text resourcesChris Bartels, Wen Wang, Vikramjit Mitra, Colleen Richey, Andreas Kathol, Dimitra Vergyri, Harry Bratt, Chiachi Hung. 64-70 [doi]

A nonparametric Bayesian approach for automatic discovery of a lexicon and acoustic unitsAmir Hossein Harati Nejad Torbati, Joseph Picone. 71-75 [doi]

Jointly learning to align and convert graphemes to phonemes with neural attention modelsShubham Toshniwal, Karen Livescu. 76-82 [doi]

DialPort: Connecting the spoken dialog research community to real user dataTiancheng Zhao, Kyusong Lee, Maxine Eskénazi. 83-90 [doi]

Weakly supervised user intent detection for multi-domain dialoguesMing Sun, Aasish Pappu, Yun-Nung Chen, Alexander I. Rudnicky. 91-97 [doi]

Learning dialogue dynamics with the method of momentsMerwan Barlier, Romain Laroche, Olivier Pietquin. 98-105 [doi]

Towards a virtual personal assistant based on a user-defined portfolio of multi-domain vocal applicationsTatiana Ekeinhor-Komi, Jean-Leon Bouraoui, Romain Laroche, Fabrice Lefèvre. 106-113 [doi]

Speaker independent diarization for child language environment analysis using deep neural networksMaryam Najafian, John H. L. Hansen. 114-120 [doi]

Automatic plagiarism detection for spoken responses in an assessment of English language proficiencyXinhao Wang, Keelan Evanini, James Bruno, Matthew Mulholland. 121-128 [doi]

Improved prediction of the accent gap between speakers of English for individual-based clustering of World EnglishesFumiya Shiozawa, Daisuke Saito, Nobuaki Minematsu. 129-135 [doi]

Speech vs. text: A comparative analysis of features for depression detection systemsMichelle Renee Morales, Rivka Levitan. 136-143 [doi]

Incrementally learn the relevance of words in a dictionary for spoken language acquisitionVincent Renkens, Vikrant Tomar, Hugo Van Hamme. 144-150 [doi]

Abstractive headline generation for spoken content by attentive recurrent neural networks with ASR error modelingLang-Chi Yu, Hung-yi Lee, Lin-Shan Lee. 151-157 [doi]

Extractive speech summarization leveraging convolutional neural network techniquesChun-I Tsai, Hsiao-Tsung Hung, Kuan-Yu Chen, Berlin Chen. 158-164 [doi]

Deep neural network-based speaker embeddings for end-to-end speaker verificationDavid Snyder, Pegah Ghahremani, Daniel Povey, Daniel Garcia-Romero, Yishay Carmiel, Sanjeev Khudanpur. 165-170 [doi]

End-to-End attention based text-dependent speaker verificationShi-Xiong Zhang, Zhuo Chen, Yong Zhao, Jinyu Li, Yifan Gong. 171-178 [doi]

Further optimisations of constant Q cepstral processing for integrated utterance and text-dependent speaker verificationHéctor Delgado, Massimiliano Todisco, Md. Sahidullah, Achintya Kumar Sarkar, Nicholas W. D. Evans, Tomi Kinnunen, Zheng-Hua Tan. 179-185 [doi]

Deep neural network driven mixture of PLDA for robust i-vector speaker verificationNa Li, Man-Wai Mak, Jen-Tzung Chien. 186-191 [doi]

Modelling speaker and channel variability using deep neural networks for robust speaker verificationGautam Bhattacharya, Md. Jahangir Alam, Patrick Kenny, Vishwa Gupta. 192-198 [doi]

Analysis of the DNN-based SRE systems in multi-language conditionsOndrej Novotný, Pavel Matejka, Ondrej Glembek, Oldrich Plchot, Frantisek Grézl, Lukás Burget, Jan Honza Cernocký. 199-204 [doi]

Evaluation and calibration of Lombard effects in speaker verificationFinnian Kelly, John H. L. Hansen. 205-209 [doi]

Phonetic content impact on Forensic Voice ComparisonMoez Ajili, Jean-François Bonastre, Waad Ben Kheder, Solange Rossato, Juliette Kahn. 210-217 [doi]

Parallel Long Short-Term Memory for multi-stream classificationMohamed Bouaziz, Mohamed Morchid, Richard Dufour, Georges Linarès, Renato de Mori. 218-223 [doi]

Improving multi-stream classification by mapping sequence-embedding in a high dimensional spaceMohamed Bouaziz, Mohamed Morchid, Richard Dufour, Georges Linarès. 224-231 [doi]

Hierarchical attention model for improved machine comprehension of spoken contentWei Fang, Juei-Yang Hsu, Hung-yi Lee, Lin-Shan Lee. 232-238 [doi]

Comparing speaker independent and speaker adapted classification for word prominence detectionAndrea Schnall, Martin Heckmann. 239-244 [doi]

Automatic turn segmentation for Movie & TV subtitlesPierre Lison, Raveesh Meena. 245-252 [doi]

Voice search language model adaptation using contextual informationJustin Scheiner, Ian Williams, Petar S. Aleksic. 253-257 [doi]

Adaptation of SVM for MIL for inferring the polarity of movies and movie reviewsMaria Joana Correia, Isabel Trancoso, Bhiksha Raj. 258-264 [doi]

Semantically driven inversion transduction grammar induction for early stage training of spoken language translationMeriem Beloucif, Dekai Wu. 265-272 [doi]

The NDSC transcription system for the 2016 multi-genre broadcast challengeXu-Kui Yang, Dan Qu, Wen-Lin Zhang, Wei-Qiang Zhang. 273-278 [doi]

The MGB-2 challenge: Arabic multi-dialect broadcast media recognitionAhmed M. Ali, Peter Bell 0001, James R. Glass, Yacine Messaoui, Hamdy Mubarak, Steve Renals, Yifan Zhang. 279-284 [doi]

LIUM ASR systems for the 2016 Multi-Genre Broadcast Arabic challengeNatalia A. Tomashenko, Kevin Vythelingum, Anthony Rousseau, Yannick Estève. 285-291 [doi]

QCRI advanced transcription system (QATS) for the Arabic Multi-Dialect Broadcast media recognition: MGB-2 challengeSameer Khurana, Ahmed M. Ali. 292-298 [doi]

Development of the MIT ASR system for the 2016 Arabic Multi-genre Broadcast ChallengeTuka Al Hanai, Wei-Ning Hsu, James R. Glass. 299-304 [doi]

Speech enhancement using Long Short-Term Memory based recurrent Neural Networks for noise robust Speaker VerificationMorten Kolboek, Zheng-Hua Tan, Jesper Jensen. 305-311 [doi]

Environmentally robust audio-visual speaker identificationLea Schonherr, Dennis Orth, Martin Heckmann, Dorothea Kolossa. 312-318 [doi]

A robust diarization system for measuring dominance in Peer-Led Team Learning groupsHarishchandra Dubey, Abhijeet Sangwan, John H. L. Hansen. 319-323 [doi]

Unsupervised k-means clustering based out-of-set candidate selection for robust open-set language recognitionQian Zhang, John H. L. Hansen. 324-329 [doi]

Multi-lingual deep neural networks for language recognitionLuis Murphy Marcos, Frederick Richardson. 330-334 [doi]

Approaches for language identification in mismatched environmentsShahan Nercessian, Pedro A. Torres-Carrasquillo, Gabriel Martinez-Montes. 335-340 [doi]

A factor analysis model of sequences for language recognitionMohamed Kamal Omar. 341-347 [doi]

Syntax or semantics? knowledge-guided joint semantic frame parsingYun-Nung Chen, Dilek Hakanni-Tur, Gökhan Tür, Asli Çelikyilmaz, Jianfeng Gao, Li Deng. 348-355 [doi]

A log-linear weighting approach in the Word2vec space for spoken language understandingKillian Janod, Mohamed Morchid, Richard Dufour, Georges Linarès. 356-361 [doi]

Quaternion Neural Networks for Spoken Language UnderstandingTitouan Parcollet, Mohamed Morchid, Pierre-Michel Bousquet, Richard Dufour, Georges Linarès, Renato de Mori. 362-368 [doi]

Robust utterance classification using multiple classifiers in the presence of speech recognition errorsTakeshi Homma, Kazuaki Shima, Takuya Matsumoto. 369-375 [doi]

Pre-filtered dynamic time warping for posteriorgram based keyword searchGozde Cetinkaya, Batuhan Gündogdu, Murat Saraclar. 376-382 [doi]

Multimodal deep neural nets for detecting humor in TV sitcomsDario Bertero, Pascale Fung. 383-390 [doi]

An overview of end-to-end language understanding and dialog management for personal digital assistantsRuhi Sarikaya, Paul A. Crook, Alex Marin, Minwoo Jeong, Jean-Philippe Robichaud, Asli Çelikyilmaz, Young-Bum Kim, Alexandre Rochette, Omar Zia Khan, Xiaohu Liu, Daniel Boies, Tasos Anastasakos, Zhaleh Feizollahi, Nikhil Ramesh, H. Suzuki, Roman Holenstein, Elizabeth Krawczyk, Vasiliy Radostev. 391-397 [doi]

Semantic model for fast tagging of word latticesLeonid Velikovich. 398-405 [doi]

Optimizing neural network hyperparameters with Gaussian processes for dialog act classificationFranck Dernoncourt, Ji Young Lee. 406-413 [doi]

Intent detection using semantically enriched word embeddingsJoo-Kyung Kim, Gökhan Tür, Asli Çelikyilmaz, Bin Cao, Ye-Yi Wang. 414-419 [doi]

An unsupervised vocabulary selection technique for Chinese automatic speech recognitionYike Zhang, Pengyuan Zhang, Ta Li, Yonghong Yan 0002. 420-425 [doi]

Dynamic adjustment of language models for automatic speech recognition using word similarityAnna Currey, Irina Illina, Dominique Fohr. 426-432 [doi]

Punctuated transcription of multi-genre broadcasts using acoustic and lexical approachesOndrej Klejch, Peter Bell 0001, Steve Renals. 433-440 [doi]

Contextual language model adaptation using dynamic classesLucy Vasserman, Ben Haynor, Petar S. Aleksic. 441-446 [doi]

Unsupervised context learning for speech recognitionAssaf Hurwitz Michaely, Mohammadreza Ghodsi, Zelin Wu, Justin Scheiner, Petar S. Aleksic. 447-453 [doi]

Automated optimization of decoder hyper-parameters for online LVCSRAkshay Chandrashekaran, Ian Lane. 454-460 [doi]

Sequence training and adaptation of highway deep neural networksLiang Lu. 461-466 [doi]

A prioritized grid long short-term memory RNN for speech recognitionWei-Ning Hsu, Yu Zhang, James R. Glass. 467-473 [doi]

Max-pooling loss training of long short-term memory networks for small-footprint keyword spottingMing Sun, Anirudh Raju, George Tucker, Sankaran Panchapagesan, Gengshen Fu, Arindam Mandal, Spyros Matsoukas, Nikko Strom, Shiv Vitaladevuni. 474-480 [doi]

Very deep convolutional neural networks for robust speech recognitionYanmin Qian, Philip C. Woodland. 481-488 [doi]

Deep learning with maximal figure-of-merit cost to advance multi-label speech attribute detectionIvan Kukanov, Ville Hautamäki, Sabato Marco Siniscalchi, Kehuang Li. 489-495 [doi]

End-to-end training approaches for discriminative segmental modelsHao Tang, Weiran Wang, Kevin Gimpel, Karen Livescu. 496-502 [doi]

Discriminative acoustic word embeddings: Tecurrent neural network-based approachesShane Settle, Karen Livescu. 503-510 [doi]

The fifth dialog state tracking challengeSeokhwan Kim, Luis Fernando D'Haro, Rafael E. Banchs, Jason D. Williams, Matthew Henderson, Koichiro Yoshino. 511-517 [doi]

Recurrent convolutional neural networks for structured speech act taggingTakashi Ushio, Hongjie Shi, Mitsuru Endo, Katsuyoshi Yamagami, Noriaki Horii. 518-524 [doi]

The MSIIP system for dialog state tracking challenge 5Ying Su, Miao Li, Ji Wu. 525-530 [doi]

Neural dialog state tracker for large ontologies by attention mechanismYoungsoo Jang, Jiyeon Ham, Byung Jun Lee, Youngjae Chang, Kee-Eung Kim. 531-537 [doi]

Tracking dialog states using an Author-Topic based representationRichard Dufour, Mohamed Morchid, Titouan Parcollet. 544-551 [doi]

Dialog state tracking with attention-based sequence-to-sequence learningTakaaki Hori, Hai Wang, Chiori Hori, Shinji Watanabe, Bret Harsham, Jonathan Le Roux, John R. Hershey, Yusuke Koji, Yi Jing, Zhaocheng Zhu, Takeyuki Aikawa. 552-558 [doi]

A multichannel convolutional neural network for cross-language dialog state trackingHongjie Shi, Takashi Ushio, Mitsuru Endo, Katsuyoshi Yamagami, Noriaki Horii. 559-564 [doi]

Recognizing emotions in spoken dialogue with hierarchically fused acoustic and lexical featuresLeimin Tian, Johanna D. Moore, Catherine Lai. 565-572 [doi]

Look, listen, and decode: Multimodal speech recognition with imagesFelix Sun, David F. Harwath, James R. Glass. 573-578 [doi]

Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal viewSpyridon Thermos, Gerasimos Potamianos. 579-584 [doi]

Analysis of user behavior with multimodal virtual customer service agentsIan Beaver, Cynthia Freeman. 585-591 [doi]

High quality agreement-based semi-supervised training data for acoustic modelingFelix de Chaumont Quitry, Asa Oines, Pedro J. Moreno, Eugene Weinstein. 592-596 [doi]

Blind speech segmentation using spectrogram image-based features and Mel cepstral coefficientsAdriana Stan, Cassia Valentini-Botinhao, Bogdan Orza, Mircea Giurgiu. 597-602 [doi]

Discriminative multiple sound source localization based on deep neural networks using independent location modelRyu Takeda, Kazunori Komatani. 603-609 [doi]

Code-switching detection using multilingual DNNSEmre Yilmaz, Henk van den Heuvel, David A. van Leeuwen. 610-616 [doi]

Attribute based shared hidden layers for cross-language knowledge transferVipul Arora, Aditi Lahiri, Henning Reetz. 617-623 [doi]

Towards acoustic model unification across dialectsMohamed Elfeky, Meysam Bastani, Xavier Velez, Pedro J. Moreno, Austin Waters. 624-628 [doi]

Boosting performance on low-resource languages by standard corpora: An analysisFrantisek Grézl, Martin Karafiát. 629-636 [doi]

Multilingual BLSTM and speaker-specific vector adaptation in 2016 but babel systemMartin Karafiát, Murali Karthick Baskar, Pavel Matejka, Karel Veselý, Frantisek Grézl, Jan Cernocký. 637-643 [doi]

DNN adaptation for recognition of children speech through automatic utterance selectionMarco Matassoni, Daniele Falavigna, Diego Giuliani. 644-651 [doi]

Low-rank bases for factorized hidden layer adaptation of DNN acoustic modelsLahiru Samarakoon, Khe Chai Sim. 652-658 [doi]

Deep neural network based acoustic model parameter reduction using manifold regularized low rank matrix factorizationHoon Chung, Jeom Ja Kang, Kiyoung Park, Sung Joo Lee, Jeon Gue Park. 659-664 [doi]

Automated structure discovery and parameter tuning of neural network language model based on evolution strategyTomohiro Tanaka, Takafumi Moriya, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori, Kevin Duh. 665-671 [doi]

Entropy-based pruning of hidden units to reduce DNN parametersGautam Mantena, Khe Chai Sim. 672-679 [doi]

Influence of corpus size and content on the perceptual quality of a unit selection MaryTTS voiceFlorian Hinterleitner, Benjamin Weiss 0001, Sebastian Möller. 680-685 [doi]

Median-based generation of synthetic speech durations using a non-parametric approachSrikanth Ronanki, Oliver Watts, Simon King, Gustav Eje Henter. 686-692 [doi]

F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differentialKazuhiro Kobayashi, Tomoki Toda, Satoshi Nakamura. 693-700 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

2016 IEEE Spoken Language Technology Workshop, SLT 2016, San Diego, CA, USA, December 13-16, 2016

Abstract

Table of Contents