2018 IEEE Spoken Language Technology Workshop, SLT 2018, Athens, Greece, December 18-21, 2018

researchr

You are not signed in
Sign in
Sign up

2018 IEEE Spoken Language Technology Workshop, SLT 2018, Athens, Greece, December 18-21, 2018. IEEE, 2018. [doi]

Conference: slt2018

Abstract is missing.

High-Degree Feature for Deep Neural Network Based Acoustic ModelHoon Chung, Sung Joo Lee, Jeon Gue Park. 1-5 [doi]

Densenet Blstm for Acoustic Modeling in Robust ASRMaximilian Strake, Pascal Behr, Timo Lohrenz, Tim Fingscheidt. 6-12 [doi]

Phase-Based Feature Representations for Improving Recognition of Dysarthric SpeechSiddharth Sehgal, Stuart P. Cunningham, Phil D. Green. 13-20 [doi]

Efficient Building Strategy with Knowledge Distillation for Small-Footprint Acoustic ModelsTakafumi Moriya, Hiroki Kanagawa, Kiyoaki Matsui, Takaaki Fukutomi, Yusuke Shinohara, Yoshikazu Yamaguchi, Manabu Okamoto, Yushi Aono. 21-28 [doi]

Advancing Multi-Accented Lstm-CTC Speech Recognition Using a Domain Specific Student-Teacher Learning ParadigmShahram Ghorbani, Ahmet Emin Bulut, John H. L. Hansen. 29-35 [doi]

Dynamic Extension of ASR Lexicon Using Wikipedia DataBadr Abdullah, Irina Illina, Dominique Fohr. 36-42 [doi]

Improving LF-MMI Using Unconstrained Supervisions for ASRHossein Hadian, Daniel Povey, Hossein Sameti, Jan Trmal, Sanjeev Khudanpur. 43-47 [doi]

On Training Recurrent Networks with Truncated Backpropagation Through time in Speech RecognitionHao Tang, James Glass. 48-55 [doi]

Learning Noise-Invariant Representations for Robust Speech RecognitionDavis Liang, Zhiheng Huang, Zachary C. Lipton. 56-63 [doi]

An Exploration of Directly Using Word as ACOUSTIC Modeling Unit for Speech RecognitionChunlei Zhang, Chengzhu Yu, Chao Weng, Jia Cui, Dong Yu. 64-69 [doi]

Improved Training Of Neural Trans-Dimensional Random field Language Models with Dynamic Noise-Contrastive EstimationBin Wang, Zhijian Ou. 70-76 [doi]

Improving Very Deep Time-Delay Neural Network With Vertical-Attention For Effectively Training CTC-Based ASR SystemsSheng Li 0010, Xugang Lu, Ryoichi Takashima, Peng Shen, Tatsuya Kawahara, Hisashi Kawai. 77-83 [doi]

Exploring End-To-End Attention-Based Neural Networks For Native Language IdentificationRutuja Ubale, Yao Qian, Keelan Evanini. 84-91 [doi]

Analysing The Predictions Of a CNN-Based Replay Spoofing Detection SystemBhusan Chettri, Saumitra Mishra, Bob L. Sturm, Emmanouil Benetos. 92-97 [doi]

Improved Conditional Generative Adversarial Net Classification For Spoken Language RecognitionXiaoxiao Miao, Ian McLoughlin, Shengyu Yao, Yonghong Yan 0002. 98-104 [doi]

Unsupervised Representation Learning of Speech for Dialect IdentificationSuwon Shon, Wei-Ning Hsu, James Glass. 105-111 [doi]

Multimodal Speech Emotion Recognition Using Audio and TextSeunghyun Yoon 0002, Seokhyun Byun, Kyomin Jung. 112-118 [doi]

Posterior Calibration for Multi-Class Paralinguistic ClassificationGábor Gosztolya, Róbert Busa-Fekete. 119-125 [doi]

Context-Aware Attention Mechanism for Speech Emotion RecognitionGaetan Ramet, Philip N. Garner, Michael Baeriswyl, Alexandros Lazaridis. 126-131 [doi]

An Experimental Study on Audio Replay Attack Detection Using Deep Neural NetworksBekir Bakar, Cemal Hanilçi. 132-138 [doi]

LSTM-Based Whisper DetectionZeynab Raeesy, Kellen Gillespie, Chengyuan Ma, Thomas Drugman, Jiacheng Gu, Roland Maas, Ariya Rastrow, Björn Hoffmeister. 139-144 [doi]

American Sign Language Fingerspelling Recognition in the WildBowen Shi, Aurora Martinez Del Rio, Jonathan Keane, Jonathan Michaux, Diane Brentari, Greg Shakhnarovich, Karen Livescu. 145-152 [doi]

WaveNet-Based Zero-Delay Lossless Speech CodingTakenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda. 153-158 [doi]

Improving Generalization of Vocal Tract Feature Reconstruction: From Augmented Acoustic Inversion to Articulatory Feature Reconstruction without Articulatory DataRosanna Turrisi, Raffaele Tavarone, Leonardo Badino. 159-166 [doi]

A Deep Learning Approach for Data Driven Vocal Tract Area Function EstimationSasan Asadiabadi, Engin Erzin. 167-173 [doi]

Occam's Adaptation: A Comparison of Interpolation of Bases Adaptation Methods for Multi-Dialect Acoustic Modeling with LSTMSMikaela Grace, Meysam Bastani, Eugene Weinstein. 174-181 [doi]

Speech Chain for Semi-Supervised Learning of Japanese-English Code-Switching ASR and TTSSahoko Nakayama, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 182-189 [doi]

Improving ASR Error Detection with RNNLM AdaptationRahhal Errattahi, Salil Deena, Asmaa El Hannani, Hassan Ouahmane, Thomas Hain. 190-196 [doi]

Multi-Objective Multi-Task Learning on RNNLM for Speech RecognitionMinguang Song, Yunxin Zhao, Shaojun Wang. 197-203 [doi]

Confidence Estimation and Deletion Prediction Using Bidirectional Recurrent Neural NetworksAnton Ragni, Qiujia Li, M. J. F. Gales, Yongqiang Wang. 204-211 [doi]

Improving OOV Detection and Resolution with External Language Models in Acoustic-to-Word ASRHirofumi Inaguma, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 212-218 [doi]

LSTM Language Model Adaptation with Images and Titles for Multimedia Automatic Speech RecognitionYasufumi Moriya, Gareth J. F. Jones. 219-226 [doi]

First-Pass Techniques for Very Large Vocabulary Speech Recognition ff Morphologically Rich LanguagesMatti Varjokallio, Sami Virpioja, Mikko Kurimo. 227-234 [doi]

Analyzing Deep CNN-Based Utterance Embeddings for Acoustic Model AdaptationJoanna Rownicka, Peter Bell 0001, Steve Renals. 235-241 [doi]

Multi-Band Processing With Gabor Filters and Time Delay Neural Nets for Noise Robust Speech RecognitionGyörgy Kovács, László Tóth, Gábor Gosztolya. 242-249 [doi]

A Teacher-Student Learning Approach for Unsupervised Domain Adaptation of Sequence-Trained ASR ModelsVimal Manohar, Pegah Ghahremani, Daniel Povey, Sanjeev Khudanpur. 250-257 [doi]

Domain Robust Feature Extraction for Rapid Low Resource ASR DevelopmentSiddharth Dalmia, Xinjian Li, Florian Metze, Alan W. Black. 258-265 [doi]

StarGAN-VC: non-parallel many-to-many Voice Conversion Using Star Generative Adversarial NetworksHirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo. 266-273 [doi]

Rhythm-Flexible Voice Conversion Without Parallel Data Using Cycle-GAN Over Phoneme Posteriorgram SequencesCheng-chieh Yeh, Po-Chun Hsu, Ju-Chieh Chou, Hung-yi Lee, Lin-Shan Lee. 274-281 [doi]

Adaptive Wavenet Vocoder for Residual Compensation in GAN-Based Voice ConversionBerrak Sisman, Mingyang Zhang, Sakriani Sakti, Haizhou Li 0001, Satoshi Nakamura 0001. 282-289 [doi]

Neural TTS Voice ConversionZvi Kons, Slava Shechtman, Alexander Sorin, Ron Hoory, Carmel Rabinovitz, Edmilson Da Silva Morais. 290-296 [doi]

An Evaluation of Deep Spectral Mappings and WaveNet Vocoder for Voice ConversionPatrick Lumban Tobing, Tomoki Hayashi, Yi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Toda. 297-303 [doi]

Improving FFTNet Vocoder with Noise Shaping and Subband ApproachesTakuma Okamoto, Tomoki Toda, Yoshinori Shiga, Hisashi Kawai. 304-311 [doi]

Comparing Prosodic Frameworks: Investigating the Acoustic-Symbolic Relationship in ToBI and RaPRaul Fernandez, Andrew Rosenberg. 312-318 [doi]

Data Selection for Improving Naturalness of TTS Voices Trained on Small Found CorpusesF.-Y. Kuo, S. Aryal, Gilles Degottex, S. Kang, Pierre Lanchantin, I. Ouyang. 319-324 [doi]

Comprehensive Evaluation of Statistical Speech Waveform SynthesisThomas Merritt, Bartosz Putrycz, Adam Nadolski, Tianjun Ye, Daniel Korzekwa, Wiktor Dolecki, Thomas Drugman, Viacheslav Klimkov, Alexis Moinet, Andrew Breen, Rafal Kuklinski, Nikko Strom, Roberto Barra-Chicote. 325-331 [doi]

Examplar-Based Speechwaveform Generation for Text-To-SpeechCassia Valentini-Botinhao, Oliver Watts, Felipe Espic, Simon King. 332-338 [doi]

An Icelandic Pronunciation Dictionary for TTSAnna Björk Nikulasdottir, Jon Guenason, Eiríkur Rögnvaldsson. 339-345 [doi]

MOS Naturalness and the Quest for Human-Like SpeechSajad Shirali-Shahreza, Gerald Penn. 346-352 [doi]

Improving Attention-Based End-to-End ASR Systems with Sequence-Based Loss FunctionsJia Cui, Chao Weng, Guangsen Wang, Jun Wang, Peidong Wang, Chengzhu Yu, Dan Su, Dong Yu. 353-360 [doi]

Combining End-to-End and Adversarial Training for Low-Resource Speech RecognitionJennifer Drexler, James Glass. 361-368 [doi]

A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech RecognitionShubham Toshniwal, Anjuli Kannan, Chung-Cheng Chiu, Yonghui Wu, Tara N. Sainath, Karen Livescu. 369-375 [doi]

On-Device End-to-end Speech Recognition with Multi-Step Parallel RnnsYoonho Boo, Jinhwan Park, Lukas Lee, Wonyong Sung. 376-381 [doi]

Domain Adaptation of End-to-end Speech Recognition in Low-Resource SettingsLahiru Samarakoon, Brian Mak, Albert Y. S. Lam. 382-388 [doi]

End-to-end Speech Recognition With Word-Based Rnn Language ModelsTakaaki Hori, Jaejin Cho, Shinji Watanabe. 389-396 [doi]

Acoustic-to-Word Recognition with Sequence-to-Sequence ModelsShruti Palaskar, Florian Metze. 397-404 [doi]

Combining De-noising Auto-encoder and Recurrent Neural Networks in End-to-End Automatic Speech Recognition for Noise RobustnessTzu-Hsuan Ting, Chia-Ping Chen. 405-410 [doi]

Improved Knowledge Distillation from Bi-Directional to Uni-Directional LSTM CTC for End-to-End Speech RecognitionGakuto Kurata, Kartik Audhkhasi. 411-417 [doi]

Deep Context: End-to-end Contextual Speech RecognitionGolan Pundak, Tara N. Sainath, Rohit Prabhavalkar, Anjuli Kannan, Ding Zhao. 418-425 [doi]

Back-Translation-Style Data Augmentation for end-to-end ASRTomoki Hayashi, Shinji Watanabe, Yu Zhang, Tomoki Toda, Takaaki Hori, Ramón Fernández Astudillo, Kazuya Takeda. 426-433 [doi]

Dialog-Context Aware end-to-end Speech RecognitionSuyoun Kim, Florian Metze. 434-440 [doi]

Toward Domain-Invariant Speech Recognition via Large Scale TrainingArun Narayanan, Ananya Misra, Khe Chai Sim, Golan Pundak, Anshuman Tripathi, Mohamed Elfeky, Parisa Haghani, Trevor Strohman, Michiel Bacchiani. 441-447 [doi]

Transliteration Based Approaches to Improve Code-Switched Speech Recognition PerformanceJesse Emond, Bhuvana Ramabhadran, Brian Roark, Pedro J. Moreno, Min Ma. 448-455 [doi]

Exploring Layer Trajectory LSTM with Depth Processing Units and AttentionJinyu Li, Liang Lu, Changliang Liu, Yifan Gong. 456-462 [doi]

Multichannel ASR with Knowledge Distillation and Generalized Cross Correlation FeatureWenjie Li, Yu Zhang, Pengyuan Zhang, Fengpei Ge. 463-469 [doi]

Optimizing the Quality of Synthetically Generated Pseudowords for the Task of Minimal-Pair DistinctionHeiko Holz, Maria Chinkina, Laura Vetter. 470-476 [doi]

Leveraging Sequence-to-Sequence Speech Synthesis for Enhancing Acoustic-to-Word Speech RecognitionMasato Mimura, Sei Ueno, Hirofumi Inaguma, Shinsuke Sakai, Tatsuya Kawahara. 477-484 [doi]

Hierarchical Multitask Learning With CTCRamon Sanabria, Florian Metze. 485-490 [doi]

A K-Nearest Neighbours Approach To Unsupervised Spoken Term DiscoveryAlexis Thual, Corentin Dancette, Julien Karadayi, Juan Benjumea, Emmanuel Dupoux. 491-497 [doi]

A New Timit Benchmark for Context-Independent Phone Recognition Using Turbo FusionTimo Lohrenz, Wei Li, Tim Fingscheidt. 498-505 [doi]

Efficient Implementation of Recurrent Neural Network Transducer in TensorflowTom Bagby, Kanishka Rao, Khe Chai Sim. 506-512 [doi]

Audio-Visual Speech Recognition with a Hybrid CTC/Attention ArchitectureStavros Petridis, Themos Stafylakis, Pingchuan Ma, Georgios Tzimiropoulos, Maja Pantic. 513-520 [doi]

Multilingual Sequence-to-Sequence Speech Recognition: Architecture, Transfer Learning, and Language ModelingJaejin Cho, Murali Karthick Baskar, Ruizhi Li, Matthew Wiesner, Sri Harish Mallidi, Nelson Yalta, Martin Karafiát, Shinji Watanabe, Takaaki Hori. 521-527 [doi]

Speaker Selective Beamformer with Keyword Mask EstimationYusuke Kida, Dung T. Tran, Motoi Omachi, Toru Taniguchi, Yuya Fujita. 528-534 [doi]

Speaker Adapted Beamforming for Multi-Channel Automatic Speech RecognitionTobias Menne, Ralf Schlüter, Hermann Ney. 535-541 [doi]

Speaker Adaptation for End-to-End CTC ModelsKe Li, Jinyu Li, Yong Zhao, Kshitiz Kumar, Yifan Gong. 542-549 [doi]

An Exploration of Mimic Architectures for Residual Network Based Spectral MappingPeter Plantinga, Deblin Bagchi, Eric Fosler-Lussier. 550-557 [doi]

Multi-Channel Overlapped Speech Recognition with Location Guided Speech Extraction NetworkZhuo Chen, Xiong Xiao, Takuya Yoshioka, Hakan Erdogan, Jinyu Li, Yifan Gong. 558-565 [doi]

A Study on Speech Enhancement Using Exponent-Only Floating Point Quantized Neural Network (EOFP-QNN)Yi-Te Hsu, Yu-Chen Lin, Szu-Wei Fu, Yu Tsao, Tei-Wei Kuo. 566-573 [doi]

Rapid Speaker Adaptation of Neural Network Based Filterbank Layer for Automatic Speech RecognitionHiroshi Seki, Kazumasa Yamamoto, Tomoyosi Akiba, Seiichi Nakagawa. 574-580 [doi]

Far-Field ASR Using Low-Rank and Sparse Soft Targets from Parallel DataPranay Dighe, Afsaneh Asaei, Hervé Bourlard. 581-587 [doi]

Deep View2View Mapping for View-Invariant LipreadingAlexandros Koumparoulis, Gerasimos Potamianos. 588-594 [doi]

Predicting Expressive Speaking Style from Text in End-To-End Speech SynthesisDaisy Stanton, Yuxuan Wang, R. J. Skerry-Ryan. 595-602 [doi]

A Spectrally Weighted Mixture of Least Square Error and Wasserstein Discriminator Loss for Generative SPSSGilles Degottex, Mark J. F. Gales. 603-609 [doi]

Scaling and Bias Codes for Modeling Speaker-Adaptive DNN-Based Speech Synthesis SystemsHieu-Thi Luong, Junichi Yamagishi. 610-617 [doi]

Hierarchical RNNs for Waveform-Level Speech SynthesisQingyun Dou, Moquan Wan, Gilles Degottex, Zhiyi Ma, Mark J. F. Gales. 618-625 [doi]

Parameter Generation Algorithms for Text-To-Speech Synthesis with Recurrent Neural NetworksViacheslav Klimkov, Alexis Moinet, Adam Nadolski, Thomas Drugman. 626-631 [doi]

Synthetic-to-Natural Speech Waveform Conversion Using Cycle-Consistent Adversarial NetworksKou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Hirokazu Kameoka. 632-639 [doi]

Improving Unsupervised Style Transfer in end-to-end Speech Synthesis with end-to-end Speech RecognitionDa-Rong Liu, Chi-Yu Yang, Szu-Lin Wu, Hung-yi Lee. 640-647 [doi]

Multi-Scale Alignment and Contextual History for Attention Mechanism in Sequence-to-Sequence ModelAndros Tjandra, Sakriani Sakti, Satoshi Nakamura 0001. 648-655 [doi]

Low-Resource Contextual Topic Identification on SpeechChunxi Liu, Matthew Wiesner, Shinji Watanabe, Craig Harman, Jan Trmal, Najim Dehak, Sanjeev Khudanpur. 656-663 [doi]

Ranking Approach to Compact Text Representation for Personal Digital AssistantsIssac Alphonso, Nick Kibre, Tasos Anastasakos. 664-669 [doi]

A Re-Ranker Scheme For Integrating Large Scale NLU ModelsChengwei Su, Rahul Gupta, Shankar Ananthakrishnan, Spyros Matsoukas. 670-676 [doi]

Parsing Coordination For Spoken Language UnderstandingSanchit Agarwal, Rahul Goel, Tagyoung Chung, Abhishek Sethi, Arindam Mandal, Spyros Matsoukas. 677-684 [doi]

Quaternion Convolutional Neural Networks For Theme Identification Of Telephone ConversationsTitouan Parcollet, Mohamed Morchid, Georges Linarès, Renato de Mori. 685-691 [doi]

End-To-End Named Entity And Semantic Concept Extraction From SpeechSahar Ghannay, Antoine Caubrière, Yannick Estève, Nathalie Camelin, Edwin Simonnet, A. Laurent, Emmanuel Morin. 692-699 [doi]

Toward Multi-Features Emphasis Speech Translation: Assessment of Human Emphasis Production and Perception with Speech and Text CluesQuoc Truong Do, Sakriani Sakti, Satoshi Nakamura 0001. 700-706 [doi]

Corpus and Annotation Towards NLU for Customer Ordering DialogsJohn Chen, Rashmi Prasad, Svetlana Stoyanchev, Ethan Selfridge, Srinivas Bangalore, Michael Johnston. 707-713 [doi]

Coupled Representation Learning for Domains, Intents and Slots in Spoken Language UnderstandingJihwan Lee, Dongchan Kim, Ruhi Sarikaya, Young-Bum Kim. 714-719 [doi]

From Audio to Semantics: Approaches to End-to-End Spoken Language UnderstandingParisa Haghani, Arun Narayanan, Michiel Bacchiani, Galen Chuang, Neeraj Gaur, Pedro J. Moreno, Rohit Prabhavalkar, Zhongdi Qu, Austin Waters. 720-726 [doi]

Investigating the Downstream Impact of Grapheme-Based Acoustic Modeling on Spoken Utterance ClassificationRyan Price, Bhargav Srinivas Ch, Surbhi Singhal, Srinivas Bangalore. 727-734 [doi]

Abstractive Dialogue Summarization with Sentence-Gated Modeling Optimized by Dialogue ActsChih-Wen Goo, Yun-Nung Chen. 735-742 [doi]

Graph-Based Deep-Tree Recursive Neural Network (DTRNN) for Text ClassificationFenxiao Chen, Bin Wang, C. C. Jay Kuo. 743-749 [doi]

Extension of Conventional Co-Training Learning Strategies to Three-View and Committee-Based Learning Strategies for Effective Automatic Sentence SegmentationDogan Dalva, Ümit Güz, Hakan Gürkan. 750-755 [doi]

Information-Weighted Neural Cache Language Models for ASRLyan Verwimp, Joris Pelemans, Hugo Van Hamme, Patrick Wambacq. 756-762 [doi]

Word Segmentation From Phoneme Sequences Based On Pitman-Yor Semi-Markov Model Exploiting Subword InformationRyu Takeda, Kazunori Komatani, Alexander I. Rudnicky. 763-770 [doi]

Intelligence Is Asking The Right Question: A Study On Japanese Question GenerationLasguido Nio, Koji Murakami. 771-778 [doi]

Investigating Linguistic Pattern Ordering In Hierarchical Natural Language GenerationShang-Yu Su, Yun-Nung Chen. 779-786 [doi]

Guess who? Multilingual Approach For The Automated Generation Of Author-Stylized PoetryAlexey Tikhonov, Ivan P. Yamshchikov. 787-794 [doi]

Generating Semantic Similarity Atlas for Natural LanguagesLutfi Kerem Senel, Ihsan Utlu, Veysel Yücesoy, Aykut Koc, Tolga Çukur. 795-799 [doi]

Resolving Referring Expressions in Images with Labeled ElementsNevan Wichers, Dilek Z. Hakkani-Tür, Jindong Chen. 800-806 [doi]

Sentiment Classification on Erroneous ASR Transcripts: A Multi View Learning ApproachSri Harsha Dumpala, Imran Sheikh, Rupayan Chakraborty, Sunil Kumar Kopparapu. 807-814 [doi]

Direct Optimization of F-Measure for Retrieval-Based Personal Question AnsweringRasool Fakoor, Amanjit Kainth, Siamak Shakeri, Christopher Winestock, Abdel-rahman Mohamed, Ruhi Sarikaya. 815-822 [doi]

Efficient Dialog Policy Learning via Positive Memory RetentionRui Zhao, Volker Tresp. 823-830 [doi]

Turn-Taking Predictions across Languages and Genres Using an LSTM Recurrent Neural NetworkNigel G. Ward, Diego Aguirre, Gerardo Cervantes, Olac Fuentes. 831-837 [doi]

Prediction of Dialogue Success with Spectral and Rhythm Acoustic Features Using DNNS and SVMSAthanasios Lykartsis, Margarita Kotti, Alexandros Papangelis, Yannis Stylianou. 838-845 [doi]

Context-Aware Dialog Re-Ranking for Task-Oriented Dialog SystemsJunki Ohmura, Maxine Eskénazi. 846-853 [doi]

Out-of-Domain Slot Value Detection for Spoken Dialogue Systems with Context InformationYuka Kobayashi, Takami Yoshida, Kenji Iwata, Hiroshi Fujimura, Masami Akamine. 854-861 [doi]

Accumulating Conversational Skills Using Continual LearningSungjin Lee. 862-867 [doi]

Learning Goal-Oriented Visual Dialog via Tempered Policy GradientRui Zhao, Volker Tresp. 868-875 [doi]

Optimizing Neural Response Generator with Emotional Impact InformationNurul Lubis, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura 0001. 876-883 [doi]

Convolutional Neural Networks for Dialogue State Tracking without Pre-Trained Word Vectors or Semantic DictionariesMandy Korpusik, James Glass. 884-891 [doi]

Contextual Topic Modeling For Dialog SystemsChandra Khatri, Rahul Goel, Behnam Hedayatnia, Angeliki Metanillou, Anushree Venkatesh, Raefer Gabriel, Arindam Mandal. 892-899 [doi]

User Modeling for Task Oriented DialoguesIzzeddin Gur, Dilek Z. Hakkani-Tür, Gökhan Tür, Pararth Shah. 900-906 [doi]

Scalable Language Model Adaptation for Spoken Dialogue SystemsAnkur Gandhe, Ariya Rastrow, Björn Hoffmeister. 907-912 [doi]

Discourse Modeling of Non-Native Spontaneous Speech Using the Rhetorical Structure Theory FrameworkXinhao Wang, Binod Gyawali, James V. Bruno, Hillary R. Molloy, Keelan Evanini, Klaus Zechner. 913-920 [doi]

Towards Fluent Translations From Disfluent SpeechElizabeth Salesky, Susanne Burger, Jan Niehues, Alex Waibel. 921-926 [doi]

JSpeech: A Multi-Lingual Conversational Speech CorpusAli Janalizadeh Choobbasti, Mohammad Erfan Gholamian, Amir Vaheb, Saeid Safavi 0001. 927-933 [doi]

Investigation of Users' Short Responses in Actual Conversation System and Automatic Recognition of their IntentionsKatsuya Yokoyama, Hiroaki Takatsu, Hiroshi Honda, Shinya Fujie, Tetsunori Kobayashi. 934-940 [doi]

Phonetic-and-Semantic Embedding of Spoken words with Applications in Spoken Content RetrievalYi-Chen Chen, Sung-Feng Huang, Chia-Hao Shen, Hung-yi Lee, Lin-Shan Lee. 941-948 [doi]

ODSQA: Open-Domain Spoken Question Answering DatasetChia-Hsuan Lee, Shang-Ming Wang, Huan-Cheng Chang, Hung-yi Lee. 949-956 [doi]

Improved Auto-Marking Confidence for Spoken Language AssessmentM. Del Vecchio, Andrey Malinin, M. J. F. Gales. 957-963 [doi]

Evaluating on-device ASR on Field Recordings from an Interactive Reading CompanionAnastassia Loukina, Nitin Madnani, Beata Beigman Klebanov, Abhinav Misra, Georgi Angelov, Ognjen Todic. 964-970 [doi]

DNN-Based Scoring of Language Learners' Proficiency Using Learners' Shadowings and Native Listeners' Responsive ShadowingsSuguru Kabashima, Yusuke Inoue, Daisuke Saito, Nobuaki Minematsu. 971-978 [doi]

A Prompt-Aware Neural Network Approach to Content-Based Scoring of Non-Native Spontaneous SpeechYao Qian, Rutuja Ubale, Matthew Mulholland, Keelan Evanini, Xinhao Wang. 979-986 [doi]

Querying Depression VlogsM. Joana Correia, Bhiksha Raj, Isabel Trancoso. 987-993 [doi]

Sequence Teacher-Student Training of Acoustic Models for Automatic Free Speaking Language AssessmentY. Wang, Jeremy H. M. Wong, M. J. F. Gales, Kate M. Knill, Anton Ragni. 994-1000 [doi]

Text-Independent Speaker Verification Based on Deep Neural Networks and Segmental Dynamic Time WarpingMohamed Adel, Mohamed Afify, Akram Gaballah, Magda Fayek. 1001-1006 [doi]

Frame-Level Speaker Embeddings for Text-Independent Speaker Recognition and Analysis of End-to-End ModelSuwon Shon, Hao Tang, James Glass. 1007-1013 [doi]

Generative X-Vectors for Text-Independent Speaker VerificationLongting Xu, Rohan Kumar Das, Emre Yilmaz, Jichen Yang, Haizhou Li 0001. 1014-1020 [doi]

Speaker Recognition from Raw Waveform with SincNetMirco Ravanelli, Yoshua Bengio. 1021-1028 [doi]

Investigating Deep Neural Networks for Speaker Diarization in the DIHARD ChallengeIvan Himawan, Md. Hafizur Rahman, Sridha Sridharan, Clinton Fookes, Ahilan Kanagasundaram. 1029-1035 [doi]

Role Annotated Speech Recognition for Conversational InteractionsNikolaos Flemotomos, Zhuohao Chen, David C. Atkins, Shrikanth Narayanan. 1036-1043 [doi]

Teacher-Student Training for Text-Independent Speaker RecognitionRaymond W. M. Ng, Xuechen Liu, Pawel Swietojanski. 1044-1051 [doi]

Attention Mechanism in Speaker Recognition: What Does it Learn in Deep Speaker Embedding?Qiongqiong Wang, Koji Okabe, Kong-Aik Lee, Hitoshi Yamamoto, Takafumi Koshinaka. 1052-1059 [doi]

Detection and Calibration of Whisper for Speaker RecognitionFinnian Kelly, John H. L. Hansen. 1060-1065 [doi]

Training Speaker Recognition Models with Recording-Level LabelsTanel Alumäe. 1066-1072 [doi]

Short Utterance Speaker Recognition by Reservoir with Self-Organized MappingNarumitsu Ikeda, Yoshinao Sato, Hirokazu Takahashi. 1073-1077 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

2018 IEEE Spoken Language Technology Workshop, SLT 2018, Athens, Greece, December 18-21, 2018

Abstract

Table of Contents