IEEE Spoken Language Technology Workshop, SLT 2021, Shenzhen, China, January 19-22, 2021 - researchr publication

researchr

You are not signed in
Sign in
Sign up

IEEE Spoken Language Technology Workshop, SLT 2021, Shenzhen, China, January 19-22, 2021. IEEE, 2021. [doi]

Conference: slt2021

Abstract is missing.

Transformer-Based Online Speech Recognition with Decoder-end Adaptive Computation StepsMohan Li, Catalin Zorila, Rama Doddipatla. 1-7 [doi]

Streaming Attention-Based Models with Augmented Memory for End-To-End Speech RecognitionChing-feng Yeh, Yongqiang Wang, Yangyang Shi, Chunyang Wu, Frank Zhang 0001, Julian Chan, Michael L. Seltzer. 8-14 [doi]

Cascade RNN-Transducer: Syllable Based Streaming On-Device Mandarin Speech Recognition with a Syllable-To-Character ConverterXiong Wang, Zhuoyuan Yao, Xian Shi, Lei Xie. 15-21 [doi]

Streaming Transformer Asr With Blockwise Synchronous Beam SearchEmiru Tsunoo, Yosuke Kashiwagi, Shinji Watanabe 0001. 22-29 [doi]

Convolution-Based Attention Model With Positional Encoding For Streaming Speech Recognition On Embedded DevicesJinhwan Park, Chanwoo Kim, Wonyong Sung. 30-37 [doi]

Learning to Count Words in Fluent Speech Enables Online Speech RecognitionGeorge Sterpu, Christian Saam, Naomi Harte. 38-45 [doi]

Benchmarking LF-MMI, CTC And RNN-T Criteria For Streaming ASRXiaohui Zhang, Frank Zhang 0001, Chunxi Liu, Kjell Schubert, Julian Chan, Pradyot Prakash, Jun Liu, Ching-feng Yeh, Fuchun Peng, Yatharth Saraf, Geoffrey Zweig. 46-51 [doi]

Alignment Restricted Streaming Recurrent Neural Network TransducerJay Mahadeokar, Yuan Shangguan, Duc Le, Gil Keren, Hang Su, Thong Le, Ching-feng Yeh, Christian Fuegen, Michael L. Seltzer. 52-59 [doi]

Efficient Neural Architecture Search for End-to-End Speech Recognition Via Straight-Through GradientsHuahuan Zheng, Keyu An, Zhijian Ou. 60-67 [doi]

Transformer Based Deliberation for Two-Pass Speech RecognitionKe Hu, Ruoming Pang, Tara N. Sainath, Trevor Strohman. 68-74 [doi]

Simplified Self-Attention for Transformer-Based end-to-end Speech RecognitionHaoneng Luo, Shiliang Zhang, Ming Lei, Lei Xie. 75-81 [doi]

Multi-Quartznet: Multi-Resolution Convolution for Speech Recognition with Multi-Layer Feature FusionJian Luo, Jianzong Wang, Ning Cheng, Guilin Jiang, Jing Xiao. 82-88 [doi]

On The Usefulness of Self-Attention for Automatic Speech Recognition with TransformersShucong Zhang, Erfan Loweimi, Peter Bell 0001, Steve Renals. 89-96 [doi]

Low-Activity Supervised Convolutional Spiking Neural Networks Applied to Speech Commands RecognitionThomas Pellegrini, Romain Zimmer, Timothée Masquelier. 97-103 [doi]

Multi-Channel Automatic Speech Recognition Using Deep Complex UnetYuxiang Kong, Jian Wu, Quandong Wang, Peng Gao, Weiji Zhuang, Yujun Wang, Lei Xie. 104-110 [doi]

Dynamically Weighted Ensemble Models for Automatic Speech RecognitionKiran Praveen, Abhishek Pandey, Deepak Kumar, Shakti Prasad Rath, Sandip Shriram Bapat. 111-116 [doi]

Investigation of Node Pruning Criteria for Neural Networks Model Compression with Non-Linear Function and Non-Uniform Network TopologyKazuhiro Nakadai, Yosuke Fukumoto, Ryu Takeda. 117-124 [doi]

Semi-Supervised end-to-end Speech Recognition via Local Prior MatchingWei-Ning Hsu, Ann Lee 0001, Gabriel Synnaeve, Awni Hannun. 125-132 [doi]

Metric Learning for Keyword SpottingJaesung Huh, MinJae Lee, Heesoo Heo, Seongkyu Mun, Joon Son Chung. 133-140 [doi]

Data-Filtering Methods for Self-Training of Automatic Speech Recognition SystemsAlexandru-Lucian Georgescu, Cristian Manolache, Dan Oneata, Horia Cucu, Corneliu Burileanu. 141-147 [doi]

Efficient Large Scale Semi-Supervised Learning for CTC Based Acoustic ModelsPrakhar Swarup, Debmalya Chakrabarty, Ashtosh Sapru, Hitesh Tulsiani, Harish Arsikere, Sri Garimella. 148-155 [doi]

Towards Unsupervised Learning of Speech Features in the WildMorgane Rivière, Emmanuel Dupoux. 156-163 [doi]

Whole-Word Segmental Speech Recognition with Acoustic Word EmbeddingsBowen Shi, Shane Settle, Karen Livescu. 164-171 [doi]

Improving RNN Transducer Based ASR with Auxiliary TasksChunxi Liu, Frank Zhang 0001, Duc Le, Suyoun Kim, Yatharth Saraf, Geoffrey Zweig. 172-179 [doi]

Improving Speech Recognition Accuracy of Local POI Using Geographical ModelsSongjun Cao, Yike Zhang, Xiaobing Feng, Long Ma. 180-185 [doi]

End-to-End Whispered Speech Recognition with Frequency-Weighted Approaches and Pseudo Whisper Pre-trainingHeng-Jui Chang, Alexander H. Liu, Hung-yi Lee, Lin-Shan Lee. 186-193 [doi]

Data Augmentation for end-to-end Code-Switching Speech RecognitionChenpeng Du, Hao Li, Yizhou Lu, Lan Wang, Yanmin Qian. 194-200 [doi]

Incorporating Discriminative DPGMM Posteriorgrams for Low-Resource ASRBin Wu, Sakriani Sakti, Satoshi Nakamura 0001. 201-208 [doi]

Frame-Level Specaugment for Deep Convolutional Neural Networks in Hybrid ASR SystemsXinwei Li, Yuanyuan Zhang, Xiaodan Zhuang, Daben Liu. 209-214 [doi]

Data Augmenting Contrastive Learning of Speech Representations in the Time DomainEugene Kharitonov, Morgane Rivière, Gabriel Synnaeve, Lior Wolf, Pierre-Emmanuel Mazaré, Matthijs Douze, Emmanuel Dupoux. 215-222 [doi]

Dual Application of Speech Enhancement for Automatic Speech RecognitionAshutosh Pandey, Chunxi Liu, Yun Wang, Yatharth Saraf. 223-228 [doi]

Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream end-to-end ASRRuizhi Li, Gregory Sell, Hynek Hermansky. 229-235 [doi]

Block-Online Guided Source SeparationShota Horiguchi, Yusuke Fujita, Kenji Nagamatsu. 236-242 [doi]

Internal Language Model Estimation for Domain-Adaptive End-to-End Speech RecognitionZhong Meng, Sarangarajan Parthasarathy, Eric Sun, Yashesh Gaur, Naoyuki Kanda, Liang Lu, Xie Chen, Rui Zhao, Jinyu Li, Yifan Gong. 243-250 [doi]

Deep Shallow Fusion for RNN-T PersonalizationDuc Le, Gil Keren, Julian Chan, Jay Mahadeokar, Christian Fuegen, Michael L. Seltzer. 251-257 [doi]

An Evaluation of Word-Level Confidence Estimation for End-to-End Automatic Speech RecognitionDan Oneata, Alexandru Caranica, Adriana Stan, Horia Cucu. 258-265 [doi]

Innovative Bert-Based Reranking Language Models for Speech RecognitionShih-Hsuan Chiu, Berlin Chen. 266-271 [doi]

Reed: An Approach Towards Quickly Bootstrapping Multilingual Acoustic ModelsBipasha Sen, Aditya Agarwal, Mirishkar Sai Ganesh, Anil Kumar Vuppala. 272-279 [doi]

Word Similarity Based Label Smoothing in Rnnlm Training for ASRMinguang Song, Yunxin Zhao, Shaojun Wang, Mei Han. 280-285 [doi]

Supervised Attention for Speaker RecognitionSeong Min Kye, Joon Son Chung, Hoirin Kim. 286-293 [doi]

Cross Attentive Pooling for Speaker VerificationSeong Min Kye, Yoohwan Kwon, Joon Son Chung. 294-300 [doi]

ResNeXt and Res2Net Structures for Speaker VerificationTianyan Zhou, Yong Zhao, Jian Wu. 301-307 [doi]

Embedding Aggregation for Far-Field Speaker Verification with Distributed Microphone ArraysDanwei Cai, Ming Li. 308-315 [doi]

Synth2Aug: Cross-Domain Speaker Recognition with TTS Synthesized SpeechYiling Huang, Yutian Chen, Jason Pelecanos, Quan Wang. 316-322 [doi]

UIAI System for Short-Duration Speaker Verification Challenge 2020Md. Sahidullah, Achintya Kumar Sarkar, Ville Vestman, Xuechen Liu, Romain Serizel, Tomi Kinnunen, Zheng-Hua Tan, Emmanuel Vincent 0001. 323-329 [doi]

Multi-Feature Learning with Canonical Correlation Analysis Constraint for Text-Independent Speaker VerificationZheng Li, Miao Zhao, Lin Li, Qingyang Hong. 330-337 [doi]

Improving Speaker Recognition with Quality IndicatorsHrishikesh Rao 0001, Kedar Phatak, Elie Khoury. 338-343 [doi]

Audio Albert: A Lite Bert for Self-Supervised Learning of Audio RepresentationPo-Han Chi, Pei-Hung Chung, Tsung-Han Wu, Chun-Cheng Hsieh, Yen-Hao Chen, Shang-wen Li 0001, Hung-yi Lee. 344-350 [doi]

A Conditional Cycle Emotion Gan for Cross Corpus Speech Emotion RecognitionBo-Hao Su, Chi-Chun Lee. 351-357 [doi]

Investigations on audiovisual emotion recognition in noisy conditionsMichael Neumann, Ngoc Thang Vu. 358-364 [doi]

Improving Convolutional Recurrent Neural Networks for Speech Emotion RecognitionPatrick Meyer, Ziyi Xu, Tim Fingscheidt. 365-372 [doi]

On the Use of Self-Supervised Pre-Trained Acoustic and Linguistic Features for Continuous Speech Emotion RecognitionManon Macary, Marie Tahon, Yannick Estève, Anthony Rousseau. 373-380 [doi]

Self-Supervised Learning with Cross-Modal Transformers for Emotion RecognitionAparna Khare, Srinivas Parthasarathy, Shiva Sundaram. 381-388 [doi]

Domain Generalization with Triplet Network for Cross-Corpus Speech Emotion RecognitionShi-wook Lee. 389-396 [doi]

Emotion Recognition in Public Speaking Scenarios Utilising An LSTM-RNN Approach with AttentionAlice Baird, Shahin Amiriparian, Manuel Milling, Björn W. Schuller. 397-402 [doi]

Conversational End-to-End TTS for Voice AgentsHaohan Guo, Shaofei Zhang, Frank K. Soong, Lei He, Lei Xie. 403-409 [doi]

Controllable Emphatic Speech Synthesis based on Forward Attention for Expressive Speech SynthesisLiangqi Liu, Jiankun Hu, Zhiyong Wu, Song Yang, Songfan Yang, Jia Jia 0001, Helen Meng. 410-414 [doi]

Vaw-Gan For Disentanglement And Recomposition Of Emotional Elements In SpeechKun Zhou, Berrak Sisman, Haizhou Li 0001. 415-422 [doi]

Fine-Grained Emotion Strength Transfer, Control and Prediction for Emotional Speech SynthesisYi Lei, Shan Yang, Lei Xie. 423-430 [doi]

Supervised and unsupervised approaches for controlling narrow lexical focus in sequence-to-sequence speech synthesisSlava Shechtman, Raul Fernandez, David Haws. 431-437 [doi]

GraphPB: Graphical Representations of Prosody Boundary in Speech SynthesisAolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Lingwei Kong, Jing Xiao. 438-445 [doi]

Hierarchical Prosody Modeling for Non-Autoregressive Speech SynthesisChung-Ming Chien, Hung-yi Lee. 446-453 [doi]

Whispered and Lombard Neural Speech SynthesisQiong Hu, Tobias Bleisch, Petko Petkov, Tuomo Raitio, Erik Marchi, Varun Lakshminarasimhan. 454-461 [doi]

Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning with Spoofing Detection and Spoofing Type ClassificationYeunju Choi, Youngmoon Jung, Hoirin Kim. 462-469 [doi]

Improved Parallel Wavegan Vocoder with Perceptually Weighted Spectrogram LossEunwoo Song, Ryuichi Yamamoto, Min-Jae Hwang, Jin Seob Kim, Ohsung Kwon, Jae Min Kim. 470-476 [doi]

Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform GenerationYang Ai, Haoyu Li, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling. 477-484 [doi]

MelGlow: Efficient Waveform Generative Network Based On Location-Variable ConvolutionZhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao. 485-491 [doi]

Multi-Band Melgan: Faster Waveform Generation For High-Quality Text-To-SpeechGeng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen 0071, Lei Xie. 492-498 [doi]

Lightspeech: Lightweight Non-Autoregressive Multi-Speaker Text-To-SpeechSong Li, Beibei Ouyang, Lin Li, Qingyang Hong. 499-506 [doi]

Optimizing Voice Conversion Network with Cycle Consistency Loss of Speaker IdentityHongqiang Du, Xiaohai Tian, Lei Xie, Haizhou Li 0001. 507-513 [doi]

How Far Are We from Robust Voice Conversion: A SurveyTzu-hsien Huang, Jheng-Hao Lin, Hung-yi Lee. 514-521 [doi]

Learn2Sing: Target Speaker Singing Voice Synthesis by Learning from a Singing TeacherHeyang Xue, Shan Yang, Yi Lei, Lei Xie, Xiulin Li. 522-529 [doi]

Unsupervised Acoustic-to-Articulatory Inversion Neural Network Learning Based on Deterministic Policy GradientHayato Shibata, Mingxin Zhang, Takahiro Shinozaki. 530-537 [doi]

Spoofprint: A New Paradigm for Spoofing Attacks DetectionTianxiang Chen, Elie Khoury. 538-543 [doi]

Detection and Evaluation of Human and Machine Generated Speech in Spoofing Attacks on Automatic Speaker Verification SystemsYang Gao, Jiachen Lian, Bhiksha Raj, Rita Singh. 544-551 [doi]

Defending Your Voice: Adversarial Attack on Voice ConversionChien-Yu Huang, Yist Y. Lin, Hung-yi Lee, Lin-Shan Lee. 552-559 [doi]

Lightweight Voice Anonymization Based on Data-Driven Optimization of Cascaded Voice Modification ModulesHiroto Kai, Shinnosuke Takamichi, Sayaka Shiota, Hitoshi Kiya. 560-566 [doi]

Look Who's Not TalkingYoungki Kwon, Hee-Soo Heo, Jaesung Huh, Bong-Jin Lee, Joon Son Chung. 567-573 [doi]

Discriminative Neural Clustering for Speaker DiarisationQiujia Li, Florian L. Kreyssig, Chao Zhang 0031, Philip C. Woodland. 574-581 [doi]

Multi-Class Spectral Clustering with Overlaps for Speaker DiarizationDesh Raj, Zili Huang, Sanjeev Khudanpur. 582-589 [doi]

Developing Neural Representations for Robust Child-Adult DiarizationSuchitra Krishnamachari, Manoj Kumar 0007, So-Hyun Kim, Catherine Lord, Shrikanth Narayanan. 590-597 [doi]

End-To-End Lip Synchronisation Based on Pattern ClassificationYou Jin Kim, Hee-Soo Heo, Soo-Whan Chung, Bong-Jin Lee. 598-605 [doi]

End-To-End Silent Speech Recognition with Acoustic SensingJian Luo, Jianzong Wang, Ning Cheng, Guilin Jiang, Jing Xiao. 606-612 [doi]

Speaker-Independent Visual Speech Recognition with the Inception V3 ModelTimothy Israel Santos, Andrew Abel, Nick Wilson, Yan Xu. 613-620 [doi]

Listen, Look and Deliberate: Visual Context-Aware Speech Recognition Using Pre-Trained Text-Video RepresentationsShahram Ghorbani, Yashesh Gaur, Yu Shi, Jinyu Li. 621-628 [doi]

Analysis of Multimodal Features for Speaking Proficiency Scoring in an Interview DialogueMao Saeki, Yoichi Matsuyama, Satoshi Kobashikawa, Tetsuji Ogawa, Tetsunori Kobayashi. 629-635 [doi]

Detecting Expressions with Multimodal TransformersSrinivas Parthasarathy, Shiva Sundaram. 636-643 [doi]

Noise-Robust Spoken Language Identification Using Language Relevance Factor Based EmbeddingMuralikrishna H, Shikha Gupta, Dileep Aroor Dinesh, Padmanabhan Rajan. 644-651 [doi]

VOXLINGUA107: A Dataset for Spoken Language RecognitionJörgen Valk, Tanel Alumäe. 652-658 [doi]

Streaming ResLSTM with Causal Mean Aggregation for Device-Directed Utterance DetectionXiaosu Tong, Che-Wei Huang, Sri Harish Mallidi, Shaun Joseph, Sonal Pareek, Chander Chandak, Ariya Rastrow, Roland Maas. 659-664 [doi]

Real-Time Independent Vector Analysis with a Deep-Learning-Based Source ModelFang Kang, Feiran Yang, Jun Yang 0004. 665-669 [doi]

An Exploration of Log-Mel Spectrogram and MFCC Features for Alzheimer's Dementia Recognition from Spontaneous SpeechAmit Meghanani, Anoop C. S., A. G. Ramakrishnan. 670-677 [doi]

Film Quality Prediction Using Acoustic, Prosodic and Lexical CuesSu Ji Park, Alan Rozet. 678-684 [doi]

Towards Automatic Route Description Unification in Spoken Dialog SystemsYulan Feng, Alan W. Black, Maxine Eskénazi. 685-692 [doi]

Articulatory Comparison of L1 and L2 Speech for Mispronunciation DiagnosisSubash Khanal, Michael T. Johnson, Narjes Bozorg. 693-697 [doi]

Optimized Prediction of Fluency of L2 English Based on Interpretable Network Using Quantity of Phonation and Quality of PronunciationYang Shen, Ayano Yasukagawa, Daisuke Saito, Nobuaki Minematsu, Kazuya Saito. 698-704 [doi]

Automated Scoring of Spontaneous Speech from Young Learners of English Using TransformersXinhao Wang, Keelan Evanini, Yao Qian, Matthew Mulholland. 705-712 [doi]

Improving L2 English Rhythm Evaluation with Automatic Sentence Stress DetectionBinghuai Lin, Liyuan Wang, Hongwei Ding, Xiaoli Feng. 713-719 [doi]

Enhancing the Intelligibility of Cleft Lip and Palate Speech Using Cycle-Consistent Adversarial NetworksProtima Nomo Sudro, Rohan Kumar Das, Rohit Sinha 0003, S. R. Mahadeva Prasanna. 720-727 [doi]

Development of CNN-Based Cochlear Implant and Normal Hearing Sound Recognition Models Using Natural and Auralized Environmental AudioRam C. M. C. Shekar, Chelzy Belitz, John H. L. Hansen. 728-733 [doi]

Enhancing Low-Quality Voice Recordings Using Disentangled Channel Factor and Neural Waveform ModelHaoyu Li, Yang Ai, Junichi Yamagishi. 734-741 [doi]

Can We Trust Deep Speech Prior?Ying Shi 0001, Haolin Chen, Zhiyuan Tang, Lantian Li, Dong Wang 0013, Jiqing Han. 742-749 [doi]

Contextual Joint Factor Acoustic EmbeddingsYanpei Shi, Thomas Hain. 750-757 [doi]

Supervised Speaker Embedding De-Mixing in Two-Speaker EnvironmentYanpei Shi, Thomas Hain. 758-765 [doi]

Neural Mask based Multi-channel Convolutional Beamforming for Joint Dereverberation, Echo Cancellation and DenoisingJianming Liu, Meng Yu, Yong Xu, Chao Weng, Shi-Xiong Zhang, LianWu Chen, Dong Yu 0001. 766-770 [doi]

Personalizing Speech Start Point and End Point Detection in ASR Systems from Speaker EmbeddingsAditya Jayasimha, Periyasamy Paramasivam. 771-777 [doi]

Multimodal Attention Fusion for Target Speaker ExtractionHiroshi Sato, Tsubasa Ochiai, Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani, Shoko Araki. 778-784 [doi]

ESPnet-SE: End-To-End Speech Enhancement and Separation Toolkit Designed for ASR IntegrationChenda Li, Jing Shi 0003, Wangyou Zhang, Aswin Shanmugam Subramanian, Xuankai Chang, Naoyuki Kamo, Moto Hira, Tomoki Hayashi, Christoph Böddeker, Zhuo Chen 0006, Shinji Watanabe 0001. 785-792 [doi]

An Investigation into the Multi-channel Time Domain Speaker Extraction NetworkCatalin Zorila, Mohan Li, Rama Doddipatla. 793-800 [doi]

Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent NetworksMax W. Y. Lam, Jun Wang, Dan Su, Dong Yu. 801-808 [doi]

Investigation of End-to-End Speaker-Attributed ASR for Continuous Multi-Talker RecordingsNaoyuki Kanda, Xuankai Chang, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen 0006, Takuya Yoshioka. 809-816 [doi]

WPD++: An Improved Neural Beamformer for Simultaneous Speech Separation and DereverberationZhaoheng Ni, Yong Xu, Meng Yu, Bo Wu, Shi-Xiong Zhang, Dong Yu, Michael I. Mandel. 817-824 [doi]

Distortion-Controlled Training for end-to-end Reverberant Speech Separation with Auxiliary Autoencoding LossYi Luo 0004, Cong Han, Nima Mesgarani. 825-832 [doi]

Exploring End-to-End Multi-Channel ASR with Bias Information for Meeting TranscriptionXiaofei Wang, Naoyuki Kanda, Yashesh Gaur, Zhuo Chen 0006, Zhong Meng, Takuya Yoshioka. 833-840 [doi]

Online End-To-End Neural Diarization with Speaker-Tracing BufferYawen Xue, Shota Horiguchi, Yusuke Fujita, Shinji Watanabe 0001, Paola García, Kenji Nagamatsu. 841-848 [doi]

End-to-End Speaker Diarization Conditioned on Speech Activity and Overlap DetectionYuki Takashima, Yusuke Fujita, Shinji Watanabe 0001, Shota Horiguchi, Paola García, Kenji Nagamatsu. 849-856 [doi]

DESNet: A Multi-Channel Network for Simultaneous Speech Dereverberation, Enhancement and SeparationYihui Fu, Jian Wu, Yanxin Hu, Mengtao Xing, Lei Xie. 857-864 [doi]

Dual-Path RNN for Long Recording Speech SeparationChenda Li, Yi Luo, Cong Han, Jinyu Li, Takuya Yoshioka, Tianyan Zhou, Marc Delcroix, Keisuke Kinoshita, Christoph Böddeker, Yanmin Qian, Shinji Watanabe 0001, Zhuo Chen 0006. 865-872 [doi]

RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and SolutionsChung-Cheng Chiu, Arun Narayanan, Wei Han, Rohit Prabhavalkar, Yu Zhang, Navdeep Jaitly, Ruoming Pang, Tara N. Sainath, Patrick Nguyen, Liangliang Cao, Yonghui Wu. 873-880 [doi]

DOVER-Lap: A Method for Combining Overlap-Aware Diarization OutputsDesh Raj, Leibny Paola García-Perera, Zili Huang, Shinji Watanabe 0001, Daniel Povey, Andreas Stolcke, Sanjeev Khudanpur. 881-888 [doi]

Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech SeparationKaterina Zmolíková, Marc Delcroix, Lukás Burget, Tomohiro Nakatani, Jan Honza Cernocký. 889-896 [doi]

Integration of Speech Separation, Diarization, and Recognition for Multi-Speaker Meetings: System Description, Comparison, and AnalysisDesh Raj, Pavel Denisov, Zhuo Chen 0006, Hakan Erdogan, Zili Huang, Maokui He, Shinji Watanabe 0001, Jun Du, Takuya Yoshioka, Yi Luo, Naoyuki Kanda, Jinyu Li, Scott Wisdom, John R. Hershey. 897-904 [doi]

Sequential Multi-Frame Neural Beamforming for Speech Separation and EnhancementZhong-qiu Wang, Hakan Erdogan, Scott Wisdom, Kevin W. Wilson, Desh Raj, Shinji Watanabe 0001, Zhuo Chen 0006, John R. Hershey. 905-911 [doi]

Acoustic Modeling for Multi-Array Conversational Speech Recognition in the Chime-6 ChallengeLi Chai 0002, Jun Du, Diyuan Liu, Yanhui Tu, Chin-Hui Lee. 912-918 [doi]

Acoustic Word Embeddings for Zero-Resource Languages Using Self-Supervised Contrastive Learning and Multilingual AdaptationChristiaan Jacobs, Yevgen Matusevych, Herman Kamper. 919-926 [doi]

A Comparison of Self-Supervised Speech Representations As Input Features For Unsupervised Acoustic Word EmbeddingsLisa van Staden, Herman Kamper. 927-934 [doi]

Acoustic Span Embeddings for Multilingual Query-by-Example SearchYushi Hu, Shane Settle, Karen Livescu. 935-942 [doi]

Uncertainty-Aware Representations for Spoken Question AnsweringMerve Ünlü, Ebru Arisoy. 943-949 [doi]

Tight Integrated End-to-End Training for Cascaded Speech TranslationParnia Bahar, Tobias Bieschke, Ralf Schlüter, Hermann Ney. 950-957 [doi]

Transformer-Based Direct Speech-To-Speech Translation with TranscoderTakatomo Kano, Sakriani Sakti, Satoshi Nakamura 0001. 958-965 [doi]

Protoda: Efficient Transfer Learning for Few-Shot Intent ClassificationManoj Kumar 0007, Varun Kumar, Hadrien Glaude, Cyprien de Lichy, Aman Alok, Rahul Gupta. 966-972 [doi]

VirAAL: Virtual Adversarial Active Learning for NLUGrégory Senay, Badr Youbi Idrissi, Marine Haziza. 973-980 [doi]

Warped Language Models for Noise Robust Language UnderstandingMahdi Namazifar, Gökhan Tür, Dilek Hakkani-Tür. 981-988 [doi]

RNN Based Incremental Online Spoken Language UnderstandingPrashanth Gurunath Shivakumar, Naveen Kumar 0004, Panayiotis G. Georgiou, Shrikanth Narayanan. 989-996 [doi]

A Light Transformer For Speech-To-Intent ApplicationsPu Wang, Hugo Van Hamme. 997-1003 [doi]

Meta Learning to Classify Intent and Slot Labels with Noisy Few Shot ExamplesShang-wen Li 0001, Jason Krone, Shuyan Dong, Yi Zhang, Yaser Al-Onaizan. 1004-1011 [doi]

Large-Context Conversational Representation Learning: Self-Supervised Learning For Conversational DocumentsRyo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi. 1012-1019 [doi]

Using Paralinguistic Information to Disambiguate User Intentions for Distinguishing Phrase Structure and Sarcasm in Spoken Dialog SystemsZhengyu Zhou, In Gyu Choi, Yongliang He, Vikas Yadav, Chin-Hui Lee. 1020-1027 [doi]

Go Beyond Plain Fine-Tuning: Improving Pretrained Models for Social CommonsenseTing-Yun Chang, Yang Liu 0180, Karthik Gopalakrishnan 0001, Behnam Hedayatnia, Pei Zhou, Dilek Hakkani-Tür. 1028-1035 [doi]

Getting Your Conversation on Track: Estimation of Residual Life for ConversationsZexin Lu, Jing Li, Yingyi Zhang, Haisong Zhang. 1036-1043 [doi]

Personalized Extractive Summarization for a News Dialogue SystemHiroaki Takatsu, Mayu Okuda, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, Tetsunori Kobayashi. 1044-1051 [doi]

Cross-Demographic Portability of Deep NLP-Based Depression ModelsTomek Rutowski, Elizabeth Shriberg, Amir Harati, Yang Lu, Ricardo Oliveira, Piotr Chlebek. 1052-1057 [doi]

Through the Words of Viewers: Using Comment-Content Entangled Network for Humor Impression RecognitionHuan-Yu Chen, Yun-Shao Lin, Chi-Chun Lee. 1058-1064 [doi]

Two-Way Neural Machine Translation: A Proof of Concept for Bidirectional Translation Modeling Using a Two-Dimensional GridParnia Bahar, Christopher Brix, Hermann Ney. 1065-1070 [doi]

A New Dataset for Natural Language Understanding of Exercise Logs in a Food and Fitness Spoken Dialogue SystemMaya Epps, Juan Uribe, Mandy Korpusik. 1071-1078 [doi]

Towards Large-Scale Data Annotation of Audio from Wearables: Validating Zooniverse Annotations of Infant Vocalization TypesChiara Semenzin, Lisa Hamrick, Amanda Seidl, Bridgette Kelleher, Alejandrina Cristià. 1079-1085 [doi]

IDEA: An Italian Dysarthric Speech DatabaseMarco Marini, Mauro Viganò, Massimo Corbo, Marina Zettin, Gloria Simoncini, Bruno Fattori, Clelia D'Anna, Massimiliano Donati, Luca Fanucci. 1086-1093 [doi]

Efficient corpus design for wake-word detectionDelowar Hossain, Yoshinao Sato. 1094-1100 [doi]

IEEE SLT 2021 Alpha-Mini Speech Challenge: Open Datasets, Tracks, Rules and BaselinesYihui Fu, Zhuoyuan Yao, Weipeng He, Jian Wu, Xiong Wang, Zhanheng Yang, Shimin Zhang, Lei Xie, Dongyan Huang, Hui Bu, Petr Motlícek, Jean-Marc Odobez. 1101-1108 [doi]

Tal: A Synchronised Multi-Speaker Corpus of Ultrasound Tongue Imaging, Audio, and Lip VideosManuel Sam Ribeiro, Jennifer Sanger, Jing-Xuan Zhang, Aciel Eshky, Alan Wrench, Korin Richmond, Steve Renals. 1109-1116 [doi]

The SLT 2021 Children Speech Recognition Challenge: Open Datasets, Rules and BaselinesFan Yu, Zhuoyuan Yao, Xiong Wang, Keyu An, Lei Xie, Zhijian Ou, Bo Liu, Xiulin Li, Guanqiong Miao. 1117-1123 [doi]

runs on WebDSL