IEEE Automatic Speech Recognition and Understanding Workshop, ASRU 2021, Cartagena, Colombia, December 13-17, 2021 - researchr publication

researchr

You are not signed in
Sign in
Sign up

IEEE Automatic Speech Recognition and Understanding Workshop, ASRU 2021, Cartagena, Colombia, December 13-17, 2021. IEEE, 2021. [doi]

Conference: asru2021

Abstract is missing.

Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech RecognitionChristian Huber, Juan Hussain, Sebastian Stüker, Alexander H. Waibel. 1-7 [doi]

Efficient Conformer: Progressive Downsampling and Grouped Attention for Automatic Speech RecognitionMaxime Burchi, Valentin Vielzeuf. 8-15 [doi]

A Study of Transducer Based End-to-End ASR with ESPnet: Architecture, Auxiliary Loss and Decoding StrategiesFlorian Boyer, Yusuke Shinohara, Takaaki Ishii, Hirofumi Inaguma, Shinji Watanabe 0001. 16-23 [doi]

A Study on Cross-Corpus Speech Emotion Recognition and Data AugmentationNorbert Braunschweiler, Rama Doddipatla, Simon Keizer, Svetlana Stoyanchev. 24-30 [doi]

Detecting Emotion Carriers by Combining Acoustic and Lexical RepresentationsSebastian P. Bayerl, Aniruddha Tammewar, Korbinian Riedhammer, Giuseppe Riccardi. 31-38 [doi]

Beyond Isolated Utterances: Conversational Emotion RecognitionRaghavendra Pappagari, Piotr Zelasko, Jesús Villalba, Laureano Moro-Velázquez, Najim Dehak. 39-46 [doi]

A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text GenerationYosuke Higuchi, Nanxin Chen, Yuya Fujita, Hirofumi Inaguma, Tatsuya Komatsu, Jaesong Lee, Jumon Nozaki, Tianzi Wang, Shinji Watanabe 0001. 47-54 [doi]

TENET: A Time-Reversal Enhancement Network for Noise-Robust ASRFu-An Chao, Shao-Wei Fan-Jiang, Bi-Cheng Yan, Jeih-Weih Hung, Berlin Chen. 55-61 [doi]

Latency-Controlled Neural Architecture Search for Streaming Speech RecognitionLiqiang He, Shulin Feng, Dan Su 0002, Dong Yu 0001. 62-67 [doi]

Data Augmentation for ASR Using TTS Via a Discrete RepresentationSei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 68-75 [doi]

Improving Hybrid CTC/Attention End-to-End Speech Recognition with Pretrained Acoustic and Language ModelsKeqi Deng, Songjun Cao, Yike Zhang, Long Ma. 76-82 [doi]

Improving ASR Error Correction Using N-Best HypothesesLinchen Zhu, Wenjie Liu, Linquan Liu, Edward Lin. 83-89 [doi]

Self-Supervised Metric Learning With Graph Clustering For Speaker DiarizationPrachi Singh, Sriram Ganapathy. 90-97 [doi]

Towards Neural Diarization for Unlimited Numbers of Speakers Using Global and Local AttractorsShota Horiguchi, Shinji Watanabe 0001, Paola García, Yawen Xue, Yuki Takashima, Yohei Kawaguchi. 98-105 [doi]

PL-EESR: Perceptual Loss Based End-to-End Robust Speaker Representation ExtractionYi Ma, Kong-Aik Lee, Ville Hautamäki, Haizhou Li 0001. 106-113 [doi]

Robust Speech-Age Estimation Using Local Maximum Mean Discrepancy Under Mismatched Recording ConditionsNaohiro Tawara, Atsunori Ogawa, Yuki Kitagishi, Hosana Kamiyama, Yusuke Ijima. 114-121 [doi]

DeepLip: A Benchmark for Deep Learning-Based Audio-Visual Lip BiometricsMeng Liu, Longbiao Wang, Kong-Aik Lee, Hanyi Zhang, Chang Zeng, Jianwu Dang. 122-129 [doi]

Short-Utterance Embedding Enhancement Method Based on Time Series Forecasting Technique for Text-Independent Speaker VerificationJeong Hwan Choi, Joon-Young Yang, Joon-Hyuk Chang. 130-137 [doi]

Distilling Knowledge from Ensembles of Acoustic Models for Joint CTC-Attention End-to-End Speech RecognitionYan Gao, Titouan Parcollet, Nicholas D. Lane. 138-145 [doi]

Efficient Keyword Spotting by Capturing Long-Range Interactions with Temporal Lambda NetworksBiel Tura, Santiago Escuder, Ferran Diego, Carlos Segura, Jordi Luque. 146-153 [doi]

Improving HS-DACS Based Streaming Transformer ASR with Deep Reinforcement LearningMohan Li, Rama Doddipatla. 154-161 [doi]

Adapting GPT, GPT-2 and BERT Language Models for Speech RecognitionXianrui Zheng, Chao Zhang 0031, Philip C. Woodland. 162-168 [doi]

Comparison of Self-Supervised Speech Pre-Training Methods on Flemish DutchJakob Poncelet, Hugo Van Hamme. 169-176 [doi]

Relaxed Attention: A Simple Method to Boost Performance of End-to-End Automatic Speech RecognitionTimo Lohrenz, Patrick Schwarz, Zhengyang Li, Tim Fingscheidt. 177-184 [doi]

Optimized Power Normalized Cepstral Coefficients Towards Robust Deep Speaker VerificationXuechen Liu, Md. Sahidullah, Tomi Kinnunen. 185-190 [doi]

On the Invertibility of a Voice Privacy System Using Embedding AlignmentPierre Champion, Thomas Thebaud, Gaël Le Lan, Anthony Larcher, Denis Jouvet. 191-197 [doi]

Improving Text-Independent Speaker Verification with Auxiliary Speakers Using GraphJingyu Li, Si Ioi Ng, Tan Lee. 198-205 [doi]

Duality Temporal-Channel-Frequency Attention Enhanced Speaker Representation LearningLi Zhang, Qing Wang, Lei Xie 0001. 206-213 [doi]

MACCIF-TDNN: Multi Aspect Aggregation of Channel and Context Interdependence Features in TDNN-Based Speaker VerificationFangyuan Wang, Zhigang Song, Hongchen Jiang, Bo Xu 0002. 214-219 [doi]

SI-Net: Multi-Scale Context-Aware Convolutional Block for Speaker VerificationZhuo Li, Ce Fang, Runqiu Xiao, Wenchao Wang, Yonghong Yan 0002. 220-227 [doi]

An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech RecognitionXuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi 0003, Yen-Ju Lu, Aswin Shanmugam Subramanian, Tianzi Wang, Shu-Wen Yang, Yu Tsao 0001, Hung-yi Lee, Shinji Watanabe 0001. 228-235 [doi]

Remember the Context! ASR Slot Error Correction Through MemorizationDhanush Bekal, Ashish Shenoy, Monica Sunkara, Sravan Bodapati, Katrin Kirchhoff. 236-243 [doi]

w2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-TrainingYu-An Chung, Yu Zhang 0033, Wei Han 0002, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu. 244-250 [doi]

Injecting Text in Self-Supervised Speech PretrainingZhehuai Chen, Yu Zhang 0033, Andrew Rosenberg, Bhuvana Ramabhadran, Gary Wang, Pedro J. Moreno. 251-258 [doi]

TS-RIR: Translated Synthetic Room Impulse Responses for Speech AugmentationAnton Ratnarajah, Zhenyu Tang, Dinesh Manocha. 259-266 [doi]

On Architectures and Training for Raw Waveform Feature Extraction in ASRPeter Vieting, Christoph Lüscher, Wilfried Michel, Ralf Schlüter, Hermann Ney. 267-274 [doi]

Multi-User Voicefilter-Lite via Attentive Speaker EmbeddingRajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ian McGraw. 275-282 [doi]

Speaker Conditioning of Acoustic Models Using Affine Transformation for Multi-Speaker Speech RecognitionMidia Yousefi, John H. L. Hansen. 283-288 [doi]

Scenario Aware Speech Recognition: Advancements for Apollo Fearless Steps & CHiME-4 CorporaSzu-Jui Chen, Wei Xia, John H. L. Hansen. 289-295 [doi]

A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form AudioNaoyuki Kanda, Xiong Xiao, Jian Wu, Tianyan Zhou, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen 0006, Takuya Yoshioka. 296-303 [doi]

A Conformer-Based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech SeparationTom O'Malley, Arun Narayanan, Quan Wang, Alex Park 0001, James Walker, Nathan Howard. 304-311 [doi]

Cross-Attention Conformer for Context Modeling in Speech Enhancement for ASRArun Narayanan, Chung-Cheng Chiu, Tom O'Malley, Quan Wang, Yanzhang He. 312-319 [doi]

Incremental Learning for End-to-End Automatic Speech RecognitionLi Fu, Xiaoxiao Li, Libo Zi, Zhengchen Zhang, Youzheng Wu, Xiaodong He 0002, Bowen Zhou. 320-327 [doi]

Boundary and Context Aware Training for CIF-Based Non-Autoregressive End-to-End ASRFan Yu, Haoneng Luo, Pengcheng Guo, Yuhao Liang, Zhuoyuan Yao, Lei Xie 0001, Yingying Gao, Leijing Hou, Shilei Zhang. 328-334 [doi]

Automatic Speech Recognition for Low-Resource Languages: The Thuee Systems for the IARPA Openasr20 EvaluationJing Zhao, Gui-Xin Shi, Guan-Bo Wang, Wei-Qiang Zhang 0001. 335-341 [doi]

Unsupervised Domain Adaptation Schemes for Building ASR in Low-Resource LanguagesAnoop C. S., Prathosh A. P., A. G. Ramakrishnan. 342-349 [doi]

Multimodal Emotion Recognition with High-Level Speech and Text FeaturesMariana Rodrigues Makiuchi, Kuniaki Uto, Koichi Shinoda. 350-357 [doi]

Speech Emotion Recognition Using Semi-Supervised Learning with Efficient Labeling StrategiesZhi Zhu, Yoshinao Sato. 358-365 [doi]

Unsupervised Cross-Lingual Speech Emotion Recognition Using Pseudo MultilabelJin Li, Nan Yan, Lan Wang. 366-373 [doi]

Ensemble of Domain Adversarial Neural Networks for Speech Emotion RecognitionShi-wook Lee. 374-379 [doi]

ASR Rescoring and Confidence Estimation with ElectraHayato Futami, Hirofumi Inaguma, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara. 380-387 [doi]

Comparative Study of Different Tokenization Strategies for Streaming End-to-End ASRSachin Singh, Ashutosh Gupta, Aman Maghan, Dhananjaya Gowda, Shatrughan Singh, Chanwoo Kim. 388-394 [doi]

HiTNet: Byte-to-BPE Hierarchical Transcription Network for End-to-End Speech RecognitionDhananjaya Gowda, Abhinav Garg, Jiyeon Kim, Mehul Kumar, Sachin Singh, Ashutosh Gupta, Ankur Kumar, Nauman Dawalatabad, Aman Maghan, Shatrughan Singh, Chanwoo Kim. 395-402 [doi]

Two-Pass End-to-End ASR Model CompressionNauman Dawalatabad, Tushar Vatsal, Ashutosh Gupta, Sungsoo Kim, Shatrughan Singh, Dhananjaya Gowda, Chanwoo Kim. 403-410 [doi]

Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document SegmentationQinglin Zhang, Qian Chen, Yali Li 0001, Jiaqing Liu, Wen Wang. 411-418 [doi]

Exploring Teacher-Student Learning Approach for Multi-Lingual Speech-to-Intent ClassificationBidisha Sharma, Maulik C. Madhavi, Xuehao Zhou, Haizhou Li 0001. 419-426 [doi]

Topic Classification on Spoken Documents Using Deep Acoustic and Linguistic FeaturesTan Liu, Wu Guo. 427-432 [doi]

Hierarchical Knowledge Distillation for Dialogue Sequence LabelingShota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura. 433-440 [doi]

Learning How Long to Wait: Adaptively-Constrained Monotonic Multihead Attention for Streaming ASRJaeyun Song, Hajin Shim, Eunho Yang. 441-448 [doi]

Utterance-Level Neural Confidence Measure for End-to-End Children Speech RecognitionWei Liu, Tan Lee. 449-456 [doi]

Warped Ensembles: A Novel Technique for Improving CTC Based End-to-End Speech RecognitionKiran Praveen, Hardik B. Sailor, Abhishek Pandey. 457-464 [doi]

Non-Autoregressive Mandarin-English Code-Switching Speech RecognitionShun-Po Chuang, Heng-Jui Chang, Sung-Feng Huang, Hung-yi Lee. 465-472 [doi]

Voice to Action: Spoken Language Understanding for Memory-Constrained SystemsAshutosh Gupta, Aditya Jayasimha, Aman Maghan, Shatrughan Singh, Dhananjaya Gowda, Chanwoo Kim. 473-479 [doi]

Variational Sequential Modeling, Learning and UnderstandingJen-Tzung Chien, Chih-Jung Tsai. 480-486 [doi]

Attention-Based Multi-Hypothesis Fusion for Speech SummarizationTakatomo Kano, Atsunori Ogawa, Marc Delcroix, Shinji Watanabe 0001. 487-494 [doi]

Estimating the Generation Timing of Responsive Utterances by Active Listeners of Spoken NarrativesKoichiro Ito, Masaki Murata, Tomohiro Ohno, Shigeki Matsubara. 495-502 [doi]

Context-Aware Transformer Transducer for Speech RecognitionFeng-Ju Chang, Jing Liu, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo, Ariya Rastrow, Siegfried Kunzmann. 503-510 [doi]

PSVD: Post-Training Compression of LSTM-Based RNN-T ModelsSuwa Xu, Jinwon Lee, Jim Steele. 511-517 [doi]

Kaizen: Continuously Improving Teacher Using Exponential Moving Average for Semi-Supervised Speech RecognitionVimal Manohar, Tatiana Likhomanenko, Qiantong Xu, Wei-Ning Hsu, Ronan Collobert, Yatharth Saraf, Geoffrey Zweig, Abdelrahman Mohamed. 518-525 [doi]

On Addressing Practical Challenges for RNN-TransducerRui Zhao, Jian Xue, Jinyu Li 0001, Wenning Wei, Lei He, Yifan Gong 0001. 526-533 [doi]

Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk and Far-Talk Speech RecognitionFelix Weninger, Marco Gaudesi, Ralf Leibold, Roberto Gemello, Puming Zhan. 534-540 [doi]

Tiny-CRNN: Streaming Wakeword Detection in a Low Footprint SettingMohammad Omar Khursheed, Christin Jose, Rajath Kumar, Gengshen Fu, Brian Kulis, Santosh Kumar Cheekatmalla. 541-547 [doi]

Textual Echo CancellationShaojin Ding, Ye Jia, Ke Hu, Quan Wang. 548-555 [doi]

Colombian Dialect Recognition Based on Information Extracted from Speech and Text SignalsDaniel Escobar-Grisales, Cristian D. Rios-Urrego, D. A. López-Santander, J. D. Gallo-Aristizabal, Juan Camilo Vásquez-Correa, Elmar Nöth, Juan Rafael Orozco-Arroyave. 556-563 [doi]

Incorporating Real-World Noisy Speech in Neural-Network-Based Speech Enhancement SystemsYangyang Xia, Buye Xu, Anurag Kumar 0003. 564-570 [doi]

Multi-Task Learning with Cross Attention for Keyword SpottingTakuya Higuchi, Anmol Gupta, Chandra Dhir. 571-578 [doi]

Automatic Generation of Diagnostic Content Feedback in Spoken Language Learning and AssessmentXinhao Wang, Christopher Hamill. 579-586 [doi]

Are You Dictating to Me? Detecting Embedded Dictations in Doctor-Patient ConversationsThomas Schaaf, Longxiang Zhang, Alireza Bayestehtashk, Mark C. Fuhs, Shahid Durrani, Susanne Burger, Monika Woszczyna, Thomas Polzin. 587-593 [doi]

Expressive Voice Conversion: A Joint Framework for Speaker Identity and Emotional Style TransferZongyang Du, Berrak Sisman, Kun Zhou, Haizhou Li 0001. 594-601 [doi]

Learning Language and Speaker Information for Code-Switch Speech Synthesis with Limited DataMengxin Chai, Shaotong Guo, Cheng Gong, Longbiao Wang, Jianwu Dang, Ju Zhang 0001. 602-609 [doi]

Multi-Stream HiFi-GAN with Data-Driven Waveform DecompositionTakuma Okamoto, Tomoki Toda, Hisashi Kawai. 610-617 [doi]

DEEPA: A Deep Neural Analyzer for Speech and Singing VocodingSergey Nikonorov, Berrak Sisman, Mingyang Zhang 0003, Haizhou Li 0001. 618-625 [doi]

EditSpeech: A Text Based Speech Editing System Using Partial Inference and Bidirectional FusionDaxin Tan, Liqun Deng, Yu Ting Yeung, Xin Jiang 0002, Xiao Chen, Tan Lee. 626-633 [doi]

On-The-Fly Data Augmentation for Text-to-Speech Style TransferRaymond Chung, Brian Mak. 634-641 [doi]

On Prosody Modeling for ASR+TTS Based Voice ConversionWen-Chin Huang, Tomoki Hayashi, Xinjian Li, Shinji Watanabe 0001, Tomoki Toda. 642-649 [doi]

Mandarin Electrolaryngeal Speech Voice Conversion with Sequence-to-Sequence ModelingMing-Chi Yen, Wen-Chin Huang, Kazuhiro Kobayashi, Yu-Huai Peng, Shu-Wei Tsai, Yu Tsao 0001, Tomoki Toda, Jyh-Shing Roger Jang, Hsin-Min Wang. 650-657 [doi]

Attention-Based Scaling Adaptation for Target Speech ExtractionJiangyu Han, Wei Rao, Yanhua Long, Jiaen Liang. 658-662 [doi]

GLMSnet: Single Channel Speech Separation Framework in Noisy and Reverberant EnvironmentsHuiyu Shi, Xi Chen, Tianlong Kong, Shouyi Yin, Peng Ouyang. 663-670 [doi]

Multi-Task Audio Source SeparationLu Zhang, Chenxing Li, Feng Deng, Xiaorui Wang. 671-678 [doi]

Conferencingspeech Challenge: Towards Far-Field Multi-Channel Speech Enhancement for Video ConferencingWei Rao, Yihui Fu, Yanxin Hu, Xin Xu, Yvkai Jv, Jiangyu Han, Zhongjie Jiang, Lei Xie, Yannan Wang, Shinji Watanabe 0001, Zheng-Hua Tan, Hui Bu, Tao Yu, Shidong Shang. 679-686 [doi]

Voxceleb Enrichment for Age and Gender RecognitionKhaled Hechmi, Trung Ngo Trong, Ville Hautamäki, Tomi Kinnunen. 687-693 [doi]

Enabling Zero-Shot Multilingual Spoken Language Translation with Language-Specific Encoders and DecodersCarlos Escolano, Marta R. Costa-Jussà, José A. R. Fonollosa, Carlos Segura. 694-701 [doi]

Dive: End-to-End Speech Diarization Via Iterative Speaker EmbeddingNeil Zeghidour, Olivier Teboul, David Grangier. 702-709 [doi]

AC-VC: Non-Parallel Low Latency Phonetic Posteriorgrams Based Voice ConversionDamien Ronssin, Milos Cernak. 710-716 [doi]

Target Language Extraction at Multilingual Cocktail PartiesMarvin Borsdorf, Haizhou Li 0001, Tanja Schultz. 717-724 [doi]

Attention Based Model for Segmental Pronunciation Error DetectionJose Antonio Lopez Saenz, Md Asif Jalal, Rosanna Milner, Thomas Hain. 725-732 [doi]

Assessing Evaluation Metrics for Speech-to-Speech TranslationElizabeth Salesky, Julian Mäder, Severin Klinger. 733-740 [doi]

DiffSVC: A Diffusion Probabilistic Model for Singing Voice ConversionSongxiang Liu, Yuewen Cao, Dan Su 0002, Helen Meng. 741-748 [doi]

Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context Prediction NetworkTakaaki Saeki, Shinnosuke Takamichi, Hiroshi Saruwatari. 749-756 [doi]

Hearing Faces: Target Speaker Text-to-Speech Synthesis from a FaceBjörn Plüster, Cornelius Weber, Leyuan Qu, Stefan Wermter. 757-764 [doi]

Analysis of Conversational Speech with Application to Voice AdaptationBhagyashree Mukherjeee, Anusha Prakash, Hema A. Murthy. 765-772 [doi]

Vibrato Learning in Multi-Singer Singing Voice SynthesisRuolan Liu, Xue Wen, Chunhui Lu, Liming Song, June Sig Sung. 773-779 [doi]

Tree-Constrained Pointer Generator for End-to-End Contextual Speech RecognitionGuangzhi Sun, Chao Zhang 0031, Philip C. Woodland. 780-787 [doi]

Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition ArchitecturesNick Rossenbach, Mohammad Zeineldeen, Benedikt Hilmes, Ralf Schlüter, Hermann Ney. 788-795 [doi]

Audio-Visual Speech Recognition is Worth $32\times 32\times 8$ VoxelsDmitriy Serdyuk, Otavio Braga, Olivier Siohan. 796-802 [doi]

Leveraging Linguistic Knowledge for Accent Robustness of End-to-End ModelsAndrea Carmantini, Steve Renals, Peter Bell 0001. 803-810 [doi]

An Evaluation Benchmark for Automatic Speech Recognition of German-English Code-SwitchingAbbas Khosravani, Philip N. Garner, Alexandros Lararidis. 811-816 [doi]

Learning to Translate Low-Resourced Swiss German Dialectal Speech into Standard German TextAbbas Khosravani, Philip N. Garner, Alexandros Lazaridis. 817-823 [doi]

ChannelAugment: Improving Generalization of Multi-Channel ASR by Training with Input Channel RandomizationMarco Gaudesi, Felix Weninger, Dushyant Sharma, Puming Zhan. 824-829 [doi]

Improving Speech Recognition on Noisy Speech via Speech Enhancement with Multi-Discriminators CycleGANChia-Yu Li, Ngoc Thang Vu. 830-836 [doi]

Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language UnderstandingKai Wei, Thanh Tran, Feng-Ju Chang, Kanthashree Mysore Sathyendra, Thejaswi Muniyappa, Jing Liu, Anirudh Raju, Ross McGowan, Nathan Susanj, Ariya Rastrow, Grant P. Strimel. 837-844 [doi]

X-SHOT: Learning to Rank Voice Applications Via Cross-Locale Shard-Based Co-TrainingZheng Gao, Mohamed Abdelhady, Radhika Arava, Xibin Gao, Qian Hu, Wei Xiao, Thahir Mohamed. 845-852 [doi]

Intent Recognition and Unsupervised Slot Identification for Low-Resourced Spoken Dialog SystemsAkshat Gupta, Olivia Deng, Akruti Kushwaha, Saloni Mittal, William Zeng, Sai Krishna Rallabandi, Alan W. Black. 853-860 [doi]

Action Item Detection in Meetings Using Pretrained TransformersKishan Sachdeva, Joshua Maynez, Olivier Siohan. 861-868 [doi]

Deciding Whether to Ask Clarifying Questions in Large-Scale Spoken Language UnderstandingJoo-Kyung Kim, Guoyin Wang 0002, Sungjin Lee, Young-Bum Kim. 869-876 [doi]

Human-Agent Collaboration Strategies for Vision-Grounded Instruction FollowingGuan-Lin Chao, Ian R. Lane. 877-884 [doi]

Uncertainty-Aware Pseudo-Labeling for Spoken Language AssessmentBinghuai Lin, Liyuan Wang. 885-891 [doi]

An End-to-End Far-Field Keyword Spotting System with Neural BeamformingXuan Ji, Lu Lu, Fuming Fang, Jianbo Ma, Lei Zhu, Jinke Li, Dongdi Zhao, Ming Liu, Feijun Jiang. 892-899 [doi]

Improving Reverberant Speech Separation with Synthetic Room Impulse ResponsesRohith Aralikatti, Anton Ratnarajah, Zhenyu Tang, Dinesh Manocha. 900-906 [doi]

HASA-Net: A Non-Intrusive Hearing-Aid Speech Assessment NetworkHsin-Tien Chiang, Yi-Chiao Wu, Cheng Yu, Tomoki Toda, Hsin-Min Wang, Yih-Chun Hu, Yu Tsao 0001. 907-913 [doi]

Layer-Wise Analysis of a Self-Supervised Speech Representation ModelAnkita Pasad, Ju-Chieh Chou, Karen Livescu. 914-921 [doi]

Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden IntermediatesHirofumi Inaguma, Siddharth Dalmia, Brian Yan, Shinji Watanabe 0001. 922-929 [doi]

Cyclegean: Cycle Generative Enhanced Adversarial Network for Voice ConversionXulong Zhang, Jianzong Wang, Ning Cheng, Edward Xiao, Jing Xiao 0006. 930-937 [doi]

TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and Adversarial TrainingHuaizhen Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Zhen Zeng, Edward Xiao, Jing Xiao 0006. 938-945 [doi]

Reconstructing Dual Learning for Neural Voice Conversion Using Relatively Few SamplesAolan Sun, Jianzong Wang, Ning Cheng, Methawee Tantrawenith, Zhiyong Wu 0001, Helen Meng, Edward Xiao, Jing Xiao 0006. 946-953 [doi]

Multitask Generative Adversarial Imitation Learning for Multi-Domain Dialogue SystemChuan-En Hsu, Mahdin Rohmatillah, Jen-Tzung Chien. 954-961 [doi]

Audio Embeddings Help to Learn Better Dialogue PoliciesAsier López-Zorrilla, M. Inés Torres, Heriberto Cuayáhuitl. 962-968 [doi]

What does the User Want? Information Gain for Hierarchical Dialogue Policy OptimisationChristian Geishauser, Songbo Hu, Hsien-Chin Lin, Nurul Lubis, Michael Heck, Shutong Feng, Carel van Niekerk, Milica Gasic. 969-976 [doi]

Dialogue Strategy Adaptation to New Action Sets Using Multi-Dimensional ModellingSimon Keizer, Norbert Braunschweiler, Svetlana Stoyanchev, Rama Doddipatla. 977-983 [doi]

Semi-Supervised Transfer Learning for Language Expansion of End-to-End Speech Recognition Models to Low-Resource LanguagesJiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim. 984-988 [doi]

A Comparison of Streaming Models and Data Augmentation Methods for Robust Speech RecognitionJiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim. 989-995 [doi]

3D Spatial Features for Multi-Channel Target Speech SeparationRongzhi Gu, Shi-Xiong Zhang, Meng Yu 0003, Dong Yu 0001. 996-1002 [doi]

Far-Field Speech Recognition Based on Complex-Valued Neural Networks and Inter-Frame Similarity Difference MethodYifan Guo, Yifan Chen, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan 0002. 1003-1010 [doi]

Scaling End-to-End Models for Large-Scale Multilingual ASRBo Li 0028, Ruoming Pang, Tara N. Sainath, Anmol Gulati, Yu Zhang 0033, James Qin, Parisa Haghani, W. Ronny Huang, Min Ma, Junwen Bai. 1011-1018 [doi]

Decoupling Recognition and Transcription in Mandarin ASRJiahong Yuan, Xingyu Cai, Dongji Gao, Renjie Zheng, Liang Huang 0001, Kenneth Church 0001. 1019-1025 [doi]

On Lattice-Free Boosted MMI Training of HMM and CTC-Based Full-Context ASR ModelsXiaohui Zhang, Vimal Manohar, David Zhang, Frank Zhang 0001, Yangyang Shi, Nayan Singhal, Julian Chan, Fuchun Peng, Yatharth Saraf, Mike Seltzer. 1026-1033 [doi]

Multilingual and Crosslingual Speech Recognition Using Phonological-Vector Based Phone EmbeddingsChengrui Zhu, Keyu An, Huahuan Zheng, Zhijian Ou. 1034-1041 [doi]

In Pursuit of Babel - Multilingual End-to-End Spoken Language UnderstandingMarkus Müller, Samridhi Choudhary, Clement Chung, Athanasios Mouchtaris, Siegfried Kunzmann. 1042-1049 [doi]

Cross-Lingual Transfer for Speech Processing Using Acoustic Language SimilarityPeter Wu, Jiatong Shi, Yifan Zhong, Shinji Watanabe 0001, Alan W. Black. 1050-1057 [doi]

An ASR N-Best Transcript Neural Ranking Model for Spoken Content RetrievalYasufumi Moriya, Gareth J. F. Jones. 1058-1064 [doi]

Towards Robust Mispronunciation Detection and Diagnosis for L2 English Learners with Accent-Modulating MethodsShao-Wei Fan-Jiang, Bi-Cheng Yan, Tien-Hong Lo, Fu-An Chao, Berlin Chen. 1065-1070 [doi]

Multi-Granularity Annotation of Instantaneous Intelligibility of Learners' Utterances Based on Shadowing TechniquesChuanbo Zhu, Ryo Hakoda, Daisuke Saito, Nobuaki Minematsu, Noriko Nakanishi, Tazuko Nishimura. 1071-1078 [doi]

Applying X-Vectors on Pathological Speech After Larynx RemovalRalph Scheuerer, Tino Haderlein, Elmar Nöth, Tobias Bocklet. 1079-1086 [doi]

Multi-Task Language Modeling for Improving Speech Recognition of Rare WordsChao-Han Huck Yang, Linda Liu, Ankur Gandhe, Yile Gu, Anirudh Raju, Denis Filimonov, Ivan Bulyko. 1087-1093 [doi]

Leveraging Pre-Trained Representations to Improve Access to Untranscribed Speech from Endangered LanguagesNay San, Martijn Bartelds, Mitchell Browne, Lily Clifford, Fiona Gibson, John Mansfield, David Nash, Jane Simpson, Myfany Turpin, Maria Vollmer, Sasha Wilmoth, Dan Jurafsky. 1094-1101 [doi]

SpeechNAS: Towards Better Trade-Off Between Latency and Accuracy for Large-Scale Speaker VerificationWentao Zhu, Tianlong Kong, Shun Lu, Jixiang Li, Dawei Zhang, Feng Deng, Xiaorui Wang, Sen Yang, Ji Liu. 1102-1109 [doi]

Studying Squeeze-and-Excitation Used in CNN for Speaker VerificationMickael Rouvier, Pierre-Michel Bousquet. 1110-1115 [doi]

Hybrid Network with Multi-Level Global-Local Statistics Pooling for Robust Text-Independent Speaker RecognitionWoo Hyun Kang, Jahangir Alam, Abderrahim Fathan. 1116-1123 [doi]

Improving Speaker Identification for Shared Devices by Adapting Embeddings to Speaker SubsetsZhenning Tan, Yuguang Yang 0004, Eunjung Han, Andreas Stolcke. 1124-1131 [doi]

Parameterized Channel Normalization for Far-Field Deep Speaker VerificationXuechen Liu, Md. Sahidullah, Tomi Kinnunen. 1132-1138 [doi]

Overlap-Aware Low-Latency Online Speaker Diarization Based on End-to-End Local SegmentationJuan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset. 1139-1146 [doi]

"How Robust R U?": Evaluating Task-Oriented Dialogue Systems on Spoken ConversationsSeokhwan Kim, Yang Liu 0004, Di Jin, Alexandros Papangelis, Karthik Gopalakrishnan 0001, Behnam Hedayatnia, Dilek Hakkani-Tür. 1147-1154 [doi]

On-Device Neural Speech SynthesisSivanand Achanta, Albert Antony, Ladan Golipour, Jiangchuan Li, Tuomo Raitio, Ramya Rasipuram, Francesco Rossi, Jennifer Shi, Jaimin Upadhyay, David Winarsky, Hepeng Zhang. 1155-1161 [doi]

Towards Using Heterogeneous Relation Graphs for End-to-End TTSAmrith Setlur, Aman Madaan, Tanmay Parekh, Yiming Yang, Alan W. Black. 1162-1169 [doi]

Word-Level Confidence Estimation for RNN TransducersMingqiu Wang, Hagen Soltau, Laurent El Shafey, Izhak Shafran. 1170-1177 [doi]

Using Self Attention DNNs to Discover Phonemic Features for Audio Deep Fake DetectionHira Dhamyal, Ayesha Ali, Ihsan Ayyub Qazi, Agha Ali Raza. 1178-1184 [doi]

Joint Prediction of Truecasing and Punctuation for Conversational Speech in Low-Resource ScenariosRaghavendra Pappagari, Piotr Zelasko, Agnieszka Mikolajczyk, Piotr Pezik, Najim Dehak. 1185-1191 [doi]

runs on WebDSL