SLT - researchr publication

researchr

You are not signed in
Sign in
Sign up

SLT. 2022.

Conference: slt

Abstract is missing.

JOIST: A Joint Speech and Text Streaming Model for ASRTara N. Sainath, Rohit Prabhavalkar, Ankur Bapna, Yu Zhang 0033, Zhouyuan Huo, Zhehuai Chen, Bo Li 0028, Weiran Wang, Trevor Strohman. 52-59 [doi]

A Context-Aware Knowledge Transferring Strategy for CTC-Based ASRKe-Han Lu, Kuan-Yu Chen. 60-67 [doi]

E-Branchformer: Branchformer with Enhanced Merging for Speech RecognitionKwangyoun Kim, Felix Wu, Yifan Peng, Jing Pan, Prashant Sridhar, Kyu J. Han, Shinji Watanabe 0001. 84-91 [doi]

Conformer-Based on-Device Streaming Speech Recognition with KD Compression and Two-Pass ArchitectureJinhwan Park, Sichen Jin, JunMo Park, Sungsoo Kim, Dhairya Sandhyana, Changheon Lee, Myoungji Han, Jungin Lee, Seokyeong Jung, Changwoo Han, Chanwoo Kim 0001. 92-99 [doi]

Match to Win: Analysing Sequences Lengths for Efficient Self-Supervised Learning in Speech and AudioYan Gao, Javier Fernández-Marqués, Titouan Parcollet, Pedro P. B. de Gusmao, Nicholas D. Lane. 115-122 [doi]

Damage Control During Domain Adaptation for Transducer Based Automatic Speech RecognitionSomshubra Majumdar, Shantanu Acharya, Vitaly Lavrukhin, Boris Ginsburg. 130-135 [doi]

MFCCA:Multi-Frame Cross-Channel Attention for Multi-Speaker ASR in Multi-Party Meeting ScenarioFan Yu 0002, Shiliang Zhang, Pengcheng Guo, Yuhao Liang, Zhihao Du, Yuxiao Lin, Lei Xie 0001. 144-151 [doi]

Residual Adapters for Targeted Updates in RNN-Transducer Based Speech Recognition SystemSungjun Han, Deepak Baby, Valentin Mendelev. 160-166 [doi]

Improved Noisy Iterative Pseudo-Labeling for Semi-Supervised Speech RecognitionTian Li, Qingliang Meng, Yujian Sun. 167-173 [doi]

Guided Contrastive Self-Supervised Pre-Training for Automatic Speech RecognitionAparna Khare, Minhua Wu, Saurabhchand Bhati, Jasha Droppo, Roland Maas. 174-181 [doi]

Learning to Jointly Transcribe and Subtitle for End-To-End Spontaneous Speech RecognitionJakob Poncelet, Hugo Van Hamme. 182-189 [doi]

Modular Hybrid Autoregressive TransducerZhong Meng, Tongzhou Chen, Rohit Prabhavalkar, Yu Zhang 0033, Gary Wang, Kartik Audhkhasi, Jesse Emond, Trevor Strohman, Bhuvana Ramabhadran, W. Ronny Huang, Ehsan Variani, Yinghui Huang, Pedro J. Moreno 0001. 197-204 [doi]

How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted Asr? an Extensive Benchmark on Air Traffic Control CommunicationsJuan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Seyyed Saeed Sarfjoo, Petr Motlícek, Matthias Kleinert, Hartmut Helmke, Oliver Ohneiser, Qingran Zhan. 205-212 [doi]

Monotonic Segmental Attention for Automatic Speech RecognitionAlbert Zeyer, Robin Schmitt, Wei Zhou 0043, Ralf Schlüter, Hermann Ney. 229-236 [doi]

Dual Learning for Large Vocabulary On-Device ASRCal Peyser, W. Ronny Huang, Tara N. Sainath, Rohit Prabhavalkar, Michael Picheny, KyungHyun Cho. 245-251 [doi]

End-to-End Integration of Speech Recognition, Dereverberation, Beamforming, and Self-Supervised Learning RepresentationYoshiki Masuyama, Xuankai Chang, Samuele Cornell, Shinji Watanabe 0001, Nobutaka Ono. 260-265 [doi]

Inter-KD: Intermediate Knowledge Distillation for CTC-Based Automatic Speech RecognitionJi Won Yoon 0002, Beom Jun Woo, SungHwan Ahn, Hyeonseung Lee, Nam Soo Kim. 280-286 [doi]

HMM vs. CTC for Automatic Speech Recognition: Comparison Based on Full-Sum Training from ScratchTina Raissi, Wei Zhou 0043, Simon Berger, Ralf Schlüter, Hermann Ney. 287-294 [doi]

Unified End-to-End Speech Recognition and Endpointing for Fast and Efficient Speech SystemsShaan Bijwadia, Shuo-Yiin Chang, Bo Li 0028, Tara N. Sainath, Chao Zhang 0031, Yanzhang He. 310-316 [doi]

Macro-Block Dropout for Improved Regularization in Training End-to-End Speech Recognition ModelsChanwoo Kim 0001, Sathish Indurti, Jinhwan Park, Wonyong Sung. 331-338 [doi]

Automatic Rating of Spontaneous Speech for Low-Resource LanguagesRagheb Al-Ghezi, Yaroslav Getman, Ekaterina Voskoboinik, Mittul Singh, Mikko Kurimo. 339-345 [doi]

On the Use of Semantically-Aligned Speech Representations for Spoken Language UnderstandingGaëlle Laperrière, Valentin Pelloin, Mickaël Rouvier, Themos Stafylakis, Yannick Estève. 361-368 [doi]

Response Timing Estimation for Spoken Dialog Systems Based on Syntactic Completeness PredictionJin Sakuma, Shinya Fujie, Tetsunori Kobayashi. 369-374 [doi]

Weak-Supervised Dysarthria-Invariant Features for Spoken Language Understanding Using an Fhvae and Adversarial TrainingJinzi Qi, Hugo Van Hamme. 375-381 [doi]

Building Markovian Generative Architectures Over Pretrained LM Backbones for Efficient Task-Oriented Dialog SystemsHong Liu 0024, Yucheng Cai, Zhijian Ou, Yi Huang 0017, Junlan Feng. 382-389 [doi]

A Study on the Integration of Pre-Trained SSL, ASR, LM and SLU Models for Spoken Language UnderstandingYifan Peng, Siddhant Arora, Yosuke Higuchi, Yushi Ueda, Sujay Kumar, Karthik Ganesan 0003, Siddharth Dalmia, Xuankai Chang, Shinji Watanabe 0001. 406-413 [doi]

On the Efficiency of Integrating Self-Supervised Learning and Meta-Learning for User-Defined Few-Shot Keyword SpottingWei-Tsung Kao, Yuan-Kuei Wu, Chia-Ping Chen, Zhi-Sheng Chen, Yu-Pao Tsai, Hung-yi Lee. 414-421 [doi]

Multi-Stage Progressive Audio Bandwidth ExtensionLiang Wen, Lizhong Wang, Ying Zhang, Kwang-Pyo Choi. 422-427 [doi]

Joint Optimization of Diffusion Probabilistic-Based Multichannel Speech Enhancement with Far-Field Speaker VerificationSandipana Dowerah, Romain Serizel, Denis Jouvet, Mohammad MohammadAmini, Driss Matrouf. 428-435 [doi]

Spatial-DCCRN: DCCRN Equipped with Frame-Level Angle Feature and Hybrid Filtering for Multi-Channel Speech EnhancementShubo Lv, Yihui Fu, Yukai Jv, Lei Xie 0001, Weixin Zhu, Wei Rao 0002, Yannan Wang. 436-443 [doi]

Improved Normalizing Flow-Based Speech Enhancement Using an all-Pole Gammatone Filterbank for Conditional Input RepresentationMartin Strauss 0003, Matteo Torcoli, Bernd Edler. 444-450 [doi]

AVSE Challenge: Audio-Visual Speech Enhancement ChallengeAndrea Lorena Aldana Blanco, Cassia Valentini-Botinhao, Ondrej Klejch, Mandar Gogate, Kia Dashtipour, Amir Hussain 0001, Peter Bell 0001. 465-471 [doi]

TEA-PSE 2.0: Sub-Band Network for Real-Time Personalized Speech EnhancementYukai Ju, Shimin Zhang, Wei Rao 0002, Yannan Wang, Tao Yu, Lei Xie 0001, Shidong Shang. 472-479 [doi]

EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of SpeakersSoumi Maiti, Yushi Ueda, Shinji Watanabe 0001, Chunlei Zhang, Meng Yu 0003, Shi-Xiong Zhang, Yong Xu 0004. 480-487 [doi]

End-to-End Multi-Speaker ASR with Independent Vector AnalysisRobin Scheibler, Wangyou Zhang, Xuankai Chang, Shinji Watanabe 0001, Yanmin Qian. 496-501 [doi]

Learning Invariant Representation and Risk Minimized for Unsupervised Accent Domain AdaptationChendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao 0006. 509-516 [doi]

Vsameter: Evaluation of a New Open-Source Tool to Measure Vowel Space Area and Related MetricsTianyu Cao 0003, Laureano Moro-Velázquez, Piotr Zelasko, Jesús Villalba 0001, Najim Dehak. 517-524 [doi]

A Multi-Modal Array of Interpretable Features to Evaluate Language and Speech Patterns in Different Neurological DisordersAnna Favaro, Chelsie Motley, Tianyu Cao 0003, Miguel Iglesias, Ankur Butala, Esther S. Oh, Robert D. Stevens, Jesús Villalba 0001, Najim Dehak, Laureano Moro-Velázquez. 532-539 [doi]

Efficient Dynamic Filter For Robust and Low Computational Feature ExtractionDonghyeon Kim, Jeong-gi Kwak, Hanseok Ko. 540-547 [doi]

An Attention-Based Backend Allowing Efficient Fine-Tuning of Transformer Models for Speaker VerificationJunyi Peng, Oldrich Plchot, Themos Stafylakis, Ladislav Mosner, Lukás Burget, Jan Cernocký. 555-562 [doi]

Flow-ER: A Flow-Based Embedding Regularization Strategy for Robust Speech Representation LearningWoo Hyun Kang, Jahangir Alam 0001, Abderrahim Fathan. 563-570 [doi]

The Clever Hans Effect in Voice Spoofing DetectionBhusan Chettri. 577-584 [doi]

Investigating Active-Learning-Based Training Data Selection for Speech Spoofing CountermeasureXin Wang 0037, Junichi Yamagishi. 585-592 [doi]

How to Boost Anti-Spoofing with X-VectorsXinyue Ma, Shanshan Zhang, Shen Huang, Ji Gao, Ying Hu 0005, Liang He 0003. 593-598 [doi]

A Comprehensive Study on Self-Supervised Distillation for Speaker Representation LearningZhengyang Chen, Yao Qian, Bing Han 0008, Yanmin Qian, Michael Zeng 0001. 599-604 [doi]

Joint Speaker Diarisation and Tracking in Switching State-Space ModelJeremy Heng Meng Wong, Yifan Gong 0001. 605-612 [doi]

Diarisation Using Location Tracking with Agglomerative ClusteringJeremy Heng Meng Wong, Igor Abramovski, Xiong Xiao, Yifan Gong 0001. 613-619 [doi]

Mutual Learning of Single- and Multi-Channel End-to-End Neural DiarizationShota Horiguchi, Yuki Takashima, Shinji Watanabe 0001, Paola García. 620-625 [doi]

Bertraffic: Bert-Based Joint Speaker Role and Speaker Change Detection for Air Traffic Control CommunicationsJuan Zuluaga-Gomez, Seyyed Saeed Sarfjoo, Amrutha Prasad, Iuliia Nigmatulina, Petr Motlícek, Karel Ondrej, Oliver Ohneiser, Hartmut Helmke. 633-640 [doi]

Low-Latency Speech Separation Guided Diarization for Telephone ConversationsGiovanni Morrone, Samuele Cornell, Desh Raj, Luca Serafini, Enrico Zovato, Alessio Brutti, Stefano Squartini. 641-646 [doi]

Fine Grained Spoken Document Summarization Through Text SegmentationSamantha Kotey, Rozenn Dahyot, Naomi Harte. 647-654 [doi]

An Analysis of The Effects of Decoding Algorithms on Fairness in Open-Ended Language GenerationJwala Dhamala, Varun Kumar, Rahul Gupta 0001, Kai-Wei Chang 0001, Aram Galstyan. 655-662 [doi]

N-Best Hypotheses Reranking for Text-to-SQL SystemsLu Zeng, Sree Hari Krishnan Parthasarathi, Dilek Hakkani-Tur. 663-670 [doi]

Towards Visually Prompted Keyword Localisation for Zero-Resource Spoken LanguagesLeanne Nortje, Herman Kamper. 700-707 [doi]

Transformer-Based Lip-Reading with Regularized Dropout and Relaxed AttentionZhengyang Li, Timo Lohrenz, Matthias Dunkelberg, Tim Fingscheidt. 723-730 [doi]

YFACC: A Yorùbá Speech-Image Dataset for Cross-Lingual Keyword Localisation Through Visual GroundingKayode Olaleye, Dan Oneata, Herman Kamper. 731-738 [doi]

On the Use of Modality-Specific Large-Scale Pre-Trained Encoders for Multimodal Sentiment AnalysisAtsushi Ando, Ryo Masumura, Akihiko Takashima, Satoshi Suzuki, Naoki Makishima, Keita Suzuki, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato 0002. 739-746 [doi]

Textual Data Augmentation for Arabic-English Code-Switching Speech RecognitionAmir Hussein, Shammur Absar Chowdhury, Ahmed Abdelali, Najim Dehak, Ahmed Ali 0002, Sanjeev Khudanpur. 777-784 [doi]

Improving Luxembourgish Speech Recognition with Cross-Lingual Speech RepresentationsLe Minh Nguyen 0002, Shekhar Nayak, Matt Coler. 792-797 [doi]

Multilingual Speech Emotion Recognition with Multi-Gating Mechanism and Neural Architecture SearchZihan Wang 0006, Qi Meng, HaiFeng Lan, Xinrui Zhang, KeHao Guo, Akshat Gupta. 806-813 [doi]

Disentangled Speech Representation Learning for One-Shot Cross-Lingual Voice Conversion Using ß-VAEHui Lu, Disong Wang, Xixin Wu, Zhiyong Wu 0001, Xunying Liu, Helen Meng. 814-821 [doi]

Exploring a Unified ASR for Multiple South Indian Languages Leveraging Multilingual Acoustic and Language ModelsC. S. Anoop, A. G. Ramakrishnan. 830-837 [doi]

A Truly Multilingual First Pass and Monolingual Second Pass Streaming on-Device ASR SystemSepand Mavandadi, Bo Li 0028, Chao Zhang 0031, Brian Farris, Tara N. Sainath, Trevor Strohman. 838-845 [doi]

Speech Emotion Recognition with Complementary Acoustic RepresentationsXiaoming Zhang, Fan Zhang, Xiaodong Cui, Wei Zhang. 846-852 [doi]

A Zero-Shot Approach to Identifying Children's Speech in Automatic Gender ClassificationAmruta Saraf, Ganesh Sivaraman, Elie Khoury 0001. 853-859 [doi]

Distribution-Based Emotion Recognition in ConversationWen Wu, Chao Zhang 0031, Philip C. Woodland. 860-867 [doi]

Wavefit: an Iterative and Non-Autoregressive Neural Vocoder Based on Fixed-Point IterationYuma Koizumi, Kohei Yatabe, Heiga Zen, Michiel Bacchiani. 884-891 [doi]

GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from Diffusion ModelsMatthew Baas, Herman Kamper. 906-911 [doi]

Styletts-VC: One-Shot Voice Conversion by Knowledge Transfer From Style-Based TTS ModelsYinghao Aaron Li, Cong Han 0001, Nima Mesgarani. 920-927 [doi]

Learning Accent Representation with Multi-Level VAE Towards Controllable Speech SynthesisJan Melechovský, Ambuj Mehrish, Dorien Herremans, Berrak Sisman. 928-935 [doi]

VTTS: Visual-Text To SpeechYoshifumi Nakano, Takaaki Saeki, Shinnosuke Takamichi, Katsuhito Sudoh, Hiroshi Saruwatari. 936-942 [doi]

Generative Models for Improved Naturalness, Intelligibility, and Voicing of Whispered SpeechDominik Wagner 0002, Sebastian P. Bayerl, Héctor A. Cordourier Maruri, Tobias Bocklet. 943-948 [doi]

Regotron: Regularizing the Tacotron2 Architecture Via Monotonic Alignment LossEfthymios Georgiou, Kosmas Kritsis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos. 977-983 [doi]

Remap, Warp and Attend: Non-Parallel Many-to-Many Accent Conversion with Normalizing FlowsAbdelhamid Ezzerg, Thomas Merritt, Kayoko Yanagisawa, Piotr Bilinski, Magdalena Proszewska, Kamil Pokora, Renard Korzeniowski, Roberto Barra-Chicote, Daniel Korzekwa. 984-990 [doi]

Stop: A Dataset for Spoken Task Oriented Semantic ParsingPaden Tomasello, Akshat Shrivastava, Daniel Lazar, Po-Chun Hsu, Duc Le, Adithya Sagar, Ali Elkahky, Jade Copet, Wei-Ning Hsu, Yossi Adi, Robin Algayres, Tu Anh Nguyen, Emmanuel Dupoux, Luke Zettlemoyer, Abdelrahman Mohamed. 991-998 [doi]

Benchmarking Evaluation Metrics for Code-Switching Automatic Speech RecognitionInjy Hamed, Amir Hussein, Oumnia Chellah, Shammur Absar Chowdhury, Hamdy Mubarak, Sunayana Sitaram, Nizar Habash, Ahmed Ali 0002. 999-1005 [doi]

MASC: Massive Arabic Speech CorpusMohammad Al-Fetyani, Muhammad Al-Barham, Gheith A. Abandah, Adham Alsharkawi, Maha Dawas. 1006-1013 [doi]

Automatic Prediction of Intelligibility of Words and Phonemes Produced Orally by Japanese Learners of EnglishChuanbo Zhu 0001, Takuya Kunihara, Daisuke Saito, Nobuaki Minematsu, Noriko Nakanishi. 1029-1036 [doi]

SVLDL: Improved Speaker Age Estimation Using Selective Variance Label Distribution LearningZuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao 0006. 1037-1044 [doi]

Implicit Acoustic Echo Cancellation for Keyword Spotting and Device-Directed Speech DetectionSamuele Cornell, Thomas Balestri, Thibaud Sénéchal. 1052-1058 [doi]

An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech RecognitionChao-Han Huck Yang, I-Fan Chen, Andreas Stolcke, Sabato Marco Siniscalchi, Chin-Hui Lee 0001. 1074-1080 [doi]

Superb @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation LearningTzu-hsun Feng, Shuyan Annie Dong, Ching-feng Yeh, Shu-Wen Yang, Tzu-Quan Lin, Jiatong Shi, Kai-Wei Chang, Zili Huang, Haibin Wu, Xuankai Chang, Shinji Watanabe 0001, Abdelrahman Mohamed, Shang-wen Li 0001, Hung-yi Lee. 1096-1103 [doi]

On the Utility of Self-Supervised Models for Prosody-Related TasksGuan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Nigel G. Ward. 1104-1111 [doi]

Improving Generalizability of Distilled Self-Supervised Speech Processing Models Under Distorted SettingsKuan-Po Huang, Yu-Kuan Fu, Tsu-Yuan Hsu, Fabian Ritter Gutierrez, Fan-Lin Wang, Liang-Hsuan Tseng, Yu Zhang 0033, Hung-yi Lee. 1112-1119 [doi]

On Compressing Sequences for Self-Supervised Speech ModelsYen Meng, Hsuan-Jui Chen, Jiatong Shi, Shinji Watanabe 0001, Paola García, Hung-yi Lee, Hao Tang 0002. 1128-1135 [doi]

Extracting Speaker and Emotion Information from Self-Supervised Speech Models via Channel-Wise CorrelationsThemos Stafylakis, Ladislav Mosner, Sofoklis Kakouros, Oldrich Plchot, Lukás Burget, Jan Cernocký. 1136-1143 [doi]

runs on WebDSL