13th International Symposium on Chinese Spoken Language Processing, ISCSLP 2022, Singapore, December 11-14, 2022 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Kong-Aik Lee, Hung-yi Lee, Yanfeng Lu, Minghui Dong, editors, 13th International Symposium on Chinese Spoken Language Processing, ISCSLP 2022, Singapore, December 11-14, 2022. IEEE, 2022. [doi]

Conference: iscslp2022

Abstract is missing.

An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling to Differential Privacy Preserving Speech RecognitionChao-Han Huck Yang, Jun Qi 0002, Sabato Marco Siniscalchi, Chin-Hui Lee. 1-5 [doi]

Adaptive Attention Network with Domain Adversarial Training for Multi-Accent Speech RecognitionYanbing Yang, Hao Shi, Yuqin Lin, Meng Ge, Longbiao Wang, Qingzhi Hou, Jianwu Dang. 6-10 [doi]

Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic ModelsHaoyu Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan. 11-15 [doi]

Towards Language-universal Mandarin-English Speech Recognition with Unsupervised Label Synchronous AdaptationSong Li, Haoneng Luo, Wenxuan Hu, Yuan Liu, Shiliang Zhang, Lin Li 0032, Qingyang Hong. 16-20 [doi]

Sequence Distribution Matching for Unsupervised Domain Adaptation in ASRQingxuan Li, Han Zhu, Liuping Luo, Gaofeng Cheng, Pengyuan Zhang, Jiasong Sun, Yonghong Yan 0002. 21-25 [doi]

Improving Rare Words Recognition through Homophone Extension and Unified Writing for Low-resource Cantonese Speech RecognitionHoLam Chung, Junan Li, Pengfei Liu, Wai-Kim Leung, Xixin Wu, Helen Meng. 26-30 [doi]

Perception and production of Mandarin vowels by teenagers-blind and sightedMoyu Chen, Jing Qi, Xiyu Wu. 31-35 [doi]

The Production of Contrastive Focus by Children Learning Mandarin ChineseJing Lu, Ping Tang. 36-40 [doi]

Production Characteristics of Vowels in Standard Chinese by Preschool Bilingual TeachersLinjiao Pan, Yuan Jia. 41-45 [doi]

Effects of Aspiration on Tone Production and Perception in Standard ChineseChong Cao, Aijun Li. 46-50 [doi]

The Disyllabic Tone Production and Tone Context Effect in Mandarin-speaking Children with Cochlear ImplantsJingwen Cheng, Yingming Gao, Yuchen Yan, Xiaoli Feng, Binghuai Lin, Jinsong Zhang 0001. 51-55 [doi]

A preliminary ultrasonic investigation of tenseness in Northern YiShuwen Chen. 56-60 [doi]

Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and Speaker-wise Normalization in Speech SynthesisChunyu Qiang, Peng Yang, Hao Che, Xiaorui Wang, Zhongyuan Wang. 61-65 [doi]

Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data ScenariosQicong Xie, Tao Li, Xinsheng Wang, Zhichao Wang, Lei Xie 0001, Guoqiao Yu, Guanglu Wan. 66-70 [doi]

Robust MelGAN: A robust universal neural vocoder for high-fidelity TTSKun Song, Jian Cong, Xinsheng Wang, Yongmao Zhang, Lei Xie 0001, Ning Jiang, Haiying Wu. 71-75 [doi]

AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with AccentsYongmao Zhang, Zhichao Wang, Peiji Yang, Hongshen Sun, Zhisheng Wang, Lei Xie 0001. 76-80 [doi]

CorrectSpeech: A Fully Automated System for Speech Correction and Accent ReductionDaxin Tan, Liqun Deng, Nianzu Zheng, Yu Ting Yeung, Xin Jiang 0002, Xiao Chen, Tan Lee. 81-85 [doi]

HILvoice:Human-in-the-Loop Style Selection for Elder-Facing Speech SynthesisXueyuan Chen, Qiaochu Huang, Xixin Wu, Zhiyong Wu 0001, Helen Meng. 86-90 [doi]

End-to-End Voice Conversion with Information PerturbationQicong Xie, Shan Yang, Yi Lei, Lei Xie 0001, Dan Su 0002. 91-95 [doi]

Mix-Guided VC: Any-to-many Voice Conversion by Combining ASR and TTS Bottleneck FeaturesZeqing Zhao, Sifan Ma, Yan Jia, Jingyu Hou, Lin Yang, Junjie Wang. 96-100 [doi]

A New Spoken Language Teaching Tech: Combining Multi-attention and AdaIN for One-shot Cross Language Voice ConversionDengfeng Ke, Wenhan Yao, Ruixin Hu, Liangjie Huang, Qi Luo, Wentao Shu. 101-104 [doi]

The Impact of Room Acoustics on Replay Speech SignalMadhu R. Kamble, Hemant A. Patil. 105-109 [doi]

Effect of Speaker-Microphone Proximity on Pop Noise: Continuous Wavelet Transform-Based ApproachPriyanka Gupta, Hemant A. Patil. 110-114 [doi]

Synthetic Voice Detection and Audio Splicing Detection using SE-Res2Net-Conformer ArchitectureLei Wang, Benedict Yeoh, Jun Wah Ng. 115-119 [doi]

Audio Splicing Localization: Can We Accurately Locate the Splicing Tampering?Zhiping Zeng, Zhizheng Wu 0001. 120-124 [doi]

Masking-based Neural Beamformer for Multichannel Speech EnhancementShuai Nie, Shan Liang, Zhanlei Yang, Longshuai Xiao, Wenju Liu, Jianhua Tao. 125-129 [doi]

Deep Multi-task Cascaded Acoustic Echo Cancellation and Noise SuppressionJunjie Li, Meng Ge, Longbiao Wang, Jianwu Dang. 130-134 [doi]

Boosting the Performance of SpEx+ by Attention and Contextual MechanismChenyi Li, Zhiyong Wu 0001, Wei Rao, Yannan Wang, Helen Meng. 135-139 [doi]

Assessing the Effect of Temporal Misalignment between the Probe and Processed Speech Signals on Objective Speech Quality EvaluationShangdi Liao, Fei Chen. 140-144 [doi]

Speech-enhanced and Noise-aware Networks for Robust Speech RecognitionHung-Shin Lee, Pin-Yuan Chen, Yao-Fei Cheng, Yu Tsao 0001, Hsin-Min Wang. 145-149 [doi]

Separate-to-Recognize: Joint Multi-target Speech Separation and Speech Recognition for Speaker-attributed ASRYuxiao Lin, Zhihao Du, Shiliang Zhang, Fan Yu, Zhou Zhao, Fei Wu 0001. 150-154 [doi]

Speech Enhancement Based on CycleGAN with Noise-informed TrainingWen-Yuan Ting, Syu-Siang Wang, Hsin-Li Chang, Borching Su, Yu Tsao 0001. 155-159 [doi]

Incorporating VAD into ASR System by Multi-task LearningMeng Li, Yan Xia, Feng Lin. 160-164 [doi]

Improving ASR in Reverberant EnvironmentsYen-Lun Liao, Chi-Han Lin, Ren-Yuan Lyu, Jyh-Shing Roger Jang. 165-169 [doi]

3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech recognitionZhao You, Shulin Feng, Dan Su 0002, Dong Yu 0001. 170-174 [doi]

Multi-Level Modeling Units for End-to-End Mandarin Speech RecognitionYuting Yang, Binbin Du, Yuke Li. 175-179 [doi]

Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech Recognition: A Comparative StudyKeyu An, Ji Xiao, Zhijian Ou. 180-184 [doi]

Ensemble And Re-Ranking Based On Language Models To Improve ASRShu-Fen Tsai, Shih-Chan Kuo, Ren-Yuan Lyu, Jyh-Shing Roger Jang. 185-189 [doi]

Acoustic and Perceptual Study of Tones in Jin Chinese (Togtoh variety)Yue Wang, Wen Liu. 190-194 [doi]

Acoustic-perceptual correlates of whispered Mandarin consonantsMin Xu, Jing Shao, Hongwei Ding, Lan Wang. 195-199 [doi]

Bilingual Advantage? Perception of the Japanese Consonant Length Contrast by Monolingual vs Bilingual Speakers of MongolianKimiko Tsukada, Yurong Yurong, Badmaavanchin Munguntsetseg. 200-204 [doi]

Multichannel Emotional Perception in Chinese Female: Faces, Voices, and BodiesRuiqi Ge, Xiyu Wu. 205-209 [doi]

Coda Nasal Perception in Wenzhou Wu and Rugao Mandarin by Native Speakers of Standard MandarinYanyang Chen, Xinya Zhang, Ying Chen, Jiazheng Wang. 210-214 [doi]

Objective Hand Complexity Comparison between Two Mandarin Chinese Cued Speech SystemsLi Liu 0036, Gang Feng 0002, Xiaoxi Ren, Xianping Ma. 215-219 [doi]

Rhythm-controllable Attention with High Robustness for Long Sentence Speech SynthesisDengfeng Ke, Yayue Deng, YuKang Jia, Jinlong Xue, Qi Luo, Ya Li, Jianqing Sun, Jiaen Liang, Binghuai Lin. 220-224 [doi]

AdaptiveFormer: A Few-shot Speaker Adaptive Speech Synthesis Model based on FastSpeech2Dengfeng Ke, Ruixin Hu, Qi Luo, Liangjie Huang, Wenhan Yao, Wentao Shu, Jinsong Zhang 0001, Yanlu Xie. 225-229 [doi]

ECAPA-TDNN for Multi-speaker Text-to-speech SynthesisJinlong Xue, Yayue Deng, Yichen Han, Ya Li, Jianqing Sun, Jiaen Liang. 230-234 [doi]

Low-Resource Speech Synthesis with Speaker-Aware EmbeddingLi-Jen Yang, I-Ping Yeh, Jen-Tzung Chien. 235-239 [doi]

A Phone-Level Speaker Embedding Extraction Framework with Multi-Gate Mixture-of-Experts Based Multi-Task LearningZhijunyi Yang, Mengjie Du, Rongfeng Su, Xiaokang Liu, Nan Yan, Lan Wang. 240-244 [doi]

Shuffle is What You NeedWan Lin, Lantian Li, Dong Wang. 245-249 [doi]

Deep Learning Based Audio-Visual Multi-Speaker DOA Estimation Using Permutation-Free Loss FunctionQing Wang 0008, Hang Chen, Ya Jiang, Zhe Wang, Yuyang Wang, Jun Du, Chin-Hui Lee. 250-254 [doi]

Multi-Task Joint Learning for Embedding Aware Audio-Visual Speech EnhancementChenxi Wang, Hang Chen, Jun Du, Baocai Yin, Jia Pan. 255-259 [doi]

Multimodal automatic speech fluency evaluation method for Putonghua Proficiency Test propositional speaking sectionJiajun Liu, Huazhen Meng, Yunfei Shen, Linna Zheng, Aishan Wumaier. 260-264 [doi]

Cantonese neural speech synthesis from found newscasting video data and its speaker adaptationRaymond Chung. 265-269 [doi]

A Preliminary Study on Taiwanese OCR for Assisting Textual Database Construction from Historical DocumentsYuan-Fu Liao, Yu-Hsuan Huang, Matús Pleva, Daniel Hládek, Ming-Hsiang Su. 270-274 [doi]

Reconstruction of speech spectrogram based on non-invasive EEG signalDi Zhou, Masashi Unoki, Gaoyan Zhang, Jianwu Dang. 275-279 [doi]

J-TranPSP: A Joint Transition-based Model for Prosodic Structure Prediction, Word Segmentation and PoS TaggingBinbin Shen, Jian Luan 0001, Shengyan Zhang, Quanbo Shen, Yujun Wang. 280-284 [doi]

A Mandarin Prosodic Boundary Prediction Model Based on Multi-Source Semi-SupervisionPeiyang Shi, Zengqiang Shang, Pengyuan Zhang. 285-289 [doi]

English lexical stresses in non-native speech under adverse conditionsMosi He, Ting Zhang, Bin Li, Kin Cheung. 290-294 [doi]

Stress Gravity of Neutral Tone Words in Different Information StructuresJingwen Huang, Aijun Li. 295-299 [doi]

Prosodic Encoding of Mandarin Chinese Intonation by Uygur Speakers in Declarative and Interrogative SentencesTong Li, Hui Feng, Yuan Jia. 300-304 [doi]

In-group Advantage for Chinese and English Emotional Prosody in Quiet and Noise ConditionsYuhan Yan, Shanpeng Li, Ying Chen. 305-309 [doi]

Multi-Resolution Stacked 1D-CNN for Small-Footprint keyword Spotting with Two-Stage DetectionJian Tang, Shaofei Xue. 310-314 [doi]

Lightweight End-To-End Deep Learning Model For Music Source SeparationYao-Ting Wang, Yi-Xing Lin, Kai-Wen Liang, Tzu-Chiang Tai, Jia-Ching Wang. 315-318 [doi]

AdaVITS: Tiny VITS for Low Computing Resource Speaker AdaptationKun Song, Heyang Xue, Xinsheng Wang, Jian Cong, Yongmao Zhang, Lei Xie 0001, Bing Yang, Xiong Zhang, Dan Su 0002. 319-323 [doi]

Label-free Knowledge Distillation with Contrastive Loss for Light-weight Speaker RecognitionZhiyuan Peng, Xuanji He, Ke Ding, Tan Lee, Guanglu Wan. 324-328 [doi]

Improving Speech Separation with Knowledge Distilled from Self-supervised Pre-trained ModelsBowen Qu, Chenda Li, Jinfeng Bai, Yanmin Qian. 329-333 [doi]

Text-Informed Knowledge Distillation for Robust Speech Enhancement and RecognitionWei Wang, Wangyou Zhang, Shaoxiong Lin, Yanmin Qian. 334-338 [doi]

Prediction of Depression Severity Based on Transformer Encoder and CNN ModelJiahao Lu, Bin Liu 0041, Zheng Lian, Cong Cai, Jianhua Tao, Ziping Zhao. 339-343 [doi]

Depressive Tendency Recognition by Fusing Speech and Text Features: A Comparative AnalysisYimin He, Xiaoyong Lu, Jingyi Yuan, Tao Pan, Yafan Wang. 344-348 [doi]

Medical Difficult Airway Detection using Speech TechnologyZhikai Zhou, Shuang Cao, Zhengyang Chen, Bei Liu, Ming Xia, Hong Jiang, Yanmin Qian. 349-353 [doi]

CUEMPATHY: A Counseling Speech Dataset for Psychotherapy ResearchDehua Tao, Harold Chui, Sarah Luk, Tan Lee. 354-358 [doi]

Aphasia Detection for Cantonese-Speaking and Mandarin-Speaking Patients Using Pre-Trained Language ModelsYing Qin, Tan Lee, Anthony Pak-Hin Kong, Feng Lin. 359-363 [doi]

Respiratory and laryngeal influences on voice in post-stroke dysarthria: a pilot studyTinghao Zhao, Xiaoxia Du, Juan Liu, Rongfeng Su, Nan Yan, Lan Wang. 364-368 [doi]

End-to-end speech topic classification based on pre-trained model WavlmTengfei Cao, Liang He, Fangjing Niu. 369-373 [doi]

BERT-based Chinese Medicine Named Entity Recognition Model Applied to Medication Reminder Dialogue SystemTsung-Hsien Yang, Matús Pleva, Daniel Hládek, Ming-Hsiang Su. 374-378 [doi]

Dialogue scenario classification based on social factorsYuNing Liu, Di Zhou, Masashi Unoki, Jianwu Dang, Aijun Li. 379-383 [doi]

BERT-LID: Leveraging BERT to Improve Spoken Language IdentificationYuting Nie, Junhong Zhao, Wei-Qiang Zhang 0001, Jinfeng Bai. 384-388 [doi]

An Exploratory Study for Quantifying the Contextual Information for Successful Chinese L2 Speech ComprehensionRian Bao, Linkai Peng, Yuchen Yan, Jinsong Zhang 0001. 389-393 [doi]

The Contribution of Phonological and Fluency Factors to Chinese L2 Comprehensibility Ratings: A Case Study of Urdu-speaking LearnersRian Bao, Linkai Peng, Yingming Gao, Jinsong Zhang 0001. 394-398 [doi]

An Acoustic Study on Fricative Vowel [iʑ] in Zhongwei ChineseXinyi Zhang, Wen Liu. 399-403 [doi]

Acoustic Features of Consonants of Standard Chinese and English by Uyghur Native SpeakersYuan Jia, Xintong Zuo. 404-408 [doi]

A Study on Mandarin Chinese "Bu" Tone Sandhi Followed by English WordsKaige Gao, Xiyu Wu. 409-413 [doi]

An Entropy-based Study on the Acquisition of Mandarin Initial Consonants by Korean LearnersXiaoli Feng, Yingming Gao, Jinsong Zhang 0001, Yanchun Cao. 414-418 [doi]

Impacts of aging on suprasegmental and segmental encoding of vocally-expressed confidence in Wuxi dialectYujie Ji, Qiqi Sun, Zhikang Peng, Xiaoming Jiang. 419-423 [doi]

Acceptance of tonal and segmental variability correlates to inventory size in Mandarin ChineseJulie Siying Chen, Stephen Politzer-Ahles. 424-427 [doi]

Dynamic Thresholding on FixMatch with Weak and Strong Data Augmentations for Sound Event DetectionTanmay Khandelwal, Rohan Kumar Das. 428-432 [doi]

Data Augmentation for Infant Cry ClassificationAastha Kachhi, Shreya S. Chaturvedi, Hemant A. Patil, Dipesh K. Singh. 433-437 [doi]

Low Pass Filtering and Bandwidth Extension for Robust Anti-spoofing Countermeasure Against Codec VariabilitiesYikang Wang, Xingming Wang, Hiromitsu Nishizaki, Ming Li 0026. 438-442 [doi]

Improving Speech Recognition with Augmented Synthesized Data and Conditional Model TrainingShaofei Xue, Jian Tang, Yazhu Liu. 443-447 [doi]

Speaking style compensation on synthetic audio for robust keyword spottingHoujun Huang, Byanmin Qian. 448-452 [doi]

A Study on Joint Modeling and Data Augmentation of Multi-Modalities for Audio-Visual Scene ClassificationQing Wang 0008, Jun Du, SiYuan Zheng, Yunqing Li, Yajian Wang, Yuzhong Wu, Hu Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui Lee. 453-457 [doi]

On the Use of Absolute Threshold of Hearing-based Loss for Full-band Speech EnhancementRohith Mars, Rohan Kumar Das. 458-462 [doi]

RAT: RNN-Attention Transformer for Speech EnhancementTailong Zhang, Shulin He, Hao Li 0046, Xueliang Zhang 0001. 463-467 [doi]

A Speech-Noise-Equilibrium Loss Function for Deep Learning-Based Speech EnhancementWeitong Zhao, Fushi Xie, Kang Ouyang, Nengheng Zheng. 468-472 [doi]

Speakerfilter-Pro: an improved target speaker extractor combines the time domain and frequency domainShulin He, Hao Li 0046, Xueliang Zhang 0001. 473-477 [doi]

Two-Branch Network with Selective Kernel Convolution for Time-Domain Speech EnhancementHui Li, Zhihua Huang, Chuangjian Guo. 478-482 [doi]

Optimizing Shoulder to Shoulder: A Coordinated Sub-Band Fusion Model for Full-Band Speech EnhancementGuochen Yu, Andong Li, Wenzhe Liu, Chengshi Zheng, Yutian Wang, Hui Wang. 483-487 [doi]

The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and BaselinesGaofeng Cheng, Yifan Chen, Runyan Yang, Qingxuan Li, Zehui Yang, Lingxuan Ye, Pengyuan Zhang, Qingqing Zhang, Lei Xie, Yanmin Qian, Kong-Aik Lee, Yonghong Yan 0002. 488-492 [doi]

Spectral Clustering Based EEND-vector Clustering: A Robust System Fine-tuned on Simulated ConversationsKai Li. 493-497 [doi]

The X-Lance Speaker Diarization System for the Conversational Short-phrase Speaker Diarization Challenge 2022Tao Liu, Xu Xiang, Zhengyang Chen, Bing Han, Kai Yu 0004, Yanmin Qian. 498-501 [doi]

TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization ChallengeBowen Pang, Huan Zhao, Gaosheng Zhang, Xiaoyue Yang, Yang Sun, Li Zhang 0006, Qing Wang 0039, Lei Xie 0001. 502-506 [doi]

The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and ResultsAo Zhang, Fan Yu, Kaixun Huang, Lei Xie 0001, Longbiao Wang, Eng Siong Chng, Hui Bu, Binbin Zhang, Wei Chen, Xin Xu. 507-511 [doi]

The FawAI ASR System for the ISCSLP 2022 Intelligent Cockpit Speech Recognition ChallengeYujia Sun, Bing Ge, Bo Chen, Zhen Fu, Jinxin He, Hongwei Gao, Xue Wang. 512-516 [doi]

LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition ChallengeYan Jia, Mi Hong, Jingyu Hou, Kailong Ren, Sifan Ma, Jin Wang, Yinglin Ji, Fangzhen Peng, Lin Yang, Junjie Wang. 517-521 [doi]

Efficient Conformer-Based CTC Model for Intelligent Cockpit Speech RecognitionHanzhi Guo, Yunshu Chen, Xukang Xie, Gaopeng Xu, Wei Guo. 522-526 [doi]

Summary On The ISCSLP 2022 Chinese-English Code-Switching ASR ChallengeShuhao Deng, Chengfei Li, Jinfeng Bai, Qingqing Zhang, Wei-Qiang Zhang 0001, Runyan Yang, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan 0002. 527-531 [doi]

The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR ChallengeYuhao Liang, Peikun Chen, Fan Yu, Xinfa Zhu, Tianyi Xu, Yingying Gao, Lei Xie 0001. 532-536 [doi]

Hybrid CTC Language Identification Structure for Mandarin-English Code-Switching ASRHengxin Yin, Guangyu Hu, Fei Wang, Pengfei Ren. 537-541 [doi]

runs on WebDSL