Enhancing Speaking Styles in Conversational Text-to-Speech Synthesis with Graph-Based Multi-Modal Context Modeling - researchr publication related

researchr

You are not signed in
Sign in
Sign up

Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu 0001, Helen Meng, Chao Weng, Dan Su 0002. Enhancing Speaking Styles in Conversational Text-to-Speech Synthesis with Graph-Based Multi-Modal Context Modeling. In IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022, Virtual and Singapore, 23-27 May 2022. pages 7917-7921, IEEE, 2022. [doi]

The following publications are possibly variants of this publication:

Inferring Speaking Styles from Multi-modal Conversational Context by Multi-scale Relational Graph Convolutional NetworksJingbei Li, Yi Meng, Xixin Wu, Zhiyong Wu 0001, Jia Jia, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang. mm 2022: 5811-5820 [doi]

CMCU-CSS: Enhancing Naturalness via Commonsense-based Multi-modal Context Understanding in Conversational Speech SynthesisYayue Deng, Jinlong Xue, Fengping Wang, Yingming Gao, Ya Li. mm 2023: 6081-6089 [doi]

Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech SynthesisShun Lei, Yixuan Zhou, Liyang Chen, Jiankun Hu, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. interspeech 2022: 5523-5527 [doi]

Unsupervised Multi-scale Expressive Speaking Style Modeling with Hierarchical Context Information for Audiobook Speech SynthesisXueyuan Chen, Shun Lei, Zhiyong Wu 0001, Dong Xu, Weifeng Zhao, Helen Meng. COLING 2022: 7193-7202 [doi]

runs on WebDSL