10th ISCA Speech Synthesis Workshop, SSW 2019, Vienna, Austria, September 20-22, 2019 - researchr publication

researchr

You are not signed in
Sign in
Sign up

Michael Pucher, editor, 10th ISCA Speech Synthesis Workshop, SSW 2019, Vienna, Austria, September 20-22, 2019. ISCA, 2019. [doi]

Conference: ssw2019

Abstract is missing.

Synthesizing animal vocalizations and modelling animal speechW. Tecumseh Fitch, Bart de Boer. [doi]

Natural Language Generation: Creating TextClaire Gardent. [doi]

Deep learning for speech synthesisAäron Van Den Oord. [doi]

Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech SynthesisXin Wang 0037, Junichi Yamagishi. 1-6 [doi]

A Comparison of Recent Neural Vocoders for Speech Signal ReconstructionPrachi Govalkar, Johannes Fischer 0006, Frank Zalkow, Christian Dittmar. 7-12 [doi]

Deep neural network based real-time speech vocoder with periodic and aperiodic inputsKeiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda. 13-18 [doi]

Generative Adversarial Network based Speaker Adaptation for High Fidelity WaveNet VocoderQiao Tian, Xucheng Wan, Shan Liu 0001. 19-23 [doi]

Neural Text-to-Speech Adaptation from Low Quality Public RecordingsQiong Hu 0003, Erik Marchi, David Winarsky, Yannis Stylianou, Devang Naik, Sachin Kajarekar. 24-28 [doi]

Neural VTLN for Speaker Adaptation in TTSBastian Schnell, Philip N. Garner. 29-34 [doi]

Problem-Agnostic Speech Embeddings for Multi-Speaker Text-to-Speech with SampleRNNDavid Álvarez 0004, Santiago Pascual, Antonio Bonafonte. 35-39 [doi]

Multi-Speaker Modeling for DNN-based Speech Synthesis Incorporating Generative Adversarial NetworksHiroki Kanagawa, Yusuke Ijima. 40-44 [doi]

Speaker Adaptation of Acoustic Model using a Few Utterances in DNN-based Speech Synthesis SystemsIvan Himawan, Sandesh Aryal, Iris Ouyang, Shukhan Ng, Pierre Lanchantin. 45-50 [doi]

DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech SynthesisYuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari. 51-56 [doi]

Generalization of Spectrum Differential based Direct Waveform Modification for Voice ConversionWen-Chin Huang, Yi-Chiao Wu, Kazuhiro Kobayashi, Yu-Huai Peng, Hsin-Te Hwang, Patrick Lumban Tobing, Yu Tsao 0001, Hsin-Min Wang, Tomoki Toda. 57-62 [doi]

Statistical Voice Conversion with Quasi-periodic WaveNet VocoderYi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Kazuhiro Kobayashi, Tomoki Toda. 63-68 [doi]

Voice Conversion without Explicit Separation of Source and Filter Components Based on Non-negative Matrix FactorizationHitoshi Suda, Daisuke Saito, Nobuaki Minematsu. 69-74 [doi]

Voice conversion based on full-covariance mixture density networks for time-variant linear transformationsGaku Kotani, Daisuke Saito. 75-80 [doi]

Unsupervised Learning of a Disentangled Speech Representation for Voice ConversionTobias Gburrek, Thomas Glarner, Janek Ebbers, Reinhold Haeb-Umbach, Petra Wagner. 81-86 [doi]

Novel Inception-GAN for Whispered-to-Normal Speech ConversionMaitreya Patel, Mihir Parmar, Savan Doshi, Nirmesh Shah, Hemant A. Patil. 87-92 [doi]

Implementation of DNN-based real-time voice conversion and its improvements by audio data augmentation and mask-shaped deviceRiku Arakawa, Shinnosuke Takamichi, Hiroshi Saruwatari. 93-98 [doi]

Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and ParagraphsRob Clark, Hanna Silén, Tom Kenter, Ralph Leith. 99-104 [doi]

Speech Synthesis Evaluation - State-of-the-Art Assessment and Suggestion for a Novel Research ProgramPetra Wagner, Jonas Beskow, Simon Betz, Jens Edlund, Joakim Gustafson, Gustav Eje Henter, Sébastien Le Maguer, Zofia Malisz, Éva Székely, Christina Tånnander, Jana Voße. 105-110 [doi]

Rakugo speech synthesis using segment-to-segment neural transduction and style tokens - toward speech synthesis for entertaining audiencesShuhei Kato, Yusuke Yasuda, Xin Wang 0037, Erica Cooper, Shinji Takaki, Junichi Yamagishi. 111-116 [doi]

Voice Puppetry: Exploring Dramatic Performance to Develop Speech SynthesisMatthew P. Aylett, David A. Braude, Christopher J. Pidcock, Blaise Potard. 117-120 [doi]

Measuring the contribution to cognitive load of each predicted vocoder speech parameter in DNN-based speech synthesisAvashna Govender, Cassia Valentini-Botinhao, Simon King 0001. 121-126 [doi]

Statistical parametric synthesis of budgerigar songsLorenz Gutscher, Michael Pucher, Carina Lozo, Marisa Hoeschele, Daniel C. Mann. 127-131 [doi]

GlottDNN-based spectral tilt analysis of tense voice emotional styles for the expressive 3D numerical synthesis of vowel [a]Marc Freixes, Marc Arnela, Francesc Alías, Joan Claudi Socoró. 132-136 [doi]

Preliminary guidelines for the efficient management of OOV words for spoken textChristina Tånnander, Jens Edlund. 137-142 [doi]

Loss Function Considering Temporal Sequence for Feed-Forward Neural Network-Fundamental Frequency CaseNoriyuki Matsunaga, Yamato Ohtani, Tatsuya Hirahara. 143-148 [doi]

Sparse Approximation of Gram Matrices for GMMN-based Speech SynthesisTomoki Koriyama, Shinnosuke Takamichi, Takao Kobayashi. 149-154 [doi]

Speaker Anonymization Using X-vector and Neural Waveform ModelsFuming Fang, Xin Wang 0037, Junichi Yamagishi, Isao Echizen, Massimiliano Todisco, Nicholas W. D. Evans, Jean-François Bonastre. 155-160 [doi]

V2S attack: building DNN-based voice conversion from automatic speaker verificationTaiki Nakamura, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Hiroshi Saruwatari. 161-165 [doi]

Impacts of input linguistic feature representation on Japanese end-to-end speech synthesisTakato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda. 166-171 [doi]

Evaluation of Block-Wise Parameter Generation for Statistical Parametric Speech SynthesisNobuyuki Nishizawa, Tomohiro Obara, Gen Hattori. 172-176 [doi]

Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structuresMotoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda. 177-182 [doi]

Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech FrameworkTomoya Yanagita, Sakriani Sakti, Satoshi Nakamura 0001. 183-188 [doi]

Enhancing Myanmar Speech Synthesis with Linguistic Information and LSTM-RNNAye Mya Hlaing, Win Pa Pa, Ye Kyaw Thu. 189-193 [doi]

Building Multilingual End-to-End Speech Synthesisers for Indian LanguagesAnusha Prakash 0001, Anju Leela Thomas, Srinivasan Umesh, Hema A. Murthy. 194-199 [doi]

Diphthong interpolation, phone mapping, and prosody transfer for speech synthesis of similar dialect pairsMichael Pucher, Carina Lozo, Philip Vergeiner, Dominik Wallner. 200-204 [doi]

Subset Selection, Adaptation, Gemination and Prosody Prediction for Amharic Text-to-Speech SynthesisElshadai Tesfaye Biru, Yishak Tofik Mohammed, David Tofu, Erica Cooper, Julia Hirschberg. 205-210 [doi]

Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignmentsYusuke Yasuda, Xin Wang 0037, Junichi Yamagishi. 211-216 [doi]

Where do the improvements come from in sequence-to-sequence neural TTS?Oliver Watts, Gustav Eje Henter, Jason Fong, Cassia Valentini-Botinhao. 217-222 [doi]

A Comparison of Letters and Phones as Input to Sequence-to-Sequence Models for Speech SynthesisJason Fong, Jason Taylor, Korin Richmond, Simon King 0001. 223-227 [doi]

Generative Modeling of F0 Contours Leveraged by Phrase Structure and Its Application to Statistical Focus ControlYuma Shirahata, Daisuke Saito, Nobuaki Minematsu. 228-233 [doi]

Subword tokenization based on DNN-based acoustic model for end-to-end prosody generationMasashi Aso, Shinnosuke Takamichi, Norihiro Takamune, Hiroshi Saruwatari. 234-238 [doi]

Using generative modelling to produce varied intonation for speech synthesisZack Hodari, Oliver Watts, Simon King 0001. 239-244 [doi]

How to train your fillers: uh and um in spontaneous speech synthesisÉva Székely, Gustav Eje Henter, Jonas Beskow, Joakim Gustafson. 245-250 [doi]

An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech EnhancementMohammad Eshghi, Kou Tanaka, Kazuhiro Kobayashi, Hirokazu Kameoka, Tomoki Toda. 251-256 [doi]

PROMIS: a statistical-parametric speech synthesis system with prominence control via a prominence networkZofia Malisz, Harald Berthelsen, Jonas Beskow, Joakim Gustafson. 257-262 [doi]

Deep Mixture-of-Experts Models for Synthetic Prosodic-Contour GenerationRaul Fernandez. 263-268 [doi]

Prosody Prediction from Syntactic, Lexical, and Word Embedding FeaturesRose Sloan, Syed Sarfaraz Akhtar, Bryan Li, Ritvik Shrivastava, Agustín Gravano, Julia Hirschberg. 269-274 [doi]

Sequence to Sequence Neural Speech Synthesis with Prosody Modification CapabilitiesSlava Shechtman, Alexander Sorin. 275-280 [doi]

runs on WebDSL