Speech and Computer - 23rd International Conference, SPECOM 2021, St. Petersburg, Russia, September 27-30, 2021, Proceedings - researchr publication

researchr

You are not signed in
Sign in
Sign up

Alexey Karpov 0001, Rodmonga Potapova, editors, Speech and Computer - 23rd International Conference, SPECOM 2021, St. Petersburg, Russia, September 27-30, 2021, Proceedings. Volume 12997 of Lecture Notes in Computer Science, Springer, 2021. [doi]

Conference: specom2021

Abstract is missing.

Text-Independent Speaker Verification Employing CNN-LSTM-TDNN Hybrid NetworksJahangir Alam, Abderrahim Fathan, Woo Hyun Kang. 1-13 [doi]

End-to-End Voice Spoofing Detection Employing Time Delay Neural Networks and Higher Order StatisticsJahangir Alam, Abderrahim Fathan, Woo Hyun Kang. 14-25 [doi]

Assessing Velar Gestures Timing in European Portuguese Nasal Vowels with RT-MRI DataNuno Almeida, Conceição Cunha, Samuel S. Silva, António Teixeira 0001. 26-35 [doi]

Designing and Deploying an Interaction Modality for Articulatory-Based Audiovisual Speech SynthesisNuno Almeida, Diogo Cunha, Samuel S. Silva, António Teixeira 0001. 36-49 [doi]

Kurdish Spoken Dialect Recognition Using X-Vector Speaker EmbeddingArash Amani, Mohammad MohammadAmini, Hadi Veisi. 50-57 [doi]

An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First GradersYu Bai, Cristian Tejedor García, Ferdy Hubers, Catia Cucchiarini, Helmer Strik. 58-69 [doi]

Velocity Differences Between Velum Raising and Lowering MovementsPeter Birkholz, Christian Kleiner. 70-80 [doi]

Pragmatic Markers of Russian Everyday Speech: Invariants in Dialogue and MonologueNatalia Bogdanova-Beglarian, Olga Blinova, Tatiana Y. Sherstinova, Tatiana Sulimova. 81-90 [doi]

Language Adaptation for Speaker Recognition Systems Using Contrastive LearningVincent Brignatz, Jarod Duret, Driss Matrouf, Mickael Rouvier. 91-99 [doi]

Evaluating X-Vector-Based Speaker Anonymization Under White-Box AssessmentPierre Champion, Denis Jouvet, Anthony Larcher. 100-111 [doi]

Improved Prosodic Clustering for Multispeaker and Speaker-Independent Phoneme-Level Prosody ControlMyrsini Christidou, Alexandra Vioni, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Panos Kakoulidis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis. 112-123 [doi]

Initial Experiments on Question Answering from the Intrinsic Structure of Oral History ArchivesAdam Chýlek, Jan Svec, Lubos Smídl. 124-133 [doi]

Imagined, Intended, and Spoken Speech Envelope Synthesis from Neuromagnetic SignalsDebadatta Dash, Paul Ferrari, Karinne Berstis, Jun Wang 0037. 134-145 [doi]

What Causes Phonetic Reduction in Russian Speech: New Evidence from Machine Learning AlgorithmsMaria Dayter, Elena I. Riekhakaynen. 146-156 [doi]

Toxic Comment Classification Service in Social NetworkMikhail Dolgushin, Dayana Ismakova, Yuliya Bidulya, Igor Krupkin, Galina Barskaya, Anastasiya Lesiv. 157-165 [doi]

Deep Learning Based Engagement Recognition in Highly Imbalanced DataDenis Dresvyanskiy, Wolfgang Minker, Alexey Karpov 0001. 166-178 [doi]

Intraspeaker Variability of a Professional Lecturer: Ageing, Genre, Pragmatics vs. Voice Acting (Case Study)Anna Dunashova. 179-189 [doi]

An Ensemble Approach for the Diagnosis of COVID-19 from Speech and Cough SoundsAbderrahim Fathan, Jahangir Alam, Woo Hyun Kang. 190-201 [doi]

Where Are We in Semantic Concept Extraction for Spoken Language Understanding?Sahar Ghannay, Antoine Caubrière, Salima Mdhaffar, Gaëlle Laperrière, Bassam Jabaian, Yannick Estève. 202-213 [doi]

Learning Mizo Tones from F0 Contours Using 1D-CNNParismita Gogoi, Sishir Kalita, Wendy Lalhminghlui, Priyankoo Sarmah, S. R. M. Prasanna. 214-225 [doi]

OCR Improvements for Images of Multi-page Historical DocumentsIvan Gruber, Marek Hrúz, Pavel Ircing, Petr Neduchal, Tomás Zítka, Miroslav Hlavác, Zbynek Zajíc, Jan Svec, Martin Bulín. 226-237 [doi]

X-Bridge: Image-to-Image Translation with Reconstruction CapabilitiesIvan Gruber, Marek Hrúz, Milos Zelezný, Alexey Karpov 0001. 238-249 [doi]

Who is Selling to Whom - Feature Evaluation for Multi-block Classification in Invoice Information ExtractionHien Thi Ha, Ales Horák. 250-261 [doi]

Multimodal Corpus Analysis of Autoblog 2020: Lecture Videos in Machine LearningAbner Hernandez, Seung-Hee Yang. 262-270 [doi]

Text and Synthetic Data for Domain Adaptation in End-to-End Speech RecognitionJuan Hussain, Christian Huber, Sebastian Stüker, Alexander H. Waibel. 271-278 [doi]

Speaker-Invariant Speech-to-Intent Classification for Low-Resource LanguagesAnosha Ignatius, Uthayasanker Thayasivam. 279-290 [doi]

Speaker-Dependent Visual Command Recognition in Vehicle Cabin: Methodology and EvaluationDenis Ivanko, Dmitry Ryumin, Alexandr Axyonov, Alexey M. Kashevnik. 291-302 [doi]

Optimised Code-Switched Language Model Data Augmentation in Four Under-Resourced South African LanguagesJoshua Jansen van Vueren, Thomas Niesler. 303-316 [doi]

Synthesis Speech Based Data Augmentation for Low Resource Children ASRVirender Kadyan, Hemant Kumar Kathania, Prajjval Govil, Mikko Kurimo. 317-326 [doi]

End-to-End Russian Speech Recognition Models with Multi-head AttentionIrina S. Kipyatkova. 327-335 [doi]

Word-Level Style Control for Expressive, Non-attentive Speech SynthesisKonstantinos Klapsas, Nikolaos Ellinas, June Sig Sung, Hyoungmin Park, Spyros Raptis. 336-347 [doi]

Perceiving Speech Aggression with and without Textual Context on Twitter Social Network SiteLiliya Komalova, Diana Kulagina. 348-359 [doi]

Assessing Speaker Interpolation in Neural Text-to-SpeechRoman Korostik, Javier Latorre, Sivanand Achanta, Yannis Stylianou. 360-371 [doi]

A Mobile Application for Detection of Amyotrophic Lateral Sclerosis via Voice AnalysisDenis Likhachov, Maxim Vashkevich, Elias Azarov, Katsiaryna Malhina, Yuliya Rushkevich. 372-383 [doi]

Child's Emotional Speech Classification by Human Across Two Languages: Russian & TamilElena E. Lyakso, Olga V. Frolova, Nersisson Ruban, A. Mary Mekala. 384-396 [doi]

Analysis of Dialogues of Typically Developing Children, Children with Down Syndrome and ASD Using Machine Learning MethodsOlesia Makhnytkina, Aleksey Grigorev, Aleksander Nikolaev. 397-406 [doi]

Speaker Adaptation with Continuous Vocoder-Based DNN-TTSAli Raheem Mandeel, Mohammed Salah Al-Radhi, Tamás Gábor Csapó. 407-416 [doi]

Automatic Recognition of the Psychoneurological State of Children: Autism Spectrum Disorders, Down Syndrome, Typical DevelopmentYuri Matveev, Anton Matveev, Olga V. Frolova, Elena E. Lyakso. 417-425 [doi]

Study on Acoustic Model Personalization in a Context of Collaborative Learning Constrained by Privacy PreservationSalima Mdhaffar, Marc Tommasi, Yannick Estève. 426-436 [doi]

USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition ExperimentsMuhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat Khassanov, Mannon Ochilov, Huseyin Atakan Varol. 437-447 [doi]

A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and EnglishSaida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol. 448-459 [doi]

Dialog Speech Sentiment Classification for Imbalanced DatasetsSergis Nicolaou, Lambros Mavrides, Georgina Tryfou, Kyriakos Tolias, Konstantinos Panousis, Sotirios Chatzis, Sergios Theodoridis. 460-471 [doi]

Explicit Control of the Level of Expressiveness in DNN-Based Speech Synthesis by Embedding InterpolationTijana Nosek, Sinisa Suzic, Mia Vujovic, Darko Pekar, Milan Secujski, Vlado Delic. 472-482 [doi]

Experimental Analysis of Expert and Quantitative Estimates of Syllable Recordings in the Process of Speech RehabilitationDariya Novokhrestova, Evgeny Kostuchenko, Ilya A. Hodashinsky, Lidiya N. Balatskaya. 483-491 [doi]

Methods for Using Class Based N-gram Language Models in the Kaldi ToolkitEdvin Pakoci, Branislav M. Popovic. 492-503 [doi]

Spectral Root Features for Replay Spoof Detection in Voice AssistantsAnkur T. Patil, Harsh Kotta, Rajul Acharya, Hemant A. Patil. 504-515 [doi]

Influence of the Aggressive Internet Environment on Cognitive Personality Disorders (in Relation to the Russian Young Generation of Users)Rodmonga Potapova, Tatyana Agibalova, Vsevolod Potapov, Olga Tuchina. 516-527 [doi]

Media Content vs Nature Stimuli Influence on Human Brain ActivityRodmonga Potapova, Vsevolod Potapov, Nataliya Lebedeva, Ekaterina Karimova, Nikolay Bobrov. 528-539 [doi]

Can Your Eyes Tell Us Why You Hesitate? Comparing Reading Aloud in Russian as L1 and Japanese as L2Valeriya Prokaeva, Elena I. Riekhakaynen, Vladislav Zubov. 540-552 [doi]

Recognition of Heavily Accented and Emotional Speech of English and Czech Holocaust Survivors Using Various DNN ArchitecturesJosef V. Psutka, Ales Prazák, Jan Vanek. 553-564 [doi]

Assessing Speaker-Independent Character Information for Acted VoicesMathias Quillot, Richard Dufour, Jean-François Bonastre. 565-576 [doi]

Influence of Speaker Pre-training on Character Voice RepresentationMathias Quillot, Jarod Duret, Richard Dufour, Mickael Rouvier, Jean-François Bonastre. 577-588 [doi]

Opinion Classification via Word and Emoji Embedding Models with LSTMIlyos Rabbimov, Sami Kobilov, Iosif Mporas. 589-601 [doi]

An Equal Data Setting for Attention-Based Encoder-Decoder and HMM/DNN Models: A Case Study in Finnish ASRAku Rouhe, Astrid Van Camp, Mittul Singh, Hugo Van Hamme, Mikko Kurimo. 602-613 [doi]

Speaker-Aware Training of Speech Emotion Classifier with Speaker RecognitionLyudmila V. Savchenko, Andrey V. Savchenko. 614-625 [doi]

Neural Network Recognition of Russian Noun and Adjective Cases in the Google Books Ngram CorpusAndrey V. Savinkov, Vladimir V. Bochkarev, Anna V. Shevlyakova, Stanislav Khristoforov. 626-637 [doi]

Is It a Filler or a Pause? A Quantitative Analysis of Filled Pauses in HebrewVered Silber-Varod, Mária Gósy, Anat Lerner. 638-648 [doi]

Modified Group Delay Function Using Different Spectral Smoothing Techniques for Voice Liveness DetectionShrishti Singh, Kuldeep Khoria, Hemant A. Patil. 649-659 [doi]

Complex Rhythm Adjustments in Multilingual Code-Switching Across Mandarin, English and RussianTatiana Sokoreva, Tatiana Shevchenko, Mariya Chyrvonaya. 660-669 [doi]

Increasing the Precision of Dysarthric Speech Intelligibility and Severity Level EstimateMohammad Soleymanpour, Michael T. Johnson, Jeffrey Berry. 670-679 [doi]

Articulation During Voice Disguise: A Pilot StudyLauri Tavi, Tomi Kinnunen, Einar Meister, Rosa González Hautamäki, Anton Malmi. 680-691 [doi]

Improvement of Speaker Number Estimation by Applying an Overlapped Speech DetectorElena Timofeeva, Elena Evseeva, Valeriia Zaluskaia, Vlada Kapranova, Sergei Astapov, Vladimir Kabarov. 692-703 [doi]

Mind Your Tweet: Abusive Tweet DetectionParas Tiwari, Sawan Rai. 704-715 [doi]

Speaker Authorization for Air Traffic Control SecurityMarián Trnka, Sakhia Darjaa, Milan Rusko, Meilin Schaper, Tim H. Stelkens-Kobsch. 716-725 [doi]

Prosodic Changes with Age: A Longitudinal Study on a Famous European Portuguese Native SpeakerAna Rita Valente, Catarina Oliveira, Luciana Albuquerque, António Teixeira 0002, Plínio A. Barbosa. 726-736 [doi]

Automatic Selection of the Most Characterizing Features for Detecting COPD in SpeechLoes van Bemmel, Wieke Harmsen, Catia Cucchiarini, Helmer Strik. 737-748 [doi]

Multilingual Training Set Selection for ASR in Under-Resourced Malian LanguagesEwald van der Westhuizen, Trideba Padhi, Thomas Niesler. 749-760 [doi]

Human and Transformer-Based Prosodic Phrasing in Two Speech GenresJan Volín, Markéta Rezácková, Jindrich Matourek. 761-772 [doi]

Learning Efficient Representations for Keyword Spotting with Triplet LossRoman Vygon, Nikolay Mikhaylovskiy. 773-785 [doi]

Regularized Forward-Backward Decoder for Attention ModelsTobias Watzel, Ludwig Kürzinger, Lujun Li, Gerhard Rigoll. 786-794 [doi]

Induced Local Attention for Transformer Models in Speech RecognitionTobias Watzel, Ludwig Kürzinger, Lujun Li, Gerhard Rigoll. 795-806 [doi]

Applying EEND Diarization to Telephone Recordings from a Call CenterZbynek Zajíc, Marie Kunesová, Ludek Müller. 807-817 [doi]

Acoustic Characteristics of Speech Entrainment in Dialogues in Similar Phonetic SequencesSvetlana Zimina, Vera Evdokimova. 818-825 [doi]

Predicting Biometric Error Behaviour from Speaker Embeddings and a Fast Score Normalization SchemeIsmail Rasim Ülgen, Mustafa Erden, Levent M. Arslan. 826-836 [doi]

runs on WebDSL