Odyssey 2020: The Speaker and Language Recognition Workshop, 1-5 November 2020, Tokyo, Japan - researchr publication

researchr

You are not signed in
Sign in
Sign up

Kong-Aik Lee, Takafumi Koshinaka, Koichi Shinoda, editors, Odyssey 2020: The Speaker and Language Recognition Workshop, 1-5 November 2020, Tokyo, Japan. ISCA, 2020. [doi]

Conference: odyssey2020

Abstract is missing.

Towards Unsupervised Learning of Speech RepresentationsMirco Ravanelli. [doi]

The importance of Calibration in Speaker VerificationLuciana Ferrer. [doi]

Modeling of Perceptual Speaker Embedding and Its Application to Speech and Speaker RecognitionSadaoki Furui. [doi]

MagNetO: X-vector Magnitude Estimation Network plus Offset for Improved Speaker RecognitionDaniel Garcia-Romero, Gregory Sell, Alan McCree. 1-8 [doi]

BERTphone: Phonetically-aware Encoder Representations for Utterance-level Speaker and Language RecognitionShaoshi Ling, Julian Salazar, Yuzong Liu, Katrin Kirchhoff. 9-16 [doi]

Orthogonality Regularizations for End-to-End Speaker VerificationYingke Zhu, Brian Mak. 17-23 [doi]

Probabilistic Embeddings for Speaker DiarizationAnna Silnova, Niko Brummer, Johan Rohdin, Themos Stafylakis, Lukás Burget. 24-31 [doi]

Zero-Time Windowing Cepstral Coefficients for Dialect ClassificationRashmi Kethireddy, Sudarsana Reddy Kadiri, Santosh Kesiraju, Suryakanth V. Gangashetty. 32-38 [doi]

Unsupervised Regularization of the Embedding Extractor for Robust Language IdentificationRaphaël Duroselle, Denis Jouvet, Irina Illina. 39-46 [doi]

Compensation on x-vector for Short Utterance Spoken Language IdentificationPeng Shen, Xugang Lu, Komei Sugiura, Sheng Li 0010, Hisashi Kawai. 47-52 [doi]

Improving Embedding-based Neural-Network Speaker RecognitionPo-Chin Wang, Chia-Ping Chen, Chung-Li Lu, Bo-Cheng Chan, Shan-Wen Hsiao. 53-59 [doi]

Information Preservation Pooling for Speaker EmbeddingMin Hyun Han, Woo Hyun Kang, Sung Hwan Mun, Nam Soo Kim. 60-66 [doi]

Neural i-vectorsVille Vestman, Kong-Aik Lee, Tomi Kinnunen. 67-74 [doi]

Denoising x-vectors for Robust Speaker RecognitionMohammad MohammadAmini, Driss Matrouf, Paul-Gauthier Noé. 75-80 [doi]

Adaptation Strategy and Clustering from Scratch for New Domains of Speaker RecognitionPierre-Michel Bousquet, Mickael Rouvier. 81-87 [doi]

Adaptive Mean Normalization for Unsupervised Adaptation of Speaker EmbeddingsMitchell McLaren, Md Hafizur Rahman, Diego Castán, Mahesh Kumar Nandwana, Aaron Lawson. 88-94 [doi]

Improving Diarization Robustness using Diversification, Randomization and the DOVER AlgorithmAndreas Stolcke. 95-101 [doi]

DIHARD II is Still Hard: Experimental Results and Discussions from the DKU-LENOVO TeamQingjian Lin, Weicheng Cai, Lin Yang, Junjie Wang, Jun Zhang, Ming Li. 102-109 [doi]

On Early-stop Clustering for Speaker DiarizationLiping Chen, Kong-Aik Lee, Lei He, Frank K. Soong. 110-116 [doi]

Linguistically Aided Speaker Diarization Using Speaker Role InformationNikolaos Flemotomos, Panayiotis G. Georgiou, Shrikanth Narayanan. 117-124 [doi]

Optimal Mapping Loss: A Faster Loss for End-to-End Speaker DiarizationQingjian Lin, Tingle Li, Lin Yang, Junjie Wang, Ming Li. 125-131 [doi]

Generalization of Audio Deepfake DetectionTianxiang Chen, Avrosh Kumar, Parav Nagarsheth, Ganesh Sivaraman, Elie Khoury 0001. 132-137 [doi]

Using Multi-Resolution Feature Maps with Convolutional Neural Networks for Anti-Spoofing in ASVQiongqiong Wang, Kong-Aik Lee, Takafumi Koshinaka. 138-142 [doi]

Novel Variable Length Teager Energy Profiles for Replay Spoof DetectionMadhu R. Kamble, Hemant A. Patil. 143-150 [doi]

An Initial Investigation on Optimizing Tandem Speaker Verification and Countermeasure Systems Using Reinforcement LearningAnssi Kanervisto, Ville Hautamäki, Tomi Kinnunen, Junichi Yamagishi. 151-158 [doi]

Black-box Attacks on Automatic Speaker Verification using Feedback-controlled Voice ConversionXiaohai Tian, Rohan Kumar Das, Haizhou Li 0001. 159-164 [doi]

The VOiCES from a Distance Challenge 2019: Analysis of Speaker Verification Results and Remaining ChallengesMahesh Kumar Nandwana, Michael Lomnitz, Colleen Richey, Mitchell McLaren, Diego Castán, Luciana Ferrer, Aaron Lawson. 165-170 [doi]

Selective Deep Speaker Embedding Enhancement for Speaker VerificationJee-weon Jung, Ju-ho Kim, Hye-jin Shim, Seung-bin Kim, Ha-Jin Yu. 171-178 [doi]

Deep Speaker Embeddings for Far-Field Speaker Recognition on Short UtterancesAleksei Gusev, Vladimir Volokhov, Tseren Andzhukaev, Sergey Novoselov, Galina Lavrentyeva, Marina Volkova, Alice Gazizullina, Andrey Shulipa, Artem Gorlanov, Anastasia Avdeeva, Artem Ivanov, Alexander Kozlov, Timur Pekhovsky, Yuri Matveev. 179-186 [doi]

Utilizing VOiCES Dataset for Multichannel Speaker Verification with BeamformingLadislav Mosner, Oldrich Plchot, Johan Rohdin, Jan Cernocký. 187-193 [doi]

An Empirical Analysis of Information Encoded in Disentangled Neural Speaker RepresentationsRaghuveer Peri, HaoQi Li, Krishna Somandepalli, Arindam Jati, Shrikanth Narayanan. 194-201 [doi]

NPLDA: A Deep Neural PLDA Model for Speaker VerificationShreyas Ramoji, Prashant Krishnan V, Sriram Ganapathy. 202-209 [doi]

Learning Mixture Representation for Deep Speaker Embedding Using AttentionWeiwei Lin, Man-Wai Mak, Lu Yi. 210-214 [doi]

Many-to-Many Voice Conversion Using Cycle-Consistent Variational Autoencoder with Multiple DecodersDongsuk Yook, Seong-Gyun Leem, Keonnyeong Lee, In-Chul Yoo. 215-221 [doi]

Comparison of Speech Representations for Automatic Quality Estimation in Multi-Speaker Text-to-Speech SynthesisJennifer Williams, Joanna Rownicka, Pilar Oplustil, Simon King. 222-229 [doi]

Transforming Spectrum and Prosody for Emotional Voice Conversion with Non-Parallel Training DataKun Zhou, Berrak Sisman, Haizhou Li 0001. 230-237 [doi]

Generative Adversarial Networks for Singing Voice Conversion with and without Parallel DataBerrak Sisman, Haizhou Li 0001. 238-244 [doi]

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain LossRui Liu 0008, Berrak Sisman, Feilong Bao, Guanglai Gao, Haizhou Li 0001. 245-251 [doi]

Personalized Singing Voice Generation Using WaveRNNXiaoxue Gao, Xiaohai Tian, Yi Zhou, Rohan Kumar Das, Haizhou Li 0001. 252-258 [doi]

The 2019 NIST Audio-Visual Speaker Recognition EvaluationSeyed Omid Sadjadi, Craig S. Greenberg, Elliot Singer, Douglas S. Reynolds, Lisa P. Mason, Jaime Hernandez-Cordero. 259-265 [doi]

The 2019 NIST Speaker Recognition Evaluation CTS ChallengeSeyed Omid Sadjadi, Craig S. Greenberg, Elliot Singer, Douglas A. Reynolds, Lisa P. Mason, Jaime Hernandez-Cordero. 266-272 [doi]

Advances in Speaker Recognition for Telephone and Audio-Visual Data: the JHU-MIT Submission for NIST SRE19Jesús Antonio Villalba López, Daniel Garcia-Romero, Nanxin Chen, Gregory Sell, Jonas Borgstrom, Alan McCree, Leibny Paola García-Perera, Saurabh Kataria, Phani Sankar Nidadavolu, Pedro Torres-Carrasquiilo, Najim Dehak. 273-280 [doi]

LEAP System for SRE 2019 CTS Challenge - Improvements and Error AnalysisShreyas Ramoji, Prashant Krishnan V, Bhargavram Mysore, Prachi Singh, Sriram Ganapathy. 281-288 [doi]

Analysis of ABC Submission to NIST SRE 2019 CMN and VAST ChallengeJahangir Alam, Gilles Boulianne, Lukás Burget, Mohamed Dahmane, Mireia Díez Sánchez, Alicia Lozano-Diez, Ondrej Glembek, Pierre-Luc St-Charles, Marc Lalonde, Pavel Matejka, Petr Mizera, Joao Monteiro, Ladislav Mosner, Cedric Noiseux, Ondrej Novotný, Oldrich Plchot, Johan Rohdin, Anna Silnova, Josef Slavícek, Themos Stafylakis, Shuai Wang, Hossein Zeinali. 289-295 [doi]

A Multi-condition Training Strategy for Countermeasures Against Spoofing Attacks to Speaker RecognizersJoao Monteiro, Md. Jahangir Alam, Tiago H. Falk. 296-303 [doi]

Analysis of Teager Energy Profiles for Spoof Speech DetectionMadhu R. Kamble, Aditya Krishna Sai Pulikonda, Maddala Venkata Siva Krishna, Hemant A. Patil. 304-311 [doi]

Effects of Waveform PMF on Anti-spoofing Detection for Replay Data - ASVspoof 2019Itshak Lapidot, Jean-François Bonastre. 312-318 [doi]

Phase Spectrum of Time-flipped Speech Signals for Robust Spoofing DetectionSung Hyun Yoon, Min-Sung Koh, Ha-Jin Yu. 319-325 [doi]

Residual Networks for Resisting Noise: Analysis of an Embeddings-based Spoofing CountermeasureBence Mark Halpern, Finnian Kelly, Rob van Son, Anil Alexander. 326-332 [doi]

An Explainability Study of the Constant Q Cepstral Coefficient Spoofing Countermeasure for Automatic Speaker VerificationHemlata Tak, Jose Patino 0001, Andreas Nautsch, Nicholas W. D. Evans, Massimiliano Todisco. 333-340 [doi]

Subband Modeling for Spoofing Detection in Automatic Speaker VerificationBhusan Chettri, Tomi Kinnunen, Emmanouil Benetos. 341-348 [doi]

Delving into VoxCeleb: Environment Invariant Speaker RecognitionJoon Son Chung, Jaesung Huh, Seongkyu Mun. 349-356 [doi]

Dropping Classes for Deep Speaker Representation LearningChau Luu, Peter Bell 0001, Steve Renals. 357-364 [doi]

Bayesian x-vector: Bayesian Neural Network based x-vector System for Speaker VerificationXu Li, Jinghua Zhong, Jianwei Yu, Shoukang Hu, Xixin Wu, Xunying Liu, Helen Meng. 365-371 [doi]

A Speaker Verification Backend for Improved Calibration Performance across Varying ConditionsLuciana Ferrer, Mitchell McLaren. 372-379 [doi]

Partial AUC Metric Learning Based Speaker Verification Back-EndZhongxin Bai, Xiao-lei Zhang, Jingdong Chen. 380-384 [doi]

Joint Training End-to-End Speech Recognition Systems with Speaker AttributesSheng Li 0010, Xugang Lu, Raj Dabre, Peng Shen, Hisashi Kawai. 385-390 [doi]

Small Footprint Multi-channel Keyword SpottingJilong Wu, Yiteng Huang, Hyun-Jin Park, Niranjan Subrahmanya, Patrick Violette. 391-395 [doi]

Assessing Child Communication Engagement via Speech Recognition in Naturalistic Active Learning SpacesRasa Lileikyte, Dwight Irvin, John H. L. Hansen. 396-401 [doi]

Exploring the Effects of Device Variability on Forensic Speaker Comparison Using VOCALISE and NFI-FRIDA, A Forensically Realistic DatabaseDavid van der Vloed, Finnian Kelly, Anil Alexander. 402-407 [doi]

On Open-Set Speaker Identification with I-VectorsKevin Wilkinghoff. 408-414 [doi]

Speaker Detection in the Wild: Lessons Learned from JSALT 2019Leibny Paola García-Perera, Jesús Villalba, Hervé Bredin, Jun Du, Diego Castán, Alejandrina Cristià, Latané Bullock, Ling Guo, Koji Okabe, Phani Sankar Nidadavolu, Saurabh Kataria, Sizhu Chen, Léo Galmant, Marvin Lavechin, Lei Sun, Marie-Philippe Gill, Bar Ben-Yair, Sajjad Abdoli, Xin Wang, Wassim Bouaziz, Hadrien Titeux, Emmanuel Dupoux, Kong-Aik Lee, Najim Dehak. 415-422 [doi]

Speaker Characterization Using TDNN, TDNN-LSTM, TDNN-LSTM-Attention based Speaker Embeddings for NIST SRE 2019Chien-Lin Huang. 423-427 [doi]

Combined Vector Based on Factorized Time-delay Neural Network for Text-Independent Speaker RecognitionTianyu Liang, Yi Liu, Can Xu, XianWei Zhang, Liang He. 428-432 [doi]

Personal VAD: Speaker-Conditioned Voice Activity DetectionShaojin Ding, Quan Wang, Shuo-Yiin Chang, Li Wan, Ignacio Lopez-Moreno. 433-439 [doi]

Speech Bandwidth Expansion For Speaker Recognition On Telephony AudioGanesh Sivaraman, Amruta Vidwans, Elie Khoury 0001. 440-445 [doi]

Application of Bandwidth Extension with No Learning to Data Augmentation for Speaker VerificationHaruna Miyamoto, Sayaka Shiota, Hitoshi Kiya. 446-450 [doi]

Robust Speaker Recognition Using Speech Enhancement And Attention ModelYanpei Shi, Qiang Huang 0008, Thomas Hain. 451-458 [doi]

Analysis of Deep Feature Loss Based Enhancement for Speaker VerificationSaurabh Kataria, Phani Sankar Nidadavolu, Jesús Villalba, Najim Dehak. 459-466 [doi]

runs on WebDSL