Fusion d'espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )

Sebastien Delecraz, Frédéric Béchet, Benoît Favre, Mickael Rouvier. Fusion d'espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast ). In Laurence Danlos, Thierry Hamon, editors, Actes de la conférence conjointe JEP-TALN-RECITAL 2016. Volume 1 : JEP, Paris, France, July 4-8, 2016. pages 364-372, AFCP - ATALA, 2016. [doi]

Abstract

Abstract is missing.