IRCAM 2021 – ViaDialog – David Guennec
Titre de l’intervention :
Towards helpful, customer-specific Text-To-Speech synthesis
Abstract de l’intervention :
Le sujet de la synthèse de la parole automatique a commencé à se démocratiser dès les années 90. Chacun de nous à déjà eu affaire à ces voix de répondeur automatiques qui nous ont tous fait souffrir dans un premier temps. Aujourd’hui cependant, les progrès réalisés autant du point de vue de la compréhension du langage que de la qualité acoustique des approches en synthèse de la parole nous ont permis de réaliser des bonds de géant et les nouveaux services vocaux voient actuellement leur qualité et leurs capacités augmenter rapidement avec des voix toujours plus humaines et expressives.
Dans cette présentation, nous reviendrons succinctement sur les progrès récents en synthèse de la parole. Après cette introduction, nous aborderons les sujets liés à la personnalisation des voix de synthèse aux besoins du client ; et ce à plusieurs niveaux. D’abord, au niveau des principales composantes de l’expression orale : langue, style de parole, registre de langue et genre par exemple. Ensuite, les problématiques au niveau de l’énoncé ; prosodiques pour l’essentiel (manipulation du pitch, du débit). Enfin, nous terminerons en discutant des éléments subsidiaires à prendre en considération pour répondre au mieux aux besoins des clients et utilisateurs finaux de voix de synthèse dans notre monde en constante évolution.
Informations relatives à l’intervenant :
Nom : David GUENNEC
Mini bio : Chercheur en informatique passionné par l’histoire de la reproduction sonore, David Guennec se spécialise dans le domaine des nouvelles technologies vocales. Après un doctorat portant sur la synthèse de la parole, il s’est dirigé vers la création d’assistants vocaux intégrant l’ensemble de la chaîne de reproduction vocale ; de la reconnaissance de la parole à la synthèse en passant par la compréhension du langage naturel. Actuellement en poste chez ViaDialog, il se focalise principalement sur la synthèse et la reconnaissance de la parole.