Une voix plus naturelle pour l’intelligence artificielle de Google

Une voix plus naturelle pour l’intelligence artificielle de Google

L’intelligence artificielle et les voix des assistants numériques utilisées dans les premières générations d’appareils grand public ne peuvent empêcher la machine de nous répondre avec des intonations robotisées et manquant énormément de naturel. Cela va changer dans un avenir qui n’est cependant pas encore déterminé.

Google a en effet fait savoir, par l’entremise d’un communiqué résumant les travaux d’une équipe de chercheurs de l’Université de Californie à Berkeley, qu’un nouveau moteur de synthèse vocale, Tacotron 2, est en voie de développement et qu’il peut d’ores et déjà produire des voix quasiment impossibles à distinguer de celles des humains.

En passant par deux réseaux neuronaux, le système est capable de retranscrire les intonations de la voix et de prendre en compte la ponctuation des phrases afin de se rapprocher de notre manière de parler. Le premier réseau transforme un texte en spectrogramme, à savoir une représentation visuelle des fréquences audio. Ce spectrogramme est ensuite transmis à WaveNet, un système développé par DeepMind (d’Alphabet et, par conséquent, de Google), capable de lire cette représentation pour générer un fichier audio. Cette nouvelle voix artificielle prend en charge la ponctuation, les accents, les majuscules ou même le contexte de la phrase pour nuancer sa prononciation. 

Les résultats sont tellement mystifiants qu’il est presque impossible de distinguer, à l’oreille, les phrases lues par des personnes réelles de celles lues par le système. Tacotron 2 se limite pour le moment à une seule voix de femme et uniquement en anglais. Les prochaines étapes consisteront non seulement à étendre ses connaissances, mais aussi à lui apprendre à parler d’autres langues et à le doter d’une voix d’homme. On le trouvera évidemment dans les prochaines générations d’assistants Google ainsi que dans Google Traduction, mais il pourra servir pour des applications plus scientifiques et professionnelles.