Google vient de dévoiler la nouvelle voix qui remplacera la voix robotique de son « assistant personnel » et celle de l’application Google Traduction. Ce nouveau moteur de synthèse vocale imite la voix humaine à la perfection. Baptisé Tacotron 2, cette nouvelle technologie pose de véritables questions éthiques. Est-il souhaitable que la synthèse vocale devienne trop convaincante et finisse par nous flouer sur son origine?

La drôle de voix métallique de Google Traduction et Google Assistant sera bientôt remplacée par une voix beaucoup plus réaliste. Dans un rapport publié en décembre, la firme américaine révèle qu’elle est parvenue à développer « Tacotron 2 », un système capable de transformer des textes en fichiers audio avec une voix impossible à distinguer de celle d’un être humain.

Pour la première fois, l’intelligence artificielle prend donc en charge la ponctuation, les accents, les majuscules ou même le contexte de la phrase pour nuancer sa prononciation.

Google a publié quelques fichiers qui permettent de comparer les mêmes phrases lues par Tacotron 2 et une voix humaine.

Phrase prononcée par Tacotron 2, le nouveau moteur de synthèse vocal de Google 29/12/2017 Écouter

Phrase prononcée par une voix humaine 29/12/2017 Écouter

Selon le site scientifique Quartz, « Google s’appuie sur deux réseaux de neurones artificiels ». « Le premier réseau transforme un texte en spectrogramme, à savoir une représentation visuelle des fréquences audio. Ce spectrogramme est ensuite transmis à WaveNet, un système développé par Google DeepMind capable de lire cette représentation pour générer un fichier audio », détaille le site.

Une synthèse vocale « trop humaine » ?

Si cette prouesse technologique impressionne, elle pose également de nombreuses questions éthiques. Selon Laurence Devillers, professeure d’Intelligence Artificielle à l’Université Paris Sorbonne et chercheuse au Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (Limsi) du CNRS, « il est nécessaire de tracer une frontière claire entre vivant et artefact, entre humains et machines ».

Au sein d’un comité d’éthique sur la recherche, Mme Devillers a participé à la rédaction d’un rapport publié en 2014 et intitulé « Éthique de la recherche en robotique », qui met en garde contre une possible confusion. « Par l’imitation du vivant et l’interaction affective, le robot peut brouiller les frontières avec l’humain et jouer sur l’émotion de manière inédite. Au-delà de la prouesse technologique, la question de l’utilité d’une telle ressemblance doit se poser (…) », détaille le rapport.

« Les humains anthropomorphisent très facilement les machines », explique Laurence Devillers, qui a signé en 2017 « Des robots et des hommes » (Plon), un ouvrage sur l’irruption des robots dans nos vies, et les questions éthiques que cela soulève « Lorsqu’une voix sonne très humaine, on aura tendance à attribuer des sentiments, des comportements et des capacités humaines à la machine », ajoute-t-elle. « Tromper » les usagers en dotant les robots d'une voix humaine reviendrait donc à créer chez eux des attentes auxquelles la machine serait incapable de répondre: « Même si elle détecte les mots, la machine ne comprend pas les mots », insiste la spécialiste.

La « vallée de l’étrange »

La question de l’intelligence artificielle, de la reconnaissance de la parole et de l’attachement à la voix humaine est explorée dans le film « Her » (Spike Jonze, 2013), où le personnage principal tombe amoureux de la voix d’un programme informatique. Une voix humaine qui pousse le protagoniste – et le spectateur - à supposer et espérer que derrière cette voix se cache un être humain qui peut avoir des émotions et être empathique. « Cette fable à peine futuriste prouve que l’humain est enclin à donner une personnalité, des émotions, à une machine qui parle avec une voix très humaine », détaille Laurence Devillers.

Par ailleurs, plus le dialogue paraît naturel, plus l’humain place d’attentes dans cette « relation », et plus ses défauts lui apparaissent monstrueux. La différence entre les attentes et la réalité est susceptible de créer un sentiment de malaise, appelée « inquiétante étrangeté » (« uncanny feeling » en anglais) théorisée par Masahiro Mori dans The Uncanny Valley. « Cette "vallée de l’étrange" peut aussi être un garde-fou », explique Laurence Devillers. « On l’a démontré pour les robots, on le montre aussi sur les voix : plus on va vers un dialogue naturel, plus nos attentes sont élevées, et plus on rejette le système au moindre bug », détaille la chercheuse.

Manipulation

Selon la spécialiste, Google cherche à créer entre l’usager et son robot - personnifié par une voix humaine - « un lien, voire une dépendance affective avec la volonté que la machine devienne un confident, qu’elle réponde à toutes nos questions ». Et ce lien artificiel nous rendrait « accro » à l’objet. La théorie de « l’inquiétante étrangeté », prédit cependant que si les machines ne sont pas assez performantes pour répondre aux sollicitations des usagers, alors ils les rejetteront.

« La question que Google doit se poser est la suivante : est-ce que vos modèles sont à la hauteur d’une voix humaine ? » questionne la chercheuse. Or « pour le moment, la réponse est non ». Laurence Devillers voit dans le développement de cette voix artificielle une stratégie marketing. Mais le danger est réel selon elle. « On parle souvent de transhumanisme, de peurs lointaines, mais les questions doivent se poser maintenant », affirme la spécialiste. « Nous ne sommes pas encore dans la "super intelligence", seulement dans l’imitation de voix. Mais les voix ont une véritable influence sur notre comportement », conclut-elle.