Accéder au contenu principal
Nouvelles technologies

Une intelligence artificielle pour lire sur les lèvres

Audio 02:09
robots.ox.ac.uk

Des chercheurs chinois, en collaboration avec les ingénieurs de la firme Alibaba, ont développé un programme d’intelligence artificielle d’une précision redoutable capable de décrypter à distance et par reconnaissance visuelle, tout ce que vous prononcez en analysant les mouvements de vos lèvres.

Publicité

Tous les bijoux high-tech conversationnels développés par les grandes firmes du numérique embarquent des programmes d’intelligence artificielle afin de discuter le plus naturellement possible avec des humains. La plupart de ces systèmes informatiques qualifiés d’intelligents qui ont la particularité d’être auto-apprenants, fonctionnent en ligne. Couplés aux dispositifs de reconnaissances vocales, ils sont alors capables de décrypter en profondeur n’importe quel langage, d’identifier des individus grâce au timbre de leur voix ou de comprendre le sens des phrases qu’ils prononcent.

Mais sans une source audio intelligible, tous ces beaux programmes restent bien incapables de convertir en texte, à partir d’une image vidéo, les mouvements de nos lèvres. La pratique de la lecture labiale est, par ailleurs, incroyablement complexe et peu de personnes sourdes ou malentendantes y parviennent. Selon l’Organisation mondiale de la santé, 466 millions de personnes, soit 5% de la population sur la planète souffrent déjà de troubles auditifs sévères.

Leur nombre doublera d’ici à 2050, estime l’OMS. C’est la raison pour laquelle, les chercheurs de l’Université du Zhejiang en Chine et de l’Institut de technologie Stevens aux États-Unis, avec le concours des ingénieurs du géant du commerce en ligne Alibaba, ont développé un programme d’intelligence artificielle dénommé LIBS, qui est l’acronyme de Lip by Speech.

Pour entrainer leur système, l’équipe de recherche sino-américaine s’est servi de bases de données gigantesques. L’une contenait des milliers d’heures de vidéos avec 45 000 phrases prononcées en langage naturel, provenant des émissions politiques et d’actualités de la chaîne britannique BBC.

L’autre hébergeait environ 100 000 phrases en mandarin, directement extraites de la télévision chinoise. Ce dispositif est le plus précis au monde dans le domaine de la lecture labiale, annoncent les scientifiques. Il affiche des taux d'erreurs d’interprétations d’un peu plus de 7% en chinois et un peu moins de 3% en anglais. Cette technologie offrirait aux personnes sourdes ou malentendantes de pouvoir converser avec leur entourage en passant, par exemple, par un assistant électronique ou un smartphone.

Mais prudence avec ce programme, les murs n’auront bientôt plus besoin d’oreilles pour vous écouter, car une fois couplé aux caméras de surveillance ou connecté en toute discrétion à celles de nos mobiles, ce logiciel est en mesure de capter tout ce que dit une personne, sans recourir au moindre micro.

Vous avez des questions ou des suggestions, vous pouvez nous écrire à nouvelles.technologies@rfi.fr.

NewsletterAvec la Newsletter Quotidienne, retrouvez les infos à la une directement dans votre boite mail

Page non trouvée

Le contenu auquel vous tentez d'accéder n'existe pas ou n'est plus disponible.