Logiciels de réalité augmentée et gadgets high tech : quand la technologie cherche à abattre la tour de Babel
Dans un rapport, 250 scientifiques décrivent "l’ère de l’homme-machine". Dans laquelle oreillettes, lunettes et logiciels nous traduiront de façon automatique et en temps réel les langues étrangères.
/s3.amazonaws.com/arc-authors/ipmgroup/f744db9d-4059-49f1-b3ae-ab829b0df5cc.png)
- Publié le 25-06-2021 à 20h02
- Mis à jour le 27-06-2021 à 13h47
:focal(2495x1737.5:2505x1727.5)/cloudfront-eu-central-1.images.arcpublishing.com/ipmgroup/L4VYSIE34BEV5LQ2COD7O3XY7A.jpg)
L’ère de l’homme-machine arrive… Une ère où la technologie est intégrée à nos sens et pas seulement confinée à des appareils mobiles. Une ère - dans la prochaine décennie, évoquent certains experts - où des filtres visuels et audio alimentés par l’intelligence artificielle viendront se superposer et "augmenter" la langue que nous percevons, en temps réel. En bref, la langue que l’on entend, voit et produit sera médiatisée en temps réel par la technologie.
C’est l’un des constats d’un rapport prospectif réalisé par un consortium international de scientifiques de diverses disciplines, qui posent cette question : quelles implications auront ces changements technologiques sur le langage et la communication entre êtres humains ? Le projet Lithme, qui réunit 246 scientifiques de diverses disciplines dans 52 pays, fait le point sur les développements techniques attendus dans les années à venir et en dresse les implications sociétales.
Déjà, à l’heure actuelle, on bénéficie des avancées récentes de l’intelligence artificielle dans les "réseaux de neurones" et "l’apprentissage profond". Elles ont permis aux machines d’atteindre des niveaux inédits de précision et de production. Les termes "réseaux de neurones" est une analogie basée sur l’idée que ces modèles de probabilités fonctionnement moins comme une machine traditionnelle que comme un cerveau humain capable d’arriver à des solutions de façon plus ou moins autonome, ayant pu "apprendre" de données préalablement fournies. À ce stade, les machines peuvent recevoir du texte et de l’audio et les résumer ou les traduire dans d’autres langues avec un niveau raisonnable (et en augmentation constante) de compréhension et de précision. Elles ne sont pas encore au niveau de l’humain et toutes les langues ne sont pas logées à la même enseigne, en particulier les plus petites langues pour lesquelles il y a moins de données pour "entraîner" l’IA.
Apple Glass en 2022 ?
"Actuellement, si vous êtes en vacances et si vous ne parlez pas la langue locale, vous pouvez parler dans votre téléphone et une app de traduction va répéter vos mots via une traduction automatique, observent les auteurs du rapport. Cette technologie de traduction est encore à ses débuts, et sa fiabilité est donc réduite, de plus elle se limite à un nombre restreint de langues, les plus commercialisables. L’appareil est aussi physiquement séparé de nous. On va parler dans le téléphone, rompre le contact visuel avec notre interlocuteur de façon un peu gênante, attendre la traduction... Dans un futur proche, on considérera cela comme une étape très rudimentaire vers une expérience bien plus fluide et immersive. L’appareil passera de nos mains à nos yeux et nos oreilles. Des oreillettes et des lunettes intelligentes - actuellement au stade de prototypes - fourniront des informations et des images directement dans nos yeux et nos oreilles. Cette distinction définit l’ère de l’humain-machine. Ces nouveaux appareils portables vont estomper la frontière entre la technologie et la conversation." Ces appareils et les flux d’informations parallèles s’intégreront parfaitement à nos conversations. Au monde autour de nous se superposeront des sons et des images : plans dans les rues, heures d’ouverture des magasins, la localisation d’amis dans la foule… Nous interagirons avc les machines, à travers la détection de subtils mouvements des doigts ou par la perception des ondes cérébrales. Les deux sont en développement, soulignent les auteurs du rapport.Actuellement, après le flop commercial des Google Glass qui projetaient des informations dans le champ visuel du porteur, la technologie est en train d’être améliorée pour être plus discrète. Des Apple Glass pourraient ainsi sortir en 2022.Facebook a son ‘Project Aria’. Sans oublier les rivaux Nreal (nreal.ai), and MagicLeap (magicleap.com).
Les logiciels, eux aussi, s’amélioreront, prédit le consortium de scientifiques. La traduction chaotique décrite plus haut sera nettement améliorée, au fur et à mesure que les nouvelles versions des apps réduiront les erreurs et les ambiguïtés jusqu’à ce qu’elles deviennent imperceptibles. Du fait que l’AI pourra "s’entraîner" à partir de banques de données de langages en augmentation croissante.Ces nouveaux logiciels ne fourniront pas seulement la traduction audio des mots d’un individu mais imiteront également automatiquement sa voix. Les recherches à la pointe en synthèse vocale visent en effet non pas à créer une voix robotique crédible mais à imiter une vraie personne. Un algorithme de synthèse vocale peut prendre l’enregistrement d’une personne et lui appliquer les techniques d’apprentissage profond pour assembler des blocs de sons dans la voix de cette personne avec son accent, son ton, son rythme, ses pauses… La machine sera alors capable de créer des nouvelles combinaisons de mots avec cette voix.Ce marché est très actif : ReSpeecher (respeecher.com) par exemple propose de doubler automatiquement les acteurs dans leur voix dans d’autres langues, le voice cloning. L’Union européenne subventionne aussi des recherches dans ce sens.
Les logiciels de réalité augmentée, combinés avec des nouvelles "prothèses" visuelles, vont numériquement augmenter la vision que l’on a de la personne en temps réel. Ces logiciels pourront altérer les mouvements du visage, y compris ceux des lèvres, pour correspondre à la traduction automatique. "Donc, on verrait ces personnes parler notre langue, dans leur voix, et on verrait leur bouche bouger comme si elles prononçaient les mots traduits automatiquement", décrivent les auteurs du rapport. En 2020, Nvidia, avec sa plateforme Maxine, était déjà capable de "réorienter" les visages.
En résumé, dans le futur, même si le rapport épingle aussi pour chaque domaine, les défis techniques à encore dépasser, la technologie sera capable d’altérer les voix que nous entendons et les mouvements faciaux que nous voyons tandis qu’elles rendront plus clairs et amplifieront notre propre langage.
"À travers" et "à" la technologie
En outre, s’il s’agit ici de parler "à travers" la technologie ; nous parlerons aussi "à" la technologie. La foule d’assistants personnels intelligents actuels, présents actuellement sur les téléphones, appareils portables ou ou système d’écoute domestique va évoluer en systèmes capables de répondre à des demandes complexes et de prendre part à des conversations longues et détaillées, prévoit le rapport. Combiné à de la réalité virtuelle - qui elle aussi s’améliorera -, qui présentera des personnages de plus en plus réalistes, cela permettra l’apprentissage et même la socialisation avec des partenaires artificiels intelligents et capables de répondre.
"Tout ceci peut ressembler à un scénario de science-fiction, conviennent les auteurs du rapport, mais cette prospective est basée sur des technologies réelles, actuellement à l’étape du prototype, en développement actif et sujets de gros investissements d’entreprises technologiques en compétition. Ces appareils arrivent et vont transformer la façon dont on utilise et pense le langage. Ce ne se fera pas en une nuit, mais cela va arriver. En particulier, les technologies de la parole (reconnaissance automatique du langage, speech to text, synthèse vocale) est considéré comme un secteur les plus prometteurs avec déjà un marché de près de 10 milliards en 2020 et de 32 milliards en 227Mais, si les entreprises privées mènent le jeu dans le domaine, cela soulève des préoccupations majeures en termes de sécurité des données, privacy et accès équitable."