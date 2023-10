Mais de profonds mystères subsistent quant au fonctionnement de ces outils : que se passe-t-il réellement derrière leurs interfaces, quelles sont les tâches pour lesquelles ils sont vraiment performants et comment pourraient-ils échouer ? La question de savoir ce que font exactement ces programmes complexes fait encore l'objet de vastes débats. Alors qu'OpenAI affirme volontiers que GPT-4 "présente des performances de niveau humain sur divers benchmarks professionnels et académiques", on ne sait toujours pas exactement comment le système se comporte face à des taches qu'il n'a jamais vues auparavant.

Pas d'avertissement

À première vue, comme vous le diront la plupart des spécialistes de l'intelligence artificielle (IA), les LLM sont des machines à prédire les mots suivants. En essayant simplement de trouver le mot suivant le plus probable dans une séquence, ils semblent avoir le pouvoir de raisonner comme un humain. Mais des travaux récents menés par des chercheurs de l'université de Princeton suggèrent que de nombreux cas de ce qui semble être un raisonnement sont beaucoup moins évidents et ressemblent davantage à ce pour quoi ces modèles ont été conçus : la prédiction du mot suivant.

Les auteurs de Princeton suggèrent que nous devrions peut-être repenser la manière dont nous évaluons les LLM. Par exemple, lorsque les chercheurs ont demandé à GPT-4 de multiplier un nombre par 1,8 et d'ajouter 32, il a obtenu la bonne réponse, mais lorsque ces nombres sont modifiés, même légèrement, il n'obtient pas la bonne réponse. Cela s'explique par le fait que la première formule est la conversion de centigrades en degrés Fahrenheit. GPT-4 peut y répondre correctement parce qu'il a vu ce schéma de nombreuses fois mais lorsqu'il s'agit d'appliquer cette logique à des problèmes similaires qu'il n'a jamais vus, ce que même des écoliers sont capables de faire, il échoue.

Les personnes qui utilisent quotidiennement des outils tels que ChatGPT ne sont pas conscientes de ce déséquilibre dans leurs capacités de résolution de problèmes, et comment le seraient-elles ? Il n'y a pas d'avertissement à ce sujet sur le site Web d'OpenAI, qui indique simplement que "ChatGPT peut produire des informations inexactes sur des personnes, des lieux ou des faits. Cela laisse également entendre que la suggestion d'OpenAI d'une "performance de niveau humain" pourrait être moins impressionnante qu'il n'y paraît à première vue. Mais, bien entendu, ces outils restent utiles, de nombreuses tâches fastidieuses étant des problèmes fréquents à forte probabilité.