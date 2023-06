Environ 18 Tours Eiffel. C’est la hauteur que représenteraient, si on en faisait des livres, les 570 gigabytes des données d’entraînement de GPT-3 – plus de 5 kilomètres de pages remplies de texte, d’histoires, de définitions, de données. Sans expérience dans l’informatique, il est difficile d’assimiler cette quantité et les milliards de paramètres qu’elle génère : est-ce beaucoup ? Est-ce peu ? Est-ce unique ? À titre de comparaison, c’est plus de dix fois plus que GPT-2, qui lui-même capitalisait sur dix fois plus de données que GPT-1. De là à dire que GPT-4, dont le volume des training data sets demeure confidentiel, s’entraîne sur 180 Tours Eiffel de données, il n’y a qu’un pas.

Les données d’entraînement, ou training data sets, ont toujours été au cœur des performances de modèles de langage – les fameux LLM pour Large Language Models. Avec la puissance de calcul et la qualité des algorithmes, ils forment le triptyque qui détermine l’efficacité d’un modèle. Plus une machine est bien construite (algorithmes), plus elle est puissante (le calcul) et plus son entraînement est diversifié et de qualité (les data sets), plus elle sera performante – l’équation semble simple.

Cependant, une étude récente menée par six chercheurs de différentes universités indique que ces fameuses données d’entraînement pourraient finir par manquer. En effet, après avoir grandi de manière exponentielle, on se trouve à court de ce fameux sésame et pour cause : on ne cherche pas juste du texte mais du texte de bonne qualité. Plus le texte est riche, profond et qualitatif, plus la machine apprendra bien. Ce qu’on appelle l’UGC (pour User Generated Content, donc du contenu créé directement par les internautes quels qu’ils soient) est moins pertinent, comporte plus de fautes d’orthographe ou d’approximation, ce qui rend son apport plus pauvre dans l’apprentissage de la machine. Les chercheurs pointent que, ces dernières années, près de la moitié des évolutions des LLM sont dues à une plus grande disponibilité de ces données d’entraînement et que la croissance des “besoins” de la machine est plus importante que la croissance de nouveaux contenus qualitatifs : va-t-on droit dans le mur ? Allons-nous, comme le suggère le titre de l’étude, être à court de données pour entraîner nos modèles ? Cette question – existentielle dans la dynamique d’innovation qui est celle qui régit l’univers technicien – en amène deux autres, bien plus intéressantes.

Tout d’abord, on est en droit de se demander si un modèle de langage peut être “fini” ou bien si, comme chacun d’entre nous, il apprendra toute sa vie. Du nouveau vocabulaire, de nouveaux mots, de nouvelles idées même : les modèles de langage seraient-ils en perpétuelle évolution ? Ou bien pourraient-ils être un jour “terminés” et simplement mis à jour avec les dernières infos.

Cette question en amène une autre, hautement philosophique, sur la nature du langage : peut-il être vraiment appréhendé par une machine ? Peut-il être mathématisé pour être maîtrisé par un ordinateur qui ne “raisonne” qu’avec des 0 et des 1. Un modèle de langage, aussi puissant qu’il soit, peut-il, juste avec des mots, rendre compte du réel ? S’il faut une dizaine de pages à Proust pour nous parler d’une madeleine, de sa madeleine, et pour vraiment la décrire, comment peut-on espérer qu’un ordinateur puisse atteindre un tel niveau de perception de la réalité, de compréhension des sens, d’appréhension du monde ? Combien de Tours Eiffel nous faudrait-il pour une madeleine ?

On en revient alors à la question de la mathématisation du langage : il y a aujourd’hui des IA pour déceler si un texte a été écrit par une IA, des algorithmes pour révéler les algorithmes. En décelant des formes, motifs et modèles, ces outils permettent de reconnaître des écritures typiquement “artificielles”. Dans le monde du verbe, si le phrasé est mathématisable, c’est qu’il est algorithmique et donc non-humain. L’écriture de Proust quant à elle échappe à toute emprise computationnelle et révèle alors son génie – profondément humain.

On constate alors qu’il demeurera toujours une part d’humanité sur laquelle l’IA, malgré son nombre de paramètres toujours croissant, malgré sa puissance de calcul, malgré ses milliards de dollars, n’aura pas d’emprise. Le langage – et nous n’avons parlé ici que de texte sans aborder la force d’un regard, la nuance d’un sourire – semble trop complexe à cerner pour une machine et sa maîtrise complexe toujours hors de portée.

