Entre langue et informatique

Bill Gates, le patron de Microsoft, a dit un jour qu'il était impossible de lier la linguistique à l'informatique (ce qui ne l'a toutefois pas empêché d'investir dans la société Lernout et Hauspie, les spécialistes belges - malheureux - de ce genre d'activités). Quelle est l'opinion de Guy Deville, enseignant et chercheur aux Facultés Universitaires Notre-Dame de la Paix, dans ce domaine?

PAUL DOMINIQUE

ENTRETIEN

Bill Gates, le patron de Microsoft, a dit un jour qu'il était impossible de lier la linguistique à l'informatique (ce qui ne l'a toutefois pas empêché d'investir dans la société Lernout et Hauspie, les spécialistes belges - malheureux - de ce genre d'activités). Quelle est l'opinion de Guy Deville, enseignant et chercheur aux Facultés Universitaires Notre-Dame de la Paix, dans ce domaine? Il a entièrement raison, dans toute sa généralité. Aujourd'hui, on ne peut raisonnablement pas affirmer que le langage naturel dans toute sa complexité et toute sa plasticité puisse être interprété par une machine, mais ce n'est pas parce que l'on ne sait pas faire tout que l'on ne peut pas faire bien des choses plus modestes.

Et le travail de recherche de Guy Deville consiste précisément à mobiliser, en collaboration avec d'autres départements des Facultés de Namur et d'autres universités, une partie du langage naturel pour des applications informatiques, des travaux qui vont du développement d'un outil de correction automatique du néerlandais pour des apprenants francophones jusqu'à une tentative de formaliser le dialogue entre une personne et une machine pour créer des interfaces pour des applications de renseignements administratifs (bottin téléphonique, formalités diverses), de dossiers, diagnostics médicaux, etc.

UNE MÉTHODOLOGIE PRÉCISE

Je suis parti, explique-t-il, de la phonétique pour une application de type correction de la prononciation jusqu'à une entreprise beaucoup plus ambitieuse visant à modéliser le dialogue. On peut ainsi gravir les échelons de la description d'une langue depuis la plus petite unité (qui est le phonème et qui représente le son) en passant par les mots puis les phrases pour en arriver éventuellement aux dialogues proprement dits.

Ce domaine est à ce point large que l'on se spécialise sur certains aspects mais notre but est d'essayer de trouver une méthodologie qui puisse être applicable à cette démarche à quelque niveau que ce soit, et nous nous sommes rendus compte que pour faire ce travail de modélisation, de formalisation et d'écriture de la connaissance que nous avons du langage naturel sous forme de règles que la machine comprenne, il était nécessaire de s'appuyer sur certains passages obligés.

Cette méthodologie est donc essentiellement basée sur trois axes. Le premier consiste à faire appel à des grands corpus à tous les niveaux, c'est-à-dire qu'ils collectionnent des centaines de textes, des milliers de phrases, des millions de mots afin de pouvoir valider le modèle. Autrement dit, il faut que le modèle représente ce que l'on veut modéliser. C'est dire l'importance du travail de linguiste qui est réalisé.

D'autre part, ces modèles doivent être, en plus d'être empiriquement validés, linguistiquement motivés. Nous voulons des modèles qui représentent la langue naturelle mais qui sont articulés sur des théories linguistiques pertinentes. C'est-à-dire que si l'on veut faire par exemple une distinction entre différentes catégories sémantiques de mots figurant dans notre dictionnaire, il faut que l'on puisse idéalement s'appuyer sur ce que les linguistes ont dit sur la catégorisation des mots. C'est donc là un aspect plus théorique de la linguistique.

Et enfin, il y a un aspect plus opératoire: les modèles doivent être décrits de telle manière qu'ils rendent le langage tout à fait calculable, c'est-à-dire qu'une fois les règles écrites, les informaticiens puissent marquer leur accord et le transformer en un programme acceptable par la machine, qu'il s'agisse de réaliser une traduction, comprendre un dialogue ou d'interpréter correctement le flux de paroles d'un apprenant francophone.

Ce sont là les trois axes selon lesquels nous essayons de développer ces modèles et qui constituent le coeur de la méthodologie, poursuit Guy Deville. Nous nous rendons compte depuis bien longtemps (pratiquement depuis l'avènement de l'informatique), dit-il, que le langage naturel n'est pas calculable.

LE PARADOXE DU LANGAGE NATUREL

On réalise que, alors qu'il est possible de modéliser sous forme d'équations des phénomènes physiques tels que les courants de la mer du Nord ou les mouvements de l'atmosphère, le langage naturel dans toute sa globalité, ne l'est pas. Il est impossible de transformer un flux de paroles afin que de l'autre côté, un ordinateur puisse vous dire: C'est ça que vous avez dit, c'est ça que je comprends. Ce caractère non calculable du langage naturel est dû au fait qu'il ne véhicule pas uniquement un sens bien précis pour chacun des mots mais qu'il y a également toute une dimension qui fait qu'un langage est compris pour ce qu'il est. Autrement dit, un mot évoque bien plus que ce que l'on peut y trouver dans un dictionnaire.

IMPOSSIBLE MODÉLISATION

Cela veut aussi dire que l'on n'a pas encore réussi - et je crois qu'on n'y réussira jamais, précise Guy Deville - à faire en sorte que l'on puisse modéliser l'ensemble du langage naturel mais, et c'est là que réside un paradoxe, on peut calculer le langage naturel si nous parvenons à baliser, à circonscrire de manière très précise et très formelle le domaine d'application dans lequel on veut travailler. On réduit toute cette dimension que l'on appelle pragmatique ou encyclopédie du langage et qui fait que si, finalement, on a un rapport neurochirurgical, on sait ce que chaque mot, chaque terme ou chaque expression veut dire et on peut le formaliser selon des formats logiques et traductibles pour la machine.

Cette ambiguïté - qui fait le miel de beaucoup de chercheurs en linguistique puisqu'ils s'y cassent les dents - est tout le problème. Comment faire pour réduire ce pragmatisme et créer des modèles de la langue qui soient des modèles opératoires et performants? C'est ce que nous essayons de faire et nous y parvenons dans des domaines particuliers d'application: nous essayons de montrer que la notion de sous-langages, c'est-à- dire de langages particuliers, finalisés et utilisés uniquement dans des contextes d'applications bien spécifiques, peuvent être calculables. C'est ainsi par exemple que le langage médical ne correspond pas du tout au français normal puisqu'il ignore les articles et les prépositions, que l'ordre des mots varie et que, cependant, tout le monde le comprend.

NÉCESSAIRE COLLABORATION

Cet exemple montre également qu'il faut une véritable collaboration entre des spécialistes du domaine particulier (ici des médecins), des linguistes pour dire comment étiqueter ces mots qui font partie du langage et des informaticiens pour implémenter le tout.

Et quand on a réussi tout cela, on a un modèle idéal qui n'existe évidemment pas, car il faut faire des compromis entre l'opératoire, l'empirique et le théorique. Etant chercheur, j'essaie de faire du développement en tenant compte de tous ces aspects, conclut Guy Deville.

© La Libre Belgique 2000


Un sentiment de progrès Guy Deville place ses travaux ur la reconnaissance vocale dans un contexte universitaire et sa vocation est de faire de la recherche fondamentale: il essaie de mieux comprendre la langue et considère que l'ordinateur, avec sa puissance de travail et sa mémoire prodigieuse, est un excellent outil pour tester ses hypothèses de travail. Il réalise cependant certains transferts de technologie entre son laboratoire de recherche et des industriels ou des usagers. Il faut bien vivre en ces temps où les budgets de recherche sont bien maigres! Ses diplômes décernés par des universités belges, néerlandaise et britannique ne se comptent plus et ses activités se partagent entre Namur, Louvain-la-Neuve, Mons, et la Flandre. Marié et père de deux garçons, il aime la marche, le vélo, la natation, la musique (plus spécialement le chant choral) et les biographies constituent sa lecture préférée. © La Libre Belgique 2000