Tim Berners-Lee : "Comment le Web va se transformer"

Tim Berners-Lee : "Comment le Web va se transformer"
© Reporters

Entreprises & Start-up

Publié le - Mis à jour le

Tim Berners-Lee anime le W3C (World wide web Consortium). Il a fondé en 1994 ce consortium international pour promouvoir l’évolution et la compatibilité des technologies du Web.

Comment voyez-vous l’évolution du Web ?

Tout d’abord, l’évolution du Web n’est pas dans les mains d’un seul individu, ni de moi, ni de personne d’autre. Le consortium que j’anime depuis 1994, le W3C a bien pour objectif de faire évoluer la technologie. Mais il travaille sur le mode du consensus afin de conserver ce qui fait la force du Web, c’est-à-dire l’universalité des liens, la standardisation des logiciels, leur disponibilité en accès libre, et la séparation entre les couches réseau et applications. Cela dit, nous pensons que la prochaine évolution majeure sera celle du Web sémantique.

Comment définir le Web sémantique ?

Le terme sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. Du coup, certains ont pensé qu’il s’agissait d’un Web qui permettrait par exemple d’effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n’est pas son but. En fait, nous aurions dû l’appeler dès le départ "Web de données". Mais il est trop tard pour changer de nom.

Qu’entendez-vous par “Web de données” ?

Avant que le Web existe, nous avions besoin d’ouvrir les différents programmes avec lesquels avaient été écrits les documents numérisés pour les lire successivement. Le Web a simplifié le problème en inventant un langage unique HTML (Hyper Text Markup Langage), qui permet de lire toutes sortes de documents et de les relier. Avec le Web de données, la philosophie est la même : créer un lien automatique pour relier les données qui sont stockées dans les différents fichiers et bases de données de nos ordinateurs. Actuellement, il faut utiliser des logiciels différents pour accéder à ces informations et on ne peut les comparer ensuite que manuellement.

Qu’apportera de plus ce nouveau lien entre les données ?

Il offrira une interopérabilité inégalée, c’est-à-dire une capacité à faire partager l’accès aux données qui n’existe pas aujourd’hui. Ainsi, si une entreprise met en œuvre le Web sémantique, toute personne pourra accéder aux informations que cette entreprise a stockées sur ses produits et aussi aux informations stockées par d’autres entreprises sur les mêmes produits. Il existe un énorme gisement de données enfouies dans tous les ordinateurs de la planète : en les reliant, le Web sémantique permettra d’exploiter cette mine pour améliorer nos connaissances.

Cela paraît tout de même plus compliqué de relier des données que des documents avec un seul langage ?

HTML est un langage incroyablement simple qui définit une relation entre une page Web source et une page cible pour que l’internaute puisse passer d’une page à l’autre. Avec le Web sémantique, le principe est presque aussi simple, avec cependant deux différences majeures : la notion de source et de cible n’existe pas, et le lien entre les données est caractérisé afin de retrouver les données portant sur le même objet, quels que soient l’ordinateur et le fichier où elles sont stockées. Pour caractériser ce lien, on utilise le système d’adressage du Web avec ses identifiants, les URI (Uniform Resource Identifier)* auxquels on associe une description relative à la donnée. Cette description caractérise la donnée en la reliant à une catégorie. Par exemple, la donnée "pêche" sera reliée soit à la catégorie "fruit" soit à la catégorie "poisson", selon l’objet sur lequel elle porte. Un logiciel peut alors retrouver toutes les données appartenant à la même catégorie.

Pour relier les données, il faut se mettre d’accord sur la définition des catégories ?

Nous avons effectivement inventé un outil pour formaliser la description de ces données, RDF (Resource Data Framework), qui est aux données ce que HTML est aux documents. RDF permet de relier une donnée à une catégorie. Et ces catégories sont elles-mêmes définies avec le langage OWL (Web Ontology Language) dans des dictionnaires spécialisés par domaine, des ontologies qui sont en cours d’élaboration. L’idée est de ne pas partir de zéro. Par exemple, la latitude et la longitude des appareils GPS correspondent à la définition mondiale standardisée depuis 1984 pour les satellites dans le WGS 84 (World Geodetic System). En revanche, une entreprise qui fabrique des produits spécifiques, disons des maisons de poupée, peut créer sa propre ontologie à partir des colonnes de sa base de données produits. En fait, la puissance du Web sémantique tient à ce que la manière de décrire une donnée est très souple.

Tout le monde aura accès à toutes les données ?

L’interopérabilité sera très forte pour les données d’ordre général, par exemple la latitude et la longitude, la température, et beaucoup plus faible pour les données d’intérêt local dont l’accès pourra n’être réservé qu’aux membres d’une communauté, voire au personnel d’une entreprise, comme c’est le cas aujourd’hui avec un Intranet. Il y a aussi beaucoup de données intermédiaires, pour lesquels l’interopérabilité existera seulement au sein d’un secteur industriel ou d’un pays.

Cela signifie que chaque entreprise devra marquer toutes les données qu’elle veut publier sur le Web sémantique avec un descriptif ?

C’est en effet une tâche de cartographie assez lourde. Elle peut être automatisée en partie. Des outils commencent à être disponibles en accès libre, comme le D2R Server développé par l’Université libre de Berlin : cette "moulinette" balaie les champs d’une base de données classique et les "convertit" au format du Web sémantique selon l’ontologie qu’on lui indique.

Beaucoup de données scientifiques sont enfouies dans de grandes bases de données propriétaires. Le Web sémantique permettra-t-il d’accéder à cet énorme amas de données, ce “deep Web” ?

Ce sera possible en utilisant à partir du Web un langage de requêtes défini par le W3C, baptisé Sparql. Il reconnaît les données au format RDF natif et aussi celles qui ont été transformées en RDF par un logiciel. Mais il faut tout d’abord effectuer cette transformation pour que ces bases de données, dont l’accès est pour l’instant réservé aux membres d’une même communauté, soient accessibles par le Web sémantique. Ce préliminaire est indispensable

Dans quel domaine cela va-t-il décoller ?

Je pense que le Web sémantique démarrera avec les sciences de la vie parce qu’elles sont en première ligne des sciences, comme la physique l’était au moment où le Web a été inventé. Dans ce secteur, il existe un besoin urgent de croiser un très grand nombre d’informations pour trouver de nouveaux médicaments. Ces informations sont disséminées dans des bases de données sur les maladies, les gènes, les essais cliniques, les autorisations de mise sur le marché, etc. Si la mise au point d’un médicament prend beaucoup de temps, c’est, entre autres, parce que ces silos de données ne sont pas reliés entre eux. Les acteurs du secteur - scientifiques, industriels, etc. - ont besoin de désenclaver leurs silos. Ils sont donc prêts à coopérer, à développer des ontologies si nécessaire. Ainsi des bases de données de biologie ont été "sémantisées" pour le Web, notamment celles du NCBI (National Center for Biotechnology Information) et Uniprot (Universal Protein Resource).

L’industrie pharmaceutique est très concurrentielle. Est-elle prête à rendre publiques toutes ces données ?

Dans un environnement très compétitif, la publication des données est une arme à double tranchant : elle peut favoriser la découverte de médicaments mais aussi la copie par des concurrents. En fait, c’est à l’entreprise de choisir : elle peut très bien utiliser la technologie du Web sémantique en interne, à l’abri de ses pare-feu ou préférer publier certaines informations. Par exemple aux Etats-Unis, on parle de publier les données sur les essais cliniques pour que les entreprises puissent se défendre lorsqu’elles sont attaquées par des associations de patients. Plus largement, cela pose le problème de l’accès aux données scientifiques ayant servi à une expérience : à qui appartiennent-elles ? Doit-on les rendre publiques ou non ?

A vous entendre, le Web sémantique semble avoir pour objectif de relier des données pour un usage précis et non de manière générale ?

Non, les deux objectifs sont visés. Je pense qu’il faut aussi publier via le Web sémantique des données qui peuvent intéresser tout le monde, par exemple des choses aussi diverses que la structure des départements des universités, les données scientifiques de base pour que les jeunes puissent y accéder, ou encore des curriculum vitae

On dit aussi que l’on pourra plus facilement trouver une destination pour ses vacances sans passer des heures à consulter différents sites ?

Aujourd’hui, les compagnies aériennes sont connectées à une centrale de réservation à laquelle accèdent aussi les agences de voyage, et tout est très standardisé dans ce monde clos. L’idée que l’on puisse accéder directement à leurs informations (disponibilité, tarifs, trajets, etc.) sur le Web suscite des réactions défensives. Pourtant, cela ouvrirait d’autres perspectives : les épidémiologistes pourraient par exemple analyser les conséquences des flux de passagers sur la propagation d’une maladie.

Le Web sémantique est un puzzle en construction, quelles pièces essentielles lui manque-t-il ?

Nous commençons à avoir des grandes bases de données RDF, comme DBpedia qui contient 91 millions de données extraites de Wikipedia ou encore la base de données géographiques Geonames. Pour exploiter ces données, il nous manque un moteur de données opérationnel. Nous avons commencé seulement en novembre 2005 à travailler sur un moteur générique avec un groupe du W3C. Or j’ai sous-estimé le temps nécessaire au développement de cette pièce essentielle. Pour l’instant, nous n’avons donc que des prototypes que nous testons ici.

Le frein au développement du Web sémantique est-il finalement plus technologique que commercial ?

Les deux. D’un côté, il manque des adaptateurs pour connecter les applications et les données au Web sémantique. Dès qu’ils seront disponibles, les gens le feront. De l’autre, il y a des résistances socio-économiques à la transparence comme celles des compagnies aériennes et des agences de voyage. Les mêmes résistances ont existé au début du Web. Ainsi, les libraires ne voulaient pas créer de sites de vente en ligne parce qu’ils avaient peur de perdre des clients. Puis quand leurs concurrents l’ont fait, ils s’y sont mis à leur tour. Progressivement, la défiance vis-à-vis de la publication des données tombera elle aussi.

Selon Vinton Cerf, Internet serait menacé par les virus, les spams, le cyberterrorisme, etc. Que peut faire le W3C face à cette situation ?

Nous cherchons des solutions contre le spam et notre groupe de travail sur la sécurité met au point des outils pour éviter le phishing, c’est-à-dire le fait d’être abusé par un faux site Web, et de lui donner, par exemple, ses coordonnées bancaires. Nous étudions aussi l’interaction entre la technologie et les usages dans notre groupe intitulé "Technologies dans la société". Avec le Web, il y a toujours une dimension sociale et psychologique.

Comment intégrer cette dimension ?

Le Web a besoin d’une nouvelle discipline scientifique. Nous avons lancé dans ce but la Web Science Research Initiative (WSRI) avec l’université de Southampton en Grande-Bretagne. Notre idée est de faire travailler ensemble des scientifiques de différentes disciplines pour qu’ils traitent le Web comme un objet scientifique à part entière, qu’ils s’attaquent aux problèmes non résolus et aux usages inattendus. Cette science du Web sera évidemment centrée sur la recherche en informatique, mais elle aura aussi besoin de mathématiciens, d’économistes, de sociologues et de psychologues pour étudier la complexité des phénomènes et préserver l’intégrité du Web.

Avec la collaboration du magazine “La Recherche”

A lire également

Libre ECO

Immobilier pour vous