© DR

Entreprises & Start-up

Ces trois chercheurs belges parviennent à ré-identifier des individus au départ de bases de données anonymisées

Patrick Van Campenhout

Publié le - Mis à jour le

Des Belges ont créé un modèle de ré-identification des données anonymisées.

Trois chercheurs belges (1) de l’UCLouvain et de l’Imperial College London, ont réussi à créer un algorithme prouvant qu’il est possible de ré-identifier des individus au départ de bases de données anonymisées. Une première qui va donner un peu de travail aux entreprises spécialisées dans la protection des données et… à l’Autorité belge des données (ex-Commission vie privée) qui va devoir remettre sur la table les standards actuels en matière d’anonymisation des données.

Des risques réels démontrés

Y a-t-il un risque de voir des données privées exploitées de manière imprévue ? Pour leur part, Luc Rocher (à droite sur la photo) et Yves-Alexandre de Montjoye (au centre) qui ont présenté les enseignements de leur étude à "La Libre", ont démontré que "sur base de 15 attributs d’une base de données américaine anonymisée, notre modèle peut retrouver la personne concernée dans 99,98 % des cas". Mais pour le reste, leur travail se veut avant tout scientifique. Un travail de longue haleine ? "Nous travaillons sur le sujet par phases depuis 2013, sur différentes bases de données. En fait, pour donner des éléments du cheminement de notre travail, il faut revenir aux débuts de l’anonymisation, en 1995. On a commencé à retirer des éléments des bases de données et à y ajouter du "bruit", pour pouvoir travailler sur des bases et en extraire des enseignements. Et c’était une bonne méthode. Mais l’environnement a changé depuis. Et ces 5 à 10 dernières années, on a commencé à sentir des craquements. Des chercheurs ont développé de nouveaux outils mettant à mal la sûreté de l’anonymisation", expliquent les deux chercheurs.

Anonymisation insuffisante

D’où leur recherche menant à la création d’un modèle mathématique tendant à prouver que lors d’une recherche pointue sur une base de données, la probabilité d’une erreur de ré-identification chute de manière très importante. Et que, par conséquent, l’anonymat de ces bases de données n’est plus assuré. "Il reste une incertitude scientifique, mais elle est très faible", assurent encore Luc Rocher et Yves-Alexandre de Montjoye.

Ce qui rappelle le cas, en 2017, d’hôpitaux belges ayant vendu des bases de données anonymisées à des fins de recherche pharmaceutiques… "Oui, sur base de quelques données, la date de naissance d’un patient, le code postal de son domicile et le type de maladie traitée, une recherche pointue permet de déterminer précisément de quelle personne il s’agit, avec un taux d’erreur extrêmement faible".

À un peu plus d’un an après l’entrée en vigueur du Règlement européen sur la protection des données privées (RGPD) qui prévoit notamment l’anonymisation des données privées, c’est là une sérieuse base de réflexion ? "En effet, les standards en la matière vont devoir être relevés. Mais il n’est pas trop tard", tempèrent les deux chercheurs. Ceux-ci ont mis en place un outil en ligne permettant de tester leur modèle.


1) "Estimating the success of re-identifications inincomplete datasets using generative models", Julien M. Hendrickx (à gauche sur la photo), Yves-Alexandre de Montjoye et Luc Rocher.

A lire également

Libre ECO

Immobilier pour vous