Articles

Publié le 28 septembre 2019 Mis à jour le 28 septembre 2019

Des données anonymes ... vraiment ?

Les données massives mettent l'anonymat à dure épreuve.

Une donnée personnelle est une information sur une personne physique qui permet de l’identifier directement ou indirectement et qui, de ce fait, est protégée en raison du droit à la vie privée. Or, dans un monde de données massives, les données ont une valeur précisément en raison des informations qu’elles détiennent et de tous leurs croisements possibles.

Deux logiques à première vue contradictoires qui pourraient cohabiter grâce à des solutions dites d’anonymisation.

De quoi s’agit-il ?

Des données anonymisées sont des données qui ont été transformées pour qu’elles ne se référent plus à une personne spécifique. Lorsqu’une donnée est vraiment anonyme, il ne doit plus être possible, par aucun moyen, de réidentifier la personne intéressée.

Plusieurs techniques d’anonymisation existent : la randomisation, grâce à laquelle les données ne peuvent plus être associées à un individu précis.  La permutation, qui consiste à mélanger les valeurs en les liant artificiellement à des personnes concernées différentes. La généralisation, qui associe des personnes en groupes pour ne plus pouvoir distinguer l’individu, et ainsi de suite.

Le G29, ancien regroupement européen des autorités de protection des données, avait identifié en 2014 trois critères d’alerte pour évaluer une "bonne" anonymisation :

  • l’individualisation : la possibilité d’isoler un individu;
  • la corrélation : la possibilité de relier deux ensembles de données distincts sur un même individu;
  • l’inférence : la possibilité de déduire une information sur un individu.

Si seulement un de ces trois critères n’est pas respecté, le risque de pouvoir réidentifier une personne persiste et les données ne sont pas considérées comme anonymes.

Simple ? Pas vraiment

Dans la réalité il est souvent difficile d’anonymiser correctement des données et même quand cela semble être le cas, les techniques et les quantités de données disponibles évoluent tellement vite que l’anonymat peut être mis à dure épreuve.

Par exemple, des chercheurs du MIT ont montré via une analyse des coordonnées mobiles que 4 points de géolocalisation permettent d’isoler 95% de la population concernée et seulement deux points (fort probablement, domicile et travail) suffisent pour en reconnaître presque la moitié. D'autres chercheurs, en analysant le style de rédaction sur des blogs, ont montré comment reconnaître, avec un taux de précision de 80%, les auteurs.

Mais cela va encore plus loin !

Courant 2019, une équipe de chercheurs a prouvé que l’on peut réidentifier des individus à partir de bases de données anonymes et que, par ailleurs, les pratiques assez courantes d’échantillonnage ou de publication très partielle de données ne protègent pas d'une possible réidentification.

L’étude montre que quelques attributs peuvent suffire pour identifier des personnes; par exemple, dans l’échantillon étudié, à partir de la date de naissance, du code postal, de l’état civil et de genre il est possible de remonter à presque 80% des individus. Et si on arrive à réunir 15 attributs démographiques, on peut identifier la personne concernée dans 99,98 % des cas.

De quoi remettre en question toutes les mesures actuelles de sécurité qui disent permettre l'utilisation des données tout en préservant efficacement la vie privée des personnes.

Illustration : Guido Klumpe sur Foter.com / CC BY-NC-SA

Références

Groupe de travail dit « Article 29 » sur la protection des données. Avis05/2014, sur les techniques d’anonymisation
https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

J. M. Hendrickx, Y. de Montjove et L. Rocher.  "Estimating the success of re-identifications inincomplete datasets using generative models”
https://www.nature.com/articles/s41467-019-10933-3.pdf
(Dernière consultation : septembre 2019)


Voir plus d'articles de cet auteur

Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? Feedly, NewsBlur


Les tweets de @Thot


Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez nos infolettres en pédagogie et technologies éducatives

Vous pourrez aussi indexer vos ressources préférées et retrouver votre historique de consultation

M’abonner à l'infolettre

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)


 

Ajouter à mes listes de lecture


Créer une liste de lecture

Recevez nos nouvelles par courriel

Chaque jour, restez informé sur l’apprentissage numérique sous toutes ses formes. Des idées et des ressources intéressantes. Profitez-en, c’est gratuit !