Stella − Blog − Anonymisation vs. pseudonymisation

Anonymisation vs. pseudonymisation

L'anonymisation et la pseudonymisation sont des concepts qui reviennent fréquemment sur les sujets liés aux données personnelles collectées et utilisées par diverses organisations et dans divers buts.

Ces concepts trouvent leur utilité dans différents domaines : par exemple en informatique, où ils permettent de répondre à des problématiques de sécurisation de données ; ou alors encore pour de la publication de données, comme pour l'ouverture des données publiques pour laquelle les éléments à caractère personnel sont à éclipser.

La différence entre l'anonymisation et la pseudonymisation est que pour la première le processus est irréversible, tandis que pour la deuxième on peut revenir en arrière.

Anonymisation

Pour qu'un ensemble de données soit considéré comme anonymisé, il faut qu'il valide trois points :

l'individualisation : on ne peut pas isoler une personne dans cet ensemble ;
la corrélation : on ne peut pas retrouver les informations personnelles en croisant l'ensemble anonymisé avec un autre ensemble ;
l'inférence : on ne peut pas déduire des nouvelles informations sur une personne.

Il est impossible de retrouver des informations personnelles à partir d'un ensemble de données anonymisé. Cela peut être intéressant pour, par exemple, garder des données après leur date limite de conservation.

Pseudonymisation

De l'autre côté, avec la pseudonymisation, il est possible de retrouver des informations en les croisant avec d'autres informations supplémentaires.

En effet, la pseudonymisation ne fait que remplacer les données qui permettent d'identifier directement une personne. Par exemple, pour un ensemble de données contenant des noms et des adresses, les noms peuvent être remplacés par des chaînes aléatoires tandis que les adresses sont laissées telles quelles. À partir de l'ensemble pseudonymisé, on ne peut pas retrouver les noms des personnes, mais avec la table de correspondance entre les noms et les chaînes aléatoires, c'est possible.

La pseudonymisation est recommandée par le RGPD pour limiter les risques liés au traitement de données personnelles.

Un exemple

Sur une liste de noms associés à un montant de commandes, une anonymisation et une pseudonymisation pourraient donner quelque chose comme :

Originel	Anonymisé	Pseudonymisé
François Dupont - 65€	xxxx - 65€	TDSF - 65€
Francine Michu - 43€	xxxx - 43€	UMEF - 43€
Joseph Clinton - 28€	xxxx - 28€	NCHJ - 28€
François Dupont - 12€	xxxx - 12€	TDSF - 12€
Julie Fernand - 74€	xxxx - 74€	DFEJ - 74€

Avec les données anonymisées, on peut seulement savoir qu'il y a 5 commandes dans le jeu de données originel et on peut calculer un montant moyen de commandes global.

Avec la pseudonymisation, on sait en plus que deux des entrées concernent une même personne, ce qui permet d'avoir d'autres statistiques comme le montant moyen de commande par personne.

La pseudonymisation permet de conserver plus d'informations sur les données sans en connaître le contenu exact. Cependant, il suffit d'avoir accès à la table de correspondance entre les données originelles et les données pseudonymisées pour retrouver les données initiales ; ce que ne permet pas l'anonymisation.

L'anonymisation et la pseudonymisation sont donc deux processus distincts, qui répondent tous deux à la problématique d'utilisation de données personnelles tout en respectant les droits des personnes. Les cas d'usages ne sont pas forcément identiques. Par exemple, l'anonymisation permet de conserver des données plus longtemps que la durée définie alors que la pseudonymisation ne le permet pas.

De prochains articles traiteront plus précisément de ces processus…