Stella − Blog − Sous le masque de l’anonymisation

Sous le masque de l'anonymisation

Différence entre anonymisation et pseudonymisation ✅, pseudonymisation ✅, anonymisation… C'est parti !

Qu'est ce que c'est ?

L'anonymisation d'un ensemble de données est un procédé qui a pour but de rendre impossible l'identification des personnes auxquelles les données sont rattachées. C'est une opération qui est donc irréversible. Une fois l'anonymisation effective, les données ne sont plus soumises au RGPD car elles ne sont plus considérées comme des données personnelles.

Un ensemble de données est considéré anonymisé si il est insensible à trois points :

l'individualisation : obtenir des informations sur une personne précise ;
la corrélation : retrouver des données identifiantes en croisant l'ensemble anonymisé avec un autre ensemble ;
l'inférence : déduire des informations sur une personne.

Comment faire pour anonymiser ?

Pour anonymiser un ensemble de données, il est préférable de supprimer les données qui permettent d'identifier directement les personnes et les données qu'il n'est pas nécessaire de conserver. Il faut également choisir quelles techniques vont être mises en place et le degré de précision que l'on souhaite.

Il existe deux grandes familles dans les techniques d'anonymisation : la randomisation et la généralisation.

La randomisation modifie les valeurs des données pour en réduire leur précision, mais en conservant la répartition globale. Cela permet de protéger les données du risque d'inférence.

La généralisation, quant à elle, généralise les valeurs des données pour que des données soient identiques pour plusieurs personnes. Grâce à cela, les risques de corrélation et d'individualisation sont limités.

La randomisation

Ajout de bruit

L'ajout de bruit consiste à modifier la valeur de certains attributs de l'ensemble de données. On peut également rajouter de fausses données. Dans les deux cas, on essaye de conserver au mieux la distribution générale et on supprime au préalable les données quasi-identifiantes.

Par exemple, l'ensemble de données suivant :

Nom	Âge	Myope (1 = oui, 0 = non)
Clara	28	1
Jean	33	0
Julie	57	0
Lionel	42	1

peut ressembler à ça une fois du bruit ajouté :

Nom	Âge	Myope (1 = oui, 0 = non)
*	23	1
*	38	0
*	52	0
*	47	1
*	40	0
*	47	1
*	33	0
*	40	1

Les prénoms ont été supprimés, car ils sont quasi-identifiants. Quatres lignes ont été rajoutées et les âges des « vraies » lignes ont été modifiés avec un écart de plus ou moins 5. Les données sont moins précises que celles originales, mais la moyenne d'âge du groupe entier a été conservée ainsi que le ratio de personnes myopes.

Cependant, le bruit aurait pu être rajouté de façon à conserver d'autres propriétés de l'ensemble de données ; par exemple en tenant compte du nombre de personnes myopes par tranche d'âge. Tout dépend de quelles informations on souhaite conserver.

Permutation

La permutation, comme son nom l'indique, consiste à permuter les valeurs des attributs entre eux. Les valeurs des attributs quasi-identifiants sont là aussi supprimées.

Sur l'exemple précédent, une permutation pourrait donner ceci :

Nom	Âge	Myope (1 = oui, 0 = non)
*	33	1
*	28	0
*	42	0
*	57	1

Si la permutation permet de garder des informations sur l'ensemble des données, elle ne permet cependant pas de conserver des informations sur les sous-ensembles de données.

Confidentialité différentielle

La confidentialité différentielle est un indicateur qui est utilisé lorsque l'on met à disposition d'un tiers des sous-ensembles de l'ensemble données ; par exemple pour des statistiques.

Lorsque le tiers demande un sous-ensemble, il faut que l'algorithme utilisé pour construire ce sous-ensemble ne permette pas de déduire des informations sur des individus en particulier.

Sur notre exemple, si un tiers a à disposition un algorithme lui retournant la somme partielle des X premières ligne de l'ensemble et que ce tiers sait que Julie est la troisième personne de la liste, il peut facilement savoir si Julie est myope ou non.

En effet, il lui suffit de demander la somme pour les trois premières lignes et celle pour les deux premières. Ainsi, il se retrouve avec les valeurs 1 et 1. Une rapide soustraction lui permet d'obtenir 0 et donc de savoir que Julie n'est pas myope.

De ce fait, cet algorithme n'est pas confidentiellement différentiel.

Pour pallier les risques de ré-identification, les algorithmes doivent être vérifiés et il est bon de rajouter du bruit sur les sous-ensembles partagés.

Attention, par ailleurs, tant que l'ensemble originel existe, les sous-ensembles générés sont considérés comme des données personnelles et sont donc soumis aux règlementations.

La généralisation

L'agrégation et le k-anonymat

Pour généraliser des données, on les agrège entre elles suivant le niveau de précision dont on a besoin.

Le k-anonymat permet, en quelque sorte, de mesurer la qualité de l'anonymisation induite par l'agrégation.

Par exemple, pour cet ensemble de données :

Nom	Localisation	Âge	Maladie
Julie	47677	29	Diabète
Joël	47602	22	Diabète
Stéphanie	47678	27	Diabète
Amanda	47905	43	Grippe
Gabriel	47909	52	Diabète
Léo	47906	47	Cancer
Sacha	47605	30	Diabète
Aurélie	47673	36	Cancer
Paco	47607	32	Cancer

une généralisation peut aboutir à :

Nom	Localisation	Âge	Maladie
*	476**	2*	Diabète
*	476**	2*	Diabète
*	476**	2*	Diabète
*	4790*	< 40	Grippe
*	4790*	< 40	Diabète
*	4790*	< 40	Cancer
*	47***	3*	Diabète
*	47***	3*	Cancer
*	47***	3*	Cancer

Cette généralisation est 3-anonyme car chaque combinaison localisation + âge apparait trois fois.

Cependant, cette généralisation n'est pas suffisante. En effet, si l'on sait que Julie est dans cet ensemble de données et que l'on sait qu'elle se trouve dans la ville 47677 et qu'elle a une vingtaine d'années, on peut en déduire qu'elle est diabétique.

l-diversité

Pour améliorer la généralisation, un autre indicateur a vu le jour : la l-diversité.

Cette mesure prend en compte le fait que pour chaque classe d'équivalence, les valeurs des données sensibles ne soient pas uniques, contrairement à précédemment où il était possible de connaitre la maladie de Julie car c'était la seule présente dans le sous-ensemble correspondant à ses caractéristiques.

Par exemple, avec cet ensemble de données :

Nom	Localisation	Âge	Maladie	Salaire
Julie	47677	29	Ulcère gastrique	3000
Joël	47602	22	Gastrite	4000
Stéphanie	47678	27	Ulcère gastrique	5000
Amanda	47905	43	Gastrite	6000
Gabriel	47909	52	Grippe	11000
Léo	47906	47	Bronchite	8000
Sacha	47605	30	Brochite	7000
Aurélie	47673	36	Pneumonie	9000
Paco	47607	32	Cancer de l'estomac	10000

une généralisation peut donner :

Nom	Localisation	Âge	Maladie	Salaire
*	476**	2*	Ulcère gastrique	3000
*	476**	2*	Gastrite	4000
*	476**	2*	Cancer de l'estomac	5000
*	4790*	> 40	Gastrite	6000
*	4790*	> 40	Grippe	11000
*	4790*	> 40	Bronchite	8000
*	476**	3*	Bronchite	7000
*	476**	3*	Pneumonie	9000
*	476**	3*	Cancer de l'estomac	10000

Cette généralisation est 3-diverse car pour chaque combinaison localisation + âge, il y a au moins trois valeurs de maladie (et de salaire) différentes. Cependant, sans connaître d'information particulière sur Julie mais uniquement en sachant que ses données sont dans le groupe correspondant à l'une des trois premières lignes, une personne peut de nouveau savoir que Julie a une maladie au niveau de l'estomac, et aussi avoir un ordre d'idée sur son salaire.

t-proximité

Pour de nouveau améliorer la généralisation, un autre indicateur a lui aussi vu le jour : la t-proximité.

Cet indicateur mesure le taux de diversité des valeurs des données sensibles pour chaque classe d'équivalence, afin de réduire les risques d'inférence.

Une version avec un anonymat encore plus solide que précédemment de l'exemple peut être :

Nom	Localisation	Âge	Maladie	Salaire
*	4767*	< 40	Ulcère gastrique	3000
*	4767*	< 40	Cancer de l'estomac	5000
*	4767*	< 40	Pneumonie	9000
*	4790*	> 40	Gastrite	6000
*	4790*	> 40	Grippe	11000
*	4790*	> 40	Bronchite	8000
*	4760*	< 40	Gastrite	4000
*	4760*	< 40	Bronchite	7000
*	4760*	< 40	Cancer de l'estomac	10000

La généralisation plus large au niveau de l'âge permet d'éviter l'exploitation de la corrélation, par exemple, entre les personnes de vingt ans et les maladies de l'estomac.

Même si quelqu'un sait que les données de Julie sont dans le premier groupe (correspondant aux premières lignes), il ne pourra pas savoir quel type de maladie a Julie, ni dans quelle fourchette précise se situe son salaire.

Cet ensemble anonymisé a comme indicateurs 0.167-proximité pour les salaires et 0.278-proximité pour les maladies. Alors que sur l'ensemble anonymisé de la l-diversité, les t-proximités étaient de 0.375 pour les salaires et de 0.5 pour les maladies. Une meilleure agrégation a donc permis une meilleure anonymisation. Si vous aimez les grosses formules et que vous voulez savoir comment calculer ces valeurs, vous trouverez votre bonheur dans ce papier qui définit la t-proximité (c'est en anglais).

L'anonymisation offre donc la possibilité de conserver des données plus longtemps que prévu initialement de part la perte de leur nature personnelles. C'est donc un processus qui peut facilement séduire.

Cependant, mettre en place une réelle anonymisation est complexe. En effet, il faut choisir les bonnes techniques et les appliquer du mieux possible. Mais il faut aussi toujours se tenir informer des failles découvertes et des nouveautés sur le sujet.

Et même lorsque l'anonymisation semble être solide, il est possible de ré-identifier les données. Comme cela a été le cas pour Netflix lorsque des chercheurs ont pu ré-identifier des données pourtant anonymisées en les croisant avec IMDb.

Le meilleur moyen de réduire les risques reste peut-être de ne pas chercher à tout stocker tout le temps… ;)