IA et vie privée : Amazon vise un traitement plus confidentiel du langage naturel

Amazon explore la notion de « vie privée différentielle » appliquée au traitement automatique du langage naturel.

Publié par Clément Bohic le 24 janv. 2020 | Mis à jour le 3 janv. 2022 à 10:22

Lecture
3 min

Imprimer

La « vie privée différentielle » a la cote chez les GAFA.

L'approche consiste à exploiter des techniques mathématiques pour rendre le plus anonymes possible les résultats que produisent des algorithmes d'IA.

Apple a ouvré à appliquer le concept, notamment à son navigateur Safari. Google l'a intégré à son framework de machine learning TensorFlow.

Amazon est aussi sur le coup. Ses équipes en témoigneront le mois prochain à l'occasion de la conférence Web Search and Data Mining.

Y sera présenté un cas d'usage de la vie privée différentielle dans le domaine du traitement automatique du langage naturel.
L'idée générale est de reformuler un texte avant de l'analyser.

Du bruit dans l'espace

La vie privée différentielle constitue un moyen de calculer la probabilité qu'une analyse de données puisse permettre d'identifier des individus.

L'objectif est de réduire au maximum cette probabilité. Ce en apportant la garantie d'un résultat presque identique avec ou sans les données qui peuvent présenter des risques. Le « presque » est contrôlé par un paramètre epsilon (?).

L'approche traditionnelle consiste à ajouter du « bruit » dans le jeu de données cocncerné. Mais cela implique souvent une dégradation des résultats.

Les équipes d'Amazon ont choisi d'introduire le bruit ailleurs. En l'occurrence, au sein de l'espace vectoriel où les algorithmes de traitement du langage représentent les mots.

Les mots dont l'occurrence est simultanée au sein des phrases ont tendance à être proches dans cet espace vectoriel.

Les chercheurs s'appuient sur cette caractéristique pour remplacer une donnée par une autre tout en conservant la sémantique du texte.
Ils appellent cela la vie privée différentielle « métrique ».
La tolérance est égale à epsilon fois la distance entre les deux données.

Les courbes du langage

À l'origine, cette technique fut utilisée por des données de géolocalisation.

Il y a néanmoins une subtilité. Si ajouter du bruit à une localisation produit une autre localisation, faire de même avec une représentation de mots ne fait que produire un autre point dans l'espace vectoriel. Et ce point ne correspond probablement pas à la localisation d'une représentation valide.
Il faut donc chercher la représentation valide la plus proche de ce point. Parfois, il s'agit du mot lui-même. Dans ce cas, on ne le modifie pas.

Les chercheurs se sont intéressés aux effets que produisaient une variation d'epsilon. Entre autres sur la probabilité de modification d'un mot et sur le nombre de mots se trouvant à une distance fixée d'un autre mot.

Ils avaient présenté, en novembre 2019 à l'International Conference on Data Mining (IDCM), un rapport qui constitue en fait la suite de celui dont ils traiteront le mois prochain.

Il y est question de l'extension de leurs travaux à un espace vectoriel hyperbolique.

Par rapport à l'espace euclidien, la courbure permet de mieux situer des représentations dans une hiérarchie sémantique. Et ainsi substituer plus efficacement des termes spécifiques à des termes génériques.

Donnant l'exemple des termes « traitement médical », « médicament » et « ibuprofène », Amazon affirme que l'espace hyperbolique apporte 20 fois plus de garanties en matière de protection de la vie privée.

Publié par :
Clément Bohic

Tags associés :

#AMAZON

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

IA et vie privée : Amazon vise un traitement plus confidentiel du langage naturel

Du bruit dans l'espace

Les courbes du langage

Quelle infrastructure on-premise pour porter une stratégie IA ?

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

De l'UX à l'AX : penser les interfaces pour les agents IA

IA et copyright : la perspective d'une norme IETF réconciliatrice

S’abonner

Sécuriser les solutions de communications unifiées et [...]

Optimisez votre gestion documentaire avec la GED

Simplifier l’architecture et améliorer la sécurité

Un guide pour sécuriser la connectivité des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Du bruit dans l'espace

Les courbes du langage

S’abonner

Partager l'épisode