Slack défend sa politique d’exploitation de données

Slack exploitation données

Attaqué sur son usage des données des clients pour l’entraînement d’IA, Slack tente de justifier son approche.

Suffit-il d’avoir mis en place des « protections robustes » pour se permettre d’exploiter, par défaut, les données de ses clients ? Slack est de ce parti, en tout cas lorsqu’il s’agit d’entraîner ses modèles d’apprentissage automatique.

L’entreprise américaine a récemment clarifié sa position, dans le contexte d’une fronde naissante. Ou, tout au moins, d’une forme de « prise de conscience » des utilisateurs. Leur constat, dans les grandes lignes : Slack utilise nos données pour former des IA… et cela va jusqu’au contenu des messages.

En réponse, Slack a mis à jour ses principes de confidentialité. Démarche assortie d’un post dont nous reprenons ici les principaux axes.

L’IA générative de Slack, non nourrie aux données des clients

Slack ouvre son propos sur deux points-clés. D’abord, l’usage du machine learning pour recommander des canaux, des emojis ou encore des résultats de recherche. Promesse : les modèles sous-jacents ne sont pas conçus de sorte qu’ils pourraient apprendre, mémoriser ou reproduire des données de clients. En outre, les informations dont ils se servent sont anonymisées et agrégées, sans accès direct au contenu des messages. Enfin, il existe, pour les utilisateurs, un mécanisme d’opt-out.
L’autre point-clé concerne les modèles génératifs. Slack assure qu’il n’utilise pas les données des clients, que ce soit à des fins internes ou pour alimenter des LLM tiers.

Interviennent ensuite diverses précisions. Slack reprend d’abord l’affirmation selon laquelle ses modèles ne peuvent apprendre, mémoriser, etc. Il ajoute, à cet égard, que les données « ne filtrent pas entre espaces de travail ».

Quant à l’absence d’accès direct aux contenus des messages (et des fichiers, nous précise-t-on), Slack explique que les modèles utilisent des « valeurs numériques dérivées ». Il donne quelques exemples :

– Recommandation d’archivage d’un canal en fonction de l’horodatage du dernier message
– Analyse du nombre d’interactions entre deux individus pour recommander d’ajouter des utilisateurs dans une conversation
– Détermination de la pertinence d’un canal à partir de son nom, grâce au nombre de mots qu’on retrouve dans le nom d’autres canaux dont l’utilisateur est membre

Une procédure d’opt-out spécifique

Slack évoque aussi ses fameuses « protections robustes » censées « [empêcher] les accès non autorisés ». Brièvement, néanmoins, préférant un renvoi vers un livre blanc de 2020. À caractère plus marketing que technique, le document liste quelques mesures de type chiffrement, segmentation réseau, cloisonnement logique des données et politique de mots de passe sur les terminaux des employés.

Autre élément faisant l’objet d’un renvoi : le mécanisme d’opt-out. Et pour cause : il est sujet à une procédure bien particulière… qui cristallise une bonne partie des inquiétudes des utilisateurs. Nous y reviendrons.

Le reste du post est essentiellement fait d’autres exemples d’usage de modèles non génératifs. Parmi eux, le classement des résultats de recherche et la saisie semi-automatique. Une fois encore, un mot d’ordre : pas d’entraînement direct sur les données des clients. On s’appuie ainsi sur le nombre de mots dans une requête plutôt que sur la requête elle-même. Ou sur des scores de similarité des topics plutôt que sur leur nom.

« Si tu refuses, ça fonctionnera moins bien… »

La data des clients sert à entraîner ce que Slack appelle des « modèles globaux », au sens où ils sont mis à disposition du plus grand nombre, au niveau de la plate-forme. Refuser de partager des données n’empêche pas d’accéder à des modèles dans les espaces de travail, garantit Slack. Mais ils « fonctionneront probablement un peu moins bien, puisqu’ils ne seront plus optimisés pour vos patterns d’usage »…

Mais comment, au juste, signifier ce refus ? Pas d’option sur l’interface de Slack. Il faut envoyer un e-mail à feedback@slack.com avec l’URL de l’organisation ou de l’espace de travail concerné. Ne peuvent le faire que des personnes spécifiques. En l’occurrence, un propriétaire de l’organisation ou de l’espace de travail, ou un propriétaire principal.

Les principes de confidentialité de Slack n’ont pas de déclinaison spécifique à l’Union européenne. La version française n’est qu’une « traduction [fournie à] titre informatif ». « Dans l’éventualité où des incohérences apparaîtraient entre celle-ci et la version anglaise, c’est la version anglaise qui prévaudrait. ».

On y retrouve les grandes lignes du post sus-évoqué, avec davantages d’exemples… et de renvois. Dont un vers les règles de confidentialité de Slack (version en vigueur au 5 juillet 2023). Il y est notamment question des « autres informations » que la société se réserve le droit d’utiliser pour développer des modèles non génératifs, et pas que.

Une piqûre de rappel sur l’exploitation des données

De nombreux traitements reposent sur des « intérêts légitimes ». En premier lieu, « fournir, mettre à jour, entretenir et protéger nos services, sites web et activités ». Cela peut impliquer le transfert, le stockage et/ou le traitement de données hors de l’Espace économique européen. Slack s’appuie en particulier sur des clauses contractuelles types, pour l’Australie, le Canada, la Corée du Sud, les États-Unis, l’Inde et le Japon.
Intérêt légitime également invoqué pour l’élaboration d’outils de recherche, d’apprentissage et de productivité « ainsi que des fonctionnalités supplémentaires ». Idem pour aider à prévenir les problèmes de sécurité et les abus. Les données exploitées dans ce cadre englobent les informations des espaces de travail et des comptes, les infos d’usage, les cookies, les services tiers, les contacts, les métadonnées audio et vidéo, etc.

Certains passages des principes de confidentialité ne sont pas traduits. Il en est ainsi de celui traitant de la suggestion d’emojis. Slack y explique s’appuyer sur un modèle externe pour évaluer le sentiment des messages et baser ses suggestions sur la fréquence avec laquelle un emoji donné est associé à un sentiment donné au sein de l’espace de travail.

Sur la partie recherche, Slack insiste sur l’impossibilité de reconstituer la requête ou le résultat. Il déclare plus globalement agréger et dissocier les données des clients afin que leur utilisation « ne permette jamais à une tierce partie d’identifier un client comme étant la source de ces améliorations ».

Illustration © Slack