De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL
La CNIL a accompagné les porteurs de trois projets d'IA appliqués aux services publics. Elle en dresse un bilan en quelques axes structurants.

Quels conseils la CNIL a-t-elle bien pu donner à la DINUM pour le développement d'Albert ?
Elle n'en dit mot dans le bilan de son "bac à sable" consacré à l'IA appliquée aux services publics.
Albert faisait pourtant partie des projets lauréats annoncés fin 2023. À ses côtés :
- "Conseils personnalisés d'Intelligence Emploi", projet de chatbot pour aider les conseillers de France Travail à proposer des formations aux demandeurs d'emploi
- Ekonom'IA, porté par Nantes Métropole pour sensibiliser les habitants à leur consommation d'eau
- PRIV-IA, de la RATP, pour expérimenter des cas d'usage autour de la captation vidéo "temps de vol" (technologie de type lidar)
Tous ces projets ont bénéficié de quelques mois d'accompagnement. Comme, avant eux, ceux sélectionnés dans le cadre des "bacs à sable" santé et edtech. La CNIL revient sur les principales recommandations qu'elle leur a faites. Avec, pour chacun, trois axes structurants.
France Travail face à la "nécessité d'une intervention humaine significative"
Le projet utilise un LLM Mixtral sur site. Le modèle est alimenté en RAG avec le profil des demandeurs ainsi que le catalogue de formations de France Travail et de ses partenaires (collectivités, associations, APEC...).
Un des enjeux étudiés fut la nécessité d'une intervention humaine significative. En toile de fond, l'article 22 du RGPD, qui donne le droit de ne pas faire l'objet d'une décision fondée exclusivement sur un traitement automatisé.
Dans ce contexte, il s'agissait à la fois d'assurer l'intelligibilité du fonctionnement de l'outil et d'en faire comprendre les principes aux agents, tout en leur permettant d'exercer leur pouvoir de jugement.
Un dispositif à trois composantes a été adopté :
- Formation continue et générale sur l'IA
- Acompagnement spécifique à l'utilisation de l'outil
- "Correspondants IA" faisant l'interface entre les agents et la direction générale
Autre axe structurant du projet : respecter le principe de minimisation des données. En particulier au sein des prompts (éviter d'intégrer des informations comme la situation familiale des demandeurs d'emploi ou leur état de santé). La CNIL a proposé quatre grandes pistes de réponse :
- Modèles de prompts
- Filtres de protection ou liste de mots interdits
- Alertes sous forme de notifications à la saisie de certains éléments
- A minima, intégration, dans l'outil, d'un message d'info sur les bonnes pratiques ; et formation à la rédaction de prompts - ou, "à tout le moins", sensiblisation sur le sujet
Les travaux se sont aussi portés sur la manière d'empêcher les biais pouvant entraîner des discriminations. Sur ce volet, on retiendra que le RGPD ne permet pas de lever l'interdiction de principe de traitement des données sensibles pour des finalités d'audit d'un système d'IA. En d'autres termes, il faut tester les outils avec des données non sensibles mais potentiellement vectrices de discriminations.
L'entrée en application de l'AI Act pourrait permettre, dans des cas bien définis (article 10), de lever l'obstacle en offrant un fondement juridique à cet audit.
Nantes Métropole bute sur l'accès aux données des administrations
Ekonom'IA vise la sensibilisation des abonnés par comparaison de leur niveau de consommation à ceux de foyers présentant des caractéristiques similaires. Le projet implique la collecte de données de sources internes (contrats de fourniture d'eau) et externes (détenues notamment par l'administration).
Déterminer la base juridique et permettre l'accès aux données fut l'un des grands enjeux étudiés.
La première base juridique envisagée s'est révélée appropriée : la mission d'intérêt public, d'autant plus pertinente pour une collectivité.
Le projet a, en revanche, été confrontéà un obstalce pour l'accès à certaines données externes. Motif : la nécessité de lever le secret fiscal et d'autoriser l'échange d'informations entre administrations.
Le fondement juridique le plus prometteur serait le II de l'article L. 114-8 du Code des relations entre le public et l'administration. Il dispose que "les administrations peuvent échanger entre elles les informations ou les données strictement nécessaires pour informer les personnes sur leur droit au bénéfice éventuel d'une prestation ou d'un avantage [...]".
Aux dernières nouvelles, cette option reste à l'état de réflexion.
Le "bac à sable" fut aussi l'occasion d'aborder l'anonymisation et la pseudonymisation des données.
Vu les problématiques juridiques d'accès aux données, Nantes Métropole n'a pas pu appliquer pleinement la méthodologie d'identification des données strictement nécessaires, puis de celles pouvant être respectivement anonymisées et pseudonymisées. Elle a cependant pu faire des tests sur un jeu de données fictives. Il a été constaté qu'elles conservaient les propriétés statistiques attendues après anonymisation par deux méthodes différents (généralisation et génération de données synthétiques). Il faudra tout de même effectuer des vérifications complémentaires avec des données réelles qui peuvent comporter des informations que ne contient pas un jeu de données fictives. Par exemple :
- Corrélation possible entre des consommations en eau très largement supérieures à la moyenne ne pouvant correspondre qu'à un ou quelques bâtiments potentiels
- Individualisation possible d'un foyer au nombre d'enfants à charge très largement supérieur à la moyenne
- Inférence possible sur des consommations pouvant être rattachées à des faits extérieurs (vétusté de la plomberie et dégâts des eaux dans certains quartiers, événements climatiques sur une zone spécifique, zone composée majoritairement de résidences secondaires...)
Troisième enjeu structurant : informer les personnes concernées et leurs permettre d'exercer leurs droits.
Sur le premier point, la fourniture d'eau étant un traitement distincts du projet, l'information des personnes doit être dissociée du contrat d'abonnement. Nantes Métropole envisage toutefois aussi une information sur chaque facture annuelle.
Sur le deuxième point, une dérogation au droit d'opposition des personnes concernées est possible. Par deux moyens :
- Pour permettre la satisfaction d'objectifs importants d'intérêt public, l'article 23 du RGPD autorise l'UE et les États membres à limiter la portée de ce droit (entre autres)
- S'agissant des finalités statistiques, il est possible de déroger à ce même droit s'il risque de rendre impossible ou d'entraver sérieusement la réalisation des finalités poursuivies
Les perspectives des caméras lidar de la RATP
Comme dans le cas de France Travail, la minimisation des données fut un axe structurant de PRIV-IA. Principal constat : en la matière, les dispositifs "temps de vol" présentent un avantage de par leur nature même. Ils ne capturent effectivement pas d'images, mais des informations de distance ensuite traduites en représentations visuelles.
Quant à l'évaluation du caractère anonyme de ces représentations, la CNIL s'arrête sur deux cas :
- Traitements mis en oeuvre dans un espace sous vidéoprotection
Une large part des cas d'usage envisageables sont concernés.
Or, dès lors que les représentations visuelles de personnes peuvent être croisées avec des images issues de caméras de vidéoprotection, on ne peut les considérer comme anonymes. La seule possibilité de croisement suffit (l'avis 05/2014 du G29 - groupe des CNIL européennes - exige que le responsable du traitement soit "empêché" de réidentifier). - Traitements mis en oeuvre pour intervenir auprès de la personne
Ont ici été examinés des cas de détection d'une intrusion de personnes ou d'actes de vandalisme.
Même en l'absence de croisement avec de la vidéoprotection, il y a traitement de données personnelles lorsque ces traitements ont pour objet l'identification indirecte d'une personne dont les données sont recueillies, et sont susceptibles de produire un effet sur elle. La CNIL fait là aussi référence à un avis du G29 (4/2007) : prétendre que les personnes physiques ne sont pas identifiables alors que la finalité du traitement est précisément de les identifier serait "en contradiction absolue in terminis".
Comme avec Ekonom'IA, s'est posée la question des traitements permettant d'atteindre une finalité statistique.
Selon la CNIL, un traitement n'entre dans ce cadre que s'il tend à production de données agrégées pour elles-mêmes. Dit autrement, son unique objet doit être le calcul de données, leur affichage ou leur publication, leur éventuel partage ou communication. L'information ne doit pas permettre de remonter aux individus.
Dans le cas de PRIV-IA, les traitements peuvent se diviser en deux catégories de finalités :
- Amélioration des politiques de régulation des flux de transport et de gestion des stations
- Régulation des flux de transport et gestion des stations
Le régime dérogatoire apparaît applicable à certains cas d'usage, sous conditions :
- Pour le décompte de personnes et la mesure de flux, s'assurer d'atteindre un nombre minimum de personnes avant d'enregistrer ce décompte
- Pour le recensement d'événements, il ne doit pas être possible de réidentifier les personnes concernées grâce aux informations remontées
Illustration © tookitook - Adobe Stock
Sur le même thème
Voir tous les articles Data & IA