Pour gérer vos consentements :

Au-delà d'Albert, 8 projets que porte l'incubateur IA de l'État

Publié par Clément Bohic le | Mis à jour le

La DINUM anime l'incubateur AllIAnce, destiné à favoriser l'appropriation de l'IA dans l'action publique. Voici 8 projets qu'il a pris sous son aile.

"Permettre à l'action publique de s'approprier tout le potentiel des technologies d'intelligence artificielle". Ainsi l'État présente-t-il la mission d'AllIAnce.

Cet incubateur qu'anime la DINUM a recours aux fonds FTAP, PIA et France 2030. Les projets lauréats sont financés par défaut à 50 %. AllIAnce en recense actuellement huit, que voici.

Panneaux-ramax (porté par l'IGN)

L'IGN produit la base de données BD Topo, conçue pour élaborer des cartes. Il lui manque des éléments tels que :

  • Limites de vitesse réelles
  • Restrictions à la circulation selon le gabarit ou le type de véhicule
  • Interdictions ou obligations de tourner
  • Feux tricolores, panneaux stop, passages piétons et autres éléments ayant un impact sur le calcul d'itinéraire
  • Panneaux-ramax vise à combler une partie de ce manque en analysant des photos du terrain pour y détecter panneaux de signalisation et infrastructures publiques. Ces photos proviennent notamment du projet Panoramax, lancé à l'IGN fin 2022.

    Des tests d'analyse ML ont permis de détecter quelque 2 millions de panneaux sur un lot de 8 millions de photos. Au-delà des appariements avec la BD Topo, il doit en résulter une base Panneaux en open data.
    Pour les 6 mois conduisant à la mise en service, l'IGN prévoyait de mobiliser une équipe externe sur un forfait de 170 000 €.

    Aristote (CentraleSupelec)

    Ce projet porte sur la génération de quiz à partir de supports de cours. Il doit se traduire par une API - hébergée dans un cloud souverain - que les éditeurs de produits EdTech pourront utiliser. Wooclap et Ubicast se sont dits intéressés. Les porteurs des logiciels libres BBB et POD également.

    Aristote a demandé un financement de 100 000 €, en complément à ses frais de masse salariale (30 k€) et de recours à prestation (70 k€). Son objectif au démarrage était d'un millier de quiz validés à 6 mois (puis 10 000 au bout d'un an).

    SpeechToText (France Université Numérique)

    Ce projet vise à développer un système libre de transcription voix vers texte adapté à des cas d'usage asynchrones. En première ligne, le sous-titrage de documents audiovisuels (le catalogue FUN comprend environ 3300 heures de vidéo).

    Le levier : faire évoluer le remote runner du projet Peertube (initialement prévu pour déporter l'encodage des vidéos) afin d'en proposer une version dédiée à la transcription - avec le modèle Whisper comme socle. Puis déployer ce remote runner sur l'infra de FUN tout en l'ouvrant aux administrations utilisatrices de Peertube.

    Au démarrage, FUN estimait avoir besoin de 60 k€ de prestation avec Framasoft (éditeur de Peertube) et de 40 k€ pour l'infra GPU. L'objectif était d'avoir traduit totalement le catalogue à 6 mois et de mettre SpeechToText en open source au bout d'un an.

    Albert MFS (Etalab)

    Il s'agit du premier cas d'usage en prod pour l'outil d'IA générative interministérielle Albert. Le principel : le déployer dans les maisons France services, sous forme de chat en ligne pour l'assistance aux conseillers numériques. Le modèle sous-jacent, nommé Guillaume Tell, est sous licence ouverte (Apache 2.0). Il est entraîné à partir d'OpenHermes-2.5-Mistral-7B. Ses sources proviennent de la base de donénes service-public.fr. Ajusté avec l'approche LoRA et quantisé en 4 bits, il gère le RAG. Une version Albert Light basée sur Llama 2 (13B) existe aussi.

    Camembert 2.0 (INRIA)

    Avec ce projet, le labo ALMAnaCH de l'INRIA veut développer un successeur au modèle de langue CamemBERT et à son dérivé CamemBERTa, qui reposent sur des données désormais obsolètes. Cela passe par la création d'un corpus actualisé de textes en français (principalement issus du projet OSCAR). Principal usage ciblé : la classification - y compris dans le cadre de la vectorisation, en support des LLM. Financement sollicité à l'origine : 60 k€ pour la puissance machine et les ressources humaines.

    LANGU:IA (ministère de la Culture)

    Ce projet s'inspire de LMSYS. Il vise à constituer une "arène" francophone de classement des modèles par préférences humaines. Pour crowdsourcer des évaluations, LANGU:IA mise sur un module de sensibilisation à l'IA intégré à Pix (plate-forme de certification des compétences numériques) et au Campus du numérique public.

    RAGtime

    Ce projet doit aboutir à une solution permettant d'évaluer le RAG sans en connaître le fonctionnement. L'idée est d'associer des briques dites "FactGenerator" et "Validator". La première part des réponses validées par des humains et en extrait des faits vérifiables, à leur tour soumis à vérification humain. La seconde réalise la comparaison avec une nouvelle version du RAG sur la base de ces faits.

    En plus de proposer une bibliothèque permettant la mise en oeuvre de cette approche, RAGtime cherche à inclure des LLM open source ajustés pour porter les composantes FactGenerator et le Validator.
    Initialement, la DINUM avait dit mobiliser une équipe interne pour un montant de 100 000 €. Elle avait sollicité la même somme pour une équipe externe sur les 6 mois conduisant à la mise en service.

    LIRIAe (ministère de la Transition écologique)

    Il s'agit ici d'améliorer le traitement des dossiers de projets et plans-programmes par les autorités environnementales. Ce par l'intermédiaire d'un service aidant à la recherche et à la synthèse d'informations, puis à la production de suggestions de rédaction d'avis. Le potentiel de gain estimé est qualitatif (plus grande facilité à trouver l'info) et quantitatif (10 à 20 % de temps par dossier).

    La plate-forme inclut des outils de dépôt, de structuration automatique et de lecture des PDF en ligne, avec une recherche "avancée" et des étiquettes thématiques. La diffusion nationale concernerait quelque 100 auditeurs. La déclinaison sur des cas similaires pourrait toucher plus d'un millier d'utilisateurs. Le projet doit bénéficier d'initiatives comme Albert, Camembert 2.0 et RAGtime.

    Le ministère a sollicité un financement de 150 k€ pour couvrir, sur les 6 mois conduisant à la mise en service, une équipe externe d'experts en NLP, développement front/back et déploiement.

    Illustration générée par IA