Qu’y a-t-il exactement dans l’Arctic Vault de GitHub ? Peut-être pas forcément ce qui aurait dû s’y trouver. Notamment des données médicales confidentielles.
L’Arctic Vault est la première incarnation* du programme de préservation du code open source GitHub Archive, lancé en novembre 2019. L’initiative a consisté à capturer, le 2 février 2020, un instantané des dépôts publics actifs sur la plate-forme. Puis à stocker l’ensemble sur du film photosensible destiné à l’archivage longue durée (un millier d’années en l’occurrence).
L’ensemble est entreposé dans l’Arctic World Archive. Celle-ci se situe à 250 m de profondeur, dans une ancienne mine de charbon, sur l’île norvégienne de Spitzberg. Une quarantaine de pays reconnaissent l’endroit comme une zone démilitarisée. On y abrite du patrimoine depuis 2017, des manuscrits du Vatican aux toiles de Rembrandt.
Il n’est pas certain que les données médicales en question aient bel et bien fait l’objet d’un archivage. Mais la probabilité est grande. Ne serait-ce que du point de vue temporel. D’après les chercheurs qui les ont détectées, ces informations personnelles (noms, adresses postales, dates de naissance, bilans de santé, numéros de sécurité sociale…) étaient apparues sur des dépôts publics au plus tard en septembre 2019. Et leur suppression n’était intervenue qu’en décembre 2020.
À la racine du problème, il y a Med-Data. Cette entreprise américaine fournit au secteur de la santé des solutions de gestion financière. La publication des données sur GitHub serait le fait d’un ancien employé qui aurait sauvegardé ses dossiers personnels.
Sollicité à partir du 8 décembre 2020, Med-Data avait commencé à donner réponse le surlendemain. Il vient tout juste de faire une déclaration publique. Et d’envoyer un courrier aux individus potentiellement concernés. Les clients, eux, sont au courant depuis début février. Memorial Hermann, OSF Healthcare et le centre médical de l’université de Chicago font partie de ceux qui ont relayé l’alerte. La liste complète laisse suggérer que le problème est circonscrit à l’Amérique du Nord.
Med-Data a pris contact avec GitHub pour tenter d’obtenir des journaux d’archivage et discuter d’un éventuel retrait des données. On ignore la tournure des négociations. Officiellement, toute donnée archivée doit le rester. En tout cas au moins pour cinq ans, intervalle auquel GitHub compte réévaluer son programme… et éventuellement capturer d’autres instantanés. Tous ces snapshots ont par ailleurs un statut spécifique vis-à-vis du RGPD, nous explique-t-on.
L’Arctic Vault est censé contenir les dépôts publics qui :
* Autre démarche réalisée dans le cadre de GitHub Archive : l’archivage des projets les plus populaires. Également sur du film photosensible, mais mis dans des boîtes qu’on trouve – en double exemplaire – dans quatre lieux :
Illustration principale (archipel du Svalbard) © kenyai / CC BY-NC-ND 2.0
Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…
L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…
Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…
Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…
Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…
De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…