Dataset Search : le nouveau moteur de Google pour les données
Dans le but de faciliter l'accès aux données, Google a lancé un nouveau moteur de recherche répondant au nom de Dataset Search.
Des quantités massives de données existent d'ores et déjà. Seul problème : elles ne sont pas systématiquement présentées dans un format facile à analyser pour les moteurs de recherche.
Des metatags pour faciliter la recherche
L'objectif de la filiale d'Alphabet est de rendre toutes ces informations plus accessibles aux scientifiques, journalistes et autres utilisateurs friands de données. Qu'il s'agisse de satisfaire sa curiosité intellectuelle ou bien d'exploiter ces données pour son travail, Dataset Search doit devenir l'outil de référence en la matière.
A cet effet, la firme de Mountain View fournit des directives aux fournisseurs de jeux de données afin qu'ils décrivent systématiquement leurs données de manière à ce qu'elles soient facilement identifiables par Dataset Search.
Il est ainsi recommandé d'inclure des balises de métadonnées dans les pages Web qui décrivent les données, avec pour informations ceux qui les ont créées, quand elles ont été publiées, comment les données ont été collectées.
Ces informations seront ensuite indexées par le moteur de recherche de Google et combinées avec des informations issues du graphe de connaissances (knowledge graph).
Recours au standard schema.org
L'approche de Google en matière est basée sur le standard ouvert schema.org pour décrire ces informations.
Google incite à utiliser ce système pour décrire les bases de données, comme l'indique le groupe dans un billet de blog : « Quiconque publie des données peut décrire son ensemble de données de cette manière. Nous encourageons les fournisseurs de jeux de données, grands et petits, à adopter cette norme commune afin que tous les ensembles de données fassent partie de cet écosystème robuste. »
Google lance initialement la recherche de données avec du contenu de la NASA, de la NOAA (National Oceanic and Atmospheric Administration), de Harvard Dataverse et du consortium inter-universitaire pour la recherche politique et sociale (ICPSR), entre autres collections universitaires.
Dataset Search devient ainsi le nouveau moteur de recherche de Google spécialisé dans un domaine, rejoignant, entre autres, Google Scholar, Google Books et Google Patents.
(Crédit photo : @Google)
Sur le même thème
Voir tous les articles Data & IA