Maîtriser son projet de data visualisation : les principes fondateurs
Une phase de cadrage est indispensable en démarrage de projet pour définir ses objectifs, ses parties prenantes, son périmètre - fonctionnel et technique - et ses utilisateurs clés.
La data visualisation (ou dataviz) rend plus rapide l'analyse des données en les représentant visuellement. Elle facilite ainsi leur interprétation à des personnes non-spécialistes. Ces techniques donnent la possibilité à chaque individu de prendre de décision basée sur la data. Lumière sur les principes fondateurs de la dataviz.
Ne pas sous-estimer l'importance du cadrage
« On ne gère bien que ce que l'on mesure ». A l'heure du Big Data, cette citation du physicien Lord Kelvin prend tout son sens. Les données sont omniprésentes et, organisées efficacement. Elles permettent de prendre des décisions opérationnelles éclairées en aidant les dirigeants et managers dans leurs planifications stratégiques.
Cependant, il est primordial que les équipes adhèrent et trouvent un intérêt réel aux indicateurs mis à disposition. La mise en oeuvre du projet nécessite une bonne compréhension des enjeux métier, data et techniques.
Une phase de cadrage est ainsi indispensable en démarrage de projet pour définir ses objectifs, ses parties prenantes, son périmètre - fonctionnel et technique - et ses utilisateurs clés.
Une fois les contraintes du triptyque qualité, coûts, délais bien identifiées, ce cadrage doit permettre de répondre aux questions suivantes : quel système veut-on piloter ? A quelles questions veut-on répondre ? Quelles instabilités veut-on détecter dans le système métier réel ? Comment les visualisations de données peuvent-elles permettre de détecter rapidement ces instabilités, visuellement ?
Aucune data visualisation n'est « magique »
La qualité des données et la compréhension fine de celles-ci constituent des fondations indispensables : une qualité médiocre peut nuire tant au succès des projets qui en dépendent, ainsi qu'à l'image de l'entreprise elle-même.
Sa bonne qualité doit être mesurée selon différents critères factuels : la complétude, la cohérence, l'unicité, l'intégrité, la validité, la raisonnabilité, l'actualité et l'exactitude.
La complétude fait référence à la présence de toutes les données requises.
La cohérence consiste à s'assurer que les valeurs des données soient représentées de manière cohérente dans un dataset et correctement associées entre chaque jeu de données.
L'unicité indique qu'une entité n'existe pas plus d'une fois dans le dataset.
L'intégrité des données est souvent associée à la complétude, l'exactitude et la cohérence. Il s'agit généralement de l'intégrité référentielle ou de la cohérence interne au sein d'un ensemble de données tel qu'il n'y a pas de trous ou de pièces manquantes.
La validité fait référence à la présence des valeurs des données dans un domaine défini de valeurs.
La Raisonnabilité vérifie si un modèle suit une distribution « raisonnable » des données. Par exemple, on considérera dans une base de données client qu'il n'est pas « raisonnable » que la moitié des clients aient une date de naissance au 1er janvier.
L'actualité correspond à plusieurs caractéristiques des données. Les mesures doivent être comprises en termes de volatilité attendue, la fréquence à laquelle les données sont susceptibles de changer et pour quelles raisons. Cette dimension concerne les données acquises ou mises à jour dans les délais impartis.
Enfin, l'exactitude représente la mesure dans laquelle les données sont correctement les véritables entités réelles.
Concevoir et déployer en mode agile et avec le métier
Venant après le cadrage, les phases de maquettage puis de conception de la solution data confrontent le data analyste et le métier aux données réelles, et permettent de construire par itération les data visualisations finales dans l'environnement cible.
Il est en effet primordial que la data visualisation créée s'intègre pleinement dans l'environnement de travail et dans les habitudes des utilisateurs afin que son coût d'accès soit minimal, voire nul. Elle permet aussi de valider l'architecture bout en bout de la solution choisie tout en maintenant le métier dans le processus.
La phase d'industrialisation et déploiement de la solution est paradoxalement trop souvent négligée. Il s'agit d'automatiser et de déployer la chaîne de valeur data, de la collecte des données jusqu'à la diffusion des visualisations. Celles-ci sont gérées comme des produits packagés.
Lire aussi : IaaS : Google, plus "visionnaire" que les autres ?
Cette phase permet aussi de prendre en compte toutes les exigences de production tels que les droits d'accès aux données, la sécurité, etc.
Maintenir la pertinence et préserver la confiance
Post déploiement, améliorer en continu la data visualisation est essentiel en gardant notamment le lien avec les utilisateurs pour comprendre leurs usages effectifs des data visualisations mises à disposition. Elle doit permettre, par exemple de détecter s'il y a un besoin de plus d'autonomie ou de plus grands degrés de liberté du métier dans la réalisation des dashboards, de détecter des nouveaux besoins qui apparaitraient au fil de l'utilisation, etc.
Mais elle doit aussi assurer le suivi des données en elle-même. Par exemple l'impact de la mise à jour d'une application source doit être suivie de près, ou encore une détérioration de qualité des données sous-jacentes devrait être remontée au métier systématiquement, pour que les équipes aient pleinement confiance en la qualité de celle-ci, en continu.
Certains diront que « ceux qui détiennent la donnée possèdent le pouvoir ». Les volumes de données en jeu et les nouvelles capacités d'analyse permettent beaucoup, et avec peu de connaissances il est possible de rapidement exposer des chiffres et des visualisations auprès du plus grand nombre.
Mais ces nouvelles capacités impliquent surtout des responsabilités et des devoirs. Un devoir de maîtrise du sujet dont on parle, un devoir de connaissance précise de la donnée mobilisée, et un questionnement sur la portée en termes d'éthique et de valeurs des analyses et visualisations créées.
Sur le même thème
Voir tous les articles Data & IA