L'ingénierie de la fiabilité des sites (SRE) fait le point sur les architectures d'entreprise modernes
Ce n'est pas parce que c'est allumé que ça fonctionne. En effet, une lampe allumée peut ne pas éclairer suffisamment l'utilisateur pour qu'il puisse voir ce qu'il est en train de faire.
De nombreux paramètres différents, au-delà de la puissance, et ont un impact sur le fait que l'utilisateur puisse voir ou non. L'ampoule fonctionne peut-être mal, soit parce qu'elle est en train de griller, soit parce que la tension est correcte mais insuffisante. Si l'ampoule n'a pas assez de puissance pour rester allumée, c'est peut-être dû à un problème de câblage ou à un débit d'électricité limité par un variateur.
De nombreux facteurs ont un impact sur les performances de la lampe et, ultérieurement, sur l'expérience de l'utilisateur. De même, pour évaluer les performances et la fiabilité des systèmes et des applications, il faut aller au-delà de la mesure traditionnelle du temps de fonctionnement. Le niveau de fiabilité dépend également du niveau de service.
Les systèmes et les applications sont constitués de nombreux composants (infrastructure, API, sécurité, flux de travail, logique, données, etc.) réunis dans un but précis, et il ne suffit pas d'être
« branché » pour être fiable. À l'instar de l'analogie avec la lampe, une organisation doit être en mesure d'évaluer et d'apprécier tous les composants pour pouvoir confirmer une expérience et des performances optimales.
Si, dans une entreprise traditionnelle, il suffit de suivre le » parcours du client » pour évaluer l'expérience globale, pour déterminer si le niveau de service est insuffisant, pour une entreprise numérique, cela peut représenter un défi considérable. Le cloisonnement des activités et de l'informatique créé par les architectures d'entreprise traditionnelles fait qu'il n'est pas toujours facile ou efficace d'identifier un problème et d'en trouver la cause profonde.
Les chefs d'entreprise pourraient penser qu'il y a un problème, mais pas les équipes informatiques qui gèrent leurs composants, si tout fonctionne. L'ingénierie de la fiabilité des sites (SRE) est le pont qui relie l'entreprise et l'informatique afin d'assurer l'exécution des engagements commerciaux au moyen d'objectifs de niveau de service (SLO).
Qu'est-ce que la SRE ?
Née chez Google au début des années 2000, l'ingénierie de la fiabilité des sites est « ce que l'on obtient lorsque l'on traite les opérations comme s'il s'agissait d'un problème de logiciel ».
En effet, il s'agit d'un ensemble de processus, de pratiques et d'outils mais aussi d'une culture et d'un état d'esprit visant à créer des systèmes fiables, efficaces et évolutifs qui répondent aux objectifs de l'entreprise.
La SRE se concentre sur des systèmes fiables (et pas seulement disponibles) et évolutifs. Il s'agit d'un état d'esprit et d'une culture car, comme pour la sécurité, chacun devrait contribuer activement à la qualité et à la fiabilité des systèmes, quel que soit son rôle.
Bien qu'il s'agisse également d'une culture et d'un état d'esprit, la pratique de la SRE est souvent intégrée à une équipe de service, qui fournit l'ensemble du service de bout en bout. Ces équipes sont généralement responsables de l'amélioration du système de base et de la mise en oeuvre de l'innovation en surveillant la disponibilité, la latence, les performances et la récupération, et en s'efforçant d'améliorer en permanence l'automatisation et l'efficacité.
En fait, elles examinent l'ensemble de la pièce, et ne se limitent pas à vérifier que la lampe est bien allumée.
Comment la SRE utilise les SLI pour répondre aux SLO
L'ingénierie de la fiabilité du site définit les mesures des SLO et SLI (indicateurs de niveau de service) pour atteindre les résultats commerciaux. Pour simplifier, la SRE réunit les besoins et les objectifs des équipes de développement, de sécurité et d'exploitation pour que l'entreprise puisse tenir les promesses faites à ses clients de manière fiable.
Si les entreprises s'engagent à ce que les utilisateurs aient suffisamment de lumière pour voir ce qu'ils font (niveau de service), un des SLO pourrait être une lampe bien éclairée (disponibilité) pour 10 mètres carrés d'espace. Parallèlement, un autre SLO peut consister en un MTTR (Mean Time To Recover) correspond au délai dans lequel les ampoules usagées ou défaillantes seront remplacées.
Et les SLI correspondent aux seuils définis par les ingénieurs de fiabilité du site et informatique pour s'assurer que les SLO sont atteints, notamment en surveillant le flux lumineux, le flux d'électricité vers chaque lampe, ou les changements de position marginaux des lampes provoqués par les utilisateurs qui les cognent ou les déplacent.
Dans les systèmes de livraison d'applications, ces mesures pourraient être l'utilisation du CPU (Central Processing Unit), le temps d'appel de l'API et d'interrogation de la base de données, etc.
C'est aux ingénieurs de fiabilité du site de définir les mesures SLI qui ont un impact sur les SLO de l'entreprise, et les réponses qui seront prises lorsqu'elles passent sous des seuils spécifiques et ce, en ajustant les politiques d'exploitation et la configuration.
L'avantage de la SRE dans les architectures d'entreprise modernes
Ces mesures, seuils et réponses sont le croisement de la SRE avec les autres domaines d'une architecture d'entreprise moderne conçue pour la livraison d'applications d'une entreprise numérique. Les données opérationnelles (la télémétrie) permettent d'observer les mesures et les seuils définis par la SRE.
L'automatisation est une application combinée d'outils, de technologies et de pratiques permettant aux ingénieurs de fiabilité des sites de mettre à l'échelle des réponses définies avec moins de travail, permettant ainsi de satisfaire efficacement les SLO d'un service numérique. Et la fiabilité du système des services numériques améliore la probabilité d'une expérience positive pour l'utilisateur de l'entreprise numérique.
Autrement dit, la SRE agit comme un pont qui harmonise les efforts de l'informatique et de l'entreprise et utilise tous les outils, technologies et processus disponibles pour aller au-delà de la simple mise en service des systèmes et s'assurer qu'ils fonctionnent de manière fiable.
L'adoption de la SRE dans l'architecture d'entreprise permet à celles-ci d'être proactives dans l'entretien de leurs applications système et de remarquer plus tôt les défaillances ou les irrégularités, que les ingénieurs de fiabilité du site peuvent alors examiner et résoudre avant que l'expérience de l'utilisateur ne soit affecté
Arnaud Lemaire, Expert en cybersécurité - F5.
Sur le même thème
Voir tous les articles Open source