Déduplication : adieu, copies inutiles?

Les volumes de données explosent et une même information est fréquemment copiée plusieurs fois. Comment, dans ce contexte, réduire le volume de données de façon fiable et sans risques de conflits de versions ou de pertes de fichiers sensibles ? La déduplication est la réponse.

Publié par La rédaction le 23 sept. 2015 | Mis à jour le 2 mars 2021 à 03:50

Lecture
3 min

Imprimer

Dans une entreprise, la plupart des documents sont stockés sur les serveurs en de multiples exemplaires. Non content de limiter l'espace de stockage nécessaire, ce phénomène ralentit les traitements et réduit les performances des équipements. Par ailleurs, les obligations de conformité réglementaire obligent souvent les entreprises à archiver des volumes considérables de données, qui sont donc autant de nouvelles copies. Comment mettre fin à ce cercle vicieux et optimiser la gestion de ces copies ?

Deux approches classiques

Traditionnellement, deux techniques existent pour réduire la taille des données.
L'approche dite « Fichier » consiste à remplacer les copies d'un fichier par des pointeurs vers une "copie maître". Seconde technique : la compression, qui supprime les copies des séquences de bits identiques. Si le poids des fichiers bureautiques ou les e-mails diminuent fortement après compression, celle-ci ne donne pas les mêmes résultats pour d'autres formats (compressés par nature) comme la plupart des images ou vidéos.

Ces deux traitements nécessitent du temps et de la puissance de calcul. C'est pourquoi ces déduplications interviennent après que l'information ait été stockée, et sont exécutées par l'équipement de stockage ou par une appliance de sauvegarde.
Dans un système d'information manipulant toujours plus de données et recourant de plus en plus à la réplication en temps réel, ces procédés s'avèrent insuffisants.

Plus efficace et plus rapide : la déduplication en ligne

La déduplication en ligne, ou à la volée, applique le traitement de déduplication avant que la donnée ne soit écrite sur le disque ou au moment de l'écriture. Associée à une infrastructure « All Flash », la déduplication en ligne affiche des gains considérables tant en capacité effective qu'en performances. Pour une efficacité optimale, la déduplication peut être combinée avec des algorithmes de compression. Les opérations en lecture bénéficient également de la déduplication en ligne, lorsque l'hyperviseur ou le système d'exploitation conserve en cache une « copie maître » des fichiers sollicités.

Un point - paradoxal - à surveiller néanmoins tient à la pression en faveur de la réduction du trafic réseau, tandis que les solutions en mode cloud se multiplient. Or, si la déduplication et la compression sont assurées par le serveur ou par un équipement dédié situé entre serveur et stockage, le trafic réseau et les écritures disque peuvent s'en trouver fortement ralentis.

Toujours dans le respect de la loi

Les contraintes de conformité réglementaire comme la loi Sarbanes-Oxley (finance) ou la loi Hipaa (santé) poussent les organisations à étudier les potentiels de la déduplication, qui ont le mérite d'être pleinement compatibles avec ces obligations. Le faible encombrement d'un fichier compressé le rend plus fiable, tandis que la déduplication associée à la réplication ou à des mécanismes RAID protège l'entreprise contre la perte de données due aux incidents matériels. Et plus encore si la réplication est effectuée vers un datacenter distant.

Un fichier chiffré ne pouvant être compressé, la déduplication en ligne et la compression sur le serveur constituent des solutions très attractives pour un environnement soumis à de fortes exigences de conformité.

Pour un maximum de performances, une bonne coopération entre hyperviseur ou système d'exploitation et logiciel de stockage est indispensable. Étant données les réductions de coûts qu'elles génèrent et les performances qu'elles procurent, la compression et la déduplication en ligne sont de plus en plus intégrées aux systèmes de stockage. Et l'entreprise doit en faire l'un de ses critères de choix, sans concession.

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Déduplication : adieu, copies inutiles?

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode