Terrapin, l'outil Open Source Big Data de Pinterest
Pinterest a rendu disponible une solution Open Source, nommée Terrapin, conçue pour placer plus efficacement des données dans Hadoop et rendre les informations utilisables par d'autres systèmes. Pour cela, les ingénieurs de Pinterest ont élaboré Terrapin comme un remplaçant de la base de données NoSQL, HBase, car elle est relativement lente et à des performances réduites au-delà de 100 Go de données. La société a regardé aussi le logiciel Open Source ElephantDB comme autre alternative, mais les résultats n'ont pas été parfaits.
Varun Sharma, ingénieur de l'équipe infrastructure de Pinterest, explique sur un blog que « Terrapin offre un accès aléatoire à faible latence pour les valeurs-clés sur un grand nombre de jeux de données, lesquels sont immuables et regénerer dans leur globalité (cf diagramme ci-dessous) ». Il ajoute : « Terrapin peut ingérer des données issues de S3 (Amazon), HDFS ou d'un traitement via MapReduce. Il est élastique, tolérant aux pannes et assez performant pour être utilisé par des applications de Pinterest comme Pinnability et Data Discovery. »
Lire aussi : Comment Pinterest a monté son PaaS Kubernetes
Pinterest a testé Terrapin en production pendant un peu plus d'un an avec une capacité de données qui s'établit aujourd'hui à 180 To de données. Avec la disponibilité de l'outil sur GitHub d'autres entreprises pourront l'essayer, voire l'adopter. Pinterest a déjà publié des solutions Open Source comme Pinball, PINCache et Secor.
A lire aussi :
Comment extraire de la valeur du Big Data, selon Intel
Big Data : les technologies sont déployées, mais pas sécurisées
Crédit : McIek Shutterstock
Sur le même thème
Voir tous les articles Data & IA