Pour gérer vos consentements :

REEF : un framework big data open source signé Microsoft

Microsoft nous réserve parfois des surprise inattendues… Ainsi en est-il de REEF (Retainable Evaluator Execution Framework), un ensemble de librairies qui prend place au dessus du nouveau gestionnaire de ressources Hadoop YARN, et que l’éditeur a rendues open source.

L’après Dryad

Microsoft a pendant un temps travaillé sur une plateforme propriétaire alternative de Hadoop nommée Dryad. Associée à un modèle de programmation, DryadLINQ, et à DSC (Distributed Storage Catalog), elle était destinée à l’exécution d’applications de données sur des milliers de machines exécutant Windows HPC Server. Utilisée par le moteur de recherche Bing pour l’analyse de données non structurées, Dryad était assez proche de Hadoop, mais avec des différences notables.

REEF au dessus de YARN

REEF permet de résoudre certaines difficultés rencontrées dans YARN, la nouvelle génération de gestionnaire de ressources de Hadoop 2.0 qui aujourd’hui fait partie du projet Apache Hadoop. YARN vient se placer entre le système de fichiers HDFS et les clusters de gestion des données MapReduce, et assurer le lien entre HDFS et l’exécutions des jobs natifs dans Hadoop, comme MapReduce ou les processus de streaming Storm, ou encore l’exécutions de plusieurs processus analytiques sur une même donnée.

YARN présente cependant certaines limitations. En particulier, selon Raghu Ramakrishnan, CTO de la division Information Services de Microsoft, le framework est mal adaptée pour construire des jobs d’apprentissage machine car il demande des fonctionnalités spécifiques pour déplacer des données, monitorer des tâches, ou ré-itérer des calculs sans avoir à relancer le processus à chaque opération.

C’est donc là que REEF intervient. La solution se décline en deux modules : Evaluator, un ensemble de services REEF contenus dans un container YARN ; et Activity, un code utilisateur à exécuter dans un Evaluator. Cette architecture permet à l’Evaluator de demeurer original tandis que des Activities s’exécutent sur ses données. Par exemple une requête SQL qui s’exécute sur différents algorithmes d’apprentissage.


Voir aussi

Silicon.fr étend son site dédié à l’emploi IT
Silicon.fr en direct sur les smartphones et tablettes

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

13 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

16 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

18 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

18 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

18 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

2 jours ago