Formation Le Framework Hadoop au Maroc

Elearning Maroc > Formation Le Framework Hadoop au Maroc

Ci-dessous les Programmes relatifs à la formation Le Framework Hadoop au Maroc dispensés par notre cabinet de formation Professionnelle.

01- Formation Le Framework Hadoop au Maroc : Hadoop – installation et administration

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – installation et administration sont :

Découvrir les concepts et les enjeux liés à Hadoop
Comprendre le fonctionnement de la plateforme et de ses composants
Installer la plateforme et la gérer
Optimiser la plateforme

Formation Hadoop – installation et administration — Pour plus de détails, cliquez sur l’image

02- Formation Le Framework Hadoop au Maroc : Analyse de données en environnement Hadoop

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Analyse de données en environnement Hadoop sont :

Comprendre ce que sont HADOOP et YARN
Connaître les différents outils et les Framework dans un environnement HADOOP 2.0
Découvrir comment HDFS Fédération fonctionne dans HADOOP 2.0
Appréhender MapReduce
Savoir utiliser Sqoop pour transférer les données entre HADOOP et une base de données relationnelle
Comprendre comment exécuter une tâche de MapReduce sur YARN
Savoir écrire des requêtes HiveSQL pour manipuler des données
Comprendre comment utiliser le HCatalog avec Pig et Hive

Formation Analyse de données en environnement Hadoop — Pour plus de détails, cliquez sur l’image

03-Formation Le Framework Hadoop au Maroc : Administrer la plateforme Hadoop Hortonworks

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Administrer la plateforme Hadoop Hortonworks sont :

Apporter les compétences et connaissances pour maitriser l’administration d’Hadoop sur une distribution Hortonworks .
Savoir les différents modes d’installation , la configuration ,les différents outils , l’administration en détail, la sécurité et enfin l’exploitation au quotidien.

Formation Administrer la plateforme Hadoop Hortonworks — Pour plus de détails, cliquez sur l’image

04- Formation Le Framework Hadoop au Maroc : Hadoop – Hortonworks pour développeurs

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – Hortonworks pour développeurs sont :

Pouvoir effectuer une étude en profondeur dans les développements des applications Hadoop 2.0
Apprendre à définir et à développer des applications MapReduce (Yarn), Hive et Pig efficaces et pertinentes avec Hadoop 2.0
Être en mesure d’exploiter toute la puissance d’Hadoop 2.0 pour manipulation, analyse et exécution des calculs sur leur cluster Hadoop

Pour plus de détails, cliquez sur l’image

05-Formation Le Framework Hadoop au Maroc : Hadoop – MapR pour architectes et administrateurs

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – MapR pour architectes et administrateurs sont :

Acquérir les meilleurs pratiques pour l’administration d’Apache Hadoop 2.0
Savoir définir la taille d’un cluster et comment le déployer
Savoir installer et configurer Hadoop MapR
Comprendre comment gérer en permanence et maintenir des nœuds dans le cluster
Être capable d’optimiser la performance d’un cluster
Savoir déplacer et gérer les données dans le cluster ou encore ajouter et enlever des noeuds de données
Être en mesure de surveiller les statuts et l’état de santé du cluster dans un outil de monitoring Comprendre comment mettre en place une haute solution de disponibilité
Connaître les meilleures pratiques pour déployer un cluster Hadoop MapR

Formation Hadoop – MapR pour architectes et administrateurs — Pour plus de détails, cliquez sur l’image

06- Formation Le Framework Hadoop au Maroc : Hadoop – MapR pour développeurs

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – MapR pour développeurs sont :

Connaître Hadoop 2.0 et Hadoop Distributed File System
Comprendre comment mettre en œuvre le nouveau Framework YARN dans Hadoop 2.0
Acquérir les compétences nécessaires pour programmer avec « MapReduce »
Savoir optimiser une tâche MapReduce en suivant les meilleures pratiques
Être en mesure de créer des workflows avec Oozie
Savoir créer et exécuter des requêtes Hive sur des données HDFS
Créer des tâches MapReduce permettant d’analyser des données avec Pig
Savoir débugger des programmes « MapReduce » pour les fiabiliser

Pour plus de détails, cliquez sur l’image

07- Formation Le Framework Hadoop au Maroc : Hadoop – Cloudera pour développeurs

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – Cloudera pour développeurs sont :

Connaître Hadoop 2.0 et Hadoop Distributed File System
Comprendre comment mettre en œuvre le nouveau Framework YARN dans Hadoop 2.0
Apprendre à programmer avec « MapReduce »
Savoir optimiser une tache MapReduce en suivant les meilleures pratiques
Être en mesure de créer des workflows avec Oozie
Comprendre comment créer et exécuter des requêtes Hive sur des données HDFS
Créer des tâches MapReduce permettant d’analyser des données avec Pig
Savoir débugger des programmes « MapReduce » pour les fiabiliser

Formation Hadoop – Cloudera pour développeurs — Pour plus de détails, cliquez sur l’image

08- Formation Le Framework Hadoop au Maroc : Hadoop – Stockage avec Hbase

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Hadoop – Stockage avec Hbase sont :

Comprendre le fonctionnement de HBase
Savoir mettre en place une configuration distribuée

Formation Hadoop – Stockage avec Hbase — Pour plus de détails, cliquez sur l’image

09- Formation Le Framework Hadoop au Maroc : Apache Hadoop – développer des applications pour le Big Data

Les objectifs de la Formation Le Framework Hadoop au Maroc intitulée Apache Hadoop – développer des applications pour le Big Data sont :

Construire un programme à base de Map Reduce
Intégrer Hadoop HBase dans un workflow d’entreprise
Travailler avec Apache Hive et Pig depuis HDFS
Utiliser un graphe de tâches avec Hadoop

Formation Apache Hadoop – développer des applications pour le Big Data — Pour plus de détails, cliquez sur l’image

Hadoop – Tout savoir sur la principale plateforme Big Data

À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. En parcourant ce dossier, vous saurez tout sur Hadoop et son fonctionnement.

Hadoop définition :

Hadoop est un framework libre et open source écrit en Java destiné à faciliter la création d’applications distribuées (au niveau du stockage des données et de leur traitement) et échelonnables (scalables) permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données

Grâce au framework MapReduce, il permet de traiter les immenses quantités de données. Plutôt que de devoir déplacer les données vers un réseau pour procéder au traitement, MapReduce permet de déplacer directement le logiciel de traitement vers les données.

Écosystème Hadoop – Éléments de base :

Hadoop n’est pas seulement une application, c’est surtout une plate-forme dont les différents éléments intégrés permettent le stockage et traitement de données distribuées. L’ensemble de ces éléments forme l’« écosystème » de Hadoop.

L’écosystème Hadoop comporte des éléments de base indispensables au framework, d’autres sont des éléments complémentaires qui ajoutent des fonctionnalités.

Les éléments de base de Hadoop sont les suivants :

HDFS – Système de fichiers distribué :

HDFS (Hadoop Distributed File System) est le système de fichiers distribué et l’élément central de Hadoop permettant de stocker et répliquer des données sur plusieurs serveurs.

HDFS utilise un NameNode et un DataNode. Le DataNode est un serveur standard sur lequel les données sont stockées. Le NameNode contient des métadonnées (informations sur les données stockées dans les différents nœuds). L’application interagit uniquement avec le NameNode, et celui-ci communique avec les nœuds de données selon besoin.

YARN – Gestion et planification :

YARN est l’abréviation de « Yet Another Resource Negotiator » (plus simplement, un négociateur de ressources). Cet élément assure la gestion et planification des ressources (clusters) Hadoop et décide de ce qui doit se passer dans chaque nœud de données. Le nœud maître central qui gère toutes les demandes de traitement est le « Resource Manager ». Le Resource Manager interagit avec les différents Node Managers : chaque DataNode esclave possède son propre Node Manager pour l’exécution des tâches.

MapReduce :

MapReduce est un modèle de programmation qui a d’abord été utilisé par Google pour indexer ses opérations de recherche. Suivant cette logique, cet élément exécute des algorithmes pour décomposer des données en datasets plus petits. MapReduce s’appuie sur deux fonctions : Map() et Reduce(), qui analysent les données rapidement et efficacement.

La fonction Map regroupe, filtre et trie plusieurs datasets en parallèle et génère des tuples (paires key value). La fonction Reduce agrège ensuite les données de ces tuples pour produire le résultat souhaité.

Écosystème Hadoop – Autres éléments :

Les paragraphes qui suivent présentent quelques éléments complémentaires utilisés couramment dans l’écosystème Hadoop.

Hive – Data warehousing :

Hive est un système de data warehousing qui permet d’interroger les gros datasets présents dans le HDFS. Avant Hive, les développeurs étaient confrontés au défi de créer des tâches MapReduce complexes pour interroger les données Hadoop. Hive utilise la langage HQL (Hive Query Language), dont la syntaxe est semblable à celle de SQL. La plupart des développeurs ayant l’habitude des environnements et du langage SQL, ils sont rapidement à l’aise avec Hive.

L’un des avantages de Hive est que l’interface entre l’application et le HDFS est assurée par un pilote JDBC/ODBC. Ce pilote affiche le système de fichiers Hadoop sous forme de tables et convertit le HQL en travaux MapReduce (et vice-versa). Les développeurs et les administrateurs de bases de données bénéficient ainsi du meilleur des deux mondes : les avantages du traitement par lots des gros datasets et la possibilité de formuler des requêtes simples dans un environnement familier. Développé à l’origine par l’équipe Facebook, Hive est aujourd’hui une technologie open source.

Pig – Réduire les fonctions MapReduce :

Pig, développé initialement par Yahoo!, est semblable à Hive : il élimine la nécessité de créer des fonctions MapReduce pour interroger le HDFS. Comme c’est le cas avec HQL, le langage Pig (« Pig Latin ») est très proche du SQL. Pig Latin est une couche de langage pour les flux de données qui repose sur MapReduce.

Pig dispose également d’un environnement d’exécution qui s’interface avec HDFS. Les scripts écrits des langages tels que Java ou Python peuvent également être intégrés dans Pig.

Flume – Importation des big data :

Flume est un outil spécialisé dans l’importation des big data et qui agit comme un « messager » entre différentes sources de données et le HDFS. Il peut collecter, agréger et transmettre en streaming vers le HDFS des volumes considérables de données de logs ou d’événements générés par des applications telles que des sites de médias sociaux, des applications IoT et des portails d’e-commerce.

Flume présente les caractéristiques suivantes :

A une architecture distribuée.
Assure des transferts de données fiables.
Est tolérant aux incidents.
Possède la souplesse de collecter les données par lots ou en temps réel.
Si nécessaire, peut être mis à l’échelle horizontalement pour gérer plus de trafic.

Les sources de données communiquent avec les agents Flume : chaque agent est associé à une source, un canal et un « sink ». La source collecte les données en provenance d’un expéditeur (sender), le canal stocke les données temporairement et le sink transfère les données à la destination, à savoir un serveur Hadoop.

Sqoop – Importation de données dans les bases relationnelles :

Sqoop est également (comme Flume décrit précédemment) un outil pour l’importation des données. Alors que Flume travaille sur des données non structurées ou semi-structurées, Sqoop est utilisé pour exporter et importer des données à partir de bases de données relationnelles. Comme la plupart des données d’entreprise sont stockées dans des bases relationnelles, Sqoop est utilisé pour importer ces données dans Hadoop pour que les analystes puissent les examiner.

Pour exporter et importer des données, les administrateurs et développeurs de bases de données disposent d’une interface en ligne de commande (CLI) très simple. Sqoop convertit les commandes au format MapReduce et les envoie au HDFS via YARN. Tout comme Flume, Sqoop est tolérant aux incidents et peut exécuter des opérations concurrentes.

Zookeeper – Coordination des applications distribuées :

Zookeeper est un service qui coordonne les applications distribuées. Dans le framework Hadoop, il agit comme un outil d’administration avec un registre centralisé qui contient des informations sur le cluster de serveurs distribués dont il assure la gestion. Les principales fonctionnalités de Zookeeper sont les suivantes :

Gestion des informations de configuration (état partagé des données de configuration)
Service de nommage (affectation d’un nom à chaque serveur)
Service de synchronisation (gestion des blocages, compétition entre ressources/race condition et incohérences entre données)
Élection d’un leader (élit un leader parmi les serveurs par consensus)

Le cluster de serveurs sur lequel tourne le service Zookeeper s’appelle un « ensemble ». L’ensemble élit un chef « chef de cluster », les autres clusters se comportant comme des followers. Toutes les opérations d’écriture des clients doivent transiter par le serveur leader, alors que les opérations de lecture peuvent être transmises directement à n’importe quel autre serveur.

Zookeeper offre d’excellentes qualités de fiabilité et de résilience grâce à la synchronisation en mode dégradé (fail-safe), à l’atomicité des opérations et à la sérialisation des messages.

Kafka – Transferts de données :

Kafka est un système distribué de communication inter-processus de type publication-abonnement (publish-subscribe) qui est souvent utilisé avec Hadoop pour accélérer les transferts de données. Un cluster Kafka est constitué d’un groupe de serveurs qui servent d’intermédiaires entre les Producers et les Consumers.

Dans un contexte de big data, un exemple de Producer pourrait être un capteur qui relève des valeurs de température pour les transmettre au serveur. Les Consumers sont en fait les serveurs Hadoop. Les Producers publient un message sur un sujet donné (topic), et les Consumers sélectionnent les messages en « écoutant » leur sujet.

Un sujet donné peut être divisé en plusieurs partitions. Tous les messages affectés de la même clé sont stockés dans la même partition. Un Consumer peut écouter une ou plusieurs partitions.

En regroupant les messages sous une seule clé et en demandant à un Consumer de traiter des partitions spécifiques, plusieurs Consumers peuvent écouter le même sujet en même temps : ce sujet est parallélisé, ce qui augmente le débit du système. Kafka est généralement adopté pour ses qualités de vitesse, évolutivité et réplication performante.

HBase – Base de données non relationnelles :

HBase est une base de données non relationnelles en colonnes qui s’installe en surcouche du HDFS. L’un des défis du HDFS est qu’il est limité au traitement par lots. Autrement dit, pour les requêtes interactives simples, les données doivent quand même être traitées par lots, ce qui entraîne une latence élevée.

HBase contourne cette situation en supportant les requêtes portant sur une seule ligne, y compris dans les tables les plus volumineuses, ce qui réduit considérablement les temps de latence. Ce processus fait appel à des tables de hachage en interne ; il est modélisé sur Google BigTable qui permet d’accéder au système de fichiers Google (GFS).

HBase est évolutif, réagit efficacement aux incidents (par exemple, si un nœud tombe en panne) et il peut traiter les données non structurées et les données semi-structurées. C’est donc la solution idéale pour interroger de gros gisements de données à des fins d’analyse.

cabinet de formation au Maroc