Durée :
3 jours
Ref :
B-D-AS
Prix :
1875€ HT
Date des prochaines sessions
Session garantie à partir de 2 personnes.
7.9.22
-
9.9.22
Lyon / Nantes / A distance
30.11.22
-
2.12.22
Lyon / Nantes / A distance
Publics
Développeurs Backend et Architectes SI.
Pré-requis

Connaissances sur Python.

Informations pratiques
  • THÉORIE : 40%
  • PRATIQUE : 60%
  • LIEUX : NANTES, LYON, À DISTANCE

Votre formateur
Consultant et formateur. Ingénieur développeur depuis 5 ans, notre formateur intervient durant tout le processus du développement d’applications.

Mise en œuvre des traitements Big Data avec Spark

Vous trouverez ci-dessous le programme détaillé de la formation "Mise en oeuvre des traitements Big Data avec Spark" . Cette formation de 3 jours vous permet de comprendre et mettre en oeuvre le développement d’une application avec Spark.

Objectifs pédagogiques

  • Développer une application s’appuyant sur Spark
  • Connaître les concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML


Programme détaillé


Présentation de Spark

  • Spark vs MapReduce
  • Le modèle in-memory
  • Composants : Jobs, Stages, Tasks
  • Les différentes interfaces : API Python, shell…

Atelier : Installation de l’environnement de développement et manipulation Spark

Objectif opérationnel : Maîtriser l’installation de l’environnement pour Spark

Moyen d’évaluation : QCM



Resilient Distributed Datasets

  • Principe des DAG
  • Les transformations : Filter, map, reduce, …
  • Les actions
  • Cache et persistance

Atelier : Effectuer des statistiques sur des données météorologiques

Objectif opérationnel : Comprendre les RDD sur Spark

Moyen d’évaluation : QCM



Dataframes

  • Les requêtes
  • Les formats
  • Spark SQL


Atelier : Observer et optimiser l’exécution de l’analyse de texte

Objectif opérationnel : Optimiser les RDD avec les dataframes

Moyen d’évaluation : QCM


Application : Exécution et debug

  • Structure d’une application
  • Exécuter une application
  • WebUI
  • Optimisation

Atelier : Observer et optimiser l’exécution de l’analyse de textes

Objectif opérationnel : Maîtriser d’exécution d’une application Spark

Moyen d’évaluation : QCM



Streaming

  • Présentation de DStream
  • Découverte de Sqoop
  • Utilisation de Kafka

Atelier : Exploiter des données via sqoop en temps réel

Objectif opérationnel : Comprendre le traitement en temps réel des données avec Spark

Moyen d’évaluation : QCM



SparkML


  • Présentation de ML et MLlib
  • Composants : Estimators, Transformers, Evaluators
  • Pipeline
  • Utilisation de Kafka

Atelier : Prédire la race d’un chien présent dans une image

Objectif opérationnel : Appréhender les problématiques du machine learning avec SparkML

Moyen d’évaluation : QCM