Python pour le Big Data

Objectifs de la formation

Objectif : Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques Compétences visées : - Connaître les problématiques du Big Data - Connaître les différentes librairies Python permettant de manipuler le Big Data - Savoir manipuler de grands volumes de données - Avoir des notions sur l'architecture Big Data

Contenu de la formation

- Concepts du Big Data Cette introduction permet de vous initier à la problématique du Big Data Volume, Vitesse, Véracité Map Reduce Architecture Big Data et Data Lake Big Data et Cloud computing Les outils du Big Data - Introduction à la librairie Dask Dask est une librairie qui permet de faire du calcul distribué sur plusieurs coeurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données. Présentation de Dask Exemple de calculs distribués Dask et Numpy: comparaison de performances Dask et Pandas - Introduction à la librairie Xarray Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask Présentation de Xarray Exemples d'utilisation de Xarray Mise en pratique avec un fichier netCDF - Introduction à la librairie Vaex Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde. Présentation de Vaex Prise en main de Vaex avec des exemples Comparaison entre Vaex et Pandas Visualisation des données avec Vaex - Introduction à Spark Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python Présentation de Spark Architecture Apache Spark Autres outils associés à Spark (Yarn, Mesos) Resilient Distributed Dataset (RDD) Présentation et Installation de PySpark - Introduction à PySpark Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension - Visualisation des données massives avec Holoviews Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser. Présentation et prise en main d'Holoviews Interactivité avec Holoviews

Résultats de la formation

Attestation d'acquis ou de compétences;Attestation de suivi de présence

Conditions spécifiques d'accès à la formation

Pour suivre ce stage dans de bonnes conditions, il est recommande d avoir suivi en amont la formation Python - Bases et introduction aux librairies scientifiques ou d avoir atteint par la pratique un niveau equivalent

Métier formé

Data / Big data

Niveau d'étude visé

Sans le Bac

Type d'immersion professionnelle

Formation initiale

Organisme de formation

Data Value

Durée de la formation

1 mois

Modalités de formation

formation entièrement présentielle

Prochaine(s) session(s)

02/12/2024 - 06/12/2024

Lieu de formation

54 Rue du Faubourg Saint-Antoine 75012 Paris 12e

Voir sur la carte

Contact

Plus de détails sur cette formation

Signaler la formation