🎯 Objectif : Comprendre les bases des systèmes de données, des bases de données, des formats et des flux.
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| Bases de données relationnelles | SQL, PostgreSQL, MySQL | SQLZoo, Mode Analytics, W3Schools SQL | Créer une base clients |
| Bases NoSQL | MongoDB, Redis, Cassandra | MongoDB University, Redis Docs | Stocker un catalogue produit |
| Modélisation de données | ERD, normalisation, formats JSON/Parquet/Avro | Lucidchart, dbdiagram.io | Modéliser un data mart |
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| Hadoop & HDFS | Stockage distribué | Apache Hadoop Tutorial, YouTube (Simplilearn, DataCamp) | Stocker fichiers logs HDFS |
| Écosystème Hadoop | Hive, Pig, Sqoop | TutorialsPoint Big Data Suite | Importer CSV dans Hive |
| Spark (RDD, DataFrame, SQL) | Traitement en mémoire | Spark by Example, Databricks Free Courses | Analyse de logs avec Spark |
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| Kafka | Streaming distribué (pub-sub) | Confluent Kafka Free Courses, Kafka Summit | Ingestion de données IoT |
| NiFi / Airflow | Orchestration et ETL | Apache NiFi docs, Astronomer.io Airflow Guides | Pipeline ETL entre API et DB |
| Spark Streaming / Flink | Traitement de flux en temps réel | DataFlair Spark Streaming, Flink Playground | Analyse de tweets en temps réel |
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| Data Lakes (HDFS, S3) | Stockage brut de données | AWS Free Tier, Hadoop + MinIO Local | Organiser un data lake entreprise |
| Data Warehouse (BigQuery, Redshift, Druid) | Entrepôt analytique | Google BigQuery Qwiklabs, Amazon Redshift Labs | Tableau de bord commercial |
| OLAP et BI Tools | Superset, Metabase, Power BI | Apache Superset Quickstart, Metabase Docs | Création de rapports dynamiques |
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| ML avec Spark MLlib | Classification, clustering, régression | Spark MLlib Guide, Scala or PySpark ML | Prédire churn clients avec Spark |
| MLflow | Tracking d’expériences | MLflow Docs, Databricks Examples | Suivi de modèles sur plusieurs runs |
| AutoML / Big Data & Deep Learning | AutoKeras, H2O, TensorFlow on Spark | H2O.ai, TensorFlowOnSpark | Segmentation clients ou NLP à grande échelle |
| Compétence | Détails | Ressources recommandées | Cas Pratique |
|---|---|---|---|
| Docker / Kubernetes | Conteneurisation et orchestration | Kubernetes By Example, Play with Docker | Déploiement cluster Spark sur K8s |
| Sécurité des données | Chiffrement, contrôle d’accès, audit | Apache Ranger, Knox, Vault | Sécuriser un cluster Hadoop |
| Monitoring | Prometheus, Grafana, ELK | Monitoring Big Data pipelines | Dashboard de performances Kafka |
-
📘 Livres :
- Hadoop: The Definitive Guide – Tom White
- Streaming Systems – Tyler Akidau
- Designing Data-Intensive Applications – Martin Kleppmann
-
🌐 Plateformes :
- DataCamp
- Coursera - Data Engineering on Google Cloud
- [YouTube (French) - Grafikart, LeBigData.fr, Simplilearn]
- Ingestion Kafka des données clients, clics, commandes
- Traitement Spark Streaming et enregistrement dans Hive/S3
- Enrichissement MLlib pour score d’achat
- Orchestration avec Airflow des tâches batch + streaming
- Visualisation Superset avec indicateurs : ventes, trafic, paniers abandonnés
- Déploiement sur Kubernetes
- 🗓️ Suivre un plan hebdomadaire avec 10–15h/semaine
- 👥 Participer à des forums : Stack Overflow, Reddit r/bigdata, LinkedIn
- 🛠️ Contribuer à un projet open source ou GitHub personnel
- 📝 Tenir un carnet de bord de vos apprentissages
Souhaitez-vous un document PDF ou une version Notion de cette feuille de route ? Souhaitez-vous qu’on adapte cette formation à un profil spécifique (étudiant, professionnel, reconversion) ?