DSI 002 Mise en œuvre de DataGalaxy pour la gouvernance des données pour un environnement big data : cartographie, traçabilité et automatisation des métadonnées PFE
Orange Tunisie
StageHybride4 à 6 moisDate limite : 25 nov. 2025
Data GovernanceData Engineering / Big DataData Engineering / Machine Learning
Mettre en place DataGalaxy comme Data Catalog dans un environnement Big Data (Hadoop, Spark, Hive, etc.).
Objectifs principaux : centraliser la cartographie des sources, flux et transformations, assurer la traçabilité des données, automatiser la collecte et l’actualisation des métadonnées et favoriser la collaboration entre équipes data, IT et métier.
Missions principales
Intégration de DataGalaxy avec l’écosystème Big Data existant : configuration des connecteurs et ingestion des métadonnées depuis Hive/Impala, HDFS, Spark, NiFi, etc.
Cartographier les sources, flux et transformations, documenter les datasets côté technique et métier, et mettre en place la gestion des dépendances et de la traçabilité.
Activités techniques détaillées
Développement et configuration de connecteurs pour automatiser la collecte des métadonnées (OpenLineage, API, crawlers) et alimentation du catalogue.
Travail sur pipelines Big Data (Spark/PySpark), interrogation de métadonnées via Hive/Impala, et modélisation des relations en graph (Neo4j) pour la traçabilité et l’impact analysis.
Technologies & compétences requises
Connaissances / outils mentionnés : Data Catalog & Gouvernance (DataHub, Amundsen, Apache Atlas, OpenLineage), BIG DATA (Apache Hive/Impala, HDFS, Spark/PySpark, NiFi), Neo4j.
Compétences en développement back-end / microservices (Python, Flask, FastAPI) ou Node.js pour l’intégration et l’automatisation des workflows.
Livrables attendus
Catalogue DataGalaxy déployé et alimenté automatiquement avec connecteurs configurés et documentation des datasets (technique et métier).
Rapport de gouvernance précisant les bonnes pratiques, la configuration des connecteurs, la stratégie de traçabilité et la gestion des dépendances.
Encadrement & contexte d’accueil
Entité d’accueil : Data et IA Factory - service production de la donnée.
Durée du stage : 6 mois (modalité indiquée : 4-6 mois dans l’offre).