La supervision des clusters et l’analyse des logs sont essentielles pour assurer la performance, la fiabilité et la sécurité des traitements Big Data.
Objectif principal : développer un dashboard intelligent capable de centraliser et analyser les logs (HDFS, Hive, Spark, services cluster), détecter automatiquement les anomalies, fournir des alertes en temps réel et visualiser les métriques clés de performance et d’usage.
Responsabilités et livrables
Mettre en place la collecte et l’ingestion des logs et métriques (Logstash, Filebeat / Metricbeat) vers Elasticsearch; concevoir les pipelines de traitement des données de logs.
Créer des dashboards et visualisations (Kibana, Grafana), configurer l’alerting en temps réel et produire un système de supervision opérationnel pour l’environnement Big Data.
Analyse intelligente et détection d’anomalies
Concevoir et intégrer des modules d’analyse intelligente (NLP pour le traitement des messages de logs, modèles de détection d’anomalies avec Scikit-learn) pour repérer comportements inhabituels.
Définir règles et modèles pour corrélation d’événements et priorisation d’alertes afin d’optimiser la réponse opérationnelle.
Monitoring et métriques systèmes
Intégrer la collecte de métriques systèmes et applicatives via Prometheus et exposer ces métriques dans les dashboards pour suivi temps réel.
Proposer des indicateurs clés (CPU, mémoire, I/O, latences de jobs Spark, utilisation HDFS, taux d’erreur) et visualisations adaptées à l’exploitation.
Compétences recommandées : scripting (bash/python), traitement de logs, conception de dashboards, bases de données de séries temporelles, compréhension des architectures Big Data (HDFS, Hive, Spark).
Modalités pratiques
Durée du stage : 6 mois (4-6 months).
Entité d’accueil : Data et IA Factory - Service Production de la donnée.