Projet : Ingénierie du Chaos guidée par l'IA pour la validation de la résilience et de la sécurité sur Kubernetes.
Objectif principal : concevoir et implémenter une plateforme de tests de résilience et de sécurité automatiquement pilotée par des composants d'IA afin d'identifier et corriger les points de défaillance dans des clusters Kubernetes.
Responsabilités et tâches principales
Définir et implémenter des scénarios d'ingénierie du chaos ciblant la disponibilité, la latence, la montée en charge et les vecteurs d'attaque courants (ex : compromission de pods, latence réseau, perte de nœuds).
Intégrer et paramétrer des outils de chaos engineering (ex. LitmusChaos, Chaos Mesh, Gremlin) avec des pipelines CI/CD pour exécutions automatiques.
Collecter et analyser des métriques de performance et de sécurité (Prometheus, Grafana, logs) et entraîner/designer des modules IA pour guider la génération et l'ordonnancement des scénarios de chaos.
Compétences techniques et technologies attendues
Maîtrise de Kubernetes (déploiement, namespaces, operators, troubleshooting) et des conteneurs (Docker).
Expérience avec des outils de chaos engineering (LitmusChaos, Chaos Mesh, ou équivalents) et des outils de monitoring (Prometheus, Grafana, ELK).
Compétences en développement et data science : Python, bibliothèques ML (scikit-learn, PyTorch ou TensorFlow), scripts d'automatisation, API REST.
Connaissances en sécurité cloud/Kubernetes (RBAC, NetworkPolicies, scans de vulnérabilités) et en CI/CD (GitLab CI, GitHub Actions, Jenkins).
Livrables et résultats attendus
Plateforme ou proof-of-concept automatisant des campagnes de chaos guidées par IA sur un cluster Kubernetes de test.
Jeux de scénarios, scripts reproducibles, pipelines d'exécution, notebooks ou modèles ML expliquant la génération des scénarios.
Rapports de tests (analyses de résilience et découvertes de vulnérabilités), dashboards de supervision et recommandations d'amélioration.
Méthodologie et encadrement
Travail en mode projet agile, itératif (sprints, revues techniques) avec un tuteur technique de STARK SOLUTIONS.
Tests sur environnement de laboratoire / cluster de staging fourni par l'entreprise; intégration possible avec outils existants.
Modalités pratiques et candidature
Durée indicative : 4-6 mois.
Localisation : hybride (présentiel et télétravail selon organisation).
Pour candidater : envoyer CV et lettre de motivation à l'adresse suivante : stage@spark-it.fr.