Construire un système de vision par ordinateur soutenu par des pipelines Big Data pour traiter et analyser des jeux de données visuels à grande échelle.
Intégration de modèles d'image/vidéo avec une architecture de données évolutive pour ingestion, stockage et analytique en temps réel.
Objectifs : détection, classification et extraction de motifs à partir de datasets visuels massifs.
Tâches et responsabilités
Concevoir et implémenter les étapes d'ingestion et de prétraitement des données (streams et batch) à l'aide d'outils Big Data (Apache Spark / Hadoop) et Kafka pour le streaming optionnel.
Développer et intégrer des modèles de computer vision (OpenCV, PyTorch/TensorFlow) pour détection et classification d'images/vidéos au sein de la pipeline.
Mettre en place le stockage et l'architecture data (MongoDB / HDFS / Data Lake) et assurer la scalabilité et la performance des traitements.
Implémenter des composants backend Python pour orchestrer les pipelines, surveiller les performances et fournir des APIs/exports de résultats.
Compétences requises et technologies
Langages & bibliothèques : Python, OpenCV, PyTorch ou TensorFlow.
Big Data & streaming : Apache Spark ou Hadoop, Kafka (optionnel) pour ingestion et traitement à grande échelle.
Stockage & bases : MongoDB, HDFS ou solutions Data Lake; connaissances des concepts de bases de données et pipelines de données.
Connaissances souhaitées : fondamentaux Big Data, expérience en traitement de données à grande échelle, et notions de déploiement/monitoring.