Logo de ACTIA Engineering Services

IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE

ACTIA Engineering Services

StageSur site4 à 6 moisDate limite : 8 déc. 2025
Ingénierie des données / MLOpsApprentissage automatiqueDéveloppement web (MERN Stack)

Postuler

Description

Objectif du sujet

  • Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
  • Fournir une interface utilisateur intuitive permettant de définir un domaine cible et d’orchestrer la collecte, le nettoyage, la structuration et l’export des données (JSON, CSV) prêts pour l’entraînement de modèles d’IA.

Travaux à réaliser — Collecte et prétraitement

  • Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
  • Mettre en place un filtrage initial thématique (ex. topic modeling avec des modèles de langage) pour sélectionner les sources et contenus pertinents.

Travaux à réaliser — Nettoyage, normalisation et modélisation

  • Nettoyer et normaliser automatiquement les données : détecter et corriger les anomalies, valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
  • Extraire et modéliser les caractéristiques thématiques (feature engineering) en exploitant embeddings et techniques de transfer learning pour identifier les attributs pertinents liés au thème cible.

Annotation et auto-étiquetage

  • Mettre en œuvre des modèles de classification ou de segmentation (images/vidéos) semi-supervisés pour l’annotation thématique automatisée.
  • Utiliser des LLMs pour l’auto-étiquetage de textes avec un contrôle qualité automatisé (boucle de vérification/validation).

Validation et assurance qualité du dataset

  • Évaluer la diversité et la qualité des données générées, mesurer la distribution des classes et détecter les biais via un sous-système d’IA dédié.
  • Fournir des métriques et rapports d’assurance qualité pour garantir la robustesse des jeux de données produits.

Architecture et déploiement technique

  • Concevoir une pipeline modulaire (collecte, traitement, annotation, export) déployable via conteneurs et orchestrable en production.
  • Intégrer des APIs, services backend (Flask/FastAPI/Node.js) et des composants frontend (Angular) pour l’interface utilisateur.

Compétences requises & stack technique

  • Langages et frameworks : Python, JavaScript/TypeScript, Angular, Flask / FastAPI / Node.js.
  • Outils et pratiques : Docker, Git/GitHub, techniques de NLP (embeddings, topic modeling), deep learning (auto-encodeurs, GANs), LLMs.

Modalités & contact

  • Référence : REF:IA-02 — Lieu : Tunis — Durée indiquée sur l’annonce : 6 mois (voir modalités de stage).
  • Pour postuler : envoyer candidature et CV à l’adresse suivante : aes-stages@ACTIA.COM.