07 Application hybride d’importation, validation et correction intelligente des données RH pour AGIRH PFE

Inetum

StageHybride3 moisDate limite : 26 nov. 2025

Data Engineering / Web ScrapingSystèmes d'information RHIntelligence Artificielle / GenAI

Description

Concevoir une application hybride (web + traitements batch) permettant l’importation automatisée des données RH dans AGIRH, avec des mécanismes de validation et de correction intelligente.
Réduire les erreurs d’intégration, améliorer la qualité des données RH et faciliter la remise à niveau des fichiers venant de sources hétérogènes (CSV, Excel, API, fichiers RH internes).

Implémenter des connecteurs d’import (fichiers plats, API REST) et un pipeline d’ingestion robuste (ETL/ELT) vers AGIRH.
Développer des règles de validation métier (formats, doublons, contraintes d’intégrité) et des mécanismes automatiques de correction suggérée (algorithmes de normalisation, rapprochement probabiliste).
Prévoir une interface de revue humaine pour les cas ambigus : workflows de validation, historiques/audit, et export des corrections acceptées.

Backend en charge des imports, validations et suggestions de correction (ex. services Python/Node, queues pour traitements asynchrones).
Module de correction intelligente reposant sur des techniques d’IA/heuristiques (matching fuzzy, modèles de classification pour détecter anomalies, règles de normalisation).
Frontend web léger pour paramétrage des règles, visualisation des erreurs et validation manuelle ; logs et tableaux de bord de qualité des données.

Prototype fonctionnel démontrant l’import, la validation et la correction (démo sur jeux de données sample).
Documentation technique (architecture, API, instructions de déploiement) et guide utilisateur pour le workflow de validation.
Rapport d’évaluation de la qualité des données avant/après et métriques d’efficacité des corrections (précision, rappel, taux d’automatisation).

Langages et outils : Python (Pandas, FastAPI), SQL, frameworks web (React/Vue optionnel), outils ETL ou orchestration (Airflow, Celery ou équivalent).
Techniques : data cleaning, matching fuzzy, apprentissage supervisé/non supervisé pour détection d’anomalies, gestion des workflows de validation.
Connaissances métier : notions de SIRH, contraintes RGPD/confidentialité des données personnelles et bonnes pratiques de gouvernance des données.

Travail en mode projet avec jalons : cadrage, prototype, itérations d’amélioration, tests et déploiement pilote.
Tests unitaires et d’intégration pour les pipelines d’ingestion, et jeu de tests pour mesurer la robustesse des règles de validation.