SUJET 21 OCR & Extraction automatique de documents PFE
TAC TIC
StageHybride4 à 6 moisRémunéréDate limite : 1 janv. 2026
IA / Vision par ordinateurIngénierie des données / MLOpsDéveloppement Backend (Spring Boot)
Description
Contexte
- Projet visant l'extraction automatique de données depuis factures et documents administratifs.
- Travail au croisement de la vision par ordinateur et du traitement documentaire pour automatiser des flux métier.
Objectifs du stage
- Concevoir et mettre en œuvre une chaîne OCR robuste adaptée aux documents administratifs et factures.
- Produire une API (Django) exposant les résultats d'extraction pour intégration dans des systèmes downstream.
Tâches et activités principales
- Collecte, nettoyage et annotation d'un jeu de données de factures et documents administratifs.
- Entraînement et adaptation de modèles OCR (ex. Paddle OCR), post-traitement des résultats (normalisation, règles métier).
- Développement d'une API REST avec Django pour recevoir des documents et retourner les champs extraits.
- Mise en place d'un pipeline d'évaluation (métriques d'extraction, précision/champ, recall) et optimisation itérative.
Compétences requises
- Maîtrise de Python et des bibliothèques de deep learning/vision (expérience Paddle OCR un plus important).
- Connaissances en traitement de texte et règles de parsing (regex, heuristiques) pour l'extraction d'entités.
- Bonnes pratiques de développement d'API (Django/DRF), gestion des données et tests.
Environnement technique
- Langages et frameworks : Python, Django (API).
- Outils OCR/ML : Paddle OCR, frameworks de deep learning habituels (PyTorch/TF selon besoins).
- Workflow : annotation de données, entraînement modèle, déploiement d'API, évaluation continue.
Livrables attendus & modalités
- Prototype fonctionnel d'extraction automatique capable d'identifier et normaliser les principaux champs (montant, date, fournisseur, etc.).
- API Django documentée et exemples d'utilisation (tests, scripts d'intégration).
- Rapport de stage présentant méthodologie, résultats d'évaluation et pistes d'amélioration.