Contexte et objectifs
- Les entreprises sont confrontées à un volume croissant de documents administratifs et juridiques (PDF ou image) : factures, contrats, devis, courriers.
- Objectifs : lire automatiquement un document, identifier et extraire des informations clés (montant, nom, date, référence, clauses…), et structurer ces données pour exploitation par un système tiers (API, base de données…).
- Durée 6 mois, 2 stagiaires BAC+5 attendus.
Missions principales
- Concevoir et implémenter une chaîne d’extraction d’informations depuis des documents scannés (prétraitement, OCR, extraction d’entités, structuration).
- Développer des modules d’IA/NLP pour la reconnaissance d’entités spécifiques (montants, dates, références, clauses) et pour la normalisation des données extraites.
- Fournir une API ou une interface pour la consommation des données structurées par des systèmes tiers (bases, API REST).
Livrables attendus
- Prototype fonctionnel capable d’ingérer des PDF/images, d’en extraire des champs clés et de restituer un JSON structuré.
- Documentation technique et jeux de tests/jeux de données annotés pour évaluer la précision de l’extraction.
- Démonstration via interface légère (ex. Streamlit) ou endpoint (Flask/FastAPI) et scripts d’intégration vers SQLite/JSON/API.
Profil et compétences recherchées
- Niveau : Bac+5 (master, école d’ingénieur) avec intérêt pour le traitement de documents, vision par ordinateur et NLP.
- Compétences techniques : Python, manipulation JSON, bases légères (SQLite), expérience avec frameworks web (Streamlit, Flask, FastAPI) et frameworks front (React/Vue.js) souhaitée.
Technologies et méthodes
- Outils/techno mentionnés : Python, JSON, SQLite, Streamlit, Flask, FastAPI, React / Vue.js.
- Approche possible : pipeline OCR + post-traitement NLP (NER, règles heuristiques), entraînement/fine-tuning de modèles, évaluation via métriques d’extraction.
Modalités de candidature
- Plate-forme de candidature : https://stages.mobelite.fr
- Préciser dans le dossier le projet visé (numéro 11) et joindre CV + lettre de motivation + éventuels projets ou jeux de données pertinents.