12 SmartOCR – Reconnaissance et saisie automatique de documents PFE

SMOFT ERP

StageHybride4 à 6 moisDate limite : 20 nov. 2025

Intelligence Artificielle / OCRIntelligence Artificielle / NLPTraitement d'images

Description

Mise en place d’un moteur OCR intelligent pour extraire et structurer automatiquement les données issues de documents (factures, reçus, cartes).
Objectif : automatiser la reconnaissance, la classification et la saisie des informations afin de réduire la saisie manuelle et améliorer la qualité des données.

Intégrer un moteur OCR (Tesseract ou équivalent) et adapter les pré-/post-traitements pour améliorer la précision sur documents réels.
Développer une logique de classification et d’extraction des champs (détection de zones, correspondance de champs, regex pour validation).
Créer un module d’apprentissage supervisé pour correction des erreurs OCR et amélioration continue du moteur.
Développer une interface de validation et d’export des données (formats exportés, logs, workflows de correction).

Étudiant en business intelligence, ERP, ou développement IA intéressé par le traitement de documents et l’automatisation.
Compétences nécessaires : Python, OCR, NLP, PHP, regex, traitement d’image ; connaissance de Tesseract et des bibliothèques de vision (OpenCV, PIL) un plus.

Intégration fonctionnelle du moteur OCR et pipeline de traitement des images.
Module de classification/extraction testé sur jeux de données (factures, reçus, cartes) avec métriques de performance.
Module d’apprentissage supervisé pour corrections et interface utilisateur pour validation/export.

Durée estimée du projet : 5 à 6 mois (modalité PFE).
Pour postuler : envoyer votre candidature à recrutement@smoft.tn et consulter le site : https://www.smoft.io.