12 SmartOCR – Reconnaissance et saisie automatique de documents PFE

SMOFT ERP

StageHybride4 à 6 moisDate limite : 20 nov. 2025
Intelligence Artificielle / OCRIntelligence Artificielle / NLPTraitement d'images

Postuler

Description

Description du sujet

  • Mise en place d’un moteur OCR intelligent pour extraire et structurer automatiquement les données issues de documents (factures, reçus, cartes).
  • Objectif : automatiser la reconnaissance, la classification et la saisie des informations afin de réduire la saisie manuelle et améliorer la qualité des données.

Tâches principales à réaliser

  • Intégrer un moteur OCR (Tesseract ou équivalent) et adapter les pré-/post-traitements pour améliorer la précision sur documents réels.
  • Développer une logique de classification et d’extraction des champs (détection de zones, correspondance de champs, regex pour validation).
  • Créer un module d’apprentissage supervisé pour correction des erreurs OCR et amélioration continue du moteur.
  • Développer une interface de validation et d’export des données (formats exportés, logs, workflows de correction).

Profil recherché et compétences

  • Étudiant en business intelligence, ERP, ou développement IA intéressé par le traitement de documents et l’automatisation.
  • Compétences nécessaires : Python, OCR, NLP, PHP, regex, traitement d’image ; connaissance de Tesseract et des bibliothèques de vision (OpenCV, PIL) un plus.

Livrables attendus

  • Intégration fonctionnelle du moteur OCR et pipeline de traitement des images.
  • Module de classification/extraction testé sur jeux de données (factures, reçus, cartes) avec métriques de performance.
  • Module d’apprentissage supervisé pour corrections et interface utilisateur pour validation/export.

Durée et candidature

  • Durée estimée du projet : 5 à 6 mois (modalité PFE).
  • Pour postuler : envoyer votre candidature à recrutement@smoft.tn et consulter le site : https://www.smoft.io.