DEV - Conception et déploiement d’une plateforme d’archivage intelligent et de recherche avancée pour documents administratifs à grande échelle

ST2i

StageSur site4 à 6 moisDate limite : 13 janv. 2026
OCR/License Plate RecognitionNLP & SimilaritéInformation RetrievalStrategy / Market ResearchVector SearchBackend (Go)AI & Data EngineeringOpen SourceDocument ManagementBackend (Flask/FastAPI)opensearchQdrantWeaviateApache TikaMinIOMetabase

Postuler

Description

Objectif: Concevoir une plateforme d’archivage intelligent, entièrement open source, pour stocker, analyser et rechercher des millions de documents administratifs (PDF, images, scans).

Principales fonctionnalités:

  • Pipeline OCR pour la reconnaissance de texte
  • Extraction automatique des métadonnées via NLP
  • Moteur de recherche hybride: indexation full-text + recherche sémantique vectorielle

Profil recherché:

  • Étudiant en dernière année du cycle ingénieur
  • Possible en binôme

Compétences requises:

  • MinIO, Tesseract OCR, Apache Tika, FastAPI
  • OpenSearch, Metabase
  • Qdrant ou Weaviate

Durée: 6 mois