Contexte

  • Au sein de son organisation multi‐entreprises, VINCI Energies utilise un SharePoint pour centraliser tous les documents relatifs à un dossier (e-mails, factures, rapports, etc.).
  • Si certains fichiers sont importés automatiquement depuis le logiciel de comptabilité, les autres doivent être ajoutés manuellement par les responsables des dossiers, ce qui alourdit et ralentit le processus.

Besoin

  • Proposer automatiquement, via une solution IA, le numéro de dossier et l’emplacement SharePoint approprié pour chaque document afin d’accélérer le classement.
  • Lancer d’abord un proof of concept (POC) avant d’envisager une industrialisation à grande échelle.

Travail réalisé

  • Architecture data : mise en place d’un Directed Acyclic Graph (DAG) minimal pour générer diverses représentations et analyses statistiques des données.
  • Baseline existante : intégration et évaluation de la solution de classification initialement développée par VINCI Energies, en étudiant son comportement selon les variations des données.
  • Modélisation métier itérative : définition progressive du schéma final des informations à extraire (ID client, dates, adresses, téléphones…).
  • Pipelines LLM & « grammars » : création de flux de transformation basés sur des Large Language Models, conçus pour donner un sens métier aux documents non structurés.
  • Optimisation via Optuna : optimisation de la pondération des différentes informations extraites pour améliorer les résultats de la classification.
  • Démonstrateur interactif : développement d’une interface simple pour visualiser et tester les résultats de classification en temps réel.

Résultats

  • Première proposition correcte : 76 % des fichiers sont automatiquement rattachés au bon dossier en première suggestion.
  • Top 5 : le bon dossier figure parmi les 5 premières propositions pour 93 % des fichiers.
  • Industrialisation : Les équipes de VINCI Energies sont très satisfaites du projet qui est en cours d’industrialisation.