Datalchemy
Contactez nous
Open main menu
Nos Services
DocAlchemy
Nos formations
Nos publications
Notre équipe
Contactez-nous
English
Datalchemy
Close menu
Nos Services
DocAlchemy
Nos formations
Nos publications
Notre équipe
English
Français
Projet : Classification automatique de documents non structurés
Directed Acyclic Graph (DAG)
LLM
LLM Grammar
React
sharepoint
Vinci Energies
Energie
Développement de prototypes IA
Contexte
Au sein de son organisation multi‐entreprises, VINCI Energies utilise un SharePoint pour centraliser tous les documents relatifs à un dossier (e-mails, factures, rapports, etc.).
Si certains fichiers sont importés automatiquement depuis le logiciel de comptabilité, les autres doivent être ajoutés manuellement par les responsables des dossiers, ce qui alourdit et ralentit le processus.
Besoin
Proposer automatiquement, via une solution IA, le numéro de dossier et l’emplacement SharePoint approprié pour chaque document afin d’accélérer le classement.
Lancer d’abord un proof of concept (POC) avant d’envisager une industrialisation à grande échelle.
Travail réalisé
Architecture data :
mise en place d’un Directed Acyclic Graph (DAG) minimal pour générer diverses représentations et analyses statistiques des données.
Baseline existante :
intégration et évaluation de la solution de classification initialement développée par VINCI Energies, en étudiant son comportement selon les variations des données.
Modélisation métier itérative :
définition progressive du schéma final des informations à extraire (ID client, dates, adresses, téléphones…).
Pipelines LLM & « grammars » :
création de flux de transformation basés sur des Large Language Models, conçus pour donner un sens métier aux documents non structurés.
Optimisation via Optuna :
optimisation de la pondération des différentes informations extraites pour améliorer les résultats de la classification.
Démonstrateur interactif :
développement d’une interface simple pour visualiser et tester les résultats de classification en temps réel.
Résultats
Première proposition correcte :
76 % des fichiers sont automatiquement rattachés au bon dossier en première suggestion.
Top 5 :
le bon dossier figure parmi les 5 premières propositions pour 93 % des fichiers.
Industrialisation :
Les équipes de VINCI Energies sont très satisfaites du projet qui est en cours d’industrialisation.
Vinci Energies
Energie
Développement de prototypes IA
Ils nous font confiance