Contexte

La Direction de l’information légale et administrative (DILA), service dépendant du Premier ministre et éditeur de Legifrance, assure la publication et la consolidation quotidienne de l’ensemble des textes législatifs français. Pour alléger la charge manuelle des juristes, le projet vise à automatiser ce processus de consolidation juridique en exploitant les textes initiaux, modificateurs et consolidés, répartis dans trois grandes bases de données, à travers un proof of concept (POC).

Le planning est très serré puisque le délai pour le projet est de 4 mois.

Travail effectué

Le POC s’est articulé en six volets :

  1. Cartographie des données : inventaire à différents niveaux (texte, article, alinéa).
  2. Constitution du dataset : génération de différentiels, annotation et structuration des paires (article modificateur / original / consolidé).
  3. Architecture de données : mise en place du versionnage, développement des outils de suivi statistique et de visualisation.
  4. Automatisation du flux : définition et codage des actions, élaboration de l’automate de consolidation.
  5. Réseaux de parsing : conception et entraînement de modèles pour le micro- et le macro-parsing, évaluation de la localisation des modifications et affinage textuel, puis intégration finale dans l’outil de test.
  6. Test des résultats en automatique et manuels par une juriste experimentée

Résultats

Le POC consolide efficacement les cas courants (remplacements de mots, ajouts/suppressions d’alinéas, créations d’articles, etc.), avec un parsing particulièrement performant, tout en offrant une architecture modulaire et testable sur l’ensemble du dataset. Cette structure garantit une industrialisation maîtrisée : chaque composant peut évoluer indépendamment, les technologies employées (Python, PyTorch, Flask…) sont open source et éprouvées, et le recours limité au deep learning pour le parsing minimise les risques de régression. L’outil est donc prêt à être transformé en solution opérationnelle pour la DILA.