Contexte et enjeux
Avec la démocratisation des plateformes digitales (réseaux sociaux, services de messagerie), la modération de contenu et la détection de toxicité sont devenues des enjeux cruciaux aussi bien pour les acteurs privés (X/Twitter, TikTok, YouTube, Instagram…) que pour les autorités publiques (notamment la Commission européenne et son Digital Services Act d’août 2023 visant à instaurer un « espace numérique plus sûr »). La modération manuelle, définie comme le passage en revue et la suppression de contenus problématiques générés par les utilisateurs, se heurte à trois obstacles majeurs :
- Volume et vitesse : des millions de publications à analyser en temps réel rendent la tâche non viable d’un point de vue financier et organisationnel.
- Diversité des formats : textes, images, vidéos et emojis exigent des compétences multiples et limitent l’efficacité des process manuels.
- Pénibilité pour les modérateurs : exposition répétée à des contenus choquants, entraînant stress post-traumatique et troubles psychologiques.
Face à ces défis, l’automatisation de la modération et de la détection de messages toxiques s’impose comme la seule solution à la fois scalable et éthique. Nous avons réalisé un projet de modération automatique pour un de nos clients.
Travail effectué
- Prompt engineering : conception de jeux de prompts dédiés pour notre LLM interne, afin de classifier les messages selon leur degré de toxicité.
- Architecture et datasets de tests : mise en place d’une architecture permettant de tester automatiquement des milliers de messages annotés et d’évaluer facilement les performances des différentes version de prompts et de modèles.
- Intégration dans une pipeline scalable : mise en place d’une architecture de clusterisation capable de traiter des flux massifs en parallèle.
- Connexion à la production : déploiement continu du module au sein de l’environnement opérationnel, garantissant une prise en charge immédiate des nouveaux contenus.
Avantages
- Compréhension contextuelle : détection fine de la toxicité des messages et classification correcte des messages contenant des propos problématiques dans un contexte non toxique (appels à l’aide, alertes, citation de propos injurieux dans le cadre d’une plainte, etc.).
- Protection des modérateurs : suppression totale de l’intervention humaine pour préserver l’anonymat des utilisateurs et la santé mentale des modérateurs et modératrices.
- Extensibilité : traitement massif sans augmentation linéaire des coûts ni des ressources humaines.
- Explicabilité de la modération : grâce à la catégorisation, l’explication de la modération est accessible par les équipes de modération.
Résultat
La pipeline implémentée a permis de bloquer 100 % des messages toxiques lors d’une attaque coordonnée, là où les solutions concurrentes ont dû suspendre leur service faute de capacité de montée en charge ou d’outil adapté.
100% des messages problématiques sont bloqués et les faux positifs sont très rares. Les équipes internes de modération ont vu leur charge de travail drastiquement réduite.