Welcome

  • L’art de dompter son LLM
    Télécharger la version magazine en cliquant ici Nouvelles limites, nouvelles approches pour une meilleure compréhension des LLM TL;DR ? 6 mots-clés LLM, sécurité, robustesse, limites, hallucinations, architectures Pourquoi lire cette publi peut vous être utile concrètement ? Les LLM s’imposent partout, avec des promesses incroyables de nouveaux outils performants et, tenez-vous bien, « intelligents ». La recherche avance plus lentement que ces promesses, et nous donne régulièrement une vision plus claire et plus précise des choses. Ici, nous exposons des limites fondamentales de ces modèles, creusons les risques potentiels en sécurité, et nous intéressons enfin aux approches pouvant donner des résultats acceptables. Quel que soit l’outil que l’on veut manier, connaître ses limites permettra toujours de mieux travailler. Quels process métier seront probablement modifiés sur la base de ces recherches ? L’utilisation de LLM pour générer des réponses à partir d’informations extraites va devoir continuer d’évoluer pour être plus robuste aux hallucinations ou informations manquantes. De même, la sécurisation totale de ces modèles s’impose aujourd’hui comme une évidence. Les cas d’usage que nous avons développé pour des clients qui touchent au sujet de cet écho de la recherche ? Nous déployons régulièrement ces outils que nous implémentons en solutions concrètes : recherche dans une base documentaire, qualification de la toxicité d’un message, assistance à une activité professionnelle. Si vous n’avez qu’une minute à consacrer à la lecture maintenant : Nouvelles limites des LLMs, nouvelles méthodes d’architecture, fun will never end… Un LLM sait-il réellement distinguer une instruction d’une donnée à traiter ? Si on contemple le paysage des Large Language Models via les nombreuses annonces de nouveaux outils ou de start-ups, on pourrait facilement croire que ces outils savent gérer le texte à traiter d’une manière assez fine, suffisamment au moins pour effectuer une telle distinction. Et pourtant, atterrissons sans grâce pour reprendre contact avec la réalité, une telle affirmation serait particulièrement dangereuse. C’est ce que démontrent Zverev et al dans « Can LLMs separate instructions from data? and what do we even mean by that? ». La question est volontairement choquante, mais appuie au bon endroit pour nous réveiller. Ces modèles étant très récents, et notre domaine souffrant d’un déficit théorique considérable, cette question n’a même pas été correctement posée par les chercheurs. Peu étonnant donc de voir cette publication au workshop de l’ICLR 2024 dédié à la confiance et à la sécurité que l’on peut apporter à l’intelligence artificielle… Le problème repris par les chercheurs est celui du contournement de prompt. Ce sujet est aujourd’hui bien connu : on développe un service via un LLM qui prendra en entrée le texte issu d’un utilisateur tiers. L’appel au LLM utilisera un prompt issu d’itérations plus ou moins glorieuses pour cadrer le résultat. Mais notre utilisateur peut s’amuser à insérer, dans le texte soumis, de nouvelles instructions détournant le LLM de son usage initial (le vilain), créant là une faille de sécurité peu acceptable. C’est ce cas de figure qui est ici étudié par les auteurs. En effet, dans cette utilisation, le prompt initial est considéré comme l’instruction du LLM, et le contenu de l’utilisateur tiers est une donnée d’entrée qui ne devrait pas être exécutée. Les chercheurs questionnent donc ici, fondamentalement, la capacité d’un tel modèle à séparer l’instruction de la donnée d’entrée. Et les réponses sont, sans grande surprise, assez désagréables. Pour adresser ce sujet, les auteurs définissent déjà une métrique permettant d’identifier à quel point un modèle est robuste quand un élément textuel est transféré de la zone d’instruction à la zone d’exécution. Ci-dessous, g est le modèle, s est l’instruction initiale, d la donnée d’exécution initiale, et x est un perturbateur :  Ce score reprend notre bonne vieille divergence de Kullback–Leibler. Plus ce score sera élevé, moins le modèle fera une bonne division. Notons que cette métrique est assez « faible », en ceci qu’elle étudie juste la variation de la réponse quand on déplace le distracteur, mais ne s’intéresse pas à la qualité de la réponse.  Autre contribution des auteurs, la création d’un premier dataset permettant d’étudier ce type de perturbation et donc la capacité d’un modèle à séparer entre instructions et données à traiter. Le dataset SEP (should it be executed or processed) regroupe donc 9160 éléments, chaque élément étant constitué d’une instruction originelle, une donnée d’exécution, une instruction perturbatrice (qui sera un injectée soit d’un côté soit de l’autre), et la réponse à cette instruction perturbatrice. Un exemple d’élément est présenté ci-dessous :  Et donc, roulements de tambours mouillés, quels sont les résultats ?  Plus le score de séparation est bas, moins le modèle fait la différence entre les deux concepts.. Et là, réelle surprise : plus un modèle est « gros », moins il va être capable de faire une distinction acceptable entre instruction et donnée, avec notamment GPT-4 qui est le plus mauvais modèle. En effet, ces modèles plus gros sont globalement meilleurs, mais beaucoup plus complexes à maîtriser, et donc beaucoup plus sensibles aux injections de prompt… Ce travail est très important car il montre bien ce décalage entre un monde business qui s’envole dans les cieux pendant que les chercheurs continuent de poser des questions très fondamentales, questions auxquelles les réponses ne sont pas très rassurantes. Espérons que ce type de travail va engendrer d’autres approches d’analyses fondamentales pour enfin mieux comprendre ces outils et leurs limites. Sans cela, nous resterons condamnés à errer dans ces limbes où nous fantasmons les performances de ces modèles pour ensuite être totalement déçus… Les LLMs entraînés sur une donnée sensible sont des bombes à retardement Nous le savions déjà, via les approches dîtes de « Model inversion » : il est possible (voir, trivial) d’extraire, depuis un réseau de neurones entraîné, une partie de sa donnée d’entraînement. Dès lors qu’un modèle est entraîné sur une donnée interne à une entreprise, voire sur une donnée protégée (donnée personnelle, donnée de santé), il faut considérer le modèle comme étant lui-même une donnée à protéger. Cet état des choses était déjà assez déprimant comme cela, Deepmind nous propose dans le cadre du récent ICLR 2024 un nouveau travail dans lequel […]
  • Dansons le Mamba, entre révolution et psychodrame de l’IA
    Télécharger la version magazine en cliquant ici Cinq mots clé de ces échos Mamba. Sequence. Efficacité. DinoV2. LLM Pourquoi lire cette publi peut vous être utile concrètement ? Mamba annonce une nouvelle famille d’architecture efficace et polyvalente qui s’impose de plus en plus dans le paysage de l’intelligence artificielle. En bonus : une meilleure compréhension des embeddings d’images issus de DinoV2, et un nouveau moyen de contourner les Large Language Models. Quels process métier seront probablement modifiés sur la base de ces recherches ? Concernant Mamba, si l’architecture concrétise sa valeur, on peut s’attendre à voir un impact dans de nombreux domaines comme le traitement de l’image ou du langage naturel. Concernant l’évolution de DinoV2, les approches non supervisées d’analyse d’image gagnent en qualité. Enfin, à propos des LLMs, un nouveau risque fort est identifié, à implémenter en robustesse pour déployer des outils. Les cas d’usage que nous avons développés pour des clients qui touchent au sujet de cet écho de la recherche ? Analyses d’images non supervisées pour détection d’éléments ou correspondances. Travaux de robustesse pour encadrer un outil de type Large Language Model. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points ou en 7 phrases Révolution et psychodrame de l’IA, parlons Mamba Une nouvelle architecture pour le Deep Learning ? Mamba ! Depuis quelques mois, ce terme éveille l’attention du moindre data-scientist ou chercheur Deep Learning un peu au fait de l’actualité. Derrière ce terme se cache une nouvelle architecture de réseaux de neurones très intéressante et polyvalente, mais aussi un de ces petits psychodrames caractéristique de la recherche académique en IA. D’ordinaire, nous (Datalchemy) n’aimons pas trop nous jeter sur de nouveaux outils radicalement différents sortant tout chauds du four… En effet, plus un travail est récent, et plus les risques d’aveuglement sont forts. Les dinosaures du domaine se souviennent par exemple des Capsule Networks, proposés par Lord Hinton lui-même, sur lesquels la communauté s’était jetée avant de les abandonner six mois plus tard. Ici, comme nous allons le voir, l’architecture proposée présente des arguments très forts qui peuvent difficilement être ignorés. Elle a été, qui plus est, reprise dans de nombreux autres travaux avec succès. Mais nous avons aussi l’occasion d’observer sur un cas très concret les limites du système de conférences en Deep Learning aujourd’hui, avec le rejet de cette publication par l’ICLR 2024. Ce rejet a causé un certain vacarme dans la communauté, et mérite d’être regardé de plus près car il témoigne parfaitement de certaines limites fortes de la recherche actuelle, et nous impose toujours plus de précautions. Avant de rentrer spécifiquement dans le Mamba, un peu de contexte s’impose. Ce travail s’inscrit dans la lignée d’autres publications à propos des Structured Space Models (SSM). Les SSMs présentent un nouveau mécanisme fondamental pour modéliser un problème continu (au sens mathématique du terme), en intégrant un système de discrétisation pour l’appliquer en Deep Learning. On peut les voir comme un prolongement d’algorithmes comme les filtres de Kalman. Ici, ce concept est utilisé comme une nouvelle forme de bloc Deep Learning pouvant directement être intégré dans un réseau de neurones. Cette approche avait déjà été mise à l’honneur par How to Train Your HIPPO: State Space Models with Generalized Basis Projections de Gu et al où ce type de modèle permettait d’adresser des sujets de prédiction sur le très long terme (long range arena) en dépassant par exemple les célèbres Transformer et le petit millier d’optimisations du mécanisme d’attention tentées par différents chercheurs ces dernières années.  Cette approche resta relativement obscure jusqu’à l’arrivée de notre cher Mamba. Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu et al. Publiée en décembre 2023, cette approche a fait beaucoup de bruit. En effet, les auteurs ici adressent deux points très sensibles dans le monde du Deep Learning :  Le Mamba se positionne par rapport aux travaux précédents en Structured Space Models face à une séquence d’informations (série, texte…) : ces travaux apprenaient des paramètres qui étaient invariants à travers le moment dans la séquence, à la manière d’un ancien réseau récurrents de type LSTM où les matrices appliquées au sein des opérateurs étaient fixés une fois l’apprentissage terminé. Ici, les auteurs proposent un mécanisme fondamental de sélection qui va permettre, alors que le modèle prend en entrée une séquence, de pouvoir « décider » si l’on met à jour ou non les variables internes du réseau. Le modèle va donc pouvoir apprendre à sélectionner, alors qu’il reçoit toute la séquence d’informations en entrée, les informations qu’il utilisera ou non. Cette modification a une importance considérable, car elle permet (théoriquement) de devenir robuste à des séquences extrêmement longues. Un modèle correctement entraîné pourra ignorer une grande quantité d’informations inutiles, ce qui était impossible pour une architecture classique comme le Transformer. Point d’intérêt plus théorique, les modèles récurrents (RNN/GRU/LSTM) peuvent alors être considérés comme un cas particulier des SSM, qui deviennent une approche plus générale. Ce simple mécanisme aurait suffi à proposer un travail intéressant, mais les auteurs ne se sont pas arrêtés là. Ils ont notamment développé un noyau CUDA (l’assembleur de nos trop précieux GPUs) optimisé pour accélérer l’entraînement de modèles Mamba. Ce point n’est pas à sous-estimer, dans un domaine où la puissance de calcul disponible reste un frein constant à tout projet. Via ce type de développement, les auteurs démocratisent l’accès à leur approche et la transforment en une base directement exploitable. S’il est complexe de concurrencer aujourd’hui toutes les optimisations réalisées pour le Transformer, ce simple travail (nous le verrons) a ensuite permis d’appliquer Mamba à l’image ou à la vidéo. Nous n’allons qu’effleurer ici la technique fondamentale, mais vous retrouverez ci-dessous, dans l’ordre :  Les habitués du domaine ne pourront pas s’empêcher de détecter un nombre important de similarités avec les réseaux récurrents 😊… De l’importance fondamentale de ce mécanisme de sélection Ce point est probablement le plus fondamental dans l’ensemble de l’approche Mamba. Quand bien même il est toujours risqué d’établir des parallèles entre le fonctionnement atomique d’un opérateur Deep Learning […]
  • Echos de la recherche #12
    Apprentissage par imitation : l’IA en robotique devient crédible et accessible   Télécharger la version magazine en cliquant ici   TL;DR ? Cinq mots-clésy #Robotique, #DeepReinforcementLearning, #ImitationLearning, #ALOHA, #DiffusionPolicies Pourquoi lire cette publi peut vous être utile concrètement ? Si vous travaillez en contrôle robotique, vous n’avez pas le droit d’ignorer la révolution en cours sur l’imitation. Et au-delà du contrôle robotique, tout problème d’optimisation modélisant un agent devant prendre des décisions peut s’inspirer de ces approches. Ce que vous pouvez en dire à un collègue ou à votre boss ? Datalchemy, en partenariat avec Kickmaker, fait le tour des toutes nouvelles stratégies d’entraînement en imitation learning, et même si cela semble encore un peu magique, cela fonctionne avec une robustesse inattendue, et surtout rend enfin ces entraînements abordables, et presque simples à mettre en oeuvre. Quels process métier seront probablement modifiés sur la base de ces recherches ? C’est quasiment toute la chaîne qui est impactée par ce changement de paradigme. Mais plus spécifiquement, la partie simulation pour recréer les conditions d’entraînement pourrait se voir grandement réduite, puisqu’on se contente désormais de l’enregistrement des actions de l’opérateur humain qui vont servir de dataset d’entraînement. Quelle phrase mettre dans un mail pour envoyer cet écho de la recherche à un.e ami.e et lui donner envie de le le lire ? C’est fou ! Datalchemy et Kickmaker s’appuient sur les résultats du MIT et Toyota pour montrer qu’en un temps très restreint et un budget dérisoire, on peut mettre en place de l’imitation learning pour entraîner un robot. Les cas d’usage que nous avons développé pour des clients qui touchent au sujet de cet écho de la recherche ? Entraînement d’un bras robot pour saisir une pièce et la placer sur une cible, quelle que soit sa position dans un espace donné. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 6 points ou en 6 phrases) IA & robotique ? Un peu de changement ! Datalchemy a l’honneur d’accompagner l’entreprise Kickmaker depuis bientôt deux ans sur des sujets d’intelligence artificielle notamment appliqués à la robotique. Et nous avons donc été aux premières loges pour observer l’évolution impressionnante de ce domaine. Si les applications IA à la robotique existent depuis les travaux de Mnih et al et l’invocation du Deep Reinforcement Learning, force est de reconnaître que ces travaux sont longtemps restés inaccessibles, ceci pour deux grandes raisons :  Figure depuis Learning Dexterous In-Hand Manipulation, Andrychowicz et al Le domaine est donc resté l’apanage des « grands » acteurs du Deep Learning, comme OpenAI ou Google. Google qui par ailleurs a marqué un grand coup ces dernières années avec les modèles RT-1, puis RT-2. En effet, Google a présenté au monde un système robotique robuste qui exploite les derniers avancements des Large Language Models (encore eux…) et des cross embeddings (permettant de travailler images et textes dans un espace mathématique commun) pour contrôler un bras robotique sur une grande quantité de tâches. Si cet entraînement a dû être particulièrement lourd, la promesse laisse rêveur. En effet, contrôler un bras robotique suppose une maîtrise extrêmement fine de chaque position dans l’espace, et pour pouvoir par exemple saisir un objet, il devient nécessaire de localiser exactement cet objet. Une fois cette localisation (peu triviale) réalisée, le geste robotique doit lui aussi être calculé exactement en respectant ses contraintes mécaniques…Ici, l’idée d’avoir juste un texte de définition pour exécuter une action semble une disruption très forte de ce domaine, avec une variance impressionnante, le texte pouvant servir autant à décrire le geste que l’objet cible (ci-dessous, entre autres exemples : « pick up the bag about to fall off ») Mais alors, Google a-t-il révolutionné le domaine de la robotique ? Les acteurs du domaine se sont-ils saisis de ces travaux pour les appliquer à leurs propres cas de figure et révolutionner la branche industrielle ? Hélas, non. En effet, (et Google nous avait habitués à mieux), si la publication est libre, le code nécessaire pour entraîner ou utiliser ces modèles est, à date, introuvable. Et considérant que ces entraînements supposent autant l’entraînement du LLM que celui de l’acteur, leurs coûts cumulés empêchent tout travail de reproduction. Signalons néanmoins un autre point potentiellement complexe avec cette approche : le modèle RT2 est un modèle end to end : nous mettons en entrée un texte, et observons en sortie des actions contrôlant le robot. Hors, toute personne ayant travaillé un petit peu avec les Large Language Models sait que le contrôle d’un modèle par un prompt est un art obscur, illogique et anxiogène, dans lequel des erreurs peuvent facilement apparaître sans prévenir. Il n’est pas impossible que RT2 souffre du même problème… À ce stade, nous pourrions conclure tristement que l’intelligence artificielle de pointe en IA est réservée aux très grands acteurs qui, tôt ou tard, commercialiseront leurs travaux. Mais ces six derniers mois, le paysage scientifique a radicalement changé, et est devenu d’un coup beaucoup plus accessible… Apprendre par des imitations La surprise est venu d’un autre courant de recherche du DRL, qui jusqu’ici était resté plus une curiosité scientifique qu’une véritable solution : l’Imitation Learning.  Dans une approche « classique », nous allons entraîner un modèle IA à trouver les bonnes actions à réaliser afin d’obtenir la plus grande récompense possible. Le modèle sera confronté à un simulateur reproduisant (plus ou moins bien) la réalité cible, effectuera une quantité astronomique d’erreurs, pour finalement (avec un peu de chance, soyons honnêtes) devenir suffisamment « bon » pour réussir sa tâche. Dans les approches « Imitation Learning », nous n’allons pas utiliser un simulateur directement. Un expert humain va générer un certain nombre de démonstrations, chacune correspondant à une suite d’actions réussies. Une fois ces démonstrations accumulées, un modèle va être entraîné à généraliser à partir de ces démonstrations, pour pouvoir gérer le plus grand nombre de cas de figure. Considérant que nous sommes en général sur quelques centaines de démonstrations, l’enjeu de généralisation est ici particulièrement ardu, car le modèle doit apprendre à gérer des cas qu’il n’a jamais vu en démonstration, sans avoir accès aux contraintes physiques du monde dans […]
  • Echos de la recherche #11
    Consultez la version magazine en cliquant ici Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points) : #IA Symbolique ; #Large Language Models ; #Deepmind ; #Donnée synthétique ; #Exploration de l’espace des solutions Deepmind a fait beaucoup de bruit avec cette IA pouvant résoudre des problèmes complexes en géométrie. Cette approche nous offre plusieurs enseignements théoriques et pratiques pour adresser d’autres problèmes avec le Deep Learning : comment lutter contre les hallucinations, l’intérêt de la donnée synthétique pour adresser un problème, etc. Datalchemy a détaillé totalement le dernier exploit de Deepmind en IA et en géométrie. En plus, ils s’amusent à en tirer des leçons que nous pouvons appliquer à nos problèmes IA en interne. Déjà sur la data synthétique, mais aussi sur l’utilisation d’un LLM malgré sa capacité à raconter n’importe quoi. Ce qui est amusant, c’est que le LLM n’est qu’une petite partie de la solution, mais cette petite partie est totalement indispensable. La plupart des processus de création confrontés à un simulateur ou un jumeau numérique vont s’inspirer (ou s’inspirent déjà) de ce type d’architecture. Au-delà, les sujets où le problème peut être modélisé d’une manière formelle sont d’excellents candidats pour adapter ces travaux. Optimisation d’un jumeau numérique. Contrôle et cadrage d’un Large Language Model. C’est parti… Ce mois-ci, nous vous proposons de nous concentrer sur une unique publication, très récente mais qui a eu un impact retentissant dans le monde de l’intelligence artificielle : AlphaGeometry. Ce travail récent de Deepmind a permis de générer un agent pouvant résoudre de nombreux problèmes géométriques issus d’une compétition internationale. Nous vous proposons de détailler l’approche effectuée par Deepmind, déjà pour rétablir un certain nombre de fantasmes ou contre-vérités qui ont pullulé sur Internet suite à ces travaux. Nous avons par exemple beaucoup entendu parler de l’IA symbolique qui, si elle existe, reste un sujet à préciser. Au-delà, nous allons extraire les éléments les plus importants de l’approche de Deepmind afin d’observer si ce type d’approche peut se généraliser à d’autres sujets. Nous verrons que deux points d’AlphaGeometry peuvent être généralisés et permettent d’envisager une nouvelle forme d’approche en IA qui permette de travailler en utilisant le meilleur des réseaux de neurones, mais en faisant abstraction de leurs plus grands défauts, notamment les hallucinations. [https://www.nature.com/articles/s41586-023-06747-5] AlphaGeometry – Analyse en détail d’une IA résolvant des problèmes en géométrie. Que s’est-il passé ? Commençons par résumer ce travail et les objectifs qu’il a atteint. Certes, nous faisons usuellement partis des acteurs un peu plus critiques face aux nouveaux travaux en IA, mais nous sommes bien obligés de reconnaître que Deepmind, ici, a obtenu des résultats assez incroyables et particulièrement intéressants. L’idée fondamentale est d’adresser la résolution d’un problème géométrique euclidien. Le modèle IA (nous restons à haut niveau pour l’instant) va recevoir les bases d’un problème, ici, la présence d’un certain nombre d’éléments géométriques (points, droites, etc.) et de règles sur ces éléments (points alignés, valeurs d’angles etc.). Le modèle IA dispose aussi d’un objectif, une affirmation mathématique qui doit être démontrée rigoureusement à partir des éléments initiaux. Ci-dessous, un exemple de problème soumis au modèle : Déjà, concevoir un modèle pouvant résoudre ce type de problème est en soi intéressant. Les mathématiques sont un domaine global qui sous-tend un grand nombre de problèmes logiques plus génériques, et la géométrie est un des domaines des mathématiques assez spécifique : il a d’un côté une “simplicité” de définition appréciable (le nombre d’opérations pouvant être opérées reste limité au regard de ce qu’on peut avoir dans d’autres domaines scientifiques. Mais en même temps, les démonstrations à générer peuvent devenir extrêmement complexes, avec un vrai challenge pour le modèle. Ici, le coup de canon est venu des résultats du modèle qui a pu résoudre la quasi-totalité des problèmes issus du IMO, international mathematics olympiad, un concours international de très haut niveau. Autre élément très partagé sur les réseaux sociaux, l’utilisation d’une “IA symbolique”. Les guillemets sont ici indispensables, car si le terme est exact, il a été source de nombreux fantasmes sur les travaux de Deepmind. L’intelligence artificielle peut-elle manipuler des concepts symboliques comme un humain ? La réponse, ici, est non. Et il est temps de creuser ce sujet un peu plus précisément 🙂 IA Symbolique ? Le terme “intelligence artificielle” est un terme extrêmement dangereux. Ce terme évoque dans l’imaginaire une tonne de fantasmes assez classiques issus de la science fiction, et s’il a été utilisé par les chercheurs en Deep Learning déjà dans les années 1980, il est aujourd’hui source de confusion. Quand on parle de Language Models, d’agents jouant au Go, d’IA Générative, nous parlons en réalité du domaine du Deep Learning, consistant à entraîner des modèles massifs sur une quantité de données qui représente le problème à résoudre. Au-delà d’un simple combat sur les mots, nous avons observé de nombreuses fois qu’il était important d’aller chercher les bonnes définitions, afin de limiter les erreurs de compréhension qui, souvent, nuisent à un projet IA. Mais alors, qu’est-ce que l’IA symbolique ? Derrière ce terme se cache un gigantesque fourre-tout contenant de nombreuses approches algorithmiques qui était très exploité de 1950 à 1990. On parle d’IA symbolique quand on a un système de règles où on peut construire des solutions par combinaison logique de ces règles. Les systèmes experts, ancêtres du Deep Learning, en font ainsi partie. Dans le cadre d’AlphaGeometry, on parlera d’IA symbolique car on utilisera des moteurs d’inférence mathématiques. Ces moteurs vont stocker un certain nombre de règles afin de construire, à partir d’affirmations sur un problème, de nouvelles affirmations plus complexes. Ces moteurs créent ainsi un graphe en combinant les affirmations stockées et générées, en espérant que le modèle arrive finalement à trouver la preuve que nous cherchons. Ici, dans AlphaGeometry, deux modèles d’inférence mathématique sont exploités par Deepmind. Il est important de souligner que ces modèles n’ont rien de nouveau par rapport à ce qui existait avant. Ces moteurs sont complétés par un réseau de neurones, un Large Language Model. […]
  • Echos de la recherche #10
    Au-delà des mains à six doigts : la détection des images générées par IA, et autres avancées Lien de téléchargement de l’article. Détecter les images générées par IA devient (un peu plus) crédible, le renforcement s’industrialise, et nous sommes un peu moins bêtes face aux modèles de diffusion. Si vous n’avez qu’une minute à consacrer à la lecture, voici le contenu essentiel en 7 points : Détection des images générées par IA  Renforcement et industrialisation IA générative et interprétabilité On peut enfin prétendre détecter des images d’IA générative, ce qui est une excellente nouvelle si on a des problèmes de modération sur ce type d’outil. Par ailleurs, on peut appliquer beaucoup plus facilement des approches de renforcement, notamment à des problèmes d’optimisation “métier” comme l’achat de publicités ciblées. Enfin, on comprend mieux les modèles de diffusion qui font l’affiche depuis deux ans, et vous dire ça mérite une augmentation, chef. Détection d’images générées par IA Renforcement : modularité et architecture Modèles de diffusion : espaces latents et contrôle. Détection d’images “fausses”. Optimisation de processus plus ou moins aveugles. Contrôle d’IA génératives. Tu as l’occasion d’appréhender pratiquement la détection d’images générées par IA, ou d’appliquer du renforcement sans douleur à ton problème d’optimisation. C’est parti… Comme chaque mois, nous vous proposons une présentation des travaux académiques du mois passé qui nous paraissent intéressants et utiles pour un déploiement à court terme. Détecter les images générées par IA devient (un peu) possible L’arrivée des IAs génératives (notamment : Stable Diffusion XL, Midjourney, etc.) commence à bouleverser la place de la création artistique dans notre société, potentiellement pour le pire plutôt que le meilleur, considérant les impacts sociaux et économiques de ces nouveaux outils. Parmi les nouvelles questions qui sont apparues avec ces outils, s’est vite posée celle d’identifier correctement si une œuvre a été générée ou non par un de ces modèles. Or les outils disponibles à date ne tiennent pas leurs promesses de bonne détection, interprétant des images générées comme originales autant que l’inverse. Notons que ce problème existe aussi pour chatGPT et autres Large Language Models, ce qui pose des questions fondamentales sur l’évolution nécessaire des méthodes d’éducation actuelles. Le problème fondamental de tous ces détecteurs est qu’ils se basent sur une approche “globale” Deep Learning de classification, face à un dataset accumulé par des chercheurs qui, nécessairement, sera trop limité pour jouer un rôle classique. Au-delà, le fait d’entraîner un modèle Deep Learning global implique une absence totale d’interprétabilité dans les résultats, et produit donc un outil qui peut (comme d’habitude) réussir ou échouer d’une manière aveugle et non contrôlable. Au-delà, le sujet se rapproche de la problématique des attaques adversariales en ceci que si une approche apparaît qui permet un minimum de détecter des images synthétiques, les modèles de génération suivants prendront en compte cette méthode de détection, la rendant inutile. Cependant un nouveau travail est paru le mois dernier qui semble être une approche beaucoup plus crédible pour détecter des images synthétiques : “Shadows Don’t Lie and Lines Can’t Bend! Generative Models don’t know Projective Geometry…for now”, de Sarkar et al. [https://arxiv.org/abs/2311.17138]. Dans ce papier, les auteurs définissent un certain nombre de contraintes qui permettent, sans faute, d’identifier une image “fausse”. Ces contraintes sont basées sur la géométrie projective (et concernent donc uniquement les photographies), avec les points suivants : Ici, l’intérêt est donc que nous identifions des critères de discrimination dans un premier temps, pour ensuite essayer de détecter le respect de ces critères. Nous sommes donc face à un outil qui ne va pas affirmer de façon monolithique qu’une image est fausse, mais qui pourra “justifier” sa prédiction, et notamment extraire les éléments les plus importants pour les exposer ensuite à un utilisateur qui prendra la décision finale. Cette approche est donc beaucoup plus constructive, quand bien même elle porte quelques limites. La principale de ces limites est que l’application de ces critères en détection se fait par des réseaux de neurones eux-même faillibles, qui rend difficile une automatisation complète en application. Ci-dessous, un exemple avec deux images générées par StableDiffusionXL et les détections de conformité des ombres et de la perspective. Les images “colorimétriques” viennent de l’approche GradCam assez classique en Deep Learning. Le schéma ci-dessus présente la courbe ROC de différents détecteurs, à travers trois datasets. Le premier est un ensemble d’images correctement classifiées par une approche “classique” de détection d’IAs génératives, le second sur des images où les approches classiques relèvent de la chance, et le dernier sur des images considérées par les approches classiques (à tort) comme des images naturelles. La courbe rouge indique les résultats de l’approche classique, tandis que les courbes verte, jaune et bleue (pleine) indiquent les résultats des différents critères géométriques décrits dans l’approche de Sarkar et al. : Evidemment, nous ne pouvons ignorer la fin du titre de la publication : Shadows Don’t Lie and Lines Can’t Bend! Generative Models don’t know Projective Geometry…for now. Cette approche est fondamentalement destinée à être invalidée quand des travaux prendront en compte ces critères pour entraîner des modèles génératifs. Ceci dit, considérant le coût d’un tel entraînement, nous disposons là d’une heuristique viable pour détecter un certain nombre d’images synthétiques. Le renforcement est (probablement) la prochaine “révolution” de l’IA Le renforcement (Deep Reinforcement Learning ou DRL) est ce domaine du Deep Learning qui, régulièrement, crée les gros titres en termes d’exploits scientifiques, mais qui dans les faits s’avère difficile à industrialiser. AlphaGo, l’alignement de ChatGPT, et de nombreux travaux en robotique s’appuient sur ce paradigme qui, de par son extrême liberté, permet de résoudre de nombreux problèmes très différents. En effet, définir un problème en renforcement revient à considérer un agent autonome qui doit réussir à accomplir une tâche pour obtenir une récompense numérique, en faisant ainsi abstraction de nombreuses contraintes comme l’utilisation d’un dataset cartographié, l’exploitation d’une fonction objectif (loss function) dérivable, etc. Quasiment tous les problèmes imaginables peuvent être modélisés comme du renforcement… Évidemment, les choses ne sont pas aussi simples, et trois grandes difficultés existent […]