- Causalité et IA
Entre fantasmes de raisonnement et réalité scientifique, retour sur le workshop Neurips2024 – CALM dédié aux derniers états de l’art de ce domaine Version pdf téléchargeable ici TL;DR ? 5 mots-clés de nos Echos Causalité, Concept, LLM, Graphe, Extraction Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : L’IA peut-elle rechercher ou exploiter des causalités ? Fondamentaux et Neurips 2024 Causalité et IA : introduction Voilà deux termes que l’on voudrait rapprocher l’un de l’autre absolument. La causalité est un mécanisme logique du raisonnement, ou une observation sera la conséquence d’une action ou d’une autre observation. Découvrir et interagir avec le monde suppose théoriquement de comprendre ces mécanismes : une détection de tumeur en imagerie médicale devrait s’appuyer sur l’anatomie observée de la personne, la manipulation d’un objet par un bras robot devrait appréhender la notion de gravité, et la réponse d’un Large Language Model devrait pouvoir s’appuyer sur une suite de raisonnements logiques… Et pourtant, force est de reconnaître qu’aujourd’hui encore, nos (trop) chers modèles IA sont fondamentalement des modèles statistiques, certes impressionnants, mais identifiant des corrélations plus que des causalités. Mais un véritable courant de recherche existe et avance sur l’intégration de cette notion de causalité dans nos modèles, et avant de présenter les derniers résultats de pointe, il convient d’introduire un peu le sujet. Deux travaux scientifiques sont à consulter pour l’appréhender. Le premier, «Anchor regression: Heterogeneous data meet causality» de Rothenhausler et al, est considéré comme une base incontournable. L’auteur plaide pour remplacer l’inférence statistique (si j’observe dans une pièce que chaque fois qu’une fenêtre est ouverte, la température est plus basse, je peux considérer qu’il y a corrélation entre ces deux informations) par une inférence causale (si j’ouvre la fenêtre, alors, la température va diminuer). L’enjeu est donc, face à un ensemble d’observations, de déterminer les facteurs sources qui impliqueront d’autres observations et de qualifier les liens de causalité entre ces éléments. On va le voir, un enjeu est surtout d’obtenir des approches beaucoup plus robustes que la statistique classique. Mais la publication fondatrice de ce mouvement en intelligence artificielle est «Toward causal representation learning» avec en premier auteur Schölkopf et caché derrière notre cher Yoshua Bengio. Cette publication de 2021 peut être vue comme un manifeste pour chercher de nouveaux modèles IA qui puissent justement, par apprentissage, découvrir la structure logique (les liens de causalité) d’un dataset représentant un phénomène. L’enjeu va bien au-delà d’une simple satisfaction intellectuelle, car de tels modèles auraient des qualités appréciables : Se glisse ici un léger problème : si nous voulons découvrir les liens de causalité, nous aurons besoin de pouvoir connaître l’impact d’interventions. Une intervention vise à modifier une seule des variables fondamentales pour observer les conséquences de cette modification. Nous reparlerons de ce point plus tard, mais le schéma ci-dessous permet d’observer la différence entre un modèle IA classique et un modèle causal : A gauche : un modèle classique. Chaque « rond » est une variable d’intérêt, et le modèle projette l’ensemble de ces variables dans une distribution cible A droite : nous pouvons modéliser l’impact d’une intervention sur chaque variable d’intérêt (les petits marteaux mignons. Si, ils sont mignons) sur la distribution cible, et donc estimer comment chacune modifie le résultat. Un modèle causal présente de nombreux intérêts face à un modèle classique. Rappelons déjà qu’un modèle classique n’est valable que si on l’utilise sur une donnée appartenant à la même distribution que le dataset d’entraînement, ce qui n’est plus le cas ici. Le terrible Distribution Drift qui fait trembler les ingénieurs IA devient ici appréhendable : ce n’est pas parce que nos images médicales viennent d’un autre praticien ou d’un autre hôpital que notre modèle s’écroulera. Et surtout, nous pouvons espérer répondre à des questions contrefactuelles, par exemple « Ce patient aurait-il eu un accident cardiaque s’il avait fait plus d’exercice physique ». Ce dernier point est très important, en ceci qu’un modèle causal pourrait jouer un rôle de modèle prédictif beaucoup plus efficace, rejoignant la recherche en World Models par exemple. Le schéma ci-dessous représente le problème fondamental auquel nous voulons nous atteler : un bras robot manipule des objets et n’a accès qu’aux pixels de l’image d’une caméra, sans connaître le graphe causal modélisant les interactions entre les objets. S’il est peu probable que nous redécouvrions l’intégralité des relations logiques entre les éléments, un système causal pourrait au moins exposer des variables claires en séparant par exemple, dans ses représentations, les informations de position et d’apparence de chaque objet. Ci-dessous, on image une intervention modifiant la position d’un des appendices du robot. Un modèle classique n’y verrait qu’une modification de pixels avec comme objectif très lourd d’identifier une corrélation. Un modèle causal serait en capacité d’exposer l’information importante ayant changé. Prenons un peu de recul : nous sommes en train de parler de raisonnement d’un modèle IA, finalement. Et nous allons voir que les dernières sorties d’OpenAI ou DeepSeek ne peuvent prétendre réellement à une forme de raisonnement de par leur nature de modèles statistiques. Faut-il alors se précipiter sur ces modèles ? Pas encore. A l’époque, cette publication ne proposait pas de solution au problème, et ne faisait « que » lancer un courant de recherche. Modéliser l’impact d’une intervention est extrêmement difficile, et les outils du Deep Learning relèvent plus d’un « bourrinage » pour entraîner les plus gros modèles possibles que d’une approche fine de contrôle. Cela n’a pas empêché de nombreux chercheurs d’avancer sur ce sujet. Et nous vous proposons donc de faire une revue d’un workshop récent du NeuRIPS 2024, dédié à la causalité appliquée au Large Models. Ce workshop nous donne une vision passionnante de l’état actuel de la recherche en causalité et des opportunités qui y sont reliées. Chercher des concepts plutôt que des causes Parmi les publications à l’honneur de ce workshop se trouve un travail très intéressant issu notamment des laboratoires de Meta. « From Causal to Concept-Based Representation Learning » de Rajendran et al, reprend les objectifs fondamentaux de l’apprentissage causal et nous offre déjà une vue accélérée des nombreux travaux qui se […]
- Freeform pixels, robots qui rangent des chemises, transformation d’une image en environnement physique et déception en interprétabilité
Pour télécharger la version pdf, c’est ici. TL;DR ? 5 mots-clés de nos Echos EdgeAI, Imitation Learning, modélisation physique, interprétabilité, feature visualization Quels process métier seront probablement modifiés sur la base de ces recherches ? Le sujet du edge AI est encore en friche avec une vraie difficulté à déployer des réseaux de neurones correctement. L’arrivée d’une caméra auto-suffisante et préservant l’anonymat est un événement à ne pas sous-estimer, surtout que l’approche du freeform Pixel est particulièrement intelligente. Autre point, l’Imitation Learning avait déjà présagé une révolution de la robotique en rendant l’entraînement de modèles beaucoup plus simple. Deepmind étend ces approches avec des résultats sidérants sur le plan robotique, en industrialisant la notion de démonstrations. Autre point, plus triste : le principal outil que nous avions pour « interpréter » un réseau de neurones agissant sur des images a été violemment annulé par Deepmind. Nous n’oublierons jamais cet outil qui restera éternellement dans nos cœurs. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : Freeform pixels et caméras auto-suffisantes respectant l’anonymat. Soyons honnêtes. L’évocation de « pixels » appris par intelligence artificielle, qui permettraient de créer de nouveaux types de caméras auto-suffisantes sur le plan énergétique, invoquera avant tout le doute le plus profond. Et pourtant, cette publication de Columbia, ayant reçu le « best paper award » de la conférence ECCV2024, est un travail sérieux et passionnant. Parce que l’intelligence artificielle va (Dieu merci) bien au-delà des Large Language Models, ce travail mérite d’être étudié avec attention. En effet, nous souffrons beaucoup de ces arbres qui cachent la forêt : les travaux en Deep Learning popularisés sont souvent des travaux très lourds, entraînant des modèles gigantesques (on dit « Frontier Models » en soirée en ce moment) pour des résultats toujours plus haut (selon la métrique académique et critiquable recommandée). Ici, les auteurs vont à l’opposé de ce mouvement, en recherchant une approche minimaliste pour s’attaquer à des problèmes de vision assez classiques : décompte du nombre de personnes dans une pièce, vitesse de traversée d’un véhicule, etc. La révolution porte ici sur l’extrême simplicité de l’approche, et nous allons voir comment de tels problèmes peuvent être résolus avec quatre petits pixels. (Cette dernière affirmation joue un peu sur les mots, mais c’est précisément le sujet ici). CI-dessous, un exemple du système pour le décompte de personnes, avec un capteur de 24 pixels : Attention : ce travail est passionnant mais donne très peu d’éléments de reproduction, un minimum de méfiance reste donc de rigueur…Mais rentrons dans le sujet, et qu’est-ce donc qu’un « freeform pixel » ? L’idée des auteurs est de modéliser une nouvelle forme de capteur qui, pour modéliser la valeur d’un pixel (donc une simple valeur d’intensité), ne va pas percevoir la lumière passant par un point minime (pinhole), mais qui au contraire va recevoir toute l’information lumineuse de la scène. Détail d’importance : cette information lumineuse va passer par un masque en deux dimensions qui va atténuer, voir supprimer, la lumière reçue à certains endroits. Notons que ce masque est, ci-dessous, un masque binaire, mais qu’il peut dans l’absolu prendre toute valeur entre 0 et 1. Nous aurons donc un système basé sur un ensemble de ces pixels. Chacun aura un masque qui sera soumis à apprentissage face à un flux vidéo utilisé comme ensemble d’entraînement. La valeur de chaque pixel sera ensuite utilisée pour alimenter un réseau de neurones spécifique (ci-dessous : inference network) qui, lui, renverra la valeur supervisée souhaitée. Notons qu’un argument important apparaît en anonymisation : un tel système, exploitant quelques dizaines de pixels, anonymisera de fait l’image en entrée, ne pouvant conserver assez d’information pour pouvoir reconstituer un visage ou une personne à l’image. Tout du moins est-ce l’affirmation des auteurs, crédible mais à confirmer définitivement. Mais, mais, mais… Est-ce que ça marche ? Les chercheurs ont dans un premier temps travaillé sur un cas de test simpliste, mais ont ensuite poussé leurs travaux jusqu’à créer un prototype de la « caméra » nécessaire pour différents problèmes. Pour créer ce prototype, on retrouve un ensemble de pixels avec, pour chacun, un masque imprimé résultant de l’entraînement du modèle. Une heure de vidéo est utilisée pour entraîner le modèle. Chacun de ces pixels transmet sa valeur via une amplification vers un microcontrôleur qui interagit en bluetooth avec un périphérique externe. Ce système est par ailleurs recouvert de panneaux solaires, lui permettant d’être auto-alimenté même en environnement intérieur. Notons qu’on peut changer l’application de la caméra en imprimant de nouveaux masques pour chaque pixel. Et nous pouvons observer ci-dessous deux cas d’application intéressants. Le premier porte sur le décompte de personnes dans une salle, le second sur la détection de la vitesse de véhicules. On voit à chaque fois un graphique de performance en fonction du nombre de « pixels », comparé à une baseline qui utilise les pixels classiques (et qui est, soyons honnêtes, peu intéressante). On voit aussi les masques appris par les freeform pixels, qui opèrent un découpage de l’espace ad-hoc par rapport au problème adressé, et (pour le premier cas) un tableau de résultats bruts : Pour conclure, ce travail mérite d’être suivi avec beaucoup d’attention. Nous sommes sur une nouvelle ouverture du Edge Computing, dans un contexte où l’énergie dépensée par ces modèles est un sujet qui fâche. Ici, en allant jusqu’au prototype matériel, les chercheurs de Columbia proposent une solution efficace et extensible, avec une anonymisation forte de l’image en entrée… ALOHA unleashed : les robots savent plier une chemise (Et c’est un petit exploit, mais reprenons les choses dans l’ordre) Ceux qui suivent nos revues de la recherche n’ont pas manqué un article paru en mars 2024 portant sur l’Imitation Learning. Pour rappel, ce domaine a commencé l’an dernier à révolutionner la robotique et l’intelligence artificielle, plus précisément le domaine du Deep Reinforcement Learning. Ce domaine consiste à entraîner un agent à résoudre une tâche en maximisant une récompense modélisant la réussite de l’agent. Et si ce domaine a eu de nombreux moments de gloire (en manipulation robotique, ou via AlphaGo / AlphaGoZero), il a toujours souffert d’une énorme lourdeur […]
- La boîte noire optimisée, le RAG sous contrôle et la modélisation 3D du futur
Télécharger la version pdf ici. TL;DR ? 5 mots-clés de nos Echos RAG, évaluation, boîte noire, optimisation, gaussian splatting Pourquoi lire cette publi peut vous être utile concrètement ? Si vous utilisez un RAG et vous vous demandez désespérément comment évaluer la qualité de ses réponses d’une manière objective, vous trouverez ici un travail récent et prometteur pour déjà mieux mesurer les choses. Si vous voulez chercher les solutions d’un problème complexe le plus vite possible, Google nous offre maintenant un de ses meilleurs outils . Et si vous travaillez avec 3 dimensions et suivez l’évolution du domaine avec l’intelligence artificielle (Nerfs, Gaussian Splatting), NVIDIA a poussé l’effort sur une application simple en proposant de nombreuses innovations. Quels process métier seront probablement modifiés sur la base de ces recherches ? Les RAGs sont partout, mais leurs limites sont trop souvent sous-estimées par rapport à leur exposition. L’apparition d’un nouveau framework et de nouvelles métriques pour évaluer ces outils facilitera grandement leur mise en place et leur qualification. D’autre part, l’optimisation de boîtes noires est un sujet très générique, que l’on retrouve en étude d’impact d’actions publiques, en optimisation de ressources disponibles, ou en recherche par simulation ou jumeau numérique. L’arrivée de Google Vizier va donner un avantage certain aux acteurs qui s’en saisiront. Enfin, les NeRFs sont une nouvelle technique de modélisation 3D issue du Deep Learning qui impactera à terme de nombreux domaines : jeu vidéo, cinéma, interaction en ligne, etc. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : RAG Checker : Amazon tente d’évaluer correctement un RAG Et le sujet reste, évidemment, très/trop complexe. Un peu de contexte : si vous travaillez de près ou de loin en intelligence artificielle et n’avez jamais entendu parler de RAG (retrieval augmented generation), vous êtes soit isolés de l’actualité avec talent, soit particulièrement robuste pour ignorer les « modes » techniques. Derrière ces termes se cache une application théoriquement facile des Large Language Models pour aller rechercher, dans une base documentaire plus ou moins gigantesque, des éléments pertinents à partir de la requête d’un utilisateur. Nous avions notamment beaucoup parlé de ces approches et (surtout) de leurs limites lors d’un webinaire en 2024. Car s’il y a, depuis l’arrivée de la pseudo-AGI d’OpenAI (chatGPT), une effervescence énorme autour de ces sujets, force est de reconnaître que dans une majorité de cas, l’outil RAG constitue un excellent Proof of Concept qui illuminera des slides de présentation, mais n’arrive pas à être concrétisé comme un outil industrialisable et contrôlable. De nombreuses défaillances peuvent se produire dans le cadre d’une application naïve (éléments remontés insuffisants ou erronés, hallucinations dans la génération finale…). Ce n’est d’ailleurs pas un hasard si, à date, nous proposons des approches moins « révolutionnaires » en apparence, mais beaucoup plus stables dans leur implémentation, notamment en exploitant les Large Language Models en extraction et en structuration, et en refusant un échange par le langage naturel en restitution pour préférer un outil de navigation efficace et testable (nos excuses pour cet aparté à la limite du commercial, mais n’hésitez pas à nous contacter si vous voulez des approches fonctionnelles et industrialisables 😊 ) Le RAG est donc un champ de ruine, et se reporter à la recherche fondamentale permet de s’extraire de la hype pour retrouver la terre ferme. Nous avions dans un webinaire notamment cité les travaux SAFE de Google Deepmind qui valident un résultat de RAG par des recherches Google unitaires. Ici, les équipes d’Amazon nous proposent RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation, de Ru et al. L’objectif de ce travail très récent est de proposer un moyen sain et contrôlé d’évaluer correctement la qualité d’un RAG. À ce stade, prenons un peu de recul. Pendant que de nombreux acteurs vendent leur RAG optimal et fonctionnel, les chercheurs, eux, tentent déjà d’estimer la qualité d’une solution RAG d’une manière correcte. Ce grand écart est révélateur de la hype en cours, et soyons lucides : si nous ne savons pas réellement comment évaluer un outil de ce type à date, nous avons peu de chance de pouvoir prétendre le faire fonctionner d’une manière industrielle. Ces travaux de recherche sont donc fondamentaux pour nous, en nous donnant de nouveaux outils pour évaluer les RAG, identifier des sources d’erreur et ainsi pouvoir se projeter dans une utilisation future dépourvue de mauvaises surprises…RAGChecker propose donc de nouvelles métriques pour évaluer un RAG, et nous allons voir qu’aucune d’entre elles n’est superflue. Dans le schéma ci-dessus, nous avons, représentés en vert et jaune, respectivement les chunks (morceaux de document, une autre névrose des RAGs) récupérés par la recherche initiale qui correspondent à la recherche de l’utilisateur (en vert) et ceux remontés à tord car sans lien avec cette recherche (en jaune). Chaque ensemble de chunk peut contenir des affirmations vraies (correct claims, ronds), des affirmations fausses (incorrect claims, croix) et des affirmations hors sujets (points d’interrogation). Une fois les chunks remontés, le RAG va tenter de les exploiter pour générer une réponse finale. Dans le schéma tout en haut, nous trouvons à gauche (dans l’ellipse rouge) les bonnes réponses qui auraient dû être données, et à droite en bleu la réponse du modèle. RAGChecker propose trois types de métriques : Des tests sont ensuite réalisés en comparant plusieurs solutions disponibles à date. Il est ici très important de regarder en quoi correspondent ces tests. Cela permettra de se projeter face à une implémentation sur un problème spécifique. Notamment, nous attirons l’attention du lecteur sur le fait que ces datasets d’évaluation portent très majoritairement sur des problèmes de connaissance générale. Dès lors, il est un peu risqué de se projeter, depuis ces résultats, vers l’utilisation d’une base documentaire très spécifique comme nous en rencontrons régulièrement chez nos clients : Et donc, les résultats : Plusieurs observations intéressantes sont proposées par les auteurs : De nombreuses autres observations sont proposées dans cette publication que nous vous suggérons de lire si le sujet vous intéresse. Ce type de travail est fondamental : mieux évaluer la qualité d’un outil […]
- Représentations « platoniciennes », images à très haute résolution, world models & Mambas
Télécharger la version magazine ici : Télécharger TL;DR ? Cinq mots-clés de ces échos Embeddings, haute résolution, diffusion, état d’un système, mamba Pourquoi lire cette publi peut vous être utile concrètement ? Mieux comprendre ce qu’apprennent les réseaux de neurones est fondamental pour appréhender notre domaine de travail, et nous avons ici une publication pertinente (quoique un peu ambitieuse) montrant que ces représentations se ressemblent à travers les architectures et les modalités. Au-delà, un nouveau travail permet de traiter des images à très haute résolution pour une consommation mémoire contrôlée, ouvrant de nouvelles applications. Enfin, deux travaux permettent de respectivement mieux comprendre les modèles de diffusion, et la complexité des architectures, avec de nouveaux résultats sur le désormais célèbre Mamba. Quels process métier seront probablement modifiés sur la base de ces recherches ? Les Foundation Models visent à apprendre des représentations génériques à travers une ou plusieurs modalités (texte, image, son, etc.). Que ces représentations se rapprochent naturellement permet de mieux envisager leur utilisation. Autre sujet, l’utilisation d’IA sur des images de très haute résolution est aujourd’hui bloquée, empêchant d’interpréter une image complexe correctement (images satellites par exemple). Enfin, les modèles de diffusion apparaissent de plus en plus comme un outil efficace pour modéliser un environnement et sa dynamique, permettant aux world models de continuer leur positionnement comme outil efficace et intéressant pour entraîner des agents autonomes. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 4 points : Représentation « platonicienne » : Les réseaux de neurones apprennent-ils une même représentation de la réalité ? Attention, la publication The Platonic Representation Hypothesis, Huh et al est à manipuler avec des pincettes. Si elle pose des questions fondamentales et lève des observations passionnantes sur ce qu’apprennent nos chers réseaux de neurones, il convient de séparer les affirmations scientifiques des spéculations plus philosophiques. Mais n’allons pas trop vite, et replaçons le contexte : de quoi parlons-nous ? Cela fait bientôt dix ans que s’est imposé un courant de recherche fondamental dans notre domaine du Deep Learning, celui du Representation Learning. À la base de ces travaux, une observation : quand un réseau de neurones apprend à adresser une tâche (par exemple de classification), il apprend implicitement à représenter la donnée d’entrée sous des formes de plus en plus simples (i.e. ayant une dimensionnalité beaucoup plus faible). On considère aujourd’hui que cet apprentissage est probablement la vraie « magie » du Deep Learning : apprendre à représenter une donnée extrêmement complexe sous une forme simplifiée plus facile à manipuler. C’est notamment ce qu’avaient observé Milokov et al qui avaient généré les premiers embeddings représentant des mots. Ce courant s’est ensuite poursuivi via l’entraînement de Foundation Models comme notre précieux DinoV2, capable de représenter une image par un vecteur très expressif et suffisant pour adresser un grand nombre de tâches spécifiques. Nous avions aussi fait un webinaire sur le phénomène des embeddings cross-modalité, où le même concept exposé sous deux formes (par exemple, image et texte), sera isolé comme un unique vecteur de représentation. Néanmoins, si chaque réseau de neurones apprend une représentation de la donnée en entrée, une question fondamentale est de savoir à quel point deux représentations issues de deux réseaux de neurones différents seront proches. Dit autrement : chaque réseau apprend-il une représentation unique et spécifique pendant son apprentissage, où existe-t-il une « destination » de représentation vers laquelle se dirigeraient chaque réseaux soumis à apprentissage. Pour reprendre la vision des auteurs et leur hypothèse principale : existe-t-il une représentation unique vers laquelle tendraient naturellement les représentations de réseaux de neurones ? Ce travail est une occasion salutaire de répertorier ce que la communauté scientifique a découvert à ce sujet. Plusieurs observations ont ainsi été faîtes au cours des dernières années. Typiquement, via la méthode du model stitching, on sait déjà qu’il est possible, à partir de deux réseaux entraînés sur un même problème, d’extraire n première couches de l’un et p dernières couches de l’autre pour les accoler via une simple transformation linéaire. Cela implique déjà que deux réseaux de ce type apprennent des représentations extrêmement proches (à une transformation linéaire près). Ce type de transfert entre deux réseaux a été poursuivi jusqu’à arriver à des méthodes « zero shot » (sans ré-apprentissage spécifique) et plus particulièrement, entre différentes architectures et même différents problèmes à adresser. Cette polyvalence est déjà intéressante, surtout dans notre domaine où les déficits théoriques ne cessent de limiter notre compréhension. Les auteurs ont donc étudié à quel point deux modèles différents, entraînés sur des problèmes différents, ont des représentations internes proches. Pour ce faire, la logique a été de comparer, entre les deux représentations, les plus proches voisins d’un même élément et d’observer si ces groupes de voisins sont proches ou différents. Sans être absolue, cette approche a le mérite de minimiser les problèmes de métriques qui, face à des vecteurs assez complexes, peuvent vite perdre leur sens. Un premier résultat intéressant permet d’exposer, à travers 78 modèles différents de classification d’images, et donc à travers des architectures très différentes, à quel point ces modèles sont « alignés » dans leurs représentations. À gauche, on observe que plus ces modèles sont performants sur le VTAB (Visual Task Adaptation Benchmark), plus leurs représentations sont proches. À droite, une réduction de dimension (UMAP) projette ces modèles en deux dimensions : Cette idée que l’alignement inter-modèle s’améliore avec la performance est un point très intéressant. Au-delà, les auteurs affirment que ces représentations convergent à travers différentes modalités de la donnée. Nous savions déjà qu’il était possible de « coller » un modèle de vision et un modèle de langage au prix d’une transformation linéaire. Ici, les auteurs observent un alignement plus global entre modèles de vision et modèles de langage, avec un alignement d’autant plus important que le modèle de langage est performant. Les auteurs observent aussi que le CLIP d’OpenAI, entraîné aussi sur le contenu textuel, présente un alignement plus important qui se dégrade dès lors qu’on opère un fine tuning vers ImageNet. Dernière expérience pertinente : les auteurs comparent la corrélation entre alignement d’un modèle de langage avec le modèle de vision […]
- IAGen comme Simulateur « universel », nouvelles architectures et meilleure compréhension
TL;DR ? 4 mots clés UniSim, Kolmogorov-Arnold, modèles de diffusion, GAHB Pourquoi lire cette publi peut vous être utile concrètement ? Soyons honnêtes et avertissons le lecteur : les deux tiers de cet article sont plus techniques que d’habitude. Ceci dit, nous discutons dans cet article d’une nouvelle architecture fondamentale qui pourrait demain révolutionner de nombreuses approches Deep Learning, comme nous allons vers une meilleure compréhension des IAs génératives et, particulièrement, des modèles de diffusion qui sont depuis quelques années les moteurs de ces IAs. Enfin, le simulateur universel annonce un nouveau type d’outil permettant de travailler en robotique ou d’une manière générale en représentation de gestes par l’image qui, s’il présente quelques écueils, révolutionnera le travail quotidien dans ces domaines. Quels process métier seront probablement modifiés sur la base de ces recherches ? UniSim peut révolutionner la robotique et l’apprentissage d’interactions avec des objets, tel que le travail avec des gestes humains capturés en vidéo. Les Kolmogorov-Arnold networks sont déjà un candidat intéressant pour approximer par des fonctions complexes des phénomènes simples. Enfin, une meilleure compréhension des modèles de diffusion aura un impact fort sur tous les outils de génération d’images par IA, au-delà des rituels vaudous supposés donner des prompts efficaces. Si vous n’avez qu’une minute à consacrer à la lecture maintenant : Un Simulateur « universel » d’actions ? Publication saluée comme « outstanding » lors du dernier ICLR 2024, l’article Learning Interactive Real-World Simulators de Yang et al rassemble du très beau monde de Deepmind et Berkeley pour proposer un travail assez impressionnant. La question posée ici est de pousser les modèles dits d’IA générative (ces modèles de diffusion qui depuis trois ans se sont cordialement imposés dans le paysage, entre autres via le célèbre Stable Diffusion) au-delà de la simple génération d’images ou de vidéos. L’idée est d’utiliser ces modèles pour (attention, phrase un peu trop prétentieuse) simuler la réalité en les conditionnant sur des actions. Autrement dit, là où aujourd’hui on peut générer une vidéo « artistique » via un prompt, est-il possible de générer une vidéo basée sur une image initiale (représentant une situation) et sur une série d’actions imaginaires. Une illustration sera à ce stade efficace pour se représenter le challenge : Ci-dessus, pour chaque colonne, la première image constitue un état initial issu de notre bonne vieille réalité, avec un « prompt » au-dessus. Les trois images en dessous montrent ce que le modèle a généré, soit une vidéo représentant ces actions réalisées visuellement. Le projet est donc très ambitieux : disposer d’un modèle capable de prédire l’évolution d’un système réel et de générer les images correspondant à ces prédictions. Et comme d’habitude en Deep Learning, le plus important reste la donnée représentant le problème. Ce n’est donc pas un hasard si cette publication s’ouvre sur la génération d’un dataset gigantesque, lui-même issu de nombreux autres datasets différents. Ces datasets originels viennent majoritairement du monde de la recherche et représentent des problèmes assez semblables : exécutions dans des environnements synthétiques, donnée robotique réelle, activité humaine réelle, et même donnée image/texte issue d’Internet. Rassembler des données aussi différentes n’est évidemment pas une gageure, ne serait-ce que pour définir une modélisation commune finale. Ici, la vidéo est conservée comme une série d’images, et les textes de description sont transformés en embeddings via un modèle classique T5, auxquels sont concaténés les actions robotiques si elles sont présentes. Cet espace sera l’espace d’actions du modèle, les inputs à partir desquels il génèrera la prédiction. Trois précisions intéressantes : À ce stade, habemum dataset, nous pouvons parler du modèle. Ce dernier prendra en entrée une première image (l’état initial) et la description de l’action, afin de générer les observations futures dépendant de cette action. Celle-ci peut être un déplacement de la caméra codifié, des actions d’un bras robot ou, plus simplement, du langage naturel. Le modèle (schéma ci-dessous) est sans surprise un modèle de diffusion qui apprend à générer via une opération de débruitage (nous en reparlons juste après), et s’appelle d’une manière auto-régressive, une image après l’autre. Avant de se projeter dans l’utilisation d’un tel modèle, un reality-check est indispensable : les auteurs ont entraîné leur modèle sur 512 TPU v3 pendant 20 jours. Autrement dit, via une rapide approximation, un petit budget de 500.000€ est nécessaire (pour un seul training) pour reproduire ce résultat… Ce constat passé, regardons un peu les résultats de ce modèle ci-dessous : Retenez ces exemples, ils nous serviront de base pour critiquer ce travail dans la suite de cet article. L’application fondamentale présentement est d’utiliser ce « simulateur universel » pour entraîner des agents robotiques sans besoin d’interactions avec la réalité (souvent impossibles en entraînement), ou d’un simulateur spécialisé. Cette application est fascinante puisqu’elle rejoint le domaine du Deep Reinforcement Learning qui n’est pas sans écueil, notamment sur la problématique de transférer un agent d’un environnement simulé à un environnement réel. Les difficultés viennent souvent des limites visuelles de l’environnement simulé, comme celles liées à la modélisation des interactions complexes de manière satisfaisante. Ici, les auteurs présentent un agent entraîné uniquement face à UniSim, avec un algorithme plus que classique (Reinforce) et d’observer sa généralisation aux cas réels, comme le montre le schéma ci-dessous : Mais alors, révolution ? Peut-être oui, peut-être non 😊 Notre mission principale chez Datalchemy est de suivre la recherche et de filtrer celle-ci sans pitié pour permettre à nos clients d’utiliser des approches récentes et efficaces. Et si nous avons beaucoup travaillé en robotique et en Deep Reinforcement Learning (voir notre précédent article consacré à l’Imitation Learning), nous n’imaginons pas trop, à date, utiliser un tel outil s’il était disponible. Explications : Ici, parler de simulateur est en réalité un peu exagéré. Un simulateur, théoriquement, reproduit un certain nombre de règles physiques (gravité, contacts entre les objets, etc.) pour déterminer les conséquences d’une action. Unisim, lui, apprend sur un gigantesque dataset à prédire des images futures à partir d’un historique d’images et une description d’actions. Peut-être a-t-il dans son espace interne modélisé des règles physiques qu’il aurait appris lors de son entraînement, mais même si c’est le cas, ces règles physiques ne seront […]