- Représentations « platoniciennes », images à très haute résolution, world models & Mambas
Télécharger la version magazine ici : Télécharger TL;DR ? Cinq mots-clés de ces échos Embeddings, haute résolution, diffusion, état d’un système, mamba Pourquoi lire cette publi peut vous être utile concrètement ? Mieux comprendre ce qu’apprennent les réseaux de neurones est fondamental pour appréhender notre domaine de travail, et nous avons ici une publication pertinente (quoique un peu ambitieuse) montrant que ces représentations se ressemblent à travers les architectures et les modalités. Au-delà, un nouveau travail permet de traiter des images à très haute résolution pour une consommation mémoire contrôlée, ouvrant de nouvelles applications. Enfin, deux travaux permettent de respectivement mieux comprendre les modèles de diffusion, et la complexité des architectures, avec de nouveaux résultats sur le désormais célèbre Mamba. Quels process métier seront probablement modifiés sur la base de ces recherches ? Les Foundation Models visent à apprendre des représentations génériques à travers une ou plusieurs modalités (texte, image, son, etc.). Que ces représentations se rapprochent naturellement permet de mieux envisager leur utilisation. Autre sujet, l’utilisation d’IA sur des images de très haute résolution est aujourd’hui bloquée, empêchant d’interpréter une image complexe correctement (images satellites par exemple). Enfin, les modèles de diffusion apparaissent de plus en plus comme un outil efficace pour modéliser un environnement et sa dynamique, permettant aux world models de continuer leur positionnement comme outil efficace et intéressant pour entraîner des agents autonomes. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 4 points : Représentation « platonicienne » : Les réseaux de neurones apprennent-ils une même représentation de la réalité ? Attention, la publication The Platonic Representation Hypothesis, Huh et al est à manipuler avec des pincettes. Si elle pose des questions fondamentales et lève des observations passionnantes sur ce qu’apprennent nos chers réseaux de neurones, il convient de séparer les affirmations scientifiques des spéculations plus philosophiques. Mais n’allons pas trop vite, et replaçons le contexte : de quoi parlons-nous ? Cela fait bientôt dix ans que s’est imposé un courant de recherche fondamental dans notre domaine du Deep Learning, celui du Representation Learning. À la base de ces travaux, une observation : quand un réseau de neurones apprend à adresser une tâche (par exemple de classification), il apprend implicitement à représenter la donnée d’entrée sous des formes de plus en plus simples (i.e. ayant une dimensionnalité beaucoup plus faible). On considère aujourd’hui que cet apprentissage est probablement la vraie « magie » du Deep Learning : apprendre à représenter une donnée extrêmement complexe sous une forme simplifiée plus facile à manipuler. C’est notamment ce qu’avaient observé Milokov et al qui avaient généré les premiers embeddings représentant des mots. Ce courant s’est ensuite poursuivi via l’entraînement de Foundation Models comme notre précieux DinoV2, capable de représenter une image par un vecteur très expressif et suffisant pour adresser un grand nombre de tâches spécifiques. Nous avions aussi fait un webinaire sur le phénomène des embeddings cross-modalité, où le même concept exposé sous deux formes (par exemple, image et texte), sera isolé comme un unique vecteur de représentation. Néanmoins, si chaque réseau de neurones apprend une représentation de la donnée en entrée, une question fondamentale est de savoir à quel point deux représentations issues de deux réseaux de neurones différents seront proches. Dit autrement : chaque réseau apprend-il une représentation unique et spécifique pendant son apprentissage, où existe-t-il une « destination » de représentation vers laquelle se dirigeraient chaque réseaux soumis à apprentissage. Pour reprendre la vision des auteurs et leur hypothèse principale : existe-t-il une représentation unique vers laquelle tendraient naturellement les représentations de réseaux de neurones ? Ce travail est une occasion salutaire de répertorier ce que la communauté scientifique a découvert à ce sujet. Plusieurs observations ont ainsi été faîtes au cours des dernières années. Typiquement, via la méthode du model stitching, on sait déjà qu’il est possible, à partir de deux réseaux entraînés sur un même problème, d’extraire n première couches de l’un et p dernières couches de l’autre pour les accoler via une simple transformation linéaire. Cela implique déjà que deux réseaux de ce type apprennent des représentations extrêmement proches (à une transformation linéaire près). Ce type de transfert entre deux réseaux a été poursuivi jusqu’à arriver à des méthodes « zero shot » (sans ré-apprentissage spécifique) et plus particulièrement, entre différentes architectures et même différents problèmes à adresser. Cette polyvalence est déjà intéressante, surtout dans notre domaine où les déficits théoriques ne cessent de limiter notre compréhension. Les auteurs ont donc étudié à quel point deux modèles différents, entraînés sur des problèmes différents, ont des représentations internes proches. Pour ce faire, la logique a été de comparer, entre les deux représentations, les plus proches voisins d’un même élément et d’observer si ces groupes de voisins sont proches ou différents. Sans être absolue, cette approche a le mérite de minimiser les problèmes de métriques qui, face à des vecteurs assez complexes, peuvent vite perdre leur sens. Un premier résultat intéressant permet d’exposer, à travers 78 modèles différents de classification d’images, et donc à travers des architectures très différentes, à quel point ces modèles sont « alignés » dans leurs représentations. À gauche, on observe que plus ces modèles sont performants sur le VTAB (Visual Task Adaptation Benchmark), plus leurs représentations sont proches. À droite, une réduction de dimension (UMAP) projette ces modèles en deux dimensions : Cette idée que l’alignement inter-modèle s’améliore avec la performance est un point très intéressant. Au-delà, les auteurs affirment que ces représentations convergent à travers différentes modalités de la donnée. Nous savions déjà qu’il était possible de « coller » un modèle de vision et un modèle de langage au prix d’une transformation linéaire. Ici, les auteurs observent un alignement plus global entre modèles de vision et modèles de langage, avec un alignement d’autant plus important que le modèle de langage est performant. Les auteurs observent aussi que le CLIP d’OpenAI, entraîné aussi sur le contenu textuel, présente un alignement plus important qui se dégrade dès lors qu’on opère un fine tuning vers ImageNet. Dernière expérience pertinente : les auteurs comparent la corrélation entre alignement d’un modèle de langage avec le modèle de vision […]
- IAGen comme Simulateur « universel », nouvelles architectures et meilleure compréhension
TL;DR ? 4 mots clés UniSim, Kolmogorov-Arnold, modèles de diffusion, GAHB Pourquoi lire cette publi peut vous être utile concrètement ? Soyons honnêtes et avertissons le lecteur : les deux tiers de cet article sont plus techniques que d’habitude. Ceci dit, nous discutons dans cet article d’une nouvelle architecture fondamentale qui pourrait demain révolutionner de nombreuses approches Deep Learning, comme nous allons vers une meilleure compréhension des IAs génératives et, particulièrement, des modèles de diffusion qui sont depuis quelques années les moteurs de ces IAs. Enfin, le simulateur universel annonce un nouveau type d’outil permettant de travailler en robotique ou d’une manière générale en représentation de gestes par l’image qui, s’il présente quelques écueils, révolutionnera le travail quotidien dans ces domaines. Quels process métier seront probablement modifiés sur la base de ces recherches ? UniSim peut révolutionner la robotique et l’apprentissage d’interactions avec des objets, tel que le travail avec des gestes humains capturés en vidéo. Les Kolmogorov-Arnold networks sont déjà un candidat intéressant pour approximer par des fonctions complexes des phénomènes simples. Enfin, une meilleure compréhension des modèles de diffusion aura un impact fort sur tous les outils de génération d’images par IA, au-delà des rituels vaudous supposés donner des prompts efficaces. Si vous n’avez qu’une minute à consacrer à la lecture maintenant : Un Simulateur « universel » d’actions ? Publication saluée comme « outstanding » lors du dernier ICLR 2024, l’article Learning Interactive Real-World Simulators de Yang et al rassemble du très beau monde de Deepmind et Berkeley pour proposer un travail assez impressionnant. La question posée ici est de pousser les modèles dits d’IA générative (ces modèles de diffusion qui depuis trois ans se sont cordialement imposés dans le paysage, entre autres via le célèbre Stable Diffusion) au-delà de la simple génération d’images ou de vidéos. L’idée est d’utiliser ces modèles pour (attention, phrase un peu trop prétentieuse) simuler la réalité en les conditionnant sur des actions. Autrement dit, là où aujourd’hui on peut générer une vidéo « artistique » via un prompt, est-il possible de générer une vidéo basée sur une image initiale (représentant une situation) et sur une série d’actions imaginaires. Une illustration sera à ce stade efficace pour se représenter le challenge : Ci-dessus, pour chaque colonne, la première image constitue un état initial issu de notre bonne vieille réalité, avec un « prompt » au-dessus. Les trois images en dessous montrent ce que le modèle a généré, soit une vidéo représentant ces actions réalisées visuellement. Le projet est donc très ambitieux : disposer d’un modèle capable de prédire l’évolution d’un système réel et de générer les images correspondant à ces prédictions. Et comme d’habitude en Deep Learning, le plus important reste la donnée représentant le problème. Ce n’est donc pas un hasard si cette publication s’ouvre sur la génération d’un dataset gigantesque, lui-même issu de nombreux autres datasets différents. Ces datasets originels viennent majoritairement du monde de la recherche et représentent des problèmes assez semblables : exécutions dans des environnements synthétiques, donnée robotique réelle, activité humaine réelle, et même donnée image/texte issue d’Internet. Rassembler des données aussi différentes n’est évidemment pas une gageure, ne serait-ce que pour définir une modélisation commune finale. Ici, la vidéo est conservée comme une série d’images, et les textes de description sont transformés en embeddings via un modèle classique T5, auxquels sont concaténés les actions robotiques si elles sont présentes. Cet espace sera l’espace d’actions du modèle, les inputs à partir desquels il génèrera la prédiction. Trois précisions intéressantes : À ce stade, habemum dataset, nous pouvons parler du modèle. Ce dernier prendra en entrée une première image (l’état initial) et la description de l’action, afin de générer les observations futures dépendant de cette action. Celle-ci peut être un déplacement de la caméra codifié, des actions d’un bras robot ou, plus simplement, du langage naturel. Le modèle (schéma ci-dessous) est sans surprise un modèle de diffusion qui apprend à générer via une opération de débruitage (nous en reparlons juste après), et s’appelle d’une manière auto-régressive, une image après l’autre. Avant de se projeter dans l’utilisation d’un tel modèle, un reality-check est indispensable : les auteurs ont entraîné leur modèle sur 512 TPU v3 pendant 20 jours. Autrement dit, via une rapide approximation, un petit budget de 500.000€ est nécessaire (pour un seul training) pour reproduire ce résultat… Ce constat passé, regardons un peu les résultats de ce modèle ci-dessous : Retenez ces exemples, ils nous serviront de base pour critiquer ce travail dans la suite de cet article. L’application fondamentale présentement est d’utiliser ce « simulateur universel » pour entraîner des agents robotiques sans besoin d’interactions avec la réalité (souvent impossibles en entraînement), ou d’un simulateur spécialisé. Cette application est fascinante puisqu’elle rejoint le domaine du Deep Reinforcement Learning qui n’est pas sans écueil, notamment sur la problématique de transférer un agent d’un environnement simulé à un environnement réel. Les difficultés viennent souvent des limites visuelles de l’environnement simulé, comme celles liées à la modélisation des interactions complexes de manière satisfaisante. Ici, les auteurs présentent un agent entraîné uniquement face à UniSim, avec un algorithme plus que classique (Reinforce) et d’observer sa généralisation aux cas réels, comme le montre le schéma ci-dessous : Mais alors, révolution ? Peut-être oui, peut-être non 😊 Notre mission principale chez Datalchemy est de suivre la recherche et de filtrer celle-ci sans pitié pour permettre à nos clients d’utiliser des approches récentes et efficaces. Et si nous avons beaucoup travaillé en robotique et en Deep Reinforcement Learning (voir notre précédent article consacré à l’Imitation Learning), nous n’imaginons pas trop, à date, utiliser un tel outil s’il était disponible. Explications : Ici, parler de simulateur est en réalité un peu exagéré. Un simulateur, théoriquement, reproduit un certain nombre de règles physiques (gravité, contacts entre les objets, etc.) pour déterminer les conséquences d’une action. Unisim, lui, apprend sur un gigantesque dataset à prédire des images futures à partir d’un historique d’images et une description d’actions. Peut-être a-t-il dans son espace interne modélisé des règles physiques qu’il aurait appris lors de son entraînement, mais même si c’est le cas, ces règles physiques ne seront […]
- L’art de dompter son LLM
Télécharger la version magazine en cliquant ici Nouvelles limites, nouvelles approches pour une meilleure compréhension des LLM TL;DR ? 6 mots-clés LLM, sécurité, robustesse, limites, hallucinations, architectures Pourquoi lire cette publi peut vous être utile concrètement ? Les LLM s’imposent partout, avec des promesses incroyables de nouveaux outils performants et, tenez-vous bien, « intelligents ». La recherche avance plus lentement que ces promesses, et nous donne régulièrement une vision plus claire et plus précise des choses. Ici, nous exposons des limites fondamentales de ces modèles, creusons les risques potentiels en sécurité, et nous intéressons enfin aux approches pouvant donner des résultats acceptables. Quel que soit l’outil que l’on veut manier, connaître ses limites permettra toujours de mieux travailler. Quels process métier seront probablement modifiés sur la base de ces recherches ? L’utilisation de LLM pour générer des réponses à partir d’informations extraites va devoir continuer d’évoluer pour être plus robuste aux hallucinations ou informations manquantes. De même, la sécurisation totale de ces modèles s’impose aujourd’hui comme une évidence. Les cas d’usage que nous avons développé pour des clients qui touchent au sujet de cet écho de la recherche ? Nous déployons régulièrement ces outils que nous implémentons en solutions concrètes : recherche dans une base documentaire, qualification de la toxicité d’un message, assistance à une activité professionnelle. Si vous n’avez qu’une minute à consacrer à la lecture maintenant : Nouvelles limites des LLMs, nouvelles méthodes d’architecture, fun will never end… Un LLM sait-il réellement distinguer une instruction d’une donnée à traiter ? Si on contemple le paysage des Large Language Models via les nombreuses annonces de nouveaux outils ou de start-ups, on pourrait facilement croire que ces outils savent gérer le texte à traiter d’une manière assez fine, suffisamment au moins pour effectuer une telle distinction. Et pourtant, atterrissons sans grâce pour reprendre contact avec la réalité, une telle affirmation serait particulièrement dangereuse. C’est ce que démontrent Zverev et al dans « Can LLMs separate instructions from data? and what do we even mean by that? ». La question est volontairement choquante, mais appuie au bon endroit pour nous réveiller. Ces modèles étant très récents, et notre domaine souffrant d’un déficit théorique considérable, cette question n’a même pas été correctement posée par les chercheurs. Peu étonnant donc de voir cette publication au workshop de l’ICLR 2024 dédié à la confiance et à la sécurité que l’on peut apporter à l’intelligence artificielle… Le problème repris par les chercheurs est celui du contournement de prompt. Ce sujet est aujourd’hui bien connu : on développe un service via un LLM qui prendra en entrée le texte issu d’un utilisateur tiers. L’appel au LLM utilisera un prompt issu d’itérations plus ou moins glorieuses pour cadrer le résultat. Mais notre utilisateur peut s’amuser à insérer, dans le texte soumis, de nouvelles instructions détournant le LLM de son usage initial (le vilain), créant là une faille de sécurité peu acceptable. C’est ce cas de figure qui est ici étudié par les auteurs. En effet, dans cette utilisation, le prompt initial est considéré comme l’instruction du LLM, et le contenu de l’utilisateur tiers est une donnée d’entrée qui ne devrait pas être exécutée. Les chercheurs questionnent donc ici, fondamentalement, la capacité d’un tel modèle à séparer l’instruction de la donnée d’entrée. Et les réponses sont, sans grande surprise, assez désagréables. Pour adresser ce sujet, les auteurs définissent déjà une métrique permettant d’identifier à quel point un modèle est robuste quand un élément textuel est transféré de la zone d’instruction à la zone d’exécution. Ci-dessous, g est le modèle, s est l’instruction initiale, d la donnée d’exécution initiale, et x est un perturbateur : Ce score reprend notre bonne vieille divergence de Kullback–Leibler. Plus ce score sera élevé, moins le modèle fera une bonne division. Notons que cette métrique est assez « faible », en ceci qu’elle étudie juste la variation de la réponse quand on déplace le distracteur, mais ne s’intéresse pas à la qualité de la réponse. Autre contribution des auteurs, la création d’un premier dataset permettant d’étudier ce type de perturbation et donc la capacité d’un modèle à séparer entre instructions et données à traiter. Le dataset SEP (should it be executed or processed) regroupe donc 9160 éléments, chaque élément étant constitué d’une instruction originelle, une donnée d’exécution, une instruction perturbatrice (qui sera un injectée soit d’un côté soit de l’autre), et la réponse à cette instruction perturbatrice. Un exemple d’élément est présenté ci-dessous : Et donc, roulements de tambours mouillés, quels sont les résultats ? Plus le score de séparation est bas, moins le modèle fait la différence entre les deux concepts.. Et là, réelle surprise : plus un modèle est « gros », moins il va être capable de faire une distinction acceptable entre instruction et donnée, avec notamment GPT-4 qui est le plus mauvais modèle. En effet, ces modèles plus gros sont globalement meilleurs, mais beaucoup plus complexes à maîtriser, et donc beaucoup plus sensibles aux injections de prompt… Ce travail est très important car il montre bien ce décalage entre un monde business qui s’envole dans les cieux pendant que les chercheurs continuent de poser des questions très fondamentales, questions auxquelles les réponses ne sont pas très rassurantes. Espérons que ce type de travail va engendrer d’autres approches d’analyses fondamentales pour enfin mieux comprendre ces outils et leurs limites. Sans cela, nous resterons condamnés à errer dans ces limbes où nous fantasmons les performances de ces modèles pour ensuite être totalement déçus… Les LLMs entraînés sur une donnée sensible sont des bombes à retardement Nous le savions déjà, via les approches dîtes de « Model inversion » : il est possible (voir, trivial) d’extraire, depuis un réseau de neurones entraîné, une partie de sa donnée d’entraînement. Dès lors qu’un modèle est entraîné sur une donnée interne à une entreprise, voire sur une donnée protégée (donnée personnelle, donnée de santé), il faut considérer le modèle comme étant lui-même une donnée à protéger. Cet état des choses était déjà assez déprimant comme cela, Deepmind nous propose dans le cadre du récent ICLR 2024 un nouveau travail dans lequel […]
- Dansons le Mamba, entre révolution et psychodrame de l’IA
Télécharger la version magazine en cliquant ici Cinq mots clé de ces échos Mamba. Sequence. Efficacité. DinoV2. LLM Pourquoi lire cette publi peut vous être utile concrètement ? Mamba annonce une nouvelle famille d’architecture efficace et polyvalente qui s’impose de plus en plus dans le paysage de l’intelligence artificielle. En bonus : une meilleure compréhension des embeddings d’images issus de DinoV2, et un nouveau moyen de contourner les Large Language Models. Quels process métier seront probablement modifiés sur la base de ces recherches ? Concernant Mamba, si l’architecture concrétise sa valeur, on peut s’attendre à voir un impact dans de nombreux domaines comme le traitement de l’image ou du langage naturel. Concernant l’évolution de DinoV2, les approches non supervisées d’analyse d’image gagnent en qualité. Enfin, à propos des LLMs, un nouveau risque fort est identifié, à implémenter en robustesse pour déployer des outils. Les cas d’usage que nous avons développés pour des clients qui touchent au sujet de cet écho de la recherche ? Analyses d’images non supervisées pour détection d’éléments ou correspondances. Travaux de robustesse pour encadrer un outil de type Large Language Model. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points ou en 7 phrases Révolution et psychodrame de l’IA, parlons Mamba Une nouvelle architecture pour le Deep Learning ? Mamba ! Depuis quelques mois, ce terme éveille l’attention du moindre data-scientist ou chercheur Deep Learning un peu au fait de l’actualité. Derrière ce terme se cache une nouvelle architecture de réseaux de neurones très intéressante et polyvalente, mais aussi un de ces petits psychodrames caractéristique de la recherche académique en IA. D’ordinaire, nous (Datalchemy) n’aimons pas trop nous jeter sur de nouveaux outils radicalement différents sortant tout chauds du four… En effet, plus un travail est récent, et plus les risques d’aveuglement sont forts. Les dinosaures du domaine se souviennent par exemple des Capsule Networks, proposés par Lord Hinton lui-même, sur lesquels la communauté s’était jetée avant de les abandonner six mois plus tard. Ici, comme nous allons le voir, l’architecture proposée présente des arguments très forts qui peuvent difficilement être ignorés. Elle a été, qui plus est, reprise dans de nombreux autres travaux avec succès. Mais nous avons aussi l’occasion d’observer sur un cas très concret les limites du système de conférences en Deep Learning aujourd’hui, avec le rejet de cette publication par l’ICLR 2024. Ce rejet a causé un certain vacarme dans la communauté, et mérite d’être regardé de plus près car il témoigne parfaitement de certaines limites fortes de la recherche actuelle, et nous impose toujours plus de précautions. Avant de rentrer spécifiquement dans le Mamba, un peu de contexte s’impose. Ce travail s’inscrit dans la lignée d’autres publications à propos des Structured Space Models (SSM). Les SSMs présentent un nouveau mécanisme fondamental pour modéliser un problème continu (au sens mathématique du terme), en intégrant un système de discrétisation pour l’appliquer en Deep Learning. On peut les voir comme un prolongement d’algorithmes comme les filtres de Kalman. Ici, ce concept est utilisé comme une nouvelle forme de bloc Deep Learning pouvant directement être intégré dans un réseau de neurones. Cette approche avait déjà été mise à l’honneur par How to Train Your HIPPO: State Space Models with Generalized Basis Projections de Gu et al où ce type de modèle permettait d’adresser des sujets de prédiction sur le très long terme (long range arena) en dépassant par exemple les célèbres Transformer et le petit millier d’optimisations du mécanisme d’attention tentées par différents chercheurs ces dernières années. Cette approche resta relativement obscure jusqu’à l’arrivée de notre cher Mamba. Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu et al. Publiée en décembre 2023, cette approche a fait beaucoup de bruit. En effet, les auteurs ici adressent deux points très sensibles dans le monde du Deep Learning : Le Mamba se positionne par rapport aux travaux précédents en Structured Space Models face à une séquence d’informations (série, texte…) : ces travaux apprenaient des paramètres qui étaient invariants à travers le moment dans la séquence, à la manière d’un ancien réseau récurrents de type LSTM où les matrices appliquées au sein des opérateurs étaient fixés une fois l’apprentissage terminé. Ici, les auteurs proposent un mécanisme fondamental de sélection qui va permettre, alors que le modèle prend en entrée une séquence, de pouvoir « décider » si l’on met à jour ou non les variables internes du réseau. Le modèle va donc pouvoir apprendre à sélectionner, alors qu’il reçoit toute la séquence d’informations en entrée, les informations qu’il utilisera ou non. Cette modification a une importance considérable, car elle permet (théoriquement) de devenir robuste à des séquences extrêmement longues. Un modèle correctement entraîné pourra ignorer une grande quantité d’informations inutiles, ce qui était impossible pour une architecture classique comme le Transformer. Point d’intérêt plus théorique, les modèles récurrents (RNN/GRU/LSTM) peuvent alors être considérés comme un cas particulier des SSM, qui deviennent une approche plus générale. Ce simple mécanisme aurait suffi à proposer un travail intéressant, mais les auteurs ne se sont pas arrêtés là. Ils ont notamment développé un noyau CUDA (l’assembleur de nos trop précieux GPUs) optimisé pour accélérer l’entraînement de modèles Mamba. Ce point n’est pas à sous-estimer, dans un domaine où la puissance de calcul disponible reste un frein constant à tout projet. Via ce type de développement, les auteurs démocratisent l’accès à leur approche et la transforment en une base directement exploitable. S’il est complexe de concurrencer aujourd’hui toutes les optimisations réalisées pour le Transformer, ce simple travail (nous le verrons) a ensuite permis d’appliquer Mamba à l’image ou à la vidéo. Nous n’allons qu’effleurer ici la technique fondamentale, mais vous retrouverez ci-dessous, dans l’ordre : Les habitués du domaine ne pourront pas s’empêcher de détecter un nombre important de similarités avec les réseaux récurrents 😊… De l’importance fondamentale de ce mécanisme de sélection Ce point est probablement le plus fondamental dans l’ensemble de l’approche Mamba. Quand bien même il est toujours risqué d’établir des parallèles entre le fonctionnement atomique d’un opérateur Deep Learning […]
- Echos de la recherche #12
Apprentissage par imitation : l’IA en robotique devient crédible et accessible Télécharger la version magazine en cliquant ici TL;DR ? Cinq mots-clésy #Robotique, #DeepReinforcementLearning, #ImitationLearning, #ALOHA, #DiffusionPolicies Pourquoi lire cette publi peut vous être utile concrètement ? Si vous travaillez en contrôle robotique, vous n’avez pas le droit d’ignorer la révolution en cours sur l’imitation. Et au-delà du contrôle robotique, tout problème d’optimisation modélisant un agent devant prendre des décisions peut s’inspirer de ces approches. Ce que vous pouvez en dire à un collègue ou à votre boss ? Datalchemy, en partenariat avec Kickmaker, fait le tour des toutes nouvelles stratégies d’entraînement en imitation learning, et même si cela semble encore un peu magique, cela fonctionne avec une robustesse inattendue, et surtout rend enfin ces entraînements abordables, et presque simples à mettre en oeuvre. Quels process métier seront probablement modifiés sur la base de ces recherches ? C’est quasiment toute la chaîne qui est impactée par ce changement de paradigme. Mais plus spécifiquement, la partie simulation pour recréer les conditions d’entraînement pourrait se voir grandement réduite, puisqu’on se contente désormais de l’enregistrement des actions de l’opérateur humain qui vont servir de dataset d’entraînement. Quelle phrase mettre dans un mail pour envoyer cet écho de la recherche à un.e ami.e et lui donner envie de le le lire ? C’est fou ! Datalchemy et Kickmaker s’appuient sur les résultats du MIT et Toyota pour montrer qu’en un temps très restreint et un budget dérisoire, on peut mettre en place de l’imitation learning pour entraîner un robot. Les cas d’usage que nous avons développé pour des clients qui touchent au sujet de cet écho de la recherche ? Entraînement d’un bras robot pour saisir une pièce et la placer sur une cible, quelle que soit sa position dans un espace donné. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 6 points ou en 6 phrases) IA & robotique ? Un peu de changement ! Datalchemy a l’honneur d’accompagner l’entreprise Kickmaker depuis bientôt deux ans sur des sujets d’intelligence artificielle notamment appliqués à la robotique. Et nous avons donc été aux premières loges pour observer l’évolution impressionnante de ce domaine. Si les applications IA à la robotique existent depuis les travaux de Mnih et al et l’invocation du Deep Reinforcement Learning, force est de reconnaître que ces travaux sont longtemps restés inaccessibles, ceci pour deux grandes raisons : Figure depuis Learning Dexterous In-Hand Manipulation, Andrychowicz et al Le domaine est donc resté l’apanage des « grands » acteurs du Deep Learning, comme OpenAI ou Google. Google qui par ailleurs a marqué un grand coup ces dernières années avec les modèles RT-1, puis RT-2. En effet, Google a présenté au monde un système robotique robuste qui exploite les derniers avancements des Large Language Models (encore eux…) et des cross embeddings (permettant de travailler images et textes dans un espace mathématique commun) pour contrôler un bras robotique sur une grande quantité de tâches. Si cet entraînement a dû être particulièrement lourd, la promesse laisse rêveur. En effet, contrôler un bras robotique suppose une maîtrise extrêmement fine de chaque position dans l’espace, et pour pouvoir par exemple saisir un objet, il devient nécessaire de localiser exactement cet objet. Une fois cette localisation (peu triviale) réalisée, le geste robotique doit lui aussi être calculé exactement en respectant ses contraintes mécaniques…Ici, l’idée d’avoir juste un texte de définition pour exécuter une action semble une disruption très forte de ce domaine, avec une variance impressionnante, le texte pouvant servir autant à décrire le geste que l’objet cible (ci-dessous, entre autres exemples : « pick up the bag about to fall off ») Mais alors, Google a-t-il révolutionné le domaine de la robotique ? Les acteurs du domaine se sont-ils saisis de ces travaux pour les appliquer à leurs propres cas de figure et révolutionner la branche industrielle ? Hélas, non. En effet, (et Google nous avait habitués à mieux), si la publication est libre, le code nécessaire pour entraîner ou utiliser ces modèles est, à date, introuvable. Et considérant que ces entraînements supposent autant l’entraînement du LLM que celui de l’acteur, leurs coûts cumulés empêchent tout travail de reproduction. Signalons néanmoins un autre point potentiellement complexe avec cette approche : le modèle RT2 est un modèle end to end : nous mettons en entrée un texte, et observons en sortie des actions contrôlant le robot. Hors, toute personne ayant travaillé un petit peu avec les Large Language Models sait que le contrôle d’un modèle par un prompt est un art obscur, illogique et anxiogène, dans lequel des erreurs peuvent facilement apparaître sans prévenir. Il n’est pas impossible que RT2 souffre du même problème… À ce stade, nous pourrions conclure tristement que l’intelligence artificielle de pointe en IA est réservée aux très grands acteurs qui, tôt ou tard, commercialiseront leurs travaux. Mais ces six derniers mois, le paysage scientifique a radicalement changé, et est devenu d’un coup beaucoup plus accessible… Apprendre par des imitations La surprise est venu d’un autre courant de recherche du DRL, qui jusqu’ici était resté plus une curiosité scientifique qu’une véritable solution : l’Imitation Learning. Dans une approche « classique », nous allons entraîner un modèle IA à trouver les bonnes actions à réaliser afin d’obtenir la plus grande récompense possible. Le modèle sera confronté à un simulateur reproduisant (plus ou moins bien) la réalité cible, effectuera une quantité astronomique d’erreurs, pour finalement (avec un peu de chance, soyons honnêtes) devenir suffisamment « bon » pour réussir sa tâche. Dans les approches « Imitation Learning », nous n’allons pas utiliser un simulateur directement. Un expert humain va générer un certain nombre de démonstrations, chacune correspondant à une suite d’actions réussies. Une fois ces démonstrations accumulées, un modèle va être entraîné à généraliser à partir de ces démonstrations, pour pouvoir gérer le plus grand nombre de cas de figure. Considérant que nous sommes en général sur quelques centaines de démonstrations, l’enjeu de généralisation est ici particulièrement ardu, car le modèle doit apprendre à gérer des cas qu’il n’a jamais vu en démonstration, sans avoir accès aux contraintes physiques du monde dans […]