Welcome – Datalchemy

GraphRAG is the new black
Version pdf téléchargeable ici TL;DR ? 5 mots-clés de nos Echos RAG, GraphRAG, documents, connaissance, graphes Pourquoi lire cette publi peut vous être utile concrètement ? Vous vous apprêtez à tester le RAG pour « poser des questions à une base documentaire ». Ou plutôt : vous venez de tester ces solutions et êtes un peu déçu ? Voici l’occasion de revenir sur les défauts fondamentaux de ces approches et d’observer ce que la recherche académique récente peut proposer. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : Le GraphRAG va-t-il sauver le RAG ? GraphRAG ? Structurer et exploiter une base documentaire avec de l’IA ? « Poser des questions à une base documentaire », pour reprendre entre guillemets polis une promesse souvent affichées dans le monde onirique et marketing de Linkedin ? Le RAG (Retrieval Augmented Generation) est dans l’air du temps depuis plusieurs années, mais force est de reconnaître que cette approche reste critiquable. Depuis la publication originale de Meta AI, les tentatives d’implémentation dans l’industrie ont connu plus d’échecs que de succès, là où le monde académique continuait de proposer de nouvelles solutions plus ou moins originales… Nous avons déjà maintes fois signalé les problèmes de cette approche, mais considérant le sujet de cet article, il n’est pas superflu de reprendre : Pertinent pour sa promesse de valeur (tout le monde a une base documentaire aussi précieuse qu’ignorée), mais défaillant dans ses résultats, le RAG a donc connu de très nombreuses propositions d’améliorations techniques. Et nous vous proposons, aujourd’hui, de nous intéresser à un courant qui fait de plus en plus de bruit : le GraphRAG. Combiner ces objets mathématiques agréables que sont les graphes avec les approches du RAG débloque-t-il enfin la situation ? Petit point de recherche depuis trois publications fondamentales sorties ces deux dernières années. From Local to Global: A GraphRAG Approach to Query-Focused Summarization, Edge et al, Microsoft Cette publication scientifique, de Microsoft Research, est considérée comme fondatrice du mouvement du GraphRAG. L’argument central donné par les auteurs porte sur les cas de figure où on veut poser une question nécessitant une compréhension « complète » du dataset. Par exemple, si nous imaginons un corpus documentaire de publications sur dix ans, nous pourrions vouloir extraire les principaux thèmes sur l’ensemble de ces publications. Et dans ces cas-là, les approches RAG classiques sont incapables de travailler, dans la mesure où elles commencent par extraire un sous-ensemble du dataset documentaire qui, de fait, ne pourra contenir toute l’information nécessaire pour répondre. D’une manière plus générale, le GraphRAG s’inscrit ici dans une lignée de travaux qui cherchent à exploiter une structure de graphe pour appréhender un ensemble d’informations. Faut-il le rappeler, le graphe est un objet mathématique très simple et très riche pour modéliser des éléments et les liens qui existent entre ces éléments. On peut supposer que là où le RAG est fortement limité, ayant accès à une base documentaire via une base de vecteurs brute, la découverte et l’exploitation de liens entre les informations modélisées en graphe pourrait enrichir fortement l’utilisation de cette connaissance. Ici, l’approche se distingue par l’idée qu’un graphe est une entité assez facile à séparer en sous-graphes ou à agréger. Cette approche va être particulièrement importante pour disposer d’une vision hiérarchique sur l’information : à haut niveau, une vision globale et sommaire, mais la capacité de descendre à bas niveau pour observer les relations fines entre chaque entité. Un point d’attention important avant d’aborder la méthode : ces domaines de recherche sont tellement récents qu’il existe très peu de benchmarks valables pour mesurer leur qualité. Ce point est déjà une alerte sur le suivi de ces travaux où un score affiché peut être totalement décorrélé des résultats réels d’un outil. Mais c’est aussi une raison pour laquelle les auteurs ont généré leur propre benchmark en générant des cas de figure avec des LLMs. Cela encourage une certaine prudence sur la généralisation de cette méthode. La méthode est représentée dans le schéma ci-dessous, schéma que nous allons ensuite détailler : Concernant les résultats que nous allons présenter ensuite, rappelons que le dataset de test est généré par appel à un LLM via l’usage de « Personas« . Mais plus dangereux, les résultats numériques viennent aussi d’un appel à un LLM qui comparera différentes réponses pour évaluer un score. Ces critères portent sur la compréhension (combien de détails sont donnés en réponse et ces détails couvrent-ils l’étendue de la question), la diversité (richesse de la réponse) et l’efficacité. Gardons un peu de recul face aux résultats qui, s’ils sont intéressants, restent dangereux à évaluer. Le schéma ci-dessous montre, pour chaque couple d’approches, le nombre de fois qu’une approche a eu un meilleur score que la deuxième. Par exemple, ci-dessous, en diversité (Diversity), l’approche « TS » a un meilleur score que l’approche « SS » dans 82% des cas. Les approches ici sont C0 à C3 : différentes déclinaisons du GraphRag où on utilise uniquement un niveau hiérarchique du graphe sélectionné, TS une approche simplifiée et SS l’approche RAG « classique » : Enfin, à titre d’illustration, vous trouverez ci-dessous une question, la réponse GraphRAG, la réponse RAG classique, ainsi que la « décision » du LLM : Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation Le GraphRAG de Microsoft a lancé tout un nouveau domaine de recherche, avec une promesse savoureuse pour les galériens du RAG : découvrir et exploiter des relations entre les informations découvertes pour accompagner la réponse. Plus d’une centaine de travaux sont sortis à la suite pour proposer adaptations et évolutions. Nous vous proposons maintenant de nous concentrer sur une spécialisation de l’approche particulièrement intéressante, ce pour deux raisons : Un autre élément important est ici d’utiliser des connaissances externes déjà disponibles, conjointement à la base documentaire cible. Le monde médical regorge de définitions exactes et précises, de taxonomies et autres pouvant accompagner l’approche RAG. Enfin, les auteurs soulignent que l’approche GraphRAG, notamment la génération des différentes communautés hiérarchiques dans le graphe, est particulièrement coûteuse en temps de calcul. Mais […]
Causalité et IA
Entre fantasmes de raisonnement et réalité scientifique, retour sur le workshop Neurips2024 – CALM dédié aux derniers états de l’art de ce domaine Version pdf téléchargeable ici TL;DR ? 5 mots-clés de nos Echos Causalité, Concept, LLM, Graphe, Extraction Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : L’IA peut-elle rechercher ou exploiter des causalités ? Fondamentaux et Neurips 2024 Causalité et IA : introduction Voilà deux termes que l’on voudrait rapprocher l’un de l’autre absolument. La causalité est un mécanisme logique du raisonnement, ou une observation sera la conséquence d’une action ou d’une autre observation. Découvrir et interagir avec le monde suppose théoriquement de comprendre ces mécanismes : une détection de tumeur en imagerie médicale devrait s’appuyer sur l’anatomie observée de la personne, la manipulation d’un objet par un bras robot devrait appréhender la notion de gravité, et la réponse d’un Large Language Model devrait pouvoir s’appuyer sur une suite de raisonnements logiques… Et pourtant, force est de reconnaître qu’aujourd’hui encore, nos (trop) chers modèles IA sont fondamentalement des modèles statistiques, certes impressionnants, mais identifiant des corrélations plus que des causalités. Mais un véritable courant de recherche existe et avance sur l’intégration de cette notion de causalité dans nos modèles, et avant de présenter les derniers résultats de pointe, il convient d’introduire un peu le sujet. Deux travaux scientifiques sont à consulter pour l’appréhender. Le premier, «Anchor regression: Heterogeneous data meet causality» de Rothenhausler et al, est considéré comme une base incontournable. L’auteur plaide pour remplacer l’inférence statistique (si j’observe dans une pièce que chaque fois qu’une fenêtre est ouverte, la température est plus basse, je peux considérer qu’il y a corrélation entre ces deux informations) par une inférence causale (si j’ouvre la fenêtre, alors, la température va diminuer). L’enjeu est donc, face à un ensemble d’observations, de déterminer les facteurs sources qui impliqueront d’autres observations et de qualifier les liens de causalité entre ces éléments. On va le voir, un enjeu est surtout d’obtenir des approches beaucoup plus robustes que la statistique classique. Mais la publication fondatrice de ce mouvement en intelligence artificielle est «Toward causal representation learning» avec en premier auteur Schölkopf et caché derrière notre cher Yoshua Bengio. Cette publication de 2021 peut être vue comme un manifeste pour chercher de nouveaux modèles IA qui puissent justement, par apprentissage, découvrir la structure logique (les liens de causalité) d’un dataset représentant un phénomène. L’enjeu va bien au-delà d’une simple satisfaction intellectuelle, car de tels modèles auraient des qualités appréciables : Se glisse ici un léger problème : si nous voulons découvrir les liens de causalité, nous aurons besoin de pouvoir connaître l’impact d’interventions. Une intervention vise à modifier une seule des variables fondamentales pour observer les conséquences de cette modification. Nous reparlerons de ce point plus tard, mais le schéma ci-dessous permet d’observer la différence entre un modèle IA classique et un modèle causal : A gauche : un modèle classique. Chaque « rond » est une variable d’intérêt, et le modèle projette l’ensemble de ces variables dans une distribution cible A droite : nous pouvons modéliser l’impact d’une intervention sur chaque variable d’intérêt (les petits marteaux mignons. Si, ils sont mignons) sur la distribution cible, et donc estimer comment chacune modifie le résultat. Un modèle causal présente de nombreux intérêts face à un modèle classique. Rappelons déjà qu’un modèle classique n’est valable que si on l’utilise sur une donnée appartenant à la même distribution que le dataset d’entraînement, ce qui n’est plus le cas ici. Le terrible Distribution Drift qui fait trembler les ingénieurs IA devient ici appréhendable : ce n’est pas parce que nos images médicales viennent d’un autre praticien ou d’un autre hôpital que notre modèle s’écroulera. Et surtout, nous pouvons espérer répondre à des questions contrefactuelles, par exemple « Ce patient aurait-il eu un accident cardiaque s’il avait fait plus d’exercice physique ». Ce dernier point est très important, en ceci qu’un modèle causal pourrait jouer un rôle de modèle prédictif beaucoup plus efficace, rejoignant la recherche en World Models par exemple. Le schéma ci-dessous représente le problème fondamental auquel nous voulons nous atteler : un bras robot manipule des objets et n’a accès qu’aux pixels de l’image d’une caméra, sans connaître le graphe causal modélisant les interactions entre les objets. S’il est peu probable que nous redécouvrions l’intégralité des relations logiques entre les éléments, un système causal pourrait au moins exposer des variables claires en séparant par exemple, dans ses représentations, les informations de position et d’apparence de chaque objet. Ci-dessous, on image une intervention modifiant la position d’un des appendices du robot. Un modèle classique n’y verrait qu’une modification de pixels avec comme objectif très lourd d’identifier une corrélation. Un modèle causal serait en capacité d’exposer l’information importante ayant changé. Prenons un peu de recul : nous sommes en train de parler de raisonnement d’un modèle IA, finalement. Et nous allons voir que les dernières sorties d’OpenAI ou DeepSeek ne peuvent prétendre réellement à une forme de raisonnement de par leur nature de modèles statistiques. Faut-il alors se précipiter sur ces modèles ? Pas encore. A l’époque, cette publication ne proposait pas de solution au problème, et ne faisait « que » lancer un courant de recherche. Modéliser l’impact d’une intervention est extrêmement difficile, et les outils du Deep Learning relèvent plus d’un « bourrinage » pour entraîner les plus gros modèles possibles que d’une approche fine de contrôle. Cela n’a pas empêché de nombreux chercheurs d’avancer sur ce sujet. Et nous vous proposons donc de faire une revue d’un workshop récent du NeuRIPS 2024, dédié à la causalité appliquée au Large Models. Ce workshop nous donne une vision passionnante de l’état actuel de la recherche en causalité et des opportunités qui y sont reliées. Chercher des concepts plutôt que des causes Parmi les publications à l’honneur de ce workshop se trouve un travail très intéressant issu notamment des laboratoires de Meta. « From Causal to Concept-Based Representation Learning » de Rajendran et al, reprend les objectifs fondamentaux de l’apprentissage causal et nous offre déjà une vue accélérée des nombreux travaux qui se […]
Freeform pixels, robots qui rangent des chemises, transformation d’une image en environnement physique et déception en interprétabilité
Pour télécharger la version pdf, c’est ici. TL;DR ? 5 mots-clés de nos Echos EdgeAI, Imitation Learning, modélisation physique, interprétabilité, feature visualization Quels process métier seront probablement modifiés sur la base de ces recherches ? Le sujet du edge AI est encore en friche avec une vraie difficulté à déployer des réseaux de neurones correctement. L’arrivée d’une caméra auto-suffisante et préservant l’anonymat est un événement à ne pas sous-estimer, surtout que l’approche du freeform Pixel est particulièrement intelligente. Autre point, l’Imitation Learning avait déjà présagé une révolution de la robotique en rendant l’entraînement de modèles beaucoup plus simple. Deepmind étend ces approches avec des résultats sidérants sur le plan robotique, en industrialisant la notion de démonstrations. Autre point, plus triste : le principal outil que nous avions pour « interpréter » un réseau de neurones agissant sur des images a été violemment annulé par Deepmind. Nous n’oublierons jamais cet outil qui restera éternellement dans nos cœurs. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : Freeform pixels et caméras auto-suffisantes respectant l’anonymat. Soyons honnêtes. L’évocation de « pixels » appris par intelligence artificielle, qui permettraient de créer de nouveaux types de caméras auto-suffisantes sur le plan énergétique, invoquera avant tout le doute le plus profond. Et pourtant, cette publication de Columbia, ayant reçu le « best paper award » de la conférence ECCV2024, est un travail sérieux et passionnant. Parce que l’intelligence artificielle va (Dieu merci) bien au-delà des Large Language Models, ce travail mérite d’être étudié avec attention. En effet, nous souffrons beaucoup de ces arbres qui cachent la forêt : les travaux en Deep Learning popularisés sont souvent des travaux très lourds, entraînant des modèles gigantesques (on dit « Frontier Models » en soirée en ce moment) pour des résultats toujours plus haut (selon la métrique académique et critiquable recommandée). Ici, les auteurs vont à l’opposé de ce mouvement, en recherchant une approche minimaliste pour s’attaquer à des problèmes de vision assez classiques : décompte du nombre de personnes dans une pièce, vitesse de traversée d’un véhicule, etc. La révolution porte ici sur l’extrême simplicité de l’approche, et nous allons voir comment de tels problèmes peuvent être résolus avec quatre petits pixels. (Cette dernière affirmation joue un peu sur les mots, mais c’est précisément le sujet ici). CI-dessous, un exemple du système pour le décompte de personnes, avec un capteur de 24 pixels : Attention : ce travail est passionnant mais donne très peu d’éléments de reproduction, un minimum de méfiance reste donc de rigueur…Mais rentrons dans le sujet, et qu’est-ce donc qu’un « freeform pixel » ? L’idée des auteurs est de modéliser une nouvelle forme de capteur qui, pour modéliser la valeur d’un pixel (donc une simple valeur d’intensité), ne va pas percevoir la lumière passant par un point minime (pinhole), mais qui au contraire va recevoir toute l’information lumineuse de la scène. Détail d’importance : cette information lumineuse va passer par un masque en deux dimensions qui va atténuer, voir supprimer, la lumière reçue à certains endroits. Notons que ce masque est, ci-dessous, un masque binaire, mais qu’il peut dans l’absolu prendre toute valeur entre 0 et 1. Nous aurons donc un système basé sur un ensemble de ces pixels. Chacun aura un masque qui sera soumis à apprentissage face à un flux vidéo utilisé comme ensemble d’entraînement. La valeur de chaque pixel sera ensuite utilisée pour alimenter un réseau de neurones spécifique (ci-dessous : inference network) qui, lui, renverra la valeur supervisée souhaitée. Notons qu’un argument important apparaît en anonymisation : un tel système, exploitant quelques dizaines de pixels, anonymisera de fait l’image en entrée, ne pouvant conserver assez d’information pour pouvoir reconstituer un visage ou une personne à l’image. Tout du moins est-ce l’affirmation des auteurs, crédible mais à confirmer définitivement. Mais, mais, mais… Est-ce que ça marche ? Les chercheurs ont dans un premier temps travaillé sur un cas de test simpliste, mais ont ensuite poussé leurs travaux jusqu’à créer un prototype de la « caméra » nécessaire pour différents problèmes. Pour créer ce prototype, on retrouve un ensemble de pixels avec, pour chacun, un masque imprimé résultant de l’entraînement du modèle. Une heure de vidéo est utilisée pour entraîner le modèle. Chacun de ces pixels transmet sa valeur via une amplification vers un microcontrôleur qui interagit en bluetooth avec un périphérique externe. Ce système est par ailleurs recouvert de panneaux solaires, lui permettant d’être auto-alimenté même en environnement intérieur. Notons qu’on peut changer l’application de la caméra en imprimant de nouveaux masques pour chaque pixel. Et nous pouvons observer ci-dessous deux cas d’application intéressants. Le premier porte sur le décompte de personnes dans une salle, le second sur la détection de la vitesse de véhicules. On voit à chaque fois un graphique de performance en fonction du nombre de « pixels », comparé à une baseline qui utilise les pixels classiques (et qui est, soyons honnêtes, peu intéressante). On voit aussi les masques appris par les freeform pixels, qui opèrent un découpage de l’espace ad-hoc par rapport au problème adressé, et (pour le premier cas) un tableau de résultats bruts : Pour conclure, ce travail mérite d’être suivi avec beaucoup d’attention. Nous sommes sur une nouvelle ouverture du Edge Computing, dans un contexte où l’énergie dépensée par ces modèles est un sujet qui fâche. Ici, en allant jusqu’au prototype matériel, les chercheurs de Columbia proposent une solution efficace et extensible, avec une anonymisation forte de l’image en entrée… ALOHA unleashed : les robots savent plier une chemise (Et c’est un petit exploit, mais reprenons les choses dans l’ordre) Ceux qui suivent nos revues de la recherche n’ont pas manqué un article paru en mars 2024 portant sur l’Imitation Learning. Pour rappel, ce domaine a commencé l’an dernier à révolutionner la robotique et l’intelligence artificielle, plus précisément le domaine du Deep Reinforcement Learning. Ce domaine consiste à entraîner un agent à résoudre une tâche en maximisant une récompense modélisant la réussite de l’agent. Et si ce domaine a eu de nombreux moments de gloire (en manipulation robotique, ou via AlphaGo / AlphaGoZero), il a toujours souffert d’une énorme lourdeur […]
La boîte noire optimisée, le RAG sous contrôle et la modélisation 3D du futur
Télécharger la version pdf ici. TL;DR ? 5 mots-clés de nos Echos RAG, évaluation, boîte noire, optimisation, gaussian splatting Pourquoi lire cette publi peut vous être utile concrètement ? Si vous utilisez un RAG et vous vous demandez désespérément comment évaluer la qualité de ses réponses d’une manière objective, vous trouverez ici un travail récent et prometteur pour déjà mieux mesurer les choses. Si vous voulez chercher les solutions d’un problème complexe le plus vite possible, Google nous offre maintenant un de ses meilleurs outils . Et si vous travaillez avec 3 dimensions et suivez l’évolution du domaine avec l’intelligence artificielle (Nerfs, Gaussian Splatting), NVIDIA a poussé l’effort sur une application simple en proposant de nombreuses innovations. Quels process métier seront probablement modifiés sur la base de ces recherches ? Les RAGs sont partout, mais leurs limites sont trop souvent sous-estimées par rapport à leur exposition. L’apparition d’un nouveau framework et de nouvelles métriques pour évaluer ces outils facilitera grandement leur mise en place et leur qualification. D’autre part, l’optimisation de boîtes noires est un sujet très générique, que l’on retrouve en étude d’impact d’actions publiques, en optimisation de ressources disponibles, ou en recherche par simulation ou jumeau numérique. L’arrivée de Google Vizier va donner un avantage certain aux acteurs qui s’en saisiront. Enfin, les NeRFs sont une nouvelle technique de modélisation 3D issue du Deep Learning qui impactera à terme de nombreux domaines : jeu vidéo, cinéma, interaction en ligne, etc. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points : RAG Checker : Amazon tente d’évaluer correctement un RAG Et le sujet reste, évidemment, très/trop complexe. Un peu de contexte : si vous travaillez de près ou de loin en intelligence artificielle et n’avez jamais entendu parler de RAG (retrieval augmented generation), vous êtes soit isolés de l’actualité avec talent, soit particulièrement robuste pour ignorer les « modes » techniques. Derrière ces termes se cache une application théoriquement facile des Large Language Models pour aller rechercher, dans une base documentaire plus ou moins gigantesque, des éléments pertinents à partir de la requête d’un utilisateur. Nous avions notamment beaucoup parlé de ces approches et (surtout) de leurs limites lors d’un webinaire en 2024. Car s’il y a, depuis l’arrivée de la pseudo-AGI d’OpenAI (chatGPT), une effervescence énorme autour de ces sujets, force est de reconnaître que dans une majorité de cas, l’outil RAG constitue un excellent Proof of Concept qui illuminera des slides de présentation, mais n’arrive pas à être concrétisé comme un outil industrialisable et contrôlable. De nombreuses défaillances peuvent se produire dans le cadre d’une application naïve (éléments remontés insuffisants ou erronés, hallucinations dans la génération finale…). Ce n’est d’ailleurs pas un hasard si, à date, nous proposons des approches moins « révolutionnaires » en apparence, mais beaucoup plus stables dans leur implémentation, notamment en exploitant les Large Language Models en extraction et en structuration, et en refusant un échange par le langage naturel en restitution pour préférer un outil de navigation efficace et testable (nos excuses pour cet aparté à la limite du commercial, mais n’hésitez pas à nous contacter si vous voulez des approches fonctionnelles et industrialisables 😊 ) Le RAG est donc un champ de ruine, et se reporter à la recherche fondamentale permet de s’extraire de la hype pour retrouver la terre ferme. Nous avions dans un webinaire notamment cité les travaux SAFE de Google Deepmind qui valident un résultat de RAG par des recherches Google unitaires. Ici, les équipes d’Amazon nous proposent RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation, de Ru et al. L’objectif de ce travail très récent est de proposer un moyen sain et contrôlé d’évaluer correctement la qualité d’un RAG. À ce stade, prenons un peu de recul. Pendant que de nombreux acteurs vendent leur RAG optimal et fonctionnel, les chercheurs, eux, tentent déjà d’estimer la qualité d’une solution RAG d’une manière correcte. Ce grand écart est révélateur de la hype en cours, et soyons lucides : si nous ne savons pas réellement comment évaluer un outil de ce type à date, nous avons peu de chance de pouvoir prétendre le faire fonctionner d’une manière industrielle. Ces travaux de recherche sont donc fondamentaux pour nous, en nous donnant de nouveaux outils pour évaluer les RAG, identifier des sources d’erreur et ainsi pouvoir se projeter dans une utilisation future dépourvue de mauvaises surprises…RAGChecker propose donc de nouvelles métriques pour évaluer un RAG, et nous allons voir qu’aucune d’entre elles n’est superflue. Dans le schéma ci-dessus, nous avons, représentés en vert et jaune, respectivement les chunks (morceaux de document, une autre névrose des RAGs) récupérés par la recherche initiale qui correspondent à la recherche de l’utilisateur (en vert) et ceux remontés à tord car sans lien avec cette recherche (en jaune). Chaque ensemble de chunk peut contenir des affirmations vraies (correct claims, ronds), des affirmations fausses (incorrect claims, croix) et des affirmations hors sujets (points d’interrogation). Une fois les chunks remontés, le RAG va tenter de les exploiter pour générer une réponse finale. Dans le schéma tout en haut, nous trouvons à gauche (dans l’ellipse rouge) les bonnes réponses qui auraient dû être données, et à droite en bleu la réponse du modèle. RAGChecker propose trois types de métriques : Des tests sont ensuite réalisés en comparant plusieurs solutions disponibles à date. Il est ici très important de regarder en quoi correspondent ces tests. Cela permettra de se projeter face à une implémentation sur un problème spécifique. Notamment, nous attirons l’attention du lecteur sur le fait que ces datasets d’évaluation portent très majoritairement sur des problèmes de connaissance générale. Dès lors, il est un peu risqué de se projeter, depuis ces résultats, vers l’utilisation d’une base documentaire très spécifique comme nous en rencontrons régulièrement chez nos clients : Et donc, les résultats : Plusieurs observations intéressantes sont proposées par les auteurs : De nombreuses autres observations sont proposées dans cette publication que nous vous suggérons de lire si le sujet vous intéresse. Ce type de travail est fondamental : mieux évaluer la qualité d’un outil […]
Représentations « platoniciennes », images à très haute résolution, world models & Mambas
Télécharger la version magazine ici : Télécharger TL;DR ? Cinq mots-clés de ces échos Embeddings, haute résolution, diffusion, état d’un système, mamba Pourquoi lire cette publi peut vous être utile concrètement ? Mieux comprendre ce qu’apprennent les réseaux de neurones est fondamental pour appréhender notre domaine de travail, et nous avons ici une publication pertinente (quoique un peu ambitieuse) montrant que ces représentations se ressemblent à travers les architectures et les modalités. Au-delà, un nouveau travail permet de traiter des images à très haute résolution pour une consommation mémoire contrôlée, ouvrant de nouvelles applications. Enfin, deux travaux permettent de respectivement mieux comprendre les modèles de diffusion, et la complexité des architectures, avec de nouveaux résultats sur le désormais célèbre Mamba. Quels process métier seront probablement modifiés sur la base de ces recherches ? Les Foundation Models visent à apprendre des représentations génériques à travers une ou plusieurs modalités (texte, image, son, etc.). Que ces représentations se rapprochent naturellement permet de mieux envisager leur utilisation. Autre sujet, l’utilisation d’IA sur des images de très haute résolution est aujourd’hui bloquée, empêchant d’interpréter une image complexe correctement (images satellites par exemple). Enfin, les modèles de diffusion apparaissent de plus en plus comme un outil efficace pour modéliser un environnement et sa dynamique, permettant aux world models de continuer leur positionnement comme outil efficace et intéressant pour entraîner des agents autonomes. Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 4 points : Représentation « platonicienne » : Les réseaux de neurones apprennent-ils une même représentation de la réalité ? Attention, la publication The Platonic Representation Hypothesis, Huh et al est à manipuler avec des pincettes. Si elle pose des questions fondamentales et lève des observations passionnantes sur ce qu’apprennent nos chers réseaux de neurones, il convient de séparer les affirmations scientifiques des spéculations plus philosophiques. Mais n’allons pas trop vite, et replaçons le contexte : de quoi parlons-nous ? Cela fait bientôt dix ans que s’est imposé un courant de recherche fondamental dans notre domaine du Deep Learning, celui du Representation Learning. À la base de ces travaux, une observation : quand un réseau de neurones apprend à adresser une tâche (par exemple de classification), il apprend implicitement à représenter la donnée d’entrée sous des formes de plus en plus simples (i.e. ayant une dimensionnalité beaucoup plus faible). On considère aujourd’hui que cet apprentissage est probablement la vraie « magie » du Deep Learning : apprendre à représenter une donnée extrêmement complexe sous une forme simplifiée plus facile à manipuler. C’est notamment ce qu’avaient observé Milokov et al qui avaient généré les premiers embeddings représentant des mots. Ce courant s’est ensuite poursuivi via l’entraînement de Foundation Models comme notre précieux DinoV2, capable de représenter une image par un vecteur très expressif et suffisant pour adresser un grand nombre de tâches spécifiques. Nous avions aussi fait un webinaire sur le phénomène des embeddings cross-modalité, où le même concept exposé sous deux formes (par exemple, image et texte), sera isolé comme un unique vecteur de représentation. Néanmoins, si chaque réseau de neurones apprend une représentation de la donnée en entrée, une question fondamentale est de savoir à quel point deux représentations issues de deux réseaux de neurones différents seront proches. Dit autrement : chaque réseau apprend-il une représentation unique et spécifique pendant son apprentissage, où existe-t-il une « destination » de représentation vers laquelle se dirigeraient chaque réseaux soumis à apprentissage. Pour reprendre la vision des auteurs et leur hypothèse principale : existe-t-il une représentation unique vers laquelle tendraient naturellement les représentations de réseaux de neurones ? Ce travail est une occasion salutaire de répertorier ce que la communauté scientifique a découvert à ce sujet. Plusieurs observations ont ainsi été faîtes au cours des dernières années. Typiquement, via la méthode du model stitching, on sait déjà qu’il est possible, à partir de deux réseaux entraînés sur un même problème, d’extraire n première couches de l’un et p dernières couches de l’autre pour les accoler via une simple transformation linéaire. Cela implique déjà que deux réseaux de ce type apprennent des représentations extrêmement proches (à une transformation linéaire près). Ce type de transfert entre deux réseaux a été poursuivi jusqu’à arriver à des méthodes « zero shot » (sans ré-apprentissage spécifique) et plus particulièrement, entre différentes architectures et même différents problèmes à adresser. Cette polyvalence est déjà intéressante, surtout dans notre domaine où les déficits théoriques ne cessent de limiter notre compréhension. Les auteurs ont donc étudié à quel point deux modèles différents, entraînés sur des problèmes différents, ont des représentations internes proches. Pour ce faire, la logique a été de comparer, entre les deux représentations, les plus proches voisins d’un même élément et d’observer si ces groupes de voisins sont proches ou différents. Sans être absolue, cette approche a le mérite de minimiser les problèmes de métriques qui, face à des vecteurs assez complexes, peuvent vite perdre leur sens. Un premier résultat intéressant permet d’exposer, à travers 78 modèles différents de classification d’images, et donc à travers des architectures très différentes, à quel point ces modèles sont « alignés » dans leurs représentations. À gauche, on observe que plus ces modèles sont performants sur le VTAB (Visual Task Adaptation Benchmark), plus leurs représentations sont proches. À droite, une réduction de dimension (UMAP) projette ces modèles en deux dimensions : Cette idée que l’alignement inter-modèle s’améliore avec la performance est un point très intéressant. Au-delà, les auteurs affirment que ces représentations convergent à travers différentes modalités de la donnée. Nous savions déjà qu’il était possible de « coller » un modèle de vision et un modèle de langage au prix d’une transformation linéaire. Ici, les auteurs observent un alignement plus global entre modèles de vision et modèles de langage, avec un alignement d’autant plus important que le modèle de langage est performant. Les auteurs observent aussi que le CLIP d’OpenAI, entraîné aussi sur le contenu textuel, présente un alignement plus important qui se dégrade dès lors qu’on opère un fine tuning vers ImageNet. Dernière expérience pertinente : les auteurs comparent la corrélation entre alignement d’un modèle de langage avec le modèle de vision […]