Dansons le Mamba, entre révolution et psychodrame de l’IA

Télécharger la version magazine en cliquant ici

Cinq mots clé de ces échos

Mamba. Sequence. Efficacité. DinoV2. LLM

Pourquoi lire cette publi peut vous être utile concrètement ?

Mamba annonce une nouvelle famille d’architecture efficace et polyvalente qui s’impose de plus en plus dans le paysage de l’intelligence artificielle. En bonus : une meilleure compréhension des embeddings d’images issus de DinoV2, et un nouveau moyen de contourner les Large Language Models.

Quels process métier seront probablement modifiés sur la base de ces recherches ?

Concernant Mamba, si l’architecture concrétise sa valeur, on peut s’attendre à voir un impact dans de nombreux domaines comme le traitement de l’image ou du langage naturel. Concernant l’évolution de DinoV2, les approches non supervisées d’analyse d’image gagnent en qualité. Enfin, à propos des LLMs, un nouveau risque fort est identifié, à implémenter en robustesse pour déployer des outils.

Les cas d’usage que nous avons développés pour des clients qui touchent au sujet de cet écho de la recherche ?

Analyses d’images non supervisées pour détection d’éléments ou correspondances. Travaux de robustesse pour encadrer un outil de type Large Language Model.

Si vous n’avez qu’une minute à consacrer à la lecture maintenant, voici le contenu essentiel en 7 points ou en 7 phrases

Une nouvelle architecture, Mamba, fait de plus en plus de bruit dans le monde de la recherche.
Cette architecture est basée sur un mécanisme de sélection qui lui permet de gérer une donnée complexe en entrée en ignorant les éléments inutiles.
Elle est un candidat intéressant pour remplacer les Transformers qui souffrent face à des séquences trop longues (typiquement en texte)
Elle semble aussi être très polyvalente en applications : langage naturel, audio, modélisation ADN, image, vidéo…
Son refus de la conférence ICLR2024 a créé l’événement et met une fois de plus en lumière les limites du système de validation actuel.
And now something completely different : MetaAI a proposé une évolution du DinoV2 qui offre une meilleure compréhension des Vision Transformers et apporte un outil supérieur.
Une nouvelle faille atroce a été découverte dans les Large Language Models (une de plus) : l’utilisation du ASCII Art.

Révolution et psychodrame de l’IA, parlons Mamba

Une nouvelle architecture pour le Deep Learning ?

Mamba ! Depuis quelques mois, ce terme éveille l’attention du moindre data-scientist ou chercheur Deep Learning un peu au fait de l’actualité. Derrière ce terme se cache une nouvelle architecture de réseaux de neurones très intéressante et polyvalente, mais aussi un de ces petits psychodrames caractéristique de la recherche académique en IA. D’ordinaire, nous (Datalchemy) n’aimons pas trop nous jeter sur de nouveaux outils radicalement différents sortant tout chauds du four… En effet, plus un travail est récent, et plus les risques d’aveuglement sont forts. Les dinosaures du domaine se souviennent par exemple des Capsule Networks, proposés par Lord Hinton lui-même, sur lesquels la communauté s’était jetée avant de les abandonner six mois plus tard.

Ici, comme nous allons le voir, l’architecture proposée présente des arguments très forts qui peuvent difficilement être ignorés. Elle a été, qui plus est, reprise dans de nombreux autres travaux avec succès. Mais nous avons aussi l’occasion d’observer sur un cas très concret les limites du système de conférences en Deep Learning aujourd’hui, avec le rejet de cette publication par l’ICLR 2024. Ce rejet a causé un certain vacarme dans la communauté, et mérite d’être regardé de plus près car il témoigne parfaitement de certaines limites fortes de la recherche actuelle, et nous impose toujours plus de précautions.

Avant de rentrer spécifiquement dans le Mamba, un peu de contexte s’impose. Ce travail s’inscrit dans la lignée d’autres publications à propos des Structured Space Models (SSM). Les SSMs présentent un nouveau mécanisme fondamental pour modéliser un problème continu (au sens mathématique du terme), en intégrant un système de discrétisation pour l’appliquer en Deep Learning. On peut les voir comme un prolongement d’algorithmes comme les filtres de Kalman. Ici, ce concept est utilisé comme une nouvelle forme de bloc Deep Learning pouvant directement être intégré dans un réseau de neurones. Cette approche avait déjà été mise à l’honneur par How to Train Your HIPPO: State Space Models with Generalized Basis Projections de Gu et al où ce type de modèle permettait d’adresser des sujets de prédiction sur le très long terme (long range arena) en dépassant par exemple les célèbres Transformer et le petit millier d’optimisations du mécanisme d’attention tentées par différents chercheurs ces dernières années.

Cette approche resta relativement obscure jusqu’à l’arrivée de notre cher Mamba.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu et al.

Publiée en décembre 2023, cette approche a fait beaucoup de bruit. En effet, les auteurs ici adressent deux points très sensibles dans le monde du Deep Learning :

Une polyvalence très forte de l’architecture, qui (nous le verrons) peut adresser autant le langage naturel, la modélisation de l’ADN, que la gestion de très longues séries temporelles ou la génération audio.
Cette architecture est très efficace par nature, permettant de gérer des contextes très longs. Quand on se remémore l’énergie totale consommée par des chercheurs pour tenter d’améliorer le mécanisme d’attention du célèbre Transformer qui souffre d’une complexité quadratique à la longueur (une phrase deux fois plus longue demandera quatre fois plus de calcul), l’argument prend tout son sens et devient particulièrement pertinent.

Le Mamba se positionne par rapport aux travaux précédents en Structured Space Models face à une séquence d’informations (série, texte…) : ces travaux apprenaient des paramètres qui étaient invariants à travers le moment dans la séquence, à la manière d’un ancien réseau récurrents de type LSTM où les matrices appliquées au sein des opérateurs étaient fixés une fois l’apprentissage terminé. Ici, les auteurs proposent un mécanisme fondamental de sélection qui va permettre, alors que le modèle prend en entrée une séquence, de pouvoir « décider » si l’on met à jour ou non les variables internes du réseau. Le modèle va donc pouvoir apprendre à sélectionner, alors qu’il reçoit toute la séquence d’informations en entrée, les informations qu’il utilisera ou non. Cette modification a une importance considérable, car elle permet (théoriquement) de devenir robuste à des séquences extrêmement longues. Un modèle correctement entraîné pourra ignorer une grande quantité d’informations inutiles, ce qui était impossible pour une architecture classique comme le Transformer. Point d’intérêt plus théorique, les modèles récurrents (RNN/GRU/LSTM) peuvent alors être considérés comme un cas particulier des SSM, qui deviennent une approche plus générale.

Ce simple mécanisme aurait suffi à proposer un travail intéressant, mais les auteurs ne se sont pas arrêtés là. Ils ont notamment développé un noyau CUDA (l’assembleur de nos trop précieux GPUs) optimisé pour accélérer l’entraînement de modèles Mamba. Ce point n’est pas à sous-estimer, dans un domaine où la puissance de calcul disponible reste un frein constant à tout projet. Via ce type de développement, les auteurs démocratisent l’accès à leur approche et la transforment en une base directement exploitable. S’il est complexe de concurrencer aujourd’hui toutes les optimisations réalisées pour le Transformer, ce simple travail (nous le verrons) a ensuite permis d’appliquer Mamba à l’image ou à la vidéo.

Nous n’allons qu’effleurer ici la technique fondamentale, mais vous retrouverez ci-dessous, dans l’ordre :

Les équations modélisant le mécanisme fondamental. De gauche à droite :
- (1a) & (1b) : la modélisation continue, théorique, de la transformation, avec en entrée un signal x(t), en sortie un résultat y(t), un état interne h(t) (correspondant au vecteur latent de toute autre opération en Deep Learning) et des matrices de transition spécifiques A,B et C qui évolueront en fonction de la donnée en entrée. Cette modélisation théorique est une équation différentielle sur la dérivée de h(t)
- (2a) & (2b) : une approche discrète, cette fois ci, de récurrence avec une mise à jour de l’état interne h en fonction de son état précédent et de x
- (3a) & (3b) : une autre implémentation discrète, cette fois-ci sous la forme d’une convolution.
Un schéma représentant la mise à jour d’une « cellule Mamba », où nous avons l’ancien état interne de la cellule h(t-1), un nouvel input x(t) et des mécanismes de mise à jour permettant de générer le nouvel état interne de la cellule h(t) et un résultat y(t). Le point important ici et le mécanisme de sélection qui va modifier les matrices A,B et C en fonction du nouvel input x(t).

Les habitués du domaine ne pourront pas s’empêcher de détecter un nombre important de similarités avec les réseaux récurrents 😊…

De l’importance fondamentale de ce mécanisme de sélection

Ce point est probablement le plus fondamental dans l’ensemble de l’approche Mamba. Quand bien même il est toujours risqué d’établir des parallèles entre le fonctionnement atomique d’un opérateur Deep Learning et le comportement plus global d’un modèle, nous pouvons observer ici que le Mamba, face à une séquence en entrée, peut totalement ignorer une large partie de cette séquence pour se concentrer sur l’information la plus importante. Cette approche est radicalement différente des approches plus classiques :

Les modèles récurrents (et convolutifs) prendront toujours l’intégralité de la séquence en entrée. La longueur de cette séquence aura donc un impact négatif sur les résultats du modèle, quelle que soit la complexité du problème adressé.
Les Transformers ont une même approche, mais sont en plus particulièrement vulnérables à cette longueur de séquence. De nombreuses tentatives ont été faites pour mieux modéliser le mécanisme d’attention, notamment car les Transformers sont l’architecture canonique des Large Language Models (GPT, Llamas, Mistral), et que cette vulnérabilité à la longueur de séquence a des impacts très forts dans les exploitations de ces modèles. Notamment, un modèle supposé tenir une conversation sera vite limité dans l’historique de conversation qu’il pourra encore utiliser…

Les auteurs ont illustré ce sujet par deux problèmes simplifiés permettant de mettre en avant ce fonctionnement du Mamba (figure ci-dessous) : Le Selective Copying où le modèle doit apprendre à ne conserver que certains tokens en entrée (ceux en couleur) et à ignorer d’autres tokens (en blanc), et le induction head où le modèle doit pouvoir redonner le token qui suit un token spécifique déjà vu en entrée (ci-dessous : le token noir était directement suivi du token bleu, qui doit donc être régénéré par le modèle).

Ce problème peut choquer en semblant « trop simple » pour de l’intelligence artificielle et pourtant, avec des séquences de longueur 4096 pour le Selective Copying par exemple, à complexité égale, nos chers Transformers sont bien incapables d’adresser le sujet… Mamba arrive à gérer, pour le Induction Heads, des séquences de longueur 100.000, voire un million, sans faillir. On voit ici l’intérêt fort d’un mécanisme de sélection qui, robuste à une information inutile, peut rester performant sur le long terme.

Différents domaines d’application

Ce mécanisme de sélection peut intuitivement s’appliquer à de nombreux autres domaines, ce que les auteurs ont pu vérifier. Plusieurs résultats sont ainsi à relever :

En langage naturel, les auteurs ont observé que le Mamba était compétitif avec les « recettes » (ce terme a l’avantage de l’honnêteté scientifique) les plus intéressantes pour entraîner des Transformers sur une métrique de perplexité (retenez ce point, nous en parlons prochainement) pour un coût d’entraînement moindre. Plus intéressant encore, le Mamba semble pouvoir exploiter d’une manière plus efficace que les approches classiques une augmentation de son nombre de paramètres. Considérant qu’en Deep Learning, nous n’avons jamais cessé de pourchasser les modèles les plus gros possibles, ces « scaling laws » sont particulièrement dignes d’intérêt.

En modélisation de l’ADN, Mamba semble aussi beaucoup plus efficace que les états de l’art à date. La modélisation ADN est intéressante, car elle propose des séquences beaucoup plus longues qu’en langage naturel, jusqu’à une longueur de 1048576 tokens. Point d’intérêt : là où l’ancien modèle se dégradait en fonction de la longueur de la séquence, les Mambas, eux, s’améliorent légèrement.

Enfin, en modélisation et génération audio, un sujet où l’information est continue à la base et où les séquences sont particulièrement longues et complexes à adresser, Mamba sort aussi son épingle du jeu, même sur des séquences particulièrement longues.

À chaque fois, outre cette longueur de séquence, le modèle Mamba semble plus efficace en ceci qu’un accroissement de la complexité du modèle se transfère vers un gain en qualité supérieur à ce que nous pouvions observer. Au-delà, le fait que cette approche puisse s’appliquer à des problèmes aussi différents nous force à considérer ce travail comme particulièrement digne d’intérêt, ceci malgré son extrême jeunesse. Ci-dessous : à gauche : Précision après fine tuning d’un modèle ADN en fonction de la longueur de la séquence, à droite : qualité de modélisation d’un contenu audio en fonction de la longueur du son en entrée :

Bal tragique à l’ICLR 2024 : du8a est-il vraiment méchant ?

Implorant l’indulgence du lecteur pour ce titre peu glorieux, Mamba a été l’objet d’une polémique assez considérable dans le monde de la recherche en Deep Learning. Au-delà de rendre compte d’un épiphénomène, nous pensons qu’il y a là manière à illustrer correctement certaines limites fortes de la recherche en Deep Learning. Déjà, rappelons quelques évidences : nous souffrons dans ce domaine scientifique d’un déficit théorique qui rend très complexe (impossible ?) toute approche « censée » pour pouvoir comparer des architectures entre elles. Dans ce festival de l’empirisme, il n’est pas rare d’observer des mouvements de « troupeau » dans la communauté scientifique avec des « effets de mode » passagers ou de vrais aveuglements. C’est notamment pour cela que si nous suivons avec attention la recherche, nous nous méfions souvent d’un travail trop récent pour être correctement utilisé… Dernier détail (et non des moindre) : il y a aujourd’hui trop de publications dans ce domaine, et les mécanismes classiques pour filtrer la recherche (notamment, nous y arrivons, le peer reviewing des conférences prestigieuses) ne fonctionnent plus.

Cette introduction faite, passons au drame. Mamba a été proposée à la conférence ICLR 2024 qui se veut un rendez-vous de pointe sur certains domaines de recherche. La majorité de la communauté scientifique s’attendait à ce que ce travail soit accepté, considérant les autres travaux qui ont poursuivi le Mamba (nous en parlerons juste après). Aussi la surprise fut-elle grande d’apprendre que le travail était purement et simplement refusé…

Déjà, rappelons que les soumissions et échanges entre auteurs et critiques pour ce type de conférence sont publics sur l’excellente plate-forme OpenReview. Ce point est une excellente nouvelle pour tout acteur désirant observer par lui-même ce qu’il en est. Et ici, un unique critique (sur un total de quatre retours) a estimé que ce travail ne méritait pas de passer, le maintenant célèbre reviewer du8a.

Si de nombreuses critiques ont été remontées par ce cher du8a, les auteurs de Mamba ont pu y répondre dans l’ensemble. Deux points seulement sont restés bloquants, et on conduit au rejet de la publication :

L’absence de tests en Long Range Arena selon des benchmarks classiques. Ce point est honnêtement peu convaincant, considérant les autres expérimentations réalisées par les auteurs.
L’utilisation de la perplexité comme métrique de comparaison en modélisation du texte ou de l’ADN. Ce point est beaucoup plus pertinent, car cette métrique est basée sur un modèle Deep Learning tiers pour être établi, et si cette métrique est particulièrement utilisée, elle reste très délicate à appréhender et peut, potentiellement, ne pas signifier grand-chose.

Mais alors, du8a est-il un individu brillant qui, face à la vague d’une nouvelle mode, reste droit et refuse de se plier ? Ou sommes-nous face à un jaloux qui ne reconnaîtrait pas la qualité du travail réalisé ? Nous adorerions avoir une réponse unique, mais elle est ici impossible. La fainéantise étant (parfois) une qualité, nous n’avons qu’à attendre l’évolution sur les prochains mois pour voir si la vague de Mambas s’étouffe ou, au contraire, prend de la vitesse et arrive effectivement à remplacer les Transformers sur des sujets précis. Néanmoins, même si ces travaux s’avèrent moins révolutionnaires que prévus, il est dommage qu’ils n’aient pas eu leur place dans une conférence de pointe, surtout considérant qu’un certain nombre de publications acceptées à ce même événement semblent bien en dessous en terme d’investissement et de questions posées dans le domaine de l’intelligence artificielle.

Vision Mamba, Video Mamba…

Les choses seraient relativement simples s’il n’y avait que cette publication. Dans le monde du Deep Learning, la reproduction des travaux de recherche est un axe fondamental pour valider une innovation, et il est souvent préférable de se méfier d’une nouveauté, fût-elle attirante. Mais depuis l’apparition de cette architecture, de très nombreux travaux sont apparus pour l’étendre à de nouvelles applications. La liste est longue, et deux travaux permettent d’apprécier ce mouvement :

Le Vision Mamba de Zhu et al applique l’architecture au traitement d’images. Il affiche un léger gain en performance dans différentes approches (classification, segmentation, etc.) mais surtout une économie de performances (86% d’économie de mémoire GPU, inférence deux fois plus rapide) particulièrement attirante. Dans cette architecture, l’image est découpée en patches, et le mécanisme de sélection retiendra ou non l’information de chaque patch, permettant de se projeter vers des résolutions d’image beaucoup plus élevées, là où le bon vieux Vision Transformer est vite en souffrance (schéma ci-dessous : comparaison de l’état de l’art Transformer DeiT et du Mamba Vision).

Et ce n’est que la partie émergée de l’iceberg. Mamba est aussi utilisé en traitement de la vidéo, en modélisation de graphes, etc. À ce stade, il ne nous reste qu’à surveiller les prochains mois pour soit, prendre le train en marche au bon moment, soit oublier ces travaux et les ranger au panthéon des architectures incroyables qui ont failli révolutionner l’intelligence artificielle, entre les Capsule Networks et les Consistency Models…

Reparlons DinoV2 et embeddings d’images

Sortons de Mamba pour deux pas de côté particulièrement intéressants et tombés dans notre viseur le mois dernier. Dans un premier temps, profitons de l’occasion pour revenir sur notre vieil ami DinoV2, issu des laboratoires de MetaAI. Pour rappel (nous en avons extensivement parlé, notamment en webinar), DinoV2 est un modèle générique dont l’objet fondamental n’est pas d’adresser un problème spécifique, mais de générer une représentation de haut niveau d’une image, représentation qui peut ensuite être utilisée pour de nombreux problèmes différents. Les chercheurs commençaient par entraîner le modèle DinoV2 globalement, pour ensuite l’adapter à de nombreuses tâches (segmentation, génération de carte de profondeur, etc.) via une couche supplémentaire qui apprenait à manipuler les représentations de haut niveau du gros modèle. Pendant la spécialisation, ce « gros modèle » ne bougeait plus, ce qui permettait un entraînement extrêmement efficace. Au-delà de cette polyvalence, DinoV2 s’inscrivait dans cette démarche propre au Deep Learning d’apprentissage de représentations de haut niveau qui soient efficaces et complètes. Chez nous, ce modèle est vite rentré dans la boîte à outils comme un couteau suisse particulièrement efficace pour adresser différents problèmes à base d’images…

Ce n’est que récemment que nous nous sommes rendu compte que nous avions raté un travail complémentaire de MetaAI sorti en septembre 2023 : Vision Transformers Need Registers de Darcet et al. Et ce travail est particulièrement intéressant, car il part d’un constat déjà observé de nombreuses fois : quand on regarde une représentation interne issu d’un modèle DinoV2 auquel on a soumis une image en entrée, on verra très vite apparaître des pixels « artefacts » dans les embeddings (ces représentations générées par le modèle) qui vont nuire à la représentativité de cet embedding, notamment à la représentativité locale. Et ce problème n’est pas spécifique au DinoV2, mais bien à la quasi-totalité des Vision Transformer, cette famille d’architectures qui s’est (hélas ?) imposée pour travailler l’image en Deep Learning.

Le schéma ci-dessous montre trois photographies, avec pour chacune la représentation interne pour trois modèles différents dont le DinoV2 au centre. À droite, les représentations dîtes « With registers » viennent d’une amélioration proposée par les auteurs. On observe particulièrement dans la version DinoV2 classique (without registers) ces pixels à très forte intensité, visiblement localisés à des endroits où pourtant aucune information pertinente ne semble exister dans l’image…

Mais pourquoi est-ce important, objecterait l’empiriste qui a appris à ne pas trop questionner ces outils ? Déjà, car le but du DinoV2 étant de générer des représentations exploitables pour différentes tâches, l’existence de ces artefacts sera une gêne particulière, notamment ici pour localiser un élément à partir de l’image. Mais au-delà, ces embeddings sont souvent une boîte à outils très importante quand nous voulons avancer sur un sujet d’une manière non supervisée (par exemple en clustering, similarité ou détection d’anomalies). La représentativité spatiale de l’embedding est une information fondamentale sur laquelle nous désirons pouvoir compter. Or, les Vision Transformers vont générer ces représentations en permettant à tout pixel généré en sortie de dépendre de tout pixel présent en entrée (au contraire des réseaux convolutifs qui eux, sagement, gardent une correspondance spatiale entre entrée et sortie). Nous manquons encore aujourd’hui de recul sur ces outils, et ce type de travail nous permet de mieux les comprendre pour travailler demain plus efficacement.

Ici, les auteurs résolvent le problème en donnant, lors de l’apprentissage du modèle, un moyen à celui-ci d’agréger des informations sans parasiter les représentations générées. La solution est directement disponible et nous pouvons confirmer qu’en analyse locale d’une image, les résultats sont beaucoup plus intéressants. Mais quelque part, cette publication est plus intéressante en ceci qu’elle ouvre une petite fenêtre sur le comportement d’un énorme modèle de type Vision Transformer lors de son apprentissage. Les pixels « artefacts » se distinguent ainsi de plusieurs manières : ils ont une valeur absolue bien plus élevée que les autres, ils apparaissent lors de l’entraînement de modèles ayant une taille conséquente, ils portent peu d’information spécifique sur le plan local et jouent plutôt un rôle d’agrégation pour représenter l’intégralité de l’image, autrement dit, ils sont porteurs d’une information très globale mais non locale.

Les Large Language Models sont trop sensibles à l’art

Les lecteurs habituels de nos revues de la recherche le savent déjà, les Large Language Models qui font la une depuis un an avec GPT4 sont certes des outils très puissants, mais particulièrement complexes à gérer d’une manière robuste. Un sujet particulièrement sensible est la sécurisation du modèle pour l’empêcher de générer des contenus indésirables, notamment pour les modèles entraînés selon une certaine vision du « politiquement correct » très américaine. Tout utilisateur de ces outils a observé la réponse du LLM déclinant de répondre face à une question considérée comme trop toxique, ou dangereuse…

La publication qui nous intéresse ici a un titre suffisamment éloquent : ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs, de Jiang et al. Ce travail permet déjà de faire le point sur les méthodes de protection des LLMs contre les attaques malveillantes trouvées pour l’instant. Et ces méthodes restent, hélas, extrêmement limitées, se distinguant en deux grandes catégories. La première est dite « Detection-based Defense », et exploite un classifieur externe ou des paramètres internes du LLM (la célèbre perplexité) pour protéger le modèle contre une utilisation malveillante. La seconde, « Mitigation-based Defense », va notamment reformuler la demande en entrée (via des paraphrase, ou en agissant sur les tokens représentant la phrase) pour minimiser les capacités à attaquer le modèle. Déjà, signalons que ces défenses, si elles sont utiles, ne sont absolument pas des protections complètes satisfaisantes. Mais surtout, cette recherche montre ici un nouveau vecteur d’attaque très efficace, contournant ces défenses sans aucun souci, basé sur l’ASCII-Art. Et un schéma sera beaucoup plus clair qu’une explication à ce stade :

Les auteurs testent cette attaque sur la majorité des modèles existants (dont GPT4, les Llamas), et réussissent dans la quasi-totalité des cas à extraire du modèle un comportement non désiré. Ce travail n’est pas révolutionnaire, et nous avons déjà relevé d’autres contournements de ce type dans les précédentes revues de la recherche. Parions une bonne bouteille que ce n’est que le début, considérant que la taille immense de ces modèles (indispensable à leur qualité) limite, voire empêche toute analyse complète de ces comportements. Cela reste d’ailleurs une des règles d’or des projets en intelligence artificielle : il est beaucoup plus difficile de contraindre un modèle sur un fonctionnement spécifique que de le générer, et nous observons cette triste réalité régulièrement dans l’implémentation de nos projets.

Blog