Evolutions 2016 des réseaux récurrents

Evolutions 2016 des réseaux récurrents

2017-01-07T00:00+02:00

Les RNNs (Recurrent Neural Networks) sont une des famille de réseaux les plus fondamentales que l'on ai développé, avec les dérivations connues de GRU (Gated Recurrent Unit) ou LSTM (Long Short Term Memory). Ils se distinguent par le fait qu'est inclus dans leur architecture propre un apprentissage dépendant de l'évolution d'une série, souvent temporelle, par la mise à jour d'un poids caché sur une liaison récurrente (pour le RNN) ou de plusieurs poids cachés contrôlant le flux d'apprentissage (GRU, LSTM).

Si ces familles jouissent d'une popularité moindre que les CNNs adaptés à l'image (ou plus généralement au signal), plusieurs évolutions sont sorties cette dernière année visant à modifier ces réseaux pour adresser différents problèmes, entre les vanishing gradients (disparition du gradient sur une série temporelle trop longue) ou la nécessité d'une plus grande structuration des inputs/outputs. Parmi ces évolutions, celles ci-dessous ont survécu aux classements Arxiv Sanity et présentent toutes un intérêt majeur.

1/ Nouvelles architectures

  • Hierarchical Multiscale Recurrent Neural Networks - Junyoung Chung/Sungjin Ahn & Yoshua Bengio. Cette extension des architectures vise à permettre l'apprentissage de liens temporels à plusieurs niveaux hiérarchiques, chaque couche du réseau apprenant à détecter dans la séquence en cours de traitement à quel moment elle transmet l'information accumulée à la couche supérieure. Une idée d'application directe est le traitement de texte où l'on désire faciliter pour le réseau la compréhension de différents niveaux : les caractères, les mots, phrases et paragraphes. Le modèle est ici appliqué à la modélisation du langage au niveau du caractère (comme unité de base), ainsi qu'à la génération d'écriture manuscrite.
  • Using Fast Attention Weight To Attend To The Recent Past - Jimmy Ba/ Geoffrey Hinton/ Volodymyr Mnih/ Joel Z. Leibo/ Catalin Ionescu. Il s'agit ici d'une augmentation de ces réseaux en rajoutant, entre deux transmissions récurrentes de l'information (mise à jour des états et poids cachés), une série de calculs pondérés sur ce que les auteurs nomment les ''fast attentions weight''. Ces poids agissent comme une forme d'attention (similaire à ce que l'on rencontre dans d'autres cas de DNNs, soit une forme pondération de l'information en amont) appliqué aux poids cachés précédents du réseau. Deux cas d'exemples sont donnés par les auteurs : la compréhension d'une logique temporelle sous forme de ''toy example'', la classification du MNIST ou la reconnaissance d'expressions faciales.
  • Pointer Networks - Oriol Vinyals/ Meire Fortunato/ Navdeep Jaitly. Nous sommes ici sur un type de réseau récurrent spécialisé pour générer, en sortie, une série d'indices visant les données en entrée. Ce nouveau paradigme permet ainsi de dé-corréler le réseau de la dimension d'entrée et de sortie, et se distingue en attaquant avec succès des problématiques algorithmiques complexes, comme la découverte d'une enveloppe convexe autour d'un nuage de points ou le problème du voyageur de commerce. Ce dernier est un problème très connu et réputé comme particulièrement complexe à résoudre (voir impossible cf Wikipedia). Qu'un réseau de neurone puisse, à partir uniquement d'exemples, généraliser ces familles de problème représente une petite révolution à elle seule.
  • Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences - Daniel Neil/ Michael Pfeiffer/ Shih-Chii Liu/ Remarqué lors du NIPS 2016, cette architecture brille par sa simplicité et le fait qu'elle adresse un problème majeur des LSTMs. Ces derniers sont en effet rapidement décevants pour apprendre une série périodique ou un assemblage de telles séries. Les Phased LSTMs rajoutent dans chaque cellule un poids caché d'activation qui obéit à une sinusoïde et dont la fréquence est un paramètre d'apprentissage parmi les autres. Ces réseaux semblent ainsi améliorer les résultats d'analyse ou de traitement sur les phénomènes ayant une ou plusieurs composantes périodiques, ce qui décrit une énorme partie des problèmes existants aujourd'hui à propos de séquences temporelles.

2/ Régularisations