Un Gigamodèle dans un magasin de porcelaine… Partie 1
Depuis deux ou trois ans les Gigamodèles tels BERT, GPT3, wave2vec ou DALLl-E, sont une tendance lourde en Intelligence Artificielle (IA). Ces modèles aux performances impressionnantes dépassent le Milliard de paramètres, exigent des infrastructures spécifiques et ne sont produits que par une petite poignée d’acteurs. Comment cette nouvelle donne bouscule-t-elle à la fois la recherche et l’industrie de l’IA ?
Dessine-moi un Gigamodèle
Qu’est ce qu’un Gigamodèle ? Un modèle qui compte des centaines de millions de paramètres, voire des centaines de milliards de paramètres pour les plus gros actuellement. On pense à BERT, GPT-3, Wav2vec (prononcer à l’anglaise « wave to vec » ), DALL-E (prononcer « Dali »)… Certains les appellent « Foundation models » ou « Pre-trained models », d’autres parlent de « Large Language Models » (LLM). Il s’agit aussi généralement de modèles incluant de l’apprentissage auto-supervisé (self-supervised learning). Mais que recouvrent ces appellations ?
Premier terrain de jeu : le langage
Les premiers Gigamodèles à faire parler d’eux sont des modèles de traitement automatique du langage naturel (NLP = Natural Language Processing) : le modèle BERT (Bidirectional Encoder Representations from Transformers), diffusé par Google en 2018, qui comprend plusieurs centaines de millions de paramètres, puis le très médiatique, mais beaucoup plus fermé, modèle GPT3 entrainé par OpenAI, sorti en 2020, premier à atteindre les cent milliards de paramètres.
BERT, comme GPT3, prennent en entrée du texte – ou plutôt des plongements de données « embeddings » – nommés word2vec, qui encodent les mots sous forme de vecteurs, en fonction de la distribution des mots voisins et assurent des tâches de traitement du langage. Ils ont en commun une architecture dite « transformer », architecture neuronale profonde incluant typiquement un encodeur, un décodeur et une couche d’attention, qui les rend capables de prendre en compte un contexte étendu. Ils ont surtout la capacité à apprendre à partir de très gros volumes de données brutes non étiquetées, ce qu’on appelle l’apprentissage « auto-supervisé » ou « self-supervised learning« .
Des données sans limite avec l’apprentissage auto-supervisé
Les modèles traditionnels obtenus par apprentissage automatique utilisent l’apprentissage dit supervisé : des données d’entrée, par exemple des phrases, sont présentées au modèle, le modèle cherche à prédire une sortie, par exemple une classification, qu’il va ensuite comparer avec l’étiquette de référence. Le modèle s’adapte ensuite au besoin pour se rapprocher le plus possible de la sortie souhaitée. L’obtention de données écrites et étiquetées en quantité suffisante pour chaque tâche visée, chaque langue, chaque domaine, est un facteur limitant de ce type d’approches.
L’apprentissage auto-supervisé quant à lui, consiste à apprendre un modèle générique à partir de données non étiquetées, en l’optimisant sur des tâches auto-supervisées, c’est à dire qui ne dépendent que des données elles-mêmes : par exemple, comme illustré dans le schéma ci-dessous, deviner des mots, préalablement masqués arbitrairement, dans un texte, à partir de tous les autres mots environnant, ou encore deviner si deux phrases sont la suite l’une de l’autre ou ne se suivent pas du tout dans le corpus.
Ce type d’approches auto-supervisées s’affranchissent du besoin de données étiquetées et ouvrent la possibilité d’apprendre des modèles génériques sur des très gros volumes de données brutes, collectés de façon large. Le modèle auto-supervisé capture de façon implicite des informations sur la structure même de la donnée, ici la distribution des mots dans les phrases de la langue, leurs synonymies, antonymies, analogies, accords etc.
Le modèle générique, aussi appelé modèle pré-entrainé peut ensuite être complété avec un « fine-tuning » spécifique à la tâche visée (classification, analyse de sentiment, question-réponse, tâches de compréhension du langage, résumé automatique, traduction…), un volume bien plus modeste de données étiquetées pourra être suffisant, car le modèle générique est automatiquement doté d’une forte capacité de généralisation.
Le ciment des « foundation models »
A sa sortie en 2018, le modèle BERT a révolutionné le monde du traitement du langage naturel en permettant à des modèles « fine-tunés » de détrôner les approches précédentes dans la majorité des benchmarks NLP, notamment les tâches d’analyse sémantique. BERT est notamment intégré au moteur de recherche de Google pour permettre de remonter des réponses structurées quand c’est possible aux requêtes qui sont analysées sémantiquement.
Le fait qu’un modèle pré-entrainé puisse se décliner en de nombreux modèles adaptés, a donné le terme « Foundation models » ou « modèles fondation », servant de base à des modèles construits sur leur base.
Les LLM, des modèles de langage gigantesques et génératifs
Après BERT, GPT3 a étonné par sa capacité native de génération de texte et par ses facultés de « few-shot learner » voire de « zero-shot learner », c’est-à-dire la faculté d’apprendre une nouvelle tâche avec juste quelques exemples, ou même sans que le moindre exemple préalable n’ait été donné.
Ces modèles sont appelés « modèles de langage » et depuis quelques temps « large language models » (LLM), du fait de leur taille gigantesque.
Tous ces LLMs : GPT3, T5, LaMDA, Bloom, OPT-175B, Megatron-Turing NLG… possèdent une capacité générative.
Au départ un modèle de langage est simplement un modèle qui attribue une vraisemblance aux suites de mots ou de caractères. Est-ce que les LLM récents présentent des capacités langagières propres, allant au-delà de ce périmètre initial ? Malgré leurs prouesses, le débat reste ouvert…
La capacité générative des LLM est utilisée non seulement pour produire du langage naturel (le langage humain), mais aussi d’autres types de production, les plus emblématiques étant actuellement le code informatique et les images.
Un Gigamodèle fait de l’informatique… avec ou sans licence
En 2021, Microsoft, associé à OpenAI – dans laquelle la firme de Mountainview a investi 1 milliard en 2019 – et à sa filiale GitHub, plateforme très populaire de gestion de code, a sorti « GitHub Copilot », une application payante qui suggère des lignes de code aux développeurs. Une enquête auprès des utilisateurs indiquent qu’un tiers de leur code environ serait déjà produit par Copilot.
GitHub Copilot a été appris sur d’énormes quantités de code opensource collecté sur le web. Un collectif vient de déposer une action en justice contre Microsoft, GitHub et OpenAI, au titre que des portions entières de code opensource peuvent être « recrachées » telles quelles par Copilot sans attribution à leur auteur, en violation des licences opensource. La procédure ne fait que commencer. Quelle qu’en soit l’issue, elle aura un impact sur le droit de l’ensemble des Gigamodèles.
Les Gigamodèles s’affichent
Les Gigamodèles les plus visibles actuellement sont certainement les modèles de génération d’image à partir de texte tels Dall-E, sorti en 2021 par OpenAI puis Stable Diffusion, MidJourney, ou encore Parti/Imagen (Google).
Ces modèles, appris à partir d’énormes quantités d’images et de textes collectés sur le Web, produisent à partir d’énoncés textuels, appelés « prompts », des images généralement esthétiques et d’un grand réalisme, comme ce fameux « A teddy bear on a skateboard in Times Square », produit par DALL-E 2.
On peut citer aussi cette image produite par MidJourney pour illustrer un article du journal The Economist intitulé « Huge Foundation models are turbo-charging AI progress ».
Une œuvre produite avec MidJourney a récemment remporté un prix dans le Colorado, dans la catégorie « art numérique » , ce qui n’a pas manqué de créer la polémique.
Une nouvelle fonctionnalité « l’outpainting » permet également d’imaginer des continuations aux œuvres existantes en dehors de leur cadre.
La parole n’est pas en reste
La révolution de l’apprentissage profond avait commencé en 2012 avec la reconnaissance d’image et la reconnaissance de parole, comme l’a illustré le prix Turing décerné en 2019 conjointement à Yann Le Cun (reconnaissance d’image) , Yoshua Bengio (reconnaissance de parole) et Geoff Hinton (leur maître à tous deux).
Le traitement du langage naturel n’a pas tardé à s’emparer de ces nouvelles approches, et a le premier donné lieu à des Gigamodèles auto-supervisés. Il était naturel que le traitement de parole et le traitement d’image se nourrissent à leur tour des avancées obtenues en traitement du langage.
C’est en 2019 que sort wav2vec, puis wav2vec2 en 2020, des laboratoires de Meta — alors Facebook. Wav2vec est l’équivalent audio d’un BERT, un modèle auto-supervisé appris sur de grandes quantités d’audio brut, non annoté.
Le signal de parole étant par nature continu, wav2vec2 doit surmonter cette difficulté en apprenant d’abord des tokens audio discrets , indiqués par des lettres « q » sur le schéma ci-dessous, pour caractériser les sons, avant de jouer, comme BERT, au jeu des portions de données masquées à faire deviner par le modèle.
Depuis 2020, les premières places des benchmarks classiques de reconnaissance de parole sont raflées par des systèmes fondés sur wav2vec2, comme il apparait sur le leaderboard ci-dessous, pour le benchmark « Librispeech », un Corpus de parole lue par de nombreux locuteurs…
Mais alors, quels changements radicaux les Gigamodèles sont-ils en passe d’apporter dans le monde de la recherche et de l’industrie ?
To be continued…
Conférence : ViaDialog participe au Festival de l’Intelligence Artificielle le 15 novembre 2022 !
Le Laboratoire Informatique d’Avignon (LIA) et la chaire en intelligence artificielle LIAvignon organisent cette année la 3e édition du festival IA du 14 au 16 novembre.
ViaDialog y participe au côté de Google et HugginFace en animant une conférence le 15 novembre. Ariane Nabeth-Halber, Directrice du Pôle IA, participe à la conférence et aux débats autour des Gigamodèles en IA.
Lieu : Campus Hannah Arendt – Avignon Université AT06 à partir de 16h30.