Premier terrain de jeu : le langage
Les premiers Gigamodèles à faire parler d’eux sont des modèles de traitement automatique du langage naturel (NLP = Natural Language Processing) : le modèle BERT (Bidirectional Encoder Representations from Transformers), diffusé par Google en 2018, qui comprend plusieurs centaines de millions de paramètres, puis le très médiatique, mais beaucoup plus fermé, modèle GPT3 entrainé par OpenAI, sorti en 2020, premier à atteindre les cent milliards de paramètres.
BERT, comme GPT3, prennent en entrée du texte – ou plutôt des plongements de données « embeddings » – nommés word2vec, qui encodent les mots sous forme de vecteurs, en fonction de la distribution des mots voisins et assurent des tâches de traitement du langage. Ils ont en commun une architecture dite « transformer », architecture neuronale profonde incluant typiquement un encodeur, un décodeur et une couche d’attention, qui les rend capables de prendre en compte un contexte étendu. Ils ont surtout la capacité à apprendre à partir de très gros volumes de données brutes non étiquetées, ce qu’on appelle l’apprentissage « auto-supervisé » ou « self-supervised learning« .
Des données sans limite avec l’apprentissage auto-supervisé
Les modèles traditionnels obtenus par apprentissage automatique utilisent l’apprentissage dit supervisé : des données d’entrée, par exemple des phrases, sont présentées au modèle, le modèle cherche à prédire une sortie, par exemple une classification, qu’il va ensuite comparer avec l’étiquette de référence. Le modèle s’adapte ensuite au besoin pour se rapprocher le plus possible de la sortie souhaitée. L’obtention de données écrites et étiquetées en quantité suffisante pour chaque tâche visée, chaque langue, chaque domaine, est un facteur limitant de ce type d’approches.
L’apprentissage auto-supervisé quant à lui, consiste à apprendre un modèle générique à partir de données non étiquetées, en l’optimisant sur des tâches auto-supervisées, c’est à dire qui ne dépendent que des données elles-mêmes : par exemple, comme illustré dans le schéma ci-dessous, deviner des mots, préalablement masqués arbitrairement, dans un texte, à partir de tous les autres mots environnant, ou encore deviner si deux phrases sont la suite l’une de l’autre ou ne se suivent pas du tout dans le corpus.