La nuit tous les ChatGPT sont gris
Un Gigamodèle d’IA qui dialogue, buzz ou avenir de la relation client ?
Amis de la relation client, est-ce que ChatGPT est bon pour nous ?
Depuis que OpenAI, adossé à Microsoft, a sorti son modèle de génération de réponses ChatGPT, l’encre électronique ne cesse de couler. A la fois encensé et controversé, ce chatbot hyper-générique représente-t-il le futur de la relation client ?
Un Gigamodèle qui a du répondant
Le modèle ChatGPT s’inscrit dans une suite de Gigamodèles d’Intelligence Artificielle, aussi appelés LLM pour Large Language Models et dans lesquels on peut compter GPT3, T5, Bloom, TuringNLG, … mais aussi les modèles de génération d’image comme Dall-E ou MidJourney (cf. articles « Un Gigamodèle dans un magazin de porcelaine – Partie I » et « Un Gigamodèle dans un magazin de porcelaine – Partie II »).
La particularité de ChatGPT, par rapport à son « papa » GPT3 qui était sorti en 2020, est d’être spécialisé sur le dialogue, après des phases d’apprentissage par renforcement conduites avec des coach humains. Résultat : des réponses pertinentes, argumentées, sans faute évidente de syntaxe ou de sémantique, des échanges qui gardent la mémoire des informations données ou modifiées en cours de route.
ChatGPT perché : l’hallucination crédible
Malgré ces qualités, l’usage de ChatGPT a été officiellement banni du forum d’entre-aide entre développeurs « StackOverflow » . Explications : si dans certains cas ChatGPT parvient correctement à diagnostiquer et corriger des bugs dans des lignes de code, il va dans la majorité simplement proposer un diagnostic et une correction crédibles… mais faux.
Un peu comme l’éphémère Galactica entraîné par Meta (ex-Facebook) sur le site « Paperwithcode ».
ChatGPT échaudé : l’apprentissage de la méfiance
Il faut préciser toutefois que ChatGPT annonce volontier ses propres limites, voir refuse de répondre à certaines requêtes en arguant qu’il n’en a pas la capacité ou la légitimité. Ou encore que c’est un sujet sensible ou immoral.
ChatGPT tombe également beaucoup moins dans les pièges tendus par les testeurs que son ascendant GPT3, comme illustré par Mark Ryan.
Il est fort possible que ce soit l’apprentissage par renforcement auquel a eu droit chatGPT avec des coach humains, qui lui a appris à se défier des testeurs et à remettre en cause les implicites de questions pièges, telles que « Qui était le Roi de France en 1940 ? », à quoi GPT3 répondait « Pétain », alors que ChatGPT répond qu’il n’y a déjà plus de roi en France en 1940 et expose la situation politique particulière de la France cette année-là.
Jouer à ChatGPT : le jeu en tant que spécification no-code
ChatGPT se méfie donc des testeurs et rejette des requêtes. Ces rejets ne sont pas difficiles à contourner, il suffit d’entrer dans le jeu de « fais comme si… ». Ici la capture de « fais comme si tu étais un callbot pour une banque».
Un bon exemple de ce type de mix entre jeu et véritable configuration de comportement est détaillé par Maaike Groenewege.
Dans le cas du jeu avec le soi-disant callbot de banque, les limites sont atteintes assez vite, car chatGPT ne sait pas forcément s’adapter au style téléphonique – si vous lui dites d’être plus concis, au lieu de réduire la taille de son message, il ajoute une phrase expliquant qu’il va être concis – et a beaucoup de mal à endosser le rôle de représentant de la banque ou de la société détentrice de carte, considérés comme des tiers vers lesquelles il renvoie l’utilisateur. Mais peut-être est-ce aussi une question de design de prompts, comme pour les modèles de langage générant des images. Le coaching de ChatGPT par les prompts peut être vu comme une nouvelle manière de faire du design, au même titre que les prompts hyper-élaborés rédigés pour Dall-E ou Midjourney sont des nouvelles façons de faire des œuvres graphiques.
Chacun cherche son ChatGPT…
Le jeu du « fais comme si » avec ChatGPT est certes fascinant, mais peut-être en partie responsable des hallucinations crédibles que produit le modèle : il fait semblant, inventant au passage des citations d’articles scientifiques imaginaires en bon pataphysicien, ou des réponses informatiques imaginaires en bon patageek. Rappelons que le modèle génératif sous-jacent est fondé dès le départ sur un jeu : deviner le mot masqué dans le texte. Les LLM sont très forts aux devinettes…
La question qui se pose sérieusement à nous, acteurs de la relation client et éditeurs de solutions cognitives, est de savoir s’il est possible de dompter ce type de modèles, pour à la fois bénéficier de leur incroyable capacité d’adaptation, de pertinence et de fluidité de langage et à la fois assurer les comportements appropriés et maitrisés attendus des professionnels.
… et cela a un prix, celui du fine-tuning
Un début de réponse se trouve dans le modèle économique de ChatGPT :
Utiliser en production le modèle tel quel est sujet à un tarif relativement bas, utiliser en production le modèle affiné (fine-tuné) à un domaine donnée, à une tâche donnée, est sujet à un tarif dix fois (10x) plus élevé.
Nous n’avons pas encore de recul sur les expériences d’affinage (fine-tuning), nous ne savons pas s’il existe déjà des recettes efficaces et si elles permettent de régler la question des hallucinations, ni comment elles se combinent avec « le coaching par les prompts ». Au-delà du buzz autour des usages de ChatGPT « sur étagère », c’est bel et bien le sujet du fine-tuning qu’il faudra surveiller de près dans les prochains mois, pour juger si ChatGPT tiré de son étagère retombe bien sur ses pattes, ou non.
La deuxième bonne nouvelle, outre la promesse de l’affinage, c’est la place laissée aux approches alternatives, fondées éventuellement aussi sur de la génération bout-en-bout (end-to-end), mais utilisant des modèles plus transparents et adaptés à la relation client.
Stay tuned, nous en reparlerons bientôt 😉.