Qu'est-ce qu'un grand modèle de langage (LLM) ?
Définition des grands modèles de langage
Un grand modèle de langage (LLM) est un algorithme de Deep Learning qui peut exécuter un éventail de tâches de traitement du langage naturel (NLP). Les grands modèles de langage utilisent des modèles de transformateur et sont entraînés sur des ensembles de données volumineux. Ils peuvent ainsi reconnaître, traduire, prédire ou générer des textes ou d'autres contenus.
On désigne également les grands modèles de langage comme des réseaux de neurones (NN), qui sont des systèmes informatiques s'inspirant du cerveau humain. Ces réseaux de neurones s'appuient sur un réseau de nœuds, disposés en couches, comme des neurones.
En plus d'enseigner les langages humains aux applications d'intelligence artificielle (IA), les grands modèles de langage peuvent aussi être entraînés pour réaliser différentes tâches, comme comprendre les structures de protéines, écrire le code d'un logiciel, et bien d'autres. Tout comme le cerveau humain, les grands modèles de langage doivent être préalablement entraînés, puis affinés, pour qu'ils puissent classer ou générer du texte, répondre à des questions, ou encore résumer un document. Leurs capacités à résoudre les problématiques qui leur sont soumises peuvent servir dans différents domaines, comme la santé, la finance et le divertissement. Les grands modèles de langage peuvent prendre en charge différentes applications du NLP, notamment la traduction, les chatbots, les assistants IA, etc.
Les grands modèles de langage comptent également un grand nombre de paramètres, qui s'apparentent aux souvenirs que la mémoire collecte lorsqu'elle est en plein apprentissage. Voyez ces paramètres comme la banque de connaissances du modèle.
Qu'est-ce qu'un modèle de transformateur ?
Un modèle de transformateur constitue l'architecture la plus courante d'un grand modèle de langage. Celle-ci se compose d'un encodeur et d'un décodeur. Un modèle de transformateur traite les données en convertissant les entrées en tokens, puis en réalisant des équations mathématiques simultanées pour découvrir les relations qui existent entre les tokens. L'ordinateur peut ainsi voir les schémas qu'un humain déterminerait si on lui soumettait la même requête.
Les modèles de transformateur s'appuient sur des mécanismes d'auto-attention, ce qui leur permettent d'apprendre plus rapidement que les modèles traditionnels, comme les modèles de longue mémoire à court terme (LSTM). Un modèle de transformateur auto-attentif peut examiner différentes parties d'une séquence, ou l'ensemble du contexte d'une phrase, pour générer des prédictions.
Principaux composants des grands modèles de langage
Les grands modèles de langage se composent de plusieurs couches de réseaux de neurones. Les couches récurrentes, les couches à action directe, les couches de plongement et les couches d'attention fonctionnent de pair pour traiter le texte d'entrée et générer le contenu de sortie.
La couche de plongement crée des plongements à partir du texte d'entrée. Cette partie du grand modèle de langage capture la signification sémantique et syntaxique de l'entrée, afin que le modèle puisse comprendre le contexte.
La couche à action directe (FFN) d'un grand modèle de langage est constituée de plusieurs couches entièrement connectée qui transforment les plongements d'entrée. En procédant ainsi, ces couches permettent au modèle de glaner des concepts généraux, c'est-à-dire de comprendre l'intention de l'utilisateur avec le texte d'entrée.
La couche récurrente interprète les mots du texte d'entrée dans l'ordre. Elle capture la relation entre les mots dans une phrase.
Le mécanisme d'attention permet à un grand modèle de langage de se concentrer sur des parties uniques du texte d'entrée approprié pour la tâche en cours. Cette couche permet au modèle de générer les sorties les plus précises.
Appliquer les transformateurs à vos applications de recherche
Il existe trois principaux types de grands modèles de langage :
- Les modèles de langage génériques ou bruts prédisent le mot suivant d'après le langage employé dans les données d'entraînement. Ces modèles de langage exécutent des tâches de récupération d'informations.
- Les modèles de langage adaptés aux instructions sont entraînés pour prédire des réponses selon les instructions fournies dans l'entrée. Ils peuvent ainsi procéder à une analyse des sentiments ou générer du texte ou du code.
- Les modèles de langage adaptés aux dialogues sont entraînés pour dialoguer et prédire la prochaine réponse. Pensez aux chatbots ou à l'IA conversationnelle.
Quelle est la différence entre les grands modèles de langage et l'IA générative ?
L'IA générative est un terme générique qui fait référence aux modèles d'intelligence artificielle qui sont capables de générer du contenu. L'IA générative peut générer du texte, du code, des images, des vidéos et de la musique. Parmi les exemples d'IA générative, citons Midjourney, DALL-E et ChatGPT.
Les grands modèles de langage sont un type d'IA générative. Ils sont entraînés sur du texte et produisent du contenu textuel. ChatGPT est un exemple célèbre d'IA générative textuelle.
Tous les grands modèles de langage font partie de l'IA générative1.
Comment les grands modèles de langage fonctionnent-ils ?
Un grand modèle de langage se base sur un modèle de transformateur. Il fonctionne de la manière suivante : il reçoit une entrée, il l'encode, puis il la décode pour produire une prédiction de sortie. Mais avant qu'un grand modèle de langage puisse recevoir une entrée de texte et générer une prédiction de sortie, il doit être entraîné pour qu'il puisse exécuter des fonctions générales, et il doit être ajusté pour pouvoir accomplir des tâches spécifiques.
Entraînement : les grands modèles de langage sont pré-entraînés à l'aide de grands ensembles de données textuelles venant de sites tels que Wikipedia, GitHub, etc. Ces ensembles de données regroupent des milliards de mots, dont la qualité aura une incidence sur les performances des grands modèles de langage. À ce stade, les grands modèles de langage entament un apprentissage non supervisé, ce qui signifie qu'ils traitent les ensembles de données fournis sans instructions particulières. Lors de ce processus, l'algorithme d'IA des LLM peut apprendre le sens des mots et comprendre les relations qui existent entre eux. Il apprend aussi à faire la distinction au niveau du sens suivant le contexte. Par exemple, il déterminera si "gauche" signifie l'opposé de "droite" ou le fait d'être "maladroit".
Ajustement : pour qu'un grand modèle de langage puisse effectuer une tâche spécifique, par exemple une traduction, il doit être ajusté en fonction de cette activité. L'ajustement optimise les performances de tâches spécifiques.
Ajustement selon l'invite (prompt-tuning) : il s'agit d'une fonction similaire à l'ajustement, lors de laquelle un modèle est entraîné pour accomplir une tâche spécifique par l'intermédiaire d'une invite de prompting en few-shot ou de prompting en zero-shot. Une invite est une instruction fournie à un LLM. Le prompting en few-shot apprend au modèle à prédire les sorties en lui donnant quelques exemples. Par exemple, dans cette analyse des sentiments, une invite en few-shot se présenterait comme suit :
Customer review: This plant is so beautiful!
Customer sentiment: positive
Customer review: This plant is so hideous!
Customer sentiment: negative
En s'appuyant sur le sens sémantique de "hideous" (hideux) et sur l'exemple fourni en opposition, le modèle de langage comprendra que le sentiment du client dans le deuxième exemple est "négatif".
À l'inverse, le prompting en zero-shot ne fournit aucun exemple au modèle de langage pour lui enseigner la façon de répondre aux entrées. À la place, il formule la question en définissant le sentiment qui s'applique à la phrase. Il indique clairement la tâche que le modèle de langage doit exécuter, mais ne fournit pas d'exemples de résolution de problèmes.
Cas d'utilisation des grands modèles de langage
Les grands modèles de langage peuvent servir à différentes finalités :
- Récupération d'informations : pensez à Bing ou à Google. Lorsque vous utilisez leur fonction de recherche, vous vous appuyez sur un grand modèle de langage pour produire des informations en réponse à une requête. Celui-ci est capable de récupérer des informations, de les résumer et de communiquer la réponse de façon conversationnelle.
- Analyse des sentiments : en tant qu'applications du traitement du langage naturel, les grands modèles de langage permettent aux entreprises d'analyser le sentiment des données textuelles.
- Génération de textes : de grands modèles de langage sous-tendent l'IA générative, comme ChatGPT, et peuvent générer du texte d'après des entrées. Ils peuvent produire un exemple de texte lorsqu'on les y invite. Par exemple : "Écris-moi un poème sur des palmiers dans le style d'Emily Dickinson".
- Génération de code : comme la génération de texte, la génération de code est une application de l'IA générative. Les LLM comprennent les schémas, ce qui leur permet de générer du code.
- Chatbots et IA conversationnelle : grâce aux grands modèles de langage, les chatbots ou l'IA conversationnelle d'un service client sont capables d'interagir avec les clients, d'interpréter le sens de leurs questions ou de leurs réponses, et souvent de leur fournir des réponses à leur tour.
En plus de ces cas d'utilisation, les grands modèles de langage peuvent compléter des phrases, répondre à des questions et résumer un texte.
Avec un tel éventail d'applications, on peut retrouver les grands modèles de langage dans une multitude de domaines :
- Technologie : les grands modèles de langage ont de nombreuses utilités, comme permettre aux moteurs de recherche de répondre aux requêtes, aider les développeurs à écrire du code, et bien plus encore.
- Santé et science : les grands modèles de langage sont capables de comprendre les protéines, les molécules, l'ADN et l'ARN. De ce fait, ils peuvent aider dans l'élaboration de vaccins, dans l'identification de traitements pour des maladies et dans l'amélioration de la médecine préventive. Les LLM sont également utilisés comme chatbots médicaux pour réaliser les admissions de patients ou des diagnostics de base.
- Service client : les LLM sont utilisés dans tous les secteurs dans le cadre du service client, sous la forme de chatbots ou d'IA conversationnelle par exemple.
- Marketing : les équipes marketing peuvent utiliser des LLM pour exécuter une analyse des sentiments afin de générer rapidement des idées de campagnes ou des textes, comme des synopsis, et bien plus encore.
- Domaine juridique : depuis la recherche dans de grands ensembles de données textuelles jusqu'à la génération d'un jargon juridique, les grands modèles de langage peuvent aider les avocats, les assistants juridiques et le personnel juridique.
- Services bancaires les LLM peuvent aider les institutions bancaires à détecter les fraudes.
Avantages des grands modèles de langage
Prenant en charge un vaste éventail d'applications, les grands modèles de langage présentent des avantages significatifs pour la résolution de problèmes, étant donné qu'ils fournissent des informations dans un style clair et conversationnel, facile à comprendre pour les utilisateurs.
Vaste éventail d'applications : les grands modèles peuvent servir pour la traduction, la complétion de phrases, l'analyse des sentiments, la réponse aux questions, les équations mathématiques et bien plus encore.
Amélioration continue : les performances des grands modèles de langage s'améliorent et évoluent en continu au fur et à mesure que des données et des paramètres sont ajoutés. En d'autres termes, plus les grands modèles apprennent, plus ils s'optimisent. De plus, les grands modèles de langage peuvent présenter ce qu'on appelle "l'apprentissage en contexte". Une fois qu'un LLM a été pré-entraîné, le prompting en few-shot lui permet d'apprendre à partir d'une invite sans que d'autres paramètres supplémentaires ne soient nécessaires. Ainsi, il continue à apprendre de façon constante.
Apprentissage rapide : lors d'un apprentissage en contexte, les grands modèles de langage apprennent rapidement car ils n'ont pas besoin de pondérations, ni de ressources, ni de paramètres supplémentaires pour l'entraînement. Ils n'ont pas besoin non plus d'une pléthore d'exemples.
Limitations et défis des grands modèles de langage
Les grands modèles de langage peuvent nous donner l'impression qu'ils comprennent le sens de ce qu'on leur dit et qu'ils sont capables de répondre de façon précise. Néanmoins, il s'agit d'outils technologiques, et de par ce fait, ils sont confrontés à de nombreux défis.
Hallucinations : une hallucination survient lorsqu'un LLM produit une sortie qui est fausse ou qui ne correspond pas à l'intention de l'utilisateur. C'est le cas par exemple s'il affirme qu'il est humain, qu'il a des émotions ou qu'il est amoureux de l'utilisateur. Étant donné que les grands modèles de langage prédisent le prochain mot correct ou la prochaine phrase correcte d'un point de vue syntaxique, ils ne peuvent pas avoir une interprétation totale de ce qu'une personne veut dire. Le résultat peut parfois donner ce que l'on appelle une "hallucination".
Sécurité : les grands modèles de langage présentent des risques de sécurité importants lorsqu'ils ne sont pas gérés ou surveillés de manière adéquate. Ils peuvent faire fuiter des informations personnelles, contribuer aux escroqueries par phishing ou encore produire des spams. Les utilisateurs malveillants peuvent reprogrammer l'IA selon leurs idéologies ou leurs biais, et de là, propager des informations erronées. Les répercussions peuvent être dévastatrices à l'échelle mondiale.
Biais : les données utilisées pour entraîner les modèles de langage auront une incidence sur les sorties qu'ils généreront. De ce fait, si les données représentent un seul segment de population ou manquent de diversité, les sorties produites par le grand modèle de langage feront de même.
Consentement : les grands modèles de langage sont entraînés sur des milliards d'ensembles de données, qui peuvent avoir été obtenus, pour certains, de manière non consensuelle. Lors du moissonnage de données sur Internet, les grands modèles de langage ne tiennent pas forcément compte des droits de copyright, peuvent plagier du contenu écrit et peuvent attribuer une autre finalité à un contenu privé sans avoir obtenu l'autorisation du propriétaire ou de l'artiste d'origine. Lorsqu'ils produisent des résultats, il n'est pas possible de remonter aux données d'origine sur lesquelles ils se sont appuyées, et bien souvent, les créateurs ne sont pas crédités, ce qui peut exposer les utilisateurs à des problèmes de violation de copyright.
Ils peuvent aussi moissonner des données personnelles, comme le nom de modèles ou de photographes à partir de descriptions de photos, ce qui peut compromettre la confidentialité2. L'utilisation de LLM a déjà fait l'objet de poursuites judiciaires, notamment dans le cas du procès intenté par Getty Images3, pour violation de propriété intellectuelle.
Scaling : le scaling et la maintenance des grands modèles de langage peuvent s'avérer difficiles, chronophages et gourmands en ressources.
Déploiement : pour déployer les grands modèles de langage, les éléments suivants sont nécessaires : le Deep Learning, un modèle de transformateur, des logiciels et du matériel distribués, et une expertise technique générale.
Exemples de grands modèles de langage populaires
Plusieurs grands modèles de langage ont connu une ascension fulgurante. Leur adoption s'est démocratisée dans tous les secteurs. Vous avez très probablement entendu parler de ChatGPT, une forme de chatbot d'IA générative.
Parmi les autres LLM populaires, citons :
- PaLM : le modèle Pathways Language Model (PaLM) de Google est un modèle de transformateur capable de faire preuve de bon sens et de raisonner de manière arithmétique, d'expliquer une blague, de générer du code et d'effectuer des traductions.
- BERT : le modèle de langage Bidirectional Encoder Representations from Transformers (BERT) a également été développé par Google. Il s'agit d'un modèle basé sur un transformateur, capable de comprendre le langage naturel et de répondre aux questions.
- XLNet : modèle de langage de permutation, XLNet génère des prédictions dans un ordre aléatoire, ce qui le distingue de BERT. Il évalue le schéma des tokens encodés, puis prédit les tokens dans un ordre aléatoire, et non pas dans un ordre établi.
- GPT : les transformateurs génératifs pré-entraînés constituent probablement les grands modèles de langage les plus connus. Développé par OpenAI, un GPT est un modèle de base populaire, dont les itérations numérotées sont des améliorations des versions précédentes (GPT-3, GPT-4, etc.). Il peut être ajusté pour réaliser des tâches spécifiques en aval. En voici quelques exemples : EinsteinGPT, mis au point par Salesforce pour la GRC, et BloombergGPT, développé par Bloomberg pour la finance.
Avancées à venir pour les grands modèles de langage
L'arrivée de ChatGPT a mis en avant les grands modèles de langage, entraînant spéculation et débats sur ce à quoi ressemblera l'avenir.
Étant donné que les grands modèles de langage continuent à prendre de l'essor et à améliorer leur maîtrise du langage naturel, il y a beaucoup d'inquiétudes quant à leurs répercussions à venir sur le marché du travail. Il est évident que les grands modèles de langage seront capables de remplacer les travailleurs dans certains domaines.
Même s'ils peuvent contribuer à améliorer la productivité et l'efficacité des processus lorsqu'ils sont mis entre de bonnes mains, des questions éthiques se posent en ce qui concerne leur utilisation dans la société humaine.
Présentation d'Elasticsearch Relevance Engine
Pour pallier les limitations actuelles des LLM, Elasticsearch Relevance Engine (ESRE) est un moteur de pertinence conçu pour les applications de recherche adossées à l'intelligence artificielle. Avec ESRE, les développeurs ont la possibilité de créer leur propre application de recherche sémantique, utiliser leurs propres modèles de transformateurs, ainsi que combiner le NLP et l'IA générative pour améliorer l'expérience de recherche des clients.
Booster votre pertinence avec Elasticsearch Relevance Engine
Ressources sur les grands modèles de langage
- Language models in Elasticsearch
- Overview of Natural language processing (NLP) in the Elastic Stack
- Compatible third-party models with the Elastic Stack
- Guide to trained models in the Elastic Stack
- 5 composants techniques de la recherche de similarités dans les images
Notes
1 Myer, Mike. "Are Generative AI and Large Language Models the Same Thing?", Quiq, 12 mai 2023, quiq.com/blog/generative-ai-vs-large-language-models/.
2 Sheng, Ellen. "In generative AI legal Wild West, the courtroom battles are just getting started", CNBC, 3 avril 2023, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html (consulté le 29 juin 2023).
3 Déclaration (en anglais) de Getty Images, Getty Images, 17 janvier 2023, https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (consulté le 29 juin 2023).