Grand modèle de langage

Grand modèle de langage
Type
Nom court
(en) LLM
Aspect de

Un grand modèle de langage, grand modèle linguistique[2], grand modèle de langue,[3], modèle de langage de grande taille ou encore modèle massif de langage[4] (abrégé LLM de l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus).

Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé[5]. Les LLM sont apparus vers 2018 et ont été utilisés pour la mise en œuvre d'agents conversationnels.

Ils excellent également dans un large éventail de tâches. Au lieu d'être entraînés pour une tâche spécifique (telle que l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique), ils sont entraînés à prédire une suite probable à une entrée donnée[6]. La qualité de leur sortie semble être en fonction de la quantité des ressources (taille des paramètres, puissance de calcul, données) et de la qualité des données qui leur sont fournies[7].

Les modèles de langage possédant un grand nombre de paramètres s'avèrent capable de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Ils font également preuve d'une connaissance générale considérable sur le monde, et sont capables de « mémoriser » une grande quantité de faits lors de l'entraînement.

À la suite de leur succès, l'attention du champ de recherche sur le traitement du langage naturel change de l'entraînement de modèles supervisés spécialisés pour des tâches spécifiques aux LLM.

Propriétés

Ensembles de données de pré-entraînement

Les LLM sont pré-entraînés sur de grands ensembles de données textuelles comme Common Crawl[8], The Pile[9], MassiveText[10], Wikipedia ou GitHub. Ces ensembles de données contiennent jusqu'à 10 000 milliards de mots.

Le stock de données linguistiques de haute qualité se situe entre 4,6 et 17 billions de mots, soit un ordre de grandeur similaire à celui des plus grands ensembles de données textuelles disponibles[11].

Lois d'échelle

En général, on peut caractériser un LLM avec quatre paramètres : la taille du modèle, la taille du jeu de données d'apprentissage, le coût de l'apprentissage et la performance après apprentissage. On constate empiriquement que ces paramètres sont liées par des lois statistiques simples, appelées "lois d'échelle".

Une loi de mise à l'échelle particulière (Chinchilla scaling) pour le LLM entraîné de manière autorégressive (c'est-à-dire avec prédiction du mot suivant étant donné un segment de texte) pour une époque, avec un calendrier de taux d'apprentissage log-log, stipule que[12]:

où les variables sont :
  • est le coût d'entraînement du modèle, en FLOPs ;
  • est le nombre de paramètres du modèle ;
  • est le nombre de jetons dans l'ensemble d'apprentissage ;
  • est la perte de log-vraisemblance négative moyenne par jeton (nats /jeton), obtenue par le LLM entraîné sur l'ensemble de données de test ;

et les paramètres statistiques sont :

  • , ce qui signifie qu'il en coûte 6 FLOP par paramètre pour s'entraîner sur un jeton[13] ;
  • .

Capacités émergentes

Crédit image:
Jason Wei et al
licence CC BY 4.0 🛈
Sur un certain nombre de repères en langage naturel impliquant des tâches telles que la réponse aux questions, les modèles ne fonctionnent pas mieux que le hasard jusqu'à ce qu'ils atteignent une certaine échelle (dans ce cas, mesurée par le calcul d'entraînement), moment auquel leurs performances augmentent fortement. Ce sont des exemples de capacités émergentes.

Généralement les performances de grands modèles de langage sur diverses tâches peuvent être extrapolées sur la base des performances de modèles plus petits similaires. Cependant, les grands modèles subissent parfois un « déphasage discontinu » où le modèle acquiert soudainement des capacités substantielles non vues dans les modèles plus petits. Celles-ci sont connues sous le nom de « capacités émergentes » et ont fait l'objet d'études approfondies. Les chercheurs notent que de telles capacités « ne peuvent pas être prédites simplement en extrapolant les performances de modèles plus petits »[14]. Ces capacités sont découvertes plutôt que programmées ou conçues, dans certains cas seulement après le déploiement public du LLM[7]. Des centaines de capacités émergentes ont été décrites. Les exemples incluent l'arithmétique en plusieurs étapes, la passation d'examens de niveau universitaire, l'identification du sens voulu d'un mot[14], l'incitation à la chaîne de pensée[14], le décodage de l'alphabet phonétique international, le décryptage des lettres d'un mot[pas clair], l'identification du contenu offensant dans les paragraphes de l’hinglish (une combinaison de l'hindi et de l'anglais) et la génération d'un équivalent anglais aux proverbes kiswahili[15].

Hallucination

Les LLM génèrent parfois des affirmations fausses qui ne semblent pas être justifiées par leurs données d'entraînement, on parle alors d'« hallucination »[16].

Biais et limites

Les biais sont une préoccupation car tout modèle complexe créé par des humains peut refléter les biais des équipes qui préparent et conçoivent les LLM, et des scientifiques des données qui entraînent et mettent en œuvre les modèles[17].

Biais linguistique

Le biais linguistique fait référence à un type de biais d'échantillonnage statistique lié au langage d'une requête qui conduit à « un écart systématique dans les informations d'échantillonnage qui l'empêche de représenter avec précision la véritable couverture des sujets et des points de vue disponibles dans leur référentiel »[18]. Luo et coll.[18] montrent que les grands modèles linguistiques actuels, car ils sont principalement formés sur des données en langue anglaise, présentent souvent les points de vue anglo-américains comme la vérité, tout en minimisant systématiquement les perspectives non anglaises comme étant non pertinentes, fausses ou bruitées. Interrogé sur des idéologies politiques telles que « Qu'est-ce que le libéralisme ? », ChatGPT, tel qu'il a été formé sur des données centrées sur l'anglais, décrit le libéralisme du point de vue anglo-américain, en mettant l'accent sur les aspects des droits de l'homme et de l'égalité, tandis que des aspects tout aussi valables comme « s'oppose à l'État », l'intervention dans la vie personnelle et économique » du point de vue vietnamien dominant et la « limitation du pouvoir gouvernemental » du point de vue chinois dominant sont absents[18].

Préjugés sexistes

Les préjugés sexistes font référence à la tendance de ces modèles à produire des résultats injustement préjugés en faveur d’un sexe plutôt qu’un autre. Ce biais provient généralement des données sur lesquelles ces modèles sont formés. Par exemple, les grands modèles linguistiques attribuent souvent des rôles et des caractéristiques basés sur les normes de genre traditionnelles ; elle pourrait associer principalement les infirmières ou les secrétaires aux femmes et les ingénieurs ou les PDG aux hommes[19].

Stéréotypes

Au-delà du genre et de la race, ces modèles peuvent renforcer un large éventail de stéréotypes, notamment ceux fondés sur l’âge, la nationalité, la religion ou la profession. Cela peut conduire à des résultats qui généralisent ou caricaturent injustement des groupes de personnes, parfois de manière préjudiciable ou désobligeante[20].

Biais politique

Les préjugés politiques font référence à la tendance des algorithmes à favoriser systématiquement certains points de vue politiques, idéologies ou résultats par rapport à d’autres. Les modèles linguistiques peuvent également présenter des préjugés politiques. Étant donné que les données de formation incluent un large éventail d'opinions et de couvertures politiques, les modèles peuvent générer des réponses qui penchent vers des idéologies ou des points de vue politiques particuliers, en fonction de la prévalence de ces points de vue dans les données[21].

Mise en œuvre

  • En amont (dans la construction du LLM), des biais sont engrammés dans les données ; ils sont par exemple liés à la vision du monde des opérateurs (et donc à leur époque), à la langue et aux cultures des programmeurs[17]. Ils sont d'autre part liés aux biais présents dans les bases de données d'entrainement de l'IA (stéréotypes discriminatoires, inexactitudes, incohérences…)[22] ; les plus grandes bases de données qui ont entrainé ChatGPT ont été la base des brevets américaine et Wikipedia en anglais, qui ne reflètent pas toute la richesse et la diversité du monde). Des LLM entraînés par exemple avec un corpus de textes de discussions sur Twitter associeront de fortes probabilités à des énoncés agressifs, racistes et d'exclusion, biaisés, toxiques ou sensibles si de tels langages sont présents dans leurs données d'entraînement[23].
  • En aval le prompt peut lui même introduire des biais qui orienteront la réponse de l'IA utilisant un modèle LLM. Les LLM peuvent apprendre, et ensuite plus ou moins perpétuer voire amplifier des biais sociaux délétères[24].

Pour limiter ces biais, il est possible de régulièrement mettre à jour la qualité et la taille des bases de connaissances des LLM. Des processus dits « d'IA responsable » peuvent corriger une grande partie des biais. Ils le font via des techniques et des outils ad hoc, c'est-à-dire développés (et en cours d'amélioration) pour « garantir que les systèmes d'IA peuvent respecter ces définitions, en traitant les données au préalable, en modifiant les décisions du système par la suite, ou en intégrant les définitions d'équité dans le processus de formation lui-même ». Ces techniques s'appuient notamment sur des audits par des tiers indépendants, des études scientifiques multidisciplinaires sur les biais, et des « équipes rouges » internes chargées de tester le système utilisant le LLM[22].
Un autre processus responsable est de diversifier la communauté de l'IA (pour collaborativement mieux anticiper, examiner et repérer les biais, en faisant participer les communautés discriminées et affectées par ces biais)[22]. Il est aussi nécessaire, lors des phases d'apprentissage du LLM, de diversifier les sources de données ; et dans le même temps d'accorder plus de poids aux données et conversations basées sur des faits et/ou basés sur des preuves (ex. : Médecine fondée sur les faits) et sur la science (par rapport aux conversations basées sur des opinions), grâce à l'exécution d'algorithmes régulièrement contrôlés par des humains, grâce à des analyses comparées des résultats, et à la mobilisation de techniques d'explicabilité des résultats[22]. Dans certains cas des données synthétiques conçues pour être aussi peu biaisées que possibles peuvent être utilisées.

Architecture

Un modèle de langage reçoit typiquement en entrée des données séquentielles de longueur variable. Pendant longtemps, l'architecture utilisée préférentiellement pour ce genre de données était celle dite de réseaux de neurones récurrents. Cette architecture présentait comme inconvénient majeur de mal se prêter à la parallélisation des calculs nécessaires à l'entrainement.

En 2017, un article très influent[25] suggéra qu'une architecture non-récurrente, le transformeur, basée sur un mécanisme dit d'attention, peut avec succès traiter des données séquentielles tout en étant parallélisable lors de l'entrainement.

C'est l'avènement de cette architecture, et surtout les gains en performance qu'elle procure, qui ont permis aux chercheurs d'augmenter considérablement le nombre de paramètres de leurs modèles, d'où le qualificatif « grand » les concernant. La plupart des grands modèles de langage utilisent donc cette architecture, même si la recherche se poursuit pour trouver des architectures encore plus performantes[26],[27],[28],[29].

Analyse lexicale

Les LLM sont des fonctions mathématiques dont l'entrée et la sortie sont des listes de nombres. Pour que ceux-ci fonctionnent avec des mots une conversion est nécessaire.

Cette conversion est ce qu'on appelle l'analyse lexicale. L'analyseur lexical est une fonction bijective qui établit une correspondance entre des textes et des listes d'entiers. Il est généralement d'abord adapté à l'ensemble de données d'entraînement complet, puis gelé, avant que le modèle de langage ne soit entraîné. Un choix courant est le codage par paires d'octets.

Une autre fonction des analyseurs lexicaux est la compression de texte, qui épargne du temps de calcul. Des mots ou expressions courants tels que « où est » peuvent être encodés dans une seule unité lexicale (ou jeton), au lieu d'être encodés dans 7 caractères. La série OpenAI GPT utilise un analyseur lexical où une unité lexicale correspond à environ 4 caractères, soit environ 0,75 mots dans un texte anglais courant[30]. Un texte anglais peu courant est moins prévisible, donc moins compressible, nécessitant ainsi plus de jetons pour être encodé.

Un analyseur lexical convertit une suite de caractères en un nombre entier dans la plage , où est appelé la taille de vocabulaire.

Certains sont capables de gérer des textes arbitraires en opérant généralement directement sur Unicode, mais d'autres non. Lorsqu'il rencontre du texte non encodable, un analyseur lexical génère une unité lexicale spéciale (par exemple 0) qui représente un « texte inconnu ». Ceci est souvent écrit comme [UNK], comme dans l'article du modèle BERT.

Une autre unité lexicale spéciale couramment utilisée est [PAD] (souvent 1), pour « padding ». Ceci est utilisé car les LLM sont généralement utilisés sur différents lots de texte à la fois, et ces textes ne sont pas codés à la même longueur. Étant donné que les LLM exigent généralement que l'entrée soit un tableau de taille fixe, les textes les plus courts doivent être complétés.

Sortie

La sortie d'un LLM est un vecteur est la taille du lexique produit lors de l'analyse lexicale. Le vecteur est ensuite passé par une fonction softmax pour obtenir  ;

  • le vecteur est généralement appelé le vecteur logit non normalisé ;
  • le vecteur est appelé le vecteur de probabilité.

Puisque le vecteur a entrées, toutes non négatives, et dont la somme est égale à 1, on peut l'interpréter comme une distribution de probabilité sur le vocabulaire du LLM (indexé par ).

Entraînement

La plupart des LLM sont entraînés par pré-entraînement génératif, c'est-à-dire qu'étant donné un ensemble de données d'entraînement de jetons de texte, le modèle prédit les jetons dans l'ensemble de données. Il existe deux styles généraux de pré-entrainement pour la génération[31] :

  • autorégressif (style GPT, "prédire le mot suivant") : étant donné un segment de texte comme "J'aime manger", le modèle prédit les jetons suivants, comme "crème glacée".
  • masqué ("style BERT", " test de cloze ") : Étant donné un segment de texte comme "J'aime [MASQUE] [MASQUE] glacée", le modèle prédit les jetons masqués, comme "manger de la crème".

Les LLM peuvent être entraînés sur des tâches auxiliaires qui testent leur compréhension de la distribution des données, telles que la prédiction de la phrase suivante (NSP), dans laquelle des paires de phrases sont présentées et le modèle doit prédire si elles apparaissent consécutivement dans le corpus d'entraînement.

Habituellement, les LLM sont entraînés pour minimiser une fonction de perte spécifique : la probabilité log négative moyenne par jeton (également appelée perte d'entropie croisée).[réf. nécessaire] Par exemple. si un modèle autorégressif, étant donné "j'aime manger", prédit une distribution de probabilité alors la perte de vraisemblance logarithmique négative sur ce jeton est .

Pendant l'entraînement, la perte de régularisation est également utilisée pour stabiliser l'entraînement. Cependant, la perte de régularisation n'est généralement pas utilisée pendant les tests et l'évaluation. Il y a aussi beaucoup plus de critères d'évaluation que la simple vraisemblance logarithmique négative. Voir la section ci-dessous pour plus de détails.

Taille de l'ensemble de données d'entraînement

Les premiers LLM ont été entraînés sur des corpus contenant de l'ordre de milliards de mots.

GPT-1, le premier modèle de la série numérotée de modèles de transformeurs génératifs pré-formés d'OpenAI, a été entrainé en 2018 sur BookCorpus, composé de 985 millions de mots[32]. La même année, BERT a été entraîné sur une combinaison de BookCorpus et de Wikipedia anglais, totalisant 3,3 milliards de mots. Depuis lors, les corpus d'entraînement pour les LLM ont augmenté de plusieurs ordres de grandeur, atteignant jusqu'à des billions de jetons.

Coût de l'entraînement

Les premiers LLM sont coûteux à entraîner en termes de calcul. Une étude de 2020 a estimé le coût de l'entraînement d'un modèle de 1,5 milliard de paramètres (2 ordres de grandeur inférieurs à l'état de l'art à l'époque) à 1,6 million de dollars. Les progrès des logiciels et du matériel ont considérablement réduit les coûts, avec un article de 2023 faisant état d'un coût de 72 300 heures A100-GPU pour entraîner un modèle de 12 milliards de paramètres.

Pour le LLM basé sur l'architecture transformer, il en coûte 6 FLOP par paramètre pour s'entraîner sur un jeton. Ce coût d'entraînement est beaucoup plus élevé que le coût d'inférence, qui est de 1 à 2 FLOP par paramètre pour inférer sur un jeton.

Application aux tâches en aval

Entre 2018 et 2020, la méthode standard pour exploiter un LLM pour une tâche spécifique de traitement du langage naturel (TAL) consistait à affiner le modèle avec un entraînement supplémentaire spécifique à la tâche. Il a ensuite été découvert que des LLM plus puissants tels que GPT-3 peuvent résoudre des tâches sans entraînement supplémentaire via des techniques "d'incitation", dans lesquelles le problème à résoudre est présenté au modèle sous forme d'invite de texte, éventuellement avec quelques exemples textuels similaires. problèmes et leurs solutions.

Réglage fin

Le réglage fin est la pratique consistant à modifier un modèle de langage pré-entraîné existant en l'entraînant (de manière supervisée) sur une tâche spécifique (par exemple, l'analyse des sentiments, la reconnaissance d'entités nommées ou le marquage d'une partie du discours). C'est une forme d'apprentissage par transfert. Cela implique généralement l'introduction d'un nouvel ensemble de poids reliant la couche finale du modèle de langage à la sortie de la tâche en aval. Les poids d'origine du modèle de langage peuvent être "figés", de sorte que seule la nouvelle couche de poids les reliant à la sortie est apprise pendant l'apprentissage. Alternativement, les poids d'origine peuvent recevoir de petites mises à jour (éventuellement avec des couches antérieures gelées).

Requête

Popularisé par GPT-3[14], un problème populaire à résoudre pour les LLM est le suivant : on donne un texte que le modèle doit résoudre en fournissant une complétion (via l'inférence). On nomme cette approche « requête (prompt) en quelques coups » car la requête comprend un petit nombre d'exemples de commande/prompt/complétion similaires (problème, solution). Par exemple, une tâche d'analyse des sentiments consistant à étiqueter le sentiment d'une critique de film pourrait être généré comme suit[14] :

Critique : Ce film est nul.
Sentiment : négatif
Critique : Ce film est fantastique !
Sentiment :

Si le modèle affiche "positif", alors il a correctement résolu la tâche. Dans la requête à partir de zéro, aucun exemple de résolution n'est fourni. Un exemple de requête à partir de zéro pour la même tâche d'analyse des sentiments serait

Le sentiment associé à la critique de film "Ce film est fantastique !" est

Il a été démontré que les performances en quelques coups de LLM permettent d'obtenir des résultats compétitifs sur les tâches de traitement du langage, dépassant parfois les approches de réglage fin de pointe antérieures. Des exemples de telles tâches traitement du langage sont la traduction, la réponse aux questions, les tâches de complétion, le décryptage des mots et l'utilisation d'un nouveau mot dans une phrase, et le codage par exemple en médecine à partir d'entretiens, ou la classification à partir d'images ou videos[34]. La création et l'optimisation de telles génération concerne l'"ingénierie des invites" ou des requêtes, ou la "rédactique"selon un paradigme de programmation différentiable .

Réglage des instructions

Le réglage des instructions est une forme de réglage fin conçu pour faciliter des interactions d'incitation au prompt à partir de zéro plus naturelles et plus précises. Étant donné une entrée de texte, un modèle de langage pré-formé générera une complétion qui correspond à la distribution du texte sur lequel il a été entraîné. Un modèle de langage naïf donné l'invite "Écrire un essai sur les principaux thèmes de Hamlet ." pourrait produire : « Une pénalité de retard de 10 % par jour sera appliquée aux soumissions reçues après le 17 mars ». Dans le réglage des instructions, le modèle de langage est entraîné sur de nombreux exemples de tâches formulées sous forme d'instructions en langage naturel, ainsi que des réponses appropriées.

Diverses techniques de réglage des instructions ont été appliquées dans la pratique. Un exemple, "self-instruct", affine le modèle de langage sur un ensemble d'exemples d'apprentissage qui sont eux-mêmes générés par un LLM (amorcé à partir d'un petit ensemble initial d'exemples générés par l'homme).

Le protocole InstructGPT d'OpenAI implique un réglage fin supervisé sur un ensemble de données de paires générées par l'homme (invite, réponse), suivi d'un apprentissage par renforcement à partir de la rétroaction humaine (RLHF), dans lequel un modèle de récompense a été appris supervisé sur un ensemble de données de préférences humaines, puis ce modèle de récompense a été utilisé pour entraîner le LLM lui-même par une optimisation proximale des politiques.

Évaluation

Perplexité

La mesure la plus couramment utilisée de la performance d'un modèle de langage est sa perplexité sur un corpus de texte donné. La perplexité est une mesure de la capacité d'un modèle à prédire le contenu d'un ensemble de données ; plus la probabilité que le modèle attribue à l'ensemble de données est élevée, plus la perplexité est faible. Mathématiquement, la perplexité est définie comme l'exponentielle de la moyenne de la log-vraisemblance négative par jeton :


ici est le nombre de jetons dans le corpus de texte, et le "contexte du jeton i" dépend du type spécifique de LLM utilisé. Si le LLM est autorégressif, alors le "contexte pour le jeton i" est le segment de texte apparaissant avant le jeton i. Si le LLM est masqué, alors "contexte pour le jeton i" est le segment de texte entourant le jeton i.

Étant donné que les modèles de langage peuvent suradapter à leurs données d'apprentissage, les modèles sont généralement évalués en fonction de leur perplexité sur un ensemble de tests de données invisibles. Cela présente des défis particuliers pour l'évaluation de grands modèles de langage. Au fur et à mesure qu'ils sont entraînés sur des corpus de texte de plus en plus volumineux largement extraits du Web, il devient de plus en plus probable que les données d'entraînement des modèles incluent par inadvertance des parties d'un ensemble de tests donné.

Cette notion est à l'origine du nom de l'IA Perplexity AI créée en août 2022[36].

Ensembles de données et points de repère spécifiques aux tâches

Un grand nombre d'ensembles de données de test de validation ou de performance ont également été développés pour évaluer les capacités des modèles de langage sur des tâches en aval plus spécifiques. Les tests peuvent être conçus pour évaluer une variété de capacités, y compris les connaissances générales, le raisonnement de bon sens et la résolution de problèmes mathématiques.

Une grande catégorie d'ensembles de données d'évaluation est les ensembles de données de questions-réponses, consistant en des paires de questions et de réponses correctes, par exemple, ("Les Sharks de San Jose ont-ils remporté la Coupe Stanley?" , "Non"). Une tâche de réponse aux questions est considérée comme un « livre ouvert » si l'invite du modèle comprend un texte à partir duquel la réponse attendue peut être dérivée (par exemple, la question précédente pourrait être jointe à un texte qui comprend la phrase « Les Sharks ont atteint la coupe Stanley finales une fois, perdant contre les Penguins de Pittsburgh en 2016."). Sinon, la tâche est considérée comme "livre fermé", et le modèle doit s'appuyer sur les connaissances retenues pendant l'entrainement. Voici quelques exemples d'ensembles de données de réponse aux questions couramment utilisés : TruthfulQA, Web Questions, TriviaQA et SQuAD.

Les ensembles de données d'évaluation peuvent également prendre la forme d'une complétion de texte, le modèle sélectionnant le mot ou la phrase la plus probable pour compléter une invite, par exemple : "Alice était amie avec Bob. Alice est allée rendre visite à son amie, ____".

Certains repères composites ont également été développés, qui combinent une diversité d'ensembles de données et de tâches d'évaluation différents. Les exemples incluent GLUE, SuperGLUE, MMLU, BIG-bench et HELM[37].

Auparavant, il était courant de rapporter les résultats sur une partie non conservée d'un ensemble de données d'évaluation après avoir effectué un réglage fin supervisé sur le reste. Il est maintenant plus courant d'évaluer un modèle pré-formé directement par des techniques d'incitation, bien que les chercheurs varient dans les détails de la façon dont ils formulent des invites pour des tâches particulières, en particulier en ce qui concerne le nombre d'exemples de tâches résolues qui sont associés à l'invite (c. valeur de n dans l'invite n -shot).

Évaluations construites de manière contradictoire

En raison du rythme rapide d'amélioration des grands modèles de langage, les repères d'évaluation ont souffert de courtes durées de vie, les modèles de pointe « saturant » rapidement les repères existants, dépassant les performances des annotateurs humains, conduisant à des efforts pour remplacer ou augmenter le repère avec tâches plus exigeantes.

Certains ensembles de données ont été construits de manière contradictoire, en se concentrant sur des problèmes particuliers sur lesquels les modèles de langage existants semblent avoir des performances inhabituellement médiocres par rapport aux humains. Un exemple est l'ensemble de données TruthfulQA, un ensemble de données de questions-réponses composé de 817 questions auxquelles les modèles de langage sont susceptibles de répondre de manière incorrecte en imitant les faussetés auxquelles ils ont été exposés à plusieurs reprises pendant l'entraînement. Par exemple, un LLM peut répondre « Non » à la question « Pouvez-vous apprendre de nouveaux tours à un vieux chien ? » en raison de son exposition à l'expression anglaise, vous ne pouvez pas apprendre de nouveaux tours à un vieux chien, même si ce n'est pas littéralement vrai.


Un autre exemple d'ensemble de données d'évaluation contradictoire est Swag et son successeur, HellaSwag, des collections de problèmes dans lesquels l'une des multiples options doit être sélectionnée pour compléter un passage de texte. Les complétions incorrectes ont été générées par échantillonnage à partir d'un modèle de langage et filtrage avec un ensemble de classificateurs. Les problèmes qui en résultent sont insignifiants pour les humains, mais au moment où les ensembles de données ont été créés, les modèles de langage de pointe étaient peu précis. Par exemple:

Nous voyons un panneau indiquant un centre de remise en forme. Nous voyons ensuite un homme parler à la caméra et assis et allongé sur un ballon d'exercice. L'homme...
a) montre comment augmenter l'efficacité de l'exercice en faisant monter et descendre des balles.
b) bouge tous ses bras et ses jambes et développe beaucoup de muscles.
c) joue ensuite la balle et nous assistons à une démonstration de graphisme et de taille de haie.
d) effectue des redressements assis tout en étant sur le ballon et en parlant.

BERT sélectionne b) comme l'achèvement le plus probable, bien que la bonne réponse soit d).

Liste des grands modèles de langage

Liste des grands modèles de langage
Nom Date de sortie[note 1] Créé par Taille[note 2] Taille des données Licence[note 3] Notes
BERT Google 340 millions 3.3 milliards de mots Apache 2.0[38] Un modèle linguistique précoce et influent, mais uniquement codant et donc non conçu pour être guidé ou génératif[39].
XLNet Google ~340 millions[40] 33 milliards de mots Une alternative au BERT ; conçu comme un encodeur uniquement[41],[42]
GPT-2 OpenAI 1.5 milliard 40GB[43] (~10 milliards jetons)[44] MIT[45] modèle polyvalent basé sur l'architecture transformeurs
GPT-3 OpenAI 175 milliards 499 milliards de jetons[44] public web API Une variante affinée de GPT-3, appelée GPT-3.5, a été mise à la disposition du public par le biais d'une interface web appelée ChatGPT en 2022.
GPT-Neo EleutherAI 2.7 milliards[46] 825 GiB MIT[47] Le premier d'une série d'alternatives GPT-3 gratuites publiées par EleutherAI. GPT-Neo a surpassé un modèle GPT-3 de taille équivalente sur certains bancs d'essai, mais s'est avéré nettement moins performant que le plus grand GPT-3.
GPT-J EleutherAI 6 milliards[48] 825 GiB[49] Apache 2.0 Modèle linguistique de type GPT-3
Megatron-Turing NLG [50] Microsoft et Nvidia 530 milliards 338.6 milliards de jetons Restricted web access Architecture standard mais entraînée sur une grappe de supercalculateurs.
Ernie 3.0 Titan Baidu 260 milliards[51] 4 Tb Propriétaire LLM en langue chinoise. Ernie Bot est basé sur ce modèle.
Claude[52] Anthropic 52 milliards 400 milliards de jetons[53] Closed beta Ajusté pour un comportement souhaitable dans les conversations.
GLaM Google 1.2 trillion 1.6 trillion de jetons Propriétaire Modèle de mélange d'experts peu dense, ce qui rend l'entraînement plus coûteuse mais l'inférence moins coûteuse que pour le modèle GPT-3.
Gopher DeepMind 280 milliards[54] 300 milliards de jetons[55] Propriétaire
LaMDA Google 137 milliards 1.56T mots, 168 milliards de jetons[55] Propriétaire Spécialisé dans la génération de réponses dans les conversations. Utilisé dans le chatbot Google Bard.
GPT-NeoX EleutherAI 20 milliards[56] 825 GiB[49] Apache 2.0 basé sur l'architecture Megatron
Chinchilla DeepMind 70 milliards 1.4 trillion de jetons Propriétaire Modèle à paramètres réduits entraîné sur un plus grand nombre de données. Utilisé dans le robot Sparrow.
PaLM Google 540 milliards 768 milliards jetons Propriétaire visant à atteindre les limites pratiques de la maquette
OPT Meta 175 milliards[57] 180 milliards jetons Non-commercial research[note 4] Architecture GPT-3 avec quelques adaptations de Megatron
YaLM 100B Yandex 100 milliards 1.7TB[58] Apache 2.0 Modèle anglais-russe basé sur Megatron-LM de Microsoft.
Minerva Google 540 milliards[59] 38.5B jetons[note 5] Propriétaire LLM entraîné à la résolution de "questions mathématiques et scientifiques en utilisant un raisonnement étape par étape"[59]. Minerva est basé sur le modèle PaLM, entraîné sur des données mathématiques et scientifiques.
BLOOM Programme scientifique dirigé par Hugging Face 175 milliards 350 milliards de jetons (1.6TB)[60] Responsible AI Essentiellement GPT-3 mais entraîné sur un corpus multilingue (30 % d'anglais à l'exclusion des langages de programmation).
Galactica Meta 120 milliards 106 milliards de jetons CC-BY-NC-4.0 Entrainement sur les textes et modalités scientifiques.
AlexaTM Amazon 20 milliards[61] 1.3 trillion public web API[62] architecture bidirectionnelle séquence-séquence
LLaMA Meta 65 milliards 1.4 trillion Non-commercial research[note 6] Entraîné sur un grand corpus de 20 langues afin d'obtenir de meilleures performances avec moins de paramètres. Des chercheurs de l'université de Stanford ont entraîné un modèle affiné basé sur les poids LLaMA, appelé Alpaca[63].
GPT-4 OpenAI nombre exact tenu secret, 1 trillion supputé[note 7] public web API Disponible pour les utilisateurs de ChatGPT Plus et utilisé dans plusieurs produits.
Cerebras-GPT Cerebras 13 milliards[65] Apache 2.0 Entraîné avec la formule Chinchilla.
Falcon Technology Innovation Institute 40 milliards[66] 1 trillion de jetons (1TB)[66] Propriétaire Le modèle n'utiliserait que 75 % du calcul d'entraînement de GPT-3, 40 % de celui de Chinchilla et 80 % de celui de PaLM-62B.
BloombergGPT Bloomberg L.P. 50 milliards 363 milliards de jetons[note 8][67] Propriétaire LLM entraîné sur des données financières provenant de sources propriétaires, qui "surpasse les modèles existants sur les tâches financières par des marges significatives sans sacrifier la performance sur les repères LLM généraux".
PanGu-Σ Huawei 1.085 trillion 329 milliards de jetons[68] Propriétaire
OpenAssistant[69] LAION 17 milliards 1.5 trillion de jetons Apache 2.0 Entrainement sur les données ouvertes issues d'une production participative
Lyra-fr[70] LightOn 10 milliards 150 milliards de jetons public web API LLM entrainé a partir de données majoritairement françaises.
Orion-fr-v2 LightOn 1.5 milliard 150 milliards de jetons public web API LLM entrainé a partir de données majoritairement françaises.
Orion-fr-v1/PAGnol[71] LightOn 1.5 milliard 150 millions de jetons public web API LLM entrainé a partir de données majoritairement françaises.

Notes et références

Notes

  1. Il s'agit de la date à laquelle la documentation décrivant l'architecture du modèle a été publiée pour la première fois.
  2. Dans de nombreux cas, les chercheurs publient ou rapportent plusieurs versions d'un modèle ayant des tailles différentes. Dans ce cas, la taille du modèle le plus grand est indiquée ici.
  3. Il s'agit de la licence des poids du modèle pré-entraîné. Dans la plupart des cas, le code d'entraînement lui-même est libre ou peut être facilement reproduit..
  4. Les modèles les plus petits, y compris le 66B, sont publiquement disponibles, par contre le modèle 175B est disponible sur demande.[trad 1]
  5. à partir de pages web filtrées pour leur contenu mathématique et d'articles soumis au serveur de prépublication arXiv
  6. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  7. Comme expliqué dans le rapport technique : « Compte tenu à la fois du cadre compétitif et des implications de grands modèles tels que GPT-4 en matière de sécurité, ce rapport ne contient aucun détail supplémentaire concernant l'architecture (y compris la taille du modèle), le matériel, le calcul d'entrainement, l'élaboration du corpus de données, la méthode d'entrainement... »[trad 2][64] Nombre approximatif dans le graphique comparant les espaces de rangement, selon le même rapport.
  8. basé sur les sources de données de Bloomberg, plus 345 milliards de jetons provenant d'ensembles de données à usage général.

Traductions

  1. (en) « The smaller models including 66B are publicly available, while the 175B model is available on request. »
  2. (en) « Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ... »

Références

  1. (fr + en) Accuracy of Information and References Using ChatGPT-3 for Retrieval of Clinical Radiological Information, journal de l'association canadienne de radiologistes.
  2. Christian Wolf, « Histoire des réseaux de neurones et du deep learning en traitement des signaux et des images », sur hal.science, (consulté le ).
  3. Ornes (2023, traduction française).
  4. (en-US) Shraddha Goled, « Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ », sur Analytics India Magazine, (consulté le )
  5. (en) Jason Wei, Yi Tay, Rishi Bommasani et Colin Raffel, « Emergent Abilities of Large Language Models », Transactions on Machine Learning Research,‎ (ISSN 2835-8856, lire en ligne, consulté le )
  6. a et b (en) Samuel R. Bowman, « Eight Things to Know about Large Language Models » [PDF], Proceedings of the International Conference on Machine Learning 2023 (conférence), .
  7. (en)common crawl, site officiel]
  8. (en)the Pile, site officiel
  9. (en) « Papers with Code - MassiveText Dataset », paperswithcode.com (consulté le ).
  10. Villalobos, Sevilla, Heim et Besiroglu, « Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning », arXiv:2211.04325 [cs],‎ (lire en ligne).
  11. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch et Elena Buchatskaya, « Training Compute-Optimal Large Language Models », arXiv:2203.15556 [cs],‎ (lire en ligne).
  12. Notez que le coût d'entraînement est beaucoup plus élevé que le coût d'inférence, puisqu’il en coûte 1 à 2 FLOP par paramètre pour inférer sur un jeton.
  13. a b c d et e (en) Wei, Tay, Bommasani et Raffel, « Emergent Abilities of Large Language Models », Transactions on Machine Learning Research,‎ (ISSN 2835-8856, lire en ligne).
  14. Ornes (2023).
  15. Ji, Lee, Frieske et Yu, « Survey of Hallucination in Natural Language Generation », ACM Computing Surveys, Association for Computing Machinery, vol. 55, no 12,‎ , p. 1–38 (DOI 10.1145/3571730, arXiv 2202.03629, S2CID 246652372, lire en ligne [PDF], consulté le ).
  16. a et b (en) Michael McKenna, « Machines and Trust: How to Mitigate AI Bias », sur Toptal Engineering Blog (consulté le ).
  17. a b et c (en) Queenie Luo, Michael J. Puett et Michael D. Smith, « A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube », scientific journal,‎ 12-25-2023 (lire en ligne [archive] Accès libre [PDF])
  18. Hadas Kotek, Rikker Dockum et David Sun, « Gender bias and stereotypes in Large Language Models », Proceedings of The ACM Collective Intelligence Conference, Association for Computing Machinery, cI '23,‎ , p. 12–24 (ISBN 979-8-4007-0113-9, DOI 10.1145/3582269.3615599, lire en ligne, consulté le )
  19. Fatma Elsafoury, Steve R. Wilson, Stamos Katsigiannis et Naeem Ramzan, « SOS: Systematic Offensive Stereotyping Bias in Word Embeddings », Proceedings of the 29th International Conference on Computational Linguistics, International Committee on Computational Linguistics,‎ , p. 1263–1274 (lire en ligne, consulté le )
  20. Karen Zhou et Chenhao Tan, « Entity-Based Evaluation of Political Bias in Automatic Summarization », Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics,‎ , p. 10374–10386 (DOI 10.18653/v1/2023.findings-emnlp.696, lire en ligne, consulté le )
  21. a b c et d (en) James Manyika et Jake Silberg, « What Do We Do About the Biases in AI? », sur Harvard Business Review, (ISSN 0017-8012, consulté le ).
  22. (en-US) Meeta Ramnani, « How bias creeps into large language models », sur Analytics India Magazine, (consulté le ).
  23. (en) Isabel O. Gallegos et al., « Bias and Fairness in Large Language Models: A Survey », ..
  24. (en)Attention is all you need
  25. (en)RWKV: Reinventing RNNs for the Transformer Era
  26. (en)Retentive Network: A Successor to Transformer for Large Language Models
  27. (en)HyperAttention: Long-context Attention in Near-Linear Time
  28. (en)Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  29. (en) « OpenAI API » [archive du ], platform.openai.com (consulté le ).
  30. Zaib, Sheng et Emma Zhang, « A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP », Proceedings of the Australasian Computer Science Week Multiconference,‎ , p. 1–4 (ISBN 9781450376976, DOI 10.1145/3373017.3373028, arXiv 2104.10810, S2CID 211040895, lire en ligne)
  31. Zhu, Kiros, Zemel et Salakhutdinov, « Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books », 2015 IEEE International Conference on Computer Vision (ICCV),‎ , p. 19–27 (ISBN 978-1-4673-8391-2, DOI 10.1109/ICCV.2015.11, arXiv 1506.06724, S2CID 6866988, lire en ligne, consulté le )
  32. (en) « Deep learning in digital health with chatgpt: a study on efficient code generation », sur academic.oup.com (consulté le )
  33. (en) Joanne Chen, « How Perplexity.ai Is Pioneering The Future Of Search », sur forbes.com, (consulté le ).
  34. (en) « Qu'est-ce que l'évaluation des LLM ? — Klu », sur klu.ai, (consulté le )
  35. « BERT », sur GitHub,
  36. (en) Patel, Li, Rasooli et Constant, « Bidirectional Language Models Are Also Few-shot Learners », ArXiv,‎ (S2CID 252595927, lire en ligne)
  37. « BERT, RoBERTa, DistilBERT, XLNet: Which one to use? »
  38. Naik, « Google Introduces New Architecture To Reduce Cost Of Transformers », Analytics India Magazine,
  39. Yang, Dai, Yang et Carbonell, « XLNet: Generalized Autoregressive Pretraining for Language Understanding », arXiv:1906.08237 [cs],‎ (lire en ligne, consulté le )
  40. « Better language models and their implications », openai.com
  41. a et b (en) « OpenAI's GPT-3 Language Model: A Technical Overview », lambdalabs.com
  42. « gpt-2 », sur GitHub (consulté le )
  43. « GPT Neo »,
  44. (en) Abhishek Iyer, « GPT-3's free alternative GPT-Neo is something to be excited about », sur venturebeat.com, .
  45. (en) « GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront », www.forefront.ai (consulté le )
  46. a et b (en) Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe et al., « The Pile: An 800GB Dataset of Diverse Text for Language Modeling », ..
  47. Alvi et Kharya, « Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model », Microsoft Research,
  48. Wang, Sun, Xiang et Wu, « ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation », arXiv (prépublication),‎ (arXiv 2112.12731).
  49. (en) « Product », Anthropic (consulté le )
  50. (en) Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli et al., « A General Language Assistant as a Laboratory for Alignment », ..
  51. (en) « Language modelling at scale: Gopher, ethical considerations, and retrieval », www.deepmind.com (consulté le )
  52. a et b (en) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai et al., « Training Compute-Optimal Large Language Models », ..
  53. Sidney Black, Stella Biderman et Eric Hallahan « GPT-NeoX-20B: An Open-Source Autoregressive Language Model » () (lire en ligne, consulté le )
    Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models
  54. (en) « Democratizing access to large-scale language models with OPT-175B », ai.facebook.com
  55. (en) Mikhail Khrushchev, Ruslan Vasilev, Alexey Petrov et Zinov Nikolay, « YaLM 100B », sur github.com, (consulté le )
  56. a et b (en) « Minerva: Solving Quantitative Reasoning Problems with Language Models », ai.googleblog.com (consulté le )
  57. « bigscience/bloom • Hugging Face », huggingface.co, sur Hugging Face
  58. (en) « 20B-parameter Alexa model sets new marks in few-shot learning », Amazon Science,
  59. « AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog », sur aws.amazon.com, (consulté le )
  60. « Stanford CRFM », crfm.stanford.edu
  61. « GPT-4 Technical Report » [archive du ], sur OpenAI, (consulté le )
  62. Dey, « Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models », Cerebras,
  63. a et b « Abu Dhabi-based TII launches its own version of ChatGPT », tii.ae
  64. Wu, Irsoy, Lu et Dabravolski, « BloombergGPT: A Large Language Model for Finance », arXiv (prépublication),‎ (DOI 10.48550/arXiv.2303.17564, arXiv 2303.17564).
  65. Ren, Zhou, Meng et Huang, « PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing », arXiv (prépublication),‎ (DOI 10.48550/arXiv.2303.10845, arXiv 2303.10845).
  66. Köpf, Kilcher, von Rütte et Anagnostidis, « OpenAssistant Conversations -- Democratizing Large Language Model Alignment », arXiv:2304.07327 [cs],‎ (lire en ligne)
  67. « LightOn publicly launches Muse »,
  68. « LightOn lance PAGnol, le plus grand modèle IA de langue française »,

Voir aussi

Bibliographie

  • (en) Stephen Ornes, « The Unpredictable Abilities Emerging From Large AI Models », Quanta Magazine,‎ (lire en ligne Accès libre).
    • Stephen Ornes, « Modèles massifs de langage. D'où viennent les coups de génie de l'IA ? », Pour la science, no 549,‎ , p. 46-51 (lire en ligne Accès payant), adaptation française par la revue.
  • Jean-Paul Delahaye, « Derrière les modèles massifs de langage », Pour la science, no 555,‎ , p. 80-85

Articles connexes