Bien qu’il s’agisse d’une technologie relativement ancienne, le GPT-3 a reçu une attention renouvelée en novembre. Peu de temps après OpenAI, les créateurs de GPT-3 ont annoncé le révolutionnaire ChatGPT. Si pour une raison quelconque vous n’avez jamais entendu parler de ce phénomène, voici une brève explication de ce que c’est et pourquoi tout le monde en parle.Cependant, l’accent est mis aujourd’hui sur les alternatives gratuites au TPG-3. Alors avant de nous plonger dans des alternatives gratuites à cette technologie à la mode, commençons par les bases.
Qu’est-ce que GPT-3 ?
GPT-3 (Generative Pretrained Transformer) est un modèle d’intelligence artificielle qui peut créer pratiquement n’importe quel type de synchronisation de type humain. GPT-3 s’est essayé à l’écriture de poésie, d’e-mails, de traductions, de tweets et même de code informatique. Il suffit d’un petit message pour définir un sujet pour générer tout type de matériel.
En pratique, GPT-3 compte plus de 175 milliards de paramètres et est un modèle de langage à grande échelle (LLM) ou un réseau neuronal complexe. Il a été formé à l’aide d’une énorme quantité de données provenant d’Internet. Par « grand », j’entends environ 700 Go de données.
ChatGPT est un chatbot capable de simuler des conversations et de répondre aux demandes. Comme vous pouvez le deviner, il est basé sur la technologie GPT-3. Certains pensent même que cela pourrait éventuellement entraîner la faillite de Google. Maintenant que vous avez une compréhension générale de la technologie dont nous parlons, passons aux concurrents OpenAI GPT-3.
OPT
Meta a publié un remplacement open source fiable pour GPT-3 en mai 2022. OPT, également appelé Open Pretrained Transformer Language Model, a 175B paramètres. OPT a été formé sur divers ensembles de données ouvertes, notamment BookCorpus et The Pile. Le fait que OPT inclut à la fois des modèles pré-formés et le code source pour les utiliser ou les former est un différenciateur clé d’OPT.
Il n’est actuellement accessible qu’à des fins de recherche sous une licence non commerciale. Meta vise à donner aux institutions de recherche universitaires, gouvernementales, privées et industrielles les moyens de mieux comprendre la technologie et de déterminer la base de son utilisation éthique.
AlexaTM
Le 18 novembre 2022, Amazon a officiellement annoncé la sortie d’AlexaTM, un grand modèle Sequence2Sequence multilingue. Qu’est-ce qui le rend si unique?
Il utilise une architecture d’encodeur/décodeur et a été formé aux tâches de débruitage et de modélisation causale du langage (CLM). Cela permet à AlexaTM d’apprendre de nouvelles informations plus rapidement que la version avec décodeur uniquement.
Par conséquent, il surpasse le PaLM 540B de Google pour les résumés uniques et les tâches de traduction automatique.
De plus, ce modèle surpasse GPT-3 dans les tests zéro coup avec les ensembles de données SuperGlue et SQuADv2. Moins de problèmes techniques, AlexaTM parle une variété de langues dont l’anglais, l’espagnol, l’arabe, l’allemand, l’hindi, le français, le japonais, l’italien, le portugais et bien d’autres (comme son nom l’indique). Dans l’ensemble, cela fait d’Alexa un concurrent sérieux des autres LLM, gratuits ou non.
Jurassic-1
AI21 Labs a développé Jurassic-1, un modèle de traitement du langage naturel (TAL) autorégressif. Il est disponible pour les développeurs et les chercheurs en version bêta ouverte. Ce n’est pas entièrement open source, mais vous obtenez 90 $ de crédits gratuits après votre inscription. Avec des modèles prêts à l’emploi pour paraphraser, résumer, écrire, parler, décrire, tweeter, coder et d’autres tâches, vous pouvez utiliser ces crédits dans votre espace de jeu et concevoir et affiner vos propres modèles d’augmentation.
Grâce à ses deux composants, J1-Jumbo formé à plus de 178 B paramètres et J1-Large formé à seulement 7 B paramètres, Jurassic-1 pourrait être un challenger très fort pour GPT-3. Par conséquent, le paramètre 3B est déjà plus sophistiqué que le modèle de langage GPT-3.
CodeGen
Vous ne pouvez pas manquer une autre option open source pour GPT-3. Développé par Salesforce, CodeGen est, comme son nom l’indique, un modèle de langage riche qui vous permet de programmer à partir d’invites en texte brut.
Cette approche s’appuie sur l’idée de l’IA conversationnelle et cherche à combiner l’apport créatif humain avec des possibilités de codage d‘IA pratiquement illimitées. Les versions CodeGen (350M, 2B, 6B, 16B) contiennent trois modèles de tailles différentes (NL, Multi, Mono). Chaque type de modèle est développé à l’aide de différents ensembles de données.
La plus grande caractéristique de CodeGen est qu’il peut être utilisé par n’importe qui, quelle que soit sa capacité technique. Cependant, l‘IA n’est pas encore parfaite, donc le savoir-faire en programmation contribue à des solutions meilleures et plus belles.
Megatron-Turing NLG
Considérant qu’il a plus de spécifications 530B, ce NLG est l’un des plus grands. Megatron-Turing NLG (Natural Language Generation) est un produit conjoint de Microsoft et NVIDIA.
Ils ont utilisé le supercalculateur Selene basé sur NVIDIA DGX SuperPOD et l’ensemble de données The Pile pour former le modèle. Selon une étude publiée en octobre 2021, le modèle Megatron Turing NLG a bien fonctionné dans les jeux PiQA dev et LAMBADA enregistrer.
De plus, le modèle prédit plus de 50 % du temps sur les tests sans coup sûr et augmente ce pourcentage sur les tests à un et quatre coups. Microsoft et NVIDIA offrent désormais un accès anticipé à Megatron-Turing NGL et invitent d’autres entreprises à collaborer. Leur objectif principal est de réduire les fausses réponses, les toxicités et les biais dans les modèles linguistiques à grande échelle, et de créer des lignes directrices pour une utilisation responsable de l’IA.
LaMDA
LaMDA est une conception de décodeur uniquement pour les modèles de langage autorégressifs pour les applications conversationnelles. Le modèle peut être formé pour créer des listes et avoir des conversations sur des sujets spécifiques à un domaine spécifique, en plus de participer à des conversations générales sur divers sujets.
Le modèle de dialogue est évolutif et tolère les dépendances persistantes. Par conséquent, le contexte passé peut être pris en compte en plus des entrées actuelles.
De plus, ils dépendent du domaine. Par exemple, pour permettre à LaMDA de faire des recommandations musicales, les chercheurs de Google ont préconditionné de nombreux cycles d’interactions spécifiques aux rôles. Google le rend accessible au public, mais vous devrez faire la queue pour accéder au modèle.
BLOOM
En tant qu’alternative open source à GPT-3, le BLOOM autorégressif a été créé par de nombreux contributeurs dans le cadre de l’atelier BigScience. Plus de 1000 chercheurs en intelligence artificielle ont rejoint l’initiative, y compris des experts d’entreprises telles que Microsoft, NVIDIA et PyTorch.
Toute personne intéressée à étudier les performances et le comportement de grands modèles de langage et à accepter les termes de la licence du modèle peut utiliser BLOOM
Le modèle peut gérer 46 langages et 13 langages de programmation et a été entraîné avec 176B de paramètres entre mars et juillet 2022. Il fournit également une taille plus petite avec moins de paramètres.
Le modèle BLOOM est construit au-dessus de Megatron-LM, le prédécesseur de Megatron-Turing NLG avec 8,3 milliards de paramètres, il n’y a donc qu’un seul décodeur.
BERT
L’un des premiers modèles de langage Transformer était BERT (Bidirectional Encoder Representations from Transformers ), qui était open source en 2018 et pré-formé sur le texte de Wikipedia. Depuis 2019, Google l’utilise pour améliorer notre compréhension de l’intention de recherche et fournir des prédictions de requêtes plus précises.
BERT est une représentation linguistique bidirectionnelle non supervisée par conception. Cela montre que le modèle considère à la fois le contexte précédent et les conditions de poursuite de la phrase.
Lorsque BERT a été développé, il a été comparé à d’autres modèles et les résultats étaient nettement meilleurs. Voici un exemple des résultats obtenus par le modèle lors du test GLUE.
GLaM
Le modèle de langage généralisé (GLaM en abrégé) a été développé par Google. Annoncé en décembre 2021, il a une spécification de 1,2 T et est l’un des plus grands types utilisés aujourd’hui. Google n’a pas publié le code source, mais le concept lui-même est impressionnant.
La principale caractéristique est la combinaison de modèles experts (MoE). Il se compose souvent de plusieurs couches ou sous-modèles, appelés experts, chacun spécialisé dans un domaine différent.
Un réseau de sélection sélectionne les experts les plus pertinents en fonction des données d’entrée (généralement deux pour chaque mot ou partie de celui-ci). Cependant, cela signifie que le modèle ne fonctionne pas à son plein potentiel. Environ 97 milliards de paramètres sont généralement activés lors de l’inférence. Les évaluations utilisées comprennent la lecture en contexte, le raisonnement, les activités de style Winograd et la réponse à des questions ouvertes.
GPT-J et GPT-NeoX
GPT-J est un modèle autorégressif à six paramètres B facile à utiliser pour la production de texte. Les données de formation étaient The Pile, un ensemble de données contenant 22 sous-ensembles et plus de 800 Go de texte anglais.
Malgré sa taille modeste, ce modèle surpasse GPT-Neo et GPT-3 6.7B-param en termes de performances. Ce dernier a deux versions, 1,3 milliard et 2,7 milliards, et a évolué en GPT-NeoX avec 20 milliards de paramètres en février 2022.
Wu Dao 2.0
L’Académie d’intelligence artificielle de Pékin a développé Wu Dao, un modèle d’apprentissage en profondeur multimodal et multitâche pré-formé, qui se traduit du chinois par « Road to Consciousness » (BAAI). Avec 1,75 billion de paramètres, ils affirment qu’il s’agit du plus grand transformateur jamais construit. La version la plus ancienne sera disponible en 2021 et la dernière en mai 2022.
Wu Dao a été formé à l’aide de The Pile sur un ensemble de données spécialement conçu contenant environ 3,7 téraoctets de texte et d’images en chinois et en anglais.
Ainsi, il peut comprendre la parole, générer du texte, reconnaître et générer des images et générer des images à partir d’instructions textuelles. Semblable à Google GLaM, le modèle utilise l’architecture MoE.Des géants industriels chinois tels que Xiaomi Corporation et Kuaishou Technology sont déjà partenaires de BAAI (propriétaire du réseau social de vidéos courtes).
Chinchilla
En mars 2022, le groupe DeepMind AI, acquis par Google en 2014, a publié un récent modèle de langage le plus adapté au calcul appelé Chinchilla.
Bien que ce modèle ne compte que 70 milliards de paramètres, il a été formé sur 1,4 billion de jetons (données textuelles), soit quatre fois plus que le MLL le plus utilisé.
Chinchilla montre que les performances supérieures sont définies par la quantité de marqueurs d’entraînement plutôt que par la taille des paramètres. Cette découverte peut permettre à d’autres modèles d’évoluer en fonction de la quantité de données en cours de formation plutôt que du nombre de paramètres.