Note de l’éditeur : cet article fait partie du Série AI décodéequi démystifie l’IA en rendant la technologie plus accessible et qui présente de nouveaux matériels, logiciels, outils et accélérations pour les utilisateurs de PC RTX.
Les gratte-ciel commencent par des fondations solides. Il en va de même pour les applications alimentées par l’IA.
Un modèle de base est un réseau neuronal d’IA formé sur d’immenses quantités de données brutes, généralement avec un apprentissage non supervisé.
Il s’agit d’un type de modèle d’intelligence artificielle formé pour comprendre et générer un langage de type humain. Imaginez donner à un ordinateur une immense bibliothèque de livres à lire et à apprendre, afin qu’il puisse comprendre le contexte et le sens des mots et des phrases, tout comme le fait un humain.
La base de connaissances approfondie d’un modèle de base et sa capacité à communiquer en langage naturel le rendent utile pour un large éventail d’applications, notamment la génération et le résumé de texte, la production copilote et l’analyse de code informatique, la création d’images et de vidéos, ainsi que la transcription audio et la synthèse vocale.
ChatGPT, l’une des applications d’IA générative les plus remarquables, est un chatbot construit avec le modèle de base GPT d’OpenAI. Désormais dans sa quatrième version, GPT-4 est un grand modèle multimodal capable d’ingérer du texte ou des images et de générer des réponses sous forme de texte ou d’image.
Les applications en ligne construites sur des modèles de base accèdent généralement aux modèles à partir d’un centre de données. Mais bon nombre de ces modèles, et les applications qu’ils alimentent, peuvent désormais fonctionner localement sur des PC et des postes de travail équipés de GPU NVIDIA GeForce et NVIDIA RTX.
Utilisations du modèle de fondation
Les modèles de fondation peuvent remplir diverses fonctions, notamment :
- Traitement du langage : comprendre et générer du texte
- Génération de code : analyse et débogage du code informatique dans de nombreux langages de programmation
- Traitement visuel : analyser et générer des images
- Parole : générer de la synthèse vocale et transcrire la parole en texte
Ils peuvent être utilisés tels quels ou avec des améliorations supplémentaires. Plutôt que de former un tout nouveau modèle d’IA pour chaque application d’IA générative (une entreprise coûteuse et longue), les utilisateurs affinent généralement les modèles de base pour des cas d’utilisation spécialisés.
Les modèles de base pré-entraînés sont remarquablement performants, grâce aux invites et aux techniques de récupération de données telles que la génération augmentée par récupération, ou RAG. Les modèles Foundation excellent également dans l’apprentissage par transfert, ce qui signifie qu’ils peuvent être formés pour effectuer une deuxième tâche liée à leur objectif initial.
Par exemple, un modèle de langage étendu (LLM) à usage général conçu pour converser avec des humains peut être davantage formé pour agir comme un chatbot de service client capable de répondre aux demandes de renseignements à l’aide d’une base de connaissances d’entreprise.
Les entreprises de tous les secteurs affinent leurs modèles de base pour obtenir les meilleures performances de leurs applications d’IA.
Types de modèles de fondation
Plus de 100 modèles de fondations sont utilisés – un nombre qui continue de croître. Les LLM et les générateurs d’images sont les deux types de modèles de fondation les plus populaires. Et bon nombre d’entre eux sont gratuits et peuvent être essayés par tous, sur n’importe quel matériel, dans le catalogue des API NVIDIA.
Les LLM sont des modèles qui comprennent le langage naturel et peuvent répondre aux requêtes. Gemma de Google en est un exemple ; il excelle dans la compréhension, la transformation et la génération de code de textes. Interrogé sur l’astronome Cornelius Gemma, il a déclaré que ses « contributions à la navigation céleste et à l’astronomie ont eu un impact significatif sur le progrès scientifique ». Il a également fourni des informations sur ses principales réalisations, son héritage et d’autres faits.
En étendant la collaboration des modèles Gemma, accélérée avec NVIDIA TensorRT-LLM sur les GPU RTX, CodeGemma de Google apporte à la communauté des capacités de codage puissantes mais légères. Les modèles CodeGemma sont disponibles sous forme de variantes pré-entraînées 7B et 2B spécialisées dans les tâches de complétion de code et de génération de code.
Mistral LLM de MistralAI peut suivre des instructions, compléter des demandes et générer un texte créatif. En fait, cela a aidé à réfléchir au titre de ce blog, y compris l’exigence qu’il utilise une variante du nom de la série « AI Decoded », et à rédiger la définition d’un modèle de base.
Meta’s Llama 2 est un LLM de pointe qui génère du texte et du code en réponse aux invites.
Mistral et Llama 2 sont disponibles dans la démo technique NVIDIA ChatRTX, fonctionnant sur les PC et postes de travail RTX. ChatRTX permet aux utilisateurs de personnaliser ces modèles de base en les connectant à du contenu personnel, tel que des documents, des notes médicales et d’autres données, via RAG. Il est accéléré par TensorRT-LLM pour des réponses rapides et contextuellement pertinentes. Et comme il s’exécute localement, les résultats sont rapides et sécurisés.
Les générateurs d’images tels que Stable Diffusion XL et SDXL Turbo de StabilityAI permettent aux utilisateurs de générer des images et des visuels époustouflants et réalistes. Le générateur vidéo de StabilityAI, Stable Video Diffusion, utilise un modèle de diffusion générative pour synthétiser des séquences vidéo avec une seule image comme image de conditionnement.
Les modèles de base multimodaux peuvent traiter simultanément plusieurs types de données, tels que du texte et des images, pour générer des sorties plus sophistiquées.
Un modèle multimodal fonctionnant à la fois avec du texte et des images pourrait permettre aux utilisateurs de télécharger une image et de poser des questions à ce sujet. Ces types de modèles font rapidement leur chemin dans des applications du monde réel comme le service client, où ils peuvent servir de versions plus rapides et plus conviviales des manuels traditionnels.
Kosmos 2 est le modèle multimodal révolutionnaire de Microsoft conçu pour comprendre et raisonner sur les éléments visuels des images.
Pensez globalement, exécutez des modèles d’IA localement
Les GPU GeForce RTX et NVIDIA RTX peuvent exécuter des modèles de base localement.
Les résultats sont rapides et sécurisés. Plutôt que de s’appuyer sur des services basés sur le cloud, les utilisateurs peuvent exploiter des applications telles que ChatRTX pour traiter des données sensibles sur leur PC local sans partager les données avec un tiers ni avoir besoin d’une connexion Internet.
Les utilisateurs peuvent choisir parmi un catalogue en croissance rapide de modèles de base ouverts à télécharger et à exécuter sur leur propre matériel. Cela réduit les coûts par rapport à l’utilisation d’applications et d’API basées sur le cloud, et élimine les problèmes de latence et de connectivité réseau. L’IA générative transforme les jeux, les vidéoconférences et les expériences interactives de toutes sortes. Donnez un sens aux nouveautés et aux prochaines étapes en vous abonnant au Newsletter AI décodée.