NVIDIA lance un petit modèle de langage avec une précision de pointe

Les développeurs d’IA générative sont généralement confrontés à un compromis entre la taille du modèle et la précision. Mais un nouveau modèle de langage publié par NVIDIA offre le meilleur des deux, offrant une précision de pointe dans un format compact.

Mistral-NeMo-Minitron 8B – une version miniaturisée du modèle ouvert Mistral NeMo 12B publié par Mistral AI et NVIDIA le mois dernier – est suffisamment petit pour fonctionner sur une station de travail alimentée par NVIDIA RTX tout en excellant dans plusieurs benchmarks pour les chatbots alimentés par l’IA, assistants virtuels, générateurs de contenu et outils pédagogiques. Les modèles Minitron sont distillés par NVIDIA à l’aide de NVIDIA NeMo, une plate-forme de bout en bout pour développer une IA générative personnalisée.

« Nous avons combiné deux méthodes différentes d’optimisation de l’IA : l’élagage pour réduire les 12 milliards de paramètres de Mistral NeMo à 8 milliards et la distillation pour améliorer la précision », a déclaré Bryan Catanzaro, vice-président de la recherche sur l’apprentissage profond appliqué chez NVIDIA. “Ce faisant, Mistral-NeMo-Minitron 8B offre une précision comparable au modèle original à un coût de calcul inférieur.”

Contrairement à leurs homologues plus grands, les petits modèles linguistiques peuvent s’exécuter en temps réel sur les postes de travail et les ordinateurs portables. Cela permet aux organisations disposant de ressources limitées de déployer plus facilement des capacités d’IA générative sur leur infrastructure tout en optimisant les coûts, l’efficacité opérationnelle et la consommation d’énergie. L’exécution de modèles de langage localement sur des appareils Edge offre également des avantages en matière de sécurité, car les données n’ont pas besoin d’être transmises à un serveur depuis un appareil Edge.

Les développeurs peuvent démarrer avec Mistral-NeMo-Minitron 8B présenté sous forme de microservice NVIDIA NIM avec une interface de programmation d’application (API) standard – ou ils peuvent télécharger le modèle depuis Hugging Face. Un NVIDIA NIM téléchargeable, qui peut être déployé sur n’importe quel système accéléré par GPU en quelques minutes, sera bientôt disponible.

À la pointe de la technologie pour 8 milliards de paramètres

Pour un modèle de sa taille, Mistral-NeMo-Minitron 8B est en tête sur neuf benchmarks populaires pour les modèles de langage. Ces tests couvrent une variété de tâches, notamment la compréhension du langage, le raisonnement de bon sens, le raisonnement mathématique, le résumé, le codage et la capacité à générer des réponses véridiques.

Présenté sous forme de microservice NVIDIA NIM, le modèle est optimisé pour une faible latence, ce qui signifie des réponses plus rapides pour les utilisateurs, et un débit élevé, ce qui correspond à une efficacité informatique plus élevée en production.

Dans certains cas, les développeurs peuvent souhaiter qu’une version encore plus petite du modèle s’exécute sur un smartphone ou un appareil intégré comme un robot. Pour ce faire, ils peuvent télécharger le modèle de 8 milliards de paramètres et, à l’aide de NVIDIA AI Foundry, l’élaguer et le distiller en un réseau neuronal plus petit et optimisé, personnalisé pour les applications spécifiques à l’entreprise.

La plateforme et le service AI Foundry offrent aux développeurs une solution complète pour créer un modèle de base personnalisé présenté sous forme de microservice NIM. Il comprend des modèles de base populaires, la plateforme NVIDIA NeMo et une capacité dédiée sur NVIDIA DGX Cloud. Les développeurs utilisant NVIDIA AI Foundry peuvent également accéder à NVIDIA AI Enterprise, une plate-forme logicielle qui offre sécurité, stabilité et prise en charge des déploiements de production.

Étant donné que le modèle original Mistral-NeMo-Minitron 8B commence avec une précision de base de pointe, les versions réduites à l’aide d’AI Foundry offriraient toujours aux utilisateurs une grande précision avec une fraction des données d’entraînement et de l’infrastructure de calcul.

Exploiter les avantages de la taille et de la distillation

Pour obtenir une grande précision avec un modèle plus petit, l’équipe a utilisé un processus combinant taille et distillation. L’élagage réduit la taille d’un réseau neuronal en supprimant les poids du modèle qui contribuent le moins à la précision. Au cours de la distillation, l’équipe a recyclé ce modèle élagué sur un petit ensemble de données pour améliorer considérablement la précision, qui avait diminué au cours du processus d’élagage.

Le résultat final est un modèle plus petit et plus efficace, doté de la précision prédictive de son homologue plus grand.

Cette technique signifie qu’une fraction de l’ensemble de données d’origine est nécessaire pour entraîner chaque modèle supplémentaire au sein d’une famille de modèles associés, ce qui permet d’économiser jusqu’à 40 fois le coût de calcul lors de l’élagage et de la distillation d’un modèle plus grand par rapport à l’entraînement d’un modèle plus petit à partir de zéro.

Lisez le blog technique NVIDIA et un rapport technique pour plus de détails.

NVIDIA a également annoncé cette semaine Nemotron-Mini-4B-Instruct, un autre petit modèle de langage optimisé pour une faible utilisation de la mémoire et des temps de réponse plus rapides sur les PC et ordinateurs portables NVIDIA GeForce RTX AI. Le modèle est disponible sous forme de microservice NVIDIA NIM pour le déploiement dans le cloud et sur les appareils et fait partie de NVIDIA ACE, une suite de technologies humaines numériques qui fournissent la parole, l’intelligence et l’animation alimentées par l’IA générative.

Découvrez les deux modèles en tant que microservices NIM à partir d’un navigateur ou d’une API sur ai.nvidia.com.

Voir avis concernant les informations sur les produits logiciels.

More Info

Greatly hearted has who believe. Drift allow green son walls years for blush. Sir margaret drawings repeated recurred exercise.

You have been successfully Subscribed! Ops! Something went wrong, please try again.

Quick Links

Services

About Me

Projects

Contact

Address

+1-(360) 416-7563

Phone Number

FelicitymcDowell@mail.com

Email Address

© 2024 Created with Royal Elementor Addons