Les modèles de raisonnement AI et les agents sont prêts à transformer les industries, mais la livraison de leur plein potentiel à grande échelle nécessite un calcul massif et un logiciel optimisé. Le processus de «raisonnement» implique plusieurs modèles, générant de nombreux jetons supplémentaires et exige une infrastructure avec une combinaison de communication, de mémoire et de calcul à grande vitesse pour garantir des résultats en temps réel et de haute qualité.
Pour répondre à cette demande, Coreweave a lancé des instances basées sur NVIDIA GB200 NVL72, devenant le premier fournisseur de services cloud à rendre la plate-forme Nvidia Blackwell généralement disponible.
Avec Nvidia nvlink à l’échelle à rack sur 72 CPU NVIDIA Blackwell et 36 Nvidia Grace, passant jusqu’à 110 000 GPU avec NVIDIA Quantum-2 Infiniband Networking, ces instances fournissent l’échelle et les performances nécessaires pour construire et déployer la prochaine génération de modèles de motifs de motifs de motifs de motifs d’IA et les agents.
Nvidia GB200 NVL72 sur Coreweave
NVIDIA GB200 NVL72 est une solution à l’échelle à rack refroidie par liquide avec un domaine NVLink de 72 gpu, qui permet aux six douzaines de GPU d’agir comme un seul GPU massif.
Nvidia Blackwell propose de nombreuses percées technologiques qui accélèrent la génération de jetons d’inférence, augmentant les performances tout en réduisant les coûts de service. Par exemple, NVLink de cinquième génération permet 130 To / s de bande passante GPU dans un domaine NVLink de 72 gpu, et le moteur de transformateur de deuxième génération permet FP4 pour des performances AI plus rapides tout en maintenant une précision élevée.
Le portefeuille de services cloud gérés de Corewave est spécialement conçu pour Blackwell. Le service Kubernetes de Coreweave optimise l’orchestration de la charge de travail en exposant les ID de domaine NVLink, garantissant une planification efficace dans le même rack. Slurm sur Kubernetes (SUNK) prend en charge le plug-in de blocs de topologie, permettant une distribution de charge de travail intelligente sur les racks GB200 NVL72. De plus, la plate-forme d’observabilité de Coreweave fournit des informations en temps réel sur les performances NVLink, l’utilisation des GPU et les températures.
Les instances GB200 NVL72 de Corewave sont dotées de réseautage infiniband Nvidia Quantum-2 qui offre une bande passante de 400 Go / s par GPU pour les grappes jusqu’à 110 000 GPU. Les DPU NVIDIA BlueField-3 fournissent également un réseautage cloud multi-locataire accéléré, un accès aux données haute performance et une élasticité de calcul GPU pour ces instances.
Plate-forme informatique accélérée complète pour l’IA d’entreprise
La plate-forme AI complète de NVIDIA associe un logiciel de pointe avec une infrastructure alimentée par Blackwell pour aider les entreprises à créer des agents d’IA rapide, précis et évolutifs.
Nvidia Blueprints fournit des workflows de référence prédéfinis, personnalisables et prêts à déploier pour aider les développeurs à créer des applications réelles. Nvidia NIM est un ensemble de microservices faciles à utiliser conçus pour un déploiement sécurisé et fiable de modèles d’IA haute performance pour l’inférence. Nvidia Nemo comprend des outils de formation, de personnalisation et d’amélioration continue des modèles d’IA pour les cas d’utilisation des entreprises modernes. Les entreprises peuvent utiliser Nvidia Blueprints, NIM et NEMO pour construire et affiner les modèles pour leurs agents d’IA spécialisés.
Ces composants logiciels, tous partie de la plate-forme logicielle NVIDIA AI Enterprise, sont des facilitateurs clés pour livrer une IA agentique à grande échelle et peuvent être facilement déployés sur Coreweave.
Apporter une IA de nouvelle génération au cloud
La disponibilité générale des instances NVIDIA GB200 NVL72 sur Coreweave souligne les dernières dernières personnes de la collaboration des entreprises, axée sur la fourniture des dernières solutions informatiques accélérées au cloud. Avec le lancement de ces cas, les entreprises ont désormais accès à l’échelle et aux performances nécessaires pour alimenter la prochaine vague de modèles de raisonnement et d’agents d’IA.
Les clients peuvent commencer à provisionner des instances basées sur GB200 NVL72 via le service Coreweave Kubernetes dans la région US-West-01 en utilisant l’ID d’instance GB200-4X. Pour commencer, contactez Coreweave.