Les ordinateurs portables et PC alimentés par l’IA générative permettent de réaliser des avancées dans les domaines des jeux, de la création de contenu, de la productivité et du développement. Aujourd’hui, plus de 600 applications et jeux Windows exécutent déjà l’IA localement sur plus de 100 millions de PC GeForce RTX AI dans le monde, offrant des performances rapides, fiables et à faible latence.
Lors de Microsoft Ignite, NVIDIA et Microsoft ont annoncé des outils pour aider les développeurs Windows à créer et à optimiser rapidement des applications basées sur l’IA sur les PC RTX AI, rendant ainsi l’IA locale plus accessible. Ces nouveaux outils permettent aux développeurs d’applications et de jeux d’exploiter de puissants GPU RTX pour accélérer les flux de travail d’IA complexes pour des applications telles que les agents d’IA, les assistants d’application et les humains numériques.
Les PC RTX AI alimentent les humains numériques avec de petits modèles de langage multimodaux
NVIDIA ACE est une suite de technologies humaines numériques qui donnent vie aux agents, assistants et avatars. Pour atteindre un niveau de compréhension plus élevé et pouvoir réagir avec une plus grande conscience du contexte, les humains numériques doivent être capables de percevoir visuellement le monde comme le font les humains.
Améliorer les interactions humaines numériques avec un plus grand réalisme nécessite une technologie qui permet de percevoir et de comprendre leur environnement avec plus de nuances. Pour y parvenir, NVIDIA a développé de petits modèles de langage multimodaux capables de traiter à la fois du texte et des images, d’exceller dans le jeu de rôle et d’être optimisés pour des temps de réponse rapides.
Le modèle NVIDIA Nemovision-4B-Instruct, bientôt disponible, utilise les derniers frameworks NVIDIA VILA et NVIDIA NeMo pour distiller, élaguer et quantifier afin de devenir suffisamment petit pour fonctionner sur les GPU RTX avec la précision dont les développeurs ont besoin.
Le modèle permet aux humains numériques de comprendre les images visuelles du monde réel et à l’écran pour fournir des réponses pertinentes. La multimodalité sert de base aux flux de travail agentiques et offre un aperçu d’un avenir où les humains numériques pourront raisonner et agir avec une assistance minimale d’un utilisateur.
NVIDIA présente également la famille Mistral NeMo Minitron 128k Instruct, une suite de petits modèles de langage à grand contexte conçus pour des interactions humaines numériques optimisées et efficaces. Disponibles en versions à paramètres 8B, 4B et 2B, ces modèles offrent des options flexibles pour équilibrer la vitesse, l’utilisation de la mémoire et la précision sur les PC RTX AI. Ils peuvent gérer de grands ensembles de données en un seul passage, éliminant ainsi le besoin de segmentation et de réassemblage des données. Construits au format GGUF, ces modèles améliorent l’efficacité des appareils à faible consommation et prennent en charge la compatibilité avec plusieurs langages de programmation.
Turbocharge Gen AI avec NVIDIA TensorRT Model Optimizer pour Windows
Lorsqu’ils introduisent des modèles dans des environnements PC, les développeurs sont confrontés au défi d’une mémoire et de ressources de calcul limitées pour exécuter l’IA localement. Et ils souhaitent rendre les modèles accessibles au plus grand nombre, avec une perte de précision minimale.
Aujourd’hui, NVIDIA a annoncé des mises à jour de NVIDIA TensorRT Model Optimizer (ModelOpt) pour offrir aux développeurs Windows un moyen amélioré d’optimiser les modèles pour le déploiement d’ONNX Runtime.
Avec les dernières mises à jour, TensorRT ModelOpt permet d’optimiser les modèles dans un point de contrôle ONNX pour déployer le modèle dans les environnements d’exécution ONNX, à l’aide de fournisseurs d’exécution GPU tels que CUDA, TensorRT et DirectML.
TensorRT-ModelOpt comprend des algorithmes de quantification avancés, tels que la quantification du poids consciente de l’activation INT4. Par rapport à d’autres outils tels qu’Olive, la nouvelle méthode réduit l’empreinte mémoire du modèle et améliore les performances de débit sur les GPU RTX.
Lors du déploiement, les modèles peuvent avoir une empreinte mémoire jusqu’à 2,6 fois réduite par rapport aux modèles FP16. Cela se traduit par un débit plus rapide, avec une dégradation minimale de la précision, ce qui leur permet de fonctionner sur une plus large gamme de PC.
Découvrez comment les développeurs sur les systèmes Microsoft, des PC Windows RTX AI aux NVIDIA BlackwellLes serveurs Azure, alimentés par Azure, transforment la façon dont les utilisateurs interagissent quotidiennement avec l’IA.