Décoder comment l’IA peut accélérer la science des données

Note de l’éditeur : cet article fait partie du Série AI décodéequi démystifie l’IA en rendant la technologie plus accessible, et présente de nouveaux matériels, logiciels, outils et accélérations pour les utilisateurs de stations de travail et de PC RTX.

Dans tous les secteurs, l’IA stimule l’innovation et permet des gains d’efficacité, mais pour libérer tout son potentiel, la technologie doit être formée sur de grandes quantités de données de haute qualité.

Les data scientists jouent un rôle clé dans la préparation de ces données, en particulier dans des domaines spécifiques où des données spécialisées, souvent propriétaires, sont essentielles à l’amélioration des capacités de l’IA.

Pour aider les data scientists à faire face aux demandes croissantes de charge de travail, NVIDIA a annoncé que RAPIDS cuDF, une bibliothèque qui permet aux utilisateurs de travailler plus facilement avec les données, accélère la bibliothèque logicielle pandas sans aucune modification de code. Pandas est une bibliothèque d’analyse et de manipulation de données flexible, puissante et populaire pour le langage de programmation Python. Avec cuDF, les data scientists peuvent désormais utiliser leur base de code préférée sans compromettre la vitesse de traitement des données.

Le matériel et les technologies NVIDIA RTX AI peuvent également accélérer le traitement des données. Ils incluent de puissants GPU qui offrent les performances de calcul nécessaires pour accélérer rapidement et efficacement l’IA à tous les niveaux, des flux de travail de science des données à la formation et à la personnalisation des modèles sur PC et postes de travail.

Le goulot d’étranglement de la science des données

Le format de données le plus courant est celui des données tabulaires, organisées en lignes et en colonnes. Des ensembles de données plus petits peuvent être gérés avec des outils de feuille de calcul comme Excel. Cependant, les ensembles de données et les pipelines de modélisation comportant des dizaines de millions de lignes s’appuient généralement sur des bibliothèques de trames de données dans des langages de programmation comme Python.

Python est un choix populaire pour l’analyse de données, principalement en raison de la bibliothèque pandas, qui dispose d’une interface de programmation d’application (API) facile à utiliser. Cependant, à mesure que la taille des ensembles de données augmente, les pandas ont du mal à gérer la vitesse et l’efficacité du traitement dans les systèmes utilisant uniquement un processeur. La bibliothèque est également notoirement confrontée à des ensembles de données contenant beaucoup de texte, ce qui constitue un type de données important pour les grands modèles de langage.

Lorsque les besoins en données dépassent les capacités des pandas, les data scientists sont confrontés à un dilemme : supporter des délais de traitement lents ou franchir l’étape complexe et coûteuse de passer à des outils plus efficaces mais moins conviviaux.

Accélérer les pipelines de prétraitement avec RAPIDS cuDF

RAPIDS cuDF accélère la populaire bibliothèque pandas jusqu’à 100 fois sur les PC et postes de travail AI alimentés par RTX.

Avec RAPIDS cuDF, les data scientists peuvent utiliser leur base de code préférée sans sacrifier la vitesse de traitement.

RAPIDS est une suite open source de bibliothèques Python accélérées par GPU conçues pour améliorer les pipelines de science des données et d’analyse. cuDF est une bibliothèque GPU DataFrame qui fournit une API de type pandas pour charger, filtrer et manipuler des données.

Grâce au « mode accélérateur pandas » de cuDF, les data scientists peuvent exécuter leur code pandas existant sur des GPU pour profiter d’un traitement parallèle puissant, avec l’assurance que le code basculera vers les CPU si nécessaire. Cette interopérabilité offre des performances avancées et fiables.

La dernière version de cuDF prend en charge des ensembles de données plus volumineux et des milliards de lignes de données textuelles tabulaires. Cela permet aux data scientists d’utiliser le code pandas pour prétraiter les données pour les cas d’utilisation de l’IA générative.

Accélération de la science des données sur les stations de travail et PC IA équipés de NVIDIA RTX

Selon une étude récente, 57 % des data scientists utilisent des ressources locales telles que des PC, des ordinateurs de bureau ou des postes de travail pour la science des données.

Les data scientists peuvent obtenir des accélérations significatives en commençant par le GPU NVIDIA GeForce RTX 4090. À mesure que les ensembles de données se développent et que le traitement devient plus gourmand en mémoire, ils peuvent utiliser cuDF pour offrir des performances jusqu’à 100 fois supérieures avec les GPU NVIDIA RTX 6000 Ada Generation dans les postes de travail, par rapport aux solutions traditionnelles basées sur CPU.

Un graphique montre que cuDF.pandas prend quelques secondes à un chiffre, contre plusieurs minutes sur les pandas traditionnels, pour exécuter la même opération.
Deux opérations courantes de science des données — « rejoindre » et « regrouper » — se trouvent sur l’axe des y, tandis que l’axe des x indique le temps nécessaire à l’exécution de chaque opération.

Les data scientists peuvent facilement démarrer avec RAPIDS cuDF sur NVIDIA AI Workbench. Ce gestionnaire d’environnement de développement gratuit alimenté par des conteneurs permet aux data scientists et aux développeurs de créer, collaborer et migrer des charges de travail d’IA et de science des données sur des systèmes GPU. Les utilisateurs peuvent démarrer avec plusieurs exemples de projets disponibles sur le référentiel NVIDIA GitHub, tels que le projet cuDF AI Workbench.

cuDF est également disponible par défaut sur HP AI Studio, une plateforme centralisée de science des données conçue pour aider les développeurs d’IA à répliquer de manière transparente leur environnement de développement depuis les postes de travail vers le cloud. Cela leur permet de mettre en place, de développer et de collaborer sur des projets sans gérer plusieurs environnements.

Les avantages de cuDF sur les PC et stations de travail IA équipés de RTX vont au-delà de l’accélération des performances brutes. Il également :

  • Économisez du temps et de l’argent grâce au développement local à coût fixe sur des GPU puissants qui se répliquent de manière transparente vers des serveurs sur site ou des instances cloud.
  • Permet un traitement des données plus rapide pour des itérations plus rapides, permettant aux data scientists d’expérimenter, d’affiner et de tirer des informations à partir d’ensembles de données à des vitesses interactives.
  • Fournit un traitement des données plus efficace pour de meilleurs résultats de modèle plus tard dans le pipeline.

En savoir plus sur RAPIDS cuDF.

Une nouvelle ère de science des données

À mesure que l’IA et la science des données continuent d’évoluer, la capacité de traiter et d’analyser rapidement des ensembles de données massifs deviendra un différenciateur clé pour permettre des percées dans tous les secteurs. Qu’il s’agisse de développer des modèles d’apprentissage automatique sophistiqués, de réaliser des analyses statistiques complexes ou d’explorer l’IA générative, RAPIDS cuDF constitue la base du traitement des données de nouvelle génération.

NVIDIA étend cette base en ajoutant la prise en charge des outils de trame de données les plus populaires, notamment Polars, l’une des bibliothèques Python à la croissance la plus rapide, qui accélère considérablement le traitement des données par rapport à d’autres outils prêts à l’emploi uniquement basés sur le processeur.

Polars a annoncé ce mois-ci la version bêta ouverte du moteur GPU Polars, alimenté par RAPIDS cuDF. Les utilisateurs de Polars peuvent désormais multiplier par 13 les performances de la bibliothèque de trames de données déjà ultra-rapide.

Des possibilités infinies pour les ingénieurs de demain avec RTX AI

Les GPU NVIDIA, qu’ils fonctionnent dans les centres de données universitaires, les ordinateurs portables GeForce RTX ou les stations de travail NVIDIA RTX, accélèrent les études. Les étudiants dans les domaines de la science des données et au-delà améliorent leur expérience d’apprentissage et acquièrent une expérience pratique avec le matériel largement utilisé dans les applications du monde réel.

Découvrez comment les PC et stations de travail NVIDIA RTX aident les étudiants à améliorer leurs études grâce à des outils basés sur l’IA.

L’IA générative transforme les jeux, les vidéoconférences et les expériences interactives de toutes sortes. Donnez un sens aux nouveautés et aux prochaines étapes en vous abonnant au Newsletter AI décodée.

More Info

Greatly hearted has who believe. Drift allow green son walls years for blush. Sir margaret drawings repeated recurred exercise.

You have been successfully Subscribed! Ops! Something went wrong, please try again.

Quick Links

Services

About Me

Projects

Contact

Address

+1-(360) 416-7563

Phone Number

FelicitymcDowell@mail.com

Email Address

© 2024 Created with Royal Elementor Addons