Exploitez la puissance incomparable des GPU NVIDIA pour accélérer vos workflows de science des données, d’apprentissage automatique et d’IA.
Exécutez des workflows complets de science des données grâce au calcul sur GPU à haute vitesse et à la parallélisation du chargement des données, de la manipulation des données et de l’apprentissage automatique, de manière à mettre en œuvre des pipelines de science des données de bout en bout 50 fois plus rapides.
La science des données et l’apprentissage automatique sont les deux principaux champs d’application du calcul informatique dans le monde. Le moindre gain de précision apporté aux modèles d'analyse de données peut permettre de réaliser des économies d’échelle se chiffrant à plusieurs milliards de dollars. Pour mettre en œuvre des modèles à haut degré de performance, les data scientists cherchent aujourd’hui à entraîner, à évaluer, à modifier et à réentraîner leurs jeux de données afin de parvenir à des résultats extrêmement précis qui optimiseront la performance des modèles. Avec RAPIDS™, des processus qui prenaient auparavant plusieurs jours ne nécessitent plus que quelques minutes, ce qui permet de concevoir et de déployer aussi facilement que rapidement des modèles générateurs de valeur ajoutée. Vous pouvez accéder aux laboratoires RAPIDS via NVIDIA LaunchPad et, grâce à NVIDIA AI Enterprise, nous pouvons soutenir votre entreprise pour optimiser tous les aspects de vos projets d’IA.
Vos workflows doivent passer par de nombreuses itérations pour permettre de transformer des données brutes en données d’entraînement immédiatement exploitables et intégrables à de nombreux types d’algorithmes, permettant ainsi d’optimiser une grande variété d’hyperparamètres afin de trouver les bonnes combinaisons de modèles, de paramètres de modèle et de données pour parvenir à une précision et à des performances optimales.
RAPIDS est une suite de bibliothèques logicielles et d’API open-source qui permet d’exécuter intégralement des pipelines de science des données sur des GPU, ce qui peut réduire les délais d’entraînement de plusieurs jours à quelques minutes. Basée sur NVIDIA® CUDA-X AI™, la suite logicielle RAPIDS s’appuie sur des années de développement dans des domaines comme le rendu graphique, l’apprentissage automatique, le Deep Learning, le calcul haute performance (HPC) et bien plus encore.
La science des données met à profit l’augmentation de la puissance de calcul pour vous aider à obtenir des résultats probants plus rapidement. RAPIDS s’appuie sur NVIDIA CUDA® pour accélérer vos workflows tout en exécutant l’ensemble du pipeline d’entraînement pour la science des données sur les GPU, ce qui permet de réduire la durée du processus d’entraînement des modèles de plusieurs jours à quelques minutes seulement.
En simplifiant l’accès aux techniques de calcul sur GPU ainsi que les protocoles de communication au sein des architectures de Data Center, RAPIDS fournit une méthode simple pour accomplir des projets complexes de science des données. Alors que les data scientists sont de plus en plus nombreux à exploiter Python et des langages de programmation de haut niveau, le recours à l’accélération GPU sans changement de code est d’une importance capitale pour accélérer les projets de développement.
RAPIDS peut être exécuté n’importe où, aussi bien dans le Cloud que sur site. Vous pouvez facilement passer d’une station de travail à des serveurs multi-GPU jusqu’à des clusters multi-nœuds, mais aussi déployer vos modèles en production avec Dask, Spark, MLFlow et Kubernetes.
L’accès à des services d’assistance fiables est d’une importance capitale pour les entreprises ayant recours à la science des données pour collecter des informations cruciales. Les services d’assistance de NVIDIA pour les entreprises sont disponibles à l’échelle mondiale via NVIDIA AI Enterprise, une suite logicielle d’IA de bout en bout qui fournit des délais de réponse garantis, des notifications prioritaires sur la sécurité, des mises à jour régulières et un accès aux experts en IA de NVIDIA.
Les résultats prouvent que l'accélération GPU permet de réaliser des économies de coûts et de temps considérables concernant les projets d’analyse Big Data, quelle que soit leur échelle. Grâce à des API aussi répandues que Pandas et Dask, RAPIDS s’exécute jusqu’à 20 fois plus vite sur GPU que sur une configuration CPU optimale, à une échelle de 10 téraoctets. Utilisant seulement 16 GPU NVIDIA DGX A100 pour atteindre les mêmes performances que 350 serveurs basés sur CPU, la solution NVIDIA s'avère sept fois plus rentable, tout en délivrant des performances comparables à celles des meilleurs workflows de calcul haute performance.
Les tâches courantes de traitement de données se décomposent en plusieurs étapes sous la forme de pipelines de données, que Hadoop ne peut pas toujours gérer de manière optimale. Apache Spark a résolu ce problème en regroupant toutes les données dans la mémoire système, ce qui a favorisé l'apparition de pipelines de données plus polyvalents et complexes, mais a également engendré de nouveaux problèmes de ralentissement des transferts. Jusqu’à récemment, l’analyse de quelques centaines de gigaoctets (Go) de données pouvait prendre plusieurs heures, voire des jours, dans des clusters Spark comptant pourtant des centaines de nœuds CPU. Pour exploiter tout le potentiel de la science des données, les GPU doivent être au centre de la conception des Data Centers en concentrant les cinq éléments suivants : calcul informatique, mise en réseau, stockage, déploiement et logiciels. De manière générale, les workflows de science des données de bout en bout s'exécutent désormais 10 fois plus vite sur GPU que sur CPU.
RAPIDS fournit une base solide pour la démocratisation d'un nouvel écosystème de science des données à hautes performances, tout en réduisant les obstacles à sa mise en œuvre grâce à son interopérabilité. L’intégration avec des frameworks majeurs en science des données tels qu’Apache Spark, cuPY, Dask et Numba, mais aussi avec de nombreux frameworks de Deep Learning tels que PyTorch, TensorFlow et Apache MxNet, favorisent l’adoption et encouragent une intégration plus poussée. Vous pouvez accéder à RAPIDS et aux frameworks associés via le catalogue NGC.
dask-sql est un moteur SQL distribué intégré à Python qui permet d’exécuter des calculs ETL en toute évolutivité avec RAPIDS en tirant profit de l’accélération GPU.
Reposant sur RAPIDS, NVTabular accélère le prétraitement et l’ingénierie de fonctionnalités pour les systèmes de recommandation sur les GPU.
Intégré à RAPIDS, Plotly Dash permet une analyse visuelle en temps réel des jeux de données ultra-volumineux, y compris sur un seul GPU.
L’accélérateur RAPIDS pour Apache Spark vous fournit un ensemble de plug-ins pour Apache Spark exploitant des GPU pour accélérer le traitement informatique via les logiciels RAPIDS et UCX.
RAPIDS, qui s’appuie sur des fonctions primitives CUDA pour l’optimisation des calculs de bas niveau, améliore le parallélisme GPU et la bande passante de la mémoire par le biais d’interfaces Python intuitives. RAPIDS prend en charge des workflows de science des données de bout en bout incluant des champs d’application tels que le chargement et le prétraitement des données, l’apprentissage automatique, l’analyse de graphes et la visualisation. C’est une pile Python entièrement fonctionnelle qui s’adapte aux différents cas d’utilisation du Big Data pour les entreprises.
Les fonctionnalités de chargement de données, de prétraitement et d’ETL de RAPIDS s’appuient sur Apache Arrow pour charger, intégrer, agréger, filtrer et manipuler des données, le tout avec une API similaire à pandas pour les data scientists. Les utilisateurs peuvent ainsi s’attendre à des gains d’accélération de 10 fois ou plus.
Les algorithmes d’apprentissage automatique et les primitives mathématiques de RAPIDS utilisent une API de type "scikit-learn". Des outils populaires comme XGBoost, Random Forest et bien d’autres sont pris en charge pour vos déploiements, que ce soit sur un seul GPU ou dans des grands Data Centers. Pour les jeux de données volumineux, ces implémentations basées sur GPU peuvent être exécutées à une vitesse de 10 à 50 fois plus rapide que les implémentations similaires sur CPU.
Les algorithmes de graphes comme PageRank et les fonctions telles que NetworkX de RAPIDS utilisent efficacement le parallélisme massif des GPU pour accélérer jusqu’à 1 000 fois l’analyse de grands graphes. Explorez près de 200 millions d’unités sur un seul GPU NVIDIA A100 Tensor Core et interagissez avec des milliards d’unités en faisant évoluer votre configuration sur des clusters de GPU NVIDIA DGX™ A100.
Les différentes fonctionnalités de visualisation de RAPIDS prennent en charge le filtrage croisé accéléré par GPU. Inspiré par la version JavaScript de son instance d’origine, elle permet un filtrage multidimensionnel ultra-rapide à haut degré d’interactivité sur plus de 100 millions de lignes de données tabulaires.
Si le Deep Learning est très efficace dans des domaines tels que la vision par ordinateur, le traitement automatique du langage naturel et les systèmes de recommandation, il existe des secteurs dans lesquels son utilisation n'est pas encore démocratisée. Les problèmes de données tabulaires, qui consistent en des colonnes de variables catégoriques et continues, sont généralement résolus grâce à des techniques comme XGBoost, l’augmentation de gradient ou les modèles linéaires. RAPIDS rationalise le prétraitement des données tabulaires sur GPU et garantit un transfert fluide des données directement vers des frameworks prenant en charge DLPack, à l'image de PyTorch, TensorFlow ou MxNet. Ces intégrations ouvrent de nouvelles opportunités pour la création de workflows complexes, y compris ceux qui n'avaient aucune raison d'être auparavant, notamment avec la mise en œuvre de nouvelles fonctionnalités sur des frameworks de Deep Learning via des algorithmes d’apprentissage automatique.
La mise en œuvre de Data Centers optimisés pour l’IA au sein de l’entreprise s’appuie sur cinq éléments-clés. Les GPU figurent bien évidemment en leur cœur.
Grâce à leurs performances de calcul exceptionnelles, les systèmes équipés de GPU NVIDIA forment le composant essentiel du calcul informatique au sein des Data Centers pour l’IA. Les systèmes NVIDIA DGX fournissent des performances d’IA sans précédent et peuvent remplacer en moyenne 50 serveurs CPU Dual-Socket. C’est la première étape qui vous permettra de fournir aux chercheurs les outils les plus puissants de l’industrie pour l’exploration de grands volumes de données.
En simplifiant l’utilisation des GPU et des protocoles de communication au sein des architectures de Data Center, RAPIDS constitue une méthode simple pour mener à bien les projets de science des données. Alors que les data scientists sont de plus en plus nombreux à exploiter Python et des langages de programmation de haut niveau, le recours à l’accélération GPU sans changement de code est d’une importance capitale pour accélérer les projets de développement.
Les fonctionnalités d’accès direct à la mémoire à distance (RDMA) intégrées aux cartes d’interface réseau (NIC) de NVIDIA Mellanox®, à NCCL2 (bibliothèque de communications collectives de NVIDIA) et à OpenUCX (framework open-source de communications point à point) ont permis de réduire considérablement le délai des procédures d’entraînement. Grâce à l’intégration RDMA, les GPU peuvent communiquer directement entre eux à travers des nœuds jusqu’à 100 Go/s, mais aussi fonctionner sur plusieurs nœuds en toute transparence et comme s’ils se trouvaient sur un seul serveur massif.
Les entreprises se tournent vers des conteneurs Kubernetes et Docker pour déployer des pipelines à haut degré d’évolutivité. En combinant des applications conteneurisées à Kubernetes, les entreprises peuvent revoir leurs priorités en fonction des tâches les plus importantes, ce qui améliore la résilience, la fiabilité et l’évolutivité des Data Centers pour l’IA.
La technologie de stockage GPUDirect® permet aux instances NVMe et NVMe-oF (NVMe over Fabric) de lire et d’écrire les données directement sur le GPU, en contournant le CPU et la mémoire système. Cela permet de libérer le CPU et la mémoire système pour d’autres tâches, tout en offrant à chaque GPU un accès à de gros volumes de données avec une bande passante jusqu’à 50 % plus importante.
NVIDIA s’engage à simplifier, à unifier et à accélérer la science des données pour la communauté open-source. En optimisant l’ensemble de la pile informatique - des composants matériels aux solutions logicielles - et en supprimant les goulets d’étranglement pour la science des données itérative, NVIDIA aide tous les data scientists à "en faire plus avec moins". Les entreprises peuvent ainsi créer davantage de valeur ajoutée en s’appuyant sur leurs ressources les plus précieuses : les données et leurs data scientists. En tant que logiciel open-source conforme à Apache 2.0, NVIDIA RAPIDS réunit un écosystème complet sur ses GPU.