Llevamos la nueva era de la computación a todos los centros de datos.
La plataforma NVIDIA GB200 NVL2 lleva la nueva era de la computación a todos los centros de datos, ofreciendo un rendimiento sin precedentes para la inferencia de modelos de lenguaje de gran tamaño (LLM) convencionales, búsqueda de bases de datos vectoriales y procesamiento de datos a través de 2 GPU Blackwell y 2 CPU Grace. Gracias a su arquitectura NVIDIA MGX™ ultraeficiente de un solonodo, su diseño permite una amplia variedad de configuraciones de sistemas y opciones de redes para facilitar la integración de la computación acelerada en la infraestructura de centro de datos existente.
Aspectos destacados
Inferencia de LLM Llama3: latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia del primer token (FTL) = 2 s, longitud de la secuencia de entrada = 2048, longitud de la secuencia de salida = salida de 128, 8 NVIDIA HGX™ H100 refrigeradas por aire frente a GB200 NVL2 refrigeradas por aire de un solo nodo, comparación de rendimiento por GPU
Rendimiento de búsqueda de bases de datos vectoriales dentro de la canalización RAG utilizando memoria compartida por CPU NVIDIA Grace y GPU Blackwell. 1x x86, 1 GPU H100 y 1x GPU del nodo GB200 NVL2.
Procesamiento de datos: una carga de trabajo de agregación y unión a bases de datos con compresión Snappy/Deflate derivada de la consulta TPC-H Q4. Implementaciones de consulta personalizadas para una sola GPU x86, H100 y una sola GPU del nodo GB200 NLV2: GB200 frente a Intel Xeon 8480+
Rendimiento previsto sujeto a cambios.
Características
La arquitectura NVIDIA Blackwell ofrece avances revolucionarios en computación acelerada e impulsa una nueva era de la computación con un rendimiento, eficiencia y escala sin precedentes.
CPU NVIDIA Grace es un procesador revolucionario diseñado para centros de datos modernos que ejecutan aplicaciones de IA, en la nube y computación de alto rendimiento (HPC). Ofrece un rendimiento y un ancho de banda de memoria extraordinarios con una eficiencia energética 2 veces superior a la de los principales procesadores de servidores actuales.
NVIDIA NVLink-C2C interconecta coherentemente cada CPU Grace y GPU Blackwell a 900 GB/s. GB200 NVL2 utiliza NVLink-C2C y la quinta generación de NVLink para ofrecer un modelo de memoria coherente de 1,4 TB para una IA acelerada.
El almacenamiento en caché de valores clave (KV) mejora las velocidades de respuesta de LLM al almacenar el contexto y el historial de las conversaciones. GB200 NVL2 optimiza el almacenamiento en caché de valores clave mediante su GPU Grace totalmente coherente y la memoria GPU Blackwell conectada a través de NVLink-C2C, 7 veces más rápida que PCIe, lo que permite a los LLM predecir palabras más rápido que las implementaciones de GPU basadas en x86.
Para liberar todo el potencial de la computación de exaescala y los modelos de IA de billones de parámetros se necesita una comunicación rápida y fluida entre todas las GPU de un clúster de servidores. La quinta generación de NVLink es una interconexión a escala vertical que libera un rendimiento acelerado para modelos de IA de varios billones de parámetros.
La red del centro de datos desempeña un papel crucial a la hora de impulsar los avances y el rendimiento de la IA, ya que sirve de base para el entrenamiento distribuido de modelos de IA y el rendimiento de la IA generativa. Las DPU NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet y NVIDIA BlueField®-3 permiten una escalabilidad eficiente a través de cientos y miles de GPU Blackwell para un rendimiento óptimo de las aplicaciones.
Especificaciones
Configuración | 2 CPU Grace, 2 GPU Blackwell |
Tensor Core de FP4² | 40 PFLOPS |
Tensor Core de FP8/FP6² | 20 PFLOPS |
Tensor Core de INT8² | 20 POPS |
Tensor Core de FP16/BF16² | 10 PFLOPS |
Tensor Core de TF32² | 5 PFLOPS |
FP32 | 180 TFLOPS |
Tensor Core de FP64/FP64 | 90 TFLOPS |
Memoria GPU | Ancho de banda | Hasta 384 GB | 16 TB/s |
Recuento de núcleos de CPU | 144 núcleos Arm® Neoverse V2 |
Memoria LPDDR5X | Ancho de banda | Hasta 960 GB | Hasta 1024 GB/s |
Interconexión | NVLink: 1,8 TB/s NVLink-C2C: 2 a 900 GB/s PCIe Gen6: 2 a 256 GB/s |
Opciones del servidor | Varias opciones de configuración de NVIDIA GB200 NVL2 con NVIDIA MGX |
1 Especificaciones preliminares. Puede estar sujeto a cambios. |
La NVIDIA GB200 NVL72 conecta 36 GB200 Superchips en un diseño a escala de bastidor. GB200 NVL72 es una solución a escala de bastidor con refrigeración por líquido que cuenta con un dominio NVLink de 72 GPU que actúa como una única GPU masiva.
Primeros pasos
Regístrese para saber cuándo estará disponible NVIDIA Blackwell.