Arquitetura Blackwell Rack-Scale para inferência e treinamento de trilhões de parâmetros em tempo real
Produto Lacrado de Fábrica
O NVIDIA GB200 NVL72 é um computador exascale em um único rack. Com 36 GB200s interconectados pelo maior domínio NVIDIA® NVLink® já oferecido, o NVLink Switch System fornece 130 terabytes por segundo (TB/s) de comunicações de GPU de baixa latência para cargas de trabalho de IA e computação de alto desempenho (HPC).
Desbloqueando modelos de trilhões de parâmetros em tempo real
O GB200 NVL72 conecta 36 CPUs Grace e 72 GPUs Blackwell em um design em escala de rack.
O GB200 NVL72 é uma solução em escala de rack com refrigeração líquida que ostenta um domínio NVLink de 72 GPUs que atua como uma única GPU massiva e fornece inferência LLM de trilhões de parâmetros em tempo real 30X mais rápida.
O GB200 Grace Blackwell Superchip é um componente essencial do NVIDIA GB200 NVL72, conectando duas GPUs NVIDIA Blackwell Tensor Core de alto desempenho e uma CPU NVIDIA Grace usando a interconexão NVIDIA® NVLink®-C2C às duas GPUs Blackwell.
Destaques
Potencializando a IA de próxima geração e a computação acelerada
Inferência LLM
30Xvs. GPU NVIDIA H100 Tensor Core
Treinamento LLM
4Xcontra H100
Eficiência Energética
25Xcontra H100
Processamento de dados
18Xvs. CPU
Inferência LLM e eficiência energética: TTL = 50 milissegundos (ms) em tempo real, FTL = 5s, 32.768 entradas/1.024 saídas, NVIDIA HGX™ H100 dimensionado sobre InfiniBand (IB) vs. GB200 NVL72, treinamento 1,8T MOE 4096x HGX H100 dimensionado sobre IB vs. 456x GB200 NVL72 dimensionado sobre IB. Tamanho do cluster: 32.768 Uma carga de trabalho de junção e agregação de banco de dados com compactação Snappy/Deflate derivada da consulta TPC-H Q4. Implementações de consulta personalizadas para x86, GPU única H100 e GPU única de GB200 NLV72 vs. Intel Xeon 8480+ Desempenho projetado sujeito a alterações.
Inferência LLM em tempo real
O GB200 NVL72 apresenta recursos de ponta e um Transformer Engine de segunda geração que habilita FP4 AI e, quando acoplado ao NVIDIA NVLink de quinta geração, oferece desempenho de inferência LLM em tempo real 30X mais rápido para modelos de linguagem de trilhões de parâmetros. Esse avanço é possível com uma nova geração de Tensor Cores, que introduz novos formatos de microescala, proporcionando alta precisão e maior rendimento. Além disso, o GB200 NVL72 usa NVLink e resfriamento líquido para criar um único rack massivo de 72 GPUs que pode superar gargalos de comunicação.
Treinamento em grande escala
O GB200 NVL72 inclui um Transformer Engine de segunda geração mais rápido com precisão FP8, permitindo um treinamento notavelmente 4X mais rápido para grandes modelos de linguagem em escala. Essa inovação é complementada pelo NVLink de quinta geração, que fornece 1,8 terabytes por segundo (TB/s) de interconexão GPU-para-GPU, rede InfiniBand e software NVIDIA Magnum IO™.
Infraestrutura de eficiência energética
Os racks GB200 NVL72 resfriados a líquido reduzem a pegada de carbono e o consumo de energia de um data center. O resfriamento a líquido aumenta a densidade de computação, reduz a quantidade de espaço de piso usado e facilita a comunicação de GPU de alta largura de banda e baixa latência com grandes arquiteturas de domínio NVLink . Comparado à infraestrutura resfriada a ar NVIDIA H100, o GB200 oferece 25X mais desempenho com a mesma potência, ao mesmo tempo em que reduz o consumo de água.
Processamento de dados
Os bancos de dados desempenham papéis críticos no manuseio, processamento e análise de grandes volumes de dados para empresas. O GB200 aproveita o desempenho de memória de alta largura de banda, NVLink-C2C e mecanismos de descompressão dedicados na arquitetura NVIDIA Blackwell para acelerar as principais consultas de banco de dados em 18X em comparação com a CPU e fornecer um TCO 5X melhor.
Características
Avanços tecnológicos
Arquitetura Blackwell
A arquitetura NVIDIA Blackwell oferece avanços inovadores em computação acelerada, impulsionando uma nova era de computação com desempenho, eficiência e escala incomparáveis.
A CPU NVIDIA Grace é um processador inovador projetado para data centers modernos que executam aplicativos de IA, nuvem e HPC. Ela fornece desempenho e largura de banda de memória excelentes com 2X a eficiência energética dos principais processadores de servidor da atualidade.
Desbloquear todo o potencial da computação exascale e dos modelos de IA de trilhões de parâmetros requer uma comunicação rápida e contínua entre cada GPU em um cluster de servidores. A quinta geração do NVLink é uma interconexão de aumento de escala que libera desempenho acelerado para modelos de IA de trilhões e multitrilhões de parâmetros.
A rede do data center desempenha um papel crucial na condução de avanços e desempenho de IA, servindo como a espinha dorsal para treinamento de modelo de IA distribuída e desempenho de IA generativa. NVIDIA Quantum-X800 InfiniBand , NVIDIA Spectrum™-X800 Ethernet e NVIDIA BlueField®-3 DPUs permitem escalabilidade eficiente em centenas e milhares de GPUs Blackwell para desempenho ideal de aplicativos.
O NVIDIA GB200 Grace Blackwell NVL4 Superchip desbloqueia o futuro da HPC e IA convergentes, oferecendo desempenho revolucionário por meio de quatro GPUs Blackwell conectadas por NVIDIA NVLink™ unificadas com duas CPUs Grace por NVLink-C2C.