Transformer Engine, NVLink, GPU multi-instância otimizada para IA e HPC (MIG), PCIe Gen4
Multi-Instance GPU (MIG), PCIe Gen4
Ideal Workloads
Modelos de linguagem extremamente grandes, computação de alto desempenho, IA com uso intensivo de dados, IA em tempo real
IA de uso geral, HPC, ambientes multilocatários, IA com bom custo-benefício
NVIDIA H100: The Ultimate AI and HPC Powerhouse
NVIDIA H100 GPU
Desempenho incomparável: Oferece desempenho inovador para as cargas de trabalho de IA e HPC mais exigentes.
Transformer Engine: Acelera grandes modelos de linguagem como GPT-3.
Memória HBM3: Oferece largura de banda massiva para aplicativos com uso intensivo de dados.
NVIDIA A100: Versatile AI and HPC Accelerator
NVIDIA A100 GPU
GPU multi-instância (MIG): permite compartilhamento eficiente de recursos para diversas cargas de trabalho.
Computação de alto desempenho: acelera simulações científicas e aplicativos de engenharia.
IA e aprendizado de máquina: potencializa uma ampla gama de aplicativos de IA e ML.
NVIDIA H100: Ideal para cargas de trabalho exigentes de IA e HPC
Aplicações:
Modelos de linguagem extremamente grandes: O Transformer Engine do H100 é otimizado para eles.
Computação de alto desempenho: Seu enorme poder computacional é perfeito para simulações, pesquisas científicas e outras tarefas de HPC.
IA com uso intensivo de dados: A memória HBM3 fornece ampla largura de banda para lidar com grandes conjuntos de dados.
IA em tempo real: Sua velocidade permite o processamento em tempo real de tarefas de IA, como percepção de veículos autônomos.
NVIDIA A100: Versátil para uma ampla gama de aplicações de IA e HPC
Aplicações:
IA de uso geral: Adequada para uma variedade de tarefas de IA, de visão computacional a processamento de linguagem natural.
Computação de alto desempenho: Pode lidar com cargas de trabalho exigentes de HPC, como dinâmica de fluidos computacional e simulações de dinâmica molecular.
Ambientes multilocatários: Sua tecnologia Multi-Instance GPU (MIG) permite o compartilhamento eficiente de recursos.
IA econômica: Oferece um bom equilíbrio entre desempenho e custo para muitas aplicações de IA.
Em resumo, embora ambas as GPUs sejam potentes, a H100 foi projetada para as cargas de trabalho de IA e HPC mais exigentes, enquanto a A100 é uma opção mais versátil para uma gama mais ampla de aplicações.
Memórias Utilizadas nas GPUs NVIDIA: Uma Visão Geral
As GPUs NVIDIA utilizam diversos tipos de memórias, cada uma com suas características e aplicações específicas. A escolha da memória depende de fatores como desempenho exigido, custo e tipo de aplicação.
Tipos de Memória Comuns em GPUs NVIDIA:
GDDR6/GDDR6X: São as mais comuns em placas de vídeo para jogos e aplicações profissionais. Oferecem alta largura de banda e são otimizadas para tarefas gráficas intensivas.
HBM (High Bandwidth Memory): Utilizadas em GPUs de alto desempenho, como as da linha RTX, oferecem ainda mais largura de banda do que as GDDR, mas são mais caras. A HBM2e e HBM3 são as gerações mais recentes.
HBM2e: Uma evolução da HBM, oferecendo maior capacidade e menor consumo de energia.
HBM3: A mais recente geração de HBM, com ainda mais largura de banda e menor latência.
Qual a diferença entre elas?
Característica
GDDR6/GDDR6X
HBM2e
HBM3
Largura de banda
Alta
Muito alta
Extremamente alta
Capacidade
Alta
Muito alta
Muito alta
Consumo de energia
Moderado
Baixo
Muito baixo
Custo
Moderado
Alto
Muito alto
Aplicações
Jogos, aplicações profissionais
GPUs de alto desempenho, IA, HPC
GPUs de supercomputadores, IA de ponta
Por que a escolha da memória é importante?
Desempenho: Memórias com maior largura de banda permitem transferir mais dados por segundo, o que resulta em um desempenho gráfico superior.
Consumo de energia: Memórias mais eficientes em termos de energia reduzem o consumo total da GPU.
Custo: Memórias de alta performance tendem a ser mais caras.
Em resumo:
A escolha da memória para uma GPU NVIDIA depende do tipo de aplicação. Para jogos e aplicações profissionais, as GDDR6/GDDR6X são uma excelente opção. Para GPUs de alto desempenho e aplicações de IA, as HBM2e e HBM3 são mais indicadas.
NVIDIA A100 40 GB
Aceleração sem precedentes para os data centers elásticos de mais alto desempenho do mundo
A GPU NVIDIA A100 Tensor Core oferece aceleração sem precedentes — em todas as escalas — para alimentar os data centers elásticos de mais alto desempenho do mundo para IA, análise de dados e aplicativos de computação de alto desempenho (HPC).
Como o mecanismo da plataforma de data center NVIDIA, a A100 oferece desempenho até 20x maior em relação à geração anterior do NVIDIA Volta.
A A100 pode ser dimensionada com eficiência ou particionada em sete instâncias de GPU isoladas, com a GPU multi-instância (MIG) fornecendo uma plataforma unificada que permite que os data centers elásticos se ajustem dinamicamente às demandas de carga de trabalho em constante mudança.
A A100 faz parte da solução completa de data center da NVIDIA que incorpora blocos de construção em hardware, rede, software, bibliotecas e modelos e aplicativos de IA otimizados da NGC. Representando a plataforma de IA e HPC de ponta a ponta mais poderosa para data centers, ela permite que pesquisadores entreguem resultados reais e implantem soluções em produção em escala, ao mesmo tempo em que permite que a TI otimize a utilização de cada GPU A100 disponível.
Arquitetura NVIDIA Ampere-Based
A100 acelera cargas de trabalho grandes e pequenas. Seja usando MIG para particionar uma GPU A100 em instâncias menores, ou NVLink para conectar várias GPUs para acelerar cargas de trabalho em larga escala, a A100 lida facilmente com necessidades de aplicativos de tamanhos diferentes, desde o menor trabalho até a maior carga de trabalho multi-nó.
Tensor Cores de terceira geração
Introduzida pela primeira vez na arquitetura NVIDIA Volta, a tecnologia NVIDIA Tensor Core trouxe acelerações drásticas para operações de treinamento e inferência de IA, reduzindo os tempos de treinamento de semanas para horas e fornecendo aceleração massiva para inferência.
A arquitetura NVIDIA Ampere se baseia nessas inovações, fornecendo até 20x mais FLOPS para IA.
Ela faz isso melhorando o desempenho das precisões existentes e trazendo novas precisões — TF32, INT8 e FP64 — que aceleram e simplificam a adoção de IA e estendem o poder dos NVIDIA Tensor Cores para HPC.
TF32 para IA: desempenho 20x maior, nenhuma alteração de código
À medida que as redes e conjuntos de dados de IA continuam a se expandir exponencialmente, seu apetite por computação está crescendo de forma semelhante.
A matemática de precisão mais baixa trouxe enormes acelerações de desempenho, mas historicamente exigiu algumas alterações de código.
O A100 traz uma nova precisão, o TF32, que funciona exatamente como o FP32, ao mesmo tempo em que fornece FLOPS 20x maiores para IA sem exigir nenhuma alteração de código.
E o recurso de precisão mista automática da NVIDIA permite um aumento adicional de 2x no desempenho com apenas uma linha adicional de código usando a precisão FP16.
Os núcleos tensores A100 também incluem suporte para precisão BFLOAT16, INT8 e INT4, tornando o A100 um acelerador incrivelmente versátil para treinamento e inferência de IA.
Núcleos tensores de precisão dupla: o maior marco desde o FP64 para HPC
A A100 traz o poder dos núcleos tensores para HPC, fornecendo o maior marco desde a introdução da computação de GPU de precisão dupla para HPC.
A terceira geração de Tensor Cores no A100 permite operações de matriz em precisão FP64 completa e compatível com IEEE.
Por meio de aprimoramentos nas bibliotecas matemáticas NVIDIA CUDA-X, uma variedade de aplicativos HPC que precisam de matemática de precisão dupla agora podem ver um aumento de até 2,5x em desempenho e eficiência em comparação com gerações anteriores de GPUs.
GPU multi-instância (MIG)
Todo aplicativo de IA e HPC pode se beneficiar da aceleração, mas nem todo aplicativo precisa do desempenho de um A100 completo. Com GPU multi-instância (MIG), cada A100 pode ser particionado em até sete instâncias de GPU, totalmente isoladas no nível de hardware com sua própria memória de alta largura de banda, cache e núcleos de computação.
Agora, os desenvolvedores podem acessar aceleração inovadora para todos os seus aplicativos, grandes e pequenos, e obter qualidade de serviço garantida. E os administradores de TI podem oferecer aceleração de GPU do tamanho certo para utilização ideal e expandir o acesso a todos os usuários e aplicativos.
O MIG está disponível em ambientes bare metal e virtualizados e é suportado pelo NVIDIA Container Runtime, que suporta todos os principais runtimes, como LXC, Docker, CRI-O, Containerd, Podman e Singularity.
Cada instância MIG é um novo tipo de GPU no Kubernetes e estará disponível em todas as distribuições do Kubernetes, como Red Hat OpenShift, VMware Project Pacific e outras no local e em nuvens públicas por meio do NVIDIA Device Plugin for Kubernetes.
Os administradores também podem se beneficiar da virtualização baseada em hipervisor, incluindo hipervisores baseados em KVM, como Red Hat RHEL/RHV e VMware ESXi, em instâncias MIG por meio do NVIDIA vComputeServer.