Os modelos de IA generativa e de linguagem grande de hoje precisam de três elementos para acelerar as respostas:
Aceleração rápida em vários tipos de dados
Grande memória e largura de banda para lidar com enormes conjuntos de dados e modelos e largura de banda de E/S extrema.
Você obtém todos os três com a plataforma AMD InstinctTM MI325X com GPUs baseadas na arquitetura AMD CDNATM de 3ª geração:
42 petaFLOPs de pico teórico FP8 com desempenho de precisão de escassez para treinamento de IA generativa e ML.
Nossa plataforma de placa de base universal (UBB 2.0) baseada no padrão do setor hospeda 8 aceleradores AMD InstinctTM MI325X e 2 TB de memória HBM3E para ajudar a processar os modelos de IA mais exigentes.
Com oito conexões de E/S de host x16 PCIe® Gen 5, você não precisa se preocupar com gargalos de dados.
Com compatibilidade drop-in com a plataforma AMD Instinct MI300X, você pode atualizar sua tecnologia com a plataforma MI325X, onde vasta memória encontra desempenho de liderança.
Com esta plataforma, você pode implantar rapidamente, treinar rapidamente e otimizar seu custo total de propriedade (TCO).
Os desafios dos diversos requisitos de dados
A IA generativa emergente e os modelos de grande linguagem têm um apetite voraz por dados.
O suporte para uma ampla gama de tipos de dados, densidade de computação e grandes capacidades de memória preparam a plataforma AMD Instinct MI325X para lidar com essas diversas cargas de trabalho.
Trazemos tipos de dados de baixa precisão, como FP8, INT8, FP16 e BF16 com escassez baseada em hardware para impulsionar modelos de IA generativa e aprendizado de máquina em escala horizontal.
Com a introdução da escassez, os modelos de IA sem estruturas de dados densas podem ser acelerados com eficiência de memória ainda maior. Hoje, uma plataforma Instinct MI325X é projetada para lidar com modelos de trilhões de parâmetros em uma única plataforma. MI325-003l
Plataforma AMD Instinct MI325X
Para oferecer o poder do acelerador AMD Instinct MI325X por meio de servidores padrão do setor, projetamos uma plataforma para combinar o poder de oito aceleradores em uma placa-mãe universal padrão do setor (UBB 2.0).
Os oito Módulos Aceleradores (OAMs) do Open Compute Project (OCP) são conectados a uma malha AMD Infinity FabricTM que fornece conectividade direta entre cada uma das GPUs em links bidirecionais de 128 GB/s.
Cada MI325X se conecta com seus pares por meio de sete links, mais uma conexão PCIe® Gen 5 x16 por dispositivo OAM para conectividade de servidor upstream e/ou E/S.
As transferências remotas de E/S DMA podem transmitir dados para cada GPU onde for necessário e onde puder ser processado na grande memória HBM3E de 256 GB de cada módulo.
Baseado na arquitetura AMD CDNA de 3ª geração
O acelerador AMD Instinct MI325X é baseado na arquitetura AMD CDNA
3, oferecendo alto rendimento com base na tecnologia AMD Matrix Core aprimorada geracionalmente e unidades de computação simplificadas.
A GPU AMD Instinct MI325X também oferece suporte a PCIe Gen 5 com a tecnologia AMD Infinity FabricTM, ajudando a melhorar o desempenho de E/S, eficiência e dimensionamento dentro e entre cada dispositivo OAM na placa-mãe universal.
Interconexões de GPU de alta velocidade
IA generativa, aprendizado de máquina e modelos de linguagem grande tornaram-se altamente intensivos em dados e geralmente precisam dividir trabalhos entre várias GPUs.
A plataforma AMD Instinct MI325X facilita modelos grandes por meio de uma memória compartilhada coerente de 2 TB com 6,0 TB/s de largura de banda de pico em cada acelerador de GPU e 128 GB/s de largura de banda bidirecional Infinity Fabric entre cada GPU para uma largura de banda agregada de pico de 896 GB/s.
A coerência do cache é suportada por um Infinity CacheTM compartilhado de 256 MB que suporta todas as unidades de computação em uma única GPU.
Product Basics
Name
AMD Instinct™ MI325X Platform
Family
Instinct
Series
Instinct MI300 Series
Form Factor
Instinct Platform (UBB 2.0)
GPUs
8x Instinct MI300X OAM
Dimensions
417mm x 553mm
Launch Date
10/10/2024
General Specifications
Total Memory
2.048 TB HBM3E
Memory Bandwidth
6 TB/s Per OAM
Infinity Architecture
4th Generation
Bus Type
PCIe® Gen 5 (128 GB/s)
Total Aggregate Bi-directional I/O Bandwidth (Peer-to-Peer)
896 GB/s
Warranty
3 Year Limited
AI Performance
Total Theoretical Peak FP8 Performance
20.9 PFLOPs
Total Theoretical Peak FP8 Performance with Structured Sparsity
41.8 PFLOPS
Total Theoretical Peak TF32 Performance
5.2 PFLOPs
Total Theoretical Peak TF32 Performance with Structured Sparsity
10.5 PFLOPs
Total Theoretical Peak FP16 Performance
10.5 PFLOPs
Total Theoretical Peak FP16 Performance with Structured Sparsity
20.9 PFLOPs
Total Theoretical Peak bfloat16 Performance
10.5 PFLOPs
Total Theoretical Peak bfloat16 Performance with Structured Sparsity
20.9 PFLOPs
Total Theoretical Peak INT8 Performance
20.9 POPs
Total Theoretical Peak INT8 Performance with Structured Sparsity
41.8 POPs
HPC Performance
Total Theoretical Peak Double Precision Matrix (FP64) Performance
1.3 PFLOPs
Total Theoretical Peak Double Precision (FP64) Performance
653.6 TFLOPs
Total Theoretical Peak Single Precision Matrix (FP32) Performance
1.3 PFLOPs
Total Theoretical Peak Single Precision (FP32) Performance