Nvidia mostra o supercomputador Eos

7 meses atrás 71

Em Novembro do ano passado, um supercomputador fabricado pela Nvidia chamado Eos surgiu subitamente no nono lugar da lista dos 500 supercomputadores mais rápidos do mundo. Agora, a empresa publicou um vídeo em que mostra o Eos ao mundo pela primeira vez.

O Eos é usado principalmente para o treino de modelos de inteligência artificial e é composto por um conjunto de 576 servidores DGX H100. Como cada um tem 8 GPU H100, a nova máquina tem 4608 H100 que trabalham em conjunto através da tecnologia de interligação Quantum-2 InfiniBand.

A Nvidia descreve o Eos como sendo uma ‘fábrica de inteligência artificial’ por ser um sistema SuperPod DGX H100 de muito grande escala. Segundo a empresa, é através deste sistema que consegue chegar aos avanços que tem feito no campo da IA e serve para mostrar o potencial mais recente tecnologia desenvolvida pela Nvidia quando a escala é aumentada.

Os servidores DGX H100 usam CPU Intel Xeon Platinum 8480C que têm 56 núcleos e 122 threads. Os CPU, combinados com os 4608 GPU H100, permitem ao Eos chegar aos 121 PetaFLOPS, medidos através do benchmark Linpack o que lhe vale o nono lugar do top 500. No entanto, como este teste de desempenho é genérico, se for medida apenas a velocidade no treino de inteligência artificial, o Eos será substancialmente mais rápido.

Quando o sistema foi lançado em 2023, a Nvidia indicou que a nova máquina é uma evolução muito grande em relação ao sistema baseado nos GPU A100 com arquitectura Ampere. Por exemplo, num teste desenhado para simular o treino de um modelo GPT-3, o Eos demorou apenas 4 minutos, o sistema baseado em A100 demorou 11 minutos. Apesar de a nova máquina ser realmente mais rápida, a da geração anterior usava apenas 512 GPU, como o Eos tem uma quantidade maior de GPU seria de esperar que o desempenho fosse muito maior.

Apesar do número impressionante de GPU que foi anunciado agora no Eos, a Nvidia disse originalmente que o novo computador teria 10752 GPU H100 e não foi dada nenhuma informação acerca da razão para a redução do número de processadores.

Ler artigo completo