Elon Musk e a xAI constroem supercluster com 100.000 GPU Nvidia em apenas 19 dias

3 horas atrás 17

Elon Musk e a sua equipa na xAI aparentemente conseguiram o impossível. A empresa construiu um supercluster com 100.000 GPU Nvidia H200 Blackwell em apenas 19 dias. O CEO da Nvidia, Jensen Huang, já classificou o feito como sendo: “sobre-humano”.

Huang partilhou esta história incrível numa entrevista com o grupo Tesla Owners Silicon Valley no X.

Segundo Huang, construir um supercomputador desta dimensão levaria à maioria das equipas cerca de quatro anos – três anos de planeamento e um ano de transporte, instalação e configuração. No entanto, em menos de três semanas, Musk e a sua equipa conseguiram gerir todo o processo – do conceito à funcionalidade total. O supercluster da xAI até concluiu o seu primeiro treino de IA pouco depois de ter sido ligado.

Huang quase não tinha palavras, lutando para encontrar as palavras certas antes de o descrever.

Elon Musk is super human.

What would take everyone else a year, only took him 19 days. pic.twitter.com/q51sM48lsu

— Tesla Owners Silicon Valley (@teslaownersSV) October 13, 2024

“Primeiro que tudo, … 19 dias é incrível… São apenas algumas semanas. E a montanha de tecnologia, se alguma vez a vissem, é inacreditável… O que eles conseguiram é singular. Nunca foi feito antes. Um supercomputador [de tamanho comparável] que se construísse, levaria, normalmente, três anos a planear – e depois entregam o equipamento, e leva um ano a pôr tudo a funcionar.”

Huang expressou o seu respeito pela perícia de engenharia de Musk, notando os desafios de integrar o hardware de ponta da Nvidia.

“O número de fios que entram num único nó… a parte de trás de um computador é tudo fios”, observou Huang, salientando que a ligação em rede de equipamentos Nvidia requer um nível de complexidade diferente dos tradicionais centros de dados de Hiper escala.

O projecto exigiu a instalação das GPU, a construção e a obtenção de licenças para uma “fábrica X” totalmente nova, equipada com sistemas de refrigeração avançados e infra-estrutura de energia para garantir o funcionamento perfeito do cluster com as 200.000 GPU. A coordenação entre os engenheiros de Musk e a equipa da Nvidia foi outro feito monumental, garantindo que o hardware e a infra-estrutura fossem entregues, instalados e sincronizados na perfeição.

“Este nível de integração nunca foi conseguido antes, e pode não voltar a sê-lo tão cedo”, comentou Huang.

O supercluster representa um grande salto na infra-estrutura de IA, posicionando a xAI como um concorrente de peso na pesquisa e desenvolvimento de IA. Com o poder computacional agora disponível, as equipas de Musk podem acelerar significativamente projectos que envolvam redes neurais avançadas, deep learning e o processamento de linguagem natural.

Ler artigo completo