O engenheiro e pesquisador do Alibaba Cloud, Ennan Zhai, compartilhou um artigo de pesquisa via GitHub revelando o design do provedor de nuvem para data centers usados para treinamento LLM. Um documento PDF intitulado “Alibaba HPN: Uma rede de data center para treinamento de modelos de linguagem em grandes dimensões” fornece uma visão geral de como o Alibaba permitiu que 15.000 GPUs se comunicassem entre si usando Ethernet.
A computação em nuvem típica produz fluxos de dados pequenos e consistentes a velocidades inferiores a 10 Gbps. O treinamento LLM, por outro lado, gera rajadas periódicas de dados que podem atingir até 400 Gbps. De acordo com o artigo, “Essa característica do treinamento LLM torna o multi-caminho de custo igual (ECMP), um esquema de balanceamento de carga comumente usado em data centers tradicionais, propenso à polarização de hash e ocorrerão problemas não uniformes, como distribuição de tráfego.
Para contornar isso, Zhai e sua equipe desenvolveram uma rede de alto desempenho (HPN) usando uma “arquitetura de plano duplo de duas camadas”. Isso força o sistema a “escolher com precisão possíveis caminhos de rede”, ao mesmo tempo que reduz a chance de ocorrência de ECMP. Pegue o fluxo de elefantes. ”A HPN também usou switches duplos de topo de rack (ToR), permitindo que eles fizessem backup um do outro. Essas opções são o ponto de falha mais comum no treinamento LLM e exigem que as GPUs concluam as iterações em sincronia.
8 GPUs por host, 1.875 hosts por datacenter
Alibaba Cloud dividiu seu data center em vários hosts, e cada host foi equipado com 8 GPUs. Cada GPU possui uma placa de interface de rede (NIC) com duas portas, e cada sistema GPU-NIC é chamado de “rail”. O host também recebe uma NIC adicional para se conectar à rede backend. Cada barramento é conectado a dois switches ToR diferentes, garantindo que, se um switch falhar, todo o host permanecerá inalterado.
Apesar de descontinuar o NVlink para comunicação entre hosts, o Alibaba Cloud ainda usa a tecnologia proprietária da Nvidia para redes entre hosts, pois a comunicação entre GPUs dentro de um host requer mais largura de banda. No entanto, como a comunicação rail-to-rail é muito lenta, “400 Gbps de taxa de transferência de rede RDMA dedicada por host, resultando em uma largura de banda total de 3,2 Tbps” é suficiente para maximizar a largura de banda das placas gráficas PCIe Gen5x16, só isso.
O Alibaba Cloud também usa switches ToR Ethernet de chip único de 51,2 Tb/s, já que as soluções multichip são propensas à instabilidade e têm uma taxa de falhas quatro vezes maior do que os switches de chip único. No entanto, esses interruptores atingem altas temperaturas e os dissipadores de calor disponíveis comercialmente não podem impedir o desligamento dos interruptores devido ao superaquecimento. Assim, a empresa desenvolveu uma nova solução: criar um dissipador de calor com câmara de vapor com muitos pilares no centro para transportar energia térmica de forma mais eficiente.
Ennan Zhai e sua equipe apresentarão suas descobertas na conferência SIGCOMM (Grupo de Interesse Especial em Comunicações de Dados) em Sydney, Austrália, em agosto. Muitas empresas estarão interessadas neste projeto, incluindo AMD, Intel, Google e Microsoft. A principal razão para isso é que as empresas estão se unindo para criar o Ultra Accelerator Link, um conjunto de interconexões de padrão aberto que compete com o NVlink. Isto é especialmente verdadeiro porque o Alibaba Cloud usa HPN há mais de oito meses e a tecnologia já foi testada e testada.
No entanto, o HPN ainda tem algumas desvantagens, sendo a maior delas a complicada estrutura de fiação. Como cada host possui 9 NICs e cada NIC está conectada a dois switches ToR diferentes, há uma boa chance de confundir qual conector está conectado a qual porta. No entanto, esta tecnologia é provavelmente mais acessível do que o NVlink, pelo que qualquer instituição que instale um data center pode poupar significativamente nos custos de instalação (e especialmente se for uma das empresas credenciadas, talvez também permitindo que a tecnologia Nvidia seja evitada (pelo EUA na guerra de chips em curso com a China).

