Close Menu
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Matosinhos acende as luzes de Natal esta sexta-feira

November 25, 2025

Governo propõe aumentar vagas no Ensino Superior

November 25, 2025

Caminhões deixam de pagar pedágio no CREP em 2026

November 25, 2025
Facebook X (Twitter) Instagram
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
Facebook X (Twitter) Instagram
MatoSinhos24hMatoSinhos24h
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech
MatoSinhos24hMatoSinhos24h
Home » Alibaba Cloud abandona a interconexão da Nvidia em favor da Ethernet – gigante da tecnologia usa rede proprietária de alto desempenho para conectar 15.000 GPUs em seu data center
Tech

Alibaba Cloud abandona a interconexão da Nvidia em favor da Ethernet – gigante da tecnologia usa rede proprietária de alto desempenho para conectar 15.000 GPUs em seu data center

FranciscoBy FranciscoJune 29, 2024No Comments4 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


O engenheiro e pesquisador do Alibaba Cloud, Ennan Zhai, compartilhou um artigo de pesquisa via GitHub revelando o design do provedor de nuvem para data centers usados ​​para treinamento LLM. Um documento PDF intitulado “Alibaba HPN: Uma rede de data center para treinamento de modelos de linguagem em grandes dimensões” fornece uma visão geral de como o Alibaba permitiu que 15.000 GPUs se comunicassem entre si usando Ethernet.

A computação em nuvem típica produz fluxos de dados pequenos e consistentes a velocidades inferiores a 10 Gbps. O treinamento LLM, por outro lado, gera rajadas periódicas de dados que podem atingir até 400 Gbps. De acordo com o artigo, “Essa característica do treinamento LLM torna o multi-caminho de custo igual (ECMP), um esquema de balanceamento de carga comumente usado em data centers tradicionais, propenso à polarização de hash e ocorrerão problemas não uniformes, como distribuição de tráfego.

Para contornar isso, Zhai e sua equipe desenvolveram uma rede de alto desempenho (HPN) usando uma “arquitetura de plano duplo de duas camadas”. Isso força o sistema a “escolher com precisão possíveis caminhos de rede”, ao mesmo tempo que reduz a chance de ocorrência de ECMP. Pegue o fluxo de elefantes. ”A HPN também usou switches duplos de topo de rack (ToR), permitindo que eles fizessem backup um do outro. Essas opções são o ponto de falha mais comum no treinamento LLM e exigem que as GPUs concluam as iterações em sincronia.

8 GPUs por host, 1.875 hosts por datacenter

Alibaba Cloud dividiu seu data center em vários hosts, e cada host foi equipado com 8 GPUs. Cada GPU possui uma placa de interface de rede (NIC) com duas portas, e cada sistema GPU-NIC é chamado de “rail”. O host também recebe uma NIC adicional para se conectar à rede backend. Cada barramento é conectado a dois switches ToR diferentes, garantindo que, se um switch falhar, todo o host permanecerá inalterado.

Apesar de descontinuar o NVlink para comunicação entre hosts, o Alibaba Cloud ainda usa a tecnologia proprietária da Nvidia para redes entre hosts, pois a comunicação entre GPUs dentro de um host requer mais largura de banda. No entanto, como a comunicação rail-to-rail é muito lenta, “400 Gbps de taxa de transferência de rede RDMA dedicada por host, resultando em uma largura de banda total de 3,2 Tbps” é suficiente para maximizar a largura de banda das placas gráficas PCIe Gen5x16, só isso.

O Alibaba Cloud também usa switches ToR Ethernet de chip único de 51,2 Tb/s, já que as soluções multichip são propensas à instabilidade e têm uma taxa de falhas quatro vezes maior do que os switches de chip único. No entanto, esses interruptores atingem altas temperaturas e os dissipadores de calor disponíveis comercialmente não podem impedir o desligamento dos interruptores devido ao superaquecimento. Assim, a empresa desenvolveu uma nova solução: criar um dissipador de calor com câmara de vapor com muitos pilares no centro para transportar energia térmica de forma mais eficiente.

Ennan Zhai e sua equipe apresentarão suas descobertas na conferência SIGCOMM (Grupo de Interesse Especial em Comunicações de Dados) em Sydney, Austrália, em agosto. Muitas empresas estarão interessadas neste projeto, incluindo AMD, Intel, Google e Microsoft. A principal razão para isso é que as empresas estão se unindo para criar o Ultra Accelerator Link, um conjunto de interconexões de padrão aberto que compete com o NVlink. Isto é especialmente verdadeiro porque o Alibaba Cloud usa HPN há mais de oito meses e a tecnologia já foi testada e testada.

Receba as melhores notícias e análises detalhadas do Tom's Hardware diretamente na sua caixa de entrada.

No entanto, o HPN ainda tem algumas desvantagens, sendo a maior delas a complicada estrutura de fiação. Como cada host possui 9 NICs e cada NIC está conectada a dois switches ToR diferentes, há uma boa chance de confundir qual conector está conectado a qual porta. No entanto, esta tecnologia é provavelmente mais acessível do que o NVlink, pelo que qualquer instituição que instale um data center pode poupar significativamente nos custos de instalação (e especialmente se for uma das empresas credenciadas, talvez também permitindo que a tecnologia Nvidia seja evitada (pelo EUA na guerra de chips em curso com a China).



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Francisco
  • Website

Related Posts

Meu foodie favorito da Bay Area é uma manicure vietnamita-americana

July 30, 2024

Stock market today: Live updates

July 30, 2024

A indústria de tecnologia está migrando do metaverso para a computação espacial

July 30, 2024
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

July 30, 2024
Top Reviews
MatoSinhos24h
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
© 2025 matosinhos24h. Designed by matosinhos24h.

Type above and press Enter to search. Press Esc to cancel.