AIST seleciona HPE e Nvidia para máquina de IA em nuvem de próxima geração

O Instituto Nacional de Ciência e Tecnologia Industrial Avançada (AIST) do Japão planeja implantar a terceira geração de seu supercomputador AI Bridging Cloud Infrastructure 3.0. Esta máquina é composta por milhares de aceleradores GPU da atual geração “Hopper” H200 da Nvidia, o que não é surpresa.

Curiosamente, porém, foi a Hewlett Packard Enterprise, e não a Fujitsu, quem ganhou o contrato do sistema ABCI 3.0. Isto é importante porque a NEC e a Fujitsu têm sido os fornecedores nacionais existentes de maquinaria para os sistemas topo de gama da AIST desde que a linha ABCI foi introduzida pela primeira vez. 2018.

A fabricante japonesa de servidores NEC criou o primeiro protótipo ABCI em março de 2017, com o AIST fornecendo acesso à nuvem para capacidade de computação e armazenamento para cargas de trabalho de inteligência artificial e análise de dados, e a ideia geral foi baseada na ideia de resolver os problemas. IA em escala na nuvem. A máquina era bastante modesta, consistindo em apenas 50 servidores “Broadwell” Xeon E5 de dois soquetes com oito aceleradores GPU “Pascal” P100 conectados a cada servidor. O protótipo foi equipado com 4 PB de armazenamento em disco clusterizado da DataDirect Networks executando o sistema de arquivos GPFS da IBM, e um switch diretor EDR InfiniBand de 100 Gb/s foi usado para unir tudo.

No outono de 2017, um contrato de sistema ABCI 1.0 de nível de produção foi assinado com a Fujitsu. O contrato consistia em 1.088 nós de servidor Fujitsu Primergy CX2570. Este é um suporte de servidor de meia largura que desliza para dentro do chassi Primergy CX400 2U. Cada trenó é equipado com dois processadores Intel “Skylake” Xeon SP e quatro dos aceleradores GPU “Volta” mais poderosos da Nvidia.

Esta máquina ABCI 1.0 possui 2.176 soquetes de CPU e 4.352 soquetes de GPU, totalizando 476 TB de memória e 4,19 PB/s de largura de banda, e suporta 37,2 petaflops de saída de ponto flutuante de precisão dupla (FP64) de 64 bits e alcançou 16 petaflops de 550 petaflops . -bit O poder do FP16 de meia precisão. O nó tinha uma unidade flash interna e também acesso a um sistema de arquivos GPFS de 20 PB. Toda a coisa foi conectada pelo InfiniBand.

O custo do protótipo e do sistema de produção ABCI 1.0 foi de US$ 172 milhões, incluindo o custo de construção de um data center para abrigar as máquinas. Desse total, as instalações do data center foram avaliadas em aproximadamente US$ 10 milhões e incluíam 72 racks de computação e 18 racks de armazenamento. O data center foi equipado com sistema de refrigeração de água quente e pode suportar até 3,25 megawatts de consumo de energia e 3,2 megawatts de capacidade de refrigeração.

O objetivo da máquina ABCI é carregar Linux, contêineres Kubernetes, estruturas de IA, HPC e bibliotecas de IA que podem ser úteis para pesquisadores de IA no cluster e dar-lhes a liberdade de trabalhar com contêineres para seus aplicativos. AIST selecionou o sistema de contêineres Singularity para gerenciar contêineres e suas imagens de software.

Em maio de 2021, uma máquina ABCI 2.0 foi criada com base no servidor Primergy GX2570-M6 da Fujitsu com 120 nós de servidor adicionais. Esses nós de servidor são baseados nos processadores 'Icelake' Xeon SP da Intel e usam uma interconexão HDR InfiniBand de 200 Gb/s para atualizar os nós e as oito GPUs 'Ampere' A100 de cada nó entre si. Esses apenas 120 nós forneceram 19,3 petaflops de desempenho FP64 e 151 petaflops de desempenho FP16 nos Tensor Cores da GPU Ampere. Essa fatia tinha 97,5 TB de memória e 1,54 PB/s de largura de banda. ABCI 1.0 e ABCI 2.0 estão ligados lado a lado em uma máquina e têm a seguinte aparência:

As extensões ABCI 1.0 e ABCI 2.0 (muitas vezes chamadas de ABCI 2.0) consumiram juntas até 2,3 megawatts. A coisa toda alcançou 56,6 petaflops com precisão FP64 e 851,5 petaflops com precisão FP16.

Com a máquina ABCI 3.0 sendo construída pela HPE, a AIST espera ver um aumento significativo de desempenho com capacidade de IA de mais de 6 exaflops. Você pode pensar que esse valor de desempenho inclui a compactação de dispersão 2:1 da GPU Nvidia, já que os fornecedores sempre citam os números mais altos possíveis. No comunicado de imprensa anunciando a máquina ABCI, a HPE disse que o desempenho de “aproximadamente 6,2 exaflops” é a precisão FP16, não a precisão FP8, que o H100 e o H200 também suportam. Em comunicado sobre o acordo, a Nvidia disse que a máquina possui “6 exaflops de IA” sem esparsos, acrescentando que possui “410 petaflops de dupla precisão”.

Com base nisso e no fato de que as GPUs H100 e H200 têm o mesmo desempenho máximo teórico, uma máquina ABCI 3.0 terá 6.144 GPUs espalhadas por 768 nós (8 GPUs por nó). A computação com tal configuração produz um pico de 6,08 exaflops com precisão FP16 sem esparso e 411,6 petaflops com precisão FP64 com núcleos tensores. (A dispersão não é suportada no modo FP64 em H100 e H200.) De acordo com a Nvidia, os nós têm 200 GB/s de largura de banda InfiniBand bidirecional, que é suportada por oito placas (GPU 1 placa por página).

A GPU H100 foi lançada em março de 2022 com 80 GB de memória HBM3 com largura de banda de 3,35 TB/s e foi atualizada para 96 GB HBM3 com largura de banda de 3,9 TB/s, mas em 2023 O H200, anunciado em novembro de 2018 e atualmente vendido em volume, apresenta 141 GB de capacidade de memória HBM3E e 4,8 TB/s de largura de banda. Fazendo as contas, a máquina ABCI 3.0 teria 846 TB de memória HBM3E e 28,8 PB/s de largura de banda total.

Portanto, o ABCI 3.0 tem desempenho FP64 de 7,3x, desempenho FP16 de 7,1x, largura de banda de memória 5x e capacidade de memória GPU em comparação com as máquinas ABCI 1.0 e ABCI 2.0 agrupadas combinadas serão aumentadas em 1,5 vezes. Novamente, os ganhos de desempenho superam os ganhos de memória e largura de banda de memória. Este é o problema da arquitetura de sistema moderna.

É fácil de calcular, mas difícil de lembrar.

A máquina ABCI 3.0 deverá estar operacional ainda este ano.

Source link

What's Hot

Evento “X64 & Opala Consult 2026” em Matosinhos redefine o futuro tecnológico da Restauração

Cidália Fernandes lança “Antão, no início era medo” em Matosinhos

ReCircular Lab já entregou 133 equipamentos à comunidade e beneficiou 2.701 pessoas

AIST seleciona HPE e Nvidia para máquina de IA em nuvem de próxima geração

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

Subscribe to Updates

What's Hot

AIST seleciona HPE e Nvidia para máquina de IA em nuvem de próxima geração

Related Posts