O Instituto Nacional de Ciência e Tecnologia Industrial Avançada (AIST) do Japão planeja implantar a terceira geração de seu supercomputador AI Bridging Cloud Infrastructure 3.0. Esta máquina é composta por milhares de aceleradores GPU da atual geração “Hopper” H200 da Nvidia, o que não é surpresa.
Curiosamente, porém, foi a Hewlett Packard Enterprise, e não a Fujitsu, quem ganhou o contrato do sistema ABCI 3.0. Isto é importante porque a NEC e a Fujitsu têm sido os fornecedores nacionais existentes de maquinaria para os sistemas topo de gama da AIST desde que a linha ABCI foi introduzida pela primeira vez. 2018.
A fabricante japonesa de servidores NEC criou o primeiro protótipo ABCI em março de 2017, com o AIST fornecendo acesso à nuvem para capacidade de computação e armazenamento para cargas de trabalho de inteligência artificial e análise de dados, e a ideia geral foi baseada na ideia de resolver os problemas. IA em escala na nuvem. A máquina era bastante modesta, consistindo em apenas 50 servidores “Broadwell” Xeon E5 de dois soquetes com oito aceleradores GPU “Pascal” P100 conectados a cada servidor. O protótipo foi equipado com 4 PB de armazenamento em disco clusterizado da DataDirect Networks executando o sistema de arquivos GPFS da IBM, e um switch diretor EDR InfiniBand de 100 Gb/s foi usado para unir tudo.
No outono de 2017, um contrato de sistema ABCI 1.0 de nível de produção foi assinado com a Fujitsu. O contrato consistia em 1.088 nós de servidor Fujitsu Primergy CX2570. Este é um suporte de servidor de meia largura que desliza para dentro do chassi Primergy CX400 2U. Cada trenó é equipado com dois processadores Intel “Skylake” Xeon SP e quatro dos aceleradores GPU “Volta” mais poderosos da Nvidia.
Esta máquina ABCI 1.0 possui 2.176 soquetes de CPU e 4.352 soquetes de GPU, totalizando 476 TB de memória e 4,19 PB/s de largura de banda, e suporta 37,2 petaflops de saída de ponto flutuante de precisão dupla (FP64) de 64 bits e alcançou 16 petaflops de 550 petaflops . -bit O poder do FP16 de meia precisão. O nó tinha uma unidade flash interna e também acesso a um sistema de arquivos GPFS de 20 PB. Toda a coisa foi conectada pelo InfiniBand.
O custo do protótipo e do sistema de produção ABCI 1.0 foi de US$ 172 milhões, incluindo o custo de construção de um data center para abrigar as máquinas. Desse total, as instalações do data center foram avaliadas em aproximadamente US$ 10 milhões e incluíam 72 racks de computação e 18 racks de armazenamento. O data center foi equipado com sistema de refrigeração de água quente e pode suportar até 3,25 megawatts de consumo de energia e 3,2 megawatts de capacidade de refrigeração.
O objetivo da máquina ABCI é carregar Linux, contêineres Kubernetes, estruturas de IA, HPC e bibliotecas de IA que podem ser úteis para pesquisadores de IA no cluster e dar-lhes a liberdade de trabalhar com contêineres para seus aplicativos. AIST selecionou o sistema de contêineres Singularity para gerenciar contêineres e suas imagens de software.
Em maio de 2021, uma máquina ABCI 2.0 foi criada com base no servidor Primergy GX2570-M6 da Fujitsu com 120 nós de servidor adicionais. Esses nós de servidor são baseados nos processadores 'Icelake' Xeon SP da Intel e usam uma interconexão HDR InfiniBand de 200 Gb/s para atualizar os nós e as oito GPUs 'Ampere' A100 de cada nó entre si. Esses apenas 120 nós forneceram 19,3 petaflops de desempenho FP64 e 151 petaflops de desempenho FP16 nos Tensor Cores da GPU Ampere. Essa fatia tinha 97,5 TB de memória e 1,54 PB/s de largura de banda. ABCI 1.0 e ABCI 2.0 estão ligados lado a lado em uma máquina e têm a seguinte aparência:

As extensões ABCI 1.0 e ABCI 2.0 (muitas vezes chamadas de ABCI 2.0) consumiram juntas até 2,3 megawatts. A coisa toda alcançou 56,6 petaflops com precisão FP64 e 851,5 petaflops com precisão FP16.
Com a máquina ABCI 3.0 sendo construída pela HPE, a AIST espera ver um aumento significativo de desempenho com capacidade de IA de mais de 6 exaflops. Você pode pensar que esse valor de desempenho inclui a compactação de dispersão 2:1 da GPU Nvidia, já que os fornecedores sempre citam os números mais altos possíveis. No comunicado de imprensa anunciando a máquina ABCI, a HPE disse que o desempenho de “aproximadamente 6,2 exaflops” é a precisão FP16, não a precisão FP8, que o H100 e o H200 também suportam. Em comunicado sobre o acordo, a Nvidia disse que a máquina possui “6 exaflops de IA” sem esparsos, acrescentando que possui “410 petaflops de dupla precisão”.
Com base nisso e no fato de que as GPUs H100 e H200 têm o mesmo desempenho máximo teórico, uma máquina ABCI 3.0 terá 6.144 GPUs espalhadas por 768 nós (8 GPUs por nó). A computação com tal configuração produz um pico de 6,08 exaflops com precisão FP16 sem esparso e 411,6 petaflops com precisão FP64 com núcleos tensores. (A dispersão não é suportada no modo FP64 em H100 e H200.) De acordo com a Nvidia, os nós têm 200 GB/s de largura de banda InfiniBand bidirecional, que é suportada por oito placas (GPU 1 placa por página).
A GPU H100 foi lançada em março de 2022 com 80 GB de memória HBM3 com largura de banda de 3,35 TB/s e foi atualizada para 96 GB HBM3 com largura de banda de 3,9 TB/s, mas em 2023 O H200, anunciado em novembro de 2018 e atualmente vendido em volume, apresenta 141 GB de capacidade de memória HBM3E e 4,8 TB/s de largura de banda. Fazendo as contas, a máquina ABCI 3.0 teria 846 TB de memória HBM3E e 28,8 PB/s de largura de banda total.
Portanto, o ABCI 3.0 tem desempenho FP64 de 7,3x, desempenho FP16 de 7,1x, largura de banda de memória 5x e capacidade de memória GPU em comparação com as máquinas ABCI 1.0 e ABCI 2.0 agrupadas combinadas serão aumentadas em 1,5 vezes. Novamente, os ganhos de desempenho superam os ganhos de memória e largura de banda de memória. Este é o problema da arquitetura de sistema moderna.
É fácil de calcular, mas difícil de lembrar.
A máquina ABCI 3.0 deverá estar operacional ainda este ano.

