Tudo sobre IA generativa e seus impactos nos data centers

Tudo sobre IA generativa e seus impactos nos data centers

Neste artigo, você vai conferir tudo sobre o impactos da IA generativa nos data centers.

IA generativa data centers:

Parte I – Os modelos

A IA generativa parece destinada a mudar a forma como trabalhamos, criamos e vivemos. Governos, empresas e indivíduos estão lutando com o que isso significa para a economia e nossa espécie, mas lutamos porque simplesmente não sabemos do que a IA será capaz ou os custos e benefícios de aplicá-la.

Por trás dessa transformação está uma história mais profunda, de grandes mudanças em arquiteturas de computação, topologias de rede e design de data center. A implantação dos enormes recursos de computação que esses sistemas exigem pode mudar o setor de nuvem e colocar em risco o setor de supercomputação tradicional.

Para entender o que esse momento significa e o que pode vir a seguir, a DCD passou quatro meses conversando com quase duas dúzias de pesquisadores de IA, especialistas em semicondutores, especialistas em redes, operadores de nuvem, visionários da supercomputação e líderes de data centers.

Esta história começa com os modelos, os algoritmos que determinam fundamentalmente como um sistema de IA funciona. Nós olhamos como eles são feitos e como eles poderiam crescer. Em operação, observamos os requisitos gêmeos de treinamento e inferência e os chamados “modelos de fundação” que podem ser acessados ​​por empresas e usuários. Também perguntamos o que o futuro reserva para o desenvolvimento de IA de código aberto.

Supercomputadores

A partir daí, passamos para o mundo dos supercomputadores, entendendo seu uso hoje e por que a IA generativa pode derrubar o setor tradicional de computação de alto desempenho (HPC). Em seguida, conversamos com os três hiperescaladores que construíram gigantescos supercomputadores de IA na nuvem.

Em seguida, nos voltamos para os chips, onde a Nvidia lidera os processadores GPU que alimentam as máquinas de IA. Conversamos com sete empresas tentando interromper a Nvidia – e então ouvimos o chefe de data centers e IA da Nvidia para saber por que derrubar o líder será tão difícil.

Mas a história da computação não tem sentido sem entender a rede, então conversamos com o Google sobre uma tentativa ousada de revisar como os racks são conectados.

Por fim, aprendemos sobre o que tudo isso significa para o data center. Do CEO da Digital Realty ao CEO da DE-CIX, ouvimos aqueles que estão prontos para construir a infraestrutura de amanhã

Fazendo um modelo

Nossa jornada por esta indústria começa com o modelo. Em 2017, o Google publicou o artigo ‘Atenção é tudo o que você precisa‘, que introduziu o modelo do transformador, que permitiu significativamente mais paralelização e reduziu o tempo de treinamento de IAs.

Isso desencadeou um boom no desenvolvimento, com modelos generativos de IA todos construídos a partir de transformadores. Esses sistemas, como o modelo de linguagem grande (LLM) GPT-4 da OpenAI, são conhecidos como modelos de fundação, em que uma empresa desenvolve um modelo pré-treinado para uso de outras pessoas.

“O modelo é uma combinação de muitos dados e muita computação”, disse Rishi Bommasani, cofundador do Centro de Stanford para Pesquisa em Modelos Fundamentais e principal autor de um artigo seminal que define esses modelos, ao DCD. “Depois de ter um modelo de fundação, você pode adaptá-lo para uma ampla variedade de diferentes aplicações de downstream”, explicou ele.

As empresas que constroem os modelos mais avançados não são transparentes sobre como os treinam e ninguém sabe o tamanho desses modelos.

Cada modelo de fundação é diferente e os custos para treiná-los podem variar muito. Mas duas coisas são claras: as empresas que constroem os modelos mais avançados não são transparentes sobre como os treinam e ninguém sabe até que ponto esses modelos serão escalados.

As leis de escala são uma área de pesquisa em andamento, que tenta encontrar o equilíbrio ideal entre o tamanho do modelo, a quantidade de dados e os recursos computacionais disponíveis.

Criando uma chinchila

“As relações de escala com o tamanho do modelo e a computação são especialmente misteriosas”, observou um artigo de 2020 de Jared Kaplan da OpenAI, descrevendo a relação de lei de potência entre, observou um artigo de 2020 de Jared Kaplan, da OpenAI, descrevendo a relação da lei de potência entre o tamanho do modelo, o tamanho do conjunto de dados e o poder de computação usado para treinamento.

À medida que cada fator aumenta, também aumenta o desempenho geral do modelo de linguagem grande.

Essa teoria levou a modelos cada vez maiores, com contagens crescentes de parâmetros (os valores que um modelo pode alterar à medida que aprende) e mais tokens (as unidades de texto que o modelo processa, essencialmente os dados). A otimização desses parâmetros envolve a multiplicação de conjuntos de números ou matrizes, o que requer muitos cálculos e significa clusters de computação maiores.

Esse documento foi substituído em 2022 por uma nova abordagem da subsidiária do Google DeepMind, conhecida como ‘Leis de escala Chinchilla’, que novamente tentou encontrar o parâmetro ideal e o tamanho do token para treinar um LLM sob um determinado orçamento de computação. Ele descobriu que os modelos da época eram superdimensionados em parâmetros em relação aos tokens.

Enquanto o artigo de Kaplan disse que um aumento de 5,5 × no tamanho do modelo deve ser emparelhado com um aumento de 1,8 × no número de tokens, Chinchilla descobriu que os tamanhos de parâmetro e token devem ser dimensionados em proporções iguais.“As relações de escala com o tamanho do modelo e a computação são especialmente 

Treinamento

A subsidiária do Google treinou o modelo Chinchilla de 67 bilhões de parâmetros com base nessa abordagem de otimização de computação, usando a mesma quantidade de orçamento de computação de um modelo anterior, o parâmetro Gopher de 280 bilhões, mas com quatro vezes mais dados. Os testes descobriram que ele era capaz de superar o Gopher, bem como outros modelos comparáveis, e usava quatro vezes menos computação para ajuste fino e inferência.

Os custos aproximados de computação para treinar um trilhão de modelos de parâmetros em Nvidia A100s seriam de US$ 308 milhões em três meses, sem incluir pré-processamento, restauração de falhas e outros custos.

Crucialmente, sob o novo paradigma, a DeepMind descobriu que o Gopher, que já tinha um enorme orçamento de computação, teria se beneficiado de mais computação usada em 17,2 × tantos dados.

Enquanto isso, um modelo ideal de um trilhão de parâmetros deve usar cerca de 221,3 vezes mais orçamento de computação para dados maiores, ultrapassando os limites do que é possível hoje. Isso não quer dizer que não se possa treinar um modelo de um trilhão de parâmetros (na verdade, o próprio Google o fez), é apenas que a mesma computação poderia ter sido usada para treinar um modelo menor com melhores resultados.

Com base nas descobertas de Chinchilla, a empresa de pesquisa de semicondutores SemiAnalysis calculou que os custos aproximados de computação para treinar um trilhão de modelos de parâmetros em Nvidia A100s seriam de US$ 308 milhões em três meses, sem incluir pré-processamento, restauração de falha e outros custos.

Levando as coisas adiante, Chinchilla descobriu que um modelo ideal de 10 trilhões de parâmetros usaria cerca de 22.515,9 vezes mais dados e computação resultante do que o modelo ideal de Gopher. O treinamento desse sistema custaria US$ 28,9 bilhões em dois anos, acredita a SemiAnalysis, embora os custos tenham melhorado com o lançamento das GPUs H100 mais avançadas da Nvidia.

OpenAI

Entende-se que OpenAI, Anthropic e outros neste espaço mudaram a forma como otimizam a computação desde a publicação do artigo para estar mais perto dessa abordagem, embora Chinchilla tenha seus críticos.

À medida que essas empresas buscam construir a próxima geração de modelos e esperam mostrar melhorias drásticas em um campo competitivo, elas serão forçadas a lançar clusters de data centers cada vez maiores no desafio. As estimativas da indústria colocam os custos de treinamento do GPT-4 em até 100 vezes os custos do GPT-3.5.

A OpenAI não respondeu aos pedidos de comentários. A Anthropic se recusou a comentar, mas sugeriu que conversássemos com a Epoch AI Research, que estuda o avanço de tais modelos, sobre o futuro da escalabilidade computacional.

“O modelo mais caro em que podemos calcular razoavelmente o custo de treinamento é o Minerva [parâmetro de 540 bilhões] do Google”, disse Jaime Sevilla, diretor da Epoch. “Isso custou cerca de US$ 3 milhões para treinar em seus data centers internos, estimamos. Mas você precisa treiná-lo várias vezes para encontrar um modelo promissor, então custa mais de US$ 10 milhões.”

Em uso, esse modelo também pode precisar ser treinado novamente com frequência, para aproveitar os dados coletados desse uso ou para manter uma compreensão dos eventos recentes.

“Podemos raciocinar sobre a rapidez com que as necessidades de computação aumentaram até agora e tentar extrapolar isso para pensar em quão caro será daqui a 10 anos”, disse Sevilla. “E parece que a tendência aproximada de aumento de custos aumenta 10 vezes a cada dois anos. Para as top models, isso parece estar diminuindo, então aumenta 10 vezes a cada cinco anos.”

Previsões

Tentar prever aonde isso vai levar é um exercício difícil. “Parece que em 10 anos, se essa tendência atual continuar – o que é um grande se – custará algo entre US$ 3 bilhões ou US$ 3 trilhões para todas as execuções de treinamento para desenvolver um modelo”, explicou Sevilla.

“Faz uma enorme diferença que, como o primeiro é algo que empresas como a Microsoft poderiam fazer. E então eles não conseguirão avançar ainda mais, a menos que gerem receita para justificar investimentos maiores.”

O que inferir da inferência

Esses modelos, grandes e pequenos, terão que ser realmente usados. Esse é o processo de inferência – que requer significativamente menos recursos de computação do que o treinamento por uso, mas consumirá muito mais computação geral, pois várias instâncias de uma IA treinada serão implantadas para fazer o mesmo trabalho em muitos lugares.

O chatbot Bing AI da Microsoft (baseado em GPT-4), só precisou ser treinado algumas vezes (e é treinado novamente em uma cadência desconhecida), mas é usado por milhões diariamente.

“Chinchilla e Kaplan são realmente ótimos artigos, mas estão focados em como otimizar o treinamento”, explicou Finbarr Timbers, um ex-pesquisador da DeepMind. a quantidade de dinheiro que eles gastaram treinando esses modelos.”

Timbers, que ingressou na Midjourney, empresa geradora de imagens de IA (que foi usada para ilustrar esta peça) após nossa entrevista, acrescentou: “Como um engenheiro tentando otimizar os custos de inferência, tornar o modelo maior é pior em todos os aspectos, exceto no desempenho. É esse mal necessário que você faz.

“Se você olhar para o papel GPT-4, poderá tornar o modelo mais profundo para torná-lo melhor. Mas o problema é que isso torna muito mais lento, requer muito mais memória e torna mais doloroso lidar com todos os aspectos. Mas essa é a única coisa que você pode fazer para melhorar o modelo.”

Rastreio de inferência

Será difícil rastrear como a inferência escala, porque o setor está se tornando menos transparente, já que os principais players estão incluídos nos gigantes da tecnologia. A OpenAI começou como uma empresa sem fins lucrativos e agora é uma empresa com fins lucrativos vinculada à Microsoft, que investiu bilhões na empresa. Outro player importante, o DeepMind, foi adquirido pelo Google em 2014.

Publicamente, não há leis de escala Chinchilla para inferência que mostrem projetos de modelos ideais ou prevejam como eles se desenvolverão.

A inferência não era uma prioridade das abordagens anteriores, pois os modelos foram desenvolvidos principalmente como ferramentas de protótipo para pesquisa interna. Agora, eles estão começando a ser usados ​​por milhões e estão se tornando uma preocupação primordial.

No momento, as estratégias são bastante brutais, no sentido de que é apenas ‘usar mais computação’ e não há nada profundamente intelectualmente complicado nisso.

“Conforme consideramos os custos de inferência, você criará novas leis de dimensionamento que lhe dirão que você deve alocar muito menos para o tamanho do modelo porque isso aumenta seus custos de inferência”, acredita Bommasani. “A parte difícil é que você não controla totalmente a inferência, porque não sabe quanta demanda terá.”

O escalonamento é uniforme?

Nem todo escalonamento acontecerá uniformemente. Modelos de linguagem grandes são, como o próprio nome sugere, bastante grandes. “No texto, temos modelos com 500 bilhões de parâmetros ou mais”, disse Bommasani. Esse não precisa ser o caso de todos os tipos de IA generativa, explicou.

“Na visão, acabamos de receber um artigo recente do Google com modelos com 20 bilhões de parâmetros. Coisas como a difusão estável estão na faixa de bilhões de parâmetros, por isso é quase 100 vezes menor que os LLMs. Tenho certeza de que continuaremos escalando as coisas, mas é mais uma questão de onde vamos escalar e como faremos isso.”

Isso pode levar a uma diversificação na forma como os modelos são feitos. “No momento, há muita homogeneidade porque é cedo”, disse ele, com a maioria das empresas e pesquisadores simplesmente seguindo e copiando o líder, mas ele espera que, à medida que atingimos os limites da computação, novas abordagens e truques sejam encontrados.

“No momento, as estratégias são bastante brutais, no sentido de que é apenas ‘usar mais computação’ e não há nada profundamente intelectualmente complicado nisso”, disse ele. “Você tem uma receita que funciona e, mais ou menos, você apenas executa a mesma receita com mais computação e, em seguida, ela se sai melhor de uma maneira bastante previsível.”

À medida que a economia alcança os modelos, eles podem acabar mudando para se concentrar nas necessidades de seus casos de uso. Os mecanismos de pesquisa são destinados ao uso pesado e frequente, portanto, os custos de inferência dominarão e se tornarão o fator principal de como um modelo é desenvolvido.

Mantendo este esparso

Como parte do esforço para reduzir os custos de inferência, também é importante observar a dispersão – o esforço de remover tantos parâmetros desnecessários quanto possível de um modelo sem afetar sua precisão. Fora dos LLMs, os pesquisadores conseguiram remover até 95% dos pesos em uma rede neural sem afetar significativamente a precisão.

No entanto, a pesquisa de esparsidade está novamente em seus primórdios, e o que funciona em um modelo nem sempre funciona em outro. Igualmente importante é a remoção, onde o consumo de memória de um modelo pode ser reduzido drasticamente, novamente com um impacto marginal na precisão.

Depois, há a mistura de especialistas (MoE), em que o modelo não reutiliza os mesmos parâmetros para todas as entradas, como é típico no aprendizado profundo. Em vez disso, os modelos MoE selecionam diferentes parâmetros para cada exemplo recebido, escolhendo os melhores parâmetros para a tarefa a um custo computacional constante, incorporando pequenas redes de especialistas dentro da rede mais ampla.

“No entanto, apesar de vários sucessos notáveis ​​do MoE, a adoção generalizada foi prejudicada pela complexidade, custos de comunicação e instabilidade de treinamento”, observaram os pesquisadores do Google em um artigo de 2022, onde delinearam uma nova abordagem que resolveu alguns desses problemas. Mas a empresa ainda não o implantou em seus modelos principais, e o tamanho ideal e o número de especialistas para colocar em um modelo ainda estão sendo estudados.

Há rumores de que o GPT-4 usa MoEs, mas ninguém fora da empresa sabe ao certo. Alguns dos modelos tecnicamente maiores da China tiram proveito deles, mas não são muito performáticos.

Ano do MoE?

O analista-chefe da SemiAnalysis, Dylan Patel, acredita que 2023 “será o ano do MoE”, pois as abordagens atuais pressionam a capacidade da infraestrutura de computação atual. No entanto, terá seu próprio impacto, disse ele ao DCD: “MoEs realmente levam a mais crescimento de memória versus crescimento de computação”, pois a contagem de parâmetros precisa aumentar para os especialistas adicionais.

Mas, disse ele, independentemente da abordagem que essas empresas adotam para melhorar a eficiência do treinamento e da inferência, “elas seriam tolas se dissessem ‘ei, com todas essas eficiências, terminamos de escalar’”.

Em vez disso, “as grandes empresas continuarão a escalar, escalar e escalar. Se você obtiver uma melhoria de 10 vezes na eficiência, dado o valor disso, por que não 20 vezes sua computação?”

Se as leis de escala aumentarem indefinidamente, haverá algum ponto em que esses modelos se tornarão mais capazes do que os humanos em basicamente todas as tarefas cognitivas.

Onde termina?

À medida que a escala gera mais escala, é difícil ver um limite para o tamanho dos LLMs e modelos multimodais, que podem lidar com várias formas de dados, como texto, som e imagens.

Em algum momento, ficaremos sem dados novos para fornecer a eles, o que pode nos levar a alimentá-los com sua própria saída. Também podemos ficar sem computação. Ou podemos atingir paredes fundamentais ao escalar leis que ainda não concebemos.

Para a humanidade, a questão de onde termina a escala pode ser crítica para o futuro de nossa espécie.

Opinião de especialistas

“Se as leis de escala aumentarem indefinidamente, haverá algum ponto em que esses modelos se tornarão mais capazes do que os humanos em basicamente todas as tarefas cognitivas”, disse Shivanshu Purohit, chefe de engenharia da EleutherAI e engenheiro de pesquisa da Stability AI.

“Então você tem uma entidade que pode pensar um trilhão de vezes mais rápido do que você e é mais inteligente do que você. Se ele pode te planejar e se não tem os mesmos objetivos que você…”

Isso está longe de ser garantido. “As expectativas das pessoas aumentaram tanto e tão rápido que pode chegar um ponto em que esses modelos não podem atender a essas expectativas”, disse Purohit.

Purohit é um pesquisador de “alinhamento”, estudando como direcionar os sistemas de IA para os objetivos e interesses pretendidos por seus projetistas, então ele diz que um limite para escalar “seria realmente um bom resultado para mim. Mas o cínico em mim diz que talvez eles possam continuar entregando, o que é uma má notícia.”

O colega da EleutherAI, Quentin Anthony, está menos preocupado imediatamente. Ele diz que o crescimento geralmente tem limites, fazendo uma analogia com o desenvolvimento humano: “Se meu filho continuar crescendo nesse ritmo, ele estará na NBA em cinco anos!”

Ele disse: “Estamos definitivamente na fase infantil com esses modelos. Não acho que devemos começar a planejar para a NBA. Claro que devemos pensar ‘isso pode acontecer em algum momento’, mas veremos quando parar de crescer.”

Purohit discorda. “Acho que estou do lado oposto disso. Existe um ditado que diz que o cara que dorme com um facão está errado todas as noites menos uma.”

IA generativa e o futuro dos data centers: Parte 2 – Os players

Por trás da IA ​​generativa e seu impacto na indústria

Fundação e império

É impossível dizer com que rapidez as demandas de computação do treinamento desses modelos crescerão, mas é quase universalmente aceito que o custo do treinamento de modelos de ponta continuará a aumentar rapidamente no futuro previsível.

A complexidade e os obstáculos financeiros de criar um modelo de fundação já o colocaram fora do alcance de todos, exceto um pequeno número de gigantes da tecnologia e startups de IA bem financiadas. Das startups capazes de construir seus próprios modelos, não é por acaso que a maioria conseguiu fazê-lo com financiamento e créditos de nuvem dos hyperscalers.

Isso impede que a maioria das empresas compita em um espaço que pode ser extremamente perturbador, cimentando o controle nas mãos de algumas empresas que já dominam o mercado de infraestrutura de Internet existente. Em vez de representar uma mudança de guarda no mundo da tecnologia, corre o risco de se tornar simplesmente uma nova frente para os velhos soldados da guerra da nuvem.

“Há uma série de problemas com a centralização”, disse o Dr. Alex Hanna, diretor de pesquisa do Distributed AI Research Institute (DAIR). “Isso significa que certas pessoas controlam o número de recursos que vão para certas coisas.

“Você está basicamente limitado a obedecer aos caprichos da Amazon, Microsoft e Google.”

Essas três empresas, juntamente com os centros de dados da Meta, são onde a maioria dos modelos de fundação são treinados. O dinheiro que as startups estão levantando está sendo canalizado de volta para essas empresas de nuvem.

“Se você pegar o OpenAI, eles estão construindo os modelos básicos e muitas empresas diferentes não seriam incentivadas a construí-los no momento e prefeririam apenas adiar o uso desses modelos”, disse Rishi Bommasani, de Stanford.

Perspectiva dos players

Os grandes players argumentam que não importa muito se eles são os únicos com recursos para construir modelos de fundação.

“Acho que esse modelo de negócio vai continuar. No entanto, se você realmente precisar especializar coisas em seus casos de uso específicos, estará limitado ao ponto em que o OpenAI permite que você se especialize.”

Dito isso, Bommasani não acredita que “vamos realmente ver um modelo dominar”, com novos players como a Amazon começando a entrar nesse espaço. “Já temos uma coleção de 10 a 15 desenvolvedores de modelos de fundação, e não espero que caia para menos de cinco a 10.”

Embora o campo seja relativamente incipiente, já estamos vendo diferentes modelos de negócios surgindo. “O DeepMind e o Google quase não dão acesso a nenhum de seus melhores modelos”, disse ele. “A OpenAI fornece uma API comercial e, em seguida, Meta e Hugging Face geralmente fornecem acesso total.”

Essas posições podem mudar com o tempo (de fato, depois de nossa entrevista, o Google anunciou uma API para seu modelo PaLM), mas representam uma infinidade de abordagens para compartilhar o acesso aos modelos.

Os grandes atores (e seus apoiadores) argumentam que não importa muito se eles são os únicos com recursos para construir modelos de fundação. Afinal, eles disponibilizam modelos pré-treinados de forma mais ampla, com o trabalho pesado já feito, para que outros possam ajustar IAs específicos em cima deles.

Encaminhar a fundação

Entre aqueles que oferecem acesso aos modelos básicos está a Nvidia, uma fabricante de hardware cujas GPUs (unidades de processamento gráfico) se tornaram a chave para os supercomputadores que executam IA.

Em março de 2023, a empresa lançou a plataforma Nvidia AI Foundations, que permite que as empresas criem aplicativos de IA generativos, específicos de domínio e proprietários, com base em modelos treinados pela Nvidia em seus próprios supercomputadores.

“Obviamente, a vantagem para as empresas é que elas não precisam passar por todo esse processo. Não apenas a despesa, mas você tem que fazer um monte de trabalho de engenharia para testar continuamente os pontos de verificação, testar os modelos. feito por eles”, explicou o vice-presidente de computação empresarial da Nvidia, Manuvir Das.

Embora os grandes modelos que capturaram as manchetes sejam construídos principalmente com base em dados públicos, as empresas bem financiadas provavelmente desenvolverão suas próprias variantes com seus próprios dados proprietários.

Com base no que precisam e na experiência interna que possuem, as empresas podem ajustar os modelos às suas próprias necessidades. “Há computação [necessária] para ajuste, mas não é tão intensivo quanto o treinamento completo desde o início”, disse Das. “Em vez de muitos meses e milhões de dólares, normalmente estamos falando de um dia de computação – mas por cliente.”

Ele também espera que as empresas usem uma mistura de modelos em tamanhos diferentes – com os maiores sendo mais avançados e precisos, mas com uma latência mais longa e um custo mais alto para treinar, ajustar e usar.

Variantes

Embora os grandes modelos que capturaram as manchetes sejam construídos principalmente com base em dados públicos, as empresas bem financiadas provavelmente desenvolverão suas próprias variantes com seus próprios dados proprietários.

Isso pode envolver a alimentação de dados em modelos como a família GPT. Mas quem é o dono do modelo resultante? Essa é uma pergunta difícil de responder – e pode significar que uma empresa acabou de entregar suas informações mais valiosas para a OpenAI.

“Agora seus dados estão encapsulados em um modelo perpétuo e de propriedade de outra pessoa”, disse Rodrigo Liang, CEO da SambaNova, empresa de hardware de IA como serviço. “Em vez disso, oferecemos a você uma plataforma de computação que treina com seus dados, produz um modelo que você pode possuir e oferece o mais alto nível de precisão.”

Obviamente, a OpenAI também está mudando como empresa e está começando a construir relacionamentos com empresas, o que dá aos clientes mais controle sobre seus dados. No início deste ano, foi revelado que a empresa cobra US$ 156.000 por mês para executar seus modelos em instâncias dedicadas.

A abordagem aberta

Enquanto as empresas estão preocupadas com seu conhecimento proprietário, há outras preocupadas com o quão fechada a indústria está se tornando.

A falta de transparência nos modelos mais recentes dificulta a compreensão do poder e da importância desses modelos.

“A transparência é importante para a ciência, em termos de replicabilidade e identificação de vieses em conjuntos de dados, identificação de pesos e tentativa de rastrear por que um determinado modelo está dando resultados X”, disse Hanna, do DAIR.

“Também é importante em termos de governação e compreensão onde pode haver capacidade de intervenção pública,” explicou. “Podemos aprender onde pode haver um mecanismo através do qual um regulador pode intervir, ou pode haver legislação aprovada para expô-lo a centros de avaliação e auditorias abertas.”

Os principais avanços tecnológicos que tornaram a IA generativa possível saíram da comunidade de código aberto, mas agora foram impulsionados ainda mais por corporações privadas que combinaram essa tecnologia com um fosso de computação cara.

A EleutherAI é uma das que tenta manter os avanços de código aberto competitivos com os laboratórios de pesquisa corporativos, formando um grupo Discord em 2020 e incorporando-se formalmente como um instituto de pesquisa sem fins lucrativos em janeiro.

Colcha de retalhos

Para construir sua visão e grandes modelos de linguagem, ela foi forçada a contar com uma colcha de retalhos de computação disponível. Ele usou primeiro os TPUs do Google por meio do programa de pesquisa da empresa de nuvem, mas depois mudou para as empresas de nuvem de nicho CoreWeave e SpellML quando o financiamento secou.

A empresa de IA generativa com fins lucrativos Stability AI também doou uma parte da computação de seu cluster AWS para a pesquisa LLM em andamento da EleutherAI.

“Somos como um pequeno peixinho na piscina, apenas tentando pegar qualquer computação que pudermos”, disse Quentin Anthony, da EleutherAI. “Podemos então dar a todos, para que os amadores possam fazer algo com isso, pois estão sendo completamente deixados para trás.

“Acho bom que exista algo que não seja apenas o que algumas corporações querem que seja.”

Jogadores de código aberto como EleutherAI podem considerar os recursos que possuem como sucatas e sobras, mas estão usando sistemas que estavam na vanguarda do desempenho de computação quando foram construídos.

IA generativa e o futuro dos data centers: Parte 3 – Os supercomputadores

O que resta para a HPC no mundo da IA ​​generativa?

O papel dos supercomputadores de estado

A maior parte da atividade de treinamento de IA agora está focada nos enormes recursos disponíveis para os gigantes da tecnologia, que constroem supercomputadores virtuais em suas nuvens. Mas antigamente, a pesquisa era amplamente realizada em supercomputadores em laboratórios de pesquisa do governo.

Durante a década de 2010, as nações avançadas do mundo correram para construir instalações com energia suficiente para realizar pesquisas de IA, juntamente com outras tarefas como modelagem molecular e previsão do tempo. Agora essas máquinas foram deixadas para trás, mas seus recursos estão sendo usados ​​por jogadores menores no campo da IA.

Quando o governo dos EUA lançou o Summit em 2018, no Oak Ridge National Laboratory, a máquina de 13 megawatts era o supercomputador mais poderoso do mundo. Agora, pelos tradicionais benchmarks Linpack (FP64), é o quinto supercomputador mais rápido do mundo com 200 petaflops, usando modelos mais antigos de GPUs da Nvidia.

Se você não tiver o melhor e mais recente hardware, simplesmente não poderá competir – mesmo que receba o supercomputador Summit completo.

Para as fronteiras da IA, é muito antigo e muito lento, mas o grupo de código aberto EleutherAI está feliz em pegar os restos. “Recebemos praticamente toda a Summit”, disse Quentin Anthony, da EleutherAI.

“Muito do que o atrapalha é que aquelas GPUs antigas [Tesla] simplesmente não têm memória para caber no modelo. Então, o modelo é dividido em uma tonelada de GPUs e você é morto pela comunicação custos”, disse.

“Se você não tem o melhor e mais recente hardware, simplesmente não pode competir – mesmo que receba o supercomputador Summit completo.”

A máquina mais rápida do mundo!

No Japão, a Fugaku era a máquina mais rápida do mundo quando foi lançada em 2020.

“Temos uma equipe tentando fazer treinamento semelhante ao GPT em Fugaku, estamos tentando criar as estruturas para construir modelos de base e escalar para um número bastante grande de nós”, disse o professor Satoshi Matsuoka, diretor do Japan’s Centro RIKEN para Ciência Computacional.

“Pelos padrões globais de sistemas, o Fugaku ainda é uma máquina de IA muito rápida”, disse ele. “Mas quando você compara com o que o OpenAI montou, é menos eficaz. É muito mais rápido em termos de HPC, mas com códigos AI não é tão rápido quanto 25.000 A100s [GPUs da Nvidia].”

O Morgan Stanley estima que o próximo sistema GPT da OpenAI está sendo treinado em 25.000 GPUs Nvidia, no valor de cerca de US$ 225 milhões.

O Fugaku foi construído com 158.976 processadores Fujitsu A64FX Arm, projetados para computação massivamente paralela, mas não possui GPUs.

“É claro que o Fugaku Next, nosso supercomputador de última geração, terá uma otimização pesada para executar esses modelos básicos”, disse Matsuoka.

O supercomputador atual e a equipe de pesquisa que o utiliza ajudaram a impulsionar o ecossistema Arm e a resolver problemas de operação de arquiteturas massivamente paralelas em escala.

“É nosso papel como laboratório nacional buscar o que há de mais moderno e avançado em computação, incluindo IA, mas também outros aspectos de HPC muito além da trajetória normal que os fornecedores podem imaginar”, disse Matsuoka.

“Precisamos ir além do roteiro do fornecedor, ou encorajar os fornecedores a acelerar o roteiro com algumas de nossas ideias e descobertas – esse é o nosso papel. Estamos fazendo isso com fornecedores de chips para nossa máquina de última geração. Estamos fazendo isso com fornecedores de sistemas e provedores de nuvem. Nós avançamos coletivamente na computação para um bem maior.”

Moralidade e máquinas massivas

Assim como os desenvolvedores de código aberto estão oferecendo a tão necessária transparência e percepção sobre o desenvolvimento deste próximo estágio da inteligência artificial, os supercomputadores estatais fornecem uma maneira para o resto do mundo acompanhar os gigantes corporativos.

“Os perigos desses modelos não devem ser exagerados, devemos ser muito, muito sinceros e muito objetivos sobre o que é possível”, disse Matsuoka. energia ou tecnologias nucleares”.

Os supercomputadores estatais controlam há muito tempo quem os acessa. “Nós examinamos os usuários, monitoramos o que acontece”, disse ele. “Garantimos que as pessoas não minerem Bitcoin nessas máquinas, por exemplo.”

O uso dessas tecnologias pode revolucionar a sociedade, mas modelos de fundação que podem ter intenção ilícita devem ser evitados.

Propostas de uso de computação são submetidas e os resultados são verificados por especialistas. “Muitos desses resultados são divulgados ou, se uma empresa os utiliza, os resultados devem ser para o bem público”, continuou ele.

Usinas e armas nucleares são altamente controladas e protegidas por camadas de segurança. “Vamos aprender os riscos e perigos da IA”, disse ele. “O uso dessas tecnologias pode revolucionar a sociedade, mas modelos de fundação que podem ter intenções ilícitas devem ser evitados. Caso contrário, pode cair em mãos erradas, pode causar estragos na sociedade. Embora possa ou não acabar com a raça humana, ainda pode causar muitos danos.”

Isso requer supercomputadores apoiados pelo estado, argumentou. “Esses recursos públicos permitem algum controle, na medida em que com transparência e abertura podemos ter algumas garantias confiáveis. É uma maneira muito mais segura do que apenas deixá-lo para alguma nuvem privada.”

Construindo os maiores supercomputadores do mundo

“Estamos agora em um domínio em que, se quisermos obter modelos de fundação muito eficazes, precisamos começar a treinar basicamente com desempenho de nível multi-exascale em baixa precisão”, explicou Matsuoka.

Embora os modelos tradicionais de aprendizado de máquina e simulação usem números de ponto flutuante de “precisão única” de 32 bits (e, às vezes, números de ponto flutuante de “precisão dupla” de 64 bits), a IA generativa pode usar uma precisão menor.

Mudar para o formato de ponto flutuante de meia precisão FP16, e potencialmente até FP8, significa que você pode colocar mais números na memória e no cache, bem como transmitir mais números por segundo. Esse movimento melhorou enormemente o desempenho computacional desses modelos e mudou o design dos sistemas usados ​​para treiná-los.

O Fugaku é capaz de 442 petaflops no benchmark Linpack baseado em FP64 e alcançou dois exaflops (ou seja, 1018) usando o benchmark HPL-AI de precisão FP16/FP64 misto.

A OpenAI mantém segredo sobre seus recursos de treinamento, mas Matsuoka acredita que “o GPT-4 foi treinado em um recurso equivalente a um dos melhores supercomputadores que o estado pode estar instalando”, estimando que poderia ser uma máquina de 10 exaflops (FP16). “com otimizações de IA.”

Mudanças

Algumas pessoas até alertam que a HPC será deixada para trás pelos investimentos em nuvem, porque o que os governos podem investir é superado pelo que os hiperescaladores podem gastar em seus orçamentos de pesquisa.

“Podemos construir uma máquina de 100 exaflops para suportar IA generativa?” perguntou Matsuoka. “Claro que nós podemos. Podemos construir uma máquina zettascale em FP8 ou FP16? Não agora, mas em algum momento no futuro próximo. Podemos escalar o treinamento para esse nível? Na verdade, isso é muito provável.

 

Isso significará enfrentar novos desafios de escala. “Sustentar uma máquina de 20.000 ou 100.000 nós é muito mais difícil”, disse ele. Passar de uma máquina de 1.000 nós para 10.000 não requer simplesmente escalar por um fator de 10. “É realmente difícil operar essas máquinas”, disse ele, “é tudo menos fácil”.

Novamente, tudo se resume à questão de quando e onde os modelos começarão a se estabilizar. “Podemos ir cinco ordens de magnitude melhor? Talvez. Podemos ir duas ordens de grandeza? Provavelmente. Ainda não sabemos até onde podemos ir. E isso é algo em que estaremos trabalhando.”

Algumas pessoas até alertam que a HPC será deixada para trás pelos investimentos em nuvem, porque o que os governos podem investir é superado pelo que os hiperescaladores podem gastar em seus orçamentos de pesquisa.

Escalonamento fraco e o futuro da HPC

Para entender o que o futuro reserva para HPC, devemos primeiro entender como surgiram os grandes sistemas de computação paralela de hoje.

Tarefas de computação, incluindo IA, podem ser executadas mais rapidamente, dividindo-as e executando partes delas em paralelo em máquinas diferentes ou em partes diferentes da mesma máquina.

Em 1967, o cientista da computação e pioneiro do mainframe Gene Amdahl observou que a paralelização tinha limites: não importa em quantos núcleos você o execute, um programa só pode ser executado tão rápido quanto as partes que não podem ser divididas e paralelizadas.

A Lei de Moore funcionou para fornecer um número cada vez maior de núcleos de processador por dólar gasto em um supercomputador, mas, à medida que a fabricação de semicondutores se aproxima de limites físicos fundamentais, esse não será mais o caso.

Mas, em 1988, John Gustafson, da Sandia Labs, basicamente inverteu a questão e mudou o foco da velocidade para o tamanho do problema.

“Portanto, o tempo de execução não diminui à medida que você adiciona mais núcleos paralelos, mas o tamanho do problema aumenta”, disse Matsuoka. “Então você está resolvendo um problema mais complicado.”

Isso é conhecido como escalonamento fraco e tem sido usado pela comunidade HPC para cargas de trabalho de pesquisa desde então.

“Tecnologias avançadas, algoritmos avançados, hardware avançado, na medida em que agora temos máquinas com esse imenso poder e podemos utilizar essa escala massiva”, disse Matsuoka. “Mas ainda estamos progredindo com essa escala fraca, mesmo coisas como GPUs, é uma máquina de escalonamento fraca.”

Esse é “o status quo atual agora”, disse ele.

Lei de Moore

Isso pode mudar à medida que nos aproximamos do fim da Lei de Moore, a observação de que o poder de uma CPU (com base no número de transistores que podem ser colocados nela) dobrará a cada dois anos. A Lei de Moore funcionou para fornecer um número cada vez maior de núcleos de processador por dólar gasto em um supercomputador, mas, à medida que a fabricação de semicondutores se aproxima de limites físicos fundamentais, esse não será mais o caso.

“Não seremos mais capazes de atingir a velocidade desejada apenas com escalonamento fraco, então pode começar a divergir”, alertou Matsuoka.

Já estamos começando a ver sinais de abordagens diferentes. Com modelos de aprendizado profundo, como IA generativa, capazes de contar com precisão mais baixa, como FP16 e FP8, os projetistas de chips adicionaram unidades de multiplicação de matriz ao seu hardware mais recente para torná-los significativamente melhores em ordens de precisão tão baixas.

“Ainda é um dimensionamento fraco, mas a maioria dos aplicativos de HPC não pode usá-los porque a precisão é muito baixa”, disse Matsuoka. “Portanto, os projetistas de máquinas estão apresentando todas essas ideias para manter o dimensionamento do desempenho, mas, em alguns casos, há divergências que podem não levar a um projeto uniforme em que a maioria dos recursos pode ser aproveitada por todos os campos. Isso levaria a uma imensa diversidade de tipos de computação.”

Isso pode mudar o cenário do supercomputador. “Algumas pessoas afirmam que vai ser muito diverso, o que é ruim, porque então temos que construir essas máquinas específicas para uma finalidade específica”, disse ele. “Acreditamos que deveria haver mais uniformidade e é algo em que estamos trabalhando ativamente”.

A cloudificação do HPC

Riken, o instituto de pesquisa de Matsuoka, está procurando como acompanhar a cadência dos hiperescaladores, que gastam bilhões de dólares a cada trimestre nas tecnologias mais recentes.

“Também não é fácil para os caras da nuvem – uma vez que você começa essas guerras de escala, você tem que entrar neste jogo”, disse Matsuoka.

Os programas de HPC apoiados pelo estado levam cerca de 5 a 10 anos entre cada sistema principal, trabalhando desde o início em uma máquina de mudança de etapa. Durante esse período, os sistemas baseados em nuvem podem alternar entre várias gerações de hardware.

“A única maneira que prevemos para resolver esse problema é sermos ágeis combinando várias estratégias”, disse Matsuoka. Ele quer continuar lançando sistemas enormes, baseados em P&D fundamental, uma ou duas vezes por década – mas aumentá-los com atualizações mais regulares de sistemas comerciais.

Ele espera que um programa paralelo possa entregar novas máquinas mais rapidamente, mas a um custo menor. “Não será um bilhão de dólares [como Fugaku], mas pode ser uns poucos US$ 100 milhões. Esses modelos de fundação e suas implicações estão nos atingindo em um ritmo muito rápido, e temos que agir de maneira muito reativa”.

Riken também está experimentando a ‘Fugaku Cloud Platform’, para tornar seu supercomputador disponível mais amplamente em parceria com a Fujitsu.

IA generativa e o futuro dos data centers: Parte 4 – A nuvem

Como os hiperescaladores planejam dominar a IA generativa

Como Riken e outros no campo da supercomputação buscam ideias na nuvem, os hiperescaladores também se voltaram para o campo HPC para entender como implantar sistemas massivamente interconectados.

Mas, como vimos, os gigantes descobriram que seus recursos financeiros os capacitaram a superar os supercomputadores tradicionais.

Mudanças repentinas são sempre possíveis, mas, por enquanto, isso deixa hiperescaladores como Microsoft e Google na liderança – e desenvolvendo novas arquiteturas para sua nuvem no processo.

Microsoft: hiperescala para superescala

“Minha equipe é responsável por construir a infraestrutura que tornou possível o ChatGPT”, disse Nidhi Chappell, GM da Microsoft para Azure AI. “Portanto, trabalhamos muito de perto com a OpenAI, mas também trabalhamos em toda a nossa infraestrutura geral de IA.”

A divisão de Chappell foi responsável pela implantação de alguns dos maiores clusters de computação do mundo. “É uma mentalidade de combinar hiperescala e supercomputação na geração da superescala”, disse ela.

Esta foi uma transição de vários anos na empresa, pois une os dois mundos. Parte disso envolveu várias contratações de alto nível do setor tradicional de HPC, incluindo Glenn Lockwood do NERSC, Steve Scott, CTO da Cray, e o chefe dos esforços de exascale da Cray, Dr. Dan Ernst.

“Todas essas pessoas de quem você está falando fazem parte da minha equipe”, disse Chappell. “Quando você vai para uma escala muito maior, está lidando com desafios que estão em uma escala completamente diferente. A supercomputação é a próxima onda da hiperescala, de certa forma, e você precisa repensar completamente seus processos, seja como adquirir capacidade, como vai validá-la, como escalá-la e como vai repará-la. ”

Quando você executa um único trabalho ininterruptamente por seis meses, a confiabilidade torna-se central. Você realmente tem que repensar completamente o design.”

A Microsoft não compartilha exatamente qual é essa escala. Para suas instâncias públicas padrão, eles executam até 6.000 GPUs em um único cluster, mas “alguns clientes vão além das ofertas públicas”, disse Chappell.

Open AI

A OpenAI é um desses clientes, trabalhando com a Microsoft em implantações especializadas muito maiores, desde o acordo de US$ 1 bilhão entre as empresas. “Mas são os mesmos blocos fundamentais que estão disponíveis para qualquer cliente”, disse ela.

O tamanho não é o único desafio que sua equipe enfrenta. Como vimos anteriormente, os pesquisadores estão trabalhando com modelos cada vez maiores, mas também os estão executando por muito mais tempo.

“Quando você executa um único trabalho ininterruptamente por seis meses, a confiabilidade torna-se central”, disse ela. “Você realmente precisa repensar completamente o design.”

Na escala de milhares de GPUs, algumas irão quebrar. Tradicionalmente, “os hiperescaladores terão muitos empregos independentes e, portanto, você pode retirar alguma frota e ficar bem com isso”, disse ela.

“Para o treinamento de IA, tivemos que voltar e repensar e redesenhar como fazemos confiabilidade, porque se você está tirando uma porcentagem de sua frota para mantê-la, essa porcentagem literalmente não está disponível.

“Tivemos que pensar em como poderíamos trazer a capacidade de volta rapidamente. Esse tempo de retorno teve que ser reduzido para garantir que toda a frota esteja disponível, saudável e confiável o tempo todo. Isso é quase lutar contra a física em algum momento.”

Escala

Essa escala só crescerá à medida que os modelos se expandirem em escopo e tempo necessários. Mas, assim como a OpenAI está se beneficiando do volante de dados de uso para melhorar sua próxima geração de modelos, a Microsoft também está aprendendo uma lição importante com a execução da infraestrutura do ChatGPT: como construir a próxima geração de data centers.

“Você não constrói a infraestrutura do ChatGPT do zero”, disse ela. “Temos uma história de construção de supercomputadores que nos permitiram construir a próxima geração. E houve tantos aprendizados sobre a infraestrutura que usamos para o ChatGPT, sobre como você passa de um hiperescalador para um hiperescalador de supercomputação.”

À medida que os modelos ficam maiores e exigem mais tempo, isso “exigirá que continuemos no ritmo de infraestrutura maior e mais poderosa”, disse ela. “Então, acho que o momento crucial [do lançamento do ChatGPT] é, na verdade, o início de uma jornada.”

Google: da pesquisa à IA

O Google também vê isso como o começo de algo novo. “Uma vez que você realmente tem essas coisas nas mãos das pessoas, pode começar a se especializar e otimizar”, disse o chefe da equipe global de infraestrutura de sistemas e serviços da gigante das buscas, Amin Vahdat.

“Acho que você verá muito refinamento no software, no compilador e no lado do hardware”, acrescentou. Vahdat comparou o momento com os primeiros dias da pesquisa na web, quando seria inimaginável para qualquer um ser capaz de indexar o conteúdo da Internet na escala que fazemos hoje. Mas assim que os mecanismos de busca cresceram em popularidade, a indústria aceitou o desafio.

“Nos próximos anos, você verá melhorias dramáticas, algumas de hardware e muitas de software e otimizações. Acho que a especialização em hardware pode e vai continuar, dependendo do que aprendemos sobre os algoritmos. Mas, certamente, não veremos 10 × por ano por muitos mais anos, há algumas coisas fundamentais que irão quebrar rapidamente.”

Esse crescimento na computação em nuvem ocorreu conforme o setor aprendeu e emprestou do setor de supercomputação tradicional, permitindo um rápido aumento no quanto os hyperscalers podem oferecer como clusters únicos.

Avanços

Mas agora que eles alcançaram, colocando em campo sistemas que estariam entre os 10 melhores da lista Top 500 dos supercomputadores mais rápidos, eles estão tendo que abrir seu próprio caminho.

“Os dois setores estão convergindo, mas o que nós e outros estamos fazendo é bastante diferente da supercomputação [tradicional], pois realmente reúne as fontes de dados de ponta a ponta de uma maneira muito mais dramática”, disse Vahdat.

“E também diria que a quantidade de especialização que estamos trazendo para o problema é sem precedentes”, acrescentou ele, ecoando as preocupações do professor Matsuoka sobre os tipos divergentes de HPC (consulte a parte III).

“Em outras palavras, muito do que esses modelos estão fazendo é essencialmente pré-processar enormes quantidades de dados. Não é a totalidade do conhecimento humano, mas é muito, e está se tornando cada vez mais multimodal.” Apenas preparar a entrada adequadamente requer pipelines de processamento de dados “sem precedentes”.

Da mesma forma, embora o HPC tenha acoplado processadores de uso geral com rede de latência superbaixa, essa carga de trabalho permite envelopes de latência ligeiramente mais altos, vinculados a uma configuração de computação especializada acelerada.

“Você não precisa daquela latência ultrafina, de quase nanossegundos, com uma tremenda largura de banda em escala total”, disse Vahdat.

“Você ainda precisa, mas em escala média a grande, não em escala extra grande. Eu vejo os paralelos com a supercomputação, mas as diferenças de segunda e terceira ordem são substanciais. Já estamos em território desconhecido.”

A empresa se diferencia da HPC tradicional ao chamá-la de “supercomputação criada especificamente para aprendizado de máquina”, disse ele.

Como faz a gigante?

No Google, isso pode significar grandes clusters de sua família interna de chips TPU (ele também usa GPUs). Para esse tipo de supercomputação, ele pode acoplar 4.096 TPUv4s. “É determinado pela sua topologia. Acontece que temos um toro 3D e a raiz do seu chip”, disse Vahdat, significando essencialmente que é uma questão de quantos links saem de cada chip e quanta largura de banda é alocada ao longo de cada dimensão da topologia.

“Portanto, 4.096 é realmente uma questão de tecnologia e questão imobiliária de chip, quanto alocamos para SerDes e largura de banda fora do chip? E então, dado esse número e a quantidade de largura de banda que precisamos entre os chips, como conectamos as coisas?”

Os requisitos de latência são menores do que pensamos, então não acho que esteja fora de questão ser capaz de acoplar vários datacenters.

Vahdat observou que a empresa “poderia ter ido para, digamos, dobrar o número de chips, mas então estaríamos restringindo a largura de banda. Então agora você pode ter mais escala, mas metade da largura de banda da bisseção, que era um ponto de equilíbrio diferente.”

O setor poderia se especializar ainda mais e construir clusters que não são apenas melhores em aprendizado de máquina, mas especificamente melhores em LLMs – mas, por enquanto, o setor está se movendo rápido demais para fazer isso.

No entanto, está levando o Google a olhar além do que um cluster significa e uni-los como um único sistema maior. Isso pode significar a combinação de vários clusters em um data center.

Comunhão

Mas, à medida que esses modelos ficam maiores, pode até significar vários data centers trabalhando em conjunto. “Os requisitos de latência são menores do que poderíamos imaginar”, disse ele. “Portanto, não acho que esteja fora de questão ser capaz de acoplar vários data centers.”

Todas essas mudanças significam que as linhas tradicionais do que constitui um data center ou um supercomputador estão começando a se confundir. “Estamos em um momento super emocionante”, disse ele. “A forma como computamos está mudando, a definição de um supercomputador está mudando, a definição de computação está mudando.

“Fizemos muito no espaço nas últimas duas décadas, como com o TPUv4. Estaremos anunciando os próximos passos em nossa jornada, nos próximos meses. Portanto, a taxa de inovação de hardware e software não diminuirá nos próximos anos.

 

IA generativa e o futuro dos data centers: Parte 5 – Os chips

Uma explosão de semicondutores para atender às demandas da IA

Mesmo com os enormes investimentos feitos na construção de supercomputadores na nuvem ou no laboratório, podem surgir problemas.

“Recentemente, vimos que, devido a algum problema com as GPUs em nosso cluster, tivemos que reduzi-las, porque elas ultrapassariam 500 watts por GPU em aceleração máxima, e isso basicamente queimaria a GPU e sua execução morreria. ”, disse Shivanshu Purohit da EleutherAI.

“Mesmo o provedor de nuvem não considerou porque achava que não deveria acontecer, porque geralmente não acontece. Mas então aconteceu.

Da mesma forma, partículas de alta energia “podem romper todas as redundâncias e corromper sua GPU”, disse ele.

“Pode haver novos problemas à medida que escalamos além de onde estamos agora, há um limite para quantas GPUs você pode armazenar em um único data center. Atualmente, o limite é de cerca de 32.000, tanto devido à energia quanto aos desafios de como realmente projetar o data center.”

Talvez a resposta não seja construir centros de dados cada vez maiores, mas sim afastar-se das GPUs.

A nova onda da computação

Na última meia década, à medida que a Lei de Moore desacelerou e outros aplicativos de IA proliferaram, as empresas de chips de IA brotaram como cogumelos na chuva.

Muitos falharam, ou foram adquiridos e despojados de ativos, pois uma prometida revolução da IA ​​demorou a ocorrer. Agora, com uma nova onda de computação novamente prestes a inundar os data centers, eles estão esperançosos de que chegou a hora.

Cada empresa com quem conversamos acredita que sua abordagem única será capaz de resolver o desafio representado pelos modelos de IA em constante crescimento.

Tentorrent

“Acreditamos que nossa tecnologia é excepcionalmente boa para onde pensamos que os modelos irão”, disse Matt Mattina, chefe de IA da startup de chips Tenstorrent.

“Se você aceitar essa ideia de que não pode obter nativamente 10 trilhões de parâmetros, ou quantos trilhões quiser, nossa arquitetura tem dimensionamento integrado.

“Portanto, a IA generativa é fundamentalmente uma multiplicação de matrizes [uma operação binária que produz uma matriz a partir de duas matrizes] e seus grandes modelos”, continuou ele. “Para isso, você precisa de uma máquina que possa fazer a multiplicação de matrizes com alto rendimento e baixo consumo de energia, e ela precisa ser capaz de escalar. Você precisa ser capaz de conectar muitos, muitos chips juntos.

“Você precisa de um bloco de construção fundamental que seja eficiente em termos de picos (Tera Operations Per Second) por watt e possa ser dimensionado de maneira eficiente, o que significa que você não precisa de um rack de interruptores ao adicionar outro nó dessas coisas .”

Cada um dos chips da empresa possui Ethernet integrada, “portanto, a maneira de escalar é simplesmente conectar os chips juntos pela Ethernet padrão, não há um labirinto de comutação e outras coisas conforme você vai para tamanhos maiores”, e a empresa afirma que seu software facilita o dimensionamento .

“É uma arquitetura muito promissora”, disse Dylan Patel, da SemiAnalysis. “É muito interessante do ponto de vista de dimensionamento e memória e do ponto de vista da programabilidade do software. Mas nada disso está lá ainda.

O hardware existe em alguma capacidade e o software ainda está sendo trabalhado. É um problema difícil para eles resolverem e serem utilizáveis, e ainda há muito que precisa ser feito.”

Cerebras

A Rival Cerebras tem uma abordagem diferente para dimensionamento: basta aumentar o chip.

O chip Wafer Scale Engine 2 (WSE-2) possui 2,6 trilhões de transistores, 850.000 núcleos ‘otimizados para IA’, 40 GB de memória SRAM no chip, 20 petabytes de largura de banda de memória e 220 petabits de largura de banda de malha agregada. Ele é embalado no Cerebras CS-2, uma caixa de 15U que também inclui um servidor HPE SuperDome Flex.

“Quando essas grandes empresas estão pensando em treinar IA generativa, muitas vezes estão pensando em gigaflops de computação”, disse o CEO e cofundador da Cerebras, Andrew Feldman. “Somos mais eficientes [do que a abordagem de GPU atual], com certeza, mas você ainda vai usar uma quantidade absurda de computação, porque estamos treinando com uma espécie de força bruta.”

Feldman novamente acredita que haverá um limite para a abordagem atual de modelos gigantes, “porque não podemos crescer cada vez mais para sempre, há um limite superior”. Ele acha que as abordagens esparsas ajudarão a reduzir os tamanhos dos modelos.

Ainda assim, ele concorda que quaisquer que sejam os modelos, eles exigirão enormes clusters de computação. “Grandes clusters de GPUs são incrivelmente difíceis de usar”, disse ele. “A computação distribuída é muito dolorosa, e a distribuição do trabalho de IA – onde você tem que usar o modelo de tensor em paralelo e depois o modelo de pipeline em paralelo e assim por diante – é um processo incrivelmente complicado.”

A empresa espera resolver parte desse desafio movendo o que seria manipulado por centenas de GPUs para um megachip multimilionário.

“Há duas razões pelas quais você interrompe o trabalho”, disse ele. “Um é que você não pode armazenar todos os parâmetros na memória, o segundo motivo é que você não pode fazer um cálculo necessário, e isso geralmente é uma grande matriz multiplicada em uma grande camada.”

Parâmetros

No parâmetro GPT-3 de 175 bilhões, a maior matriz multiplicada é de cerca de 12.000 por 12.000. “Podemos suportar centenas de vezes maiores e, como armazenamos nossos parâmetros fora do chip em nossa tecnologia MemoryX, temos um armazenamento de parâmetros arbitrariamente grande – 100-200 trilhões não é problema”, afirmou. “E, portanto, temos a capacidade de armazenar um grande número de parâmetros e realizar a maior etapa de multiplicação.”

No entanto, o único chip enorme não é grande o suficiente para o que os modelos maiores exigem. “E assim construímos o Andromeda, que tem 13,5 milhões de núcleos. É uma vez e meia maior que o [sistema exascale de Oak Ridge] Frontier em contagem de núcleos, e conseguimos suportá-lo em três dias. O primeiro cliente a usá-lo foi o Argonne [outro laboratório nacional de computação dos EUA], e eles estavam fazendo coisas que não poderiam fazer em um cluster de 2.000 GPUs.”

O supercomputador Andromeda, disponível na nuvem, combina 16 dos sistemas CS-2 da Cerebras, mas a Cerebras tem a capacidade potencial de escalar para 192 desses sistemas como um cluster. “A limitação de dimensionamento é de cerca de 160 milhões de núcleos”, disse Feldman.

A Cerebras não é a única empresa a oferecer seu hardware especializado como um produto em nuvem.

Graphcore

“Decidimos mudar nosso modelo de negócios de vender hardware para operar uma nuvem de IA”, disse Simon Knowles, CTO da Graphcore, startup britânica de chips de IA.

“É realista configurar e operar uma nuvem de IA? Claramente, é sensato por causa das enormes margens que a Nvidia é capaz de colher. A verdadeira questão é: existe um mercado para uma nuvem de IA especializada que uma nuvem genérica como a AWS não oferece? Acreditamos que sim, existe, e isso é com as IPUs.”

A IPU (Intelligence Processing Unit) da empresa é outro processador paralelo projetado desde o início para cargas de trabalho de IA.

“As IPUs foram projetadas desde o primeiro dia com a obrigação de não se parecerem com GPUs”, disse Knowles. “Estou impressionado com quantas startups tentaram ser basicamente uma GPU alternativa. O mundo não precisa de outra Nvidia; Nvidia são muito bons.”

Ele acredita que “o que o mundo precisa é de máquinas de diferentes formatos, que tenham um bom desempenho em coisas onde a Nvidia pode claramente ser derrotada”. Isso é parte do motivo pelo qual a Graphcore está construindo sua própria nuvem. Embora ainda vá vender algum hardware, descobriu que os clientes não se comprometem a comprar hardware, porque querem que seja tão bom ou melhor que as GPUs da Nvidia em todas as cargas de trabalho.

“Eles queriam um seguro que satisfizesse todas as suas necessidades futuras que eles desconheciam”, disse ele. “Considerando que, como um serviço de nuvem, é como ‘para este conjunto de funções, podemos fazê-lo pela metade do preço deles.’”

Da mesma forma, ele não quer competir com a AWS em todas as métricas. “Você teria que ser bastante ousado para acreditar que uma nuvem baseada em uma tecnologia poderia fazer tudo bem”, disse ele.

SambaNova

Outra startup que oferece hardware especializado na nuvem, no local ou como serviço é a SambaNova. “À medida que os modelos crescem, acreditamos que o Dataflow [arquitetura do SambaNova] é o que você vai precisar”, disse o CEO Rodrigo Liang. “Acreditamos que com o tempo, à medida que esses modelos crescem e se expandem, que a energia necessária, a quantidade de custo, todas essas coisas serão proibitivas nessas arquiteturas legadas.

“Portanto, acreditamos fundamentalmente que a nova arquitetura nos permitirá crescer com o tamanho dos modelos de uma maneira muito mais eficaz e eficiente do que as formas legadas de fazê-lo”.

Mas os projetistas de chips legados também colocaram em campo hardware destinado a atender às necessidades de treinamento e inferência dos modelos de IA mais recentes.

Intel

“Já foi comprovado que Habana Gaudi tem 2 vezes o desempenho da GPU A100 no benchmark MLPerf”, afirmou o Dr. Walter Riviera, líder técnico de IA da Intel EMEA, sobre o processador de treinamento de aprendizado profundo da empresa.

“No que diz respeito à GPU, temos a série Flex. E, novamente, dependendo da carga de trabalho, é competitivo. Meu conselho para qualquer cliente é testar e avaliar o que será melhor para eles.”

 

AMD

Nos últimos anos, a AMD conquistou participação de mercado de CPU da Intel. Mas no mundo das GPUs ele tem o segundo melhor produto do mercado, acredita Dylan Patel, da SemiAnalysis, e ainda não conquistou uma fatia significativa.

“Se alguém vai poder competir, é a GPU do MI300”, disse ele. “Mas também faltam algumas coisas, não está no software e há alguns aspectos do hardware que vão ser mais caros. Não é um home run.”

Centro de dados da AMD e CVP de processamento acelerado Brad McCredie apontou a liderança da empresa em HPC como uma vantagem importante. “Estamos no maior supercomputador em três continentes”, disse ele. “Um pedaço tão grande desse cogumelo explosivo de IA é a escala, e nós demonstramos nossa capacidade de escala.

McCredie também acredita que o sucesso da AMD em incluir muita largura de banda de memória em seus chips será particularmente atraente para IA generativa. “Quando você entra na inferência desses LLMs, a capacidade de memória e a largura de banda vêm à tona. Temos oito pilhas de memória de alta largura de banda em nosso MI250, que é uma posição de liderança.”

Outra área importante que ele destacou é a eficiência de energia. “Quando você começa a chegar a essa escala, a eficiência de energia é muito importante”, disse ele. “E vai continuar crescendo.”

TPU do Google

Depois, há a unidade de processamento tensor (TPU), uma família personalizada de chips de IA desenvolvida pelo Google – a mesma empresa que criou o modelo de transformador que forma a base das atuais abordagens de IA generativa.

“Acho que uma das principais vantagens dos TPUs é a interconexão”, disse o pesquisador Finbarr Timbers.

“Eles têm uma rede realmente alta entre os chips, e isso é incrivelmente útil para o aprendizado de máquina. Para transformadores em geral, a largura de banda da memória é o gargalo. Trata-se de mover os dados da RAM da máquina para a memória on-chip, esse é o grande gargalo. As TPUs são a melhor maneira de fazer isso no setor, porque possuem toda essa infraestrutura dedicada para isso.”

A outra vantagem do chip é que ele é usado pelo Google para fazer seus modelos maiores, então o desenvolvimento do hardware e dos modelos pode ser feito em conjunto.

“Realmente se resume ao co-design”, disse Amin Vahdat, do Google. “Entender o que o modelo precisa de uma perspectiva computacional, descobrir como especificar melhor o modelo de uma perspectiva de linguagem, descobrir como escrever o compilador e, em seguida, mapeá-lo para o hardware.”

A empresa também aponta a eficiência energética do TPU como uma grande vantagem à medida que esses modelos crescem. Em um trabalho de pesquisa, a empresa disse que seus TPUv4s usaram DSAs ~ 2-6 × menos energia e produziram ~ 20 × menos CO2e do que os rivais de chips contemporâneos (não incluindo o H100) – mas a principal ressalva é que ele estava comparando seu data center em hiperescala para uma instalação no local.

Amazon Trainium

A Amazon também possui sua própria família de chips Trainium. Ainda não causou tanto impacto, embora a Stability AI tenha anunciado recentemente que estudaria o treinamento de alguns de seus modelos no hardware (provavelmente como parte de seu acordo de nuvem com a AWS).

“Um recurso que gostaria de destacar é o arredondamento estocástico acelerado por hardware”, disse o diretor de EC2 da AWS, Chetan Kapoor.

“Portanto, o arredondamento estocástico é uma capacidade que construímos no chip que diz de forma inteligente, ok, vou arredondar um número para baixo ou para cima?”, disse ele, com sistemas normalmente apenas arredondando para baixo. “Isso basicamente significa que, com o arredondamento estocástico, você pode realmente obter a taxa de transferência do tipo de dados FP16 e a precisão do FP32.”

Nvidia: O rei da IA ​​generativa

A Nvidia não está cochilando – e os rivais de chips que esperam romper suas margens gordas acharão a tarefa assustadora, como o Bing da Microsoft mordiscando a imagem de superioridade de pesquisa do Google.

Em vez de ver isso como um fim de seu domínio e um momento de ‘código vermelho’ semelhante ao que está acontecendo no Google, a Nvidia diz que este é o culminar de décadas de preparação para este momento.

“Eles estão falando sobre isso há anos”, disse Patel, da SemiAnalysis. “Claro que eles foram pegos de surpresa com a rapidez com que decolou nos últimos meses, mas eles sempre visaram isso. Acho que estão muito bem posicionados.”

Fora o uso de TPUs pelo Google, praticamente todos os principais modelos de IA generativa disponíveis hoje foram desenvolvidos nas GPUs A100 da Nvidia. Os modelos de amanhã serão construídos principalmente com seus recém-lançados H100s.

Décadas liderando o espaço de IA significaram que um setor inteiro foi construído em torno de seus produtos. “Mesmo como um usuário acadêmico, se eu recebesse computação infinita nesses outros sistemas, teria que fazer um ano de trabalho de engenharia de software antes de poder torná-los úteis, porque toda a pilha de aprendizado profundo está na Nvidia e na Nvidia Mellanox. [a plataforma de rede da empresa]”, disse Anthony da EleutherAI. “É tudo realmente um sistema unificado.”

O colega Purohit acrescentou: “É todo o ecossistema, não apenas o Mellanox. Eles o otimizam de ponta a ponta para que tenham o melhor hardware. A lacuna geracional entre um A100 e um H100 dos testes preliminares que fizemos é suficiente para que a Nvidia seja o rei da computação no futuro próximo.”

Melhoria pioneira

Em sua opinião, a Nvidia aperfeiçoou o loop hardware-melhora-software-melhora-hardware, “e o único que compete é basicamente o Google. Alguém poderia construir um chip melhor, mas o software é otimizado para Nvidia.”

Um exemplo importante dos esforços da Nvidia para ficar à frente foi o lançamento do núcleo tensor no final de 2017, projetado para desempenho superior de aprendizado profundo em relação aos núcleos regulares baseados na plataforma paralela CUDA (Compute Unified Device Architecture) da Nvidia.

“Isso mudou o jogo”, disse Anthony. “Um usuário regular pode apenas alterar seu código para usar núcleos tensores de precisão mista para computação e dobrar seu desempenho.”

Agora, a Nvidia espera levar as coisas ainda mais longe com um motor transformador no H100, para o FP8. “Na verdade, é uma combinação de hardware e software”, disse Ian Buck, chefe de data centers e IA da Nvidia. “Basicamente, adicionamos capacidade de ponto flutuante de oito bits à nossa GPU e fizemos isso de maneira inteligente, mantendo a precisão.”

Um mecanismo de software monitora essencialmente a precisão do trabalho de treinamento e inferência ao longo do caminho e reduz dinamicamente as coisas para FP8.

“Os núcleos do tensor eliminaram completamente o treinamento do FP32. Antes disso, tudo estava no FP32”, disse Anthony. “Não sei se a mudança para o FP8 será a mesma, talvez não seja precisão suficiente. Ainda estamos para ver se as pessoas de aprendizado profundo ainda podem convergir seus modelos nesse hardware.”

Adequação

Como todos estão tentando avançar na construção desses modelos, eles usarão GPUs [da Nvidia]. Mas, assim como as GPUs da Tesla no Summit são muito antigas para os desafios de hoje, os H100s não serão adequados para os modelos do futuro.

“Eles estão evoluindo juntos”, disse Buck, apontando que as placas GTX 580 da Nvidia foram usadas para construir o AlexNet, uma das redes neurais convolucionais mais influentes já feitas, em 2012.

“Essas GPUs são completamente impraticáveis ​​hoje, um data center não poderia nem ser construído para torná-las dimensionáveis ​​para os modelos de hoje, simplesmente cairia”, disse Buck.

“As GPUs atuais vão nos levar a 150 trilhões de parâmetros? Não. Mas a evolução de nossas GPUs, a evolução do que vai para os chips, a arquitetura em si, a interconexão de memória, NVLink e projetos de data center, sim. E todas as otimizações de software que estão acontecendo no topo são como vencemos a Lei de Moore.”

Mercado perdido

Por enquanto, esse mercado continua a ser perdido pela Nvidia. “Como todos estão tentando avançar na construção desses modelos, eles usarão GPUs [da Nvidia]”, disse Patel. “Eles são melhores e mais fáceis de usar. Geralmente, na verdade, eles também são mais baratos quando você não precisa gastar tanto tempo e dinheiro para otimizá-los.”

Isso pode mudar à medida que os modelos amadurecem. Atualmente, em um espaço competitivo onde o desempenho e a velocidade de implantação são essenciais, a Nvidia representa a aposta segura e altamente capaz.

À medida que o tempo passa e a pressão diminui, as empresas podem procurar arquiteturas alternativas e otimizar implantações em equipamentos mais baratos.

IA generativa e o futuro dos data centers: Parte 6 – A rede

CEO da DE-CIX sobre como os data centers precisam se adaptar

Assim como o silício está sendo levado ao seu limite para lidar com enormes modelos de IA, a rede e a arquitetura dos data centers estão enfrentando desafios.

“Com esses grandes sistemas, não importa o que aconteça, você não pode encaixá-los em um único chip, mesmo se você for o Cerebras”, disse Dylan Patel, da SemiAnalysis. “Bem, como conecto todos esses chips separados? Se são 100 que são administráveis, mas se são milhares ou dezenas de milhares, você está começando a ter dificuldades reais e a Nvidia está implantando exatamente isso. Indiscutivelmente, são eles ou a Broadcom que têm a melhor rede do mundo.”

As empresas de nuvem também estão se envolvendo mais. Eles têm os recursos para criar seus próprios equipamentos de rede e topologias para dar suporte a clusters de computação crescentes.

Mas as empresas de nuvem também estão se envolvendo mais. Eles têm os recursos para criar seus próprios equipamentos de rede e topologias para dar suporte a clusters de computação crescentes.

Amazon

A Amazon Web Services implantou clusters de até 20.000 GPUs, com placas de rede Nitro específicas da AWS. “E vamos implantar vários clusters”, disse Chetan Kapoor, da empresa. “Essa é uma das coisas que eu acredito que diferencia a AWS neste espaço específico. Aproveitamos nossa tecnologia Nitro para ter nossos próprios adaptadores de rede, que chamamos de Elastic Fabric Adapters.”

A empresa está em processo de implantação de sua segunda geração de EFA. “E também estamos no processo de aumentar a largura de banda por nó, cerca de 8× entre A100s e H100s”, disse ele. “Vamos subir para 3.200 Gbps, por nó.”

Google

No Google, um ambicioso esforço de vários anos para reformar as redes de sua enorme frota de data centers está começando a dar frutos.

Taxas de juros mais altas, uma série de falências de alto nível e o colapso do Silicon Valley Bank colocaram essa mentalidade sob pressão.

No momento, as empresas de IA generativa estão levantando grandes somas com base em promessas loucas de riqueza futura. O ritmo da evolução dependerá de quantos conseguirão escapar do poço de gravidade da escala e dos custos operacionais, para construir negócios realistas e confiantes antes que os cordões à bolsa inevitavelmente se apertem.

E esses ganhos serão os únicos a definir a forma final da IA.

Modelos maiores

Ainda não sabemos quanto custará treinar modelos maiores, nem se temos dados suficientes para apoiá-los. Não sabemos quanto custarão para serem executados e quantos modelos de negócios serão capazes de gerar receita suficiente para cobrir esse custo.

Não sabemos se grandes alucinações de modelos de linguagem podem ser eliminadas, ou se o misterioso vale do conhecimento, onde as IAs efetuaram versões convincentes de realidades que não existem, continuam sendo um fator limitante.

Não sabemos em que direção os modelos irão crescer. Tudo o que sabemos é que o processo de crescimento e exploração será alimentado por cada vez mais dados e mais computação. E isso requerá uma nova onda de data centers, prontos para enfrentar o desafio.

A empresa começou a implantar a tecnologia de comutação óptica personalizada Mission Apollo em uma escala nunca antes vista em um data center.

As redes de data center tradicionais usam uma configuração de espinha e folha, onde os computadores são conectados a switches de topo de rack (folhas), que são então conectados à espinha, que consiste em comutadores de pacotes eletrônicos. O Projeto Apollo substitui a coluna por interconexões totalmente ópticas que redirecionam os feixes de luz com espelhos.

“As necessidades de largura de banda de treinamento e, em alguma inferência de escala, são enormes”, disse Amin Vahdat, do Google.

Apollo

A Apollo permitiu que a empresa construísse “topologias de rede que correspondem mais de perto aos padrões de comunicação desses algoritmos de treinamento”, disse ele. “Configuramos redes especializadas e dedicadas para distribuir parâmetros entre os chips, onde enormes quantidades de largura de banda acontecem de forma síncrona e em tempo real.”

Isso tem vários benefícios, disse ele. Nessa escala, chips individuais ou racks falham regularmente e “uma chave de circuito óptico é bastante conveniente para reconfigurar em resposta, porque agora meus padrões de comunicação estão combinando com a topologia lógica da minha malha”, disse ele.

“Posso dizer ao meu comutador de circuito óptico: ‘pegue alguns outros chips de outro lugar, reconfigure o comutador do circuito óptico para conectar esses chips no orifício que falta e depois continue’. Não há necessidade de reiniciar toda a computação ou – pior caso – comece do zero.”

A Apollo também ajuda a implantar a capacidade de forma flexível. O TPUv4 da empresa é dimensionado para blocos de 4.096 chips. “Se eu agendar 256 aqui, 64 ali, 128 aqui, outro 512 ali, de repente, vou criar alguns buracos, onde tenho um monte de 64 blocos de fichas disponíveis.”

Em uma arquitetura de rede tradicional, se um cliente quisesse 512 desses chips, não conseguiria usá-los. “Se eu não tivesse um comutador de circuito óptico, estaria afundado, teria que esperar a conclusão de alguns trabalhos”, disse Vahdat. “Eles já estão ocupando partes da minha malha e não tenho um 512 contíguo, embora possa ter 1.024 chips disponíveis.”

Mas com o comutador de circuito óptico, a empresa pode “conectar as peças certas para criar uma bela malha de 512 nós que é logicamente contígua. Portanto, separar a topologia lógica da física é superpoderoso.”

Mudanças

Se a IA generativa se tornar uma grande carga de trabalho, todos os data centers do mundo poderão descobrir que precisam reconstruir sua rede

Se a IA generativa se tornar uma grande carga de trabalho, todos os data centers do mundo poderão descobrir que precisam reconstruir sua rede, disse Ivo Ivanov, CEO da troca de Internet DE-CIX. 

“Existem três conjuntos críticos de serviços que vemos: 

1) Troca de nuvem, portanto, conectividade direta para nuvens únicas, 

2) Interconexão direta entre diferentes nuvens usadas pela empresa

3) Peering para interconexão direta com outras redes de usuários finais e clientes.”

 

Ele argumentou: “Se esses serviços são fundamentais para criar o ambiente que a IA generativa precisa em termos de infraestrutura, então todo operador de data center hoje precisa ter uma solução para uma plataforma de interconexão”.

Esse serviço de rede à prova de futuro deve ser contínuo, disse ele: “Se as operadoras de data center não oferecerem isso a seus clientes hoje e no futuro, elas se reduzirão apenas a operadoras de armários para servidores”.

IA generativa e o futuro dos data centers: Parte 7 – Os data centers

CEO da Digital Realty e mais sobre o que a IA generativa significa para a indústria de data centers

Uma mudança potencial na natureza das cargas de trabalho será filtrada para o setor mais amplo de data centers, impactando como eles são construídos e onde estão localizados.

Data centers maiores, racks mais quentes

O CEO da Digital Realty, Andy Power, acredita que a IA generativa levará a “uma onda monumental de demanda.

“Ainda é novidade a maneira como isso acontece no setor de data centers, mas definitivamente haverá uma demanda em grande escala. Basta fazer as contas sobre essas cotações de gastos e chips A100 e pensar nos gigawatts de energia necessários para eles.”

Quando ele ingressou na empresa, há quase oito anos, “estávamos passando de um para três megawatts de suítes de TI e rapidamente passamos de seis para oito, depois para dez”, lembrou ele. “Acho que o maior edifício que construímos foi de 100MW ao longo de vários anos. E os maiores negócios que assinamos eram coisas do tipo 50MW. Agora você está ouvindo mais alguns negócios em centenas de megawatts, e tive conversas preliminares nos últimos meses em que os clientes estão dizendo ‘fale comigo sobre um gigawatt’.”

Adaptação da nuvem

Para treinar modelos de IA, Power acredita que veremos uma mudança em relação à abordagem de nuvem tradicional, que se concentra na divisão de cargas de trabalho em várias regiões, mantendo-as próximas ao usuário final.

Essas instalações ainda precisarão de proximidade com outros data centers com dados e cargas de trabalho mais tradicionais, mas “a proximidade e quão perto essa carga de trabalho de IA precisa ficar em relação à nuvem e aos dados ainda é uma incógnita”.

“Dada a intensidade da computação, você não pode simplesmente dividi-los e remendá-los em muitas regiões ou cidades”, disse ele. Ao mesmo tempo, “você não vai divulgar isso no meio do nada, por causa da infraestrutura e da troca de dados”.

Essas instalações ainda precisarão de proximidade com outros data centers com dados e cargas de trabalho mais tradicionais, mas “a proximidade e quão perto essa carga de trabalho de IA precisa ficar em relação à nuvem e aos dados ainda é uma incógnita”.

Ele acredita que “ainda será muito focado no metrô”, o que será um desafio porque “você precisará de grandes extensões de terra e energia contíguas, mas é cada vez mais difícil encontrar um gigawatt contíguo de energia”, ele disse, apontando para os desafios de transmissão na Virgínia e em outros lugares.

E os data centers?

Quanto aos próprios data centers, “simples, será um ambiente mais quente, você apenas colocará muito mais servidores com alta densidade de energia e precisará inovar suas pegadas existentes e seu design para novas pegadas”, disse ele.

“Estamos inovando para nossos clientes corporativos em termos de refrigeração líquida. Tem sido bastante nicho e teste, para ser honesto com você”, disse ele. “Também temos feito co-design com nossos clientes de hiperescala, mas essas foram exceções, não as normas. Acho que você verá uma preponderância de mais normas.”

dois prédios próximos um do outro e um dará suporte à nuvem híbrida. E então você tem outro próximo a ele com o dobro ou o triplo do tamanho, com um design diferente, uma infraestrutura de resfriamento diferente e uma densidade de energia diferente.”

Edifícios especializados

Seguindo em frente, ele acredita que “você terá dois prédios próximos um do outro e um dará suporte à nuvem híbrida. E então você tem outro próximo a ele com o dobro ou o triplo do tamanho, com um design diferente, uma infraestrutura de resfriamento diferente e uma densidade de energia diferente.”

A Amazon concorda que grandes modelos de IA precisarão de instalações especializadas. “O treinamento precisa ser agrupado e você precisa ter pools muito, muito grandes e profundos de uma capacidade específica”, disse Chetan Kapoor, da AWS.

“A estratégia que temos executado nos últimos anos, e que vamos reforçar, é escolher alguns data centers vinculados às nossas principais regiões, como o norte da Virgínia (EUA- East-1) ou Oregon (US-West-2) como exemplo, e construir clusters realmente grandes com data centers dedicados. Não apenas com a computação bruta, mas também com racks de armazenamento para realmente suportar sistemas de arquivos de alta velocidade.”

Cluster especializadas

Do lado do treinamento, a empresa terá implantações de cluster especializadas. “E você pode imaginar que vamos enxaguar e repetir em GPUs e Trainium”, disse Kapoor. “Portanto, haverá centros de dados dedicados para GPUs H100. E haverá centros de dados dedicados para o Trainium.”

As coisas serão diferentes no lado da inferência, onde estará mais próximo do modelo de nuvem tradicional. “As solicitações que estamos vendo é que os clientes precisam de várias zonas de disponibilidade, precisam de suporte em várias regiões. É aí que alguns dos nossos principais recursos em escala e infraestrutura para a AWS realmente se destacam. Muitos desses aplicativos tendem a ser em tempo real por natureza, portanto, ter a computação o mais próximo possível do usuário torna-se super, super importante.”

Se você estiver tentando compactar muitos desses servidores, o custo aumentará, porque você terá que encontrar soluções realmente caras para realmente esfriá-lo.

No entanto, a empresa não planeja seguir a mesma abordagem de rack de servidor denso de seus concorrentes na nuvem.

Infraestrutura escalável

“Em vez de empacotar muita computação em um único rack, o que estamos tentando fazer é construir uma infraestrutura que seja escalável e implantável em várias regiões e seja o mais eficiente possível em termos de energia”, disse Kapoor. “Se você está tentando compactar muitos desses servidores, o custo vai subir, porque você terá que encontrar soluções realmente caras para realmente esfriá-lo.”

Vahdat, do Google, concordou que veremos clusters específicos para treinamento em larga escala, mas observou que, a longo prazo, pode não ser tão segmentado. “A questão interessante aqui é: o que acontece em um mundo onde você vai querer refinar gradualmente seus modelos? Acho que a linha entre treinar e servir ficará um pouco mais tênue do que a maneira como fazemos as coisas agora.”

Comparando-o com os primeiros dias da Internet, onde a indexação de pesquisa era feita por alguns centros de alta computação, mas agora está espalhada por todo o mundo, ele observou: “Nós confundimos a linha entre treinamento e serviço. Você verá um pouco disso avançando com isso.

Onde e como construir?

Embora essa nova onda de carga de trabalho arrisque deixar alguns negócios para trás, o CEO da Digital Realty vê esse momento como uma “maré crescente para levantar todos os navios, chegando como uma terceira onda quando a segunda e a primeira ainda não chegaram à costa”.

As duas primeiras ondas foram de clientes que migraram do local para colocation e, em seguida, para serviços de nuvem fornecidos a partir de implantações de atacado em hiperescala.

Essa é uma ótima notícia para o setor, mas vem depois de anos de dificuldades do setor para acompanhar. “A demanda continua superando a oferta, [a indústria] está se curvando e tossindo porque está sem combustível”, disse Power. “A terceira onda de demanda não está chegando em um momento fortuito para ser um caminho fácil para o crescimento.”

Apesar de todas as suas esperanças de resolver ou transcender os desafios de hoje, o crescimento da IA ​​generativa será prejudicado pelas dificuldades mais amplas que atormentam o mercado de data centers – os problemas de escala.

Como os operadores de data center podem aumentar rapidamente a capacidade em uma escala maior e mais rápida, consumindo mais energia, terra e possivelmente água – de preferência, usando recursos renováveis ​​e não causando aumento nas emissões?

“Restrições de energia na Virgínia do Norte, preocupações ambientais, moratórias, nimbyismo, problemas na cadeia de suprimentos, escassez de talentos dos trabalhadores e assim por diante”, Power listou os problemas externos.

E isso ignora o material que entra nos data centers que o cliente possui e opera. Muitas dessas coisas são demoradas”, com GPUs atualmente difíceis de adquirir até mesmo para hiperescaladores, causando racionamento.

Economia

“A economia está aquecida há muitos anos”, disse Power, “E vai demorar um pouco para reabastecer grande parte dessa infraestrutura, trazendo linhas de transmissão para diferentes áreas. E é um esforço maciço, governamental e da comunidade local.”

Enquanto os pesquisadores de IA e os projetistas de chips enfrentam os desafios de escala de contagem de parâmetros e alocação de memória, os construtores e operadores de data centers terão que superar seus próprios gargalos de dimensionamento para atender às demandas da IA ​​generativa.

“Continuaremos a ver marcos maiores que exigirão que a computação não se torne um impedimento para o progresso da IA ​​e mais um acelerador para isso”, disse Nidhi Chappell, da Microsoft. “Mesmo olhando para o roteiro em que estou trabalhando agora, é incrível, a escala é inédita. E é completamente necessário.”

Poderia tudo isso ser apenas hype?

À medida que planejamos o futuro e tentamos extrapolar o que a IA significa para a indústria de data centers e para a humanidade de forma mais ampla, é importante dar um passo atrás na cobertura de tirar o fôlego que as tecnologias potencialmente transformacionais podem gerar.

Após o boom do silício, o nascimento da Internet, a revolução dos smartphones e aplicativos e a proliferação da nuvem, a inovação estagnou. O silício ficou mais poderoso, mas em taxas cada vez mais lentas. Os negócios da Internet amadureceram e se solidificaram em torno de algumas corporações gigantes. Os aplicativos foram direcionados para alguns destinos importantes, raramente substituídos por recém-chegados. Cada nova geração de smartphones mal se distingue da anterior.

Mas aqueles que se beneficiaram dos booms anteriores permanecem paranóicos sobre o que pode vir a seguir e deslocá-los. Aqueles que perderam estão igualmente buscando a próxima oportunidade. Ambos olham para o passado e para a riqueza gerada pelos pontos de inflexão como prova de que a próxima onda seguirá o mesmo caminho. Isso levou a uma cultura de múltiplos falsos começos e promessas demais.

Metaverso

O metaverso era para ser a próxima onda da Internet. Em vez disso, apenas derrubou o preço das ações da Meta. A criptomoeda foi criada para reformular os sistemas financeiros. Em vez disso, queimou o planeta e solidificou a riqueza nas mãos de poucos. Os NFTs foram criados para revolucionar a arte, mas rapidamente se tornaram uma piada. Após anos de promoção, os computadores quânticos comerciais permanecem tão intangíveis quanto o gato de Schrodinger.

A IA generativa parece ser diferente. O ritmo do avanço e os resultados finais são evidências claras de que existem casos de uso mais tangíveis. Mas é notável que os entusiastas de criptomoedas tenham se renomeado como proponentes da IA, e os negócios metaversos tenham se voltado para os generativos. Muitas das pessoas que promovem a próxima grande novidade podem estar promovendo a próxima grande moda.

A velocidade com que uma tecnologia avança é uma combinação de quatro fatores: o poder intelectual que utilizamos, as ferramentas que podemos usar, a sorte e a disposição de financiá-la e apoiá-la.

Conversamos com algumas das mentes que exploram e expandem esse espaço e discutimos algumas das tecnologias que impulsionarão o que vem a seguir – desde escala de chip até data centers e nuvem. Mas não tocamos nas outras duas variáveis.

A sorte, por sua natureza, não pode ser capturada até que tenha passado. Os modelos de negócios, por outro lado, geralmente estão entre os assuntos mais fáceis de interrogar. Não é assim neste caso, já que a tecnologia e o hype superam as tentativas de construir negócios sustentáveis.

Estratégia

Mais uma vez, já vimos isso antes com a bolha pontocom e todos os outros booms tecnológicos. Muito disso está embutido na mentalidade do Vale do Silício, apostando grandes somas em cada nova tecnologia sem uma estratégia clara de monetização, esperando que a escala da transformação acabe levando a uma riqueza insondável.

Taxas de juros mais altas, uma série de falências de alto nível e o colapso do Silicon Valley Bank colocaram essa mentalidade sob pressão.

No momento, as empresas de IA generativa estão levantando grandes somas com base em promessas loucas de riqueza futura. O ritmo da evolução dependerá de quantos conseguirão escapar do poço de gravidade da escala e dos custos operacionais, para construir negócios realistas e sustentáveis ​​antes que os cordões à bolsa inevitavelmente se apertem.

E esses eventuais vencedores serão os únicos a definir a forma final da IA.

Custos

Ainda não sabemos quanto custará treinar modelos maiores, nem se temos dados suficientes para apoiá-los. Não sabemos quanto custarão para serem executados e quantos modelos de negócios serão capazes de gerar receita suficiente para cobrir esse custo.

Não sabemos se grandes alucinações de modelos de linguagem podem ser eliminadas, ou se o misterioso vale do conhecimento, onde as IAs produzem versões convincentes de realidades que não existem, continuará sendo um fator limitante.

Não sabemos em que direção os modelos irão crescer. Tudo o que sabemos é que o processo de crescimento e exploração será alimentado por cada vez mais dados e mais computação.

E isso exigirá uma nova onda de data centers, prontos para enfrentar o desafio.

 

*Este artigo foi baseado no estudo do Datacenter Dynamics

Facebook
Twitter
LinkedIn

posts relacionados

Perguntas
frequentes

Nós falamos com o seu fornecedor atual e colhemos todas as informações necessárias diretamente com eles. Também podemos fazer o mapeamento de todas as informações diretamente na sua empresa.

SIM, é possível melhorar a qualidade e o desempenho e ainda reduzir custos. Essa eficiência é possível graças ao sistema de melhoria contínua que aplicamos há anos.

SIM, o time interno pode ser absorvido, com os profissionais se tornando colaboradores da Infonova.

SIM. Em conjunto com seu departamento, ou consultoria jurídica, ajudamos a implantar as ações de TI necessárias para adequação da LGPD.

A transição pode ocorrer com ou sem o apoio do fornecedor atual. A Infonova vai mapear todas as informações, identificar os itens críticos e realizar a transição de forma segura, sempre em alinhamento com o cliente.

Em geral é rápida. O tempo exato depende de cada situação. O prazo mais comum de transição em paralelo é entre 1 semana e 15 dias.

NÃO. Temos soluções para empresas de 10 a 2.500 colaboradores. Desenvolvemos uma metodologia para atender empresas em diversos segmentos, em situações de crescimento ou retenção.

Temos diversas soluções para proteger o acesso de usuários que ficam externos ou em home office.

SIM, trabalhamos com os principais provedores de nuvem e possuímos um datacenter próprio.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

FALE
COM UM
ESPECIALISTA