Veja como as empresas estão integrando a IA de forma responsável nos ambientes de produção. Este evento somente para convidados em SF explora a interseção entre tecnologia e negócios. Clique aqui para saber como participar.
Durante os testes, o recentemente lançado Modelo de Linguagem em Grande Escala (LLM) parece saber que a relevância da informação que está processando está sendo avaliada e comentada. Isto levou à especulação de que esta resposta pode ser um exemplo de metacognição, ou compreensão dos próprios processos de pensamento. Embora este recente LLM tenha suscitado uma discussão sobre o potencial de autoconsciência na IA, a verdadeira história está no poder do modelo, fornecendo um exemplo de novas capacidades que surgirão à medida que os LLMs crescem.
Junto com isso, novas capacidades e custos aumentaram e estão agora atingindo números astronômicos. Assim como a indústria de semicondutores se consolidou em torno de um pequeno número de empresas que podem implantar fábricas de chips de última geração multibilionárias, o campo da IA em breve será dominado por grandes empresas de tecnologia e seus parceiros, talvez. Um projeto de lei para desenvolver modelos modernos de LLM fundamentais, como GPT-4 e Claude 3.
O custo de formação destes modelos modernos com capacidades que correspondam, e em alguns casos excedam, o desempenho a nível humano está a aumentar. Na verdade, os custos de formação associados aos modelos modernos aproximam-se dos 200 milhões de dólares e ameaçam mudar o panorama da indústria.

Se este rápido aumento de desempenho continuar, não só as capacidades de IA avançarão rapidamente, como também os custos aumentarão rapidamente. A Anthropic é uma das líderes na construção de modelos de linguagem e chatbots. O carro-chefe Claude 3 é sem dúvida o atual líder em desempenho, pelo menos como mostram os resultados dos nossos testes de benchmark. Semelhante ao GPT-4, é considerado um modelo fundamental pré-treinado em dados diversos e extensos para desenvolver uma ampla compreensão de linguagem, conceitos e padrões.
Evento VB
Tour de impacto da IA – São Francisco
solicite um convite

Dario Amodei, cofundador e CEO da empresa, falou recentemente sobre o custo de treinar esses modelos, dizendo que custaria cerca de US$ 100 milhões para treinar Claude 3. Ele acrescentou que o custo do modelo, que está atualmente em treinamento e deverá ser introduzido no final de 2024 ou início de 2025, é “perto de US$ 1 bilhão”.

Para compreender as razões por detrás de tais aumentos de custos, é importante notar que estes modelos estão a tornar-se cada vez mais complexos. Cada nova geração aumenta o número de parâmetros que permitem compreensão e execução de consultas mais complexas, mais dados de treinamento e maiores quantidades de recursos computacionais necessários. Amodei acredita que custará entre US$ 5 bilhões e US$ 10 bilhões para treinar os modelos mais recentes até 2025 ou 2026. Isso impede que todas as grandes corporações e seus parceiros construam esses LLMs básicos.
AI segue a indústria de semicondutores
Dessa forma, a indústria de IA segue o mesmo caminho da indústria de semicondutores. No final do século 20, a maioria das empresas de semicondutores projetava e fabricava seus próprios chips. À medida que a indústria seguiu a Lei de Moore, um conceito que descreve a taxa exponencial de melhoria no desempenho do chip, o custo de cada nova geração de equipamentos e fábricas para produzir semicondutores aumentou proporcionalmente.
Por causa disso, muitas empresas optam por terceirizar a fabricação de seus produtos. A AMD é um bom exemplo. A empresa fabricava internamente seus principais semicondutores, mas em 2008 decidiu desmembrar suas fábricas, também conhecidas como fabs, para reduzir custos.
Devido aos custos de capital necessários, apenas três empresas de semicondutores estão atualmente a construir fábricas de última geração utilizando as mais recentes tecnologias de nós de processo: TSMC, Intel e Samsung. A TSMC anunciou recentemente que construir uma nova fábrica para produzir semicondutores de última geração custará cerca de US$ 20 bilhões. Muitas empresas, incluindo Apple, Nvidia, Qualcomm e AMD, terceirizam a fabricação de seus produtos para essas fábricas.
Impacto na IA – LLM e SLM
O impacto desses aumentos de custos variará entre os ambientes de IA, pois nem todas as aplicações exigem o LLM mais recente e poderoso. Isso também se aplica aos semicondutores. Por exemplo, a unidade central de processamento (CPU) de um computador geralmente é fabricada com a mais recente tecnologia de semicondutores de ponta. No entanto, você não precisa construí-lo usando a tecnologia mais rápida ou poderosa porque está cercado por outros chips de memória e rede que funcionam mais lentamente.
A analogia da IA aqui é que, em vez dos parâmetros de mais de um trilhão que se acredita fazerem parte do GPT-4, há uma série de alternativas de LLM em menor escala. A Microsoft lançou recentemente seu próprio Small Language Model (SLM), Phi-3. Conforme relatado pelo The Verge, ele contém 3,8 bilhões de parâmetros e foi treinado em um conjunto de dados comparativamente pequeno. LLMs como GPT-4.
Conjuntos de dados de treinamento e tamanho menores ajudam a manter os custos baixos, mesmo que não forneçam o mesmo nível de desempenho que modelos maiores. Dessa forma, esses SLMs são muito parecidos com chips de computador que suportam uma CPU.
No entanto, modelos menores podem ser apropriados para determinadas aplicações, especialmente aquelas que não exigem conhecimento completo em vários domínios de dados. Por exemplo, o SLM permite ajustar dados e terminologia específicos da empresa para responder de forma precisa e individual às dúvidas dos clientes. Alternativamente, ele pode ser treinado com dados de uma indústria ou segmento de mercado específico, ou usado para gerar relatórios de pesquisa abrangentes e personalizados e respostas a consultas.
Rowan Curran, analista sênior de IA da Forrester Research, comentou recentemente sobre as várias opções de modelos de linguagem: Você também pode precisar de uma minivan ou caminhonete. Não será uma classe ampla de modelos que todos usarão para todos os casos de uso. ”
Poucos jogadores correm o risco
Tal como o aumento dos custos limitou historicamente o número de empresas que podem fabricar semicondutores de gama alta, pressões económicas semelhantes estão actualmente a moldar o cenário para o desenvolvimento de modelos de linguagem em grande escala. Estes custos crescentes ameaçam limitar a inovação da IA a algumas empresas poderosas, inibindo uma gama mais ampla de soluções criativas e reduzindo a diversidade neste campo. Grandes barreiras à entrada podem impedir que startups e pequenas empresas contribuam para o desenvolvimento da IA, reduzindo o âmbito de ideias e aplicações.
Para contrariar esta tendência, a indústria precisa de suportar modelos de linguagem mais pequenos e especializados que forneçam funcionalidades importantes e eficientes para uma variedade de aplicações de nicho, bem como componentes essenciais de sistemas mais amplos. A promoção de projetos e colaboração de código aberto é essencial para democratizar o desenvolvimento da IA, permitindo que uma gama mais ampla de participantes influencie esta tecnologia em evolução. Ao promovermos agora um ambiente inclusivo, podemos garantir que o futuro da IA, caracterizado por um amplo acesso e oportunidades de inovação equitativas, maximiza os benefícios em toda a comunidade global.
Gary Grossman é vice-presidente de prática de tecnologia da Edelman e líder global do Edelman AI Center of Excellence.
tomador de decisão de dados
Bem-vindo à comunidade VentureBeat!
DataDecisionMakers é um lugar onde especialistas, incluindo tecnólogos que trabalham com dados, podem compartilhar insights e inovações relacionadas a dados.
Se você quiser ler sobre ideias de ponta, atualizações, práticas recomendadas e o futuro dos dados e da tecnologia de dados, junte-se ao DataDecisionMakers.
Por que não considerar contribuir com seus próprios artigos?
Leia mais sobre DataDecisionMakers

