Close Menu
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Matosinhos acende as luzes de Natal esta sexta-feira

November 25, 2025

Governo propõe aumentar vagas no Ensino Superior

November 25, 2025

Caminhões deixam de pagar pedágio no CREP em 2026

November 25, 2025
Facebook X (Twitter) Instagram
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
Facebook X (Twitter) Instagram
MatoSinhos24hMatoSinhos24h
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech
MatoSinhos24hMatoSinhos24h
Home » Os dados de treinamento de IA vêm com um preço que só a Big Tech pode pagar
Tech

Os dados de treinamento de IA vêm com um preço que só a Big Tech pode pagar

FranciscoBy FranciscoJune 1, 2024No Comments8 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


Os dados estão no centro dos sistemas avançados de IA atuais, mas os seus custos estão a aumentar, colocando-os fora do alcance de todos, exceto das empresas tecnológicas mais ricas.

No ano passado, o pesquisador da OpenAI, James Betker, postou em seu blog pessoal sobre a natureza dos modelos generativos de IA e os conjuntos de dados usados ​​para treiná-los. Nele, Betker argumentou que os dados de treinamento, em vez do design do modelo, da arquitetura ou de outras características, são a chave para sistemas de IA cada vez mais sofisticados e capazes.

“Quando treinados no mesmo conjunto de dados por um período de tempo suficientemente longo, quase todos os modelos convergem para o mesmo ponto”, escreveu Betker.

Betkar está correto? Os dados de treinamento são o maior fator para determinar o que um modelo pode fazer, seja respondendo a uma pergunta, desenhando uma mão humana ou gerando uma paisagem urbana realista?

Certamente isso é plausível.

máquina estatística

Os sistemas generativos de IA são essencialmente modelos probabilísticos ou enormes pilhas de estatísticas. Eles adivinham quais dados têm mais “significado” para serem colocados com base em uma grande quantidade de exemplos (por exemplo, antes de “to market” na frase “go to market” a palavra “go”). Portanto, parece intuitivo que quanto mais amostras um modelo exigir, melhor será o desempenho de um modelo treinado nessas amostras.

“A melhoria de desempenho parece vir dos dados”, disse Kyle Roe, cientista sênior de pesquisa aplicada do Allen Institute for AI (AI2), sem fins lucrativos de pesquisa de IA, ao TechCrunch. “Pelo menos com uma configuração de treinamento estável.”

Ele deu o exemplo do Llama 3 da Meta, um modelo de geração de texto lançado no início deste ano. Este tem um desempenho melhor do que o modelo OLMo do próprio AI2, apesar de ser arquitetonicamente muito semelhante. O Llama 3 foi treinado com muito mais dados do que o OLMo, e Lo acredita que isso explica a superioridade do Llama 3 em muitos benchmarks comuns de IA.

(Devemos salientar aqui que os benchmarks amplamente utilizados na indústria de IA hoje não são necessariamente a melhor medida de desempenho do modelo, mas fora de testes qualitativos como o nosso, os benchmarks são É uma das poucas medidas que devem ser realizadas .)

Isto não significa que o treinamento em conjuntos de dados exponencialmente maiores seja um caminho infalível para modelos exponencialmente melhores. Lo ressalta que o modelo opera no paradigma “entra lixo, sai lixo”, portanto a curadoria e a qualidade dos dados são muito importantes, talvez até mais do que a quantidade.

“Modelos pequenos com dados cuidadosamente projetados podem ter melhor desempenho do que modelos grandes”, acrescentou. “Por exemplo, o modelo maior, o Falcon 180B, ocupa a 63ª posição no benchmark LMSYS, enquanto o modelo muito menor, o Llama 2 13B, ocupa a 56ª posição.”

Em entrevista ao TechCrunch em outubro passado, o pesquisador da OpenAI Gabriel Goh disse que o DALL-E 3, o modelo de texto para imagem da OpenAI, oferece anotações de maior qualidade em comparação com a geração anterior DALL-E 2. Ele disse que isso contribuiu muito para melhorar a imagem. qualidade. Esse é o principal motivo da melhoria”, afirmou. “As anotações de texto estão muito melhores do que antes [with DALL-E 2] –Não há comparação. ”

Muitos modelos de IA, incluindo DALL-E 3 e DALL-E 2, são treinados com anotadores humanos rotulando os dados, e o modelo aprende a associar esses rótulos a outras características observadas desses dados. Por exemplo, um modelo alimentado com um grande número de fotos de gatos com anotações de cada raça acabará “aprendendo” a associar termos como: bobtail e cabelo curto Possui uma característica visual única.

mau comportamento

Especialistas como Lowe acreditam que uma ênfase crescente em conjuntos de dados de treinamento grandes e de alta qualidade está concentrando o desenvolvimento de IA entre um pequeno número de jogadores com orçamentos multibilionários que podem adquirir esses conjuntos. Grandes inovações em dados sintéticos e arquiteturas fundamentais poderiam perturbar o status quo, mas parece provável que nada disso aconteça num futuro próximo.

“No geral, as organizações que controlam conteúdos que podem ser úteis para o desenvolvimento de IA são encorajadas a manter esse material seguro”, disse Lo. “E à medida que nos aproximamos do acesso aos dados, estamos basicamente celebrando alguns dos pioneiros na aquisição de dados e subindo na hierarquia para que ninguém mais possa acessar os dados e se atualizar.”

Na verdade, a corrida para obter mais dados de formação não levou a práticas antiéticas (e possivelmente ilegais), como a agregação secreta de conteúdos protegidos por direitos de autor, mas sim a grandes empresas tecnológicas.

Modelos generativos de IA, como OpenAI, dependem principalmente de imagens, texto, áudio, vídeo e outros dados (alguns dos quais são (protegidos por direitos autorais). OpenAIs em todo o mundo argumentam que o uso justo os protege de retaliações legais. Muitos detentores de direitos discordam, mas, pelo menos por enquanto, não há muito que possa ser feito para evitar este comportamento.

Existem muitos exemplos de fornecedores de IA generativa que adquirem grandes conjuntos de dados através de meios questionáveis ​​para treinar os seus modelos. A OpenAI supostamente transcreveu e alimentou mais de 1 milhão de horas de vídeos do YouTube em seu modelo principal GPT-4 sem a aprovação do YouTube ou do criador. O Google expandiu recentemente seus termos de serviço para permitir que Google Docs disponíveis publicamente, avaliações de restaurantes no Google Maps e outros materiais on-line sejam usados ​​em seus produtos de IA. E diz-se que a Meta considerou arriscar um litígio para treinar seus modelos em conteúdo protegido por IP.

Entretanto, grandes e pequenas empresas dependem de trabalhadores em países do terceiro mundo que recebem apenas alguns dólares por hora para anotar os seus conjuntos de formação. Alguns desses anotadores são empregados por grandes startups como a Scale AI, mas realizam tarefas que os expõem a representações gráficas de violência e violência, sem vantagens ou garantias de trabalho futuro. Eu literalmente trabalho todos os dias para fazer isso.

aumento de custo

Por outras palavras, mesmo as trocas de dados mais sofisticadas não promovem exactamente um ecossistema de IA generativo aberto e justo.

A OpenAI gasta centenas de milhões de dólares licenciando conteúdo de editores de notícias e bibliotecas de mídia para treinar seus modelos de IA, o que excede em muito os orçamentos da maioria dos grupos de pesquisa acadêmica, organizações sem fins lucrativos e startups. A Meta está até considerando adquirir a editora Simon & Schuster sobre os direitos de trechos de e-books (eventualmente, a Simon & Schuster será adquirida pela empresa de private equity KKR em 2023 (vendida por US$ 1,62 bilhão).

Espera-se que o mercado de dados de treinamento de IA cresça de cerca de US$ 2,5 bilhões hoje para quase US$ 30 bilhões dentro de 10 anos, e os corretores e plataformas de dados estão cobrando quantias mais altas, às vezes apesar das objeções de suas bases de usuários. Estou com pressa para tentar. .

A biblioteca de mídia Stock Shutterstock tem contratos com fornecedores de IA que variam de US$ 25 milhões a US$ 50 milhões, enquanto o Reddit afirma que ganha centenas de milhões de dólares licenciando dados para organizações como Google e OpenAI. Menos plataformas com dados ricos acumulados organicamente ao longo de muitos anos Eu não fiz isso Do Photobucket ao Tumblr e ao site de perguntas e respostas Stack Overflow, parece que eles assinaram acordos com desenvolvedores de IA generativos.

São os dados da plataforma que vendem, pelo menos dependendo do argumento jurídico em que você acredita. No entanto, na maioria dos casos, os usuários não obtêm um único centavo de lucro. E está tendo um impacto negativo na comunidade mais ampla de pesquisa em IA.

“As pequenas empresas não serão capazes de desenvolver ou pesquisar modelos de IA porque não poderão pagar essas licenças de dados”, disse Lo. “Estamos preocupados que isto possa levar à falta de supervisão independente das práticas de desenvolvimento de IA.”

Esforços voluntários

Se há um raio de sol na escuridão, é o punhado de esforços independentes e sem fins lucrativos para criar conjuntos de dados em grande escala que qualquer pessoa pode usar para treinar modelos generativos de IA.

EleutherAI é um grupo de pesquisa sem fins lucrativos que começou como um coletivo Discord em 2020, trabalhando com a Universidade de Toronto, AI2 e pesquisadores independentes para analisar bilhões de passagens de texto provenientes principalmente do domínio público. A Pilha v2. .

Em abril, a startup de IA Hugging Face lançou o FineWeb, uma versão filtrada do Common Crawl. Este é o conjunto de dados de mesmo nome, gerenciado pela organização sem fins lucrativos Common Crawl e composto por bilhões de páginas da web. Hugging Face afirma melhorar o desempenho do modelo em muitos benchmarks.

Alguns esforços para divulgar conjuntos de dados de formação abertos, como o conjunto de imagens do Grupo LAION, enfrentam direitos de autor, privacidade de dados e outros desafios éticos e legais igualmente sérios. Mas alguns dos curadores de dados mais apaixonados prometeram fazer melhor. Por exemplo, The Pile v2 remove material problemático protegido por direitos autorais em seu conjunto de dados ancestral, The Pile.

A questão é se alguma dessas iniciativas abertas conseguirá acompanhar o ritmo das Big Techs. Enquanto a recolha e curadoria de dados for uma questão de recursos, a resposta provavelmente será não, pelo menos até que alguns avanços na investigação nivelem o campo de jogo.



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Francisco
  • Website

Related Posts

Meu foodie favorito da Bay Area é uma manicure vietnamita-americana

July 30, 2024

Stock market today: Live updates

July 30, 2024

A indústria de tecnologia está migrando do metaverso para a computação espacial

July 30, 2024
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

July 30, 2024
Top Reviews
MatoSinhos24h
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
© 2025 matosinhos24h. Designed by matosinhos24h.

Type above and press Enter to search. Press Esc to cancel.