Close Menu
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Matosinhos acende as luzes de Natal esta sexta-feira

November 25, 2025

Governo propõe aumentar vagas no Ensino Superior

November 25, 2025

Caminhões deixam de pagar pedágio no CREP em 2026

November 25, 2025
Facebook X (Twitter) Instagram
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
Facebook X (Twitter) Instagram
MatoSinhos24hMatoSinhos24h
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech
MatoSinhos24hMatoSinhos24h
Home » Os tokens são um grande motivo pelo qual a IA generativa de hoje é insuficiente
Ai

Os tokens são um grande motivo pelo qual a IA generativa de hoje é insuficiente

FranciscoBy FranciscoJuly 6, 2024No Comments6 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


Os modelos generativos de IA não processam texto da mesma forma que os humanos. Compreender seu ambiente interno baseado em “token” pode ajudar a explicar alguns de seus comportamentos estranhos e limitações teimosas.

A maioria dos modelos, desde pequenos modelos no dispositivo, como Gemma, até o GPT-4o, líder do setor da OpenAI, são construídos em uma arquitetura conhecida como Transformer. Devido à forma como os transformadores invocam associações entre texto e outros tipos de dados, não é possível ingerir ou gerar texto bruto, pelo menos sem fazer muitos cálculos.

Portanto, por razões práticas e técnicas, os modelos atuais do Transformer processam texto dividido em pequenos pedaços chamados tokens. Este é um processo conhecido como tokenização.

O token pode ser uma palavra como “incrível”. Ou pode ser uma sílaba, como “fan”, “tas” ou “tic”. Dependendo do tokenizer (o modelo que faz a tokenização), elas também podem ser letras individuais dentro de uma palavra (por exemplo, 'f', 'a', 'n', 't', 'a', 's'). , “t”, “”IC”).

Este método permite que o transformador receba mais informações (no sentido semântico) antes de atingir um limite superior denominado janela de contexto. No entanto, a tokenização também pode introduzir preconceitos.

Alguns tokens possuem espaçamentos estranhos, o que pode causar falha no transformador. Por exemplo, o tokenizer codifica “once Upon a time” como “once”, “Upon”, “a”, “time”, enquanto “onceUpon a” (com espaços em branco à direita) é codificado como “once”, “once”, “on”, “a”, “time”. Pode ser codificado como “. “on”, “a”, “.” Dependendo de como o modelo é solicitado como “uma vez” ou “uma vez”, os resultados podem ser completamente diferentes. Isso ocorre porque o modelo não entende (como os humanos) que o significado é o mesmo.

Os tokenizadores também lidam com os casos de maneira diferente. “Olá” não é necessariamente o mesmo que “Olá” para um modelo. “hello” normalmente é um token (dependendo do tokenizer), mas “HELLO” pode ter até três tokens (“HE”, “El” e “O”). É por isso que muitos transformadores falham no teste de letras maiúsculas.

“É difícil contornar a questão de o que exatamente uma “palavra” deveria ser para um modelo de linguagem. Mesmo que você consiga que especialistas humanos concordem com um vocabulário de token perfeito, o modelo provavelmente ainda achará útil “pedaçar”. As coisas estão avançando”, disse Sheridan Feucht, estudante de doutorado da Northeastern University que estuda interpretabilidade de modelos de linguagem em grande escala, ao TechCrunch. “Meu palpite é que, devido a esse tipo de ambigüidade, não existe um tokenizador perfeito.”

Essa “ambiguidade” causa ainda mais problemas em outros idiomas além do inglês.

Muitos métodos de tokenização assumem que os espaços dentro de uma frase representam novas palavras. Porque foi projetado pensando no inglês. Porém, nem todos os idiomas utilizam espaços para separar palavras. Os chineses e os japoneses não o são, nem os coreanos, os tailandeses e os Khmers.

Um estudo de 2023 da Universidade de Oxford descobriu que diferenças na forma como outros idiomas além do inglês são tokenizados podem fazer com que os Transformers levem o dobro do tempo para concluir uma tarefa expressa em um idioma diferente do inglês do que para realizar a mesma tarefa expressa em inglês. fora que isso pode demorar. O mesmo estudo e outro estudo descobriram que, dado que muitos fornecedores de IA cobram por token, os usuários que usam linguagens “ineficientes em token” experimentam desempenho de modelo inferior, apesar de , descobrimos que eles eram mais propensos a pagar mais em royalties.

Os tokenizadores geralmente têm um grande número de tokens porque tratam cada caractere em um sistema de escrita logográfica (um sistema no qual os símbolos impressos representam palavras sem levar em conta a pronúncia, como o chinês) como um token separado. Da mesma forma, tokenizadores que processam idiomas aglutinados (línguas como o turco, onde as palavras são compostas de pequenos elementos de palavras significativas chamados morfemas) tendem a converter cada morfema em um token, reduzindo o número geral de tokens. (A palavra tailandesa para “olá”, สวัสดี, é seis fichas.)

Em 2023, Yenny Jun, pesquisadora de IA do Google DeepMind, conduziu uma análise comparando a tokenização de diferentes idiomas e seus efeitos posteriores. Usando um conjunto de dados de texto bilíngue traduzido para 52 idiomas, Jun mostrou que alguns idiomas requerem até 10 vezes mais tokens para capturar o mesmo significado em inglês.

Além da desigualdade linguística, a tokenização pode explicar por que os modelos atuais são ruins em matemática.

Os números raramente são tokenizados de forma consistente. O tokenizer não sabe realmente quais são os números, então trata “380” como um token, mas pode representar “381” como um par (“38” e “1”). Isso efetivamente destrói a relação entre os números e o resultado da equação. Fórmula matemática. O resultado é confusão no transformador. Um artigo recente mostrou que os modelos lutam para compreender padrões numéricos repetitivos e contexto, especialmente dados temporais. (Veja: GPT-4 acredita que 7,735 é maior que 7,926).

É também por isso que os modelos são ruins para resolver problemas de anagramas e inverter palavras.

Acontece que muitos comportamentos estranhos e problemas com o LLM, na verdade, remontam à tokenização. Analisaremos alguns desses problemas e explicaremos por que a tokenização é problemática e por que alguém poderia, idealmente, ter encontrado uma maneira de remover completamente esse estágio. pic.twitter.com/5haV7FvbBx

-Andrei Karpathy (@karpathy) 20 de fevereiro de 2024

Portanto, a tokenização representa claramente um desafio para a IA generativa. Eles podem ser resolvidos?

talvez.

Feucht aponta para modelos de espaço de estado em “nível de byte”, como MambaByte. Ao eliminar completamente a tokenização, o MambaByte permite ingerir muito mais dados do que transformadores sem sacrificar o desempenho. Processando diretamente os bytes brutos que representam texto e outros dados, o MambaByte compete com alguns modelos do Transformer para tarefas de análise de linguagem, enquanto lida melhor com “ruídos” como letras, espaços e palavras com letras maiúsculas transpostas.

No entanto, modelos como o MambaByte estão nos estágios iniciais de pesquisa.

“Provavelmente é melhor que o modelo veja o personagem diretamente, sem impor tokenização, mas isso não é computacionalmente possível para Transformers neste momento”, disse Feucht. “Especialmente para modelos de transformadores, os cálculos são dimensionados quadraticamente com o comprimento da sequência, por isso gostamos de usar representações textuais curtas.”

A menos que haja um avanço na tokenização, novos modelos de arquitetura parecem ser a chave.





Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Francisco
  • Website

Related Posts

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

July 30, 2024
Top Reviews
MatoSinhos24h
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
© 2025 matosinhos24h. Designed by matosinhos24h.

Type above and press Enter to search. Press Esc to cancel.