- Os pesquisadores da Apple desenvolveram um novo sistema de IA para “ver” e interpretar o contexto do conteúdo na tela.
- Os sistemas de “resolução de referência como modelagem de linguagem” permitem interações mais naturais com IA.
- Os pesquisadores por trás do ReaLM dizem que o ReaLM é melhor que o GPT-4 da OpenAI na compreensão do contexto.
Os novos desenvolvimentos da Apple em IA visam competir com o produto GPT da OpenAI e podem tornar a interação com assistentes virtuais como o Siri mais intuitiva.
Sistema RealLM significa “Resolução de Referência como Modelagem de Linguagem”. Entenda o contexto de imagens, conteúdos e conversas ambíguas na tela para permitir interações mais naturais com IA.
De acordo com os pesquisadores que o criaram, o novo sistema da Apple é melhor do que outros modelos de linguagem de grande escala, como o GPT-4, na determinação a que contexto e expressões de linguagem se referem. É também um sistema menos complexo do que outros modelos de linguagem de grande escala, como a série GPT da OpenAI, por isso os pesquisadores acreditam que o ReaLM poderia ser usado como um sistema de decodificação de contexto que “pode residir no dispositivo sem sacrificar o desempenho”. “escolha ideal”.
Por exemplo, digamos que você peça ao Siri para exibir uma lista de farmácias locais. Ao receber uma lista, você pode pedir que “ligue para a pessoa na Rainbow Road” ou “ligue para a pessoa que está na parte inferior”. Segundo pesquisadores da Apple, o ReaLM permite que a Siri decifre melhor o contexto necessário para realizar tais tarefas do que o GPT-4, em vez de receber mensagens de erro solicitando mais informações. A pessoa que criou o sistema.
“A fala humana normalmente contém referências vagas como ‘eles’ e ‘aquilo’, mas cujo significado é claro (para outros humanos) dado o contexto”, dizem os pesquisadores que escreveram sobre as capacidades do ReaLM. “Ser capaz de compreender o contexto que contém tais referências é essencial para assistentes de conversação que visam ajudar os usuários a comunicar naturalmente suas necessidades e conversar com os agentes.”
O sistema RealM pode interpretar imagens incorporadas em texto, e os pesquisadores dizem que pode ser usado para extrair informações como números de telefone ou receitas de imagens em uma página.
O GPT-3.5 da OpenAI aceita apenas entrada de texto e também pode contextualizar imagens. GPT-4 é um sistema de grande escala treinado principalmente em imagens naturais do mundo real, em vez de capturas de tela. Os pesquisadores da Apple dizem que isso prejudica o desempenho prático e torna o ReaLM uma opção melhor para entender as informações na tela.
“A Apple há muito é vista como estando atrás da Microsoft, Google e Amazon no desenvolvimento de IA conversacional”, relatou The Information. “O fabricante do iPhone tem uma reputação de desenvolver novos produtos de forma cuidadosa e metódica. Esta estratégia funcionou bem para ganhar a confiança do consumidor, mas pode prejudicá-la na corrida acelerada da IA.
Mas com os recursos do RealM divulgados, parece que a Apple está se preparando para entrar na corrida para valer.
Os pesquisadores por trás do ReaLM e representantes da OpenAI não responderam imediatamente aos pedidos de comentários do Business Insider.
Ainda não está claro quando ou se o ReaLM será implementado na Siri e em outros produtos da Apple, mas o CEO Tim Cook disse em uma recente teleconferência de resultados que a empresa planeja “continuar a melhorar seu progresso em IA ainda este ano”. dos nossos esforços.”

