O Google anunciou na terça-feira várias atualizações em sua plataforma Vertex AI e uma versão atualizada de seu modelo de texto para imagem Imagen 2.
Na conferência Google Next '24 em Las Vegas, o provedor de nuvem revelou que Gemini 1.5 Pro, um novo modelo de linguagem em larga escala (LLM), está disponível em versão prévia pública na plataforma empresarial de IA do Google, Vertex AI.
Uma nova versão do modelo de geração de imagens, Imagen 2, agora permite criar imagens ao vivo de 4 segundos a partir de prompts de texto e adiciona novos recursos de edição de imagens.
A Vertex AI também adicionou novos recursos de base, incluindo a capacidade de basear respostas na Pesquisa Google. Também adicionamos novos serviços instantâneos de gerenciamento e avaliação para modelos maiores. A fundamentação é uma etapa adicional para garantir que os dados sejam precisos, baseados em respostas confiáveis e em algo diferente dos dados nos quais o modelo foi treinado.
Com essas novas atualizações e avanços, o Google dá continuidade ao padrão estabelecido no início do ano de avançar sua tecnologia GenAI, apesar do aumento da concorrência.
De acordo com Rowan Curran, analista da Forrester Research, a última atualização da Vertex, centrada no Gemini 1.5 Pro, a versão mais recente da família de modelos LLM Gemini do Google, anunciada em fevereiro, permitirá ao Google incentivar as empresas a se concentrarem no Gemini. O objetivo é fornecer ferramentas para prédio.
“Ser capaz de ter um modelo com uma janela de contexto tão grande muda os tipos de casos de uso e aplicativos que podem se safar”, disse Curran, referindo-se à opção de 1 milhão de janelas de contexto grandes do Gemini Pro.
Sem ferramentas para gerir e testar rapidamente novas respostas, é difícil para as empresas construir em torno de modelos como o Gemini, acrescentou.
“Este é um conjunto completo de ferramentas que estão sendo desenvolvidas e implantadas especificamente para apoiar a IA generativa”, disse ele.
Uma variedade de ferramentas e capacidades apoiam a família de modelos Gemini, abrindo novas possibilidades de como as empresas aplicam e constroem IA generativa, continuou ele.
Atualizações da Vertex AI
Uma forma de o Google apoiar isso é criando novos serviços de gerenciamento e avaliação imediatos no Vertex AI para modelos grandes como o Gemini 1.5 Pro.
O novo serviço permitirá aos usuários organizar, rastrear e modificar prompts para modelos de aprendizado de máquina.
“Esse benefício agiliza o processo de criação, edição e gerenciamento de prompts”, disse Paul Nashawaty, analista do Grupo Futurum.
Além disso, serviços rápidos de gerenciamento e avaliação são importantes para empresas que buscam construir aplicativos GenAI porque podem avaliar solicitações e respostas anteriores, disse Curran.
“Precisamos da capacidade de registrar essas consultas e respostas para que não tenhamos que regenerá-las exatamente no futuro”, acrescentou Curran.
Enquanto isso, o novo recurso de base da Vertex AI, atualmente em versão prévia, permite que os usuários baseiem respostas LLM na Pesquisa Google ou em fontes de dados empresariais usando Search Augmented Generation (RAG). RAG ajuda a otimizar a produção do LLM.
O novo recurso de aterramento reduz as alucinações do LLM, disse Nashawaty.
“Esse é o principal progresso”, disse ele. “As empresas podem então aumentar o uso de LLMs com confiança.”
O analista do Gartner, Sid Nag, disse que o aterramento permite que as empresas garantam que o que seus sistemas de IA entendem e interagem no mundo real é preciso.
“Esta é uma ponte entre conceitos abstratos de IA e resultados práticos e concretos”, disse ele.
Ele acrescentou que isso não apenas fornece precisão no mundo real, mas também adiciona análise de sentimento humano para evitar erros que podem ser causados por dados simulados.
Curran disse que a tecnologia de aterramento surge à medida que mais empresas procuram usar a tecnologia de pesquisa para apoiar o aterramento de modelos generativos.
“Cada vez mais empresas procuram enraizar as respostas dos modelos de linguagem de grande escala nos seus dados”, disse ele.
A popularidade do RAG levou a desenvolvimentos recentes dos concorrentes do Google, incluindo a Microsoft, que anunciou recentemente mudanças no Azure AI Search que permitem aos clientes executar o RAG em qualquer escala.
As empresas que desejam criar aplicativos de IA no futuro incluem IA preditiva para entender a probabilidade de um cliente realizar uma ação, IA generativa para entender a intenção do cliente com base em linguagem natural e imagens e nas informações corretas. A pesquisa é necessária para ajudar na recuperação e recuperação. Ele disse.
“Acho que o futuro disso será uma grande trifeta ou tripé construído em torno de previsão, geração e pesquisa”, continuou ele.
Outras atualizações do Vertex AI incluem a capacidade do Gemini 1.5 de processar fluxos de áudio, incluindo a parte de áudio de voz e vídeo.
O Google também revelou que a família de modelos Anthropic Claude 3 já está disponível no Vertex AI.
Modelos abertos como Llama 2 Mistral 7B e Mixtral 8 também estão disponíveis no Vertex AI.
O que há de novo na imagem 2
Introduzido na versão prévia, o Imagen 2 inclui um recurso de conversão de texto em imagem ao vivo que permite às equipes de marketing gerar GIFs e loops de vídeo a partir de prompts de texto. Imagen 2 também possui recursos avançados de edição de fotos.
Imagen 2 surge depois que o Google suspendeu novos recursos de geração de imagens em seu aplicativo de conversação Gemini (anteriormente conhecido como Bard) depois que o aplicativo gerou imagens imprecisas de figuras históricas.
Os benefícios dos recursos de imagem ao vivo do Imagen 2 incluem a aceleração do processo de criação, a redução de erros humanos e a capacidade de minimizar o tédio, disse Nashawaty.
As desvantagens incluem uma curva de aprendizado acentuada para os usuários e altos custos de implementação, disse ele.
E existem modelos semelhantes no mercado.
“Isto não é nenhum avanço tecnológico”, disse Curran. Por exemplo, ferramentas de código aberto como a ferramenta Text2Live têm funcionalidades semelhantes.
O Stable Diffusion 3 do Stability AI tem funcionalidade semelhante.
Imagens convertidas em texto ao vivo também podem trazer problemas de privacidade, diz Nag.
“Do ponto de vista da privacidade, não vejo nenhuma limitação ou uso do recurso Text-to-Live”, disse Nag. “Se essa funcionalidade for limitada a certos tipos de cargas de trabalho de nível empresarial, isso é bom.”
O Google também revelou nova infraestrutura e novidades para parceiros.
- Cloud TPU v5p, o acelerador de próxima geração do fornecedor para treinamento de modelos GenAI, já está disponível para todos. Equipado com GPU Nvidia H100 Tensor Core.
- As GPUs Nvidia Blackwell também estão chegando ao Google Cloud.
- Nvidia e Google estão trabalhando juntos para ajudar startups a criar aplicativos e serviços GenAI. Os membros do Nvidia Inception agora podem usar a infraestrutura do Google.
Todas as informações mais recentes do Google mostram que a corrida GenAI continua esquentando.
Para as empresas, é importante concentrar-se nas aplicações GenAI em vez de apresentar os produtos mais recentes, disse Curran.
“É muito importante entender como construir coisas e quais são as melhores práticas emergentes”, disse ele.
Esther Ajao é redatora de notícias editoriais da TechTarget e apresentadora de um podcast que cobre software e sistemas de inteligência artificial.

