(Andrei Saslov/Shutterstock)
Modelos de linguagem de grande escala (LLMs) pré-treinados, como GPT-4 e Gemini, são ótimos, mas a verdadeira vantagem competitiva vem da combinação de LLMs com dados privados. Infelizmente, há dúvidas sobre até que ponto as empresas estão a preparar bem os seus ativos de dados privados para GenAI, de acordo com um novo relatório da MIT Technology Review.
Não há dúvida de que a IA generativa está ganhando atenção de organizações que buscam usar o LLM para construir chatbots, copilotos e outros tipos de aplicativos. O dimensionamento da IA ou GenAI é uma “prioridade máxima” para 82% dos executivos entrevistados no relatório do MIT Technology Review, intitulado “Executive AI Readiness”. Foi encomendado pelo fornecedor Fivetran.
A pesquisa também descobriu que as organizações têm uma boa ideia de quais dados desejam usar com GenAI, com 83% das organizações já identificando as fontes de dados que usarão para IA ou GenAI.
Mas até que ponto estão as organizações preparadas para realmente ligar os pontos na GenAI e fornecer dados às aplicações GenAI, quando e onde forem necessários, bem limpos, preparados e no formato certo? E como fazer tudo isto sem arriscar a sua privacidade ou segurança? ?
Gráfico fornecido por: MIT Technology Review
Claro, este é o verdadeiro segredo, e poucas organizações são boas nisso, pelo menos não agora.
É muito difícil colocar todas as ferramentas e técnicas de dados na mesma página. Como salienta Stewart Bond, analista da IDC, um estudo recente da IDC descobriu que a organização média tem “mais de uma dúzia de tecnologias diferentes apenas para recolher toda a inteligência em torno dos seus dados. ” ele diz ao MIT Tech. análise. “A dívida técnica lá é muito real.”
O MIT Tech Review afirma em um relatório que ferramentas mais antigas de integração de dados e ETL desenvolvidas para iniciativas centralizadas de armazenamento de dados podem não atender aos requisitos dos novos casos de uso de GenAI. É por isso que o estudo descobriu que 82% dos executivos de tecnologia pesquisados “priorizam a aquisição de soluções de integração e movimentação de dados que continuarão a funcionar no futuro, independentemente de outras mudanças na estratégia de dados ou nos parceiros. “
Gráfico fornecido por: MIT Technology Review
Embora a aquisição de uma melhor integração de dados e ferramentas de ETL/pipeline de dados sejam prioridades claras, o relatório concluiu que há outros investimentos importantes a serem feitos. 64% dos entrevistados dizem que a integração de dados e as ferramentas ETL/pipeline estão entre as suas duas principais prioridades para investimentos GenAI, enquanto 35% citam os data lakes como uma prioridade e 31% listam ferramentas de conversão de dados. Enquanto isso, os investimentos em catálogos de dados e LLMs tiveram apenas uma participação de 7%, com bancos de dados vetoriais e níveis de computação intermediários.
Os executivos de tecnologia entrevistados identificaram uma série de desafios na construção de uma infraestrutura de dados, incluindo integração de dados e construção de pipelines de dados. Governança e segurança de dados. Entre outras coisas, existe a questão da qualidade dos dados (ver figura).
As quatro principais tarefas com as quais as organizações mais lutam na frente de integração/pipeline de dados são: Gerenciamento do volume de dados. Mova dados do local para a nuvem. Habilite o acesso em tempo real. Gerencie alterações em seus dados. A integração de dados de diferentes regiões e a integração de dados de terceiros também receberam forte resposta, de acordo com o estudo.
CEO da Fivetran, George Fraser, até 2023 dados nami Os observadores argumentam que uma base sólida de dados é um requisito para o sucesso da GenAI.
“Antes de contratar um grupo de cientistas de dados e começar a fazer muita IA generativa, você precisa ter um data warehouse corporativo com dados limpos e selecionados para suportar todas as suas cargas de trabalho tradicionais de BI e análise. existe um projeto”, disse Fraser no relatório. “Se as organizações não começarem construindo uma base sólida de dados, os cientistas de dados perderão tempo na integração e limpeza básica de dados.”
Os dados da pesquisa ficam um pouco mais matizados quando se trata de governança de dados, conformidade e aspectos de relatórios.
Gráfico fornecido por: MIT Technology Review
A maioria dos entrevistados disse que seus maiores desafios ao preparar dados para IA são governança e segurança de dados (44% dos entrevistados disseram) e integração de dados ou pipelines (45% disseram). No entanto, aprofundar os dados revelou problemas significativos. Dividir.
Em suma, o estudo concluiu que as preocupações positivas sobre a segurança e a governação estavam altamente concentradas em dois sectores muito conservadores: as instituições governamentais e de serviços financeiros, em comparação com a indústria transformadora, o retalho e outras indústrias. preocupações de governação. Mesma taxa.
“As organizações podem não ter controle sobre alguém que usa dados em um aplicativo de negócios e os envia para um modelo generativo de IA”, disse Bond, da IDC, no relatório. “Essas são preocupações sérias.”
Você pode ler o relatório completo aqui.
Produtos relacionados:
Salte da governança de dados para a governança de IA
A ascensão e queda da governança de dados (re)
Encontre o ponto ideal para governança de acesso a dados

