O que o futuro reserva para a ciência de dados na era da IA generativa?
À medida que os sistemas de IA se tornam parte da nossa vida quotidiana, a procura de pessoas qualificadas para operar e construir estes sistemas continuará a crescer. Os cientistas de dados já foram essenciais para construir e gerenciar sistemas de IA. Mas mesmo que os sistemas de IA se tornem mais fáceis de usar e de acessar, os cientistas de dados ainda são a chave para fazer os sistemas de IA funcionarem na maioria das organizações?
Os sistemas de IA têm tudo a ver com dados. Saber manipular os dados para alcançar resultados ainda é importante. Os cientistas de dados normalmente têm a tarefa de desenvolver modelos que transformam grandes quantidades de dados em insights e padrões. Esses insights podem ser usados para uma variedade de atividades, desde análises descritivas e de diagnóstico até modelos avançados de aprendizado de máquina, e podem ser aplicados a todos os sete padrões de IA.
Os cientistas de dados desempenham todas as habilidades relevantes, mas são altamente qualificados, caros e difíceis de encontrar. A taxa a que as organizações estão a considerar implementar e aproveitar as capacidades de IA excede em muito a capacidade do mercado de fornecer cientistas de dados qualificados e experientes.
Construindo modelos de IA usando vsAo pensar nos conjuntos de competências necessários agora e no futuro, precisamos primeiro de distinguir entre a necessidade de construir modelos de IA a partir do zero e a necessidade de simplesmente utilizar modelos que já foram desenvolvidos. O poder dos sistemas generativos de IA e dos modelos de linguagem em larga escala (LLMs) provou que as capacidades de IA são facilmente acessíveis, estão disponíveis para todos e podem produzir excelentes resultados.
Você não precisa ser um cientista de dados para obter muito valor de um sistema LLM. E as pessoas incorporarão cada vez mais capacidades de IA nas suas ferramentas e aplicações diárias. Portanto, apenas usar um sistema de IA e obter valor dele não requer as habilidades de um cientista de dados.
Em vez disso, as organizações precisam desenvolver rapidamente habilidades de engenharia para se beneficiarem dos sistemas LLM prontos para uso. Para aprender engenharia imediata e eficaz, as habilidades sociais são mais importantes do que as habilidades básicas. Você não precisa de habilidades em matemática, programação ou análise estatística para ser um bom engenheiro rápido. A engenharia de prompts requer a compreensão de padrões de prompts apropriados para diferentes situações e fortes habilidades de pensamento crítico, criatividade, colaboração e comunicação. Estas competências focadas nas artes liberais estão disponíveis a um custo mais baixo e são mais fáceis de desenvolver com os recursos humanos existentes em comparação com os cientistas de dados.
Ajustes e RAG: novos conjuntos de habilidadesMas e se você quiser levar isso para o próximo nível? Os modelos disponíveis publicamente podem fornecer bons resultados para necessidades gerais, mas exigem dados privados, requisitos específicos de domínio e contexto e geração. bem adequado para os tipos de modelos de IA. foi feito para. É claro que estes modelos publicados estão a ser melhorados todos os dias, pelo que o âmbito do que o sistema genAI pode fazer continua a expandir-se todos os dias. No entanto, a questão das necessidades pessoais versus necessidades específicas do domínio ainda permanece. Alcançar isso requer habilidades mais avançadas do que engenharia ágil e habilidades interpessoais relacionadas. No entanto, não é tão poderoso quanto a engenharia de aprendizado de máquina ou a ciência de dados.
Se você quiser ajustar um modelo de aprendizado de máquina geralmente treinado para uma resposta mais específica do domínio, use a seguinte abordagem: Puxão. O ajuste fino envolve a coleta de muitos exemplos de prompts e respostas específicas e o fornecimento desses exemplos à API do LLM. Por exemplo, para ajustar um modelo Open AI GPT com seus próprios conjuntos de dados, você pode coletar conjuntos de dados de amostra, usar um script Python muito básico para inserir esses conjuntos de dados na API OpenAI e, em seguida, criar o ajuste que preciso para gerar um modelo bem ajustado. .
Se quiser que o LLM trabalhe com seus próprios dados ou dados personalizados, você pode usar a abordagem Search Augmentation Generation (RAG). O RAG armazena dados personalizados em um banco de dados indexado usando a mesma abordagem de vetor de palavras que é a base do LLM. Então, quando um usuário faz uma solicitação de prompt, as informações relevantes são primeiro recuperadas do banco de dados com base nessa solicitação e, em seguida, os dados fornecidos ao LLM como parte do contexto de prompt são usados para responder à solicitação do usuário e serão direcionados para o pedido do usuário. LLM. As habilidades necessárias para construir um RAG são principalmente habilidades de programação para coordenar entre o LLM e o banco de dados, e habilidades de dados para coletar e processar os dados inseridos no banco de dados RAG.
Os cientistas de dados são úteis como parte do processo de ajuste fino e desenvolvimento de RAG, mas não são tão necessários ao desenvolver modelos de aprendizado de máquina do zero. A gama de tarefas necessárias aos cientistas de dados e engenheiros de aprendizagem automática continua a diminuir, à medida que a engenharia rápida, o ajuste fino e os RAGs podem fazer mais.
Os engenheiros de dados podem ser remunerados de forma justa?Os cientistas de dados continuam a ser fundamentais para o desenvolvimento e avanço contínuos da IA, especialmente na construção e manutenção de modelos subjacentes e nas muitas tarefas que os cientistas de dados realizam fora da IA. No entanto, um elemento comum que une o desenvolvimento de modelos avançados, a engenharia rápida, o ajuste fino e o desenvolvimento de RAG é a necessidade de dados relevantes e de alta qualidade.
Embora a ciência de dados e o papel dos cientistas de dados tenham estado em destaque na última década, está ficando claro que a engenharia de dados merece ainda mais atenção. A engenharia de dados preocupa-se principalmente em disponibilizar dados para IA e análises. Os engenheiros de dados gerenciam pipelines de engenharia de dados que movem dados, os mantêm consistentes e limpos e os mantêm fluindo para sistemas que dependem de um fluxo contínuo de dados confiáveis. Dessa perspectiva, os engenheiros de dados são mais importantes para os projetos de IA do que os cientistas de dados. Talvez os engenheiros de dados sejam os talentos mais importantes na próxima década para dar vida à IA nas organizações?

