Partilhar via


Operacionalizar a malha de dados para engenharia de funcionalidades condicionadas por domínios de IA/ML

A malha de dados ajuda as organizações a passar de um data lake ou armazém de dados centralizado para uma descentralização condicionada por domínios de dados de análise sublinhados por quatro princípios: Propriedade do Domínio, Dados como Produto, Plataforma de Dados Personalizada e Governação Computacional Federada. A malha de dados proporciona os benefícios da propriedade de dados distribuídos e da melhoria da qualidade e governação de dados que acelera o negócio e o tempo a valorizar para as organizações.

Implementação da malha de dados

Uma implementação típica da malha de dados inclui equipas de domínio com engenheiros de dados que criam pipelines de dados. A equipa mantém arquivos de dados operacionais e analíticos, como data lakes, armazém de dados ou data lakehouse. Lançam os pipelines como produtos de dados para que outras equipas de domínio ou equipas de ciência de dados consumam. Outras equipas consomem os produtos de dados através de uma plataforma de governação de dados central, conforme mostrado no diagrama seguinte.

Diagrama de arquitetura a mostrar uma implementação de malha de dados.

A malha de dados é clara sobre como os produtos de dados servem conjuntos de dados transformados e agregados para business intelligence. No entanto, não é explícito sobre a abordagem que as organizações devem adotar para criar modelos de IA/ML. Também não existem orientações sobre como estruturar as suas equipas de ciência de dados, a governação de modelos de IA/ML e como partilhar modelos ou funcionalidades de IA/ML entre equipas de domínio.

A secção seguinte descreve algumas estratégias que as organizações podem utilizar para desenvolver capacidades de IA/ML na malha de dados. Além disso, verá uma proposta para uma estratégia sobre engenharia de funcionalidades condicionadas por domínios ou malha de funcionalidades.

Estratégias de IA/ML para a malha de dados

Uma estratégia comum é a organização adotar equipas de ciência de dados como consumidores de dados. Estas equipas acedem a vários produtos de dados de domínio na malha de dados de acordo com os casos de utilização. Executam a exploração de dados e a engenharia de funcionalidades para desenvolver e criar modelos de IA/ML. Em alguns casos, as equipas de domínio também desenvolvem os seus próprios modelos de IA/ML através da utilização dos respetivos dados e do produto de dados de outras equipas para expandir e derivar novas funcionalidades.

A engenharia de funcionalidades é o núcleo da criação de modelos e é normalmente complexa e requer conhecimentos de domínio. A estratégia acima pode ser demorada, uma vez que as equipas de ciência de dados precisam de analisar vários produtos de dados. Podem não ter conhecimentos de domínio completos para criar funcionalidades de alta qualidade. A falta de conhecimento de domínio pode levar a esforços duplicados de engenharia de funcionalidades entre equipas de domínio. Também problemas como a reprodutibilidade do modelo de IA/ML devido a conjuntos de funcionalidades inconsistentes entre equipas. As equipas de ciência de dados ou domínio precisam de atualizar continuamente as funcionalidades à medida que são lançadas novas versões de produtos de dados.

Outra estratégia é que as equipas de domínio libertem modelos de IA/ML num formato como Open Neural Network Exchange (ONNX), mas estes resultados são caixas pretas e combinar IA/Modelos ou funcionalidades entre domínios seria difícil.

Existe alguma forma de descentralizar o modelo de IA/ML criado entre equipas de ciência de domínios e dados para enfrentar os desafios? A estratégia de engenharia de funcionalidades ou malha de funcionalidades orientada por domínios proposta é uma opção.

Engenharia de funcionalidades condicionadas por domínio ou malha de funcionalidades

A estratégia de engenharia de funcionalidades ou malha de funcionalidades condicionada pelo domínio oferece uma abordagem descentralizada à criação de modelos de IA/ML numa definição de malha de dados. O diagrama seguinte mostra a estratégia e a forma como aborda os quatro principais princípios da malha de dados.

Diagrama de arquitetura que mostra a estratégia de engenharia de funcionalidades condicionada por domínios e a estratégia de malha de funcionalidades.

Engenharia de funcionalidades de propriedade de domínio por equipas de domínio

Nesta estratégia, a organização emparelha cientistas de dados com engenheiros de dados numa equipa de domínio para executar a exploração de dados em dados limpos e transformados em, por exemplo, num data lake. A engenharia gera funcionalidades que são armazenadas num arquivo de funcionalidades. O arquivo de funcionalidades é um repositório de dados que serve funcionalidades para preparação e inferência e ajuda a controlar a versão das funcionalidades, metadados e estatísticas. Esta capacidade permite que os cientistas de dados na equipa de domínio trabalhem em estreita colaboração com especialistas em domínio e mantenham as funcionalidades atualizadas à medida que os dados mudam no domínio.

Dados como um produto: Conjuntos de funcionalidades

As funcionalidades geradas pela equipa de domínio, referidas como funcionalidades de domínio ou locais, são publicadas no catálogo de dados na plataforma de governação de dados como conjuntos de funcionalidades. Estes conjuntos de funcionalidades podem ser consumidos por equipas de ciência de dados ou outras equipas de domínio para criar modelos de IA/ML. Durante o desenvolvimento de modelos de IA/ML, as equipas de ciência de dados ou domínio podem combinar funcionalidades de domínio para produzir novas funcionalidades, denominadas funcionalidades partilhadas ou globais. Estas funcionalidades partilhadas são publicadas novamente no catálogo de conjuntos de funcionalidades para consumo.

Plataforma de dados personalizada e governação de computação federada: Uniformização e qualidade das funcionalidades

Esta estratégia pode levar à adoção de uma pilha de tecnologia diferente para pipelines de engenharia de funcionalidades e definições de funcionalidades inconsistentes entre equipas de domínio. Os princípios da plataforma de dados self-service garantem que as equipas de domínio estão a utilizar infraestruturas e ferramentas comuns para criar os pipelines de engenharia de funcionalidades e impor o controlo de acesso. O princípio de governação Computacional Federada garante a interoperabilidade dos conjuntos de funcionalidades através da uniformização global e verifica a qualidade das funcionalidades.

A utilização da estratégia de engenharia de funcionalidades ou malha de funcionalidades condicionada por domínios oferece uma abordagem descentralizada de criação de modelos de IA/ML para as organizações ajudarem a reduzir o tempo no desenvolvimento de modelos de IA/ML. Esta estratégia ajuda a manter as funcionalidades consistentes entre as equipas de domínio. Evita a duplicação de esforços e resulta em funcionalidades de alta qualidade para modelos de IA/ML mais precisos, o que aumenta o valor para a empresa.

Implementação da malha de dados no Azure

Este artigo descreve os conceitos relativos à operacionalização da IA/ML numa malha de dados e não abrange ferramentas ou arquiteturas para criar estas estratégias. O Azure tem ofertas de arquivo de funcionalidades, como o arquivo de funcionalidades do Azure Databricks e o Feathr do LinkedIn. Pode desenvolver conectores personalizados do Microsoft Purview para gerir e gerir lojas de funcionalidades.

Passos seguintes