Produtos de dados de análise à escala da cloud no Azure

Os produtos de dados são dados servidos como produtos e calculados, guardados e servidos por serviços de persistência poliglota, que podem ser exigidos por determinados casos de utilização. O processo de criação e entrega de um produto de dados pode exigir serviços e tecnologias que não estão incluídos nos serviços principais da zona de destino de dados . Um exemplo disto seria comunicar com requisitos de nicho, como conformidade e relatórios fiscais.

Considerações de design

Uma zona de destino de dados pode ser servida com vários produtos de dados criados ao ingerir dados a partir da mesma zona de destino de dados ou de várias zonas de destino de dados. Isto é apresentado no diagrama seguinte.

Diagrama do consumo entre zonas de destino de dados.

O exemplo acima mostra:

  • Consumo de dados intrazona:
    • O produto de dados B consome dados do produto de dados A e de outros dados ou produtos de dados existentes no data lake na sua própria zona de destino.
    • Os produtos de dados C e D consomem apenas dados a partir das respetivas zonas de destino de dados.
  • Consumo de dados entre zonas:
    • O produto de dados B também consome dados do produto de dados C e dos dados no data lake da zona de destino 3.

Importante

No caso do consumo de dados entre zonas, uma vez que o produto de dados B é criado através da leitura a partir da zona de destino de dados 3, este acesso de leitura requer a aprovação das operações de zona de destino de dados e das equipas de operações de integração da zona de destino de dados 3.

Importante

O produto de dados B consome dados dos produtos de dados A e C. Antes de tal acontecer, o produto de dados B tem de registar o seu consumo de produtos de dados através de contratos de partilha de dados. Este contrato de partilha de dados deve atualizar a linhagem do produto de dados A para o produto de dados B e do produto de dados C para o produto de dados B.

O grupo de recursos de um produto de dados inclui todos os serviços necessários para criá-lo e mantê-lo. Podemos chamar a este grupo de recursos uma aplicação de dados. Exemplos de serviços que podem fazer parte de uma aplicação de dados incluem Funções do Azure, Serviço de Aplicações do Azure, Logic Apps, Azure Analysis Services, Serviços Cognitivos do Azure, Azure Machine Learning, Base de Dados SQL do Azure, Base de Dados do Azure para MySQL e Azure Cosmos DB. Para obter mais informações, veja Exemplos de aplicações de dados.

Os produtos de dados têm dados de origens de dados READ que tiveram algumas transformações de dados aplicadas. Os exemplos podem ser um conjunto de dados recentemente organizado ou um relatório de BI.

Recomendações de conceção

Crie produtos de dados na zona de destino de dados ao aderir a princípios de design que lhe permitem dimensionar com a governação de dados. As secções seguintes fornecem recomendações de conceção para ajudar à medida que planeia o ecossistema da aplicação de dados.

Implementar vários grupos de recursos

Cada aplicação de dados é um grupo de recursos. Uma vez que as aplicações de dados são serviços de computação, serviços de persistência poliglota ou ambos, só podem ser necessários dependendo de determinados casos de utilização. Como tal, são considerados um componente opcional da zona de destino de dados. Num caso em que precisa de aplicações de dados, crie vários grupos de recursos por aplicação de dados, conforme mostra o diagrama seguinte.

Diagrama de grupos de recursos de aplicações de dados.

Definir proteções

Azure Policy impulsiona a configuração predefinida dos serviços numa zona de destino de dados. Pense na análise operacional como vários grupos de recursos que a sua equipa de produtos de dados pode pedir a partir de um catálogo de serviços padrão. Ao utilizar Azure Policy, pode configurar o limite de segurança e o conjunto de funcionalidades necessário.

Importante

Para impulsionar a consistência, configure uma Azure Policy para cada aplicação de dados.

Consumir dados de vários locais

As aplicações de dados gerem, organizam e fazem sentido dos dados de vários recursos de dados e apresentam quaisquer informações obtidas. Um produto de dados é o resultado de dados de uma ou muitas aplicações de dados dentro de zonas de destino de dados. Permitir que as aplicações de dados acedam a dados de várias e várias origens quando necessário.

Dimensionar conforme necessário

Os serviços que compõem aplicações de dados são implementações incrementais na zona de destino de dados. Dimensione as aplicações de dados conforme necessário.

Ativar a deteção de dados

Registe automaticamente os seus produtos de dados num catálogo de dados, como o Azure Purview , para permitir a análise de dados.

Identificar os seus produtos de dados

Ao começar a planear uma zona de destino de dados, identifique o número de produtos de dados (e as aplicações de dados que os produzem e mantêm) conforme necessário para ajudar a impulsionar a arquitetura da aplicação de produtos de dados. A conformidade com a governação da plataforma implementada deve desempenhar o maior papel nas suas decisões.

Concentre-se na forma como as suas aplicações de dados são produtores de dados e consumidores para outras pessoas. Por exemplo, suponha que identificou um conjunto de produtos de dados (A, B, C e D) que são produzidos e consumidos. Precisa dos produtos de dados A e D como origens para os dados na Aplicação de Dados B para o produto de dados B. O produto de dados B é criado a partir dos dados que a Aplicação de Dados B consome a partir dos produtos de dados A e D. A Aplicação de Dados B atua como um produtor de dados propriamente dito e também produz dados para o produto de dados C.

Diagrama de um produtor de dados e consumidores.

Controlar o ambiente da aplicação de dados com a infraestrutura como código

A governação e a infraestrutura como código devem controlar o ambiente da aplicação de dados no ecossistema dos seus produtos de dados, conforme mostrado no diagrama anterior.

Publicar modelos de dados

As equipas de produtos de dados devem publicar os modelos de dados num repositório de modelação.

Definir expectativas para os utilizadores de produtos de dados

Atualize os seus contratos de partilha de dados com contratos de nível de serviço e certificações para os seus produtos de dados, para que possa transmitir expectativas exatas aos potenciais utilizadores do produto de dados.

Capturar linhagem

Se o produto de dados B for criado a partir de dados provenientes dos produtos de dados A e D, a linhagem tem de ser capturada de A e D para B. Também deve ser capturada mais linhagem para o produto de dados C, uma vez que é criada com dados do produto de dados B. A linhagem atualizada deve ser capturada numa aplicação de linhagem de dados antes de cada versão do seu produto de dados.

Nota

A utilização dos Pipelines do Azure permite-lhe criar portas de aprovação e invocar funções que podem garantir que os metadados, a linhagem e os SLAs estão registados no serviço de governação correto.

Definir a arquitetura da aplicação de dados

Tem de criar uma arquitetura detalhada para cada produto de dados que defina totalmente a sua relação com outros produtos de dados, as respetivas dependências e os respetivos requisitos de acesso.

Cenário de estrutura de exemplo

Para compreender o processo de definição de arquitetura, explore o seguinte exemplo de uma instituição financeira e do respetivo produto de dados de monitorização de crédito.

Diagrama da arquitetura define-data-product em detalhe.

O produto de dados de monitorização de crédito apresentado neste diagrama consome dados de um arquivo de dados de leitura que foi ingerido pela equipa de operações de integração. Produz produtos de dados também consumidos por outros dois produtos de dados.

Nota

Uma origem ou arquivo de dados de leitura também é conhecido como uma origem de registo dourada. Estas origens de dados foram limpas, mas não tiveram transformações aplicadas às mesmas.

A equipa de produtos de dados de monitorização de crédito pede acesso de leitura aos arquivos de dados de que precisam para a criação do produto de dados. Os respetivos pedidos são encaminhados para os proprietários dos dados para aprovação. Assim que receberem a aprovação, a equipa de produtos pode começar a criar a respetiva aplicação de dados.

Os dados da origem de dados de leitura são transformados nos produtos de dados de monitorização de crédito. Todos os novos produtos de dados são armazenados na camada organizada do data lake. Estes novos produtos de dados e a nova linhagem de dados devem ser registados como parte do processo de implementação do DevOps. Uma função pode verificar os metadados registados com a estrutura física do recurso de dados. Deve registar a dependência nos recursos de dados de origem de dados de leitura e nos produtos de dados.

A equipa de produtos de dados de aprovação de empréstimos tem uma dependência em alguns dos produtos de dados de monitorização de crédito. A equipa de aprovação de empréstimos pode pedir acesso de leitura aos produtos de dados de monitorização de crédito de que necessitam para os respetivos produtos de dados. Assim que lançarem o produto de dados de aprovação de empréstimos e a respetiva aplicação de dados, todos os recursos, linhagem e modelos de produtos de dados devem ser registados nos serviços de governação relevantes.

Aplicações de dados de exemplo

As secções seguintes contêm aplicações de dados de exemplo para ilustrar ainda mais os cenários da aplicação de dados.

Análise de dados e aplicação de dados de ciência de dados

Uma aplicação para análise de dados e ciência de dados pode conter os serviços apresentados na aplicação product-analytics-rgde dados de exemplo .

Diagrama que mostra possíveis serviços que podem ser selecionados para Implementação de Aplicações de Dados de Análise.

Nota

A aplicação de dados acima está disponível como um modelo, que implementa um conjunto de serviços que pode utilizar para análise de dados e ciência de dados. Como todos os nossos modelos, este modelo de aplicação de produto de dados é um esquema que pode utilizar para criar rapidamente ambientes para equipas multifuncionais. Todos os serviços de que não necessita têm de ser explicitamente desativados.

O modelo Data Product Analytics contém todos os modelos para implementar um produto de dados para análise e ciência de dados dentro de uma zona de destino de dados de cenários de análise à escala da cloud.

Os artefactos de implementação e código incluem os seguintes serviços:

Aplicação de Dados do Batch

O modelo da Aplicação de Dados do Batch contém todos os modelos para implementar um produto de dados para processamento de dados em lote dentro de uma zona de destino de dados de cenários de análise à escala da cloud.

Os artefactos de implementação e código incluem os seguintes serviços:

Diagrama que mostra possíveis serviços que podem ser selecionados para Implementação de Aplicações de Dados do Batch.

Aplicação de Dados de Transmissão em Fluxo

O modelo da Aplicação de Dados de Transmissão em Fluxo contém todos os modelos para implementar um produto de dados para processamento de dados em tempo real dentro de uma zona de destino de dados do cenário de análise à escala da cloud

Os artefactos de implementação e código incluem os seguintes serviços:

Diagrama que mostra possíveis serviços que podem ser selecionados para Implementação de Aplicações de Dados de Transmissão em Fluxo.

Para localizar os repositórios que contêm os modelos de implementação mencionados anteriormente, veja modelos de implementação para análise à escala da cloud

Passos seguintes

Aplicações de dados (alinhadas com a origem)