Qualidade dos dados das bases de dados do Catálogo do Unity do Databricks
Artigo
Para utilizar o Catálogo do Unity, a área de trabalho do Azure Databricks tem de estar ativada para o Catálogo do Unity, o que significa que a área de trabalho está anexada a um metastore do Catálogo unity. Todas as novas áreas de trabalho são ativadas para o Catálogo do Unity automaticamente após a criação, mas as áreas de trabalho mais antigas podem exigir que um administrador de conta ative manualmente o Catálogo do Unity. Se a área de trabalho foi ou não ativada automaticamente para o Catálogo do Unity, também são necessários os seguintes passos para começar a utilizar o Catálogo do Unity:
Crie catálogos e esquemas para conter objetos de base de dados, como tabelas e volumes.
Crie localizações de armazenamento geridas para armazenar as tabelas e volumes geridos nestes catálogos e esquemas.
Conceda acesso de utilizador a catálogos, esquemas e objetos de base de dados.
As áreas de trabalho que são ativadas automaticamente para o Catálogo do Unity aprovisionam um catálogo de áreas de trabalho com privilégios amplos concedidos a todos os utilizadores da área de trabalho. Este catálogo é um ponto de partida conveniente para experimentar o Catálogo do Unity.
Ao analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview suporta:
Metastore
Catálogos
Esquemas
Tabelas, incluindo as colunas
Vistas, incluindo as colunas
Ao configurar a análise, pode optar por analisar todo o Catálogo do Unity ou definir o âmbito da análise para um subconjunto de catálogos.
Configurar a análise do Mapa de Dados para catalogar dados do Catálogo Do Unity do Databricks no Microsoft Purview
Registar uma área de trabalho do Azure Databricks no Microsoft Purview
Analisar a área de trabalho do Azure Databricks registada
Introduza o nome da análise
Selecione o catálogo unity como método de extração
Ligar através do runtime de integração (runtime de integração do Azure, IR da VNet Gerida ou um runtime de integração autoalojado suportado pelo Kubernetes que criou)
Especifique o caminho HTTP do Databricks SQL Warehouse ao qual o Microsoft Purview se irá ligar e executar a análise
Na página Âmbito da análise, selecione os catálogos que pretende analisar.
Selecione um conjunto de regras de análise para classificação. Pode escolher entre a predefinição do sistema, os conjuntos de regras personalizadas existentes ou criar um novo conjunto de regras inline. Consulte o artigo Classificação para saber mais.
Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.
Reveja a análise e selecione Guardar e Executar.
Veja as análises e a execução da análise para concluir a catalogação dos seus dados.
Depois de analisado, o recurso de dados no Catálogo unity (UC) estará disponível na Catálogo unificado do Microsoft Purview pesquisa. Para obter mais detalhes sobre como ligar e gerir o Catálogo do Unity do Azure Databricks no Microsoft Purview, siga este documento.
Importante
Selecione Autenticação de Token de Acesso ao criar uma credencial.
Coloque o Token de Acesso no Azure alojado Key Vault e ligue o cofre de chaves ao gestor de ligações.
Certifique-se de que fornece acesso de leitura (secreta) do MSI (serviço) ao Key Vault.
Configurar a ligação à UC do Databricks para análise da qualidade dos dados
Neste momento, temos o recurso analisado pronto para catalogação e governação. Associe o recurso analisado ao Produto de Dados numa Seleção de Domínio de Governação. No Separador Qualidade dos Dados, adicione um novo SQL do Azure Ligação à Base de Dados: Introduza manualmente o Nome da Base de Dados.
Selecione o separador Gestão de Domínio > de Governação de qualidade > de dados para criar ligação.
Configure a ligação na página de ligação.
Adicionar nome e descrição da ligação
selecionar o tipo de origem Azure Databricks
selecionar URL da área de trabalho
selecione Catálogo do Unity como método de extração
selecionar caminho HTTP
selecionar o nome do catálogo do unity
selecionar o nome do esquema
selecionar nome da tabela
selecionar método de autenticação – Token de Acesso
Adicionar subscrição do Azure
Ligação ao cofre de chaves
nome do segredo
secret version
Testar ligação
Importante
Os responsáveis pela qualidade dos dados precisam de acesso só de leitura ao Catálogo unity dos databrics do Azure para configurar a ligação de qualidade dos dados.
A vNet ainda não é suportada.
Análise da criação de perfis e qualidade dos dados nas bases de dados do Catálogo unity do Azure Databricks.
Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de DQ dos seus dados nas bases de dados do Catálogo Unity do Azure Databricks. Siga a orientação passo a passo descrita nos documentos abaixo:
Este módulo de treinamento fornece orientações sobre como compilar uma pilha de governança de dados e gerenciamento de dados mestre completo de ponta a ponta com o Microsoft Purview e o CluedIn. Ele inclui o desenvolvimento de registros de histórico, eliminação de duplicação, linhagem de dados e estratégias de qualidade de dados.
Administrar uma infraestrutura de banco de dados do SQL Server para bancos de dados relacionais de nuvem, locais e híbridos usando as ofertas de banco de dados relacional do Microsoft PaaS.