Partilhar via


Governança de dados com o Azure Databricks

A governança de dados é uma estrutura de políticas, processos, funções e controles técnicos que garante que os dados da sua organização sejam seguros, confiáveis e usados de forma responsável durante todo o seu ciclo de vida. A governança de dados eficaz permite manter a qualidade dos dados, proteger informações confidenciais, atender aos requisitos normativos e maximizar o valor de seus ativos de dados.

Os principais componentes da governança de dados incluem:

  • Controle de acesso e segurança: Implementação de permissões refinadas e medidas de segurança para proteger os dados contra acesso não autorizado e, ao mesmo tempo, permitir o uso apropriado.
  • Linhagem e observabilidade de dados: Rastreando fluxos e transformações de dados para entender as origens, dependências e padrões de uso dos dados.
  • Gestão da qualidade dos dados: Garantir que os dados são precisos, completos, consistentes e fiáveis para a tomada de decisões e análises.
  • Gerenciamento de metadados: captura e manutenção de informações sobre ativos de dados para melhorar a capacidade de descoberta e compreensão.
  • Aplicação da conformidade: Atender aos requisitos normativos e às políticas organizacionais de privacidade, retenção e uso de dados.

Esta página se concentra na governança de dados usando o Catálogo Unity no Azure Databricks. Os tópicos de segurança relacionados, como autenticação, configuração de rede, criptografia de dados e conformidade de privacidade, são abordados em Visão geral de segurança e conformidade e conformidade.

O modelo de governança de dados do Unity Catalog

O Unity Catalog é um catálogo de dados centralizado que fornece governança para dados estruturados e não estruturados em vários formatos. Ele oferece controle de acesso refinado e governança de ativos de IA, como modelos de aprendizado de máquina. Unity Catalog é de código aberto e suporta várias plataformas. Ele está profundamente integrado ao Azure Databricks.

O Unity Catalog é uma solução completa de governança de dados que fornece o seguinte:

  • Unificação de dados: uma visão unificada de todos os dados e ativos de IA, entre plataformas, reduzindo a duplicação e a expansão.
  • Controle de acesso a dados: ferramentas para garantir que os dados sejam acessíveis, mas apenas para os usuários certos.
  • Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
  • Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o seu ciclo de vida.
  • Colaboração e compartilhamento de dados: ferramentas para compartilhar dados com segurança não apenas dentro da sua organização, mas através dos limites organizacionais e da plataforma.
  • Auditoria: ferramentas que capturam quem usa os dados e como.

Esta página explica como sua organização pode atender a essas necessidades usando o Unity Catalog no Azure Databricks.

Controlo de acesso aos dados

Para garantir que os usuários acessem apenas os dados que deveriam, o Unity Catalog fornece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso a dados e ativos de IA desde o nível da conta até as linhas e colunas da tabela. Você pode controlar o acesso a ativos armazenados no armazenamento dedicado do Catálogo Unity ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: a chave é que o Unity Catalog dá aos usuários acesso potencial a todos os seus dados, não importa onde estejam, de dentro do Azure Databricks, e que o Unity Catalog controla o acesso deles e rastreia o uso de dados.

Tarefa Descrição
Gerenciar privilégios Saiba mais sobre os objetos protegíveis que o Unity Catalog gerencia e como controlar o acesso a eles.
Gerenciar controle de acesso baseado em atributos (ABAC) Aprenda a controlar o acesso a dados usando ABAC no Unity Catalog.
Gerenciar identidades Saiba como gerenciar identidades no contexto do Unity Catalog.
Controle de acesso refinado Saiba como controlar o acesso aos dados da tabela usando filtros de linha e máscaras de coluna.
Gerencie o acesso a plataformas externas de armazenamento e dados Saiba como controlar o acesso ao armazenamento em nuvem, plataformas de dados externas e serviços externos que não sejam de dados usando o Unity Catalog.
Gerir o acesso a partir de plataformas externas Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog.

Capacidade de descoberta de dados

O Azure Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados de que precisam:

Característica Descrição
Explorador de Catálogos Navegue e pesquise dados e ativos de IA usando nomes de ativos e metadados, como comentários e tags.
Navegadores de catálogo Encontre dados e ativos de IA usando navegadores integrados ao bloco de anotações e aos editores de consultas SQL. Consulte Navegar no bloco de anotações e editor de arquivos Databricks e Escrever consultas e explorar dados no novo editor SQL.
Comentários gerados por IA Gere automaticamente documentação de dados e ativos de IA para ajudar na descoberta.
Informações sobre a tabela Use uma interface do usuário integrada ao Catalog Explorer para exibir os usuários e consultas mais frequentes de qualquer tabela no Unity Catalog.
Linhagem de dados Capture e visualize a forma como os dados fluem através da sua organização.
Para linhagem de funcionalidades e modelos, consulte Governança e linhagem de funcionalidades.
Diagramas de relacionamento de entidade (ERD) Exibir relações para tabelas que têm chaves estrangeiras definidas.

Consulte também Descobrir dados.

Monitorização da qualidade dos dados

As ferramentas para garantir a qualidade e a integridade dos dados estão profundamente integradas no Delta Lake, Apache Spark e Azure Databricks. Você pode aprender sobre eles em toda a documentação do Azure Databricks.

O Unity Catalog adiciona o seguinte:

Característica Descrição
Monitorização da qualidade dos dados O monitoramento da qualidade dos dados ajuda a garantir a qualidade de todos os seus ativos de dados no Unity Catalog. Ele inclui deteção de anomalias para monitorar a qualidade dos dados de todas as tabelas em um catálogo ou esquema e perfil de dados para monitorar as propriedades estatísticas e a qualidade dos dados de uma tabela individual.
Tags de sistema certificadas e obsoletas (Visualização privada) Rotule objetos protegíveis, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a reforçar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança em aplicativos de análise e IA.

Colaboração e partilha de dados

O Unity Catalog permite que seus usuários colaborem nos mesmos dados em todos os espaços de trabalho da sua conta na mesma região. Quando você precisa de colaboração entre regiões de espaço de trabalho, entre organizações e entre plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.

Característica Descrição
Compartilhamento Delta Uma plataforma segura de partilha de dados que lhe permite partilhar dados e ativos de IA no Azure Databricks com utilizadores fora da sua organização, quer esses utilizadores utilizem ou não o Databricks.
Salas Limpas Um ambiente gerenciado por Databricks onde vários participantes em plataformas Databricks e não-Databricks podem colaborar em projetos sem compartilhar dados subjacentes uns com os outros.
Mercado Databricks Um fórum aberto para o intercâmbio de dados e produtos de IA. Proporciona igualmente um intercâmbio privado de dados.

Auditoria

Os logs de auditoria capturam detalhes refinados sobre quem acessou um determinado conjunto de dados e as ações executadas. O Unity Catalog adiciona tabelas do sistema, a maneira mais fácil de acessar e consultar os logs de auditoria da sua conta.

Consulte Referência de log de diagnóstico e Monitorizar a atividade da conta utilizando tabelas do sistema.

Ferramentas de governança de dados herdadas do Azure Databricks

O Azure Databricks também fornece esses recursos de governança herdados. O Databricks recomenda que você use o Unity Catalog em vez disso.

Característica Descrição
Controle de acesso a tabelas Um modelo de governança de dados herdado que permite conceder e revogar programaticamente o acesso a objetos gerenciados pelo metastore Hive interno do seu espaço de trabalho.
Passagem de credenciais do Azure Data Lake Storage Um recurso de governança de dados herdado que permite autenticar automaticamente no Armazenamento do Azure a partir de clusters do Azure Databricks usando a mesma identidade de ID do Microsoft Entra que você usa para fazer logon no Azure Databricks.

Próximos passos