Compartilhar via


Governança de dados com o Azure Databricks

Esta página fornece uma visão geral de como controlar dados usando o Catálogo do Unity no Azure Databricks.

Observação

Esta página se concentra na governança de dados. Os tópicos de segurança relacionados, como o seguinte, são abordados em Segurança e conformidade:

  • Autenticação e controle de acesso
  • Configuração de rede
  • Segurança e criptografia de dados
  • Privacidade e conformidade

O que é Catálogo do Unity?

O Catálogo do Unity é um catálogo de dados centralizado que fornece controle de acesso refinado para dados tabulares e não estruturados em vários formatos em várias plataformas, juntamente com a governança de ativos de IA, como modelos de machine learning. Ele também inclui as ferramentas necessárias para descobrir dados, acompanhar o uso, capturar linhagem e monitorar a qualidade dos dados.

O Catálogo do Unity é de software livre e dá suporte a várias plataformas. Ele é profundamente integrado ao Azure Databricks.

Veja O que é o Catálogo do Unity?.

O modelo de governança de dados do Catálogo do Unity

A governança de dados com o Catálogo do Unity fornece o seguinte:

  • Unificação de dados: uma exibição unificada de todos os dados e ativos de IA, entre plataformas, reduzindo a duplicação e a expansão.
  • Controle de acesso a dados: ferramentas para garantir que os dados sejam fáceis de acessar, mas apenas para os usuários certos.
  • Capacidade de descoberta de dados: ferramentas que facilitam a localização dos dados necessários.
  • Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o ciclo de vida.
  • Colaboração e compartilhamento de dados: a capacidade de compartilhar dados com segurança não apenas dentro de sua organização, mas nos limites organizacionais e de plataforma.
  • Auditoria: ferramentas que capturam quem usa os dados e como.

Esta página explica como sua organização pode atender a essas necessidades usando o Catálogo do Unity no Azure Databricks.

Controle de acesso a dados

Para garantir que os usuários acessem apenas os dados que devem, o Catálogo do Unity fornece um modelo de privilégio hierárquico que permite que você conceda aos usuários, grupos e entidades de serviço acesso a dados e ativos de IA do nível da conta até as linhas e colunas da tabela. Você pode controlar o acesso a ativos armazenados no armazenamento dedicado do Catálogo do Unity ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: a chave é que o Catálogo do Unity oferece aos usuários acesso potencial a todos os seus dados, independentemente de onde estejam, de dentro do Azure Databricks, e que o Catálogo do Unity controla seu acesso e controla o uso de dados.

Tarefa Descrição
Gerenciar privilégios Saiba mais sobre os objetos protegíveis que o Catálogo do Unity gerencia e como controlar o acesso a eles.
Gerenciar o ABAC (controle de acesso baseado em atributo) Saiba como controlar o acesso a dados usando ABAC no Catálogo do Unity.
Gerenciar identidades Saiba como gerenciar identidades no contexto do Catálogo do Unity.
Controle de acesso refinado Saiba como controlar o acesso aos dados da tabela usando filtros de linha e máscaras de coluna.
Gerenciar o acesso a plataformas de dados e armazenamento externo Saiba como controlar o acesso ao armazenamento em nuvem, plataformas de dados externas e serviços externos sem dados usando o Catálogo do Unity.
Gerenciar o acesso de plataformas externas Saiba como o Catálogo do Unity pode gerenciar o acesso aos seus dados de plataformas externas que usam as APIs do Apache Iceberg ou do Catálogo do Unity de software livre.

Capacidade de descoberta de dados

O Azure Databricks e o Catálogo do Unity fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados necessários:

Característica Descrição
Explorador de Catálogos Navegue e pesquise por dados e ativos de IA usando nomes de ativos e metadados, como comentários e tags.
Navegadores de catálogo Localize dados e ativos de IA usando navegadores integrados aos editores de consultas SQL e notebook. Consulte Navegue pelo notebook e editor de arquivos do Databricks e escreva consultas e explore dados no novo editor SQL.
Comentários gerados por IA Gere automaticamente a documentação de dados e ativos de IA para ajudar na descoberta.
Insights da tabela Use uma interface de usuário integrada ao Explorador de Catálogos para visualizar os usuários e consultas mais frequentes de qualquer tabela no Catálogo do Unity.
Linhagem de dados Capture e visualize a maneira como os dados fluem pela sua organização.
Para obter informações sobre recurso e linhagem de modelo, consulte Governança e linhagem de recurso.
Diagramas de relação de entidade (ERD) Exibir relações para tabelas que têm chaves estrangeiras definidas.

Veja também Descobrir dados.

Monitoramento de qualidade de dados

Ferramentas para garantir a qualidade dos dados e a integridade dos dados estão profundamente integradas ao Delta Lake, apache Spark e Azure Databricks. Você pode aprender sobre eles em toda a documentação do Azure Databricks.

O Catálogo do Unity adiciona o seguinte:

Característica Descrição
Monitoramento do Lakehouse Uma ferramenta de monitoramento de dados que captura as propriedades estatísticas e a qualidade dos dados em todas as tabelas em sua conta. Você também pode usá-lo para acompanhar o desempenho de modelos de machine learning e pontos de extremidade que servem modelos monitorando tabelas de inferência que contêm entradas e previsões de modelo.
Marcas de sistema certificadas e preteridas Rotule objetos protegíveis, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas marcas de sistema ajudam as organizações a impor governança, melhorar a descoberta de dados e aumentar a confiança em aplicativos de análise e IA.

Colaboração e compartilhamento de dados

O Catálogo do Unity permite que os usuários colaborem nos mesmos dados em todos os workspaces da sua conta na mesma região. Quando você precisa de colaboração entre regiões de workspace, entre organizações e entre plataformas, o Catálogo do Unity fornece a base para as seguintes ferramentas de compartilhamento.

Característica Descrição
Compartilhamento Delta Uma plataforma de compartilhamento de dados segura que permite compartilhar dados e ativos de IA no Azure Databricks com usuários fora da sua organização, quer esses usuários usem o Databricks ou não.
Salas Limpas Um ambiente gerenciado pelo Databricks em que vários participantes no Databricks e em plataformas que não são do Databricks podem colaborar em projetos sem compartilhar dados subjacentes entre si.
Databricks Marketplace Um fórum aberto para troca de dados e produtos de IA. Ele também fornece uma troca de dados privada.

Auditoria

Os logs de auditoria capturam detalhes refinados sobre quem acessou um determinado conjunto de dados e as ações que eles executaram. O Unity Catalog adiciona tabelas do sistema, a maneira mais fácil de acessar e consultar os logs de auditoria da sua conta.

Consulte Referência de log de diagnóstico e Monitorar a atividade da conta com tabelas do sistema.

Ferramentas de governança de dados herdadas do Azure Databricks

O Azure Databricks também fornece esses recursos de governança herdados. O Databricks recomenda que você use o Catálogo do Unity.

Característica Descrição
Controle de acesso à tabela Um modelo de governança de dados legado que permite conceder e revogar de forma programática o acesso a objetos gerenciados pelo metastore interno do Hive do seu espaço de trabalho.
Passagem de credencial do Azure Data Lake Storage Um recurso de governança de dados legado que permite autenticar automaticamente no Armazenamento do Azure dos clusters do Azure Databricks, usando a mesma identidade do Microsoft Entra ID que você usa para entrar no Azure Databricks.

Próximas etapas