Governança de dados com o Unity Catalog

Este guia mostra como gerenciar dados e acesso a objetos de IA no Azure Databricks. Para obter informações sobre a segurança do Azure Databricks, consulte o Guia de segurança. O Azure Databricks fornece governança centralizada para dados e IA com o Unity Catalog e o Delta Sharing.

Centralize o controle de acesso usando o Unity Catalog

O Unity Catalog é uma solução de governança refinada para dados e IA na plataforma Databricks. Ele ajuda a simplificar a segurança e a governança de seus dados e ativos de IA, fornecendo um local central para administrar e auditar o acesso a dados e ativos de IA.

Na maioria das contas, o Unity Catalog é ativado por padrão quando você cria um espaço de trabalho. Para obter detalhes, consulte Ativação automática do catálogo Unity.

Para obter uma discussão sobre como usar o Unity Catalog de forma eficaz, consulte as práticas recomendadas do Unity Catalog.

Rastreie a linhagem de dados usando o Unity Catalog

Você pode usar o Catálogo Unity para capturar linhagem de dados de tempo de execução em consultas em qualquer linguagem executada em um cluster do Azure Databricks ou armazém SQL. A linhagem é capturada até o nível da coluna e inclui blocos de anotações, fluxos de trabalho e painéis relacionados à consulta. Para saber mais, consulte Capturar e visualizar linhagem de dados usando o Catálogo Unity.

Descobrir dados usando o Catalog Explorer

O Databricks Catalog Explorer fornece uma interface do usuário para explorar e gerenciar dados e ativos de IA, incluindo esquemas (bancos de dados), tabelas, volumes (dados não tabulares) e modelos de ML registrados, juntamente com permissões de ativos, proprietários de dados, locais externos e credenciais. Você pode usar a guia Insights no Catalog Explorer para exibir as consultas recentes mais frequentes e os usuários de qualquer tabela registrada no Unity Catalog.

Compartilhar dados usando o Delta Sharing

O Delta Sharing é um protocolo aberto desenvolvido pela Databricks para o compartilhamento seguro de dados e ativos de IA com outras organizações ou com outras equipes dentro de sua organização, independentemente de quais plataformas de computação elas usam.

Configurar log de auditoria

O Databricks fornece acesso a logs de auditoria de atividades realizadas por usuários do Databricks, permitindo que sua empresa monitore padrões detalhados de uso do Databricks.

O Unity Catalog permite que você acesse e consulte facilmente os dados operacionais da sua conta, incluindo logs de auditoria, uso faturável e linhagem usando tabelas do sistema (Visualização pública).

Configurar identidade

Toda boa história de governança de dados começa com uma forte base de identidade. Para saber como configurar melhor a identidade no Azure Databricks, consulte Práticas recomendadas de identidade.

Soluções de governança de dados legadas

O Azure Databricks também fornece estes modelos de governança herdados:

  • O controle de acesso à tabela é um modelo de governança de dados herdado que permite conceder e revogar programaticamente o acesso a objetos gerenciados pelo metastore Hive interno do seu espaço de trabalho. O Databricks recomenda que você use o Unity Catalog em vez do controle de acesso à tabela. O Unity Catalog simplifica a segurança e a governação dos seus dados ao fornecer um local central para administrar e auditar o acesso aos dados em várias áreas de trabalho na sua conta.

  • A passagem de credenciais do Armazenamento do Azure Data Lake (legado) também é um recurso de governança de dados herdado que permite autenticar automaticamente no Armazenamento do Azure a partir de clusters do Azure Databricks usando a mesma identidade do Microsoft Entra ID (anteriormente Azure Ative Directory) que você usa para fazer logon no Azure Databricks. O Databricks recomenda que você use o Unity Catalog em vez disso.