Compartilhar via


Conecte-se ao armazenamento e serviços de objetos na nuvem usando o Catálogo do Unity

Este artigo fornece uma visão geral das conexões de armazenamento em nuvem necessárias para trabalhar com dados usando o Catálogo do Unity, juntamente com informações sobre como o Catálogo do Unity controla o acesso ao armazenamento em nuvem e aos serviços de nuvem externos.

Observação

Se o workspace tiver sido criado antes de 9 de novembro de 2023, ele poderá não estar habilitado para o Catálogo do Unity. Um administrador de conta deve habilitar o Catálogo do Unity para seu workspace. Consulte Habilitar um workspace para o Catálogo do Unity.

Como o Catálogo do Unity usa o armazenamento em nuvem?

O Databricks recomenda usar o Catálogo do Unity para gerenciar o acesso a todos os dados armazenados no armazenamento de objetos na nuvem. O Catálogo do Unity fornece um conjunto de ferramentas para configurar conexões seguras com o armazenamento de objetos na nuvem. Essas conexões fornecem acesso para concluir as seguintes ações:

  • Ingerir dados brutos em um lakehouse.
  • Crie e leia tabelas gerenciadas e volumes gerenciados de dados não estruturados no armazenamento em nuvem gerenciado pelo Catálogo do Unity.
  • Registre ou crie tabelas externas contendo dados tabulares e volumes externos contendo dados não estruturados no armazenamento em nuvem gerenciado usando seu provedor de nuvem.
  • Ler e gravar dados não estruturados (como volumes do Catálogo do Unity).

Para ser mais específico, o Catálogo do Unity usa o armazenamento em nuvem de duas maneiras principais:

  • Locais de armazenamento padrão (ou "gerenciados") para tabelas gerenciadas e volumes gerenciados (dados não estruturados e não tabulares) que você cria no Databricks. Esses locais de armazenamento gerenciado podem ser definidos no nível do metastore, do catálogo ou do esquema. Você cria locais de armazenamento gerenciados em seu provedor de nuvem, mas seu ciclo de vida é totalmente gerenciado pelo Catálogo do Unity.
  • Locais de armazenamento onde tabelas e volumes externos são armazenados. Essas são tabelas e volumes cujo acesso do Azure Databricks é gerenciado pelo Catálogo do Unity, mas cujo ciclo de vida de dados e layout de arquivo são gerenciados usando seu provedor de nuvem e outras plataformas de dados. Normalmente, você usa tabelas externas para registrar grandes quantidades de seus dados existentes no Azure Databricks ou se também precisar de acesso de gravação aos dados usando ferramentas fora do Azure Databricks.

Para obter mais informações sobre tabelas e volumes gerenciados versus externos, consulte O que são tabelas e exibições? e O que são volumes do Catálogo do Unity?.

Aviso

Não dê aos usuários finais acesso no nível de armazenamento a tabelas ou volumes gerenciados pelo Catálogo do Unity. Isso compromete a segurança e a governança dos dados.

Conceder aos usuários o acesso direto no nível de armazenamento ao armazenamento de localização externa no Azure Data Lake Storage Gen2 não respeita nenhuma permissão concedida ou auditorias mantidas pelo Catálogo do Unity. O acesso direto ignorará os recursos de auditoria, linhagem e outros recursos de segurança e monitoramento do Catálogo do Unity, incluindo controle e permissões de acesso. Você é responsável por gerenciar o acesso direto ao armazenamento por meio do Azure Data Lake Storage Gen2 e garantir que os usuários tenham as permissões apropriadas concedidas por meio do Fabric.

Evite todos os cenários que concedem acesso direto de gravação em nível de armazenamento para buckets que armazenam tabelas gerenciadas pelo Databricks. Modificar, excluir ou evoluir objetos que foram originalmente gerenciados pelo Catálogo do Unity diretamente por meio do armazenamento pode resultar em corrupção de dados.

Quais provedores de armazenamento em nuvem são compatíveis?

O Azure Databricks dá suporte aos contêineres do Azure Data Lake Storage Gen2 e aos buckets do Cloudflare R2 como locais de armazenamento em nuvem para dados e ativos de IA registrados no Catálogo do Unity. O R2 destina-se principalmente a casos de uso em que você deseja evitar taxas de saída de dados, como o Compartilhamento Delta entre nuvens e regiões. Para obter mais informações, confira Usar réplicas do Cloudflare R2 ou migrar o armazenamento para o R2.

Como o Catálogo do Unity controla o acesso ao armazenamento em nuvem?

Para gerenciar o acesso ao armazenamento em nuvem subjacente que contém tabelas e volumes, o Catálogo do Unity usa um objeto protegível chamado local externo, que define um caminho para um local de armazenamento em nuvem e as credenciais necessárias para acessar esse local. Essas credenciais são, por sua vez, definidas em um objeto protegível do Catálogo do Unity chamado credencial de armazenamento. Ao conceder e revogar o acesso a protegíveis de localização externa no Catálogo do Unity, você controla o acesso aos dados no local de armazenamento em nuvem. Ao conceder e revogar o acesso a protegíveis de credenciais de armazenamento no Catálogo do Unity, você controla a capacidade de criar objetos de localização externos.

Para obter detalhes, consulte Gerenciar o acesso ao armazenamento em nuvem usando o Catálogo do Unity.

Acesso baseado em caminho ao armazenamento em nuvem

Embora o Catálogo do Unity dê suporte ao acesso baseado em caminho a tabelas externas e volumes externos usando URIs de armazenamento em nuvem, o Databricks recomenda que os usuários leiam e gravem todas as tabelas do Catálogo do Unity usando nomes de tabela e acessem dados em volumes usando /Volumes caminhos. Volumes são o objeto protegível que a maioria dos usuários do Azure Databricks deve usar para interagir diretamente com dados não tabulares no armazenamento de objetos na nuvem. Confira O que são os volumes do Catálogo do Unity?.

Melhores práticas para armazenamento em nuvem com o Catálogo do Unity

O Azure Databricks requer o uso do Azure Data Lake Storage Gen2 como o serviço de armazenamento do Azure para dados processados no Azure Databricks usando a governança do Catálogo do Unity. O Azure Data Lake Storage Gen2 permite que você separe os custos de armazenamento e computação e usufrua do controle de acesso refinado fornecido pelo Catálogo do Unity. Se os dados forem armazenados no OneLake (o data lake do Microsoft Fabric) e processados pelo Databricks (ignorando o Catálogo do Unity), você incorrerá em custos de armazenamento e computação agrupados. Isso pode levar a custos aproximadamente 3 vezes maiores para leituras e 1,6 vez maior para gravações, em comparação com o Azure Data Lake Storage Gen2 para armazenamento, leitura e gravação de dados. O Armazenamento de Blobs do Azure também é incompatível com o Catálogo do Unity.

Recurso Armazenamento de Blobs do Azure Azure Data Lake Storage Gen2 OneLake
Com suporte do Catálogo do Unity X X
Requer aquisição adicional de capacidade do Fabric X X
Operações suportadas de mecanismos externos - Ler
- Gravar
- Ler
- Gravar
- Leitura (as leituras incorrem em 3 vezes o custo em comparação com a leitura de dados do Azure Data Lake Storage Gen2).
- Não há suporte para gravações.

Para obter detalhes, confira a documentação do OneLake.
Implantação Regional Regional Global
Autenticação Assinatura de Acesso Compartilhado do Entra ID Assinatura de Acesso Compartilhado do Entra ID Entra ID
Eventos de armazenamento X
Exclusão reversível
Controle de acesso RBAC RBAC, ABAC, ACL RBAC (somente tabela/pasta, ACLs de atalho não compatíveis)
Chaves de criptografia X
Níveis de acesso Arquivo Morto Online Frequente, esporádico, frio, arquivos Somente frequente

Como o Catálogo do Unity controla o acesso a outros serviços de nuvem?

O Catálogo do Unity controla o acesso a serviços que não são de armazenamento usando um objeto protegível chamado credencial de serviço. Uma credencial de serviço encapsula uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo ao qual os usuários precisam se conectar do Azure Databricks.

As credenciais de serviço não se destinam a controlar o acesso ao armazenamento em nuvem usado como um local de armazenamento gerenciado do Catálogo do Unity ou local de armazenamento externo. Para esses casos de uso, use uma credencial de armazenamento, conforme descrito em Como o Catálogo do Unity controla o acesso ao armazenamento em nuvem?.

Para obter detalhes, confira:

Próximas etapas

Se você está apenas começando a usar o Catálogo do Unity como administrador, confira:

Se você for um novo usuário e seu workspace já estiver habilitado para o Catálogo do Unity, consulte:

Para saber mais sobre como gerenciar o acesso ao armazenamento em nuvem, consulte:

Para saber mais sobre como gerenciar o acesso a serviços de nuvem, consulte: