Conectar-se ao armazenamento de objetos de nuvem usando o Catálogo do Unity

Este artigo apresenta uma visão geral das configurações de conexão de armazenamento em nuvem necessárias para trabalhar com dados usando o Catálogo do Unity.

O Databricks recomenda o uso do Catálogo do Unity para gerenciar o acesso a todos os dados armazenados no armazenamento de objetos na nuvem. O Catálogo do Unity fornece um conjunto de ferramentas para configurar conexões seguras com o armazenamento de objetos na nuvem. Essas conexões fornecem acesso para concluir as seguintes ações:

  • Ingerir dados brutos em um lakehouse.
  • Criar e ler tabelas gerenciadas no armazenamento em nuvem seguro.
  • Registrar ou criar tabelas externas contendo dados tabulares.
  • Ler e gravar dados não estruturados.

Observação

Se o workspace tiver sido criado antes de 9 de novembro de 2023, ele poderá não estar habilitado para o Catálogo do Unity. Um administrador de conta deve habilitar o Catálogo do Unity para seu workspace. Consulte Habilitar um workspace para o Catálogo do Unity.

Como o Catálogo do Unity se conecta ao armazenamento de objetos ao Azure Databricks?

O Azure Databricks dá suporte aos contêineres do Azure Data Lake Storage Gen2 e aos buckets do Cloudflare R2 (Visualização Pública) como locais de armazenamento em nuvem para dados e ativos de IA registrados no Catálogo do Unity. O R2 destina-se principalmente a casos de uso em que você deseja evitar taxas de saída de dados, como o Compartilhamento Delta entre nuvens e regiões. Para obter mais informações, confira Usar réplicas do Cloudflare R2 ou migrar o armazenamento para o R2.

Para gerenciar o acesso ao armazenamento em nuvem subjacente que contém tabelas e volumes, o Catálogo do Unity usa os seguintes tipos de objetos:

  • Uma credencial de armazenamento representa um mecanismo de autenticação e autorização para acessar dados armazenados em seu locatário de nuvem, usando uma identidade gerenciada do Azure para contêineres do Azure Data Lake Storage Gen2 ou um token de API R2 para buckets do Cloudflare R2. Cada credencial de armazenamento está sujeita às políticas de controle de acesso do Catálogo do Unity que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a uma credencial de armazenamento no catálogo do Unity, a solicitação falhará e o catálogo do Unity não tentará se autenticar ao seu locatário de nuvem em nome do usuário. A permissão para criar credenciais de armazenamento só deve ser concedida a usuários que precisam definir locais externos. Consulte Criar uma credencial de armazenamento para se conectar ao Azure Data Lake Storage Gen2 e Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.

  • Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem. Cada credencial de armazenamento está sujeita a políticas de controle de acesso do Catálogo do Unity que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a uma credencial de armazenamento no catálogo do Unity, a solicitação falhará e o catálogo do Unity não tentará se autenticar ao seu locatário de nuvem em nome do usuário. A permissão para criar e usar locais externos só deve ser concedida aos usuários que precisam criar tabelas externas, volumes externos ou locais de armazenamento gerenciado. Consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.

    Os locais externos são usados tanto para ativos de dados externos, como tabelas externas e volumes externos, quanto para ativos de dados gerenciados, como tabelas gerenciadas e volumes gerenciados. Para obter mais informações sobre a diferença, confira Tabelas e Volumes.

    Quando um local externo é usado para armazenar tabelas gerenciadas e volumes gerenciados, ele é chamado de local de armazenamento gerenciado. Os locais de armazenamento gerenciados podem existir no nível do metastore, do catálogo ou do esquema. O Databricks recomenda a configuração de locais de armazenamento gerenciado no nível do catálogo. Se você precisar de um isolamento mais granular, poderá especificar locais de armazenamento gerenciado no nível do esquema. Os espaços de trabalho habilitados para o Catálogo do Unity automaticamente não têm armazenamento no nível do metastore por padrão, mas você pode especificar um local de armazenamento gerenciado no nível do metastore para fornecer armazenamento padrão quando nenhum armazenamento no nível do catálogo for definido. Os espaços de trabalho habilitados para o Catálogo do Unity recebem manualmente um local de armazenamento gerenciado no nível do metastore por padrão. Consulte Especificar um local de armazenamento gerenciado no Catálogo do Unity e Práticas recomendadas do Catálogo do Unity.

Volumes são o objeto protegível que a maioria dos usuários do Azure Databricks deve usar para interagir diretamente com dados não tabulares no armazenamento de objetos na nuvem. Consulte Criar e trabalhar com volumes.

Observação

Embora o Catálogo do Unity dê suporte para o acesso baseado em caminhos a tabelas externas e volumes externos usando URIs de armazenamento em nuvem, o Databricks recomenda que os usuários leiam e gravem todas as tabelas do Catálogo do Unity usando nomes de tabelas e acessem dados em volumes usando caminhos /Volumes.

Próximas etapas

Se você estiver apenas começando a usar o Catálogo do Unity como administrador, consulte Configurar e gerenciar o Catálogo do Unity.

Se você for um novo usuário e seu workspace já estiver habilitado para o Catálogo do Unity, consulte Tutorial: Criar sua primeira tabela e conceder privilégios no Catálogo do Unity.