Partilhar via


Atualizar um espaço de trabalho do Azure Databricks para o Unity Catalog

Esta página fornece uma visão geral de como atualizar um espaço de trabalho que não seja do Catálogo Unity para o Catálogo Unity. Ele também fornece instruções para migrar do metastore Hive localizado no espaço de trabalho antigo.

Visão geral das etapas de atualização

Para atualizar para o Catálogo Unity, você deve:

  1. Provisione identidades (usuários, grupos e entidades de serviço) diretamente para sua conta do Azure Databricks, se você ainda não estiver fazendo isso. Desative qualquer provisionamento de identidade no nível do espaço de trabalho.
  2. Converta quaisquer grupos locais de espaço de trabalho em grupos no nível da conta. O Unity Catalog centraliza o gerenciamento de identidades no nível da conta.
  3. Anexe o espaço de trabalho a um metastore do Unity Catalog. Se não existir um metastore para a região do espaço de trabalho, um administrador de conta deverá criar um.
  4. Atualize tabelas e exibições gerenciadas no metastore do Hive para o Unity Catalog.
  5. Conceda aos usuários, grupos ou entidades de serviço no nível da conta acesso às tabelas atualizadas.
  6. Atualize consultas e trabalhos para fazer referência às novas tabelas do Catálogo Unity em vez das antigas tabelas de metastore do Hive.
  7. Desative o metastore do Hive. Consulte Desabilitar o acesso ao metastore do Hive usado pelo seu espaço de trabalho do Azure Databricks.

UCX, um projeto do Databricks Labs, fornece ferramentas que ajudam você a atualizar seu espaço de trabalho que não é do Unity-Catalog para o Unity Catalog. O UCX é uma boa opção para migrações de maior escala. Veja Utilize os utilitários UCX para atualizar o seu ambiente de trabalho para o Catálogo Unity.

Antes de começar

Antes de começar, você deve se familiarizar com os conceitos básicos do Catálogo Unity, incluindo metastores e armazenamento gerenciado. Veja O que é o Unity Catalog?.

Você também deve confirmar que atende aos seguintes requisitos:

  • Para a maioria das etapas de configuração, você deve ser um administrador de conta do Azure Databricks. Para qualquer tarefa a seguir para a qual existam outros requisitos de permissão, eles são listados na documentação específica da tarefa.

    O primeiro administrador de conta do Azure Databricks tem de ser um Administrador Global do Microsoft Entra ID no momento em que inicia sessão pela primeira vez na consola da conta do Azure Databricks. Após o primeiro login, esse usuário se torna um administrador de conta do Azure Databricks e não precisa mais da função de Administrador Global do Microsoft Entra ID para acessar a conta do Azure Databricks. O primeiro administrador de conta pode atribuir utilizadores no inquilino do Microsoft Entra ID como administradores de conta adicionais (e que podem, por sua vez, atribuir mais administradores de conta). Os administradores de conta adicionais não exigem funções específicas no Microsoft Entra ID.

  • Os espaços de trabalho anexados ao metastore devem estar no plano Premium do Azure Databricks.

Atualização para demos do Catálogo Unity

Assista às demonstrações curtas e guiadas a seguir para ver as principais tarefas de atualização em ação. Cada demonstração abrange uma etapa específica e links para documentação detalhada, quando aplicável.

Como alternativa, você pode seguir a demonstração Usar UCX para atualizar para o Unity Catalog.

Provisionar usuários, grupos e entidades de serviço para sua conta

O Catálogo Unity faz referência a identidades no nível da conta. Antes de anexar um metastore ao seu espaço de trabalho, você deve fazer o seguinte:

Converter grupos locais do espaço de trabalho em grupos no nível da conta

Consulte Migrar grupos locais do espaço de trabalho para grupos de contas.

Anexar seu espaço de trabalho a um metastore

Se seu espaço de trabalho não estiver habilitado para o Catálogo Unity (anexado a um metastore), a próxima etapa dependerá se você já tem ou não um metastore do Unity Catalog definido para sua região de espaço de trabalho:

Atualize tabelas em seu metastore do Hive para tabelas do Catálogo Unity

Se seu espaço de trabalho estava em serviço antes de ser habilitado para o Unity Catalog, ele tem um metastore do Hive que provavelmente contém dados que você deseja continuar a usar. O Databricks recomenda que você atualize as tabelas gerenciadas pelo metastore do Hive para o metastore do Unity Catalog.

Opção 1: Federar e depois atualizar tabelas estrangeiras

A abordagem recomendada é primeiro federar a sua metastore Hive como um catálogo estrangeiro, depois atualizar as tabelas estrangeiras localmente. Este processo em dois passos permite-lhe migrar tabelas sem movimentação de dados, preservando o histórico das tabelas, configuração, permissões e vistas.

Primeiro, federa a tua metastore Hive como um catálogo estrangeiro no Unity Catalog. Isto permite-lhe aceder às suas tabelas existentes através do Unity Catalog e prepara-as para atualização.

Para instruções sobre como federar a sua metastore Hive, consulte Federação da Metastore Hive: habilite o Unity Catalog para governar tabelas registadas numa metastore Hive.

Observação

Se optar por não atualizar as suas tabelas e quiser continuar a trabalhar permanentemente com o catálogo federado, pode fazê-lo. No entanto, a Databricks recomenda concluir a atualização para tirar pleno partido das funcionalidades do Unity Catalog.

Depois de federares a tua metastore Hive, podes atualizar as tabelas estrangeiras para tabelas do Catálogo Unity sem qualquer movimento de dados. Este fluxo de trabalho atualiza as tabelas no local, preservando o histórico das tabelas, a configuração, as permissões e as vistas.

Para atualizar uma tabela estrangeira para uma tabela gerida pelo Unity Catalog, execute o seguinte comando:

ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET MANAGED;

A Databricks recomenda atualizar para uma tabela gerida para desbloquear a otimização preditiva do Unity Catalog, que inclui manutenção automática (compactação, clustering, vacuuming) e melhorias de desempenho. Para atualizar uma tabela estrangeira para uma tabela externa do Unity Catalog, execute o seguinte comando:

ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET EXTERNAL;

Depois de as suas tabelas serem migradas e deixar de depender da federação para o seu catálogo externo, pode remover a ligação:

ALTER CATALOG <foreign_catalog> DROP CONNECTION;

Para mais detalhes sobre este fluxo de trabalho, veja Converter uma tabela estrangeira numa tabela gerida do Unity Catalog.

Opção 2: Atualizar tabelas diretamente

Se optar por não usar o fluxo de trabalho de atualização baseado em federação, pode atualizar tabelas diretamente usando SYNC ou CREATE TABLE AS SELECT. Veja Atualizar tabelas e vistas do Hive para o Catálogo Unity.

Conceder acesso a tabelas atualizadas ou federadas

Conceda aos usuários, grupos ou entidades de serviço no nível da conta acesso às novas tabelas. Consulte Gerenciar privilégios no Catálogo Unity.

Atualize consultas e trabalhos para trabalhar com as suas tabelas atualizadas e caminhos para os dados

Durante a transição do metastore do Hive local do espaço de trabalho para o Unity Catalog, você pode continuar a usar consultas e trabalhos que fazem referência aos dados registrados no metastore do Hive, usando a federação de metastore do Hive (recomendado) ou a sintaxe descrita em Trabalhar com o metastore herdado do Hive ao lado do Unity Catalog. No entanto, eventualmente você deve atualizar todas as consultas e trabalhos para usar tabelas e sintaxe do Unity Catalog.

Da mesma forma, atualize consultas e trabalhos que usam acesso por caminho a ficheiros e passe a usar volumes do Catálogo Unity.

Para obter recomendações detalhadas, consulte Atualizar tarefas ao migrar espaços de trabalho herdados para o Catálogo Unity.