O que é o Azure Databricks Clean Rooms?
Importante
Esse recurso está em uma versão prévia. Para solicitar acesso, entre em contato com seu representante do Azure Databricks.
Este artigo apresenta o Clean Rooms, um recurso do Azure Databricks que usa o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e que protege a privacidade, no qual várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados umas das outras.
Requisitos
Para se qualificar para usar o clean rooms, você deve:
- Inscrever-se e ser aprovado para a visualização pública. Entre em contato com sua equipe de conta do Azure Databricks para solicitar acesso.
- Ter uma conta que esteja habilitada para computação sem servidor. Confira Habilitar a computação sem servidor.
- Ter um espaço de trabalho que esteja habilitado para o Catálogo do Unity. Consulte Habilitar um workspace para o Catálogo do Unity.
Como funciona o Clean Rooms?
Ao criar um clean room, você cria o seguinte:
- Um objeto de clean room seguro em seu metastore do Catálogo do Unity.
- O clean room "central", que é um ambiente efêmero isolado gerenciado pela Databricks.
- Um objeto de clean room seguro no metastore do Catálogo do Unity do seu colaborador.
Tabelas, volumes (dados não tabulares) e notebooks que qualquer colaborador compartilha no clean rooms compartilhados, usando o Compartilhamento Delta, somente com o clean rooms central.
Os colaboradores não podem ver os dados nas tabelas e volumes de outros colaboradores, mas podem ver os nomes e tipos de colunas e podem executar o código de notebook aprovado que opera nas tabelas e volumes. O código do notebook é executado no clean room central.
Como o Clean Rooms garante um ambiente sem confiança?
O modelo do Databricks Clean Rooms é "sem confiança". Todos os colaboradores em um clean room sem confiança têm privilégios iguais, inclusive o criador do clean room. O Clean Rooms foi projetado para impedir a execução de código não autorizado e o compartilhamento não autorizado de dados. Por exemplo, todos os colaboradores devem aprovar um notebook antes que ele possa ser executado. Essa confiança é imposta implicitamente ao impedir que um colaborador execute qualquer notebook que ele mesmo tenha criado: você só pode executar um notebook criado por outro colaborador.
Proteções ou restrições adicionais
As seguintes proteções estão em vigor, além do processo de aprovação implícita de notebook mencionado acima:
Depois que um clean room é criado, ele é bloqueado para evitar que novos colaboradores entrem no clean room.
Se algum colaborador excluir o clean room, o clean room central será anulado e nenhuma tarefa do clean room poderá ser executada por nenhum usuário.
Durante a visualização pública, cada clean room é limitado a dois colaboradores.
Não é possível renomear o clean room.
O nome do clean room deve ser exclusivo no metastore de cada colaborador, para que todos os colaboradores possam se referir ao mesmo clean room sem ambiguidade.
Os comentários sobre o clean room que pode ser protegido no espaço de trabalho de cada colaborador não são propagados para outros colaboradores.
O que é compartilhado com outros colaboradores?
- Nome do clean room.
- Nuvem e região do clean room central.
- O nome da sua organização (que pode ser qualquer nome que você escolher).
- Seu identificador de compartilhamento de sala limpa (ID do metastore global + ID do workspace + endereço de e-mail do usuário).
- Aliases de tabelas ou volumes compartilhados.
- Metadados da coluna (nome da coluna ou alias e tipo).
- Notebooks (somente leitura).
- Tabela do sistema de eventos do clean room.
- Histórico de execuções, incluindo:
- O nome do notebook que está sendo executado
- Colaborador que executou o notebook (não o usuário).
- O estado da execução do notebook.
- A hora de início da execução do notebook.
O que é compartilhado com o clean room central?
Tudo o que está listado na seção anterior.
Tabelas, volumes e notebooks somente leitura.
As tabelas e os volumes são registrados no metastore do clean room central com todos os aliases fornecidos. As tabelas, os volumes e os notebooks são compartilhados durante todo o ciclo de vida da sala limpa.
Limitações
Durante a visualização pública, aplicam-se as seguintes limitações:
- Não há suporte para desativar a Internet nos clean rooms para evitar que códigos mal-intencionados exfiltrem dados para um local externo.
- Nenhuma biblioteca de credencial de serviço Scala incluída na versão necessária do Databricks Runtime
Cotas de recursos
O Azure Databricks impõe cotas de recursos em todos os objetos protegíveis do Clean Room. Essas cotas são listadas em Limites de recursos. Se você espera exceder esses limites de recursos, entre em contato com sua equipe de conta do Azure Databricks.
Você pode monitorar o uso da cota usando as APIs de cotas de recursos do Catálogo do Unity. Consulte Monitorar o uso de cotas de recursos do Catálogo do Unity.