O que é o Azure Databricks Clean Rooms?
Importante
Esta funcionalidade está em Pré-visualização Pública. Para solicitar acesso, entre em contato com seu representante do Azure Databricks.
Este artigo apresenta as Salas Limpas, um recurso do Azure Databricks que usa o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e de proteção de privacidade onde várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Requisitos
Para ser elegível para utilizar salas limpas, deve:
- Inscreva-se e seja aprovado para a pré-visualização pública. Entre em contato com sua equipe de conta do Azure Databricks para solicitar acesso.
- Tenha uma conta habilitada para computação sem servidor. Consulte Ativar computação sem servidor.
- Tenha um espaço de trabalho habilitado para o Catálogo Unity. Consulte Habilitar um espaço de trabalho para o Catálogo Unity.
Como funciona o Clean Rooms?
Ao criar uma sala limpa, você cria o seguinte:
- Um objeto de sala limpa protegível em seu metastore do Unity Catalog.
- A sala limpa "central", que é um ambiente efêmero isolado gerenciado pela Databricks.
- Um objeto de sala limpa protegível no metastore do Unity Catalog do seu colaborador.
Tabelas, volumes (dados não tabulares) e blocos de anotações que qualquer colaborador compartilha na sala limpa são compartilhados, usando o Delta Sharing, apenas com a sala limpa central.
Os colaboradores não podem ver os dados nas tabelas e volumes de outros colaboradores, mas podem ver nomes de colunas e tipos de coluna, e podem executar código de bloco de anotações aprovado que opera sobre as tabelas e volumes. O código do notebook é executado na sala limpa central.
Como é que as Salas Limpas garantem um ambiente sem confiança?
O modelo Databricks Clean Rooms é "sem confiança". Todos os colaboradores em uma sala limpa sem confiança têm privilégios iguais, incluindo o criador da sala limpa. Salas limpas é projetado para impedir a execução de código não autorizado e o compartilhamento não autorizado de dados. Por exemplo, todos os colaboradores devem aprovar um bloco de anotações antes que ele possa ser executado. Essa confiança é implicitamente implicitamente impedindo que um colaborador execute qualquer bloco de anotações que ele mesmo tenha criado: você só pode executar um bloco de anotações criado pelo outro colaborador.
Salvaguardas ou restrições adicionais
Para além do processo implícito de aprovação de computadores portáteis, existem as seguintes salvaguardas:
Depois que uma sala limpa é criada, ela é bloqueada para impedir que novos colaboradores entrem na sala limpa.
Se algum colaborador excluir a sala limpa, a sala limpa central será anulada e nenhuma tarefa de sala limpa poderá ser executada por qualquer usuário.
Durante a pré-visualização pública, cada sala limpa é limitada a dois colaboradores.
Você não pode renomear a sala limpa.
O nome da sala limpa deve ser único no metastore de cada colaborador, para que todos os colaboradores possam se referir à mesma sala limpa de forma inequívoca.
Os comentários sobre a sala limpa protegível no espaço de trabalho de cada colaborador não são propagados para outros colaboradores.
O que é partilhado com outros colaboradores?
- Nome da sala limpa.
- Nuvem e região da sala limpa central.
- O nome da sua organização (que pode ser qualquer nome que escolher).
- Seu identificador de compartilhamento de sala limpa (ID de metastore global + ID do espaço de trabalho + endereço de e-mail do usuário).
- Aliases de tabelas ou volumes compartilhados.
- Metadados da coluna (nome ou alias da coluna e tipo).
- Blocos de notas (só de leitura).
- Mesa do sistema de eventos de sala limpa.
- Histórico de execução, incluindo:
- O nome do bloco de notas que está a ser executado
- Colaborador que executou o bloco de anotações (não usuário).
- O estado da execução do bloco de anotações.
- A hora de início da execução do bloco de anotações.
O que é compartilhado com a sala limpa central?
Tudo o que está listado na seção anterior.
Tabelas, volumes e blocos de anotações somente leitura.
As tabelas e os volumes são registados no metastore da sala limpa central com quaisquer pseudónimos fornecidos. Mesas, volumes e cadernos são compartilhados durante todo o ciclo de vida da sala limpa.
Limitações
Durante a pré-visualização pública, aplicam-se as seguintes limitações:
- Não há suporte para desligar a internet em salas limpas para evitar que códigos maliciosos exfiltrem dados para um local externo.
- Nenhuma credencial de serviço Bibliotecas Scala incluídas na versão necessária do Databricks Runtime.
Quotas de recursos
O Azure Databricks impõe cotas de recursos em todos os objetos protegíveis de Sala Limpa. Essas cotas estão listadas em Limites de recursos. Se você espera exceder esses limites de recursos, entre em contato com sua equipe de conta do Azure Databricks.
Você pode monitorar o uso da cota usando as APIs de cotas de recursos do Unity Catalog. Consulte Monitorar o uso das cotas de recursos do Unity Catalog.