Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa em combinação com o Azure.
Objetos do Databricks
A conta do Azure Databricks é o constructo de nível superior que você usa para gerenciar o Azure Databricks em toda a sua organização. No nível da conta, você gerencia:
- Identidade e acesso: usuários, grupos, entidades de serviço e provisionamento de usuário.
Gerenciamento de workspace: criar, atualizar e excluir workspaces em várias regiões.
Gerenciamento de metastore do Unity Catalog: criar e anexar metastore aos workspaces.
Gerenciamento de uso: cobrança, conformidade e políticas.
Uma conta pode conter vários workspaces e metastores do Unity Catalog.
Workspaces são o ambiente de colaboração em que os usuários executam cargas de trabalho de computação, como ingestão, exploração interativa, trabalhos agendados e treinamento de ML.
Os metastores do Catálogo do Unity são o sistema de governança central para ativos de dados, como tabelas e modelos de ML. Você organiza dados em um metastore em um namespace de três níveis:
<catalog-name>.<schema-name>.<object-name>
Os metastores são anexados a espaços de trabalho. Você pode vincular um único metastore a vários workspaces do Azure Databricks na mesma região, dando a cada workspace a mesma exibição de dados. Os controles de acesso a dados podem ser gerenciados em todos os workspaces vinculados.
Arquitetura do workspace
O Azure Databricks funciona em um plano de controle e em um plano de computação.
O plano de controle inclui os serviços de back-end gerenciados pelo Azure Databricks na sua conta do Azure Databricks. O aplicativo Web está no plano de controle.
O plano de computação é onde os dados são processados. Há dois tipos de planos de computação dependendo da computação que você está usando.
- Para computação sem servidor, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks.
- Para computação clássica do Azure Databricks, os recursos de computação estão em sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede na sua assinatura do Azure e seus recursos.
Para saber mais sobre computação clássica e computação sem servidor, consulte Computação.
Arquitetura do espaço de trabalho clássico
Os workspaces clássicos do Azure Databricks têm uma conta de armazenamento associada conhecida como a conta de armazenamento do workspace. A conta de armazenamento do workspace está em sua assinatura do Azure.
O diagrama a seguir descreve a arquitetura geral do Azure Databricks para workspaces clássicos.
Arquitetura de espaço de trabalho sem servidor
O armazenamento em workspaces sem servidor é realizado no armazenamento padrão do workspace. Você também pode se conectar à sua conta de armazenamento em nuvem para acessar seus dados. O diagrama a seguir descreve a arquitetura geral para workspaces sem servidor.
Plano de computação sem servidor
No plano de computação sem servidor, os recursos de computação do Azure Databricks são executados em uma camada de computação em sua conta do Azure Databricks. O Azure Databricks cria um plano de computação sem servidor na mesma região do Azure que o plano de computação clássico do workspace. Você seleciona essa região ao criar um espaço de trabalho.
Para proteger os dados do cliente dentro do plano de computação sem servidor, a computação sem servidor é executada dentro de um limite de rede do workspace, com várias camadas de segurança para isolar diferentes workspaces de cliente do Azure Databricks e controles de rede adicionais entre clusters do mesmo cliente.
Para saber mais sobre a rede no plano de computação sem servidor, consulte Rede do plano de computação sem servidor.
Plano de computação clássico
No plano de computação clássico, os recursos de computação do Azure Databricks são executados em sua assinatura do Azure. Novos recursos de computação são criados na rede virtual de cada workspace na assinatura do Azure do cliente.
Um plano de computação clássico tem isolamento natural porque é executado na própria assinatura do Azure de cada cliente. Para saber mais sobre a rede no plano de computação clássico, consulte Rede do plano de computação clássico.
Para obter suporte regional, confira Regiões do Azure Databricks.
Armazenamento de área de trabalho
O armazenamento do workspace é tratado de forma diferente dependendo do seu tipo de workspace. Para obter mais informações sobre os tipos de workspace, consulte Criar um workspace.
Workspaces sem servidor
Ambientes de trabalho sem servidor usam o armazenamento padrão, que é um local de armazenamento totalmente gerenciado para os dados do sistema do seu ambiente e o Catálogo do Unity. Os workspaces sem servidor também dão suporte à capacidade de se conectar aos locais de armazenamento em nuvem. Consulte o armazenamento padrão no Databricks.
Espaços de trabalho clássicos
A conta de armazenamento do workspace contém:
- Dados do sistema de workspace: os dados do sistema de workspace são gerados à medida que você usa vários recursos do Azure Databricks, como a criação de notebooks. Esse bucket inclui revisões de notebook, detalhes da execução do trabalho, resultados de comando e logs do Spark
- Catálogo de workspace do Unity Catalog: Se o seu workspace foi habilitado automaticamente para o Unity Catalog, a conta de armazenamento desse workspace contém o catálogo de workspace padrão. Todos os usuários em seu workspace podem criar ativos no esquema padrão neste catálogo. Consulte Introdução ao Catálogo do Unity.
- DBFS (legado): A raiz do DBFS e as montagens no DBFS são funções legadas e podem estar desabilitados no seu espaço de trabalho. O DBFS (Sistema de Arquivos do Databricks) é um sistema de arquivos distribuído em ambientes do Azure Databricks acessíveis no
dbfs:/namespace. As montagens DBFS raiz e DBFS estão no namespacedbfs:/. O armazenamento e acesso de dados usando as montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Para obter mais informações, consulte O que é DBFS?.
Para limitar o acesso à sua conta de armazenamento do workspace somente de recursos e redes autorizados, consulte Habilitar o suporte de firewall para sua conta de armazenamento do workspace.