Arquitetura de alto nível

Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa, em combinação com o Azure.

Objetos Databricks

Uma conta do Azure Databricks é a construção de nível superior que você usa para gerenciar o Azure Databricks em toda a sua organização. No nível da conta, você gerencia:

Identidade e acesso: usuários, grupos, entidades de serviço e provisionamento de usuários.

Gerenciamento de espaços de trabalho: crie, atualize e exclua espaços de trabalho em várias regiões.
Gerenciamento de metastore do Unity Catalog: crie e anexe metastore a espaços de trabalho.
Gerenciamento de uso: faturamento, conformidade e políticas.

Uma conta pode conter vários espaços de trabalho e metastores do Unity Catalog.

Os espaços de trabalho são o ambiente de colaboração onde os usuários executam cargas de trabalho de computação, como ingestão, exploração interativa, trabalhos agendados e treinamento de ML.
Os metastores do Unity Catalog são o sistema de governança central para ativos de dados, como tabelas e modelos de ML. Você organiza dados em um metastore em um namespace de três níveis:

<catalog-name>.<schema-name>.<object-name>

Metastores são associados a espaços de trabalho. Você pode vincular um único metastore a vários espaços de trabalho do Azure Databricks na mesma região, dando a cada espaço de trabalho a mesma exibição de dados. Os controles de acesso a dados podem ser gerenciados em todos os espaços de trabalho vinculados.

Diagrama: Hierarquia de objetos Databricks

Arquitetura do espaço de trabalho

O Azure Databricks opera a partir de um plano de controle e um plano de computação.

O plano de controle inclui os serviços de back-end que o Azure Databricks gerencia em sua conta do Azure Databricks. O plano de controlo está localizado na conta Azure Databricks, não na sua conta cloud. A aplicação web está no plano de controle.
O plano de computação é onde seus dados são processados. Existem dois tipos de planos de computação, dependendo da computação que você está usando.
- Para computação sem servidor, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks.
- Para a computação clássica do Azure Databricks, os recursos de computação estão na sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede em sua assinatura do Azure e seus recursos.
Para saber mais sobre computação clássica e computação sem servidor, consulte Computação.

Arquitetura clássica de espaços de trabalho

Observação

Os espaços de trabalho clássicos são designados como espaços de trabalho híbridos no portal Azure.

Os workspaces do Azure Databricks clássicos têm uma conta de armazenamento associada conhecida como conta de armazenamento do workspace. A conta de armazenamento do espaço de trabalho está na sua assinatura do Azure.

O diagrama seguinte descreve a arquitetura geral Azure Databricks para workspaces clássicos.

Diagrama: Arquitetura do Databricks para Azure

Arquitetura serverless de espaço de trabalho

O armazenamento dos espaços de trabalho sem servidor é guardado no armazenamento padrão do espaço de trabalho. Também pode ligar-se à sua conta de armazenamento na cloud para aceder aos seus dados. O diagrama seguinte descreve a arquitetura geral para espaços de trabalho serverless.

Diagrama: Arquitetura serverless do espaço de trabalho Databricks

Plano de computação sem servidor

No plano de computação sem servidor, os recursos de computação do Azure Databricks são executados em uma camada de computação em sua conta do Azure Databricks. O Azure Databricks cria um plano de computação sem servidor na mesma região do Azure que o plano de computação clássico do seu espaço de trabalho. Você seleciona essa região ao criar um espaço de trabalho.

Para proteger os dados do cliente dentro do plano de computação sem servidor, a computação sem servidor é executada dentro de um limite de rede para o espaço de trabalho, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente do Azure Databricks e controles de rede adicionais entre clusters do mesmo cliente.

Para saber mais sobre a rede no plano de computação sem servidor, Rede no plano de computação sem servidor.

Plano de computação clássico

No plano de computação clássico, os recursos de computação do Azure Databricks são executados em sua assinatura do Azure. Novos recursos de computação são criados na rede virtual de cada espaço de trabalho na assinatura do Azure do cliente.

Um plano de computação clássico tem isolamento natural porque é executado na própria assinatura do Azure de cada cliente. Para saber mais sobre redes no plano de computação clássico, consulte Rede de plano de computação clássica.

Para obter suporte regional, consulte Regiões do Azure Databricks.

Armazenamento do espaço de trabalho

O armazenamento do espaço de trabalho é gerido de forma diferente consoante o tipo de espaço de trabalho. Para mais informações sobre os tipos de espaços de trabalho, consulte Criar um espaço de trabalho.

O armazenamento de espaço de trabalho contém duas categorias de dados: dados do sistema de ficheiros do espaço de trabalho e dados do sistema de trabalho. Ambos são separados dos teus próprios objetos de dados (como tabelas e volumes do Unity Catalog).

Dados do sistema de ficheiros do espaço de trabalho

O sistema de ficheiros do workspace armazena os ativos que os utilizadores criam e gerem através da interface do Azure Databricks. Estes são, entre outros:

Notebooks
Consultas SQL e dashboards
Alertas
Repositórios (pastas anexadas a repositórios Git)
Bibliotecas (.whl, .jar)
Ficheiros Python, ficheiros de configuração YAML e outros ficheiros pequenos

Para mais informações sobre ficheiros de espaço de trabalho, consulte O que são ficheiros de espaço de trabalho?. Para uma lista completa dos ativos do espaço de trabalho, veja Introdução aos objetos do espaço de trabalho.

Dados do sistema de espaço de trabalho

Todos os espaços de trabalho do Azure Databricks também armazenam dados do sistema gerados internamente pelas funcionalidades do Azure Databricks. Estes dados são demasiado grandes para serem armazenados na memória ou bases de dados, ou precisam de persistir para além da vida útil de um único recurso computacional. Exemplos de dados de sistemas de espaço de trabalho incluem:

Resultados de consultas SQL e resultados de consultas em cache
Resultados da execução de trabalhos
Revisões do notebook
Planos de consulta SQL usados para observabilidade
Logs de cluster

Para detalhes sobre como o armazenamento do espaço de trabalho está configurado para cada tipo de espaço de trabalho, consulte as secções abaixo.

Espaços de trabalho sem servidor

Os espaços de trabalho serverless utilizam armazenamento predefinido, que é um local de armazenamento totalmente gerido para os dados internos do sistema de espaço de trabalho e os ativos de dados do Unity Catalog. Os espaços de trabalho serverless também permitem ligar-se às suas localizações de armazenamento na nuvem para os seus próprios catálogos, tabelas e outros ativos de dados. Veja o armazenamento padrão no Databricks.

Espaços de trabalho clássicos

Importante

Não apague nem modifique o armazenamento do espaço de trabalho na sua conta na cloud. Um espaço de trabalho Azure Databricks depende tanto das suas bases de dados do plano de controlo como do armazenamento do seu espaço de trabalho para o funcionamento correto. Se o armazenamento do espaço de trabalho for eliminado, este não pode ser recuperado.

Nos espaços de trabalho clássicos, os dados do sistema de espaço de trabalho distinguem-se do que é o DBFS?. Embora ambos possam residir na mesma conta de armazenamento na nuvem em espaços de trabalho clássicos, servem propósitos diferentes. A raiz do DBFS é um sistema de ficheiros acessível ao utilizador, enquanto os dados do sistema de workspace são usados internamente pelas funcionalidades do Azure Databricks.

A conta de armazenamento do espaço de trabalho contém:

Dados do sistema de espaço de trabalho: Dados internos gerados pelas funcionalidades do Azure Databricks
Catálogo do espaço de trabalho Unity Catalog: Se o espaço de trabalho foi habilitado para o Unity Catalog automaticamente, a conta de armazenamento do espaço de trabalho conterá o catálogo de espaço de trabalho padrão. Todos os usuários em seu espaço de trabalho podem criar ativos no esquema padrão neste catálogo. Consulte Introdução ao Catálogo Unity.
DBFS (legado): As montagens DBFS root e DBFS são herdadas e podem ser desativadas em seu espaço de trabalho. DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes do Azure Databricks acessíveis sob o dbfs:/ namespace. A raiz DBFS e as montagens DBFS estão ambas localizadas no dbfs:/ namespace. Armazenar e aceder a dados utilizando o diretório raiz do DBFS ou montagens de DBFS é um padrão obsoleto e não recomendado pelo Databricks. Para obter mais informações, consulte O que é DBFS?.

Para limitar o acesso à sua conta de armazenamento de espaço de trabalho apenas de recursos e redes autorizados, consulte Habilitar suporte de firewall para sua conta de armazenamento de espaço de trabalho.

Comentários

Esta página foi útil?

Last updated on 2026-03-16