Compartilhar via


Arquitetura de alto nível

Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa em combinação com o Azure.

Objetos do Databricks

A conta do Azure Databricks é o constructo de nível superior que você usa para gerenciar o Azure Databricks em toda a sua organização. No nível da conta, você gerencia:

  • Identidade e acesso: usuários, grupos, entidades de serviço e provisionamento de usuário.
  • Gerenciamento de workspace: criar, atualizar e excluir workspaces em várias regiões.

  • Gerenciamento de metastore do Unity Catalog: criar e anexar metastore aos workspaces.

  • Gerenciamento de uso: cobrança, conformidade e políticas.

Uma conta pode conter vários workspaces e metastores do Unity Catalog.

  • Workspaces são o ambiente de colaboração em que os usuários executam cargas de trabalho de computação, como ingestão, exploração interativa, trabalhos agendados e treinamento de ML.

  • Os metastores do Catálogo do Unity são o sistema de governança central para ativos de dados, como tabelas e modelos de ML. Você organiza dados em um metastore em um namespace de três níveis:

<catalog-name>.<schema-name>.<object-name>

Os metastores são anexados a espaços de trabalho. Você pode vincular um único metastore a vários workspaces do Azure Databricks na mesma região, dando a cada workspace a mesma exibição de dados. Os controles de acesso a dados podem ser gerenciados em todos os workspaces vinculados.

Diagrama: Hierarquia de objetos do Databricks

Arquitetura do workspace

O Azure Databricks funciona em um plano de controle e em um plano de computação.

  • O plano de controle inclui os serviços de back-end gerenciados pelo Azure Databricks na sua conta do Azure Databricks. O plano de controle está localizado na conta do Azure Databricks, não na sua conta de nuvem. O aplicativo Web está no plano de controle.

  • O plano de computação é onde os dados são processados. Há dois tipos de planos de computação dependendo da computação que você está usando.

    • Para computação sem servidor, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks.
    • Para computação clássica do Azure Databricks, os recursos de computação estão em sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede na sua assinatura do Azure e seus recursos.

    Para saber mais sobre computação clássica e computação sem servidor, consulte Computação.

Arquitetura do espaço de trabalho clássico

Observação

Workspaces clássicos são conhecidos como workspaces híbridos no portal do Azure.

Os workspaces clássicos do Azure Databricks têm uma conta de armazenamento associada conhecida como a conta de armazenamento do workspace. A conta de armazenamento do workspace está em sua assinatura do Azure.

O diagrama a seguir descreve a arquitetura geral do Azure Databricks para workspaces clássicos.

Diagrama: arquitetura do Databricks

Arquitetura de espaço de trabalho sem servidor

O armazenamento em workspaces sem servidor é realizado no armazenamento padrão do workspace. Você também pode se conectar à sua conta de armazenamento em nuvem para acessar seus dados. O diagrama a seguir descreve a arquitetura geral para workspaces sem servidor.

Diagrama: arquitetura do Databricks

Plano de computação sem servidor

No plano de computação sem servidor, os recursos de computação do Azure Databricks são executados em uma camada de computação em sua conta do Azure Databricks. O Azure Databricks cria um plano de computação sem servidor na mesma região do Azure que o plano de computação clássico do workspace. Você seleciona essa região ao criar um espaço de trabalho.

Para proteger os dados do cliente dentro do plano de execução sem servidor, a computação sem servidor é realizada dentro de uma delimitação de rede para o workspace, com várias camadas de segurança para isolar diferentes workspaces de clientes do Azure Databricks e controles de rede adicionais entre clusters pertencentes ao mesmo cliente.

Para saber mais sobre a rede no plano de computação sem servidor, consulte Rede do plano de computação sem servidor.

Plano de computação clássico

No plano de computação clássico, os recursos de computação do Azure Databricks são executados em sua assinatura do Azure. Novos recursos de computação são criados na rede virtual de cada workspace na assinatura do Azure do cliente.

Um plano de computação clássico tem isolamento natural porque é executado na própria assinatura do Azure de cada cliente. Para saber mais sobre a rede no plano de computação clássico, consulte Rede do plano de computação clássico.

Para obter suporte regional, confira Regiões do Azure Databricks.

Armazenamento de área de trabalho

O armazenamento do workspace é tratado de forma diferente dependendo do seu tipo de workspace. Para obter mais informações sobre os tipos de workspace, consulte Criar um workspace.

O armazenamento do workspace contém duas categorias de dados: dados do sistema de arquivos do workspace e dados de configuração do próprio workspace. Ambos estão separados dos objetos de dados próprios (como tabelas e volumes do Catálogo do Unity).

Dados do sistema de arquivos do workspace

O sistema de arquivos do workspace armazena os ativos que os usuários criam e gerenciam por meio da interface do usuário do Azure Databricks. Elas incluem:

  • Notebooks
  • Consultas e dashboards do SQL
  • Alertas
  • Repositórios, que são pastas vinculadas a repositórios Git
  • Bibliotecas (.whl, .jar)
  • Arquivos Python, arquivos de configuração YAML e outros arquivos pequenos

Para obter mais informações sobre arquivos de workspace, consulte O que são arquivos de workspace?. Para obter uma lista completa de ativos de workspace, consulte Introdução aos objetos de workspace.

Dados do sistema de espaço de trabalho

Cada workspace do Azure Databricks também armazena dados do sistema gerados internamente pelos recursos do Azure Databricks. Esses dados são muito grandes para serem armazenados em memória ou bancos de dados ou precisam persistir além do tempo de vida de um único recurso de computação. Os exemplos de dados do sistema de ambiente de trabalho incluem:

  • Resultados da consulta SQL e resultados da consulta armazenada em cache
  • Resultados da execução do trabalho
  • Revisões de Notebook
  • Planos de consulta SQL usados para observabilidade
  • Logs de cluster

Para obter detalhes sobre como o armazenamento de workspace é configurado para cada tipo de workspace, consulte as seções abaixo.

Workspaces sem servidor

Os workspaces sem servidor utilizam o armazenamento padrão, que é um local de armazenamento totalmente gerenciado para dados do sistema interno do workspace e ativos de dados do Unity Catalog. Os workspaces sem servidor também dão suporte à capacidade de se conectar aos locais de armazenamento em nuvem para seus próprios catálogos, tabelas e outros ativos de dados. Consulte o armazenamento padrão no Databricks.

Espaços de trabalho clássicos

Importante

Não exclua ou modifique o armazenamento do workspace em sua conta de nuvem. O workspace do Azure Databricks depende dos bancos de dados do plano de controle e do armazenamento do workspace para a operação correta. Se o armazenamento do espaço de trabalho for excluído, ele não poderá ser recuperado.

Em workspaces clássicos, os dados de sistema do workspace são distintos de O que é DBFS?. Embora ambos possam residir na mesma conta de armazenamento em nuvem em workspaces clássicos, eles atendem a diferentes finalidades. A raiz do DBFS é um sistema de arquivos acessível pelo usuário, enquanto os dados do sistema do workspace são utilizados internamente pelas funcionalidades do Azure Databricks.

A conta de armazenamento do workspace contém:

  • Dados do sistema de workspace: dados internos gerados pelos recursos do Azure Databricks
  • Catálogo de workspace do Unity Catalog: Se o seu workspace foi habilitado automaticamente para o Unity Catalog, a conta de armazenamento desse workspace contém o catálogo de workspace padrão. Todos os usuários em seu workspace podem criar ativos no esquema padrão neste catálogo. Consulte Introdução ao Catálogo do Unity.
  • DBFS (legado): A raiz do DBFS e as montagens no DBFS são funções legadas e podem estar desabilitados no seu espaço de trabalho. O DBFS (Sistema de Arquivos do Databricks) é um sistema de arquivos distribuído em ambientes do Azure Databricks acessíveis no dbfs:/ namespace. As montagens DBFS raiz e DBFS estão no namespace dbfs:/. O armazenamento e acesso de dados usando as montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Para obter mais informações, consulte O que é DBFS?.

Para limitar o acesso à sua conta de armazenamento do workspace somente de recursos e redes autorizados, consulte Habilitar o suporte de firewall para sua conta de armazenamento do workspace.