Partilhar via


Arquitetura de alto nível

Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa, em combinação com o Azure.

Objetos Databricks

Uma conta do Azure Databricks é a construção de nível superior que você usa para gerenciar o Azure Databricks em toda a sua organização. No nível da conta, você gerencia:

  • Identidade e acesso: usuários, grupos, entidades de serviço e provisionamento de usuários.
  • Gerenciamento de espaços de trabalho: crie, atualize e exclua espaços de trabalho em várias regiões.

  • Gerenciamento de metastore do Unity Catalog: crie e anexe metastore a espaços de trabalho.

  • Gerenciamento de uso: faturamento, conformidade e políticas.

Uma conta pode conter vários espaços de trabalho e metastores do Unity Catalog.

  • Os espaços de trabalho são o ambiente de colaboração onde os usuários executam cargas de trabalho de computação, como ingestão, exploração interativa, trabalhos agendados e treinamento de ML.

  • Os metastores do Unity Catalog são o sistema de governança central para ativos de dados, como tabelas e modelos de ML. Você organiza dados em um metastore em um namespace de três níveis:

<catalog-name>.<schema-name>.<object-name>

Metastores são associados a espaços de trabalho. Você pode vincular um único metastore a vários espaços de trabalho do Azure Databricks na mesma região, dando a cada espaço de trabalho a mesma exibição de dados. Os controles de acesso a dados podem ser gerenciados em todos os espaços de trabalho vinculados.

Diagrama: Hierarquia de objetos Databricks

Arquitetura do espaço de trabalho

O Azure Databricks opera a partir de um plano de controle e um plano de computação.

  • O plano de controle inclui os serviços de back-end que o Azure Databricks gerencia em sua conta do Azure Databricks. A aplicação web está no plano de controle.

  • O plano de computação é onde seus dados são processados. Existem dois tipos de planos de computação, dependendo da computação que você está usando.

    • Para computação sem servidor, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks.
    • Para a computação clássica do Azure Databricks, os recursos de computação estão na sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede em sua assinatura do Azure e seus recursos.

    Para saber mais sobre computação clássica e computação sem servidor, consulte Computação.

Arquitetura clássica de espaços de trabalho

Os workspaces do Azure Databricks clássicos têm uma conta de armazenamento associada conhecida como conta de armazenamento do workspace. A conta de armazenamento do espaço de trabalho está na sua assinatura do Azure.

O diagrama seguinte descreve a arquitetura geral Azure Databricks para workspaces clássicos.

Diagrama: Arquitetura Databricks

Arquitetura serverless de espaço de trabalho

O armazenamento dos espaços de trabalho sem servidor é guardado no armazenamento padrão do espaço de trabalho. Também pode ligar-se à sua conta de armazenamento na cloud para aceder aos seus dados. O diagrama seguinte descreve a arquitetura geral para espaços de trabalho serverless.

Diagrama: Arquitetura Databricks

Plano de computação sem servidor

No plano de computação sem servidor, os recursos de computação do Azure Databricks são executados em uma camada de computação em sua conta do Azure Databricks. O Azure Databricks cria um plano de computação sem servidor na mesma região do Azure que o plano de computação clássico do seu espaço de trabalho. Você seleciona essa região ao criar um espaço de trabalho.

Para proteger os dados do cliente dentro do plano de computação sem servidor, a computação sem servidor é executada dentro de um limite de rede para o espaço de trabalho, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente do Azure Databricks e controles de rede adicionais entre clusters do mesmo cliente.

Para saber mais sobre a rede no plano de computação sem servidor, Rede de plano de computação sem servidor.

Plano de computação clássico

No plano de computação clássico, os recursos de computação do Azure Databricks são executados em sua assinatura do Azure. Novos recursos de computação são criados na rede virtual de cada espaço de trabalho na assinatura do Azure do cliente.

Um plano de computação clássico tem isolamento natural porque é executado na própria assinatura do Azure de cada cliente. Para saber mais sobre redes no plano de computação clássico, consulte Rede de plano de computação clássica.

Para obter suporte regional, consulte Regiões do Azure Databricks.

Armazenamento do espaço de trabalho

O armazenamento do espaço de trabalho é gerido de forma diferente consoante o tipo de espaço de trabalho. Para mais informações sobre os tipos de espaços de trabalho, consulte Criar um espaço de trabalho.

Espaços de trabalho sem servidor

Os espaços de trabalho serverless utilizam armazenamento predefinido, que é uma localização de armazenamento totalmente gerida para os dados de sistema do espaço de trabalho e os catálogos do Unity Catalog. Os espaços de trabalho serverless também permitem ligar-se aos seus locais de armazenamento na nuvem. Veja o armazenamento padrão no Databricks.

Espaços de trabalho clássicos

A conta de armazenamento do espaço de trabalho contém:

  • Dados do sistema de espaço de trabalho: os dados do sistema de espaço de trabalho são gerados à medida que você usa vários recursos do Azure Databricks, como a criação de blocos de anotações. Esse bucket inclui revisões de bloco de anotações, detalhes da execução do trabalho, resultados de comandos e logs do Spark
  • Catálogo do espaço de trabalho Unity Catalog: Se o espaço de trabalho foi habilitado para o Unity Catalog automaticamente, a conta de armazenamento do espaço de trabalho conterá o catálogo de espaço de trabalho padrão. Todos os usuários em seu espaço de trabalho podem criar ativos no esquema padrão neste catálogo. Consulte Introdução ao Catálogo Unity.
  • DBFS (legado): As montagens DBFS root e DBFS são herdadas e podem ser desativadas em seu espaço de trabalho. DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes do Azure Databricks acessíveis sob o dbfs:/ namespace. A raiz DBFS e as montagens DBFS estão ambas no dbfs:/ namespace. Armazenar e aceder a dados utilizando o diretório raiz do DBFS ou montagens de DBFS é um padrão obsoleto e não recomendado pelo Databricks. Para obter mais informações, consulte O que é DBFS?.

Para limitar o acesso à sua conta de armazenamento de espaço de trabalho apenas de recursos e redes autorizados, consulte Habilitar suporte de firewall para sua conta de armazenamento de espaço de trabalho.