Compartilhar via


Componentes do Azure Databricks

Este artigo apresenta componentes fundamentais que você precisa entender para usar o Azure Databricks com eficiência.

Contas e espaços de trabalho

No Azure Databricks, um workspace é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar os ativos do Databricks. Sua organização pode optar por ter vários workspaces ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários workspaces. As contas habilitadas para o Catálogo do Unity podem ser usadas para gerenciar usuários e seu acesso aos dados de forma centralizada em todos os workspaces da conta.

Cobrança: unidades do Databricks (DBUs)

As cobranças do Azure Databricks são baseadas em unidades de Databricks (DBUs), que são unidades de capacidade de processamento por hora, dependendo do tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e o respectivo acesso aos ativos do Azure Databricks.

Usuário

Um indivíduo exclusivo que tem acesso ao sistema. As identidades do usuário são representadas por endereços de email. Confira Gerenciar usuários.

Entidade de serviço

Uma identidade do serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID do aplicativo. Confira Entidades de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Grupos.

ACL (lista de controle de acesso)

Uma lista de permissões anexadas ao workspace, ao cluster, ao trabalho, à tabela ou ao experimento. Uma ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica uma entidade e uma operação. Confira Listas de Controle de Acesso.

PAT (token de acesso pessoal)

Um token de acesso pessoal é uma cadeia de caracteres utilizada para autenticar chamadas à API REST, conexões de Parceiros de tecnologia e outras ferramentas. Confira Autenticação com tokens de acesso pessoal do Azure Databricks.

Os tokens do Microsoft Entra ID também podem ser usados para autenticar na API REST.

Interfaces do Azure Databricks

Esta seção descreve as interfaces para acessar os ativos no Azure Databricks.

Interface do usuário

A interface de usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

A API REST do Databricks fornece pontos de extremidade para modificar ou solicitar informações sobre objetos de conta e workspace do Azure Databricks. Consulte referência da conta e referência do espaço de trabalho.

API REST do SQL

A API REST do SQL permite automatizar as tarefas em objetos do SQL. Consulte a API do SQL.

Interface de Linha de Comando (CLI)

A CLI do Databricks é hospedada no GitHub. A CLI é baseada na API REST do Databricks.

Gerenciamento de dados

Esta seção descreve as ferramentas e os objetos lógicos usados para organizar e controlar dados no Azure Databricks. Confira Objetos de banco de dados no Azure Databricks.

Catálogo do Unity

O Catálogo do Unity é uma solução de governança unificada para dados e ativos de IA no Azure Databricks que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos workspaces do Databricks. Veja O que é o Catálogo do Unity?.

Catálogo

Os catálogos são o contêiner de nível mais alto para organizar e isolar dados no Azure Databricks. Você pode compartilhar catálogos entre workspaces na mesma região e conta. Confira O que são os catálogos do Azure Databricks?.

Esquema

Os esquemas, também conhecidos como bancos de dados, estão contidos em catálogos e fornecem um nível mais granular de organização. Eles contêm objetos de banco de dados e ativos de IA, como volumes, tabelas, funções e modelos. Veja O que são esquemas no Azure Databricks?.

Tabela

As tabelas organizam e regem o acesso a dados estruturados. As tabelas são consultadas com o SQL e as APIs do Apache Spark. Consulte Introdução às tabelas do Azure Databricks.

Visualizar

Uma exibição é um objeto somente leitura derivado de uma ou mais tabelas e exibições. As exibições salvam consultas definidas em tabelas. Confira O que é uma exibição?.

Volume

Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos de nuvem e organizam e regem o acesso a dados não tabulares. O Databricks recomenda o uso de volumes para gerenciar todo o acesso a dados não tabulares no armazenamento de objetos de nuvem. Veja O que são volumes do Catálogo do Unity?.

Tabela Delta

Por padrão, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de código aberto Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no repositório de metadados dentro de um catálogo e esquema.

Saiba mais sobre tecnologias com a marca Delta.

Metastore

O Catálogo do Unity fornece um metastore no nível da conta que registra metadados sobre dados, IA e permissões sobre catálogos, esquemas e tabelas. Consulte Metastore.

O Azure Databricks fornece um metastore do Hive legado para clientes que não adotaram o Catálogo do Unity. Veja Controle de acesso à tabela no metastore do Hive (herdado).

Explorador do Catálogo

O Explorador de Catálogo permite que você explore e gerencie os ativos de dados e IA, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, reconhecer as relações de dados entre tabelas e gerenciar permissões e compartilhamentos. Confira O que é o Explorador de Catálogos?.

Raiz do DBFS

Importante

O armazenamento e acesso de dados usando as montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Catálogo do Unity para gerenciar o acesso a todos os dados. Veja O que é o Catálogo do Unity?.

A raiz do DBFS é um local de armazenamento disponível para todos os usuários por padrão. Confira O que é DBFS?.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa saber para executar a computação no Azure Databricks.

Agrupamento

Um conjunto de recursos de computação e configurações em que você executa notebooks e trabalhos. Há dois tipos de clusters: para todas as finalidades e de trabalho. Consulte Compute.

  • Crie um cluster para todas as finalidades usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster para todas as finalidades. Vários usuários podem compartilhar tais clusters para realizar a análise interativa de forma colaborativa.
  • O agendador de trabalhos do Azure Databricks cria um cluster de trabalho quando você executa um trabalho em um novo cluster de trabalho e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalho.

piscina

Um conjunto de instâncias ociosas e prontas para uso que reduzem o tempo de inicialização e de dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca o driver e os nós de trabalho do pool. Confira Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instância. Quando um cluster anexado é encerrado, as instâncias usadas por ele são retornadas para o pool e podem ser reutilizadas por outro cluster.

Runtime do Databricks

O conjunto de componentes principais que é executado nos clusters gerenciados pelo Azure Databricks. Consulte Compute. O Azure Databricks possui os seguintes runtimes:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona vários componentes e atualizações que aprimoram substancialmente a usabilidade, o desempenho e a segurança da análise de Big Data.
  • O Databricks Runtime para Machine Learning foi desenvolvido com base no Databricks Runtime e fornece uma infraestrutura de aprendizado de máquina predefinida que é integrada a todos os recursos do workspace do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, PyTorch, Keras e XGBoost.

Interface do usuário de Trabalhos e Pipelines

A interface do usuário do workspace Jobs &Pipelines fornece entrada para os Trabalhos, Pipelines Declarativos do Lakeflow e UIs do Lakeflow Connect, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.

Trabalhos

Um mecanismo não interativo para orquestrar e agendar notebooks, bibliotecas e outras tarefas. Ver Trabalhos do Lakeflow

Tubulações

Os Pipelines Declarativos do Lakeflow fornecem uma estrutura declarativa para o desenvolvimento de pipelines de processamento de dados confiáveis, manuteníveis e testáveis. Consulte Pipelines Declarativos do Lakeflow.

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (para todas as finalidades).

  • Engenharia de Dados Uma carga de trabalho (automatizada) é executada em um cluster de trabalho criado pelo agendador de trabalhos do Azure Databricks para cada carga de trabalho.
  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster para todas as finalidades. As cargas de trabalho interativas normalmente executam comandos em um notebook do Azure Databricks. No entanto, a execução de um trabalho em um cluster para todas as finalidades existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-avaliação-impressão (REPL) para cada linguagem de programação com suporte. As linguagens compatíveis são o Python, o R, o Scala e o SQL.

Engenharia de dados

As ferramentas de Engenharia de dados auxiliam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

Espaço de Trabalho

Um workspace é um ambiente usado para acessar todos os seus ativos do Azure Databricks. Um workspace organiza objetos (notebooks, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Caderno

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos executáveis, visualizações e texto narrativo. Confira Introdução aos notebooks do Databricks.

Biblioteca

Um pacote de código disponível para o notebook ou o trabalho em execução no cluster. Os runtimes do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Instalar bibliotecas.

Pasta Git (anteriormente conhecida como Repos)

Uma pasta cujo conteúdo é co-versionado ao ser sincronizado com um repositório Git remoto. As pastas Git do Databricks integram-se ao Git para fornecer controle de origem e de versão para projetos.

IA e aprendizado de máquina

O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de aprendizado de máquina e IA.

IA do Mosaic

A marca de produtos e serviços do Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis ​​pelos maiores avanços do Databricks em IA generativa. Os produtos do Mosaic AI incluem os recursos de ML e IA no Databricks. Consulte Mosaic Research.

Tempo de Execução do Aprendizado de Máquina

Para ajudar você a desenvolver modelos de ML e IA, o Databricks fornece um Databricks Runtime para Machine Learning que automatiza a criação de computação com aprendizado de máquina pré-compilado e infraestrutura de aprendizado profundo incluindo as bibliotecas de ML e DL mais comuns. Ele também tem suporte a GPU integrado e pré-configurado, incluindo drivers e bibliotecas de suporte. Navegue até as informações sobre as versões mais recentes das Notas de versão e compatibilidade do Databricks Runtime.

Experimento

Uma coleção de execuções do MLflow para treinamento de um modelo de machine learning. Confira Organizar execuções de treinamento com experimentos do MLflow.

Recursos

As características são um componente importante dos modelos de aprendizado de máquina. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a sua organização e também garante que o mesmo código de computação de recursos seja utilizado para treinamento e inferência de modelos. Consulte Engenharia de recursos e serviços.

Modelos de IA generativa

O Databricks dá suporte à exploração, ao desenvolvimento e à implantação de modelos de IA generativos, incluindo:

Registro de modelos

O Databricks fornece uma versão hospedada do Registro de Modelo do MLflow no Catálogo do Unity. Os modelos registrados no Catálogo do Unity herdam o controle de acesso centralizado, a linhagem, bem como a descoberta e o acesso entre workspaces. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.

Serviço de modelo

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar ao seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Veja Implantar modelos usando o Serviço de Modelo de IA do Mosaic.

Armazenamento de dados

O armazenamento de dados refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é uma coleção de serviços que traz funcionalidades de armazenamento de dados e desempenho para seus data lakes existentes. Consulte O que é armazenamento de dados no Azure Databricks?.

Consulta

Uma consulta é uma instrução SQL válida que permite a você interagir com seus dados. Crie consultas usando o editor SQL na plataforma ou conecte usando um conector, driver ou API do SQL. Consulte Acessar e gerenciar as consultas salvas para saber mais sobre como trabalhar com consultas.

SQL Warehouse

Um recurso de computação no qual você executa consultas SQL. Há três tipos de armazéns SQL: Clássico, Pro e Sem Servidor. O Azure Databricks recomenda usar warehouses sem servidor, quando disponíveis. Consulte tipos de warehouse SQL para comparar os recursos disponíveis para cada tipo de warehouse.

Histórico de consultas

Uma lista de consultas executadas e as características de desempenho. O histórico de consultas permite monitorar o desempenho das consultas, ajudando a identificar os gargalos e otimizar os runtimes das consultas. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações nos notebooks do Databricks e no editor de SQL.

Painel de controle

Uma apresentação de visualizações de dados e comentários. É possível usar dashboards para enviar relatórios automaticamente a qualquer pessoa na conta do Azure Databricks. Use o Assistente do Databricks para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. Você também pode criar um dashboard a partir de um notebook. Consulte Dashboards nos notebooks.

Para dashboards herdados, consulte dashboards herdados.

Importante

  • O Databricks recomenda o uso de painéis de IA/BI (anteriormente painéis do Lakeview). As versões anteriores dos painéis, anteriormente conhecidas como painéis SQL do Databricks, agora são chamadas painéis legados.

Cronograma de fim de suporte:

  • A partir de 7 de abril de 2025: o suporte oficial para a versão herdada dos painéis terminou. Você não pode mais criar novos painéis herdados. Somente problemas críticos de segurança e interrupções de serviço serão resolvidos.

  • 3 de novembro de 2025: o Databricks começará a arquivar dashboards herdados que não foram acessados nos últimos seis meses. Os dashboards arquivados não estarão mais acessíveis e o processo de arquivamento ocorrerá sem interrupção. O acesso aos dashboards que estão em uso ativo permanecerá inalterado.

    O Databricks trabalhará com os clientes para desenvolver planos de migração para dashboards herdados ativos após 3 de novembro de 2025.

  • Converta painéis legados usando a ferramenta de migração ou API REST. Confira Clonar um painel herdado para um painel de IA/BI para obter instruções sobre como usar a ferramenta de migração interna. Veja Tutoriais de painéis para obter tutoriais sobre como criar e gerenciar painéis usando a API REST.