Conceitos do Azure Databricks

Este artigo apresenta o conjunto de conceitos fundamentais necessários para usar o Azure Databricks com eficiência.

Contas e workspaces

No Azure Databricks, um workspace é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar os ativos do Databricks. Sua organização pode optar por ter vários workspaces ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários workspaces. As contas habilitadas para o Catálogo do Unity podem ser usadas para gerenciar usuários e seu acesso aos dados de forma centralizada em todos os workspaces da conta.

Cobrança: unidades do Databricks (DBUs)

As cobranças do Azure Databricks são baseadas em DBUs (Unidades do Databricks), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e o respectivo acesso aos ativos do Azure Databricks.

Usuário

Um indivíduo exclusivo que tem acesso ao sistema. As identidades do usuário são representadas por endereços de email. Confira Gerenciar usuários.

Entidade de serviço

Uma identidade do serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID do aplicativo. Confira Gerenciar entidades de serviço.

Agrupar

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Confira Gerenciar grupos

ACL (lista de controle de acesso)

Uma lista de permissões anexadas ao workspace, ao cluster, ao trabalho, à tabela ou ao experimento. Uma ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica uma entidade e uma operação. Confira Listas de controle de acesso

Token de acesso pessoal

Uma cadeia de caracteres opaca é usada para a autenticação na API REST e, por meio de ferramentas dos Parceiros de tecnologia para a conexão com SQL warehouses. Confira Autenticação com tokens de acesso pessoal do Azure Databricks.

Os tokens do Microsoft Entra ID (antigo Azure Active Directory) também podem ser usados para autenticar na API REST.

UI

A interface de usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

Ciência de dados e engenharia

As ferramentas de Ciência de dados e engenharia ajudam na colaboração entre cientistas de dados, engenheiros de dados e analistas de dados. Esta seção descreve os conceitos fundamentais.

Workspace

Um workspace é um ambiente usado para acessar todos os seus ativos do Azure Databricks. Um workspace organiza objetos (notebooks, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos executáveis, visualizações e texto narrativo. Confira Introdução aos notebooks do Databricks.

Painel

Uma interface que fornece acesso organizado às visualizações. Confira Dashboards em notebooks.

Biblioteca

Um pacote de código disponível para o notebook ou o trabalho em execução no cluster. Os runtimes do Databricks incluem várias bibliotecas e você pode adicionar as suas próprias.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo tem um controle de versão conjunto com a sincronização dele para um repositório Git remoto. As pastas Git do Databricks integram-se ao Git para fornecer controle de origem e de versão para projetos.

Experimento

Uma coleção de execuções do MLflow para treinamento de um modelo de machine learning. Confira Organizar execuções de treinamento com experimentos do MLflow.

Interfaces do Azure Databricks

Esta seção descreve as interfaces que o Azure Databricks oferece suporte, além da interface do usuário, para acessar seus ativos: API e linha de comando (CLI).

API REST

O Databricks fornece a documentação da API para o espaço de trabalho e a conta.

CLI

Um projeto de software livre hospedado no GitHub. A CLI é baseada na API REST do Databricks.

Gerenciamento de dados

Esta seção descreve os objetos que contêm os dados nos quais a análise é executada e a alimenta em algoritmos de machine learning.

DBFS – Sistema de Arquivos do Databricks

Uma camada de abstração do sistema de arquivos em um repositório de blobs. Ele contém diretórios, que podem conter arquivos (arquivos de dados, bibliotecas e imagens) e outros diretórios. O DBFS é preenchido automaticamente com alguns conjuntos de dados que você pode usar para aprender a trabalhar com o Azure Databricks. Confira O que é DBFS (Sistema de Arquivos do Databricks)?.

Banco de dados

Uma coleção de objetos de dados, como tabelas ou exibições e funções, organizada de forma que possa ser facilmente acessada, gerenciada e atualizada. Confira O que é um banco de dados?

Tabela

Uma representação de dados estruturados. As tabelas são consultadas com o SQL e as APIs do Apache Spark. Confira O que é uma tabela?

Tabela Delta

Por padrão, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de código aberto Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos de nuvem e registra metadados de tabela no metastore dentro de um catálogo e esquema.

Saiba mais sobre tecnologias com a marca Delta.

Metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no data warehouse, incluindo informações de tipo de coluna e coluna, os serializadores e os desserializadores necessários para ler e gravar dados e os arquivos correspondentes nos quais os dados são armazenados. Confira O que é um metastore?

Cada implantação de Azure Databricks tem um metastore do Hive central acessível por todos os clusters para manter os metadados da tabela. Você também tem a opção de usar um metastore do Hive externo existente.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Confira Visualizações em notebooks do Databricks.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa saber para executar a computação no Azure Databricks.

Cluster

Um conjunto de recursos de computação e configurações em que você executa notebooks e trabalhos. Há dois tipos de clusters: para todas as finalidades e de trabalho. Consulte Computação.

  • Crie um cluster para todas as finalidades usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster para todas as finalidades. Vários usuários podem compartilhar tais clusters para realizar a análise interativa de forma colaborativa.
  • O agendador de trabalhos do Azure Databricks cria um cluster de trabalho quando você executa um trabalho em um novo cluster de trabalho e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalho.

pool

Um conjunto de instâncias ociosas e prontas para uso que reduzem os tempos de início e dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca o driver e os nós de trabalho do pool. Confira Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas por ele são retornadas para o pool e podem ser reutilizadas por outro cluster.

Runtime do Databricks

O conjunto de componentes principais que é executado nos clusters gerenciados pelo Azure Databricks. Consulte Computação.* O Azure Databricks tem os seguintes runtimes:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona vários componentes e atualizações que aprimoram substancialmente a usabilidade, o desempenho e a segurança da análise de Big Data.
  • O Databricks Runtime para Machine Learning foi desenvolvido com base no Databricks Runtime e fornece uma infraestrutura de aprendizado de máquina predefinida que é integrada a todos os recursos do workspace do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, PyTorch, Keras e XGBoost.

Fluxos de trabalho

Estruturas para desenvolver e executar pipelines de processamento de dados:

  • Trabalhos: um mecanismo não interativo para executar um notebook ou uma biblioteca imediatamente ou de forma programada.
  • Delta Live Tables: uma estrutura para a criação de pipelines de processamento de dados confiáveis, testáveis e de fácil manutenção.

Consulte Introdução aos fluxos de trabalho do Azure Databricks.

Carga de trabalho

O Azure Databricks identifica dois tipos de cargas de trabalho sujeitos a diferentes esquemas de preços: engenharia de dados (trabalho) e análise de dados (para todas as finalidades).

  • Engenharia de Dados Uma carga de trabalho (automatizada) é executada em um cluster de trabalho criado pelo agendador de trabalhos do Azure Databricks para cada carga de trabalho.
  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster para todas as finalidades. As cargas de trabalho interativas normalmente executam comandos em um notebook do Azure Databricks. No entanto, a execução de um trabalho em um cluster para todas as finalidades existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-avaliação-impressão (REPL) para cada linguagem de programação com suporte. As linguagens compatíveis são o Python, o R, o Scala e o SQL.

Aprendizado de máquina

O Machine Learning no Azure Databricks é um ambiente integrado de ponta a ponta que incorpora serviços gerenciados para rastreamento de experimentos, treinamento de modelos, desenvolvimento e gerenciamento de recursos e fornecimento de recursos e modelos.

Testes

A unidade principal da organização para acompanhar o desenvolvimento de modelos de machine learning. Confira Organizar execuções de treinamento com experimentos do MLflow. Os experimentos organizam, exibem e controlam o acesso a execuções registradas individuais do código de treinamento do modelo.

Repositório de recursos

Um repositório centralizado de recursos. Consulte O que é um repositório de recursos? O Repositório de Recursos habilita o compartilhamento e a descoberta de recursos na sua organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos.

Modelos e registro de modelo

Um modelo de machine learning ou de aprendizado profundo treinado que foi registrado no registro de modelo.

SQL

API REST do SQL

Uma interface que permite automatizar tarefas em objetos do SQL. Consulte a API do SQL.

Painel

Uma apresentação de visualizações de dados e comentários. Consulte Dashboards. Para dashboards herdados, consulte dashboards herdados.

Consultas SQL

Esta seção descreve os conceitos que você precisa conhecer para executar consultas SQL no Azure Databricks.

  • Consulta: uma instrução SQL válida.
  • SQL warehouse: um recurso de computação no qual você executa consultas SQL.
  • Histórico de consulta: uma lista de consultas executadas e suas características de desempenho.