Compartilhar via


Computação

A computação do Azure Databricks refere-se à seleção de recursos de computação disponíveis no workspace do Azure Databricks. Os usuários precisam de acesso à computação para executar cargas de trabalho de engenharia de dados, ciência de dados e análise de dados, como pipelines de ETL de produção, análise de streaming, análise ad hoc e aprendizado de máquina.

Os usuários podem se conectar à computação existente ou criar uma nova computação se tiverem as permissões adequadas.

Você pode exibir a computação à qual tem acesso usando a seção Computação do workspace:

Página da computação para todas as finalidades no workspace do Databricks

Tipos de computação

Estes são os tipos de computação disponíveis no Azure Databricks:

  • Computação sem servidor para notebooks (Visualização Pública): computação sob demanda e escalonável usada para executar códigos SQL e Python em notebooks.

  • Computação sem servidor para fluxos de trabalho (Visualização Pública): computação sob demanda e escalonável usada para executar seus trabalhos do Databricks sem configurar e implantar a infraestrutura.

  • Computação para Todas as Finalidades: computação provisionada usada para analisar dados em notebooks. Você pode criar, encerrar e reiniciar essa computação usando a interface do usuário, a CLI ou a API REST.

  • Computação de trabalho: computação provisionada usada para executar trabalhos automatizados. O agendador de trabalhos do Azure Databricks cria automaticamente uma computação de trabalho sempre que um trabalho é configurado para ser executado em uma nova computação. A computação termina quando o trabalho é concluído. Não é possível reiniciar uma computação de trabalho. Confira Usar a computação do Azure Databricks com seus trabalhos.

  • Pools de instâncias: computação com instâncias ociosas e prontas para uso, usadas para reduzir os tempos de início e dimensionamento automático. Você pode criar essa computação usando a interface do usuário, a CLI ou a API REST.

  • SQL warehouses sem servidor: computação elástica sob demanda usada para executar comandos SQL em objetos de dados no editor do SQL ou em notebooks interativos. Você pode criar SQL warehouses usando a interface do usuário, a CLI ou a API REST.

  • SQL warehouses clássicos: usados para executar comandos SQL em objetos de dados no editor do SQL ou notebooks interativos. Você pode criar SQL warehouses usando a interface do usuário, a CLI ou a API REST.

Os artigos desta seção descrevem como trabalhar com recursos de computação usando a interface do usuário do Azure Databricks. Para outros métodos, consulte O que é a CLI do Databricks? e a referência da API REST do Databricks.

Databricks Runtime

O Databricks Runtime é o conjunto de componentes principais executados em sua computação. O Databricks Runtime é uma opção configurável em todos os tipos de computação para trabalhos, mas é selecionada automaticamente em SQL warehouses.

Cada versão do Databricks Runtime inclui atualizações que melhoram a usabilidade, o desempenho e a segurança da análise de Big Data. O Databricks Runtime em sua computação adiciona muitos recursos, incluindo:

  • Delta Lake, uma camada de armazenamento de última geração criada com base no Apache Spark que fornece transações ACID, layouts e índices otimizados e melhorias do mecanismo de execução para a criação de pipelines de dados. Veja O que é o Delta Lake?.
  • Bibliotecas Java, Scala, Python e R instaladas.
  • Ubuntu e as bibliotecas de sistema que o acompanham.
  • Bibliotecas de GPU para clusters habilitados para GPU.
  • Serviços do Azure Databricks que se integram a outros componentes da plataforma, como notebooks, trabalhos e gerenciamento de cluster.

Para obter informações sobre o conteúdo de cada versão de tempo de execução, consulte as notas de versão.

Controle de versão do runtime

As versões do Databricks Runtime são lançadas regularmente:

  • As versões de Suporte de Longo Prazo são representadas por um qualificador LTS (por exemplo, 3.5 LTS). Para cada versão principal, declaramos uma versão de recurso "canônica", para a qual fornecemos três anos de suporte. Confira Ciclos de vida de suporte do Databricks Runtime para obter mais informações.
  • As versões principais são representadas por um incremento para o número de versão que precede o ponto decimal (o salto de 3,5 para 4,0, por exemplo). Elas são liberadas quando há alterações importantes, algumas das quais podem não ser compatíveis com versões anteriores.
  • As versões de recursos são representadas por um incremento para o número de versão que precede o ponto decimal (o salto de 3,4 para 3,5, por exemplo). Cada versão principal inclui várias versões de recursos. As versões de recursos são sempre compatíveis com as versões anteriores em sua versão principal.

O que é computação sem servidor?

A computação sem servidor aumenta a produtividade, a eficiência de custo e a confiabilidade das seguintes maneiras:

  • Produtividade: os recursos de nuvem são gerenciados pelo Azure Databricks, reduzindo a sobrecarga de gerenciamento e fornecendo computação instantânea para aumentar a produtividade do usuário.
  • Eficiência: a computação sem servidor oferece tempos rápidos de inicialização e escala, minimizando o tempo ocioso e garantindo que você pague apenas pela computação usada.
  • Confiabilidade: com computação sem servidor, tratamento de capacidade, segurança, aplicação de patch e atualizações são gerenciados automaticamente, aliviando preocupações sobre políticas de segurança e falta de capacidade.

O que são SQL Warehouses sem servidor?

O Databricks SQL oferece o preço e o desempenho ideais com SQL warehouses sem servidor. As principais vantagens dos warehouses sem servidor em relação aos modelos profissionais e clássicos incluem:

  • Computação instantânea e elástica: elimina a espera por recursos de infraestrutura e evita o excesso de provisionamento de recursos durante picos de uso. O gerenciamento de carga de trabalho inteligente manipula dinamicamente a escala. Consulte Tipos de SQL warehouse para obter mais informações sobre o gerenciamento de carga de trabalho inteligente e outros recursos sem servidor.
  • Sobrecarga mínima de gerenciamento: gerenciamento de capacidade, aplicação de patch, atualizações e otimização de desempenho são todos tratados pelo Azure Databricks, simplificando as operações e levando a preços previsíveis.
  • Menor TCO (custo total de propriedade): o provisionamento automático e a escala de recursos conforme necessário ajudam a evitar o excesso de provisionamento e reduz os tempos ociosos, reduzindo assim o TCO.