Identificar cargas de trabalho do Azure Databricks
O Azure Databricks é uma plataforma abrangente que oferece muitas funcionalidades de processamento de dados. Embora você possa usar o serviço para facilitar qualquer carga de trabalho que requeira um processamento de dados dimensionável, o Azure Databricks facilita particularmente os seguintes tipos de carga de trabalho de dados:
- Engenharia e ciência de dados
- Machine Learning
- SQL*
*As cargas de trabalho do SQL só estão disponíveis em workspaces de camada premium.
Engenharia e ciência de dados
O Azure Databricks fornece ingestão, processamento e análise baseados no Apache Spark para grandes volumes de dados em um data lakehouse. Engenheiros de dados, cientistas de dados e analistas de dados podem usar notebooks interativos para executar código em Python, Scala, SparkSQL ou outras linguagens para limpar, transformar, agregar e analisar dados.
Machine Learning
O Azure Databricks dá suporte a cargas de trabalho de machine learning que envolvem exploração e preparação de dados, treinamento e avaliação de modelos de machine learning, e fornecendo modelos para gerar previsões para aplicativos e análises. Os cientistas de dados e engenheiros de ML podem usar o AutoML para treinar rapidamente modelos preditivos ou aplicar as habilidades deles em estruturas comuns de machine learning, como SparkML, Scikit-Learn, PyTorch e Tensorflow. Eles também podem gerenciar o ciclo de vida de machine learning de ponta a ponta com o MLFlow.
Data warehousing
O Azure Databricks dá suporte à consulta baseada em SQL para dados armazenados em tabelas em um SQL Warehouse. Essa funcionalidade permite aos analistas de dados consultar, agregar, resumir e visualizar dados usando uma sintaxe SQL conhecida e uma ampla gama de ferramentas de visualização e análise de dados baseadas em SQL.
Observação
Os SQL Warehouses só estão disponíveis em workspaces premium do Azure Databricks.