Azure Databricks para desenvolvedores do Scala
Este artigo fornece um guia para o desenvolvimento de notebooks e trabalhos no Azure Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais para tarefas e fluxos de trabalho comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas principais.
Um fluxo de trabalho básico para começar é:
- Importe o código e execute-o usando um notebook interativo do Databricks: importe seu próprio código dos arquivos ou repositórios Git ou tente um tutorial listado abaixo.
- Execute seu código em um cluster: crie um cluster próprio ou verifique se você tem permissões para usar um cluster compartilhado. Anexe seu notebook ao cluster e execute o notebook.
Além disso, você pode aprofundar-se em tópicos mais específicos:
- Trabalhar com conjuntos de dados maiores usando o Apache Spark
- Adicionar Visualizações
- Automatizar sua carga de trabalho como um trabalho
- Desenvolver em IDEs
Tutoriais
Os tutoriais abaixo fornecem código de exemplo e notebooks para você saber mais sobre fluxos de trabalho comuns. Confira Importar um notebook para obter instruções sobre como importar exemplos de notebook para seu workspace.
- Tutorial: Carregar e transformar dados usando Apache Spark DataFrames
- O Tutorial: Delta Lake fornece exemplos do Scala.
- O Início Rápido do Java e Scala fornece as noções básicas de como acompanhar as execuções de treinamento de aprendizado de máquina usando o MLflow no Scala.
- O uso do XGBoost no Azure Databricks fornece um exemplo do Scala.
Referência
As subseções abaixo listam os principais recursos e dicas para ajudar você a começar a desenvolver no Azure Databricks com o Scala.
API Scala
Esses links fornecem uma introdução e uma referência para a API Scala do Apache Spark.
- Tutorial: Carregar e transformar dados usando Apache Spark DataFrames
- Consultar cadeias de caracteres JSON
- Introdução ao Fluxo Estruturado
- Referência de API para o Apache Spark Core
- Referência de API para ML do Apache Spark
Gerenciar código com notebooks e pastas Git do Databricks
Os notebooks do Databricks dão suporte ao Scala. Esses notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações internas usando Big Data, integrações do Apache Spark para depuração e monitoramento de desempenho e integrações do MLflow para acompanhar experimentos de machine learning. Comece a trabalhar importando um notebook. Depois de ter acesso a um cluster, você pode anexar um notebook ao cluster e executar o notebook.
Dica
Para redefinir completamente o estado do notebook, pode ser útil reiniciar o kernel. Para usuários do Jupyter, a opção "reiniciar kernel" no Jupyter corresponde à desanexação e à posterior reanexação de um notebook no Databricks. Para reiniciar o kernel em um notebook, clique no seletor de computação na barra de ferramentas do notebook e passe o mouse sobre o cluster anexado ou o SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar e anexar novamente. Isso desanexa o notebook do cluster e o reanexa, o que reinicia o processo.
As pastas Databricks Git permitem aos usuários sincronizar notebooks e outros arquivos com repositórios Git. As pastas Git do Databricks ajudam no controle de versão e colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, exibindo versões anteriores do notebook e integrando-se ao desenvolvimento do IDE. Comece a trabalhar clonando um repositório Git remoto. Em seguida, você pode abrir ou criar notebooks com o clone do repositório, anexar o notebook a um cluster e executar o notebook.
Clusters e bibliotecas
A Computação do Azure Databricks fornece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando um cluster ou usando um cluster compartilhado existente. Depois de ter acesso a um cluster, você pode anexar um notebook ao cluster ou executar um trabalho no cluster.
- Para cargas de trabalho pequenas que requerem apenas um único nó, os cientistas de dados podem usar a computação de nó único para reduzir os custos.
- Para obter dicas detalhadas, consulte Recomendações de configuração de computação
- Os administradores podem configurar políticas de cluster para simplificar e orientar a criação do cluster.
Os clusters do Azure Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas adicionais personalizadas ou de terceiros para usar com notebooks e trabalhos.
- Comece com as bibliotecas padrão nas versões de notas sobre a versão do Databricks Runtime e compatibilidade. Para obter listas completas de bibliotecas pré-instaladas, veja Notas de versão do Databricks Runtime, versões e compatibilidade.
- Também é possível instalar bibliotecas do Scala em um cluster.
- Para obter detalhes, confira Bibliotecas.
Visualizações
Os notebooks Scala do Azure Databricks têm suporte interno para muitos tipos de visualizações. Você também pode usar as visualizações herdadas:
Interoperabilidade
Esta seção descreve os recursos que dão suporte à interoperabilidade entre o Scala e o SQL.
Trabalhos
Você pode automatizar cargas de trabalho do Scala como trabalhos agendados ou disparados no Azure Databricks. Trabalhos podem executar notebooks e JARs.
- Para obter detalhes sobre como criar um trabalho por meio da interface do usuário, consulte Configurar e editar trabalhos do Databricks.
- Os SDKs do Databricks permitem que você crie, edite e exclua trabalhos programaticamente.
- A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar trabalhos.
IDEs, ferramentas para desenvolvedores e SDKs
Além de desenvolver código Scala em notebooks do Azure Databricks, você pode desenvolver externamente usando IDEs (ambientes de desenvolvimento integrados), como IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Azure Databricks, há várias opções:
- Código: você pode sincronizar o código usando o Git. Consulte integração do Git com as pastas Git do Databricks.
- Bibliotecas e trabalhos: você pode criar bibliotecas externamente e carregá-las no Azure Databricks. Essas bibliotecas podem ser importadas em notebooks do Azure Databricks ou podem ser usadas para criar trabalhos. Consulte Bibliotecas e Agendar e orquestrar fluxos de trabalho.
- Execução de computador remoto: você pode executar o código do IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Azure Databricks para executar grandes computações em clusters do Azure Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.
O Databricks fornece um conjunto de SDKs REST que dão suporte à automação e à integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos de workspace, cargas de trabalho, trabalhos e muito mais. Confira os SDKs do Databricks.
Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvedor.
Recursos adicionais
- A Databricks Academy oferece cursos individuais e orientados por instrutores sobre muitos tópicos.