Compartilhar via


Azure Databricks para desenvolvedores do Scala

Este artigo fornece um guia para o desenvolvimento de notebooks e trabalhos no Azure Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais para tarefas e fluxos de trabalho comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas principais.

Um fluxo de trabalho básico para começar é:

Além disso, você pode aprofundar-se em tópicos mais específicos:

Tutoriais

Os tutoriais abaixo fornecem código de exemplo e notebooks para você saber mais sobre fluxos de trabalho comuns. Confira Importar um notebook para obter instruções sobre como importar exemplos de notebook para seu workspace.

Referência

As subseções abaixo listam os principais recursos e dicas para ajudar você a começar a desenvolver no Azure Databricks com o Scala.

API Scala

Esses links fornecem uma introdução e uma referência para a API Scala do Apache Spark.

Gerenciar código com notebooks e pastas Git do Databricks

Os notebooks do Databricks dão suporte ao Scala. Esses notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações internas usando Big Data, integrações do Apache Spark para depuração e monitoramento de desempenho e integrações do MLflow para acompanhar experimentos de machine learning. Comece a trabalhar importando um notebook. Depois de ter acesso a um cluster, você pode anexar um notebook ao cluster e executar o notebook.

Dica

Para redefinir completamente o estado do notebook, pode ser útil reiniciar o kernel. Para usuários do Jupyter, a opção "reiniciar kernel" no Jupyter corresponde à desanexação e à posterior reanexação de um notebook no Databricks. Para reiniciar o kernel em um notebook, clique no seletor de computação na barra de ferramentas do notebook e passe o mouse sobre o cluster anexado ou o SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar e anexar novamente. Isso desanexa o notebook do cluster e o reanexa, o que reinicia o processo.

As pastas Databricks Git permitem aos usuários sincronizar notebooks e outros arquivos com repositórios Git. As pastas Git do Databricks ajudam no controle de versão e colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, exibindo versões anteriores do notebook e integrando-se ao desenvolvimento do IDE. Comece a trabalhar clonando um repositório Git remoto. Em seguida, você pode abrir ou criar notebooks com o clone do repositório, anexar o notebook a um cluster e executar o notebook.

Clusters e bibliotecas

A Computação do Azure Databricks fornece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando um cluster ou usando um cluster compartilhado existente. Depois de ter acesso a um cluster, você pode anexar um notebook ao cluster ou executar um trabalho no cluster.

Os clusters do Azure Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas adicionais personalizadas ou de terceiros para usar com notebooks e trabalhos.

Visualizações

Os notebooks Scala do Azure Databricks têm suporte interno para muitos tipos de visualizações. Você também pode usar as visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que dão suporte à interoperabilidade entre o Scala e o SQL.

Trabalhos

Você pode automatizar cargas de trabalho do Scala como trabalhos agendados ou disparados no Azure Databricks. Trabalhos podem executar notebooks e JARs.

IDEs, ferramentas para desenvolvedores e SDKs

Além de desenvolver código Scala em notebooks do Azure Databricks, você pode desenvolver externamente usando IDEs (ambientes de desenvolvimento integrados), como IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Azure Databricks, há várias opções:

  • Código: você pode sincronizar o código usando o Git. Consulte integração do Git com as pastas Git do Databricks.
  • Bibliotecas e trabalhos: você pode criar bibliotecas externamente e carregá-las no Azure Databricks. Essas bibliotecas podem ser importadas em notebooks do Azure Databricks ou podem ser usadas para criar trabalhos. Consulte Bibliotecas e Agendar e orquestrar fluxos de trabalho.
  • Execução de computador remoto: você pode executar o código do IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Azure Databricks para executar grandes computações em clusters do Azure Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

O Databricks fornece um conjunto de SDKs REST que dão suporte à automação e à integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos de workspace, cargas de trabalho, trabalhos e muito mais. Confira os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvedor.

Recursos adicionais

  • A Databricks Academy oferece cursos individuais e orientados por instrutores sobre muitos tópicos.