Partilhar via


Desenvolver em Databricks

Os usuários desenvolvedores do Databricks englobam os cientistas de dados, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps - todas as soluções de construção e integrações para estender e personalizar o Databricks para suas necessidades específicas. Além das muitas APIs do Databricks e recursos de engenharia de dados disponíveis no espaço de trabalho, também há muitas ferramentas para se conectar ao Databricks e desenvolver localmente que suportam usuários desenvolvedores do Databricks.

Este artigo fornece uma visão geral das APIs e ferramentas disponíveis para usuários desenvolvedores do Databricks.

Comece a codificar no espaço de trabalho

Desenvolver no espaço de trabalho é uma ótima maneira de se familiarizar rapidamente com as APIs do Databricks. O Databricks suporta Python, SQL, Scala, R e outros recursos focados no desenvolvedor no espaço de trabalho, incluindo ferramentas e utilitários úteis.

Aqui estão algumas maneiras de começar:

Crie aplicativos e soluções personalizados

O Azure Databricks fornece ferramentas para espaço de trabalho e desenvolvimento local. Na área de trabalho, pode-se criar aplicativos usando a interface do utilizador. Os dados são facilmente acessíveis em volumes do Unity Catalog e nos arquivos da área de trabalho. Funcionalidades exclusivas de área de trabalho, como o Assistente Databricks para depuração, estão disponíveis. Outras funcionalidades, como os cadernos de notas, estão totalmente equipadas. Além disso, o controle de código-fonte está disponível através de pastas Git.

Como alternativa, desenvolva soluções personalizadas usando um IDE em sua máquina local para aproveitar todas as funcionalidades de um ambiente de desenvolvimento avançado. O desenvolvimento local suporta uma gama mais ampla de linguagens, o que significa que recursos dependentes do idioma, como depuração e estruturas de teste, estão disponíveis para dar suporte a projetos maiores, juntamente com acesso direto ao controle do código-fonte.

Para obter recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.

Funcionalidade Descrição
Autenticar e autorizar Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com o Azure Databricks.
Aplicações Databricks Crie dados seguros e aplicativos personalizados de IA na plataforma Databricks, que você pode compartilhar com outros usuários.
extensão Databricks para Visual Studio Code Conecte-se aos seus workspaces remotos do Azure Databricks a partir do Visual Studio Code para facilitar a configuração da sua conexão com o workspace Databricks e uma interface para gerir os recursos do Databricks.
Plugin do PyCharm Databricks Configure uma conexão com um espaço de trabalho remoto do Databricks e execute arquivos em clusters Databricks do PyCharm. Este plugin é desenvolvido e fornecido pela JetBrains em parceria com a Databricks.
SDKs do Databricks Automatize suas interações com o Databricks usando um SDK, em vez de chamar as APIs REST diretamente. Os SDKs também estão disponíveis no espaço de trabalho.

Conecte-se ao Databricks

Conectar-se ao Databricks é um componente necessário de muitas integrações e soluções, e o Databricks fornece uma grande seleção de ferramentas de conexão para escolher. A tabela a seguir fornece ferramentas para conectar seu ambiente de desenvolvimento e processos ao seu espaço de trabalho e recursos do Azure Databricks.

Funcionalidade Descrição
Databricks Connect Conecte-se ao Azure Databricks usando ambientes de desenvolvimento integrado (IDEs) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab.
extensão Databricks para Visual Studio Code Configuração fácil de sua conexão com o espaço de trabalho Databricks e uma interface do usuário para gerenciar recursos do Databricks.
Drivers e ferramentas SQL Conecte-se ao Azure Databricks para executar comandos e scripts SQL, interagir programaticamente com o Azure Databricks e integrar a funcionalidade SQL do Azure Databricks em aplicativos escritos em linguagens populares como Python, Go, JavaScript e TypeScript.

Dica

Você também pode conectar muitas ferramentas de terceiros populares adicionais a clusters e armazéns SQL para acessar dados no Azure Databricks. Consulte os Parceiros de tecnologia.

Gerencie a infraestrutura e os recursos

Os programadores e engenheiros de dados podem escolher entre as seguintes ferramentas para automatizar o provisionamento e gestão da infraestrutura e dos recursos. Estas ferramentas suportam cenários de pipeline CI/CD, tanto simples quanto complexos.

Para obter recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.

Funcionalidade Descrição
CLI Databricks Acesse a funcionalidade do Azure Databricks usando a interface de linha de comando (CLI) do Databricks. A CLI encapsula a API REST do Databricks, portanto, em vez de enviar chamadas de API REST diretamente usando curl ou Postman, você pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI do terminal local ou do terminal web do espaço de trabalho .
Pacotes de ativos da Databricks Defina e gerencie recursos do Databricks e seu pipeline de CI/CD usando as práticas recomendadas de desenvolvimento, teste e implantação padrão do setor para seus projetos de dados e IA com o Databricks Asset Bundles, que é um recurso da CLI do Databricks.
Fornecedor Databricks Terraform e Terraform CDKTF para Databricks Provisione a infraestrutura e os recursos do Azure Databricks usando Terraform.
ferramentas de CI/CD Integre sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkinse Apache Airflow.

Colabore e partilhe código

Entre muitos outros recursos de colaboração no espaço de trabalho, o Databricks suporta especificamente usuários desenvolvedores que desejam colaborar e compartilhar código no espaço de trabalho com estes recursos:

Funcionalidade Descrição
Funções Definidas pelo Utilizador (FDU) Desenvolva UDFs (funções definidas pelo usuário) para reutilizar e compartilhar código.
diretórios Git Configure pastas Git para controle de versão e controle de origem das contribuições nos seus arquivos de projeto Databricks.

Interaja com a comunidade de desenvolvedores Databricks

O Databricks tem uma comunidade de desenvolvedores ativa, que é suportada pelos seguintes programas e recursos:

  • MVPs do Databricks: Este programa reconhece membros da comunidade, cientistas de dados, engenheiros de dados, desenvolvedores e entusiastas de código aberto que vão além na comunidade de dados e IA. Para obter mais informações, consulte MVPs do Databricks.
  • Training: A Databricks fornece módulos de aprendizagem para os desenvolvedores de Apache Spark, engenheiros de IA generativa , engenheiros de dados e muito mais.
  • Comunidade: Uma riqueza de conhecimento está disponível na comunidade Databricks e na comunidade Apache Spark.