Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os usuários desenvolvedores do Databricks englobam os cientistas de dados, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps - todas as soluções de construção e integrações para estender e personalizar o Databricks para suas necessidades específicas. Além das muitas APIs do Databricks e recursos de engenharia de dados disponíveis no espaço de trabalho, também há muitas ferramentas para se conectar ao Databricks e desenvolver localmente que suportam usuários desenvolvedores do Databricks.
Este artigo fornece uma visão geral das APIs e ferramentas disponíveis para usuários desenvolvedores do Databricks.
Comece a codificar no espaço de trabalho
Desenvolver no espaço de trabalho é uma ótima maneira de se familiarizar rapidamente com as APIs do Databricks. O Databricks suporta Python, SQL, Scala, R e outros recursos focados no desenvolvedor no espaço de trabalho, incluindo ferramentas e utilitários úteis.
Aqui estão algumas maneiras de começar:
- Leia uma visão geral e encontre links para tutoriais de vários cenários para Python, Scalae R. Para obter uma tabela de ferramentas suportadas em vários idiomas, consulte Visão geral de idiomas.
- Navegue pela referência da linguagem SQL para ver a profundidade e a amplitude das capacidades.
- Trabalhe no Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames em Python, Scala ou R para obter uma introdução às APIs do Spark. Exemplos simples adicionais para o PySpark estão em noções básicas do PySpark.
- Navegue pela documentação de referência disponível, incluindo a referência da API REST , que oferece uma visão clara dos objetos Databricks que também podem ser criados e modificados com outras ferramentas.
- Instale o SDK do Python num notebook e escreva uma função simples.
- Mova alguns arquivos usando os comandos Databricks Utilities para se familiarizar com o uso dos utilitários
fspara manipular o ambiente Databricks.
Crie aplicativos e soluções personalizados
O Azure Databricks fornece ferramentas para espaço de trabalho e desenvolvimento local. Na área de trabalho, pode-se criar aplicativos usando a interface do utilizador. Os dados são facilmente acessíveis em volumes do Unity Catalog e nos arquivos da área de trabalho. Funcionalidades exclusivas de área de trabalho, como o Assistente Databricks para depuração, estão disponíveis. Outras funcionalidades, como os cadernos de notas, estão totalmente equipadas. Além disso, o controle de código-fonte está disponível através de pastas Git.
Como alternativa, desenvolva soluções personalizadas usando um IDE em sua máquina local para aproveitar todas as funcionalidades de um ambiente de desenvolvimento avançado. O desenvolvimento local suporta uma gama mais ampla de linguagens, o que significa que recursos dependentes do idioma, como depuração e estruturas de teste, estão disponíveis para dar suporte a projetos maiores, juntamente com acesso direto ao controle do código-fonte.
Para obter recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
| Funcionalidade | Descrição |
|---|---|
| Autenticar e autorizar | Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com o Azure Databricks. |
| Aplicações Databricks | Crie dados seguros e aplicativos personalizados de IA na plataforma Databricks, que você pode compartilhar com outros usuários. |
| extensão Databricks para Visual Studio Code | Conecte-se aos seus workspaces remotos do Azure Databricks a partir do Visual Studio Code para facilitar a configuração da sua conexão com o workspace Databricks e uma interface para gerir os recursos do Databricks. |
| Plugin do PyCharm Databricks | Configure uma conexão com um espaço de trabalho remoto do Databricks e execute arquivos em clusters Databricks do PyCharm. Este plugin é desenvolvido e fornecido pela JetBrains em parceria com a Databricks. |
| SDKs do Databricks | Automatize suas interações com o Databricks usando um SDK, em vez de chamar as APIs REST diretamente. Os SDKs também estão disponíveis no espaço de trabalho. |
Conecte-se ao Databricks
Conectar-se ao Databricks é um componente necessário de muitas integrações e soluções, e o Databricks fornece uma grande seleção de ferramentas de conexão para escolher. A tabela a seguir fornece ferramentas para conectar seu ambiente de desenvolvimento e processos ao seu espaço de trabalho e recursos do Azure Databricks.
| Funcionalidade | Descrição |
|---|---|
| Databricks Connect | Conecte-se ao Azure Databricks usando ambientes de desenvolvimento integrado (IDEs) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. |
| extensão Databricks para Visual Studio Code | Configuração fácil de sua conexão com o espaço de trabalho Databricks e uma interface do usuário para gerenciar recursos do Databricks. |
| Drivers e ferramentas SQL | Conecte-se ao Azure Databricks para executar comandos e scripts SQL, interagir programaticamente com o Azure Databricks e integrar a funcionalidade SQL do Azure Databricks em aplicativos escritos em linguagens populares como Python, Go, JavaScript e TypeScript. |
Dica
Você também pode conectar muitas ferramentas de terceiros populares adicionais a clusters e armazéns SQL para acessar dados no Azure Databricks. Consulte os Parceiros de tecnologia.
Gerencie a infraestrutura e os recursos
Os programadores e engenheiros de dados podem escolher entre as seguintes ferramentas para automatizar o provisionamento e gestão da infraestrutura e dos recursos. Estas ferramentas suportam cenários de pipeline CI/CD, tanto simples quanto complexos.
Para obter recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
| Funcionalidade | Descrição |
|---|---|
| CLI Databricks | Acesse a funcionalidade do Azure Databricks usando a interface de linha de comando (CLI) do Databricks. A CLI encapsula a API REST do Databricks, portanto, em vez de enviar chamadas de API REST diretamente usando curl ou Postman, você pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI do terminal local ou do terminal web do espaço de trabalho . |
| Pacotes de ativos da Databricks | Defina e gerencie recursos do Databricks e seu pipeline de CI/CD usando as práticas recomendadas de desenvolvimento, teste e implantação padrão do setor para seus projetos de dados e IA com o Databricks Asset Bundles, que é um recurso da CLI do Databricks. |
| Fornecedor Databricks Terraform e Terraform CDKTF para Databricks | Provisione a infraestrutura e os recursos do Azure Databricks usando Terraform. |
| ferramentas de CI/CD | Integre sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkinse Apache Airflow. |
Colabore e partilhe código
Entre muitos outros recursos de colaboração no espaço de trabalho, o Databricks suporta especificamente usuários desenvolvedores que desejam colaborar e compartilhar código no espaço de trabalho com estes recursos:
| Funcionalidade | Descrição |
|---|---|
| Funções Definidas pelo Utilizador (FDU) | Desenvolva UDFs (funções definidas pelo usuário) para reutilizar e compartilhar código. |
| diretórios Git | Configure pastas Git para controle de versão e controle de origem das contribuições nos seus arquivos de projeto Databricks. |
Interaja com a comunidade de desenvolvedores Databricks
O Databricks tem uma comunidade de desenvolvedores ativa, que é suportada pelos seguintes programas e recursos:
- MVPs do Databricks: Este programa reconhece membros da comunidade, cientistas de dados, engenheiros de dados, desenvolvedores e entusiastas de código aberto que vão além na comunidade de dados e IA. Para obter mais informações, consulte MVPs do Databricks.
- Training: A Databricks fornece módulos de aprendizagem para os desenvolvedores de Apache Spark, engenheiros de IA generativa , engenheiros de dados e muito mais.
- Comunidade: Uma riqueza de conhecimento está disponível na comunidade Databricks e na comunidade Apache Spark.