Strumenti di sviluppo
Databricks offre un ecosistema di strumenti che consentono di sviluppare applicazioni e soluzioni integrate con Azure Databricks e gestire a livello di codice le risorse e i dati di Databricks a livello di codice.
Questo articolo offre una panoramica di questi strumenti e consigli per gli strumenti migliori per gli scenari di sviluppo comuni.
Quali strumenti offre Databricks per gli sviluppatori?
La tabella seguente fornisce un elenco degli strumenti di sviluppo forniti da Databricks.
Strumento | Descrizione |
---|---|
Autenticazione e autorizzazione | Configurare l'autenticazione e l'autorizzazione per gli strumenti, gli script e le app per l'uso con Azure Databricks. |
Databricks Connect | Connettersi ad Azure Databricks usando gli ambienti di sviluppo integrato (IDE) più diffusi, ad esempio PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. Se si usa Visual Studio Code, Databricks consiglia l'estensione Databricks per Visual Studio Code, basata su Databricks Connect, perché offre funzionalità aggiuntive per semplificare la configurazione. |
Estensione Databricks per Visual Studio Code | Connettersi alle aree di lavoro remote di Azure Databricks dall'ambiente di sviluppo integrato (IDE) di Visual Studio Code . |
Plug-in PyCharm Databricks | Configurare una connessione a un'area di lavoro databricks remota ed eseguire file nei cluster Databricks da PyCharm. Questo plug-in viene sviluppato e fornito da JetBrains in collaborazione con Databricks. |
Databricks-sdk | Automatizzare Azure Databricks dalle librerie di codice scritte per linguaggi comuni, ad esempio Python, Java, Go e R. Anziché inviare chiamate API REST direttamente usando curl/Postman, è possibile usare un SDK per interagire con Databricks usando un linguaggio di programmazione preferito. |
Driver e strumenti SQL | Connettersi ad Azure Databricks per eseguire comandi e script SQL, interagire a livello di codice con Azure Databricks e integrare le funzionalità SQL di Azure Databricks nelle applicazioni scritte in linguaggi comuni, ad esempio Python, Go, JavaScript e TypeScript. |
Interfaccia della riga di comando di Databricks | Accedere alle funzionalità di Azure Databricks usando l'interfaccia della riga di comando di Databricks. L'interfaccia della riga di comando esegue il wrapping dell'API REST di Databricks, quindi invece di inviare chiamate API REST direttamente usando curl o Postman, è possibile usare l'interfaccia della riga di comando di Databricks per interagire con Databricks. |
Bundle di asset di Databricks | Implementare procedure consigliate per lo sviluppo, i test e la distribuzione standard del settore per i progetti di dati e intelligenza artificiale di Azure Databricks usando i bundle di asset di Databricks (DAB). |
Provider Terraform di Databricks e Terraform CDKTF per Databricks | Effettuare il provisioning dell'infrastruttura e delle risorse di Azure Databricks usando Terraform. |
Provider di risorse Pulumi Databricks | Effettuare il provisioning dell'infrastruttura e delle risorse di Azure Databricks usando pulumi infrastructure-as-code (IaC). |
Strumenti CI/CD | Integrare i sistemi e i framework CI/CD più diffusi, ad esempio GitHub Actions, Jenkins e Apache Airflow. |
Suggerimento
È anche possibile connettere molti strumenti di terze parti più diffusi ai cluster e ai data warehouse per accedere ai dati in Azure Databricks. Vedere i partner tecnologici.
Quale strumento di sviluppo è consigliabile usare?
La tabella seguente illustra le raccomandazioni dello strumento Databricks per scenari di sviluppo comuni.
Scenari | Elemento consigliato |
---|---|
- Sviluppo interattivo e debug da un IDE locale | Estensione Databricks per Visual Studio Code Plug-in PyCharm Databricks Per altri IDE, usare l'interfaccia della riga di comando di Databricks con Databricks Connect |
- Interazione diretta con Databricks dalla riga di comando - Scripting della shell -Sperimentazione - Richiamare direttamente l'API REST - Gestire i profili di autenticazione locale - Sincronizzare il codice dall'IDE all'area di lavoro di Databricks |
Interfaccia della riga di comando di Databricks |
- Gestire i flussi di lavoro e distribuire progetti in Databricks - Applicare le procedure consigliate per CI/CD - Co-version, co-author, co-deploy your resources and assets as one unit (Co-version, co-author, co-deploy your resources and assets as one unit) - Supporta le risorse più comuni |
Aggregazioni di asset di Databricks (una funzionalità dell'interfaccia della riga di comando) |
- Infrastruttura come codice, CI/CD - Amministrare e creare aree di lavoro, cataloghi, metastore e applicare le autorizzazioni - Garantire la portabilità dell'ambiente e il ripristino di emergenza - Molte risorse supportate |
Provider Databricks Terraform |
- Sviluppo di applicazioni - Integrare con i sistemi di distribuzione esistenti - Creare flussi di lavoro personalizzati di Databricks e nuovi servizi Web |
Databricks Python SDK Databricks Java SDK Databricks Go SDK Databricks R SDK |
- Solo scenari avanzati - Sono disponibili quasi tutte le risorse di Databricks |
API REST di Databricks |