Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Gli utenti sviluppatori di Databricks comprendono data scientist, data engineer, analisti dei dati, ingegneri di machine learning, nonché ingegneri DevOps e MLOps: tutti impegnati a costruire soluzioni e integrazioni per estendere e personalizzare Databricks in base alle proprie esigenze specifiche. Oltre alle numerose API databricks e alle funzionalità di progettazione dei dati disponibili nell'area di lavoro, sono disponibili anche molti strumenti per la connessione a Databricks e lo sviluppo in locale che supportano gli utenti di Databricks.
Questo articolo offre una panoramica delle API e degli strumenti disponibili per gli utenti degli sviluppatori di Databricks.
Iniziare a scrivere codice nell'area di lavoro
Lo sviluppo nell'area di lavoro è un ottimo modo per acquisire rapidamente familiarità con le API di Databricks. Databricks supporta Python, SQL, Scala, R e altre funzionalità incentrate sullo sviluppatore nell'area di lavoro, inclusi strumenti e utilità utili.
Ecco alcuni modi per iniziare:
- Leggere una panoramica e trovare i collegamenti alle esercitazioni per vari scenari per Python, Scalae R. Per una tabella degli strumenti supportati in diversi linguaggi, vedere panoramica delle lingue .
- Esplorare le informazioni di riferimento sul linguaggio SQL per esaminare la profondità e l'ampiezza delle funzionalità.
- Usare l'esercitazione : Caricare e trasformare i dati usando i dataframe apache Spark in Python, Scala o R per ottenere un'introduzione alle API Spark. Altri semplici esempi per PySpark sono disponibili in nozioni di base di PySpark.
- Esplora la documentazione di riferimento disponibile, incluso il riferimento all'API REST che offre una buona panoramica degli oggetti Databricks, i quali possono essere creati e modificati anche con altri strumenti.
- Installare Python SDK in un notebook e scrivere una funzione semplice.
- Spostare alcuni file usando i comandi Databricks per acquisire familiarità con l'uso delle utilità
fsper modificare l'ambiente Databricks.
Creare app e soluzioni personalizzate
Azure Databricks offre strumenti sia per l'area di lavoro che per lo sviluppo locale. Nell'area di lavoro è possibile creare app usando l'interfaccia utente, i dati sono facilmente accessibili nei volumi di Unity Catalog e nei file dell'area di lavoro. Le funzionalità esclusive dell'area di lavoro, come l'Assistente Databricks per il debug, sono disponibili, e altre funzionalità, come i notebook, sono completamente sviluppate. Inoltre, il controllo del codice sorgente è disponibile con le cartelle Git.
In alternativa, sviluppare soluzioni personalizzate usando un IDE nel computer locale per sfruttare le funzionalità complete di un ambiente di sviluppo avanzato. Lo sviluppo locale supporta un'più ampia gamma di linguaggi, il che significa che sono disponibili funzionalità dipendenti dal linguaggio, ad esempio il debug e i framework di test, per supportare progetti più grandi, insieme all'accesso diretto al controllo del codice sorgente.
Per consigli sull'utilizzo degli strumenti, vedere Quale strumento di sviluppo è consigliabile usare?.
| Caratteristica | Descrizione |
|---|---|
| Autenticare e autorizzare | Configurare l'autenticazione e l'autorizzazione per gli strumenti, gli script e le app per l'uso con Azure Databricks. |
| di App Databricks | Creare applicazioni personalizzate di dati e intelligenza artificiale sicure nella piattaforma Databricks, che è possibile condividere con altri utenti. |
| Estensione Databricks per Visual Studio Code | Connettiti alle aree di lavoro remoto di Azure Databricks in Visual Studio Code per semplificare la configurazione della connessione all'area di lavoro Databricks e per utilizzare un'interfaccia utente nella gestione delle risorse di Databricks. |
| PyCharm Databricks plug-in | Configurare una connessione a un'area di lavoro databricks remota ed eseguire file nei cluster Databricks da PyCharm. Questo plug-in viene sviluppato e fornito da JetBrains in collaborazione con Databricks. |
| SDK di Databricks | Automatizzare le interazioni con Databricks usando un SDK, anziché chiamare direttamente le API REST. Gli SDK sono disponibili anche nell'area di lavoro. |
Connettersi a Databricks
La connessione a Databricks è un componente necessario di molte integrazioni e soluzioni e Databricks offre una vasta gamma di strumenti di connessione tra cui scegliere. La tabella seguente fornisce strumenti per connettere l'ambiente di sviluppo e i processi all'area di lavoro e alle risorse di Azure Databricks.
| Caratteristica | Descrizione |
|---|---|
| Databricks Connect | Connettersi ad Azure Databricks usando gli ambienti di sviluppo integrato (IDE) più diffusi, ad esempio PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. |
| Estensione Databricks per Visual Studio Code | Configurazione semplice della connessione all'area di lavoro di Databricks e un'interfaccia utente per la gestione delle risorse di Databricks. |
| driver e strumenti SQL | Connettersi ad Azure Databricks per eseguire comandi e script SQL, interagire a livello di codice con Azure Databricks e integrare le funzionalità SQL di Azure Databricks nelle applicazioni scritte in linguaggi comuni, ad esempio Python, Go, JavaScript e TypeScript. |
Suggerimento
È anche possibile connettere molti strumenti di terze parti più diffusi ai cluster e ai data warehouse per accedere ai dati in Azure Databricks. Visualizza i partner tecnologici .
Gestire l'infrastruttura e le risorse
Gli sviluppatori e i data engineer possono scegliere tra gli strumenti seguenti per automatizzare il provisioning e la gestione dell'infrastruttura e delle risorse. Questi strumenti supportano sia scenari di pipeline CI/CD semplici che complessi.
Per consigli sull'utilizzo degli strumenti, vedere Quale strumento di sviluppo è consigliabile usare?.
| Caratteristica | Descrizione |
|---|---|
| Interfaccia della riga di comando di Databricks | Accedere alle funzionalità di Azure Databricks usando l'interfaccia della riga di comando di Databricks. L'interfaccia della riga di comando esegue il wrapping dell'API REST di Databricks, quindi invece di inviare chiamate API REST direttamente usando curl o Postman, è possibile usare l'interfaccia della riga di comando di Databricks per interagire con Databricks. Usa l'interfaccia della riga di comando da un terminale locale o usala dall'area di lavoro Terminale web. |
| Bundle di risorse di Databricks | Definire e gestire le risorse di Databricks e la pipeline CI/CD utilizzando le migliori pratiche di sviluppo, test e distribuzione standard del settore per progetti di dati e IA con i Databricks Asset Bundles, una funzionalità della CLI di Databricks. |
| provider Databricks Terraform e Terraform CDKTF per Databricks | Effettuare il provisioning dell'infrastruttura e delle risorse di Azure Databricks usando Terraform. |
| strumenti CI/CD | Integrare i sistemi e i framework CI/CD più diffusi, ad esempio GitHub Actions, Jenkinse Apache Airflow. |
Collaborare e condividere codice
Tra le molte altre funzionalità di collaborazione nell'area di lavoro, Databricks supporta in modo specifico gli utenti sviluppatori che vogliono collaborare e condividere il codice nell'area di lavoro con queste funzionalità:
| Caratteristica | Descrizione |
|---|---|
| funzioni definite dall'utente | Sviluppare funzioni definite dall'utente (UDF) per riutilizzare e condividere codice. |
| cartelle Git | Configurare le cartelle Git per controllare le versioni e gestire il codice sorgente nei file di progetto di Databricks. |
Interagire con la community di sviluppatori di Databricks
Databricks ha una community di sviluppatori attiva, supportata dai programmi e dalle risorse seguenti:
- MVP di Databricks: questo programma riconosce i membri della community, i data scientist, i data engineer, gli sviluppatori e gli appassionati open source che vanno oltre e oltre nella community di dati e intelligenza artificiale. Per ulteriori informazioni, vedere MVPs di Databricks.
- Training: Databricks offre moduli di apprendimento per sviluppatori Apache Spark, ingegneri di intelligenza artificiale generativi, data engineere altro ancora.
- Community: un'ampia gamma di conoscenze è disponibile dalla community di Databricks e dalla community di Apache Spark .