Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo descrive come compilare, distribuire ed eseguire un file JAR Scala con i bundle di asset di Databricks. Per informazioni sui bundle, vedere Che cosa sono i bundle di asset di Databricks?.
Ad esempio, la configurazione che compila un file JAR Java e la carica nel catalogo Unity, vedere Bundle che carica un file JAR in Unity Catalog.
Requisiti
- CLI Databricks versione 0.218.0 o successiva, con autenticazione configurata. Per controllare la versione installata dell'interfaccia della riga di comando di Databricks, eseguire il comando
databricks -v
. Per installare o aggiornare Databricks CLI, consultare Installare o aggiornare il Databricks CLI. Per configurare l'autenticazione, vedere Configurare l'accesso all'area di lavoro. - È necessario disporre di un volume di Unity Catalog in Databricks in cui archiviare gli artefatti di compilazione e le autorizzazioni per caricare il file JAR in un percorso di volume specificato. Vedere Creare e gestire volumi.
Passaggio 1: Creare il bundle
Creare prima di tutto il bundle usando il comando bundle init e il modello di bundle di progetto Scala. Il modello di bundle JAR scala crea un bundle che compila un file JAR, lo carica nel volume specificato e definisce un processo con un'attività Spark con il file JAR eseguito in un cluster specificato. Nel progetto modello Scala definisce una funzione definita dall'utente che applica una semplice trasformazione a un DataFrame di esempio e produce i risultati. L'origine del modello si trova nel repository bundle-examples.
Eseguire il comando seguente in una finestra del terminale nel computer di sviluppo locale. Richiede il valore di alcuni campi obbligatori.
databricks bundle init --template-dir contrib/templates/scala-job https://github.com/databricks/bundle-examples
Per un nome per il progetto, immettere
my_scala_project
. Questo determina il nome della cartella principale per questo bundle. Questa directory principale viene creata all’interno della directory di lavoro corrente.Per il percorso di destinazione dei volumi, specificare il percorso dei volumi di Unity Catalog in Databricks in cui si vuole creare la directory bundle che conterrà il file JAR e altri artefatti, ad esempio
/Volumes/my-catalog/my-schema/bundle-volumes
.Annotazioni
A seconda delle autorizzazioni dell'area di lavoro, l'amministratore potrebbe dover aggiungere alla allowlist il percorso JAR dei volumi specificato. Vedere librerie lista consentita e script di inizializzazione sulle risorse di calcolo con modalità di accesso standard (in precedenza modalità di accesso condiviso).
Passaggio 2: Esplorare il bundle
Per visualizzare i file generati dal modello, passare alla directory radice del bundle appena creato e aprire questa directory con l'IDE preferito. I file seguenti sono di particolare interesse:
-
databricks.yml
: questo file specifica il nome programmatico del bundle, include un riferimento alla definizione del processo e specifica le impostazioni relative all'area di lavoro di destinazione. -
resources/my_scala_project.job.yml
: questo file specifica le impostazioni dell'attività JAR e del cluster del processo. -
src/
: questa directory include i file di origine per il progetto Scala. -
build.sbt
: questo file contiene importanti impostazioni di compilazione e libreria dipendente. -
README.md
: questo file contiene questi passaggi introduttivi e le istruzioni e le impostazioni di compilazione locali.
Passaggio 3: Convalidare il file di configurazione del bundle del progetto
Verificare quindi se la configurazione del bundle è valida usando il comando di convalida del bundle.
Dal directory radice eseguire il comando CLI di Databricks
bundle validate
. Tra gli altri controlli, questo verifica che il volume specificato nel file di configurazione esista nell'area di lavoro.databricks bundle validate
Se viene restituito un riepilogo della configurazione del bundle, la convalida ha avuto esito positivo. Se vengono restituiti errori, correggere gli errori, ripetere questo passaggio.
Se si apportano modifiche al bundle dopo questo passaggio, ripetere questo passaggio per verificare se la configurazione del bundle è ancora valida.
Passaggio 4: Distribuire il progetto locale nell'area di lavoro remota
Distribuire ora il bundle nell'area di lavoro remota di Azure Databricks usando il comando di distribuzione del bundle. Questo passaggio compila il file JAR e lo carica nel volume specificato.
Eseguire il comando Databricks CLI
bundle deploy
.databricks bundle deploy -t dev
Per verificare se il file JAR compilato in locale è stato distribuito:
- Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Esplora cataloghi.
- Vai al percorso di destinazione del volume che hai specificato quando hai inizializzato il pacchetto. Il file JAR deve trovarsi nella cartella seguente all'interno di tale percorso:
/my_scala_project/dev/<user-name>/.internal/
.
Per verificare se l'attività è stata creata:
- Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Processi e pipeline.
- Opzionalmente, selezionare i filtri Attività e Di mia proprietà.
- Fare clic su [dev
<your-username>
]my_scala_project
. - Fare clic sulla scheda Attività.
Deve essere presente un'attività: main_task.
Se si apportano modifiche al bundle dopo questo passaggio, ripetere i passaggi di convalida e distribuzione.
Passaggio 5: Eseguire il progetto distribuito
Eseguire infine il processo di Azure Databricks usando il comando di esecuzione del bundle.
Dalla directory radice, eseguire il comando CLI di Databricks
bundle run
, specificando il nome del job nel file di definizionemy_scala_project.job.yml
:databricks bundle run -t dev my_scala_project
Copiare il valore di
Run URL
visualizzato nel terminale e incollare questo valore nel Web browser per aprire l'area di lavoro di Azure Databricks.Nell'area di lavoro di Azure Databricks, una volta che il compito si completa con successo e viene visualizzata una barra verde nel titolo, fare clic sul compito main_task per visualizzare i risultati.