Condividi tramite


Esercitazione: Creare e distribuire un bundle nell'area di lavoro

Per iniziare a usare i bundle di asset di Databricks nell'area di lavoro, questa esercitazione illustra come creare un bundle con un processo, distribuirlo ed eseguire il processo nel bundle, tutto dall'area di lavoro.

Per i requisiti sull'utilizzo dei pacchetti nell'area di lavoro, consultare Requisiti dell'area di lavoro per i pacchetti di asset di Databricks.

Per altre informazioni sui bundle, vedere Che cosa sono i bundle di asset di Databricks?.

Creare un pacchetto

Creare prima di tutto un bundle nell'area di lavoro di Databricks:

  1. Passare alla cartella Git in cui si vuole creare il bundle.

    Suggerimento

    Se in precedenza è stata aperta la cartella Git nell'editor nell'area di lavoro, è possibile usare il menu di scelta rapida per la creazione del browser dell'area di lavoro per passare rapidamente alla cartella Git. Vedere Contesti di creazione.

  2. Fare clic sul pulsante Crea e quindi su Bundle asset. In alternativa, fare clic con il pulsante destro del mouse sulla cartella Git o sul kebab associato nell'albero dell'area di lavoro e scegliere Crea>bundle di asset:

    Creare un pacchetto di asset

  3. Nella finestra di dialogo Crea un bundle di asset, assegna un nome al bundle di asset, ad esempio totally-awesome-bundle. Il nome del bundle può contenere solo lettere, numeri, trattini e caratteri di sottolineatura. Selezionare Progetto vuoto e quindi fare clic su Crea e distribuisci .

    Finestra di dialogo Crea un nuovo bundle di risorse

Viene creato un bundle iniziale nella cartella Git, che include un .gitignore file di configurazione Git e il necessario file Asset Bundle di Databricks databricks.yml. Il databricks.yml file contiene la configurazione principale per il bundle. Per informazioni dettagliate, vedere Configurazione del bundle di asset di Databricks.

Nuovo bundle di risorse

Aggiungere un notebook

Aggiungere quindi un notebook al bundle. Il notebook nell'esempio seguente stampa "Hello World!".

  1. Fare clic sul riquadro del progetto bundle Aggiungi notebook. In alternativa, fare clic sul kebab per il bundle nel sommario e quindi fare clic su Crea>notebook.

  2. Rinominare il notebook in helloworld.

  3. Impostare il linguaggio del notebook su Python e incollare quanto segue nella cella del notebook:

    print("Hello World!")
    

Definire un'attività

Definire ora un processo che esegue il notebook.

  1. Fare clic sull'icona di distribuzione per il bundle per passare al pannello Distribuzioni .

    Icona del pannello Distribuzioni

  2. Nella sezione Risorse del pacchetto, fare clic su Aggiungi, quindi su Nuova definizione di processo.

    Creare una definizione di lavoro

  3. Digitare run-notebook nel campo Nome processo della finestra di dialogo Aggiungi processo a bundle esistente . Fare clic su Aggiungi e distribuisci.

  4. Viene visualizzata una finestra di dialogo di conferma della distribuzione a Dev con informazioni sulla risorsa del job che verrà creata nell'area di lavoro di destinazione Dev. Fare clic su Distribuisci.

  5. Tornare ai file del pacchetto cliccando sull'icona della cartella sopra l'icona delle distribuzioni. È stata creata una risorsa run-notebook.job.yml per il lavoro con YAML di base per il lavoro e alcune attività di lavoro YAML di esempio commentate aggiuntive.

  6. Aggiungi un'attività notebook alla definizione del processo. Sostituire l'esempio YAML nel run-notebook.job.yml file con quanto segue:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

    Configurazione dell'attività del notebook di lavoro YAML

Per informazioni dettagliate sulla definizione di un processo in YAML, vedere processo. Per la sintassi YAML per altri tipi di attività di processo supportati, vedere Aggiungere attività ai processi nei bundle di asset di Databricks.

Distribuire il pacchetto

Distribuire quindi il bundle ed eseguire il processo che contiene l'attività helloworld del notebook.

  1. Nel riquadro Distribuzioni per il bundle sotto Destinazioni, fai clic sul menu a discesa per selezionare il dev workspace di destinazione, se non è già selezionato. Le aree di lavoro di destinazione vengono definite nel mapping del targets del bundle databricks.yml. Per ulteriori informazioni, vedi le modalità di distribuzione del bundle di asset di Databricks .

    Scegliere la distribuzione di destinazione

  2. Fare clic sul pulsante Distribuisci . Il bundle viene convalidato e i dettagli della convalida vengono visualizzati in una finestra di dialogo.

  3. Esaminare i dettagli della distribuzione in questa finestra di dialogo di conferma della distribuzione in fase di sviluppo , quindi fare clic su Distribuisci.

    Finestra di dialogo Distribuisci in dev

    Importante

    La distribuzione di bundle e l'esecuzione delle risorse bundle eseguono il codice come utente attuale. Assicurati di fidarti del codice nel bundle, incluso il YAML, poiché potrebbe contenere impostazioni di configurazione che eseguono comandi.

Lo stato della distribuzione viene restituito nella finestra di output del progetto .

Esegui il lavoro

Le risorse bundle distribuite sono elencate in Risorse bundle. Fare clic sull'icona di riproduzione associata alla risorsa di lavoro per eseguirla.

Elencare le risorse distribuite

Passare a Esecuzioni di lavori dalla barra di navigazione a sinistra per vedere l'esecuzione del bundle. Il nome dell'esecuzione del job bundle è prefissato, ad esempio [dev someone] run-notebook.

Passaggi successivi