Usare i notebook

Un notebook è una raccolta di celle eseguibili (comandi). Quando si usa un notebook, si sviluppano ed eseguono principalmente celle.

Tutte le attività notebook sono supportate dalle azioni dell'interfaccia utente, ma è anche possibile eseguire molte attività usando i tasti di scelta rapida. Attiva la visualizzazione dei tasti di scelta rapida facendo clic sull'icona Icona tastiera .

Per configurare le impostazioni del notebook, selezionare Impostazioni utente Icona impostazioni> utente Impostazioni > blocco appunti.

Sviluppare notebook

Questa sezione descrive come sviluppare celle del notebook e spostarsi in un notebook.

Contenuto della sezione:

Informazioni sui notebook

Un notebook include una barra degli strumenti che consente di gestire il notebook ed eseguire azioni all'interno del notebook:

Barra degli strumenti del notebook

e una o più celle (o comandi) che è possibile eseguire:

Celle notebook

A destra di una cella, le azioni cella Azioni cella contengono tre menu: Esegui, Dashboard e Modifica:

Icona di esecuzione - Dashboard - Modifica

e due azioni: Nascondi iconadi eliminazione e riduzione al minimo della cella.

Importante

La dimensione massima per una cella notebook, sia contenuto che output, è 16 MB.

Aggiungere una cella

Per aggiungere una cella, passare il mouse su una cella nella parte superiore o inferiore e fare clic sull'icona Aggiungi cella oppure accedere al menu cella del notebook a destra, fare clic su Down Caret e selezionare Aggiungi cella sopra o Aggiungi cella sotto.

Eliminare una cella

Passare al menu Azioni cella Azioni cella all'estrema destra e fare clic su Elimina icona (Elimina ).

Quando si elimina una cella, per impostazione predefinita viene visualizzata una finestra di dialogo di conferma dell'eliminazione. Per disabilitare le finestre di dialogo di conferma future, selezionare la casella di controllo Non visualizzare di nuovo questa casella di controllo e fare clic su Conferma. È anche possibile attivare l'impostazione della finestra di dialogo di conferma con l'opzione Attiva conferma eliminazione comando in Impostazioni utente Impostazioni> utente Impostazioni > blocco appunti.

Per ripristinare le celle eliminate, selezionare Modifica > elimina celle o usare il tasto di scelta rapida (Z).

Tagliare, copiare e incollare le celle

Esistono diverse opzioni per tagliare e copiare le celle:

  • Usare il menu Azioni cella Azioni cella a destra della cella. Fare clic su Giù Caret e selezionare Taglia cella o Copia cella.
  • Usare i tasti di scelta rapida: Command-X o Ctrl-X per tagliare e Command-CCtrl-C copiare.
  • Usare il menu Modifica nella parte superiore del notebook. Selezionare Taglia cella corrente o Copia cella corrente.

Dopo aver tagliato o copiato le celle, è possibile incollare tali celle altrove nel notebook, in un notebook diverso o in un notebook in una scheda o in una finestra del browser diversa. Per incollare le celle, usare il tasto di scelta rapida Command-V o Ctrl-V. Le celle vengono incollate sotto la cella corrente.

È possibile usare il tasto di scelta rapida Command-Z o Ctrl-Z per annullare o incollare azioni.

Nota

Se si usa Safari, è necessario usare i tasti di scelta rapida.

Selezionare più celle o tutte le celle

È possibile selezionare le celle del notebook adiacenti usando Maiusc + verso l'alto o verso il basso rispettivamente per la cella precedente e successiva. Quando sono selezionate più celle, è possibile copiare, tagliare, eliminare e incollarle.

Per selezionare tutte le celle, selezionare Modifica > tutte le celle o usare il collegamento in modalità comando Cmd+A.

Lingua predefinita

La lingua predefinita del notebook è indicata da un pulsante accanto al nome del notebook. Nel notebook seguente il linguaggio predefinito è SQL.

Lingua predefinita del notebook

Per modificare la lingua predefinita:

  1. Fare clic sul pulsante lingua. Viene visualizzata la finestra di dialogo Modifica lingua predefinita.

    Modificare la lingua predefinita

  2. Selezionare la nuova lingua dall'elenco a discesa Lingua predefinita .

  3. Fare clic su Cambia.

  4. Per assicurarsi che i comandi esistenti continuino a funzionare, i comandi della lingua predefinita precedente vengono preceduti automaticamente da un comando magic del linguaggio.

Combinazioni di lingue

Per impostazione predefinita, le celle usano la lingua predefinita del notebook. È possibile eseguire l'override della lingua predefinita in una cella facendo clic sul pulsante lingua e selezionando una lingua dall'elenco a discesa.

Elenco a discesa Lingua cella

In alternativa, è possibile usare il comando magic del linguaggio %<language> all'inizio di una cella. I comandi magic supportati sono: %python, %r, %scalae %sql.

Nota

Quando si richiama un comando magic del linguaggio, il comando viene inviato al REPL nel contesto di esecuzione per il notebook. Le variabili definite in una lingua (e quindi nel REPL per tale lingua) non sono disponibili nel REPL di un'altra lingua. I REPOSITORY possono condividere lo stato solo tramite risorse esterne, ad esempio file in DBFS o oggetti nell'archiviazione oggetti.

I notebook supportano anche alcuni comandi magic ausiliari:

  • %sh: consente di eseguire il codice della shell nel notebook. Per non riuscire la cella se il comando shell ha uno stato di uscita diverso da zero, aggiungere l'opzione -e . Questo comando viene eseguito solo sul driver Apache Spark e non sui lavoratori. Per eseguire un comando shell in tutti i nodi, usare uno script init.
  • %fs: consente di usare dbutils i comandi del file system. Ad esempio, per eseguire il dbutils.fs.ls comando per elencare i file, è possibile specificare %fs ls . Per altre informazioni, vedere Come interagire con i file in Azure Databricks.
  • %md: consente di includere vari tipi di documentazione, tra cui testo, immagini, formule matematiche ed equazioni. Vedere la sezione successiva.

Esplorare i risultati delle celle SQL nei notebook Python in modo nativo usando Python

È possibile caricare i dati usando SQL ed esplorarlo usando Python. In un notebook Python di Databricks, i risultati della tabella di una cella del linguaggio SQL vengono resi automaticamente disponibili come dataframe Python. Il nome del dataframe Python è _sqldf.

Nota

  • Nei notebook Python il dataframe _sqldf non viene salvato automaticamente e viene sostituito con i risultati dell'esecuzione della cella SQL più recente. Per salvare il dataframe, eseguire questo codice in una cella Python:

    new_dataframe_name = _sqldf
    
  • Se la query usa un widget per la parametrizzazione, i risultati non sono disponibili come dataframe Python.

  • Se la query usa le parole chiave CACHE TABLE o UNCACHE TABLE, i risultati non sono disponibili come dataframe Python.

Lo screenshot mostra un esempio:

dataframe dei risultati sql

Evidenziazione e completamento automatico della sintassi SQL nei comandi Python

L'evidenziazione della sintassi e il completamento automatico di SQL sono disponibili quando si usa SQL all'interno di un comando Python, ad esempio in un spark.sql comando.

Includi documentazione

Per includere la documentazione in un notebook, è possibile creare una cella markdown selezionando Markdown dal pulsante lingua della cella o usando il %md comando magic. Il rendering del contenuto della cella viene eseguito in HTML. Ad esempio, questo frammento di codice contiene markup per un'intestazione di livello uno:

%md # Hello This is a Title

Viene eseguito il rendering come titolo HTML:

Titolo HTML del notebook

Intestazioni comprimibili

Le celle visualizzate dopo le celle contenenti intestazioni Markdown possono essere compresse nella cella intestazione. L'immagine seguente mostra un'intestazione di livello 1 denominata Titolo 1 con le due celle seguenti compresse.

Celle compresse

Per espandere e comprimere le intestazioni, fare clic su + e -.

Vedere anche Nascondere e visualizzare il contenuto della cella.

Per espandere o comprimere le celle dopo le celle contenenti intestazioni Markdown in tutto il notebook, selezionare Expland all headings (Esplora tutte le intestazioni ) o Comprimi tutte le intestazioni dal menu Visualizza .

espandi-comprimi tutto nel menu visualizza

È possibile collegarsi ad altri notebook o cartelle nelle celle Markdown usando i percorsi relativi. Specificare l'attributo href di un tag di ancoraggio come percorso relativo, a partire da e $ quindi seguire lo stesso modello dei file system Unix:

%md
<a href="$./myNotebook">Link to notebook in same folder as current notebook</a>
<a href="$../myFolder">Link to folder in parent folder of current notebook</a>
<a href="$./myFolder2/myNotebook2">Link to nested notebook</a>

Visualizzare immagini

Per visualizzare le immagini archiviate in FileStore, usare la sintassi :

%md
![test](files/image.png)

Si supponga, ad esempio, di avere il file di immagine del logo databricks in FileStore:

dbfs ls dbfs:/FileStore/
databricks-logo-mobile.png

Quando si include il codice seguente in una cella Markdown:

Immagine nella cella Markdown

il rendering dell'immagine viene eseguito nella cella:

Immagine sottoposta a rendering

Visualizzare equazioni matematiche

I notebook supportano KaTeX per la visualizzazione di formule matematiche ed equazioni. Ad esempio,

%md
\\(c = \\pm\\sqrt{a^2 + b^2} \\)

\\(A{_i}{_j}=B{_i}{_j}\\)

$$c = \\pm\\sqrt{a^2 + b^2}$$

\\[A{_i}{_j}=B{_i}{_j}\\]

esegue il rendering come:

Equazione sottoposta a rendering 1

e

%md
\\( f(\beta)= -Y_t^T X_t \beta + \sum log( 1+{e}^{X_t\bullet\beta}) + \frac{1}{2}\delta^t S_t^{-1}\delta\\)

where \\(\delta=(\beta - \mu_{t-1})\\)

esegue il rendering come:

Equazione sottoposta a rendering 2

Includi HTML

È possibile includere HTML in un notebook usando la funzione displayHTML. Per un esempio di come eseguire questa operazione , vedere HTML, D3 e SVG nei notebook .

Nota

L'iframe displayHTML viene servito dal dominio databricksusercontent.com e la sandbox iframe include l'attributo allow-same-origin . databricksusercontent.com deve essere accessibile dal browser. Se è attualmente bloccato dalla rete aziendale, deve essere aggiunto a un elenco di elementi consentiti.

Commenti dei comandi

È possibile discutere con i collaboratori usando i commenti dei comandi.

Per attivare o disattivare la barra laterale Commenti, fare clic sul pulsante Commenti in alto a destra di un blocco appunti.

Attivare o disattivare i commenti dei notebook

Per aggiungere un commento a un comando:

  1. Evidenziare il testo del comando e fare clic sulla bolla di commento:

    Apri commenti

  2. Aggiungere il commento e fare clic su Commento.

    Aggiungi commento

Per modificare, eliminare o rispondere a un commento, fare clic sul commento e scegliere un'azione.

Modifica commento

Modificare la visualizzazione delle celle

Sono disponibili tre opzioni di visualizzazione per i notebook:

  • Visualizzazione standard: i risultati vengono visualizzati immediatamente dopo le celle di codice
  • Solo risultati: vengono visualizzati solo i risultati
  • Side-by-side: le celle di codice e risultati vengono visualizzate affiancate, con risultati a destra

Passare al menu Visualizza menu Visualizza per selezionare l'opzione di visualizzazione.

visualizzazione side-by-side

Mostra numeri di riga e comando

Per visualizzare numeri di riga o numeri di comando, passare al menu Visualizza menu Visualizza e selezionare Mostra numeri di riga o Mostra numeri di comando. Una volta visualizzati, è possibile nasconderli di nuovo dallo stesso menu. È anche possibile abilitare i numeri di riga con i tasti di scelta rapida Ctrl+L.

Mostra numeri di riga o di comando tramite il menu Visualizza

Numeri di riga e comando abilitati nel notebook

Se si abilitano numeri di riga o di comando, Databricks salva le preferenze e le visualizza in tutti gli altri notebook per tale browser.

I numeri di comando sopra le celle si collegano a tale comando specifico. Se si fa clic sul numero di comando per una cella, aggiorna l'URL per essere ancorato a tale comando. Per collegare un comando specifico nel notebook, fare clic con il pulsante destro del mouse sul numero di comando e scegliere Copia indirizzo collegamento.

Cercare e sostituire testo

Per trovare e sostituire il testo all'interno di un notebook, selezionare Modifica > trova e sostituisci. La corrispondenza corrente è evidenziata in arancione e tutte le altre corrispondenze sono evidenziate in giallo.

Testo corrispondente

Per sostituire la corrispondenza corrente, fare clic su Sostituisci. Per sostituire tutte le corrispondenze nel notebook, fare clic su Sostituisci tutto.

Per spostarsi tra corrispondenze, fare clic sui pulsanti Prev e Avanti . È anche possibile premere MAIUSC+INVIO e immettere per passare rispettivamente alle corrispondenze precedenti e successive.

Per chiudere lo strumento trova e sostituisci, fare clic su Elimina icona o premere ESC.

Completamento automatico

È possibile usare il completamento automatico di Azure Databricks per completare automaticamente i segmenti di codice durante la digitazione. Azure Databricks supporta due tipi di completamento automatico: locale e server.

Il completamento automatico locale completa le parole definite nel notebook. Il completamento automatico del server accede al cluster per tipi, classi e oggetti definiti, nonché per i nomi di database e tabelle SQL. Per attivare il completamento automatico del server, collegare il notebook a un cluster ed eseguire tutte le celle che definiscono oggetti completabili.

Importante

Il completamento automatico del server nei notebook R viene bloccato durante l'esecuzione del comando.

Per attivare il completamento automatico, premere TAB dopo aver immesso un oggetto completabile. Ad esempio, dopo aver definito ed eseguito le celle contenenti le definizioni di MyClass e instance, i metodi di instance sono completabili e quando si preme TAB viene visualizzato un elenco di completamenti validi.

Completamento automatico dei trigger

Il completamento dei tipi, nonché il completamento del database SQL e del nome della tabella, funzionano nelle celle SQL e in SQL incorporato in Python.

Completamento del tipoCompletamento SQL

In Databricks Runtime 7.4 e versioni successive è possibile visualizzare i suggerimenti per la documentazione python premendo MAIUSC+TAB dopo aver immesso un oggetto Python completo. Le docstring contengono le stesse informazioni della help() funzione per un oggetto .

Docstring python

Formattare SQL

Azure Databricks offre strumenti che consentono di formattare il codice SQL nelle celle del notebook in modo rapido e semplice. Questi strumenti riducono lo sforzo necessario per mantenere formattato il codice e contribuire a applicare gli stessi standard di codifica nei notebook.

È possibile attivare il formattatore nei modi seguenti:

  • Celle singole

    • Tasto di scelta rapida: premere CMD+MAIUSC+F.

    • Menu di scelta rapida dei comandi: selezionare Formatta SQL nel menu a discesa del contesto del comando di una cella SQL. Questo elemento è visibile solo nelle celle del notebook SQL e in quelle con un %sqllinguaggio magic.

      Formattazione di SQL dal contesto di comando

  • Più celle

    Selezionare più celle SQL e quindi selezionare Modifica > formato celle SQL. Se si selezionano celle di più di un linguaggio, vengono formattate solo le celle SQL. Sono inclusi quelli che usano %sql.

    Menu Modifica formattazione SQL

Ecco la prima cella dell'esempio precedente dopo la formattazione:

Dopo la formattazione di SQL

Visualizzare il sommario

Per visualizzare un sommario generato automaticamente, fare clic sulla freccia in alto a sinistra del notebook (tra la barra laterale e la cella superiore). Il sommario viene generato dalle intestazioni Markdown usate nel notebook.

Apri sommario

Per chiudere il sommario, fare clic sulla freccia rivolta verso sinistra.

Chiudi sommario

Visualizzare i notebook in modalità scura

È possibile scegliere di visualizzare i notebook in modalità scura. Per attivare o disattivare la modalità scura, selezionare Visualizza > tema notebook e selezionare Tema chiaro o Tema scuro.

Modalità chiaro o scuro del notebook

Eseguire notebook

Per eseguire tutte le celle di un notebook, selezionare Esegui tutto nella barra degli strumenti del notebook.

Importante

Non usare Esegui tutto se i passaggi per il montaggio e lo smontaggio si trovano nello stesso notebook. Potrebbe causare una race condition e probabilmente danneggiare i punti di montaggio.

Per eseguire una singola cella, fare clic nella cella e premere MAIUSC+INVIO.

Per eseguire tutte le celle prima o dopo una cella, utilizzare il menu Azioni cella azioni cella all'estrema destra. Fare clic su Esegui menu e selezionare Esegui tutto sopra o Esegui tutto sotto. Esegui Tutto sotto include la cella in cui ci si trova; Non eseguire All Above .

Quando un notebook è in esecuzione, l'icona nella scheda notebook passa dall'icona della scheda del notebookall'icona della scheda del notebook in cui è in esecuzione l'icona della scheda del notebook. Se le notifiche sono abilitate nel browser e si passa a una scheda diversa durante l'esecuzione di un notebook, al termine del notebook viene visualizzata una notifica.

Visualizzare più output per cella

I notebook e %python le celle Python nei notebook non Python supportano più output per cella.

Più output in una cella

In Databricks Runtime 7.3 LTS è necessario abilitare questa funzionalità impostando spark.databricks.workspace.multipleResults.enabled true.

Evidenziazione degli errori di Python e Scala

I notebook Python e Scala supportano l'evidenziazione degli errori. Ovvero, la riga di codice che genera l'errore verrà evidenziata nella cella. Inoltre, se l'output dell'errore è uno stacktrace, la cella in cui viene generato l'errore viene visualizzata nello stacktrace come collegamento alla cella. È possibile fare clic su questo collegamento per passare al codice che causa l'errore.

Evidenziazione degli errori Python

Evidenziazione degli errori scala

Notifiche

Le notifiche segnalano determinati eventi, ad esempio quale comando è attualmente in esecuzione durante l'esecuzione dei notebook e quali comandi sono in stato di errore. Quando il notebook visualizza più notifiche di errore, il primo avrà un collegamento che consente di cancellare tutte le notifiche.

Notifiche del notebook

Le notifiche dei notebook sono abilitate per impostazione predefinita. È possibile disabilitarli in Impostazioni utenteIcona> impostazioni utente Impostazioni > blocco appunti.

Notifiche in background

Se si avvia un'esecuzione del notebook e quindi si esce dalla scheda o dalla finestra in cui è in esecuzione il notebook, al termine del notebook viene visualizzata una notifica. È possibile disabilitare questa notifica nelle impostazioni del browser.

Databricks Advisor

Databricks Advisor analizza automaticamente i comandi ogni volta che vengono eseguiti e visualizza i consigli appropriati nei notebook. Gli avvisi forniscono informazioni utili per migliorare le prestazioni dei carichi di lavoro, ridurre i costi ed evitare errori comuni.

Visualizza consigli

Una casella blu con un'icona lampadina segnala che i consigli sono disponibili per un comando. Nella casella viene visualizzato il numero di pezzi distinti di consigli.

Consigli di Databricks

Fare clic sulla lampadina per espandere la casella e visualizzare il consiglio. Uno o più consigli diventeranno visibili.

Visualizza consigli

Fare clic sul collegamento Altre informazioni per visualizzare la documentazione che fornisce altre informazioni correlate al consiglio.

Fare clic sul collegamento Non visualizzare di nuovo questo collegamento per nascondere il consiglio. Il consiglio di questo tipo non verrà più visualizzato. Questa azione può essere invertita in Impostazioni notebook.

Fare di nuovo clic sulla lampadina per comprimere la casella dei consigli.

Impostazioni dei consigli

Accedere alla pagina Impostazioni blocco appunti selezionando Impostazioni utenteIcona> impostazioni utente Impostazioni > notebook o facendo clic sull'icona a forma di ingranaggio nella casella dei consigli espansi.

Impostazioni del notebook

Attivare o disabilitare l'opzione Attiva Assistente Databricks per abilitare o disabilitare i consigli.

Il collegamento Reimposta consigli nascosti viene visualizzato se uno o più tipi di consigli sono attualmente nascosti. Fare clic sul collegamento per rendere nuovamente visibile il tipo di consiglio.

Condividere il codice nei notebook

Azure Databricks supporta diversi metodi per la condivisione del codice tra notebook. Ognuno di questi consente di modularizzare e condividere codice in un notebook, esattamente come si farebbe con una libreria.

Per interazioni più complesse tra notebook, vedere Modularizzare o collegare il codice nei notebook.

Usare %run per importare un notebook

La %run magia esegue tutti i comandi da un altro notebook. Un uso tipico consiste nel definire le funzioni helper in un notebook usato da altri notebook.

Nell'esempio seguente il primo notebook definisce una funzione helper, reverse, disponibile nel secondo notebook dopo aver usato il %run magic per eseguire shared-code-notebook.

Notebook del codice condiviso

Esempio di importazione del notebook

Poiché entrambi questi notebook si trovano nella stessa directory nell'area di lavoro, usare il prefisso ./ in ./shared-code-notebook per indicare che il percorso deve essere risolto rispetto al notebook attualmente in esecuzione. È possibile organizzare i notebook in directory, ad esempio , o usare un percorso assoluto, ad %run /Users/username@organization.com/directory/notebookesempio %run ./dir/notebook.

Nota

  • %run deve trovarsi in una cella da sola, perché esegue l'intero notebook inline.
  • Non è possibile usare %run per eseguire un file Python e import le entità definite in tale file in un notebook. Per importare da un file Python, vedere Fare riferimento ai file di codice sorgente con Git. In alternativa, creare un pacchetto del file in una libreria Python, creare una libreria di Azure Databricks da tale libreria Python e installare la libreria nel cluster usato per eseguire il notebook.
  • Quando si usa %run per eseguire un notebook contenente widget, per impostazione predefinita il notebook specificato viene eseguito con i valori predefiniti del widget. È anche possibile passare valori ai widget; vedere Usare i widget di Databricks con %run.

Fare riferimento ai file di codice sorgente con Git

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Per i notebook archiviati in un repository di Azure Databricks , è possibile fare riferimento ai file di codice sorgente nel repository. L'esempio seguente usa un file Python anziché un notebook.

Creare un nuovo repository di esempio per visualizzare il layout del file:

Nuovo repository

Repository di esempio

Per configurare un repository Git esistente, vedere Clonare un repository Git remoto.

Creare due file nel repository:

  1. File Python con il codice condiviso.
  2. Notebook che usa il codice Python condiviso.

File di repository di codice condiviso

Il file shared.py Python contiene l'helper.

File Python di codice condiviso

Ora, quando si apre il notebook, è possibile fare riferimento ai file di codice sorgente nel repository usando comandi comuni come import.

File git di codice condiviso

Per altre informazioni sull'uso dei file nei repository Git, vedere Usare i file nell'interfaccia utente.

Gestire lo stato e i risultati del notebook

Dopo aver collegato un notebook a un cluster ed eseguire una o più celle, il notebook ha stato e visualizza i risultati. Questa sezione descrive come gestire lo stato e i risultati del notebook.

Contenuto della sezione:

Cancellare lo stato e i risultati dei notebook

Per cancellare lo stato e i risultati del notebook, fare clic su Cancella nella barra degli strumenti del notebook e selezionare l'azione:

Cancellare lo stato e i risultati

Mostra risultati

Quando viene eseguita una cella, Azure Databricks restituisce 1000 righe di un dataframe. Con Databricks Runtime 8.4 e versioni successive, se sono presenti più di 1000 righe, è possibile eseguire nuovamente la query per visualizzare fino a 10.000 righe.

Opzione di ripetizione dell'esecuzione

Scaricare i risultati

Per impostazione predefinita, il download dei risultati è abilitato. Per attivare questa impostazione, vedere Gestire la possibilità di scaricare i risultati dai notebook.

È possibile scaricare un risultato della cella contenente l'output tabulare nel computer locale. Fare clic sul menu a tre pulsanti accanto al titolo della scheda. Le opzioni di menu dipendono dal numero di righe nel risultato e dalla versione di Databricks Runtime. I risultati scaricati vengono salvati nel computer locale come file CSV denominato export.csv.

Scaricare i risultati della cella

Nascondere e visualizzare il contenuto della cella

Il contenuto della cella è costituito da codice cella e il risultato dell'esecuzione della cella. È possibile nascondere e visualizzare il codice della cella e il risultato usando il menu azioni cella Azioni cella nella parte superiore destra della cella.

Per nascondere il codice della cella:

  • Fare clic su Caret giù e selezionare Nascondi codice

Per nascondere e visualizzare il risultato della cella, eseguire una delle operazioni seguenti:

  • Fare clic su Down Caret (Nascondi risultato) e selezionare Nascondi risultato
  • Selezionare Cella ridotta a icona
  • Digitare Esc > Maiusc + o

Per visualizzare il codice o i risultati delle celle nascoste, fare clic sui collegamenti Mostra :

Mostra codice nascosto e risultati

Vedere anche intestazioni collapsible.

Isolamento del notebook

L'isolamento del notebook fa riferimento alla visibilità delle variabili e delle classi tra notebook. Azure Databricks supporta due tipi di isolamento:

  • Isolamento di variabili e classi
  • Isolamento sessione Spark

Nota

Azure Databricks gestisce l'isolamento degli utenti usando le modalità di accesso configurate nei cluster.

  • Nessun isolamento condiviso: più utenti possono usare lo stesso cluster. Gli utenti condividono le credenziali impostate a livello di cluster. Non vengono applicati controlli di accesso ai dati.
  • Utente singolo: solo l'utente denominato può usare il cluster. Tutti i comandi vengono eseguiti con i privilegi dell'utente. Gli ACL di tabella nel metastore Hive non vengono applicati. Questa modalità di accesso supporta Unity Catalog.
  • Condiviso: più utenti possono usare lo stesso cluster. Gli utenti sono completamente isolati tra loro e ogni utente esegue comandi con i propri privilegi. Gli ACL di tabella nel metastore Hive vengono applicati. Questa modalità di accesso supporta Unity Catalog.

Isolamento di variabili e classi

Le variabili e le classi sono disponibili solo nel notebook corrente. Ad esempio, due notebook collegati allo stesso cluster possono definire variabili e classi con lo stesso nome, ma questi oggetti sono distinti.

Per definire una classe visibile a tutti i notebook collegati allo stesso cluster, definire la classe in una cella del pacchetto. È quindi possibile accedere alla classe usando il nome completo, che corrisponde all'accesso a una classe in una libreria Scala o Java associata.

Isolamento sessione Spark

Ogni notebook collegato a un cluster che esegue Apache Spark 2.0.0 e versioni successive ha una variabile predefinita denominataspark che rappresenta un SparkSessionoggetto . SparkSession è il punto di ingresso per l'uso delle API Spark e l'impostazione delle configurazioni di runtime.

L'isolamento della sessione Spark è abilitato per impostazione predefinita. È anche possibile usare viste temporanee globali per condividere visualizzazioni temporanee tra notebook. Vedere CREATE VIEW. Per disabilitare l'isolamento della sessione Spark, impostato spark.databricks.session.share su true nella configurazione di Spark.

Importante

L'impostazione spark.databricks.session.share true interrompe il monitoraggio usato dalle celle del notebook di streaming e dai processi di streaming. In particolare:

  • I grafici nelle celle di streaming non vengono visualizzati.
  • I processi non bloccano finché un flusso è in esecuzione (terminano semplicemente "correttamente", arrestando il flusso).
  • I flussi nei processi non vengono monitorati per la terminazione. È invece necessario chiamare awaitTermination()manualmente .
  • La chiamata a Crea una nuova visualizzazione nei dataframe di streaming non funziona.

Le celle che attivano i comandi in altri linguaggi, ovvero celle che usano , %python, e ) %sqle celle che includono altri notebook , ovvero celle che usano %run%scala) fanno parte %rdel notebook corrente. Pertanto, queste celle si trovano nella stessa sessione di altre celle del notebook. Al contrario, un flusso di lavoro del notebook esegue un notebook con un blocco appunti isolato SparkSession, che significa che le visualizzazioni temporanee definite in un notebook non sono visibili in altri notebook.

Cronologia delle revisioni

I notebook di Azure Databricks mantengono una cronologia delle revisioni, consentendo di visualizzare e ripristinare gli snapshot precedenti del notebook. È possibile eseguire le azioni seguenti sulle revisioni: aggiungere commenti, ripristinare ed eliminare revisioni e cancellare la cronologia delle revisioni.

Per accedere alle revisioni del notebook, fare clic su Cronologia revisioni nella parte superiore destra della barra degli strumenti del notebook.

Cronologia delle revisioni

Contenuto della sezione:

Aggiungi un commento

Per aggiungere un commento alla revisione più recente:

  1. Fare clic sulla revisione.

  2. Fare clic sul collegamento Salva ora .

    Salva commento

  3. Nella finestra di dialogo Salva revisione blocco appunti immettere un commento.

  4. Fare clic su Salva. La revisione del notebook viene salvata con il commento immesso.

Ripristinare una revisione

Per ripristinare una revisione:

  1. Fare clic sulla revisione.

  2. Fare clic su Ripristina questa revisione.

    Revisione del ripristino

  3. Fare clic su Conferma. La revisione selezionata diventa la revisione più recente del notebook.

Eliminare una revisione

Per eliminare la voce di revisione di un notebook:

  1. Fare clic sulla revisione.

  2. Fare clic sull'icona del cestino Cestino.

    Elimina revisione

  3. Fare clic su Sì, cancellare. La revisione selezionata viene eliminata dalla cronologia delle revisioni del notebook.

Cancellare una cronologia delle revisioni

Per cancellare la cronologia delle revisioni di un notebook:

  1. Selezionare Cancella > cronologia revisioni file.

  2. Fare clic su Sì, deselezionare. La cronologia delle revisioni del notebook viene cancellata.

    Avviso

    Dopo la cancellazione, la cronologia delle revisioni non è recuperabile.

Controllo della versione con Git

Nota

Per sincronizzare il lavoro in Azure Databricks con un repository Git remoto, Databricks consiglia di usare l'integrazione Git con Databricks Repos.

Per collegare un singolo notebook a Git, Azure Databricks supporta anche questi strumenti di controllo della versione basati su Git:

Controllo della versione di GitHub

Controllo della versione del server Bitbucket Cloud e Bitbucket

Controllo della versione di Azure DevOps Services

Testare i notebook

Questa sezione illustra diversi modi per testare il codice nei notebook di Databricks. È possibile usare questi metodi separatamente o insieme.

Molte librerie di unit test funzionano direttamente all'interno del notebook. Ad esempio, è possibile usare il pacchetto Python unittest predefinito per testare il codice del notebook.

def reverse(s):
    return s[::-1]

import unittest

class TestHelpers(unittest.TestCase):
    def test_reverse(self):
        self.assertEqual(reverse('abc'), 'cba')

r = unittest.main(argv=[''], verbosity=2, exit=False)
assert r.result.wasSuccessful(), 'Test failed; see logs above'

Gli errori di test vengono visualizzati nell'area di output della cella.

Errore di unit test

È possibile usare widget per distinguere le chiamate di test dalle normali chiamate in un singolo notebook.

Personalizzare l'esecuzione del widget

Per nascondere il codice di test e i risultati, selezionare le voci di menu associate dall'elenco a discesa della cella. Eventuali errori che si verificano vengono visualizzati anche quando i risultati sono nascosti.

Nascondere il codice di test e i risultati

Per eseguire i test periodicamente e automaticamente, è possibile usare i notebook pianificati. È possibile configurare il processo per inviare messaggi di posta elettronica di notifica a un indirizzo specificato.

Test del notebook pianificato

Separare il codice di test dal notebook

Per separare il codice di test dal codice sottoposto a test, vedere Condividere il codice nei notebook.

Esempio che usa %run:

Separazione del codice di test

Per il codice archiviato in un repository di Databricks, è possibile usare il terminale Web per eseguire test nei file del codice sorgente esattamente come nel computer locale.

Repos testing della chiamata

È anche possibile eseguire questo test da un notebook.

Chiamata di test dei notebook

Per i notebook in un repository di Databricks, è possibile configurare un flusso di lavoro in stile CI/CD configurando i test del notebook da eseguire per ogni commit. Vedere Databricks GitHub Actions.