Che cosa è successo a Databricks Repos?

Azure Databricks ha implementato nuovi elementi dell'interfaccia utente che consentono agli utenti di lavorare direttamente con le cartelle supportate dal repository Git dall'interfaccia utente dell'area di lavoro, sostituendo in modo efficace la funzionalità precedente separata di "Repos".

Cosa significa questo cambiamento per me?

Se si è un utente della funzionalità Databricks Repos per il controllo del codice sorgente basato su Git con co-controllo delle risorse del progetto, la funzionalità principale non è stata modificata. La differenza più importante è che molte operazioni contestuali dell'interfaccia utente ora fanno riferimento a "Cartelle Git" anziché a "Repos".

Ad esempio, è possibile creare una cartella Databricks supportata da un repository Git selezionando Nuovo e quindi Repository dall'interfaccia utente:

Opzione di menu

A questo momento, selezionare Nuovo e scegliere Cartella Git. Stessa cosa, nome diverso!

L'opzione di menu

Questa modifica offre alcuni miglioramenti che semplificano l'uso delle cartelle controllate dalla versione:

  1. Organizzazione di cartelle migliore: le cartelle Git possono essere create a qualsiasi livello dell'albero dei file dell'area di lavoro, consentendo di organizzare le cartelle Git in modo ottimale per il progetto. Ad esempio, è possibile creare cartelle Git in /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. I repository possono essere creati solo a livello di directory fisso, ad esempio la radice della cartella utente Repos, ad esempio /Workspace/Repos/<user email>/<Repo name>.
    • Nota: le cartelle Git possono contenere o collocare con altri asset che non sono attualmente supportati da Repos. I tipi di asset non supportati, ad esempio gli asset DBSQL e gli esperimenti MLflow, possono essere spostati in cartelle Git. Il supporto della serializzazione per asset aggiuntivi verrà aggiunto nel tempo.
  2. Comportamenti semplificati dell'interfaccia utente: questa modifica comporta un'interazione comune dell'area di lavoro, che usa Git direttamente nell'area di lavoro di Databricks e riduce il tempo impiegato per spostarsi tra l'area di lavoro e le cartelle Git controllate dalla versione.

Cosa è cambiato, in particolare?

  1. Le cartelle Git possono essere create all'esterno della /Repos directory.
  2. Le cartelle Git vengono create selezionando Nuova>cartella Git in un'area di lavoro di Databricks. Verrà creata una nuova cartella Git in /Workspace/Users/<user-email>/.
  3. Le cartelle Git possono essere create a varie profondità dell'albero dei file dell'area di lavoro, purché si trovino in /Workspace/Users/<user-email>. Ad esempio, è possibile creare cartelle Git in /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. È possibile avere più cartelle Git in /Workspace/Users/<user-email>.
  4. Gli asset non supportati sono consentiti nelle cartelle Git. Il supporto della serializzazione per altri tipi di asset verrà aggiunto nel tempo.
  5. A differenza di Repos, non è possibile creare una nuova cartella Git in Databricks senza un URL del repository remoto.

Dettagli aggiuntivi

I repository esistenti creati dagli utenti non andranno via. Gli utenti non devono eseguire la migrazione di repository esistenti alle cartelle Git. I repository sono stati integrati nell'interfaccia utente dell'area di lavoro e non sono più un'esperienza di primo livello separata nell'interfaccia utente.

  • I riferimenti esistenti /Repos continueranno a funzionare: jobsdbutils.notebook.run e %run i riferimenti che usano notebook che si trovano nei /Repos percorsi continueranno a funzionare.
  • La cartella esistente /Repos verrà convertita in una normale cartella /Workspace in come /Workspace/Repose qualsiasi gestione speciale può essere rimossa. In rari casi, potrebbe essere necessario apportare alcune modifiche nell'area di lavoro per il funzionamento di questo reindirizzamento. Per altri dettagli, vedere Riferimenti agli oggetti dell'area di lavoro.

Databricks consiglia agli utenti di creare nuove cartelle Git invece di Repos se devono connettersi al controllo del codice sorgente Git dall'area di lavoro Databricks. L'individuazione di repository Git e altri asset dell'area di lavoro rende le cartelle Git più individuabili e più facili da gestire rispetto a Repos.

Le autorizzazioni delle cartelle Git per le cartelle Git hanno le stesse autorizzazioni per le cartelle dell'area di lavoro delle altre cartelle dell'area di lavoro. Gli utenti devono disporre dell'autorizzazione per eseguire la CAN_MANAGE maggior parte delle operazioni Git.

Quale DBR è consigliabile usare per l'esecuzione di codice nelle cartelle Git?

Per un'esecuzione coerente del codice tra cartelle Git e Repos legacy, è consigliabile che gli utenti eseguano codice nelle cartelle Git con DBR 14.3+.

Comportamento corrente della directory di lavoro (CWD)

Databricks Runtime (DBR) versione 14 o successiva offre la stessa esperienza di directory di lavoro corrente (CWD) per tutti i notebook, in cui la directory di lavoro corrente è la cartella da cui viene eseguito il notebook e che consente l'uso di percorsi relativi. L'esperienza CWD potrebbe non essere coerente tra notebook in una cartella Git e una cartella non Git per le versioni precedenti di Databricks Runtime (DBR).

Comportamento sys.path di Python

Databricks Runtime (DBR) versione 14.3 o successiva offre lo stesso sys.path comportamento nelle cartelle Git come nei repository legacy. Con le versioni precedenti di DBR, le cartelle Git hanno un comportamento diverso rispetto a Repos legacy perché la directory del repository radice non viene aggiunta automaticamente a sys.path per le cartelle Git. Per Python, sys.path contiene un elenco di directory in cui l'interprete cerca durante l'importazione dei moduli. Se non è possibile usare DBR 14.3 o versione successiva, come soluzione alternativa è possibile aggiungere manualmente un percorso di cartella a sys.path.

Per esempi su come aggiungere directory all'uso sys.path dei percorsi relativi, vedere Importare moduli Python e R.

Precedenza della libreria Python

Databricks Runtime (DBR) versione 14.3 o successiva fornisce la stessa precedenza della libreria Python nelle cartelle Git come in Repos legacy.