Configurare le cartelle Git di Databricks (Repository)

Informazioni su come configurare le cartelle Git di Databricks (in precedenza Repos) per il controllo della versione. Dopo aver configurato le cartelle Git in Databricks, è possibile eseguire operazioni Git comuni, ad esempio clonare, estrarre, eseguire il commit, il push, il pull e la gestione dei rami dall'interfaccia utente di Databricks. È anche possibile visualizzare le diff per le modifiche durante lo sviluppo con notebook e file in Databricks.

Configurare le impostazioni utente

Le cartelle Git di Databricks usano un token di accesso personale (PAT) o una credenziale equivalente per eseguire l'autenticazione con il provider Git per eseguire operazioni quali clonazione, push, pull e così via. Per usare le cartelle Git, è prima necessario aggiungere il nome utente del provider Git PAT e Git a Databricks. Vedere Configurare le credenziali Git e connettere un repository remoto ad Azure Databricks.

È possibile clonare repository remoti pubblici senza credenziali Git (un token di accesso personale e un nome utente). Per modificare un repository remoto pubblico o per clonare o modificare un repository remoto privato, è necessario disporre di un nome utente del provider Git e pat con autorizzazioni di scrittura (o superiore) per il repository remoto.

Le cartelle Git sono abilitate per impostazione predefinita. Per altre informazioni sull'abilitazione o la disabilitazione del supporto delle cartelle Git, vedere Abilitare o disabilitare la funzionalità della cartella Git di Databricks.

Aggiungere o modificare le credenziali Git in Databricks

Importante

Le cartelle Git di Databricks supportano una sola credenziale Git per utente, per area di lavoro.

  1. Selezionare la freccia giù accanto al nome dell'account in alto a destra nella schermata e quindi selezionare Impostazioni.

  2. Selezionare la scheda account collegati.

  3. Se si aggiungono le credenziali per la prima volta, seguire le istruzioni visualizzate.

    Se sono state immesse le credenziali in precedenza, fare clic su Modifica configurazione>e passare al passaggio successivo.

  4. Nell'elenco a discesa provider Git selezionare il nome del provider.

  5. Immettere il nome utente Git o il messaggio di posta elettronica.

  6. Nel campo Token aggiungere un token di accesso personale (PAT) o altre credenziali dal provider Git. Per informazioni dettagliate, vedere Configurare le credenziali Git e connettere un repository remoto ad Azure Databricks

    Importante

    Databricks consiglia di impostare una data di scadenza per tutti i token di accesso personali.

    Per Azure DevOps, se non si immette un token o una password dell'app, l'integrazione git usa il token Microsoft Entra ID (in precedenza Azure Active Directory) per impostazione predefinita. Se si immette un token di accesso personale di Azure DevOps, l'integrazione git la usa. Vedere Connessione a un repository Di Azure DevOps usando un token.

    Nota

    Dopo aver aggiornato la password di Azure, eseguire nuovamente l'autenticazione con Azure Databricks se è necessaria la nuova autenticazione per funzionare immediatamente. Se non si esegue di nuovo l'autenticazione, la connessione di Azure DevOps potrebbe non essere convalidata per un massimo di 24 ore.

    Se l'organizzazione ha abilitato l'accesso SSO SAML in GitHub, autorizzare il token di accesso personale per l'accesso SSO.

  7. Immettere il nome utente nel campo Nome utente del provider Git.

  8. Fare clic su Salva.

È anche possibile salvare un token Git PAT e un nome utente in Azure Databricks usando l'API Databricks Repos.

Se non si è in grado di clonare il repository e si usa Azure DevOps con l'autenticazione microsoft Entra ID, vedere Problema con un criterio di accesso condizionale (CAP) per Microsoft Entra ID (in precedenza Azure Active Directory).

Connettività di rete tra le cartelle Git di Databricks e un provider Git

Per il funzionamento delle cartelle Git è necessaria la connettività di rete al provider Git. In genere, questo è su Internet e funziona fuori scatola. Tuttavia, è possibile configurare restrizioni aggiuntive per il provider Git per controllare l'accesso. Ad esempio, potrebbe essere presente un elenco di indirizzi IP consentiti oppure è possibile ospitare un server Git locale usando servizi come GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Self-managed. A seconda dell'hosting e della configurazione della rete, il server Git potrebbe non essere accessibile tramite Internet.

Nota

  • Se il server Git è accessibile da Internet ma include un elenco di indirizzi IP consentiti, ad esempio gli elenchi di indirizzi consentiti di GitHub, è necessario aggiungere indirizzi IP NAT del piano di controllo di Azure Databricks all'elenco indirizzi IP consentiti del server Git. Per un elenco di indirizzi IP NAT del piano di controllo per area, vedere Aree di Azure Databricks . Usare l'indirizzo IP per l'area in cui si trova l'area di lavoro di Azure Databricks.
  • Se si ospita privatamente un server Git, vedere Configurare la connettività Git privata per le cartelle Git di Databricks (Repos) o contattare il team dell'account di Azure Databricks per istruzioni di onboarding per l'accesso.

Funzionalità di sicurezza nelle cartelle Git

Le cartelle Git di Databricks hanno molte funzionalità di sicurezza. Le sezioni seguenti illustrano la configurazione e l'uso:

  • Uso delle credenziali Git crittografate
  • Elenco elementi consentiti
  • Controllo di accesso ad aree di lavoro
  • Registrazione del controllo
  • Rilevamento dei segreti

Bring Your Own Key: Crittografa le credenziali Git

È possibile usare Azure Key Vault per crittografare un token di accesso personale Git o altre credenziali Git. L'uso di una chiave da un servizio di crittografia viene definito chiave gestita dal cliente (CMK) o BYOK (Bring Your Own Key).

Per altre informazioni, vedere Chiavi gestite dal cliente per la crittografia.

Limitare l'utilizzo agli URL in un elenco di elementi consentiti

Se si usa Microsoft Entra ID per l'autenticazione con Azure DevOps, l'elenco di indirizzi consentiti predefinito limita gli URL Git a:

  • dev.azure.com
  • visualstudio.com

Per AAD con alias CNAMES o GIT URL personalizzati, l'amministratore dell'area di lavoro può configurare un elenco di elementi consentiti personalizzato, come illustrato nei passaggi seguenti. Se si usa un elenco di elementi consentiti personalizzati, l'amministratore dell'area di lavoro deve aggiungere questi URL se si vuole usarli: dev.azure.com e visualstudio.com.

Un amministratore dell'area di lavoro può limitare i repository remoti a cui gli utenti possono clonare e eseguire il commit e il push. Ciò consente di evitare l'esfiltrazione del codice; Ad esempio, gli utenti non possono eseguire il push del codice in un repository arbitrario se sono state attivate le restrizioni dell'elenco consenti. È anche possibile impedire agli utenti di usare codice senza licenza limitando l'operazione di clonazione a un elenco di repository consentiti.

Per configurare un elenco di elementi consentiti:

  1. Passare alla pagina delle impostazioni.
  2. Fare clic sulla scheda Amministratore dell'area di lavoro (è aperta per impostazione predefinita).
  3. Nella sezione Sviluppo scegliere un'opzione dall'autorizzazione elenco consenti URL Git:
    • Disabilitato (nessuna restrizione): non sono previsti controlli sull'elenco elementi consentiti.
    • Limitare clonazione, commit e push ai repository Git consentiti: le operazioni di clonazione, commit e push sono consentite solo per gli URL del repository nell'elenco elementi consentiti.
    • Limita commit e push solo ai repository Git consentiti: le operazioni di commit e push sono consentite solo per gli URL del repository nell'elenco consenti. Le operazioni di clonazione e pull non sono limitate.

Riquadro Sviluppo in Amministrazione Impostazioni usato per impostare l'accesso Git utente

  1. Fare clic sul pulsante Modifica accanto all'elenco consenti URL Git: elenco vuoto e immettere un elenco delimitato da virgole di prefissi URL.

Pulsante Modifica elenco consenti nelle impostazioni di amministrazione sviluppo

  1. Fare clic su Salva.

Nota

  • L'elenco salvato sovrascrive il set esistente di prefissi URL salvati.
  • L'applicazione delle modifiche può richiedere fino a 15 minuti.

Consentire l'accesso a tutti i repository

Per disabilitare un elenco di indirizzi consentiti esistente e consentire l'accesso a tutti i repository:

  1. Passare alla pagina delle impostazioni.
  2. Fare clic sulla scheda Amministratore area di lavoro.
  3. Nella sezione Sviluppo, in Git URL allow list permission( Consenti URL Git - Autorizzazione: selezionare Disabilita (nessuna restrizione).

Controllare l'accesso per un repository nell'area di lavoro

Nota

Il controllo di accesso è disponibile solo nel piano Premium.

Impostare le autorizzazioni per un repository per controllare l'accesso. Le autorizzazioni per un repository si applicano a tutto il contenuto del repository. È possibile assegnare cinque livelli di autorizzazione ai file: NO PERMISSIONS, CAN READ, CAN RUN, CAN EDIT e CAN MANAGE.

Per altre informazioni sulle autorizzazioni per le cartelle Git, vedere ACL della cartella Git.

(Facoltativo) Configurare un proxy per i server Git aziendali

Se l'azienda usa un servizio Git aziendale locale, ad esempio GitHub Enterprise o Azure DevOps Server, è possibile usare il proxy server Git di Databricks per connettere le aree di lavoro di Databricks ai repository usati.

Registrazione del controllo

Quando la registrazione di controllo è abilitata, gli eventi di controllo vengono registrati quando si interagisce con una cartella Git. Ad esempio, un evento di controllo viene registrato quando si crea, si aggiorna o si elimina una cartella Git, quando si elencano tutte le cartelle Git associate a un'area di lavoro e quando si sincronizzano le modifiche tra la cartella Git e il repository Git remoto.

Rilevamento dei segreti

Le cartelle Git analizzano il codice per individuare gli ID chiave di accesso che iniziano con il prefisso AKIA e avvisano l'utente prima di eseguire il commit.

Usare un file di configurazione del repository

È possibile aggiungere le impostazioni per ogni notebook al repository in un .databricks/commit_outputs file creato manualmente.

Specificare il notebook che si vuole includere negli output usando modelli simili ai modelli gitignore.

Modelli per un file di configurazione del repository

Il file contiene modelli di percorso di file positivi e negativi. I modelli di percorso dei file includono l'estensione del file notebook, .ipynbad esempio .

  • I modelli positivi consentono l'inclusione degli output per i notebook corrispondenti.
  • I criteri negativi disabilitano l'inclusione degli output per i notebook corrispondenti.

I modelli vengono valutati in ordine per tutti i notebook. I percorsi o i percorsi non validi che non risolvono .ipynb i notebook vengono ignorati.

Per includere gli output da un percorsofolder/innerfolder/notebook.ipynb del notebook, usare i modelli seguenti:

**/*
folder/**
folder/innerfolder/note*

Per escludere gli output per un notebook, verificare che nessuno dei modelli positivi corrisponda o aggiungere un criterio negativo in un punto corretto del file di configurazione. I modelli negativi (escludi) iniziano con !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Spostare la cartella Git nel cestino (eliminazione)

Per eliminare una cartella Git dall'area di lavoro:

  1. Fare clic con il pulsante destro del mouse sulla cartella Git e quindi scegliere Sposta nel cestino.

  2. Nella finestra di dialogo digitare il nome della cartella Git da eliminare. Fare quindi clic su Conferma e spostarsi nel cestino.

    Confermare la finestra di dialogo Sposta nel Cestino.

Passaggi successivi