Integrazione git con le cartelle Git di Databricks

Le cartelle Git di Databricks sono un client Git visivo e un'API in Azure Databricks. Supporta operazioni Git comuni, ad esempio la clonazione di un repository, il commit e il push, il pull, la gestione dei rami e il confronto visivo delle differenze durante il commit.

All'interno di cartelle Git è possibile sviluppare codice in notebook o altri file e seguire le procedure consigliate per lo sviluppo di codice di data science e progettazione usando Git per il controllo della versione, la collaborazione e CI/CD.

Importante

Databricks ha sostituito la funzionalità "Repos" con la funzionalità integrata delle cartelle Git all'interno delle aree di lavoro di Databricks. Per altre informazioni su questa modifica, vedere Che cosa è successo a Databricks Repos?

Questa funzionalità è disponibile in anteprima pubblica in tutte le aree.

Nota

Le cartelle Git (Repos) sono progettate principalmente per la creazione e la collaborazione dei flussi di lavoro.

Per informazioni sulla migrazione da un'integrazione Git legacy, vedere Eseguire la migrazione alle cartelle Git (in precedenza Repos) da Git legacy.

Cosa è possibile fare con le cartelle Git di Databricks?

Le cartelle Git di Databricks forniscono il controllo del codice sorgente per i progetti di dati e intelligenza artificiale grazie all'integrazione con i provider Git.

Nelle cartelle Git di Databricks è possibile usare la funzionalità Git per:

  • Clonare, eseguire il push e il pull da un repository Git remoto.
  • Creare e gestire rami per il lavoro di sviluppo, tra cui l'unione, la ribasazione e la risoluzione dei conflitti.
  • Creare notebook (inclusi i notebook IPYNB) e modificarli e altri file.
  • Confrontare visivamente le differenze al commit e risolvere i conflitti di merge.

Per istruzioni dettagliate, vedere Eseguire operazioni Git nelle cartelle Git di Databricks (Repos).

Nota

Le cartelle Git di Databricks hanno anche un'API che è possibile integrare con la pipeline CI/CD. Ad esempio, è possibile aggiornare a livello di codice un repository Databricks in modo che abbia sempre la versione più recente del codice. Per informazioni sulle procedure consigliate per lo sviluppo di codice con cartelle Git di Databricks, vedere Tecniche CI/CD con le cartelle Git di Git e Databricks (Repos).

Per informazioni sui tipi di notebook supportati in Azure Databricks, vedere Esportare e importare notebook di Databricks.

Provider Git supportati

Le cartelle Git di Databricks sono supportate da un repository Git integrato. Il repository può essere ospitato da uno dei provider Git cloud e aziendali elencati nella sezione seguente.

Nota

Che cos'è un "provider Git"?

Un "provider Git" è il servizio specifico (denominato) che ospita un modello di controllo del codice sorgente basato su Git. Le piattaforme di controllo del codice sorgente basate su Git sono ospitate in due modi: come servizio cloud ospitato dall'azienda in fase di sviluppo o come servizio locale installato e gestito dalla propria azienda nel proprio hardware. Molti provider Git, ad esempio GitHub, Microsoft, GitLab e Atlassian offrono servizi Git basati sul cloud e locali (talvolta denominati "autogestito").

Quando si sceglie il provider Git durante la configurazione, è necessario tenere presenti le differenze tra i provider Git cloud (SaaS) e locali. Le soluzioni locali sono in genere ospitate dietro una VPN aziendale e potrebbero non essere accessibili da Internet. In genere, i provider Git locali hanno un nome che termina con "Server" o "Self-Managed", ma se non si è certi, contattare gli amministratori aziendali o esaminare la documentazione del provider Git.

Se il provider Git è basato sul cloud e non è elencato come provider supportato, selezionare "GitHub" come provider può funzionare ma non è garantito.

Nota

Se si usa "GitHub" come provider e si è ancora incerti se si usa la versione cloud o locale, vedere Informazioni su GitHub Enterprise Server nella documentazione di GitHub.

Provider Git cloud supportati da Databricks

  • GitHub, GitHub AE e GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab e GitLab edizione Enterprise
  • Microsoft Azure DevOps (Azure Repos)

Provider Git locali supportati da Databricks

  • GitHub Enterprise Server
  • Server e data center Atlassian BitBucket
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server: un amministratore dell'area di lavoro deve consentire in modo esplicito di elencare i prefissi di dominio URL per il server Microsoft Azure DevOps se l'URL non corrisponde dev.azure.com/* o visualstudio.com/*. Per altri dettagli, vedere Limitare l'utilizzo agli URL in un elenco elementi consentiti

Se si sta integrando un repository Git locale non accessibile da Internet, è necessario installare anche un proxy per le richieste di autenticazione Git all'interno della VPN aziendale. Per altre informazioni, vedere Configurare la connettività Git privata per le cartelle Git di Databricks (Repos).

Per informazioni su come usare i token di accesso con il provider Git, vedere Configurare le credenziali Git e connettere un repository remoto ad Azure Databricks.

Risorse per l'integrazione con Git

Usare l'interfaccia della riga di comando di Databricks 2.0 per l'integrazione di Git con Azure Databricks:

Leggere la documentazione di riferimento seguente:

Passaggi successivi