Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Om du är värd för en privat Git-server (till exempel GitHub Enterprise Server, Bitbucket Server eller GitLab självhanterad) eller om Git-servern ligger bakom en brandvägg kan du använda Git-serverproxyn för att ansluta Databricks Git-mappar till dina privata lagringsplatser. Proxyn dirigerar Git-kommandon från din Azure Databricks-arbetsyta via en beräkningsresurs till din privata Git-server.
Om Git-server-proxy
Med Databricks Git-serverproxy för Git-mappar kan du proxy-Git-kommandon från din Azure Databricks-arbetsyta till en privat Git-server som inte är tillgänglig på Internet.
Databricks Git-mappar representerar dina anslutna Git-lagringsplatser som mappar. Innehållet i dessa mappar är versionskontrollerat genom synkronisering till den anslutna Git-lagringsplatsen. Som standard kan Git-mappar endast synkroniseras med lagringsplatser som är tillgängliga på Internet. Om du är värd för en privat Git-server eller om Git-servern finns bakom en brandvägg måste du använda Git-serverproxy med Git-mappar. Git-servern måste vara tillgänglig från ditt Azure Databricks-beräkningsplan.
Så här fungerar Git-serverproxy
Git-serverproxy för Databricks Git-mappar proxierar Git-kommandon från Databricks-kontrollplanet till ett proxykluster som körs i arbetsytans beräkningsmiljö. Proxyklustret är konfigurerat för att köra en proxytjänst som tar emot Git-kommandon från Databricks-kontrollplanet och vidarebefordrar dem till git-servern. Proxying påverkar inte säkerhetsarkitekturen för ditt Databricks-kontrollplan.
Följande illustrerar den övergripande systemarkitekturen:
Viktigt!
Databricks tillhandahåller en notebook-fil för aktivering för att konfigurera din Git-serverinstans för att möjliggöra proxykommandon för Databricks Git-mappar. Hämta aktiveringsanteckningsboken på GitHub. Databricks Git-serverproxyn är utformad för att fungera med Databricks Runtime-versionen som ingår i konfigurationsanteckningsboken. Uppdatera inte Databricks Runtime-versionen av proxyklustret.
Konfigurera Git Server-proxy
Om du vill aktivera privat Git-anslutning för Databricks Git-mappar förbereder du git-serverinstansen, kör notebook-filen för att skapa proxyn och verifierar konfigurationen.
Så här konfigurerar du Git-serverproxyn:
- Förbered git-serverinstansen med statiska IP-adresser och HTTPS-transport.
- Kör aktiveringsnotebook-filen för att skapa proxyklustret.
- Verifiera konfigurationen genom att klona en lagringsplats.
- Konfigurera Git-autentiseringsuppgifter för användare.
Förutsättningar
Kontrollera följande innan du aktiverar proxyn:
- Din arbetsyta har funktionen Databricks Git-mappar aktiverad. Se Aktivera eller inaktivera Databricks Git-mappar.
- Git-serverinstansen är tillgänglig från Azure Databricks-arbetsytans virtuella Azure-nätverk (VNet) och har både HTTPS- och personliga åtkomsttokenar aktiverade.
Anmärkning
Git-serverproxy för Databricks fungerar i alla regioner som stöds av ditt virtuella nätverk.
Steg 1: Förbereda git-serverinstansen
Viktigt!
Om du vill skapa en beräkningsresurs och slutföra den här uppgiften måste du vara administratör för arbetsytan med åtkomstbehörighet.
Konfigurera Git-servern så att den accepterar anslutningar från proxyklustret och aktiverar HTTPS-transport.
Företagets Git-server har vanligtvis en lista över TILLÅTNA IP-adresser som åtkomst tillåts från. Om du vill tillåta att proxyklustrets drivrutinsnod får åtkomst till din Git-server associerar du en statisk utgående IP-adress för trafik som kommer från proxyklustret och lägger till den i git-serverns lista över tillåtna.
- Associera en statisk utgående IP-adress för trafik från proxyklustret genom att använda Azure Firewall eller en utgående enhet.
- Lägg till IP-adressen från föregående steg i git-serverns lista över tillåtna.
Konfigurera sedan git-serverinstansen så att HTTPS-transport tillåts:
- GitHub Enterprise: Se Vilken fjärr-URL ska jag använda i GitHub Enterprise-hjälpen.
- Bitbucket Server: På sidan För bitbucket-serveradministration klickar du på Serverinställningar och väljer HTTP(S) aktiverat.
Steg 2: Kör notebook-filen för aktivering
Så här aktiverar du proxyn:
Logga in på din Azure Databricks-arbetsyta som arbetsyteadministratör med åtkomstbehörighet för att skapa ett kluster.
Importera den här notebook-filen, som väljer den minsta instanstyp som är tillgänglig från molnleverantören för att köra Git-proxyn:
Notebook: Aktivera Git-serverproxy för Databricks Git-mappar för privat Git-serveranslutning i Git-mappar.
Klicka på Kör alla för att köra anteckningsboken, som utför följande uppgifter:
- Skapar en beräkningsresurs med en nod med namnet "Databricks Git Proxy" som inte avslutas automatiskt. Den här proxytjänsten bearbetar och vidarebefordrar Git-kommandon från din Azure Databricks-arbetsyta till din privata Git-server.
- Aktiverar en funktionsflagga som styr om Git-begäranden i Databricks Git-mappar skickas via beräkningsinstansen.
Vi rekommenderar att du skapar ett jobb för att köra Git-proxyberäkningsresursen enligt ett regelbundet schema. På så sätt är Git-proxytjänsten tillgänglig för dina användare.
Anmärkning
Att köra en extra långvarig beräkningsresurs medför extra kostnader i form av Databricks-enheter (DBUs). För att sänka kostnaderna konfigurerar notebooken proxyn så att den använder en beräkningsresurs med en enda nod av en billig typ. Ändra beräkningsalternativen så att de passar dina behov. Prisinformation finns i priskalkylatorn för Databricks.
Steg 3: Verifiera git-serverkonfigurationen
Om du vill verifiera git-serverkonfigurationen klonar du en lagringsplats som finns på din privata Git-server via proxyklustret. En lyckad klon bekräftar att Git-serverproxyn fungerar för din arbetsyta.
Steg 4: Skapa proxyaktiverade Git-lagringsplatser
När användarna har konfigurerat sina Git-autentiseringsuppgifter krävs inga ytterligare steg för att skapa eller synkronisera lagringsplatser. Information om hur du konfigurerar autentiseringsuppgifter och åtkomst till lagringsplatser programmatiskt finns i Ansluta git-providern till Databricks.
Ta bort globala CAN ATTACH TO-behörigheter
Git-serverproxyn kräver CAN ATTACH TO inte behörighet för någon användare. Om du vill förhindra att användare kör godtyckliga arbetsbelastningar i proxyklustret begränsar du behörigheterna för klusteråtkomstkontrollistor (ACL) på proxyservern:
Klicka på Beräkning från sidopanelen och klicka sedan på
Kebab-menyn bredvid beräkningsobjektet för den Git-serverproxy du kör.
Klicka på Redigera behörigheter.
I dialogrutan tar du bort posten Kan koppla till för alla användare.
Felsökning
Det här avsnittet beskriver vanliga problem och hur du diagnostiserar dem.
Checklista för vanliga problem
Bekräfta följande innan du börjar diagnostisera ett fel:
- Proxyklustret körs med den här Felsökningsanteckningsboken för Git-proxyservern.
- Du är arbetsyteadministratör.
Kör resten av felsökningsanteckningsboken och samla in resultaten. Om du inte kan lösa problemet eller inte ser några rapporterade fel kan Databricks-supporten granska resultaten. Exportera och skicka felsökningsanteckningsboken som ett DBC-arkiv om det begärs.
Ändra din Git-proxykonfiguration
Om din Git-proxytjänst inte fungerar med standardkonfigurationen anger du miljövariabler som stöd för nätverksinfrastrukturen.
Använd följande miljövariabler för att uppdatera konfigurationen för git-proxytjänsten:
| Miljövariabel | Format | Beskrivning |
|---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true/false |
Ange detta till false om du använder ett självsignerat certifikat för din privata Git-server. |
GIT_PROXY_CA_CERT_PATH |
Filväg (sträng) | Ange sökvägen till en CA-certifikatfil som används för SSL-verifiering. Exempel: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Ställ in detta på HTTPS-URL:en för nätverkets brandväggsproxy för HTTP-trafik. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Portnummer (heltal) | Ange det här till det portnummer som tilldelats till Git-serverns HTTP-port. |
Så här anger du dessa miljövariabler:
- Gå till fliken Beräkning på din Azure Databricks-arbetsyta.
- Välj beräkningskonfigurationen för git-proxytjänsten.
- Längst ned i fönstret Konfiguration expanderar du Avancerat och väljer fliken Spark .
- Lägg till miljövariabler i fältet Miljövariabler .
Granska loggar i proxyklustret
Filen på /databricks/git-proxy/git-proxy.log i proxyklustret innehåller loggar som är användbara för felsökning.
Loggfilen bör börja med Data-plane proxy server binding to ('', 8000)…. Om den inte gör det startade inte proxyservern korrekt. Starta om klustret eller ta bort klustret och kör aktiveringsnotebooken igen.
Om loggfilen börjar med den här raden granskar du logginstruktionerna som följer för varje Git-begäran som initieras av Git-åtgärder i Databricks Git-mappar.
Till exempel:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Felloggar som skrivits till den här filen kan vara användbara för att hjälpa dig eller Databricks Support att felsöka problem.
SSL-certifikatfel
Du kan se följande fel:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SSL problems
Det innebär ofta att du använder en lagringsplats som kräver särskilda SSL-certifikat. Kontrollera filen i /databricks/git-proxy/git-proxy.log proxyklustret. Om certifikatverifieringen misslyckades lägger du till certifikatutfärdare i systemcertifikatkedjan:
- Extrahera rotcertifikatet med webbläsaren eller en annan metod och ladda upp det till Databricks-filsystemet.
- Redigera Git-mapparnas Git Proxy-kluster för att ange
GIT_PROXY_CA_CERT_PATHmiljövariabeln så att den pekar på rotcertifikatfilen. Se Miljövariabler.
När du har slutfört de här stegen startar du om klustret.
Vanliga frågor
Följande är vanliga frågor om konfiguration och användning av Git-serverproxy.
Hur kontrollerar jag om Git-proxyn körs?
Importera och kör git-proxyns felsökningsanteckningsbok. Resultatet visar om det finns problem med Git-proxytjänsten.
Kan arbetsytor dela proxykluster?
Varje Azure Databricks-arbetsyta kräver ett eget proxykluster. Du kan inte dela ett proxykluster över flera arbetsytor och varje arbetsyta kan bara ha ett Git-proxyserverkluster.
Kan jag bara dirigera viss Git-trafik via proxyn?
All trafik som är relaterad till Databricks Git-mappar dirigeras via proxyklustret, även för offentliga Git-repositorier. Din Azure Databricks-arbetsyta skiljer inte mellan proxierade och icke-proxierade lagringsplatser.
Vilka Git-leverantörer stöds?
Databricks Git-mappar stöder GitHub Enterprise, Bitbucket Server, Azure DevOps Server och GitLab självhanterade. Andra Git-serverproviders för företag bör också fungera om de överensstämmer med vanliga Git-specifikationer.
Stöds GNU Privacy Guard-signering av incheckningar (GPG)?
Nej.
Stöds SSH-transport?
Nej. Endast HTTPS stöds.
Kan jag använda en HTTPS-port som inte är standard?
Aktiveringsanteckningsboken förutsätter att Git-servern använder HTTPS-standardporten 443. Ange att miljövariabeln GIT_PROXY_CUSTOM_HTTP_PORT ska använda en annan port.
Behöver användarna ändra Git-URL:er för proxyn?
Nej. Användarna anger den normala URL:en för Git-lagringsplatsen, till exempel https://git.company.com/org/repo-name.git. All Git-trafik för Databricks Git-mappar går via proxyn transparent.
Hur fungerar autentisering med proxyn?
Ja, proxyn använder användarens Git-autentiseringsuppgifter för att autentisera till Git-servern. Åtkomsten begränsas av de behörigheter som anges i den autentiseringsuppgiften.