Nastavení soukromého připojení ke Gitu pro složky Azure Databricks Git.

Pokud hostujete privátní server Git (například GitHub Enterprise Server, Bitbucket Server nebo GitLab, který je spravovaný samostatně) nebo váš server Git je za bránou firewall, můžete pomocí proxy serveru Git připojit složky Databricks Git k privátním úložištím. Proxy směruje příkazy Gitu z pracovního prostoru Azure Databricks prostřednictvím výpočetního prostředku na váš privátní server Git.

Informace o proxy serveru Git

Proxy serveru Git Databricks pro složky Git umožňuje proxy příkazy Gitu z pracovního prostoru Azure Databricks na privátní server Git, který není přístupný na internetu.

Složky Gitu Databricks představují vaše připojená úložiště Git jako složky. Obsah těchto složek je verzově řízen synchronizací s připojeným Git repositářem. Ve výchozím nastavení se složky Git můžou synchronizovat jenom s úložišti dostupnými na internetu. Pokud hostujete privátní Git server nebo je váš Git server za bránou firewall, musíte použít Git proxy server se složkami Git. Váš server Git musí být přístupný z výpočetní roviny Azure Databricks.

Kdy použít proxy serveru Git

Pomocí následujících doprovodných materiálů určete, jestli potřebujete nastavit proxy serveru Git:

  • Proxy server pro Git potřebujete, pokud je váš Git server soukromý, místní, nebo za firewallem, například u GitHub Enterprise Server, Bitbucket Server, GitLab s vlastní správou nebo Azure DevOps Server.
  • Proxy serveru Git nepotřebujete, pokud jsou vaše úložiště na cloudových službách, které jsou přístupné z veřejného internetu, jako jsou GitHub.com, GitLab.com, Bitbucket Cloud nebo Azure DevOps Services.

Po povolení se veškerý provoz složek Git ve vašem pracovním prostoru směruje přes proxy cluster, včetně veřejných úložišť.

Jak funguje proxy serveru Git

Proxy serveru Git pro proxy složky Gitu Databricks z řídicí roviny Databricks do proxy clusteru spuštěného ve výpočetní rovině pracovního prostoru. Proxy cluster je nakonfigurovaný tak, aby spustil proxy službu, která přijímá příkazy Gitu z řídicí roviny Databricks a předává je na váš server Git. Proxy neovlivňuje architekturu zabezpečení řídicí roviny Databricks.

Následující příklad znázorňuje celkovou systémovou architekturu:

Diagram znázorňující, jak je nakonfigurované spouštění proxy serveru Git pro složky Databricks z výpočetní roviny

Důležité

Databricks poskytuje konfigurační poznámkový blok pro konfiguraci serveru Git k zprostředkování příkazů pro složky Git v Databricks. Získat poznámkový blok pro povolení na GitHubu. Proxy serveru Git Databricks je navržené tak, aby fungovalo s verzí Databricks Runtime, která je součástí konfiguračního poznámkového bloku. Neaktualizujete verzi Databricks Runtime proxy clusteru.

Nastavení proxy serveru Git

Pokud chcete povolit privátní připojení Gitu pro složky Git Databricks, připravte instanci serveru Git, spusťte poznámkový blok povolení a vytvořte proxy server a ověřte konfiguraci.

Nastavení proxy serveru Git:

  1. Připravte instanci serveru Git se statickými IP adresami a přenosem HTTPS.
  2. Spusťte povolovací poznámkový blok pro vytvoření proxy clusteru.
  3. Ověřte konfiguraci klonováním úložiště.
  4. Nakonfigurujte přihlašovací údaje Gitu pro uživatele.

Požadavky

Před povolením proxy serveru ověřte následující:

  • Instance vašeho serveru Git je přístupná z výpočetní roviny ve virtuální síti Azure (VNet) pracovního prostoru Azure Databricks a má povolené jak HTTPS, tak osobní přístupové tokeny (PAT).

Poznámka:

Proxy serveru Git pro Databricks funguje ve všech oblastech podporovaných vaší virtuální sítí.

Krok 1: Příprava instance serveru Git

Důležité

Pokud chcete vytvořit výpočetní prostředek a dokončit tuto úlohu, musíte být správcem pracovního prostoru s přístupovými právy.

Nakonfigurujte server Git tak, aby přijímal připojení z proxy clusteru a povolil přenos HTTPS.

Podnikový server Git má obvykle seznam povolených IP adres, ze kterých je povolený přístup. Pokud chcete uzlu ovladače proxy clusteru povolit přístup k vašemu serveru Git, přidružte statickou odchozí IP adresu pro provoz pocházející z vašeho proxy clusteru a přidejte ho do seznamu povolených serverů Git.

  1. Přidružte statickou odchozí IP adresu pro provoz pocházející z vašeho proxy clusteru pomocí služby Azure Firewall nebo výchozího zařízení.
  2. Přidejte IP adresu z předchozího kroku do seznamu povolených serverů Git.

Pak nakonfigurujte instanci serveru Git tak, aby umožňovala přenos HTTPS:

  • GitHub Enterprise: Podívejte se , kterou vzdálenou adresu URL mám použít v nápovědě k GitHubu Enterprise.
  • Bitbucket Server: Na stránce administrace serveru Bitbucket klikněte na Nastavení serveru a vyberte HTTP(S) povoleno.

Krok 2: Spuštění povolovacího poznámkového bloku

Povolení proxy serveru:

  1. Přihlaste se k pracovnímu prostoru Azure Databricks jako správce pracovního prostoru s přístupovými právy k vytvoření clusteru.

  2. Naimportujte tento poznámkový blok, který zvolí nejmenší typ instance dostupný od vašeho poskytovatele cloudu, aby se spustil proxy Git:

    Poznámkový blok: Povolení proxy serveru pro připojení ke Git serverům Databricks ve složkách Git pro privátní připojení ke Git serveru.

  3. Kliknutím na Spustit vše spusťte poznámkový blok, který provádí následující úlohy:

    • Vytvoří výpočetní prostředek s jedním uzlem s názvem "Databricks Git Proxy", který se automaticky neukončí. Tato proxy služba zpracovává a předává příkazy Gitu z pracovního prostoru Azure Databricks na váš privátní server Git.
    • Umožňuje příznak funkce, který určuje, jestli se požadavky Gitu ve složkách Databricks Gitu přes výpočetní instanci přesouvají.

    Osvědčeným postupem je vytvořit úlohu pro spuštění výpočetního prostředku proxy Gitu podle běžného plánu. Tím se zajistí dostupnost proxy služby Git pro vaše uživatele.

Poznámka:

Spuštění dalšího dlouhotrvajícího výpočetního prostředku způsobuje dodatečné jednotky Databricks (DBU). Aby se minimalizovaly náklady, poznámkový blok nakonfiguruje proxy server tak, aby používal výpočetní prostředek s jedním uzlem s levným typem uzlu. Upravte výpočetní možnosti tak, aby vyhovovaly vašim potřebám. Informace o cenách najdete v cenové kalkulačce Databricks.

Krok 3: Ověření konfigurace serveru Git

Pokud chcete ověřit konfiguraci serveru Git, naklonujte úložiště hostované na privátním serveru Git prostřednictvím proxy clusteru. Úspěšný klon potvrzuje, že proxy serveru Git funguje pro váš pracovní prostor.

Krok 4: Vytvoření úložišť Git s podporou proxy serveru

Po konfiguraci přihlašovacích údajů Gitu se k vytvoření nebo synchronizaci úložišť nevyžadují žádné další kroky. Pokud chcete nakonfigurovat přihlašovací údaje a přístup k úložištím prostřednictvím kódu programu, přečtěte si téma Připojení poskytovatele Gitu k Databricks.

Odebrání globálních oprávnění CAN ATTACH TO

Proxy serveru Git nevyžaduje CAN ATTACH TO oprávnění pro žádného uživatele. Pokud chcete uživatelům zabránit ve spouštění libovolných úloh v clusteru proxy, omezte oprávnění seznamu řízení přístupu clusteru (ACL) na proxy serveru:

  1. Na bočním panelu klikněte na Compute a pak zvolte položku výpočetních prostředků pro proxy Git Serveru, který používáte.

  2. Klepněte na ikonu nabídky Kebab a klepněte na Oprávnění.

  3. V dialogovém okně odeberte položku Lze připojit kvšem uživatelům přiřazeným k pracovnímu prostoru.

Řešení problému

Tato část se zabývá běžnými problémy a jejich diagnostikou.

Kontrolní seznam pro běžné problémy

Než začnete s diagnostikou chyby, potvrďte následující:

Spusťte zbývající poznámkový blok ladění a zachyťte výsledky. Pokud se vám problém nepodaří vyřešit nebo se nezobrazí žádné nahlášené chyby, může podpora Databricks zkontrolovat výsledky. Pokud je požadováno, exportujte a odešlete ladicí poznámkový blok jako archiv DBC.

Změna konfigurace proxy serveru Git

Pokud vaše Git proxy služba nefunguje s výchozí konfigurací, nastavte proměnné prostředí tak, aby podporovaly vaši síťovou infrastrukturu.

Pomocí následujících proměnných prostředí aktualizujte konfiguraci pro váš Git proxy server.

Proměnná prostředí Formát Popis
GIT_PROXY_ENABLE_SSL_VERIFICATION true/false Tuto možnost nastavte na false, pokud pro privátní server Git používáte certifikát podepsaný svým držitelem.
GIT_PROXY_CA_CERT_PATH Cesta k souboru (řetězec) Nastavte ji na cestu k souboru certifikátu certifikační autority použitému k ověření SSL. Příklad: /FileStore/myCA.pem
GIT_PROXY_HTTP_PROXY https://<hostname>:<port #> Nastavte ji na adresu URL HTTPS pro proxy brány firewall vaší sítě pro provoz HTTP.
GIT_PROXY_CUSTOM_HTTP_PORT Číslo portu (celé číslo) Nastavte ho na číslo portu přiřazeného portu HTTP serveru Git.

Chcete-li nastavit tyto proměnné prostředí:

  1. V pracovním prostoru Azure Databricks přejděte na kartu Compute .
  2. Vyberte konfiguraci výpočetních prostředků pro vaši službu proxy Gitu.
  3. V dolní části podokna Konfigurace rozbalte položku Upřesnit a vyberte kartu Spark .
  4. Přidejte proměnné prostředí do pole Proměnné prostředí .

Kontrola protokolů v clusteru proxy

Soubor /databricks/git-proxy/git-proxy.log v clusteru proxy obsahuje protokoly, které jsou užitečné pro účely ladění.

Soubor protokolu by měl začínat Data-plane proxy server binding to ('', 8000)…. Pokud ne, proxy server se nespustí správně. Restartujte klastr nebo klastr odstraňte a spusťte povolovací poznámkový blok znovu.

Pokud soubor protokolu začíná tímto řádkem, projděte si příkazy protokolu, které následují pro jednotlivé požadavky Gitu iniciované operacemi Gitu ve složkách Databricks Git.

Příklad:

  do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
  "GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`

Protokoly chyb zapsané do tohoto souboru můžou být užitečné pro vás nebo podporu Databricks při ladění problémů.

Chyby certifikátu SSL

Může se zobrazit následující chyba:

  https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SSL problems

Často to znamená, že používáte úložiště, které vyžaduje speciální certifikáty SSL. /databricks/git-proxy/git-proxy.log Zkontrolujte soubor v clusteru proxy. Pokud se ověření certifikátu nezdařilo, přidejte certifikační autoritu do systémového řetězu certifikátů:

  1. Extrahujte kořenový certifikát pomocí prohlížeče nebo jiné metody a nahrajte ho do systému souborů Databricks.
  2. Upravte cluster složek Git proxy tak, aby proměnná prostředí odkazovala na soubor kořenového certifikátu. Viz proměnné prostředí.

Po dokončení těchto kroků restartujte cluster.

Nejčastější dotazy

Tady jsou běžné otázky týkající se konfigurace a použití proxy serveru Git.

Jak zjistím, jestli je spuštěný proxy Git?

Importujte a spusťte ladicí poznámkový blok proxy serveru Git. Výsledky ukazují, jestli existují problémy se službou proxy Git.

Můžou pracovní prostory sdílet clustery proxy?

Každý pracovní prostor Azure Databricks vyžaduje vlastní proxy cluster. Proxy cluster nemůžete sdílet mezi několika pracovními prostory a každý pracovní prostor může mít jenom jeden cluster proxy serveru Git.

Můžu přes proxy směrovat jenom nějaký provoz Gitu?

Všechny přenosy dat související se složkami Gitu Databricks procházejí proxy clusterem, a to i pro veřejná úložiště Git. Váš pracovní prostor Azure Databricks nerozlišuje mezi proxy a nepřexiovanými úložišti.

Kteří poskytovatelé Gitu jsou podporovaní?

Složky Git Databricks podporují GitHub Enterprise, Bitbucket Server, Azure DevOps Server a GitLab, které se spravují samostatně. Ostatní podnikoví poskytovatelé serverů Git by také měli pracovat, pokud odpovídají běžným specifikacím Gitu.

Podporuje se podepisování potvrzení GNU Privacy Guard (GPG)?

Ne.

Podporuje se přenos SSH?

Ne. Podporuje se jenom HTTPS.

Můžu použít jiný než výchozí port HTTPS?

Konfigurační poznámkový blok předpokládá, že váš Git server používá výchozí port HTTPS 443. Nastavte proměnnou GIT_PROXY_CUSTOM_HTTP_PORT prostředí tak, aby používala jiný port.

Potřebují uživatelé změnit adresy URL Gitu pro proxy server?

Ne. Uživatelé zadají normální adresu URL úložiště Git, například https://git.company.com/org/repo-name.git. Veškerý provoz Gitu pro složky Git Databricks se transparentně směruje přes proxy server.

Jak funguje ověřování s proxy serverem?

Proxy server používá přihlašovací údaje Git uživatele k ověření na serveru Git. Přístup je omezený oprávněními zadanými v přihlašovacích údajích.