Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dowiedz się więcej o konfigurowalnym serwerze proxy dla folderów Git w usłudze Databricks, który umożliwia proxy'owanie poleceń Git z folderów Git w obszarze roboczym Databricks do lokalnych repozytoriów Git obsługiwanych przez GitHub Enterprise Server, Azure DevOps Server, Bitbucket Server i GitLab zarządzane samodzielnie.
Uwaga
Użytkownicy, którzy skonfigurowali serwer proxy Git dla usługi Databricks w wersji zapoznawczej, powinni zaktualizować uprawnienia klastra, aby zapewnić najlepszą wydajność. Zobacz Usuwanie globalnych uprawnień CAN_ATTACH_TO.
Proxy serwera Git usługi Databricks został specjalnie zaprojektowany do pracy z wersją środowiska Databricks Runtime uwzględnioną w notatniku konfiguracyjnym. Użytkownicy są zniechęcani do aktualizowania wersji środowiska Databricks Runtime klastra proxy.
Co to jest serwer proxy Git dla folderów Git Databricks?
Proxy serwera Git w Databricks dla folderów Git to funkcja, która umożliwia przekazywanie poleceń Git z obszaru roboczego Azure Databricks do lokalnie zainstalowanego serwera Git.
Foldery Git w Databricks (dawniej Repos) przedstawiają połączone repozytoria Git jako foldery. Zawartość tych folderów jest zarządzana wersjami poprzez synchronizowanie ich do połączonego repozytorium Git. Domyślnie foldery Git mogą synchronizować się tylko z publicznymi dostawcami usługi Git (takimi jak publiczne usługi GitHub, GitLab, Azure DevOps i inne). Jednak jeśli hostujesz własny lokalny serwer Git (np. GitHub Enterprise Server, Bitbucket Server lub GitLab w trybie zarządzanym samodzielnie), musisz użyć serwera proxy Git z folderami Git, aby zapewnić usłudze Databricks dostęp do tego serwera. Serwer Git musi być dostępny z płaszczyzny danych usługi Azure Databricks (węzeł sterownika).
Jeśli sieć firmowa jest tylko dostępem prywatnym (VPN) (bez dostępu publicznego), musisz uruchomić serwer proxy serwera Git, aby uzyskać dostęp do repozytoriów Git znajdujących się poza nią i dodać foldery Git do obszarów roboczych.
Jak działa serwer proxy Git dla folderów Git na platformie Databricks?
Serwer proxy Git dla folderów Git w usłudze Databricks przekazuje polecenia Git z płaszczyzny sterowania usługi Databricks do klastra proxy uruchomionego na płaszczyźnie obliczeniowej w obrębie obszaru roboczego usługi Databricks. W tym przypadku klaster proxy działa jako klaster skonfigurowany do uruchamiania usługi proxy dla poleceń Git z folderów Git na Databricks do twojego własnego, hostowanego lokalnie repozytorium Git. Ta usługa proxy odbiera polecenia Git z płaszczyzny sterowania usługi Databricks i przekazuje je do wystąpienia serwera Git.
Na poniższym diagramie przedstawiono ogólną architekturę systemu:
Ważne
Usługa Databricks udostępnia notatnik, który można uruchomić, aby skonfigurować wystąpienie serwera Git do pośredniczenia w poleceniach dla folderów Git usługi Databricks. Pobierz notatnik wdrożeniowy na GitHubie
Obecnie serwer proxy usługi Git nie wymaga CAN_ATTACH_TO
już uprawnień dla wszystkich użytkowników. Administratorzy posiadający istniejące klastry proxy mogą teraz modyfikować uprawnienia listy kontroli dostępu (ACL) klastra, aby włączyć tę funkcję. Aby ją włączyć:
Wybierz Komputer z paska bocznego, a następnie kliknij ikonę
obok pozycji Komputer dla uruchomionego serwera proxy Git Server.
Wybierz Compute na pasku bocznym, a następnie ikonę z trzema kropkami (kebab) po prawej stronie zasobu obliczeniowego serwera proxy Git.
W oknie dialogowym usuń wpis Can Attach To dla wszystkich użytkowników:
Jak skonfigurować serwer proxy Git dla folderów Git w usłudze Databricks?
W tej sekcji opisano, jak przygotować wystąpienie serwera Git dla proxy serwera Git do folderów Git w Databricks, jak utworzyć to proxy oraz jak zweryfikować swoją konfigurację.
Zanim rozpoczniesz
Przed włączeniem serwera proxy upewnij się, że:
- Obszar roboczy ma włączoną funkcję folderów Git usługi Databricks.
- Instancja serwera Git jest dostępna z płaszczyzny obliczeniowej VPC obszaru roboczego Azure Databricks i ma włączone zarówno HTTPS, jak i osobiste tokeny dostępu (PATs).
Uwaga
Serwer proxy Git dla Databricks działa we wszystkich regionach obsługiwanych przez VPC.
Krok 1. Przygotowanie wystąpienia serwera Git
Ważne
Aby utworzyć zasób obliczeniowy i wykonać to zadanie, musisz być administratorem obszaru roboczego z uprawnieniami dostępu.
Aby skonfigurować instancję serwera Git:
Nadaj węzłowi sterownika klastra proxy dostęp do serwera Git.
Serwer Git przedsiębiorstwa może mieć
allowlist
adresy IP, z których jest dozwolony dostęp.- Skojarz statyczny wychodzący adres IP dla ruchu pochodzącego z klastra proxy. Można to zrobić przy użyciu usługi Azure Firewall lub urządzenia do zarządzania ruchem wychodzącym.
- Dodaj adres IP z poprzedniego kroku do listy dozwolonych serwera Git.
- Skonfiguruj instancję serwera Git, aby zezwalała na transport za pomocą HTTPS.
- W przypadku usługi GitHub Enterprise zobacz Temat Którego zdalnego adresu URL powinienem używać w pomocy usługi GitHub Enterprise.
- Dla Bitbucket, przejdź do strony administracji serwera Bitbucket i wybierz ustawienia serwera. W sekcji hostingu SCM protokołu HTTP(S), zaznacz pole wyboru Włączone HTTP(S).
Krok 2. Uruchom notatnik aktywacyjny
Aby włączyć serwer proxy:
Zaloguj się do obszaru roboczego usługi Azure Databricks jako administrator obszaru roboczego z uprawnieniami dostępu, aby utworzyć klaster.
Zaimportuj ten notes, który wybiera najmniejszy typ wystąpienia dostępny u dostawcy usług w chmurze, aby uruchomić serwer proxy Git.
Kliknij Uruchom wszystkie, aby uruchomić notatnik, który wykonuje następujące zadania:
- Tworzy zasób obliczeniowy z jednym węzłem o nazwie "Databricks Git Proxy", który nie kończy się automatycznie. Jest to usługa serwera proxy Git, która będzie przetwarzać i przekazywać polecenia Git z obszaru roboczego usługi Azure Databricks do lokalnego serwera Git.
- Włącza flagę funkcji, która decyduje o tym, czy żądania Git w folderach Git w Databricks są kierowane przez instancję obliczeniową.
Najlepszym rozwiązaniem jest utworzenie prostego zadania uruchamiania zasobu obliczeniowego serwera proxy usługi Git. Może to być prosty notes, który drukuje lub rejestruje stan, taki jak "Usługa serwera proxy Git jest uruchomiona". Ustaw zadanie do uruchamiania w regularnych odstępach czasu, aby upewnić się, że usługa serwera proxy Git jest zawsze dostępna dla użytkowników.
Uwaga
Uruchomienie dodatkowego długo działającego zasobu obliczeniowego do hostowania oprogramowania proxy generuje dodatkowe koszty w DBU. Aby zminimalizować koszty, notebook konfiguruje serwer proxy do użycia jednowęzłowego zasobu obliczeniowego z tanim typem węzła. Możesz jednak zmodyfikować opcje obliczeniowe zgodnie z potrzebami. Aby uzyskać więcej informacji na temat cen instancji obliczeniowych, zobacz kalkulator cen Databricks.
Krok 3. Weryfikowanie konfiguracji serwera Git
Aby zweryfikować konfigurację serwera Git, spróbuj sklonować repozytorium hostowane na prywatnym serwerze Git za pośrednictwem klastra proxy. Pomyślne sklonowanie oznacza, że proxy serwera Git zostało pomyślnie włączone dla obszaru roboczego.
Krok 4. Tworzenie repozytoriów Git z obsługą serwera proxy
Po skonfigurowaniu poświadczeń usługi Git żadne dalsze kroki nie są wymagane do utworzenia ani zsynchronizowania repozytoriów. Aby programowo skonfigurować poświadczenia i uzyskać dostęp do repozytoriów dla folderów Git, zobacz Skonfiguruj poświadczenia Git & połącz zdalne repozytorium z Azure Databricks.
Usuń globalne uprawnienia CAN_ATTACH_TO
Administratorzy z istniejącymi klastrami serwera proxy mogą teraz modyfikować listę ACL klastra, aby korzystać z powszechnie dostępnego zachowania serwera proxy Git.
Jeśli wcześniej skonfigurowano serwer proxy Git Databricks z uprawnieniami CAN_ATTACH_TO
, wykonaj następujące kroki, aby usunąć te uprawnienia:
Wybierz Komputery z paska bocznego, a następnie kliknij
obok pozycji Komputery dla serwera proxy Git, który uruchamiasz.
Wybierz Compute na pasku bocznym, a następnie ikonę z trzema kropkami (kebab) po prawej stronie zasobu obliczeniowego serwera proxy Git.
W oknie dialogowym usuń wpis Can Attach To dla wszystkich użytkowników:
Rozwiązywanie problemów
Czy wystąpił błąd podczas konfigurowania serwera proxy usługi Git dla folderów Git usługi Databricks? Poniżej przedstawiono kilka typowych problemów i sposobów ich skuteczniejszego diagnozowania.
Lista kontrolna typowych problemów
Przed rozpoczęciem diagnozowania błędu upewnij się, że zostały wykonane następujące kroki:
- Upewnij się, że twój klaster proxy działa z tym notatnikiem debugowania serwera proxy Git .
- Upewnij się, że jesteś administratorem obszaru roboczego.
- Uruchom pozostałą część notesu debugowania i przechwyć wyniki. Jeśli nie możesz debugować problemu lub nie widzisz żadnych błędów zgłoszonych w notesie debugowania, pomoc techniczna usługi Databricks może przejrzeć wyniki. Możesz wyeksportować i wysłać notatnik debugowania jako archiwum DBC, jeśli jest to wymagane.
Zmienianie konfiguracji serwera proxy usługi Git
Jeśli usługa serwera proxy Git nie działa z konfiguracją domyślną, możesz ustawić określone zmienne środowiskowe, aby wprowadzić w niej zmiany, aby lepiej obsługiwać infrastrukturę sieciową.
Użyj następujących zmiennych środowiskowych, aby zaktualizować konfigurację usługi serwera proxy Git:
Zmienna środowiskowa | Forma | opis |
---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true /false |
Ustaw tę wartość na false , jeśli używasz certyfikatu z podpisem własnym dla prywatnego serwera Git. |
GIT_PROXY_CA_CERT_PATH |
Ścieżka pliku (ciąg) | Ustaw tę opcję na ścieżkę do pliku certyfikatu urzędu certyfikacji używanego do weryfikacji protokołu SSL. Przykład: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Ustaw ten adres URL jako protokół HTTPS dla serwera proxy zapory sieciowej w celu obsługi ruchu HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Numer portu (liczba całkowita) | Ustaw tę wartość na numer portu przypisany do portu HTTP serwera Git. |
Aby ustawić te zmienne środowiskowe, przejdź do karty Obliczenia w obszarze roboczym usługi Azure Databricks i wybierz konfigurację obliczeniową dla usługi serwera proxy Git. W dolnej części okienka Konfiguracja rozwiń węzeł Zaawansowane i wybierz kartę Spark pod nią. Ustaw co najmniej jedną z tych zmiennych środowiskowych, dodając je do obszaru tekstowego Zmienne środowiskowe.
Sprawdzenie dzienników w klastrze proxy
Plik na klastrze proxy w lokalizacji /databricks/git-proxy/git-proxy.log
zawiera dzienniki, które są przydatne do celów debugowania.
Plik dziennika powinien rozpoczynać się od wiersza Data-plane proxy server binding to ('', 8000)…
. Jeśli tak nie jest, oznacza to, że serwer proxy nie został poprawnie uruchomiony. Spróbuj ponownie uruchomić klaster lub usunąć utworzony klaster i ponownie uruchomić notatnik aktywacyjny.
Jeśli plik dziennika rozpoczyna się od tego wiersza, przejrzyj wpisy w dzienniku, które następują po nim dla każdego żądania Git zainicjowanego przez operację w folderach Git na platformie Databricks.
Na przykład:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Dzienniki błędów zapisane w tym pliku mogą być przydatne, aby pomóc Tobie lub zespołowi wsparcia Databricks w rozwiązywaniu problemów.
Typowe komunikaty o błędach i ich rozwiązanie
Nie można ustanowić bezpiecznego połączenia z powodu problemów z protokołem SSL
Może zostać wyświetlony następujący błąd:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SLL problems
Często oznacza to, że używasz repozytorium, które wymaga specjalnych certyfikatów SSL. Sprawdź zawartość
/databricks/git-proxy/git-proxy.log
pliku w klastrze proxy. Jeśli oznacza to, że weryfikacja certyfikatu nie powiodła się, należy dodać certyfikat urzędu do łańcucha certyfikatów systemowych. Najpierw wyodrębnij certyfikat główny (przy użyciu przeglądarki lub inną opcję) i przekaż go do systemu plików DBFS. Następnie zmodyfikuj klaster serwera proxy Git folderów Git, aby użyćGIT_PROXY_CA_CERT_PATH
zmiennej środowiskowej, aby wskazać plik certyfikatu głównego. Aby uzyskać więcej informacji na temat edytowania zmiennych środowiskowych klastra, zobacz Zmienne środowiskowe.Po zakończeniu tego kroku uruchom ponownie klaster.
Nie można sklonować repozytorium z powodu błędu "Brakujące/nieprawidłowe poświadczenia git"
Najpierw sprawdź, czy poświadczenia usługi Git zostały skonfigurowane w obszarze Ustawienia użytkownika.
Ten błąd może wystąpić:
Error: Invalid Git credentials. Go to User Settings -> Git Integration and check that your personal access token or app password has the correct repository access.
Jeśli Twoja organizacja korzysta z logowania jednokrotnego SAML, upewnij się, że token został autoryzowany (można to zrobić na stronie zarządzania osobistym tokenem dostępu (PAT) serwera Git.
Często zadawane pytania
Jaki jest najprostszy sposób, aby dowiedzieć się, czy serwer proxy usługi Git jest uruchomiony?
Zaimportuj i uruchom notatnik debugowania serwera proxy Git. Wyniki działania notesu pokazują, czy są problemy z usługą serwera proxy Git.
Jakie są implikacje zabezpieczeń serwera proxy serwera Git?
- Proxyowanie nie ma wpływu na architekturę zabezpieczeń płaszczyzny sterowania Databricks.
- W każdym obszarze roboczym można mieć tylko jeden klaster serwerów proxy Git.
Czy cały ruch Git związany z folderami Git w Databricks jest kierowany przez klaster proxy, nawet w przypadku publicznych repozytoriów Git?
Tak. Obszar roboczy usługi Azure Databricks nie rozróżnia repozytoriów z proxy i bez proxy.
Czy funkcja serwera proxy Usługi Git współpracuje z innymi dostawcami serwerów przedsiębiorstwa Git?
Foldery Git w usłudze Databricks obsługują GitHub Enterprise, Bitbucket Server, Azure DevOps Server i samodzielnie zarządzany GitLab. Inni dostawcy serwerów Git w przedsiębiorstwie powinni również pracować, jeśli są zgodni z typowymi specyfikacjami usługi Git.
Czy foldery Git usługi Databricks obsługują podpisywanie zatwierdzeń w usłudze GPG?
Nr
Czy foldery Git usługi Databricks obsługują transport SSH na potrzeby operacji git?
Nr Obsługiwany jest tylko protokół HTTPS.
Czy jest obsługiwany port HTTPS inny niż domyślny na serwerze Git?
Obecnie notatnik włączania zakłada, że serwer Git używa domyślnego portu HTTPS 443. Możesz ustawić zmienną środowiskową GIT_PROXY_CUSTOM_HTTP_PORT
, aby zastąpić wartość portu preferowaną wartością.
Czy można udostępnić jeden serwer proxy dla wielu obszarów roboczych lub czy potrzebujesz jednego klastra proxy na obszar roboczy?
Potrzebujesz jednego klastra proxy dla obszaru roboczego usługi Azure Databricks.
Czy usługa Databricks może ukryć adresy URL serwera Git, które są proxied? Czy użytkownicy mogą wprowadzać oryginalne adresy URL serwera Git, a nie adresy URL proxied?
Tak w obu pytaniach. Użytkownicy nie muszą dostosowywać swojego zachowania dla serwera proxy. W przypadku bieżącej implementacji serwera proxy cały ruch usługi Git dla folderów Usługi Git usługi Databricks jest kierowany przez serwer proxy. Użytkownicy wprowadzają normalny adres URL repozytorium Git, taki jak https://git.company.com/org/repo-name.git
.
Czy funkcja w przezroczysty sposób uwierzytelnia dane uwierzytelniania serwera proxy na serwerze Git?
Tak, serwer proxy używa tokenu serwera Git konta użytkownika do uwierzytelniania na serwerze Git.
Czy istnieje dostęp usługi Databricks do kodu serwera Git?
Usługa proxy usługi Azure Databricks uzyskuje dostęp do repozytorium Git na serwerze Git przy użyciu poświadczeń podanych przez użytkownika i synchronizuje wszystkie pliki kodu w repozytorium z folderem Git. Dostęp jest ograniczony przez uprawnienia określone w osobistym tokenie dostępu (PAT) udostępnianym przez użytkownika.