Konfigurowanie folderów Git usługi Databricks (Repozytoria)

Dowiedz się, jak skonfigurować foldery Git usługi Databricks (dawniej Repos) na potrzeby kontroli wersji. Po skonfigurowaniu folderów Git w usłudze Databricks możesz wykonywać na nich typowe operacje git, takie jak klonowanie, wyewidencjonowanie, zatwierdzanie, wypychanie, ściąganie i zarządzanie gałęzią z poziomu interfejsu użytkownika usługi Databricks. Różnice między zmianami można również zobaczyć podczas tworzenia za pomocą notesów i plików w usłudze Databricks.

Konfigurowanie ustawień użytkownika

Foldery usługi Git usługi Databricks używają osobistego tokenu dostępu (PAT) lub równoważnego poświadczenia do uwierzytelniania u dostawcy usługi Git w celu wykonywania operacji, takich jak klonowanie, wypychanie, ściąganie itp. Aby korzystać z folderów Git, musisz najpierw dodać swoją nazwę użytkownika dostawcy i pat usługi Git do usługi Databricks. Zobacz Konfigurowanie poświadczeń usługi Git i łączenie repozytorium zdalnego z usługą Azure Databricks.

Publiczne repozytoria zdalne można sklonować bez poświadczeń usługi Git (osobistego tokenu dostępu i nazwy użytkownika). Aby zmodyfikować publiczne repozytorium zdalne lub sklonować lub zmodyfikować prywatne repozytorium zdalne, musisz mieć nazwę użytkownika dostawcy usługi Git i pat z uprawnieniami zapisu (lub większego) dla repozytorium zdalnego.

Foldery Git są domyślnie włączone. Aby uzyskać więcej informacji na temat włączania lub wyłączania obsługi folderów Git, zobacz Włączanie lub wyłączanie funkcji folderu Git usługi Databricks.

Dodawanie lub edytowanie poświadczeń usługi Git w usłudze Databricks

Ważne

Foldery Usługi Git usługi Databricks obsługują tylko jedno poświadczenie Git na użytkownika, na obszar roboczy.

  1. Wybierz strzałkę w dół obok nazwy konta w prawym górnym rogu ekranu, a następnie wybierz pozycję Ustawienia.

  2. Wybierz kartę Połączone konta.

  3. Jeśli po raz pierwszy dodasz poświadczenia, postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.

    Jeśli wcześniej wprowadzono poświadczenia, kliknij pozycję Edytuj konfigurację> i przejdź do następnego kroku.

  4. Z listy rozwijanej Dostawca Git wybierz nazwę dostawcy.

  5. Wprowadź nazwę użytkownika lub adres e-mail usługi Git.

  6. W polu Token dodaj osobisty token dostępu (PAT) lub inne poświadczenia od dostawcy usługi Git. Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie poświadczeń usługi Git i łączenie repozytorium zdalnego z usługą Azure Databricks

    Ważne

    Usługa Databricks zaleca ustawienie daty wygaśnięcia dla wszystkich osobistych tokenów dostępu.

    W przypadku usługi Azure DevOps, jeśli nie wprowadzisz tokenu lub hasła aplikacji, integracja z usługą Git domyślnie używa tokenu Microsoft Entra ID (dawniej Azure Active Directory). Jeśli wprowadzisz osobisty token dostępu usługi Azure DevOps, integracja z usługą Git używa go zamiast tego. Zobacz Połączenie do repozytorium usługi Azure DevOps przy użyciu tokenu.

    Uwaga

    Po zaktualizowaniu hasła platformy Azure ponownie uwierzytelnij się w usłudze Azure Databricks, jeśli potrzebujesz nowego uwierzytelniania, aby od razu pracować. Jeśli nie wykonasz ponownego uwierzytelniania, połączenie usługi Azure DevOps może nie zostać zweryfikowane przez maksymalnie 24 godziny.

    Jeśli Twoja organizacja ma włączone logowanie jednokrotne SAML w usłudze GitHub, autoryzuj osobisty token dostępu do logowania jednokrotnego.

  7. Wprowadź nazwę użytkownika w polu Nazwa użytkownika dostawcy usługi Git.

  8. Kliknij przycisk Zapisz.

Możesz również zapisać token pat usługi Git i nazwę użytkownika w usłudze Azure Databricks przy użyciu interfejsu API usługi Databricks Repos.

Jeśli nie możesz sklonować repozytorium i używasz usługi Azure DevOps z uwierzytelnianiem identyfikatora Entra firmy Microsoft, zobacz Problem z zasadami dostępu warunkowego (CAP) dla usługi Microsoft Entra ID (dawniej Azure Active Directory).

Łączność sieciowa między folderami Git usługi Databricks i dostawcą usługi Git

Foldery Git wymagają łączności sieciowej z dostawcą usługi Git, aby działały. Zazwyczaj jest to przez Internet i działa z pudełka. Możesz jednak skonfigurować dodatkowe ograniczenia dotyczące dostawcy usługi Git w celu kontrolowania dostępu. Na przykład możesz mieć listę dozwolonych adresów IP lub hostować własny lokalny serwer Git przy użyciu usług, takich jak GitHub Enterprise (GHE), Bitbucket Server (BBS) lub Gitlab Self-managed. W zależności od hostingu i konfiguracji sieci serwer Git może być niedostępny za pośrednictwem Internetu.

Uwaga

  • Jeśli serwer Git jest dostępny w Internecie, ale ma listę dozwolonych adresów IP, taką jak listy dozwolonych usługi GitHub, musisz dodać adresy IP nat płaszczyzny sterowania usługi Azure Databricks do listy dozwolonych adresów IP serwera Git. Zobacz Regiony usługi Azure Databricks, aby uzyskać listę adresów IP translatora adresów sieciowych płaszczyzny sterowania według regionów. Użyj adresu IP dla regionu, w którym znajduje się obszar roboczy usługi Azure Databricks.
  • Jeśli prywatnie hostujesz serwer Git, przeczytaj artykuł Konfigurowanie prywatnej łączności git dla folderów Git usługi Databricks (Repos) lub skontaktuj się z zespołem konta usługi Azure Databricks, aby uzyskać instrukcje dołączania w celu uzyskania dostępu.

Funkcje zabezpieczeń w folderach Git

Foldery Usługi Git usługi Databricks mają wiele funkcji zabezpieczeń. W poniższych sekcjach przedstawiono sposób ich konfigurowania i używania:

  • Korzystanie z zaszyfrowanych poświadczeń usługi Git
  • Lista dozwolonych
  • Kontrola dostępu do obszaru roboczego
  • Rejestrowanie inspekcji
  • Wykrywanie wpisów tajnych

Używanie własnego klucza: szyfrowanie poświadczeń usługi Git

Usługa Azure Key Vault umożliwia szyfrowanie osobistego tokenu dostępu usługi Git lub innego poświadczenia usługi Git. Użycie klucza z usługi szyfrowania jest nazywane kluczem zarządzanym przez klienta (CMK) lub użyciem własnego klucza (BYOK).

Aby uzyskać więcej informacji, zobacz Klucze zarządzane przez klienta na potrzeby szyfrowania.

Ograniczanie użycia do adresów URL na liście dozwolonych

Jeśli używasz identyfikatora Entra firmy Microsoft do uwierzytelniania w usłudze Azure DevOps, domyślna lista dozwolonych ogranicza adresy URL usługi Git do:

  • dev.azure.com
  • visualstudio.com

W przypadku usługi AAD z niestandardowymi aliasami CNAMES lub Git URL administrator obszaru roboczego może skonfigurować niestandardową listę dozwolonych, jak pokazano w poniższych krokach. Jeśli używasz niestandardowej listy dozwolonych, administrator obszaru roboczego musi dodać te adresy URL, jeśli chcesz z nimi pracować: dev.azure.com i visualstudio.com.

Administrator obszaru roboczego może ograniczyć, do których repozytoriów zdalnych użytkownicy mogą klonować i zatwierdzać i wypychać. Pomaga to zapobiec eksfiltracji kodu; Na przykład użytkownicy nie mogą wypychać kodu do dowolnego repozytorium, jeśli włączono ograniczenia listy dozwolonych. Można również uniemożliwić użytkownikom korzystanie z kodu bez licencji, ograniczając operację klonowania do listy dozwolonych repozytoriów.

Aby skonfigurować listę dozwolonych:

  1. Przejdź do strony ustawień.
  2. Kliknij kartę Administrator obszaru roboczego (jest ona domyślnie otwarta).
  3. W sekcji Programowanie wybierz opcję z uprawnienia listy dozwolonych adresów URL usługi Git:
    • Wyłączone (bez ograniczeń): nie ma żadnych kontroli względem listy dozwolonych.
    • Ogranicz klonowanie, zatwierdzanie i wypychanie do dozwolonych repozytoriów Git: operacje klonowania, zatwierdzania i wypychania są dozwolone tylko dla adresów URL repozytorium na liście dozwolonych.
    • Ogranicz tylko zatwierdzenia i wypychanie do dozwolonych repozytoriów Git: operacje zatwierdzania i wypychania są dozwolone tylko dla adresów URL repozytorium na liście dozwolonych. Operacje klonowania i ściągania nie są ograniczone.

Okienko Programowanie w obszarze Administracja Ustawienia używane do ustawiania dostępu użytkownika w usłudze Git

  1. Kliknij przycisk Edytuj obok listy dozwolonych adresów URL usługi Git: Pusta lista i wprowadź listę prefiksów adresów URL rozdzielanych przecinkami.

Przycisk Edytuj listę dozwolonych w ustawieniach administratora programowania

  1. Kliknij przycisk Zapisz.

Uwaga

  • Zapisana lista zastępuje istniejący zestaw zapisanych prefiksów adresów URL.
  • Wprowadzenie zmian może potrwać do 15 minut.

Zezwalaj na dostęp do wszystkich repozytoriów

Aby wyłączyć istniejącą listę dozwolonych i zezwolić na dostęp do wszystkich repozytoriów:

  1. Przejdź do strony ustawień.
  2. Kliknij kartę Administrator obszaru roboczego.
  3. W sekcji Programowanie w obszarze Uprawnienie listy dozwolonych adresów URL usługi Git wybierz pozycję Wyłącz (bez ograniczeń).

Kontrolowanie dostępu do repozytorium w obszarze roboczym

Uwaga

Kontrola dostępu jest dostępna tylko w planie Premium.

Ustaw uprawnienia dla repozytorium, aby kontrolować dostęp. Uprawnienia do repozytorium mają zastosowanie do całej zawartości w tym repozytorium. Do plików można przypisać pięć poziomów uprawnień: BRAK UPRAWNIEŃ, MOŻE ODCZYTYWAĆ, MOŻNA URUCHAMIAĆ, EDYTOWAĆ I ZARZĄDZAĆ.

Aby uzyskać więcej informacji na temat uprawnień folderów usługi Git, zobacz Listy ACL folderów usługi Git.

(Opcjonalnie) Konfigurowanie serwera proxy dla serwerów Git przedsiębiorstwa

Jeśli Twoja firma korzysta z lokalnej usługi Git przedsiębiorstwa, takiej jak GitHub Enterprise lub Azure DevOps Server, możesz użyć serwera proxy usługi Git Server usługi Databricks, aby połączyć obszary robocze usługi Databricks z obsługiwanymi repozytoriami.

Rejestrowanie inspekcji

Po włączeniu rejestrowania inspekcji zdarzenia inspekcji są rejestrowane podczas interakcji z folderem Git. Na przykład zdarzenie inspekcji jest rejestrowane podczas tworzenia, aktualizowania lub usuwania folderu Git, gdy wyświetlasz listę wszystkich folderów Git skojarzonych z obszarem roboczym, a podczas synchronizacji zmian między folderem Git a zdalnym repozytorium Git.

Wykrywanie wpisów tajnych

Foldery Git skanują kod pod kątem identyfikatorów kluczy dostępu rozpoczynających się od prefiksu AKIA i ostrzegają użytkownika przed zatwierdzeniem.

Używanie pliku konfiguracji repozytorium

Możesz dodać ustawienia dla każdego notesu do repozytorium w pliku utworzonym .databricks/commit_outputs ręcznie.

Określ notes, który ma zawierać dane wyjściowe przy użyciu wzorców podobnych do wzorców gitignore.

Wzorce dla pliku konfiguracji repozytorium

Plik zawiera dodatnie i ujemne wzorce ścieżek plików. Wzorce ścieżek plików obejmują rozszerzenie pliku notesu, takie jak .ipynb.

  • Wzorce dodatnie umożliwiają dołączanie danych wyjściowych do pasujących notesów.
  • Wzorce ujemne wyłączają dołączanie danych wyjściowych dla pasujących notesów.

Wzorce są oceniane w kolejności dla wszystkich notesów. Nieprawidłowe ścieżki lub ścieżki, które nie są rozpoznawane w .ipynb notesach, są ignorowane.

Aby uwzględnić dane wyjściowe ze ścieżkifolder/innerfolder/notebook.ipynb notesu, użyj następujących wzorców:

**/*
folder/**
folder/innerfolder/note*

Aby wykluczyć dane wyjściowe dla notesu, sprawdź, czy żaden z wzorców dodatnich nie pasuje do żadnego z wzorców dodatnich lub dodaj negatywny wzorzec we właściwym miejscu pliku konfiguracji. Wzorce ujemne (wykluczanie) zaczynają się od !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Przenoszenie folderu Git do kosza (usuwanie)

Aby usunąć folder Git z obszaru roboczego:

  1. Kliknij prawym przyciskiem myszy folder Git, a następnie wybierz polecenie Przenieś do kosza.

  2. W oknie dialogowym wpisz nazwę folderu Git, który chcesz usunąć. Następnie kliknij pozycję Potwierdź i przenieś do kosza.

    Potwierdź okno dialogowe Przenoszenie do kosza.

Następne kroki