Настройка папок Databricks Git (Repos)

Узнайте, как настроить папки Databricks Git (прежнее название — Репозиторий) для управления версиями. После настройки папок Git в Databricks вы можете выполнять общие операции Git, такие как клонирование, проверка out, фиксация, отправка, извлечение и управление ветвями на них из пользовательского интерфейса Databricks. Кроме того, при разработке с помощью записных книжек и файлов в Databricks можно отображать изменения.

Настройка параметров пользователей

Папки Databricks Git используют личный маркер доступа (PAT) или эквивалентные учетные данные для проверки подлинности с помощью поставщика Git для выполнения таких операций, как клонирование, отправка, вытягивание и т. д. Чтобы использовать папки Git, необходимо сначала добавить имя пользователя поставщика Git PAT и Git в Databricks. См. статью "Настройка учетных данных Git" и подключение удаленного репозитория к Azure Databricks.

Вы можете клонировать открытые удаленные репозитории без учетных данных Git (личного маркера доступа и имени пользователя). Чтобы изменить общедоступную удаленный репозиторий или клонировать или изменить частный удаленный репозиторий, необходимо иметь имя пользователя поставщика Git и PAT с разрешениями на запись (или больше) для удаленный репозиторий.

Папки Git включены по умолчанию. Дополнительные сведения о включении или отключении поддержки папок Git см. в разделе "Включить" или отключить функцию папки Databricks Git.

Добавление или изменение учетных данных Git в Databricks

Внимание

Папки Databricks Git поддерживают только одну учетную запись Git для каждого пользователя на рабочую область.

  1. Щелкните стрелку вниз рядом с именем учетной записи в правом верхнем углу экрана, после чего выберите Параметры пользователя.

  2. Перейдите на вкладку Связанные учетные записи.

  3. Если вы добавляете учетные данные впервые, следуйте отображаемым на экране инструкциям.

    Если вы ранее ввели учетные данные, нажмите кнопку "Изменить конфигурацию>" и перейдите к следующему шагу.

  4. В раскрывающемся списке Поставщик Git выберите название поставщика.

  5. Введите имя пользователя или электронную почту Git.

  6. В поле токена добавьте личный маркер доступа (PAT) или другие учетные данные от поставщика Git. Дополнительные сведения см. в статье "Настройка учетных данных Git" и подключение удаленного репозитория к Azure Databricks

    Внимание

    Databricks рекомендует задать дату истечения срока действия для всех личных маркеров доступа.

    Для Azure DevOps, если вы не вводите пароль маркера или приложения, интеграция Git использует маркер Microsoft Entra ID (прежнее название — Azure Active Directory). Если вы введете личный маркер доступа Azure DevOps, интеграция с Git использует его. См. Подключение репозиторий Azure DevOps с помощью маркера.

    Примечание.

    После обновления пароля Azure повторно выполните проверку подлинности с помощью Azure Databricks, если вам нужна новая проверка подлинности. Если вы не выполняете повторную проверку подлинности, подключение Azure DevOps может не проверяться до 24 часов.

    Если в вашей организации включен единый вход SAML в GitHub, авторизуйте личный маркер доступа для единого входа.

  7. Введите имя пользователя в поле имени пользователя поставщика Git.

  8. Нажмите кнопку Сохранить.

Вы также можете сохранить токен Git PAT и имя пользователя в Azure Databricks с помощью API Databricks Repos.

Если вы не можете клонировать репозиторий и используете Azure DevOps с проверкой подлинности идентификатора Microsoft Entra ID, см. статью "Проблема с политикой условного доступа ( CAP) для идентификатора Microsoft Entra (ранее Azure Active Directory)".

Сетевое подключение между папками Databricks Git и поставщиком Git

Для работы папок Git требуется сетевое подключение к поставщику Git. Как правило, это через Интернет и работает из коробки. Однако возможно, вы настроили дополнительные ограничения для поставщика Git для управления доступом. Например, у вас может быть список разрешений IP-адресов или вы можете разместить собственный локальный сервер Git с помощью таких служб, как GitHub Enterprise (GHE), Bitbucket Server (BBS) или Gitlab Self-managed. В зависимости от сетевого размещения и конфигурации сервер Git может быть недоступен через Интернет.

Примечание.

  • Если сервер Git доступен в Интернете, но имеет список разрешений IP-адресов, например списки разрешений GitHub, необходимо добавить IP-адреса NAT уровня управления Azure Databricks в список разрешенных IP-адресов сервера Git. Список IP-адресов NAT уровня управления по регионам см . в регионах Azure Databricks. Используйте IP-адрес для региона, в который находится рабочая область Azure Databricks.
  • Если вы размещаете сервер Git в частном порядке, ознакомьтесь со сведениями о настройке частного подключения Git для папок Git Databricks (Repos) или обратитесь к группе учетной записи Azure Databricks для подключения инструкций по доступу.

Функции безопасности в папках Git

Папки Databricks Git имеют множество функций безопасности. В следующих разделах описана их настройка и использование:

  • Использование зашифрованных учетных данных Git
  • Список разрешений
  • Контроль доступа к рабочей области
  • Ведение журнала аудита
  • Обнаружение секретов

Использование собственного ключа: шифрование учетных данных Git

Azure Key Vault можно использовать для шифрования личного маркера доступа (PAT) Git или других учетных данных Git. Использование ключа из службы шифрования называется ключом, управляемым клиентом (CMK), или собственным ключом (BYOK).

Дополнительные сведения см. в статье Использование ключей, управляемых пользователем, для шифрования.

Ограничение использования URL-адресов в списке разрешений

Если вы используете идентификатор Microsoft Entra для проверки подлинности с помощью Azure DevOps, список разрешений по умолчанию ограничивает URL-адреса Git следующим образом:

  • dev.azure.com
  • visualstudio.com

Для AAD с пользовательскими псевдонимами CNAMES или URL-адресами Git администратор рабочей области может настроить настраиваемый список разрешений, как показано на следующих шагах. Если вы используете настраиваемый список разрешений, администратор рабочей области должен добавить эти URL-адреса, если вы хотите работать с ними: dev.azure.com и visualstudio.com.

Администратор рабочей области может ограничить, какие удаленные репозитории пользователи могут клонировать и зафиксировать и отправить в них. Это помогает предотвратить кражу кода; Например, пользователи не могут отправлять код в произвольный репозиторий, если вы включили ограничения списка разрешений. Кроме того, можно запретить пользователям использовать нелицензированный код, ограничив операцию клонирования списком разрешенных репозиториев.

Чтобы настроить список разрешений, выполните следующие действия.

  1. Перейдите на страницу Администратор Параметры.
  2. Щелкните вкладку "Администратор рабочей области" (она открыта по умолчанию).
  3. В разделе "Разработка" выберите параметр разрешения списка разрешений на URL-адрес Git:
    • Отключено (без ограничений): проверка по списку разрешений не выполняется.
    • Ограничение клонирования, фиксации и отправки разрешенных репозиториев Git: клонирование, фиксация и push-операции разрешены только для URL-адресов репозитория в списке разрешений.
    • Только ограничить фиксацию и отправить разрешенные репозитории Git. Операции фиксации и отправки разрешены только для URL-адресов репозитория в списке разрешений. Операции клонирования и извлечения не ограничены.

Область разработки в Администратор Параметры, используемая для задания доступа пользователей Git

  1. Нажмите кнопку "Изменить" рядом со списком разрешений URL-адреса Git: пустой список и введите разделенный запятыми список префиксов URL-адресов.

Кнопка

  1. Нажмите кнопку Сохранить.

Примечание.

  • Список, который вы сохраняете, перезаписывает существующий набор сохраненных префиксов URL-адресов.
  • Чтобы изменения вступили в силу, может занять до 15 минут.

Разрешить доступ ко всем репозиториям

Чтобы отключить существующий список разрешений и разрешить доступ ко всем репозиториям:

  1. Перейдите на страницу Администратор Параметры.
  2. Перейдите на вкладку "Администратор рабочей области".
  3. В разделе "Разработка" в разделе "Разрешение на список разрешенных URL-адресов Git" выберите "Отключить" (без ограничений).

Управление доступом к репозиторию в рабочей области

Примечание.

Управление доступом доступно только в плане Premium.

Задайте разрешения для репозитория для управления доступом. Разрешения для репозитория применяются ко всему содержимому в этом репозитории. Вы можете назначить пять уровней разрешений файлам: НЕТ РАЗРЕШЕНИЙ, CAN READ, CAN RUN, CAN EDIT и CAN MANAGE.

Дополнительные сведения о разрешениях папок Git см. в списке управления доступом к папкам Git.

(Необязательно) Настройка прокси-сервера для корпоративных серверов Git

Если ваша компания использует локальную службу Git, например GitHub Enterprise или Azure DevOps Server, можно использовать прокси-сервер Databricks Git Server для подключения рабочих областей Databricks к репозиторию, который он обслуживает.

Ведение журнала аудита

Если ведение журнала аудита включено, события аудита регистрируются при взаимодействии с папкой Git. Например, событие аудита регистрируется при создании, обновлении или удалении папки Git, при перечислении всех папок Git, связанных с рабочей областью, и при синхронизации изменений между папкой Git и удаленным репозиторием Git.

Обнаружение секретов

Папки Git сканируют код для идентификаторов ключей доступа, которые начинаются с префикса AKIA и предупреждают пользователя перед фиксацией.

Использование файла конфигурации репозитория

Вы можете добавить параметры для каждой .databricks/commit_outputs записной книжки в репозиторий в файл, который вы создаете вручную.

Укажите записную книжку, которую вы хотите включить в выходные данные, используя шаблоны, аналогичные шаблонам Gitignore.

Шаблоны для файла конфигурации репозитория

Файл содержит положительные и отрицательные шаблоны пути к файлу. Шаблоны пути к файлу включают расширение файла записной книжки, например .ipynb.

  • Положительные шаблоны позволяют включить выходные данные для сопоставления записных книжек.
  • Отрицательные шаблоны отключают включение выходных данных для сопоставления записных книжек.

Шаблоны вычисляются для всех записных книжек. Недопустимые пути или пути, не разрешающие .ipynb записные книжки, игнорируются.

Чтобы включить выходные данные из путиfolder/innerfolder/notebook.ipynb к записной книжке, используйте следующие шаблоны:

**/*
folder/**
folder/innerfolder/note*

Чтобы исключить выходные данные записной книжки, проверка, что ни один из положительных шаблонов не соответствует или добавляет отрицательный шаблон в правильное место файла конфигурации. Отрицательные (исключенные) шаблоны начинаются с !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Перемещение папки Git в корзину (удаление)

Чтобы удалить папку Git из рабочей области, выполните следующие действия.

  1. Щелкните правой кнопкой мыши папку Git и выберите пункт "Переместить в корзину".

  2. В диалоговом окне введите имя папки Git, которую вы хотите удалить. Затем нажмите кнопку "Подтвердить" и перейдите в корзину.

    Подтвердите диалоговое окно

Следующие шаги