Ограничения и часто задаваемые вопросы по интеграции с Git для папок Databricks

2025-05-10

Папки Databricks Git и интеграция с Git имеют ограничения, указанные в следующих разделах. Общие сведения см. в статье Ограничения Databricks.

Перейти к:

Ограничения файлов и репозитория
Вопросы и ответы: конфигурация папки Git

Сведения о типах ресурсов Databricks, поддерживаемых в папках Git, см. в статье "Какие типы ресурсов поддерживаются папками Git?".

Ограничения файлов и репозитория

Azure Databricks не применяет ограничение размера репозитория. Тем не менее

Рабочие ветви ограничены 1 гигабайтами (ГБ).
Файлы размером более 10 МБ не могут просматриваться в пользовательском интерфейсе Azure Databricks.
Отдельные файлы рабочей области подвергаются отдельному ограничению размера. Дополнительные сведения см. в разделе "Ограничения".
Локальная версия ветви может оставаться в связанной папке Git до 30 дней после удаления удаленной ветви. Чтобы полностью удалить локальную ветвь в папке Git, удалите репозиторий.

Databricks рекомендует, чтобы в репозитории:

Общее количество ресурсов и файлов рабочей области не превышает 20 000.

Для любой операции Git использование памяти ограничено 2 ГБ, а запись дисков ограничена 4 ГБ. Так как ограничение выполняется для каждой операции, при попытке клонировать репозиторий Git размером 5 ГБ вы получите сбой. Однако если клонировать репозиторий Git размером 3 ГБ в одной операции, а затем добавить в нее 2 ГБ позже, следующая операция вытягивания будет выполнена успешно.

Если репозиторий превышает эти ограничения, может появиться сообщение об ошибке. При клонировании репозитория может возникнуть ошибка времени ожидания, даже если операция всё-таки может завершиться в фоновом режиме.

Чтобы работать с репозиторием, превышающим ограничения размера, попробуйте разреженную выборку .

Если вы должны записывать временные файлы, которые не нужно хранить после завершения работы кластера, записывает временные файлы, чтобы $TEMPDIR избежать превышения ограничений размера ветви и обеспечивает лучшую производительность, чем запись в рабочий каталог (CWD) в файловой системе рабочей области. Дополнительные сведения см. в статье Где следует записывать временные файлы в Azure Databricks?.

Восстановление файлов, удаленных из папок Git в рабочей области

На возможность восстановления файлов влияют действия рабочей области в папках Git. Некоторые действия позволяют восстановление через папку корзина, а другие — нет. Файлы, ранее зафиксированные и отправленные в удаленную ветвь, можно восстановить с помощью журнала фиксаций Git для удаленного репозитория Git. В этой таблице описывается поведение каждого действия и возможность восстановления:

Действие	Можно ли восстановить файл?
Удаление файла с помощью браузера рабочей области	Да, из папки Корзина
Отмена нового файла с помощью диалогового окна папки Git	Да, из папки Корзина
Отмена измененного файла с помощью диалогового окна папки Git	Нет, файл исчезнет
`reset` (жесткий режим) для незафиксированных изменений файлов	Нет, изменения файлов исчезли
`reset` (строго) для незафиксированных вновь созданных файлов	Нет, изменения файлов исчезли
Переключение ветвей с помощью диалогового окна папки Git	Да, из удаленного репозитория Git
Другие операции Git, такие как фиксация или отправка, из диалогового окна папки Git	Да, из удаленного репозитория Git
`PATCH` операции обновления `/repos/id` из API Repos	Да, из удаленного репозитория Git

Поддержка единого репозитория

Databricks рекомендует не создавать папки Git, основанные на monorepos. Monorepo — это большой репозиторий Git в одной организации с тысячами файлов во многих проектах.

Часто задаваемые вопросы: конфигурация папки Git

Где хранится содержимое репозитория Azure Databricks?

Содержимое репозитория временно клонируется на диск на уровне управления. Файлы записной книжки Azure Databricks хранятся в базе данных на уровне управления, как и записные книжки в основной рабочей области. Файлы, не относящиеся к записной книжке, хранятся на диске до 30 дней.

Поддерживают ли каталоги Git сервера на собственной площадке или под управлением пользователя?

Папки Databricks Git поддерживают GitHub Enterprise, Bitbucket Server, Azure DevOps Server и локальную интеграцию GitLab, если сервер доступен в Интернете. Дополнительные сведения об интеграции папок Git с локальным сервером Git см. в разделе Сервер-прокси Git для папок Git.

Чтобы интегрироваться с Сервером Bitbucket, GitHub Enterprise Server или экземпляром самостоятельно управляемой подписки GitLab, который недоступен в Интернете, обратитесь к группе учетной записи Azure Databricks.

Какие типы ресурсов Databricks поддерживаются папками Git?

Дополнительные сведения о поддерживаемых типах артефактов см. в разделе "Какие типы ресурсов поддерживаются папками Git?".

Поддерживают ли папки Git файлы `.gitignore`?

Да. Если вы добавили файл в репозиторий и не хотите, чтобы он отслеживался в Git, создайте файл .gitignore или используйте один из клонированных файлов из удаленного репозитория и добавьте имя файла, включая расширение.

.gitignore работает только для файлов, которые еще не отслеживаются Git. Если вы добавляете файл, уже отслеживаемый Git в .gitignore-файл, файл по-прежнему отслеживается Git.

Поддерживают ли папки Git подмодулы Git?

№ Вы можете клонировать репозиторий, содержащий подмодули Git, но подмодуль не клонируется.

Поддерживает ли Фабрика данных Azure (ADF) папки Git?

Да.

Управление источником

Почему панели мониторинга записной книжки исчезают при выполнении pull или переключении на другую ветвь?

Это недостаток, поскольку блокноты формата исходного кода Azure Databricks не хранят информацию о панели мониторинга блокнота.

Чтобы сохранить панели мониторинга в репозитории Git, измените формат записной книжки на .ipynb (формат записной книжки Jupyter). По умолчанию .ipynb поддерживает определения панели мониторинга и визуализации. Чтобы сохранить данные визуализации, необходимо зафиксировать записную книжку с выходными данными.

Чтобы узнать о фиксации .ipynb выходных данных записной книжки, см. статью Управление фиксацией выходных данных записной книжки IPYNB.

Поддерживают ли папки Git объединение ветвей?

Да. Вы также можете создать pull request и объединить через вашего Git-провайдера.

Можно ли удалить ветвь из репозитория Azure Databricks?

№ Чтобы удалить ветвь, необходимо работать в поставщике Git.

Каков порядок приоритета при включении зависимостей Python в папки Git?

Библиотеки Python, хранящиеся в папке Git, имеют приоритет над библиотеками, хранящимися в другом месте. Например, если библиотека установлена в вычислительной среде Databricks, а библиотека с тем же именем включена в папку Git, библиотека в папке Git импортируется. Дополнительные сведения о приоритете библиотеки в Python см. в разделе "Приоритет библиотеки Python".

Безопасность, проверка подлинности и маркеры

Проблема с политикой условного доступа (CAP) для идентификатора Microsoft Entra

При попытке клонировать репозиторий может появиться сообщение об ошибке "отказано в доступе", когда:

Azure Databricks настроен для использования Azure DevOps с проверкой подлинности идентификатора Microsoft Entra.
Вы включили политику условного доступа в Azure DevOps и политику условного доступа в Microsoft Entra ID.

Чтобы устранить эту проблему, добавьте исключение в политику условного доступа (CAP) для IP-адреса или пользователей Azure Databricks.

Дополнительные сведения см. в разделе "Политики условного доступа".

Список разрешений с маркерами идентификатора Microsoft Entra

Если вы используете идентификатор Microsoft Entra для проверки подлинности с помощью Azure DevOps, список разрешений по умолчанию ограничивает URL-адреса Git следующим образом:

dev.azure.com
visualstudio.com

Дополнительные сведения см. в разделе Списки разрешений для ограничения использования удаленного репозитория.

Зашифрованы ли содержимое папок Azure Databricks Git?

Содержимое папок Azure Databricks Git шифруется Azure Databricks с помощью ключа по умолчанию. Шифрование с помощью ключей, управляемых клиентом, не поддерживается, за исключением шифрования учетных данных Git.

Как и где хранятся токены GitHub в Azure Databricks? Кто может получить доступ из Azure Databricks?

Токены аутентификации хранятся в плоскости управления Azure Databricks, и сотрудник Azure Databricks может получить доступ только через временные учетные данные, которые аудируются.
Azure Databricks регистрирует создание и удаление этих маркеров, но не их использование. В Azure Databricks осуществляется журналирование Git-операций, которое может использоваться для аудита использования токенов приложением Azure Databricks.
GitHub Enterprise проверяет использование токенов. В других службах Git также может выполняться аудит сервера Git.

Поддерживают ли репозитории Git подписывание фиксаций с помощью GPG?

№

Поддерживают ли папки Git операции Git с помощью SSH?

Нет, поддерживается только HTTPS протокол.

Ошибка при подключении Azure Databricks к репозиторию Azure DevOps в другом тенанте

При попытке подключиться к DevOps в отдельной аренде может появиться сообщение Unable to parse credentials from Azure Active Directory account. Если проект Azure DevOps находится в другом тенанте Microsoft Entra ID, чем Azure Databricks, необходимо использовать токен доступа из Azure DevOps. См. Подключение к Azure DevOps с использованием токена DevOps.

CI/CD и MLOps

Входящие изменения очищают состояние записной книжки

Операции Git, изменяющие исходный код записной книжки, приводят к потере состояния записной книжки, включая выходные данные ячеек, комментарии, журнал версий и мини-приложения. Например, git pull можно изменить исходный код записной книжки. В этом случае папки Databricks Git должны перезаписать существующую записную книжку для импорта изменений. git commit и push или создание новой ветви не влияет на исходный код записной книжки, поэтому состояние записной книжки сохраняется в этих операциях.

Внимание

Эксперименты MLflow не работают в папках Git с DBR 14.x или более низкими версиями.

Можно ли создать эксперимент MLflow в папке Git?

Существует два типа экспериментов MLflow: рабочая область и записная книжка. Дополнительные сведения о двух типах экспериментов MLflow см. в разделе "Упорядочивание учебных запусков с помощью экспериментов MLflow".

Эксперименты рабочей области: Невозможно создать эксперименты MLflow в папках Git. Вместо этого записывайте запуски MLflow в эксперимент MLflow, созданный в обычной папке рабочей области. Если несколько пользователей используют отдельные папки Git для совместной работы над одним и тем же кодом, записывайте запуски MLflow в эксперимент MLflow, созданный в общей папке рабочей области.
Эксперименты записной книжки. Вы можете создавать эксперименты записных книжек в папке Databricks Git. При размещении записной книжки в системе управления версиями как .ipynb файла, вы можете записывать текущие сеансы MLflow в автоматически созданный и связанный эксперимент MLflow. Однако эксперимент и связанные с ним запуски не проверяются в системе контроля версий. Дополнительные сведения см. в статье о создании экспериментов в записной книжке.

Предотвращение потери данных в экспериментах MLflow

Эксперименты в блокноте MLflow, созданные с помощью заданий Lakeflow с исходным кодом в удаленном репозитории, хранятся во временном хранилище. Эти эксперименты сохраняются изначально после выполнения рабочего процесса, но могут быть подвержены риску удаления позже во время запланированного удаления файлов во временном хранилище. Databricks рекомендует использовать эксперименты MLflow в рабочей области, с заданиями и удаленными источниками Git.

Предупреждение

При переходе на ветвь, которая не содержит записную книжку, вы рискуете потерять связанные данные эксперимента MLflow. Эта потеря становится постоянной, если предыдущий филиал недоступен в течение 30 дней.

Чтобы восстановить отсутствующие данные эксперимента до истечения 30-дневного срока действия, измените имя записной книжки на исходное имя, откройте записную книжку и щелкните значок на правой боковой панели, которая активирует вызов функции mlflow.get_experiment_by_name(). Когда функция завершит выполнение, вы увидите восстановленный эксперимент и запуски. Через 30 дней все потерянные эксперименты MLflow будут удалены для удовлетворения политик соответствия GDPR.

Чтобы предотвратить эту ситуацию, Databricks рекомендует не переименовать записные книжки в репозитории. Если переименовывать записную книжку, щелкните значок "Эксперимент" на правой боковой панели сразу после переименования записной книжки.

Что произойдет, если задание записной книжки выполняется в рабочей области во время выполнения операции Git?

В любой момент, когда выполняется операция Git, некоторые записные книжки в репозитории, возможно, были обновлены, а другие — нет. Это может привести к непредсказуемому поведению.

Например, предположим, что notebook A вызывает notebook Z с помощью команды %run. Если задание, выполняемое во время операции Git, запускает самую последнюю версию notebook A, но notebook Z еще не обновлена, команда %run в notebook A может запустить старую версию notebook Z. Во время операции Git нельзя предсказать состояния записной книжки, и задание может завершиться ошибкой, или наоборот, запустить notebook A и notebook Z из различных коммитов.

Чтобы избежать этой ситуации, настройте задачи задания так, чтобы они использовали провайдера Git в качестве источника, а не путь к рабочей области. Дополнительные сведения см. в статье Использование Git с заданиями.

Ресурсы

Дополнительные сведения о файлах рабочей области Databricks см. в разделе "Что такое файлы рабочей области?".