Интеграция Git с папками Databricks Git

Папки Databricks Git — это визуальный клиент Git и API в Azure Databricks. Она поддерживает распространенные операции Git, такие как клонирование репозитория, фиксация и отправка, извлечение, управление ветвями и визуальное сравнение диффов при фиксации.

В папках Git вы можете разрабатывать код в записных книжках или других файлах, а также следовать рекомендациям по разработке кода для обработки и проектирования данных с помощью Git для управления версиями, совместной работы и CI/CD.

Внимание

Databricks заменил функцию Repos интегрированными функциями папок Git в рабочих областях Databricks. Дополнительные сведения об этом изменении см. в статье "Что произошло с Databricks Repos?

Эта функция доступна в общедоступной предварительной версии во всех регионах.

Примечание.

Папки Git (Repos) в основном предназначены для разработки и совместной работы рабочих процессов.

Сведения о миграции из устаревшей интеграции Git см. в разделе "Миграция в папки Git" (прежнее название — Репозиторий) из устаревшей версии Git.

Что можно сделать с папками Databricks Git?

Папки Databricks Git обеспечивают управление версиями для проектов данных и ИИ путем интеграции с поставщиками Git.

В папках Databricks Git можно использовать функции Git для:

  • Клонирование, отправка и извлечение из удаленного репозитория Git.
  • Создание ветвей для работы по разработке и управление ими, включая объединение, перебазирование и разрешение конфликтов.
  • Создайте записные книжки (включая записные книжки IPYNB) и измените их и другие файлы.
  • Визуально сравнивайте различия при фиксации и разрешении конфликт слияния.

Пошаговые инструкции см. в статье Запуск операций Git в папках Databricks Git (Repos).

Примечание.

Папки Databricks Git также имеют API, которые можно интегрировать с конвейером CI/CD. Например, можно программно обновить репозиторий Databricks, чтобы он всегда был последней версией кода. Сведения о рекомендациях по разработке кода с помощью папок Databricks Git см. в статьях CI/CD с папками Git и Databricks (Repos).

Сведения о типах записных книжек, поддерживаемых в Azure Databricks, см. в статье "Экспорт и импорт записных книжек Databricks".

Поддерживаемые поставщики Git

Папки Databricks Git поддерживаются интегрированным репозиторием Git. Репозиторий может размещаться любым из поставщиков облачных и корпоративных Git, перечисленных в следующем разделе.

Примечание.

Что такое "поставщик Git"?

Поставщик Git — это конкретная (именованной) служба, в которую размещается модель управления версиями на основе Git. Платформы управления версиями на основе Git размещаются двумя способами: как облачная служба, размещенная развивающейся компанией, или как локальная служба, установленная и управляемая собственной компанией на собственном оборудовании. Многие поставщики Git, такие как GitHub, Microsoft, GitLab и Atlassian, предоставляют как облачные службы SaaS, так и локальные (иногда называемые самоуправляемыми) службами Git.

При выборе поставщика Git во время настройки необходимо учитывать различия между облачными поставщиками (SaaS) и локальными поставщиками Git. Локальные решения обычно размещаются за VPN компании и могут быть недоступны из Интернета. Как правило, локальные поставщики Git имеют имя, заканчивающееся на "Сервер" или "Самоуправляемый", но если вы не уверены, обратитесь к администраторам организации или просмотрите документацию поставщика Git.

Если поставщик Git является облачным и не указан в качестве поддерживаемого поставщика, выберите "GitHub", так как ваш поставщик может работать, но не гарантируется.

Примечание.

Если вы используете "GitHub" в качестве поставщика и по-прежнему не уверены, используете ли вы облачную или локальную версию, см. статью "О GitHub Enterprise Server " в документации по GitHub.

Поставщики облачных Git, поддерживаемые Databricks

  • GitHub, GitHub AE и GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab и GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Локальные поставщики Git, поддерживаемые Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server и Центр обработки данных
  • Самостоятельное управление GitLab
  • Microsoft Azure DevOps Server: администратор рабочей области должен явно разрешить префиксы домена URL-адреса для сервера Microsoft Azure DevOps, если URL-адрес не совпадает или visualstudio.com/*не соответствуетdev.azure.com/*. Дополнительные сведения см. в разделе "Ограничение использования URL-адресов в списке разрешений"

Если вы интегрируете локальный репозиторий Git, который недоступен из Интернета, прокси-сервер для запросов проверки подлинности Git также должен быть установлен в VPN вашей компании. Дополнительные сведения см. в разделе "Настройка частного подключения Git для папок Git Databricks(Repos)".

Сведения об использовании маркеров доступа с поставщиком Git см. в статье "Настройка учетных данных Git" и подключение удаленного репозитория к Azure Databricks.

Ресурсы для интеграции с Git

Используйте интерфейс командной строки Databricks 2.0 для интеграции Git с Azure Databricks:

Ознакомьтесь со следующими справочными документами:

Следующие шаги