Поделиться через


Настройка проекта Databricks с помощью расширения Databricks для Visual Studio Code

Расширение Databricks для Visual Studio Code предлагает представление конфигурации на панели расширения, которое позволяет легко настраивать и обновлять параметры для проекта Databricks. Эти функции включают селектор развертывания целевой рабочей области, простую настройку проверки подлинности и вычислений, синхронизацию папок рабочей области и простые шаги для активации виртуальной среды Python, необходимой для отладки.

Представление конфигурации в расширении Databricks для Visual Studio Code доступно после создания или переноса проекта в проект Databricks. См. статью "Создание проекта Databricks".

Примечание.

Более ранние версии расширения Databricks для Visual Studio Code определяли параметры конфигурации в файле JSON проекта, а переменные среды устанавливались в терминале. В релизной версии конфигурация проекта и среды находится в файлах databricks.yml и databricks.env.

Если ваш проект является пакетом данных Databricks, пользовательский интерфейс расширения Databricks также предоставляет Обозреватель ресурсов пакета и Представление переменных пакета для управления ресурсами и переменными пакета. См. функции расширения пакетов декларативной автоматизации.

Изменение целевой рабочей области развертывания

Чтобы выбрать или переключить целевой объект развертывания для проекта Databricks (например, переключиться с целевого dev объекта на целевой prod объект):

  1. В представлении конфигурации панели расширения Databricks щелкните значок шестеренки (выберите целевой объект пакета ресурсов Databricks), связанный с Target.

    Выбор целевого объекта пакета

  2. В палитре команд выберите нужный целевой объект развертывания.

После настройки целевого объекта отображается режим узла и развертывания. Сведения о режимах развертывания декларативных пакетов автоматизации см. в режимах развертывания декларативных пакетов автоматизации.

Хост рабочей области можно изменить, изменив целевой workspace параметр в databricks.yml файле конфигурации, связанном с проектом. См цели.

Примечание.

Следующее расширение Databricks для функций Visual Studio Code доступно только при разработке целевого режима развертывания:

  • Использование присоединенного кластера разработки для заданий пакета
  • Синхронизация файлов папок рабочей области
  • Выбор интерактивного кластера разработки

Настройка профиля Databricks для проекта

При создании проекта Databricks или преобразования проекта в качестве проекта Databricks необходимо настроить профиль, включающий параметры проверки подлинности, используемые для подключения к Databricks. Если вы хотите изменить используемый профиль проверки подлинности, щелкните значок шестеренки, связанный с AuthType в представлении конфигурации .

Дополнительные сведения о расширении Databricks для проверки подлинности Visual Studio Code см. в статье Настройка авторизации расширения Databricks для Visual Studio Code.

Выбор вычислений для выполнения кода и заданий

С помощью расширения Databricks для Visual Studio Code можно выбрать бессерверный кластер, выбрать существующий кластер Azure Databricks или создать новый кластер Azure Databricks для выполнения кода и заданий. После подключения к вычислительным ресурсам отображается идентификатор кластера, версия Databricks Runtime, создатель, состояние и режим доступа. Вы также можете запустить и остановить кластер и перейти непосредственно к сведениям о странице кластера.

Совет

Если вы не хотите ждать запуска кластера, отметьте Переопределение кластера заданий в пакете под выбранным кластером, чтобы использовать данный кластер для выполнения пакетных заданий в режиме разработки. Это недоступно, если вы используете бессерверные вычисления.

Использование бессерверных

Бессерверные вычисления управляются Azure Databricks. При выполнении рабочих нагрузок без сервера Azure Databricks автоматически выделяет необходимые вычислительные ресурсы и управляет ими.

  1. В представлении конфигурации рядом с кластером выберите кластер или значок шестеренки (настройка кластера).

    Настройка кластера

  2. В палитре команд выберите бессерверный.

    Выбор бессерверных вычислений

Использование имеющегося кластера

Если у вас есть существующий кластер Azure Databricks, который вы хотите использовать:

  1. В представлении конфигурации рядом с кластером выберите кластер или значок шестеренки (настройка кластера).

  2. В палитре команд выберите кластер, который требуется использовать.

Создание нового кластера

Если у вас нет существующего кластера Azure Databricks или вы хотите создать новый кластер:

  1. В представлении конфигурации рядом с кластером щелкните значок шестеренки (настройка кластера).

  2. В палитре команд нажмите кнопку "Создать кластер".

  3. Когда появится запрос на открытие внешнего веб-сайта (рабочая область Azure Databricks), нажмите кнопку "Открыть".

  4. При появлении запроса войдите в рабочую область Azure Databricks.

  5. Следуйте инструкциям по созданию кластера.

    Примечание.

    Databricks рекомендует создать кластер личных вычислений. Это позволяет немедленно запускать рабочие нагрузки, минимизируя затраты на управление вычислительными ресурсами.

  6. После создания и запуска кластера вернитесь в Visual Studio Code.

  7. В представлении конфигурации рядом с кластером щелкните значок шестеренки (настройка кластера).

    Настройка значка кластера 3

    В палитре команд щелкните кластер, который вы хотите использовать.

Синхронизация папки рабочей области с Databricks

Вы можете синхронизировать папку удаленной рабочей области Databricks, связанную с проектом Databricks, щелкнув значок синхронизации (начать синхронизацию), связанную с удаленной папкой в представлении конфигурации панели расширения Databricks.

Примечание.

Расширение Databricks для Visual Studio Code работает только с создаваемыми каталогами рабочих областей. Вы не можете использовать существующий каталог рабочей области в проекте, если он не был создан расширением.

Чтобы перейти к представлению рабочей области в Databricks, щелкните значок внешней ссылки (Открыть ссылку внешней) , связанный с удаленной папкой.

Расширение определяет, какую папку рабочей области Azure Databricks использовать, на основе настройки в сопоставлении конфигурации пакета, связанной с проектом. Смотрите рабочую область.

Примечание.

Расширение Databricks для Visual Studio Code выполняет только одностороннюю автоматическую синхронизацию изменений файлов из вашего локального проекта Visual Studio Code в соответствующую папку в удалённой рабочей среде Azure Databricks. Файлы в этом каталоге удаленной рабочей области предназначены для временного характера. Не инициируйте изменения этих файлов из удаленной рабочей области, так как эти изменения не будут синхронизированы с локальным проектом.

Сведения об использовании функции синхронизации каталогов рабочей области для более ранних версий расширения Databricks для Visual Studio Code см. в разделе "Выбор каталога рабочей области" расширения Databricks для Visual Studio Code.

Настройка среды Python и Databricks Connect

В разделе "Среда Python" представления конфигурации можно легко настроить среду разработки Python и установить Databricks Connect для запуска и отладки ячеек кода и записной книжки. Виртуальные среды Python обеспечивают использование проектом совместимых версий Python и пакетов Python (в данном случае — пакет Databricks Connect).

Чтобы настроить виртуальную среду Python для вашего проекта, в разделе «Конфигурация» панели расширений:

  1. Щелкните красный элемент "Активировать виртуальную среду " в разделе "Среда Python".
  2. В палитре команд выберите Venv или Conda.
  3. Выберите зависимости, которые требуется установить, если таковые имеются.

Чтобы изменить среды, щелкните значок шестеренки (изменение виртуальной среды), связанной с активной средой.

Сведения об установке Databricks Connect, которая обеспечивает выполнение и отладку кода и записных книжек в Visual Studio Code, см. в статье "Отладка кода с помощью Databricks Connect" для расширения Databricks для Visual Studio Code.