Databricks Connect для Python

Статья
10/15/2024

Примечание.

В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.

В этой статье показано, как быстро приступить к работе с Databricks Connect с помощью Python и PyCharm.

Сведения о версии R этой статьи см. в разделе Databricks Connect для R.
Сведения о версии Scala этой статьи см. в разделе Databricks Connect для Scala.

Databricks Connect позволяет подключать популярные идентификаторы, такие как PyCharm, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".

Учебник

Чтобы пропустить это руководство и использовать другую интегрированную среду разработки, см . следующие действия.

Требования

Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:

Целевая рабочая область Azure Databricks должна включать каталог Unity.
Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
Вычислительные ресурсы соответствуют требованиям к установке Databricks Connect для Python.
Если вы используете классические вычисления, вам потребуется идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между clusters URL-адресом и configuration URL-адресом.

Шаг 1. Настройка проверки подлинности Azure Databricks

В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".

Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks. Сведения об установке интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks".

Инициируйте проверку подлинности OAuth U2M следующим образом:

Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.

В следующей команде замените <workspace-url> URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.
```
databricks auth login --configure-cluster --host <workspace-url>
```
Кроме того, если вы хотите использовать бессерверные вычисления Databricks с DB Connect, выполните действия по настройке подключения к бессерверным вычислениям.
Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите, Enter чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.

Чтобы получить список существующих профилей, в отдельном терминале или командной строке используйте интерфейс командной строки Databricks для выполнения команды databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните команду databricks auth env --profile <profile-name>.
В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу Enter. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.
Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с --host одинаковым значением, может потребоваться указать и -p параметры --host вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.

Шаг 2. Создание проекта

Запустите PyCharm.
В главном меню нажмите кнопку "Файл > нового проекта".
В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
Оставьте выбранный сценарий приветствия main.py.
Для типа интерпретатора щелкните Project venv.
Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
Нажмите кнопку Создать.

Создание проекта PyCharm

Шаг 3. Добавление пакета Databricks Connect

В главном меню PyCharm выберите пункт "Просмотр пакетов Windows > Python" в средстве просмотра>.
В поле поиска введите databricks-connect.
В списке репозитория PyPI щелкните databricks-connect.
В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
Нажмите кнопку " Установить пакет".
После установки пакета можно закрыть окно пакетов Python.

Установка пакета Databricks Connect

Шаг 4. Добавление кода

В окне средства "Проект" щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.
Введите main.py и дважды щелкните файл Python.
Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.

Если профиль конфигурации из шага 1 называется DEFAULT, введите следующий код в файл и сохраните файл:
```
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
```
Если профиль конфигурации из шага 1 не называется DEFAULT, введите следующий код в файл. Замените заполнитель <profile-name> именем профиля конфигурации на шаге 1, а затем сохраните файл:
```
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
```

Шаг 5. Запуск кода

Запустите целевой кластер в удаленной рабочей области Azure Databricks.
После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
В окне "Запуск" (запуск средства > просмотра>) на главной панели вкладки "Запуск" отображаются первые 5 строкsamples.nyctaxi.trips.

Шаг 6. Отладка кода

При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы df.show(5) задать точку останова.
В главном меню нажмите кнопку "Выполнить > отладку main".
В окне средства отладки (отладка средства просмотра>)> на панели переменных отладчика разверните узлы переменных df и spark, чтобы просмотреть сведения о коде df и spark переменных.
На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
На панели консоли отладчика отображаются первые 5 строкsamples.nyctaxi.trips.

Отладка проекта PyCharm

Следующие шаги

Дополнительные сведения о Databricks Connect см. в следующих статьях:

Сведения об использовании типов проверки подлинности Azure Databricks, отличных от маркера личного доступа Azure Databricks, см. в разделе "Настройка свойств подключения".
Сведения об использовании других удостоверов, серверов записных книжек и оболочки Spark см. в следующих статьях:
Дополнительные простые примеры кода см. в примерах кода для Databricks Connect для Python.
Дополнительные примеры кода см. в примерах приложений для репозитория Databricks Connect в GitHub, в частности:
Сведения об использовании служебных программ Databricks с Databricks Connect см. в разделе "Служебные программы Databricks" с Databricks Connect для Python.
Сведения о миграции из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий см. в разделе "Миграция на Databricks Connect для Python".
См. также сведения об устранении неполадок и ограничениях.

Поделиться через