Поделиться через


Databricks Connect для Python

Примечание.

В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.

В этой статье показано, как быстро приступить к работе с Databricks Connect с помощью Python и PyCharm.

Databricks Connect позволяет подключать популярные идентификаторы, такие как PyCharm, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".

Учебник

Чтобы пропустить это руководство и использовать другую интегрированную среду разработки, см . следующие действия.

Требования

Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:

  • Целевая рабочая область Azure Databricks должна включать каталог Unity.
  • Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
  • Вычислительные ресурсы соответствуют требованиям к установке Databricks Connect для Python.
  • Если вы используете классические вычисления, вам потребуется идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между clusters URL-адресом и configuration URL-адресом.

Шаг 1. Настройка проверки подлинности Azure Databricks

В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".

Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks. Сведения об установке интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks".

Инициируйте проверку подлинности OAuth U2M следующим образом:

  1. Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.

    В следующей команде замените <workspace-url> URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Кроме того, если вы хотите использовать бессерверные вычисления Databricks с DB Connect, выполните действия по настройке подключения к бессерверным вычислениям.

  2. Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите, Enter чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.

    Чтобы получить список существующих профилей, в отдельном терминале или командной строке используйте интерфейс командной строки Databricks для выполнения команды databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните команду databricks auth env --profile <profile-name>.

  3. В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.

  4. В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу Enter. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.

  5. Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Если у вас есть несколько профилей с --host одинаковым значением, может потребоваться указать и -p параметры --host вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.

Шаг 2. Создание проекта

  1. Запустите PyCharm.
  2. В главном меню нажмите кнопку "Файл > нового проекта".
  3. В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
  4. В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
  5. Оставьте выбранный сценарий приветствия main.py.
  6. Для типа интерпретатора щелкните Project venv.
  7. Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
  8. Нажмите кнопку Создать.

Создание проекта PyCharm

Шаг 3. Добавление пакета Databricks Connect

  1. В главном меню PyCharm выберите пункт "Просмотр пакетов Windows > Python" в средстве просмотра>.
  2. В поле поиска введите databricks-connect.
  3. В списке репозитория PyPI щелкните databricks-connect.
  4. В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
  5. Нажмите кнопку " Установить пакет".
  6. После установки пакета можно закрыть окно пакетов Python.

Установка пакета Databricks Connect

Шаг 4. Добавление кода

  1. В окне средства "Проект" щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.

  2. Введите main.py и дважды щелкните файл Python.

  3. Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.

    Если профиль конфигурации из шага 1 называется DEFAULT, введите следующий код в файл и сохраните файл:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Если профиль конфигурации из шага 1 не называется DEFAULT, введите следующий код в файл. Замените заполнитель <profile-name> именем профиля конфигурации на шаге 1, а затем сохраните файл:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Шаг 5. Запуск кода

  1. Запустите целевой кластер в удаленной рабочей области Azure Databricks.
  2. После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
  3. В окне "Запуск" (запуск средства > просмотра>) на главной панели вкладки "Запуск" отображаются первые 5 строкsamples.nyctaxi.trips.

Шаг 6. Отладка кода

  1. При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы df.show(5) задать точку останова.
  2. В главном меню нажмите кнопку "Выполнить > отладку main".
  3. В окне средства отладки (отладка средства просмотра>)> на панели переменных отладчика разверните узлы переменных df и spark, чтобы просмотреть сведения о коде df и spark переменных.
  4. На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
  5. На панели консоли отладчика отображаются первые 5 строкsamples.nyctaxi.trips.

Отладка проекта PyCharm

Следующие шаги

Дополнительные сведения о Databricks Connect см. в следующих статьях: