Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Замечание
Эта статья относится к Databricks Connect для Databricks Runtime 13.3 LTS и выше.
Databricks Connect позволяет подключать популярные среды разработки, такие как PyCharm, серверы ноутбуков и другие пользовательские приложения к вычислениям Azure Databricks. См. раздел "Что такое Databricks Connect?".
В этой статье показано, как быстро приступить к работе с Databricks Connect для Python с помощью PyCharm. Вы создадите проект в PyCharm, установите Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий и выполните простой код для классических вычислений в рабочей области Databricks из PyCharm.
Требования
Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:
- Рабочая область, локальная среда и вычислительные ресурсы соответствуют требованиям Databricks Connect для Python. См. сведения о требованиях к использованию Databricks Connect.
- Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
- Если вы используете классические вычисления, вам потребуется идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между
clustersиconfigurationв URL-адресе.
Шаг 1. Настройка проверки подлинности Azure Databricks
В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".
Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks. Сведения об установке интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks".
Инициируйте проверку подлинности OAuth U2M следующим образом:
Используйте Databricks CLI для начала управления токенами OAuth на локальном уровне, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>на ваш URL-адрес Azure Databricks для рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Подсказка
Сведения об использовании бессерверных вычислений с Databricks Connect см. в разделе "Настройка подключения к бессерверным вычислениям".
Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите,
Enterчтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы получить список существующих профилей в отдельном терминале или командной строке, используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу
Enter. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с одинаковым значением
--host, может потребоваться указать параметры--hostи-pвместе, чтобы помочь Databricks CLI найти правильную информацию о соответствующем токене OAuth.
Шаг 2. Создание проекта
- Запустите PyCharm.
- В главном меню выберите Файл > Новый проект.
- В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
- В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
- Оставьте выбранный сценарий приветствия main.py.
- Для типа интерпретатора щелкните Project venv.
- Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
- Нажмите кнопку Создать.
Шаг 3. Добавление пакета Databricks Connect
- На главном меню PyCharm нажмите Вид > Инструментальные окна > Пакеты Python.
- В поле поиска введите
databricks-connect. - В списке репозитория PyPI щелкните databricks-connect.
- В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
- Нажмите кнопку " Установить пакет".
- После установки пакета можно закрыть окно пакетов Python.
Шаг 4. Добавление кода
В окне средства "Проект " щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.
Введите
main.pyи дважды щелкните файл Python.Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.
Если профиль конфигурации из шага 1 называется
DEFAULT, введите следующий код в файл и сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Если профиль конфигурации из шага 1 не называется
DEFAULT, введите следующий код в файл. Замените заполнитель<profile-name>именем профиля конфигурации на шаге 1, а затем сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Шаг 5. Запуск кода
- Запустите целевой кластер в удаленной рабочей области Azure Databricks.
- После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
- В окне инструмента Запуск (Вид > Окна инструментов > Запуск) в основной области вкладки Запуск отображаются первые 5 строк .
Шаг 6. Отладка кода
- При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы
df.show(5)задать точку останова. - В главном меню нажмите кнопку "Выполнить > отладку main".
- В окне средства Отладка (Просмотр > Средства > Отладка), на вкладке Отладчика, в панели Переменные, разверните узлы переменных df и spark, чтобы просмотреть сведения о
dfиsparkпеременных кода. - На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
- На вкладке Отладчик, в панели Консоль отображаются первые 5 строк
samples.nyctaxi.trips.