Поделиться через


Разработка в Databricks

Разработчики, использующие Databricks, включают в себя специалистов по обработке данных, инженеров данных, аналитиков данных, инженеров по машинному обучению, а также инженеров DevOps и MLOps — все они создают решения и интеграции для расширения и настройки Databricks в соответствии с их конкретными потребностями. Помимо множества API-интерфейсов Databricks и функций проектирования данных, доступных в рабочей области, есть также множество средств для подключения к Databricks и разработки локально, которые поддерживают пользователей разработчиков Databricks.

В этой статье представлен обзор API и средств, доступных для пользователей разработчиков Databricks.

Начало написания кода в рабочей области

Разработка в рабочей области — отличный способ быстро ознакомиться с API Databricks. Databricks поддерживает возможности Python, SQL, Scala, R и другие функции, ориентированные на разработчиков, в рабочей области, включая полезные инструменты и служебные программы.

Ниже приведены некоторые способы запуска:

Создание пользовательских приложений и решений

Azure Databricks предоставляет средства для рабочей области и локальной разработки. В рабочем пространстве можно создавать приложения с помощью пользовательского интерфейса, данные легко доступны в томах каталога Unity и файлах рабочего пространства. Доступны специфичные для рабочего пространства функции, такие как помощник по отладке Databricks. Другие функции, такие как записные книжки, имеют полный набор возможностей, а контроль версий обеспечивается с помощью папок Git.

Кроме того, вы можете разрабатывать пользовательские решения с помощью интегрированной среды разработки на локальном компьютере, чтобы воспользоваться полной функциональностью расширенной среды разработки. Локальная разработка поддерживает более широкий спектр языков, что означает, что функции, зависящие от языка, такие как отладка и тестовые платформы, доступны для поддержки больших проектов, а также прямой доступ к системе управления версиями.

Рекомендации по использованию инструментов см. в разделе "Какой инструмент разработчика следует использовать?".

Особенность Описание
Проверка подлинности и авторизация Настройте проверку подлинности и авторизацию для средств, сценариев и приложений для работы с Azure Databricks.
Приложения Databricks Создайте безопасные данные и пользовательские приложения ИИ на платформе Databricks, которую можно предоставить другим пользователям.
Расширение Databricks для Visual Studio Code Подключитесь к удаленным рабочим областям Azure Databricks из Visual Studio Code для упрощения настройки подключения к рабочей области Databricks и пользовательского интерфейса для управления ресурсами Databricks.
Подключаемый модуль PyCharm Databricks Настройте подключение к удаленной рабочей области Databricks и запустите файлы в кластерах Databricks из PyCharm. Этот подключаемый модуль разработан и предоставляется JetBrains в партнерстве с Databricks.
Пакеты SDK Databricks Автоматизируйте взаимодействие с Databricks, используя SDK вместо прямого вызова REST API. Пакеты SDK также доступны в рабочей области.

Подключение к Databricks

Подключение к Databricks является необходимым компонентом многих интеграции и решений, и Databricks предоставляет большой выбор средств подключения, из которых следует выбрать. В следующей таблице представлены средства для подключения среды разработки и процессов к рабочей области и ресурсам Azure Databricks.

Особенность Описание
Databricks Connect Подключитесь к Azure Databricks с помощью популярных интегрированных сред разработки (IDEs), таких как PyCharm, IntelliJ IDEA, Eclipse, RStudio и JupyterLab.
Расширение Databricks для Visual Studio Code Простая настройка подключения к рабочей области Databricks и пользовательский интерфейс для управления ресурсами Databricks.
Драйверы и средства SQL Подключитесь к Azure Databricks для выполнения команд и скриптов SQL, программного взаимодействия с Azure Databricks и интеграции функций SQL Azure Databricks в приложения, написанные на популярных языках, таких как Python, Go, JavaScript и TypeScript.

Совет

Вы также можете подключить множество дополнительных популярных сторонних средств к кластерам и хранилищам SQL для доступа к данным в Azure Databricks. См. партнеров технологии .

Управление инфраструктурой и ресурсами

Разработчики и инженеры данных могут выбрать из следующих инструментов для автоматизации развертывания и управления инфраструктурой и ресурсами. Эти средства поддерживают как простые, так и сложные сценарии конвейера CI/CD.

Рекомендации по использованию инструментов см. в разделе "Какой инструмент разработчика следует использовать?".

Особенность Описание
Интерфейс командной строки Databricks Доступ к функциям Azure Databricks с помощью интерфейса командной строки Databricks (CLI). Интерфейс командной строки упаковывает REST API Databricks, поэтому вместо отправки вызовов REST API непосредственно с помощью curl или Postman можно использовать интерфейс командной строки Databricks для взаимодействия с Databricks. Используйте интерфейс командной строки из локального терминала или используйте его из веб-терминала рабочей области.
Пакеты активов Databricks Определите и управляйте ресурсами Databricks и вашим конвейером CI/CD, применяя стандартные отраслевые подходы к разработке, тестированию и развертыванию в ваших проектах данных и ИИ с помощью Databricks Asset Bundles — функции Databricks CLI.
Поставщик Databricks Terraform и Terraform CDKTF для Databricks Подготовка инфраструктуры и ресурсов Azure Databricks с помощью Terraform.
Средства CI/CD Интеграция популярных систем CI/CD и платформ, таких как GitHub Actions, Jenkins и Apache Airflow.

Совместная работа и совместное использование кода

Среди множества других функций совместной работы в рабочем пространстве, Databricks специально поддерживает пользователей-разработчиков, которые хотят сотрудничать и обмениваться кодом в рабочем пространстве с помощью этих функций:

Особенность Описание
Пользовательские определяемые функции (ПФО) Разрабатывайте определяемые пользователем функции (UDF) для их повторного использования и обмена кода.
Папки Git Настройте папки Git для контроля версий и исходного кода файлов вашего проекта в Databricks.

Взаимодействие с сообществом разработчиков Databricks

Databricks имеет активное сообщество разработчиков, которое поддерживается следующими программами и ресурсами: