Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Разработчики, использующие Databricks, включают в себя специалистов по обработке данных, инженеров данных, аналитиков данных, инженеров по машинному обучению, а также инженеров DevOps и MLOps — все они создают решения и интеграции для расширения и настройки Databricks в соответствии с их конкретными потребностями. Помимо множества API-интерфейсов Databricks и функций проектирования данных, доступных в рабочей области, есть также множество средств для подключения к Databricks и разработки локально, которые поддерживают пользователей разработчиков Databricks.
В этой статье представлен обзор API и средств, доступных для пользователей разработчиков Databricks.
Начало написания кода в рабочей области
Разработка в рабочей области — отличный способ быстро ознакомиться с API Databricks. Databricks поддерживает возможности Python, SQL, Scala, R и другие функции, ориентированные на разработчиков, в рабочей области, включая полезные инструменты и служебные программы.
Ниже приведены некоторые способы запуска:
- Ознакомьтесь с обзором и найдите ссылки на руководства по различным сценариям для Python, Scala и R. Таблица инструментов, поддерживаемых на различных языках, см. в обзоре языков.
- Просмотрите справочник по языку SQL для просмотра глубины и широты возможностей.
- Ознакомьтесь с руководством. Загрузка и преобразование данных с помощью кадров данных Apache Spark в Python, Scala или R, чтобы получить общие сведения об API Spark. Дополнительные простые примеры для PySpark приведены в основах PySpark.
- Ознакомьтесь с доступной справочной документацией, включая справочник по REST API , который предоставляет хорошее представление о объектах Databricks, которые также можно создать и изменить с помощью других средств.
- Установите пакет SDK Python в записную книжку и напишите простую функцию.
- Переместите некоторые файлы с помощью команд служебных программ Databricks, чтобы ознакомиться с использованием служебных программ
fsдля управления средой Databricks.
Создание пользовательских приложений и решений
Azure Databricks предоставляет средства для рабочей области и локальной разработки. В рабочем пространстве можно создавать приложения с помощью пользовательского интерфейса, данные легко доступны в томах каталога Unity и файлах рабочего пространства. Доступны специфичные для рабочего пространства функции, такие как помощник по отладке Databricks. Другие функции, такие как записные книжки, имеют полный набор возможностей, а контроль версий обеспечивается с помощью папок Git.
Кроме того, вы можете разрабатывать пользовательские решения с помощью интегрированной среды разработки на локальном компьютере, чтобы воспользоваться полной функциональностью расширенной среды разработки. Локальная разработка поддерживает более широкий спектр языков, что означает, что функции, зависящие от языка, такие как отладка и тестовые платформы, доступны для поддержки больших проектов, а также прямой доступ к системе управления версиями.
Рекомендации по использованию инструментов см. в разделе "Какой инструмент разработчика следует использовать?".
| Особенность | Описание |
|---|---|
| Проверка подлинности и авторизация | Настройте проверку подлинности и авторизацию для средств, сценариев и приложений для работы с Azure Databricks. |
| Приложения Databricks | Создайте безопасные данные и пользовательские приложения ИИ на платформе Databricks, которую можно предоставить другим пользователям. |
| Расширение Databricks для Visual Studio Code | Подключитесь к удаленным рабочим областям Azure Databricks из Visual Studio Code для упрощения настройки подключения к рабочей области Databricks и пользовательского интерфейса для управления ресурсами Databricks. |
| Подключаемый модуль PyCharm Databricks | Настройте подключение к удаленной рабочей области Databricks и запустите файлы в кластерах Databricks из PyCharm. Этот подключаемый модуль разработан и предоставляется JetBrains в партнерстве с Databricks. |
| Пакеты SDK Databricks | Автоматизируйте взаимодействие с Databricks, используя SDK вместо прямого вызова REST API. Пакеты SDK также доступны в рабочей области. |
Подключение к Databricks
Подключение к Databricks является необходимым компонентом многих интеграции и решений, и Databricks предоставляет большой выбор средств подключения, из которых следует выбрать. В следующей таблице представлены средства для подключения среды разработки и процессов к рабочей области и ресурсам Azure Databricks.
| Особенность | Описание |
|---|---|
| Databricks Connect | Подключитесь к Azure Databricks с помощью популярных интегрированных сред разработки (IDEs), таких как PyCharm, IntelliJ IDEA, Eclipse, RStudio и JupyterLab. |
| Расширение Databricks для Visual Studio Code | Простая настройка подключения к рабочей области Databricks и пользовательский интерфейс для управления ресурсами Databricks. |
| Драйверы и средства SQL | Подключитесь к Azure Databricks для выполнения команд и скриптов SQL, программного взаимодействия с Azure Databricks и интеграции функций SQL Azure Databricks в приложения, написанные на популярных языках, таких как Python, Go, JavaScript и TypeScript. |
Совет
Вы также можете подключить множество дополнительных популярных сторонних средств к кластерам и хранилищам SQL для доступа к данным в Azure Databricks. См. партнеров технологии .
Управление инфраструктурой и ресурсами
Разработчики и инженеры данных могут выбрать из следующих инструментов для автоматизации развертывания и управления инфраструктурой и ресурсами. Эти средства поддерживают как простые, так и сложные сценарии конвейера CI/CD.
Рекомендации по использованию инструментов см. в разделе "Какой инструмент разработчика следует использовать?".
| Особенность | Описание |
|---|---|
| Интерфейс командной строки Databricks | Доступ к функциям Azure Databricks с помощью интерфейса командной строки Databricks (CLI). Интерфейс командной строки упаковывает REST API Databricks, поэтому вместо отправки вызовов REST API непосредственно с помощью curl или Postman можно использовать интерфейс командной строки Databricks для взаимодействия с Databricks. Используйте интерфейс командной строки из локального терминала или используйте его из веб-терминала рабочей области. |
| Пакеты активов Databricks | Определите и управляйте ресурсами Databricks и вашим конвейером CI/CD, применяя стандартные отраслевые подходы к разработке, тестированию и развертыванию в ваших проектах данных и ИИ с помощью Databricks Asset Bundles — функции Databricks CLI. |
| Поставщик Databricks Terraform и Terraform CDKTF для Databricks | Подготовка инфраструктуры и ресурсов Azure Databricks с помощью Terraform. |
| Средства CI/CD | Интеграция популярных систем CI/CD и платформ, таких как GitHub Actions, Jenkins и Apache Airflow. |
Совместная работа и совместное использование кода
Среди множества других функций совместной работы в рабочем пространстве, Databricks специально поддерживает пользователей-разработчиков, которые хотят сотрудничать и обмениваться кодом в рабочем пространстве с помощью этих функций:
| Особенность | Описание |
|---|---|
| Пользовательские определяемые функции (ПФО) | Разрабатывайте определяемые пользователем функции (UDF) для их повторного использования и обмена кода. |
| Папки Git | Настройте папки Git для контроля версий и исходного кода файлов вашего проекта в Databricks. |
Взаимодействие с сообществом разработчиков Databricks
Databricks имеет активное сообщество разработчиков, которое поддерживается следующими программами и ресурсами:
- MVP Databricks: эта программа отмечает членов сообщества, специалистов по обработке и анализу данных, инженеров данных, разработчиков и энтузиастов с открытым исходным кодом, которые вносят значительный вклад в сообщество данных и ИИ. Для получения дополнительной информации см. Databricks MVP .
- Обучение: Databricks предоставляет модули обучения для разработчиков Apache Spark, инженеров по генеративному ИИ, инженеров данных и других специалистов.
- Сообщество: богатство знаний доступно от сообщества Databricks и сообщества Apache Spark.