Поделиться через


Компоненты Azure Databricks

В этой статье представлены основные компоненты, которые необходимо понять, чтобы эффективно использовать Azure Databricks.

Учетные записи и рабочие области

В Azure Databricks рабочая область — это развертывание Azure Databricks в облаке, которое работает в качестве среды для вашей команды для доступа к ресурсам Databricks. Ваша организация может выбрать несколько рабочих областей или только одну в зависимости от потребностей.

Учетная запись Azure Databricks представляет одну сущность, которая может включать несколько рабочих областей. Учетные записи, включенные для каталога Unity , можно использовать для управления пользователями и их доступом к данным централизованно во всех рабочих областях в учетной записи.

Выставление счетов: единицы Databricks (DBUs)

Счета за Azure Databricks взимаются на основе единиц Databricks (DBUs), которые являются единицами вычислительной мощности в час, в зависимости от типа экземпляра виртуальной машины.

См. страницу цен Azure Databricks.

Проверка подлинности и авторизация

В этом разделе описаны основные понятия, изучение которых необходимо для управления удостоверениями Azure Databricks и их доступом к ресурсам Azure Databricks.

Пользователь

Отдельная личность, которая получает доступ к системе. Идентичности пользователей представлены адресами электронной почты. См. раздел "Управление пользователями".

Субъект-служба

Удостоверение службы, предназначенное для использования с заданиями, автоматизированными инструментами и системами, например скриптами, приложениями и платформами CI/CD. Принципы службы представлены идентификатором приложения. См . раздел "Субъекты-службы".

Группа

Коллекция идентичностей. Группы упрощают управление идентификацией, позволяя легче назначать доступ к рабочим областям, данным и другим защищаемым объектам. Все удостоверения Databricks можно назначать в качестве членов групп. См . статью "Группы".

Список управления доступом (ACL)

Список разрешений, подключенных к рабочей области, кластеру, заданию, таблице или эксперименту. ACL (список управления доступом) указывает, какие пользователи или системные процессы имеют доступ к объектам, а также какие операции разрешены на объектах. Каждая запись в обычном списке управления доступом указывает объект и операцию. См. списки управления доступом.

Личный токен доступа

Личный маркер доступа — это строка, используемая для проверки подлинности вызовов REST API, подключений партнеров технологии и других средств. Смотрите Аутентификация с помощью токенов личного доступа Azure Databricks (устаревшая версия).

Маркеры идентификатора Microsoft Entra также можно использовать для проверки подлинности в REST API.

Интерфейсы Azure Databricks

В этом разделе описаны интерфейсы для доступа к ресурсам в Azure Databricks.

Пользовательский интерфейс

Пользовательский интерфейс Azure Databricks — это графический интерфейс для взаимодействия с функциями, такими как папки рабочей области и их содержащиеся объекты, объекты данных и вычислительные ресурсы.

REST API

REST API Databricks предоставляет точки входа для изменения или запроса сведений об объектах аккаунта и рабочих областях Azure Databricks. См. справочник по учетной записи и справочник по рабочей области.

SQL REST API

REST API SQL позволяет автоматизировать задачи в объектах SQL. См. API SQL.

интерфейс командной строки (CLI)

Интерфейс командной строки Databricks размещен на сайте GitHub. Интерфейс командной строки построен на основе REST API Databricks.

Управление данными

В этом разделе описываются средства и логические объекты, используемые для упорядочивания и управления данными в Azure Databricks. См. статью "Объекты базы данных" в Azure Databricks.

Каталог Unity

Каталог Unity — это единое решение для управления данными и ресурсами ИИ в Azure Databricks, которое обеспечивает централизованный контроль доступа, аудит, происхождение и возможности обнаружения данных в рабочих областях Databricks. См. раздел "Что такое каталог Unity?".

Каталог

Каталоги — это контейнер самого высокого уровня для организации и изоляции данных в Azure Databricks. Вы можете совместно использовать каталоги между рабочими областями в рамках одного региона и одной учетной записи. См. статью "Что такое каталоги в Azure Databricks?".

Схема

Схемы, также известные как базы данных, содержатся в каталогах и обеспечивают более детализированный уровень организации. Они содержат объекты базы данных и ресурсы ИИ, такие как тома, таблицы, функции и модели. См. Схемы в Azure Databricks.

Стол

Таблицы упорядочивают и управляют доступом к структурированным данным. Вы выполняете запросы к таблицам с помощью Apache Spark SQL и API Apache Spark. См. таблицы Azure Databricks.

Просмотреть

Представление — это объект, доступный только для чтения, производный от одной или нескольких таблиц и представлений. Представления сохраняют запросы, определённые для таблиц. См. Что такое представление?.

Объем

Тома представляют логический объем хранилища в облачном хранилище объектов и организуют доступ к нетабличным данным. Databricks рекомендует использовать тома для управления доступом ко всем нетабличным данным в объектном облачном хранилище. См. раздел "Что такое тома каталога Unity?".

таблицы Delta

По умолчанию все таблицы, созданные в Azure Databricks, — это разностные таблицы. Таблицы Delta основаны на проекте Delta Lake с открытым исходным кодом, фреймворке для высокопроизводительного хранения таблиц ACID в объектных хранилищах в облаке. Таблица Delta хранит данные в виде каталога файлов в облачном хранилище объектов и регистрирует метаданные таблицы в хранилище метаданных в пределах каталога и схемы.

Метастор

Каталог Unity предоставляет хранилище метаданных на уровне учетной записи, которое регистрирует метаданные о данных, ИИ и разрешениях для каталогов, схем и таблиц. См. раздел "Хранилище метаданных".

Azure Databricks предоставляет устаревшее хранилище метаданных Hive для клиентов, которые не приняли каталог Unity. См. управление доступом к таблицам метаданных Hive (устаревшая версия).

Обозреватель каталогов

Обозреватель каталогов позволяет просматривать и управлять данными и ресурсами ИИ, включая схемы (базы данных), таблицы, модели, тома (не табличные данные), функции и зарегистрированные модели машинного обучения. Его можно использовать для поиска объектов данных и владельцев, понимания связей данных между таблицами и управления разрешениями и общим доступом. См. раздел "Что такое обозреватель каталогов?".

корень DBFS

Внимание

Хранение и доступ к данным с помощью корня DBFS или точек монтирования DBFS является устаревшим подходом и не рекомендовано Databricks. Вместо этого Databricks рекомендует использовать каталог Unity для управления доступом ко всем данным. См. раздел "Что такое каталог Unity?".

Корневой каталог DBFS — это расположение хранилища, доступное всем пользователям по умолчанию. См. раздел "Что такое DBFS?".

Управление вычислениями

В этом разделе описаны основные понятия, изучение которых необходимо для выполнения вычислений в Azure Databricks.

Кластер

Набор вычислительных ресурсов и конфигураций, в которых выполняются записные книжки и задания. Существует два типа кластеров: универсальные кластеры и кластеры заданий. См. раздел "Вычисления".

  • Вы создаете кластер всех целей с помощью пользовательского интерфейса, интерфейса командной строки или REST API. Вы можете вручную завершить и перезапустить универсальный кластер. Несколько пользователей могут использовать такие кластеры одновременно для интерактивного совместного анализа данных.
  • Планировщик заданий Azure Databricks создает кластер заданий при запуске задания в новом кластере заданий и завершает кластер после завершения задания. Невозможно перезапустить кластер заданий.

Пул

Набор простаивающих экземпляров, готовых к использованию, которые сокращают время запуска и автоматического масштабирования кластера. При подключении к пулу кластер резервирует драйверные и рабочие узлы из пула. См. справочник по конфигурации пула.

Если у пула недостаточно ресурсов простоя для размещения запроса кластера, пул расширяется, выделяя новые экземпляры от поставщика экземпляров. При завершении работы подключенного кластера экземпляры, которые он использовал, возвращаются в пул и могут быть повторно использованы другим кластером.

Databricks Runtime

Набор основных компонентов, которые выполняются в кластерах, управляемых Azure Databricks. См. раздел "Вычисления". Azure Databricks имеет следующие среды выполнения:

  • Databricks Runtime включает Apache Spark, но также добавляет ряд компонентов и обновлений, которые значительно повышают удобство использования, производительность и безопасность аналитики больших данных.
  • Среда выполнения Databricks для машинного обучения основана на среде выполнения Databricks и предоставляет предварительно созданную инфраструктуру машинного обучения, интегрированную со всеми возможностями рабочей области Azure Databricks. Она содержит много популярных библиотек, включая TensorFlow, Keras, PyTorch и XGBoost.

Пользовательский интерфейс заданий и конвейеров

Пользовательский интерфейс рабочей области "Задания и конвейеры" предоставляет вход в задания, декларативные конвейеры Spark Lakeflow и UIs Lakeflow Connect, которые позволяют управлять и планировать рабочие процессы.

Работы

Механизм, не требующий взаимодействия, для оркестрации и планирования блокнотов, библиотек и других задач. Смотрите задания Lakeflow

Конвейеры

Декларативные конвейеры Spark Lakeflow предоставляют декларативную платформу для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных. См. Lakeflow Spark декларативные конвейеры.

Рабочая нагрузка

Рабочая нагрузка — это объем возможностей обработки, необходимых для выполнения задачи или группы задач. Azure Databricks определяет два типа нагрузок вычислительных задач: инженерия данных (задание) и аналитика данных (универсальная).

  • Проектирование данных Рабочая нагрузка (автоматизированная) выполняется в кластере заданий , который планировщик заданий Azure Databricks создает для каждой рабочей нагрузки.
  • Аналитика данных Рабочая нагрузка (интерактивная) выполняется в кластере всех целей. Интерактивные рабочие нагрузки обычно выполняют команды в записной книжке Azure Databricks. Однако выполнение задания в существующем кластере всех целей также рассматривается как интерактивная рабочая нагрузка.

Контекст выполнения

Состояние среды цикла чтения–выполнения–вывода (REPL) для каждого поддерживаемого языка программирования. Поддерживаемые языки: Python, R, Scala и SQL.

Инжиниринг данных

Средства проектирования данных помогают совместному взаимодействию между специалистами по обработке и анализу данных, инженерами по обработке и анализу данных.

Рабочая область

Рабочая область — это среда для доступа ко всем ресурсам Azure Databricks. Рабочая область упорядочивает объекты (записные книжки, библиотеки, панели мониторинга и эксперименты) в папки и предоставляет доступ к объектам данных и вычислительным ресурсам.

Записная книжка

Веб-интерфейс для создания рабочих процессов обработки и машинного обучения, которые могут содержать выполняемые команды, визуализации и текст повествования. См. записные книжки Databricks.

Библиотека

Пакет кода, доступный для записной книжки или задания, выполняющегося на вашем кластере. Среды выполнения Databricks включают множество библиотек, и вы также можете загрузить собственные. См. раздел "Установка библиотек".

Папка Git (прежнее название — Репозиторий)

Папка, содержимое которой имеет общие версии посредством синхронизации с удаленным репозиторием Git. Папки Databricks Git интегрируются с Git для обеспечения контроля источников и управления версиями ваших проектов.

ИИ и машинное обучение

Databricks предоставляет интегрированную сквозную среду с управляемыми службами для разработки и развертывания приложений искусственного интеллекта и машинного обучения.

Мозаика ИИ

Фирменное название для продуктов и услуг от Databricks Mosaic AI Research, команды исследователей и инженеров, ответственных за самые большие прорывы в генеративном ИИ. Мозаичные продукты ИИ включают функции машинного обучения и ИИ в Databricks. См. исследование мозаики.

Среда выполнения машинного обучения

Для помощи в разработке моделей машинного обучения и искусственного интеллекта Databricks предоставляет среду исполнения Databricks для машинного обучения, которая автоматизирует создание вычислительных ресурсов с использованием предварительно созданной инфраструктуры для машинного и глубокого обучения, включая наиболее распространенные библиотеки машинного и глубокого обучения. Также содержит встроенную, предварительно настроенную поддержку GPU, включая драйверы и вспомогательные библиотеки. Ознакомьтесь с информацией о последних выпусках среды выполнения в разделе заметки о выпусках Databricks Runtime и совместимости.

Эксперимент

Коллекция запусков MLflow для обучения модели машинного обучения. См. Упорядочение учебных запусков с помощью экспериментов MLflow.

Функции

Функции являются важным компонентом моделей машинного обучения. Хранилище функций обеспечивает общий доступ к функциям и обнаружение компонентов в организации, а также гарантирует, что для обучения и вывода моделей используется тот же код вычислений функций. См. раздел "Хранилище компонентов Databricks".

Модели генеративного ИИ

Databricks поддерживает изучение, разработку и развертывание формируемых моделей искусственного интеллекта, в том числе:

Реестр моделей

Databricks предоставляет размещенную версию реестра моделей MLflow в каталоге Unity. Модели, зарегистрированные в каталоге Unity, наследуют централизованный контроль доступа, происхождение и перекрестное обнаружение и доступ между рабочими областями. См. статью "Управление жизненным циклом модели" в каталоге Unity.

Обслуживание модели

Служба модели ИИ Мозаики предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение. С помощью платформы развертывания моделей ИИ Mosaic вы можете развертывать собственные модели, фундаментальные модели или сторонние модели, размещенные за пределами Databricks. См. статью "Развертывание моделей с помощью мозаичных моделей ИИ".

Хранение данных

Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. См. архитектуру хранения данных.

Запрос

Запрос — это допустимая инструкция SQL, которая позволяет взаимодействовать с данными. Вы можете создавать запросы с помощью редактора SQL на платформе или подключаться с помощью соединителя SQL, драйвера или API. Дополнительные сведения о работе с запросами см. в статье "Доступ" и управление сохраненными запросами .

Хранилище SQL

Вычислительный ресурс, на котором выполняются запросы SQL. Существует три типа хранилищ SQL: классические, профессиональные и бессерверные. Azure Databricks рекомендует использовать бессерверные хранилища, где они доступны. Ознакомьтесь с типами хранилища SQL , чтобы сравнить доступные функции для каждого типа хранилища.

Журнал запросов

Список выполненных запросов и их характеристик производительности. Журнал запросов позволяет отслеживать производительность запросов, помогая выявлять узкие места и оптимизировать среды выполнения запросов. См. журнал запросов.

Визуализация

Графическое представление результата выполнения запроса. См. визуализации в записных книжках и SQL-редакторе Databricks.

Панель инструментов

Презентация визуализаций данных и комментариев. Панели мониторинга можно использовать для автоматической отправки отчетов всем пользователям в учетной записи Azure Databricks. Используйте помощник Databricks, чтобы помочь вам создавать визуализации на основе запросов естественного языка. См. панели мониторинга. Вы также можете создать панель мониторинга из записной книжки. Панели мониторинга в записных книжках.

Устаревшие панели мониторинга см. в разделе "Устаревшие панели мониторинга".

Внимание

Databricks рекомендует использовать панели мониторинга AI/BI (ранее — панели мониторинга Lakeview). Более ранние версии панелей мониторинга, ранее называемые панелями мониторинга Databricks SQL, теперь называются устаревшими панелями мониторинга.

Завершение периода поддержки:

  • 12 января 2026 г. Устаревшие панели мониторинга и API больше не доступны напрямую. Однако их можно преобразовать в панели мониторинга искусственного интеллекта и бизнес-аналитики. Страница миграции доступна до 2 марта 2026 г.

Преобразуйте устаревшие панели мониторинга с помощью средства миграции или REST API. Инструкции по использованию встроенного средства миграции см. в разделе "Клонирование устаревшей панели мониторинга" на панель мониторинга ИИ/BI . Ознакомьтесь с разделом Использование API Azure Databricks для управления панелями мониторинга, чтобы получить учебники по созданию и управлению панелями мониторинга с помощью REST API.