Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье представлен общий обзор архитектуры Azure Databricks, включая ее корпоративную архитектуру в сочетании с Azure.
Объекты Databricks
Учетная запись Azure Databricks — это конструкция верхнего уровня, используемая для управления Azure Databricks в организации. На уровне учетной записи вы управляете:
- Удостоверение и доступ: пользователи, группы, субъекты-службы и подготовка пользователей.
Управление рабочими областями: создание, обновление и удаление рабочих областей в нескольких регионах.
Управление хранилищем метаданных каталога Unity: создание и присоединение хранилища метаданных к рабочим областям.
Управление использованием: выставление счетов, соблюдение нормативных требований и политики/правила.
Учетная запись может содержать несколько рабочих областей и хранилища метаданных каталога Unity.
Рабочие области — это среда совместной работы, в которой пользователи выполняют вычислительные рабочие нагрузки, такие как загрузка данных, интерактивное исследование, запланированные задания и обучение моделей машинного обучения.
Хранилища метаданных каталога Unity — это центральная система управления для ресурсов данных, таких как таблицы и модели машинного обучения. В хранилище метаданных данные организуются в трехуровневом пространстве имен:
<catalog-name>.<schema-name>.<object-name>
Хранилища метаданных присоединены к рабочим областям. Вы можете связать одно хранилище метаданных с несколькими рабочими областями Azure Databricks в одном регионе, предоставляя каждой рабочей области одно и то же представление данных. Управление контроля доступа к данным можно осуществлять во всех связанных рабочих областях.
Архитектура рабочей области
Azure Databricks работает из плоскости управления и вычислительной плоскости.
Уровень управления включает внутренние службы, которыми управляет Azure Databricks в учетной записи Azure Databricks. Плоскость управления находится в учетной записи Azure Databricks, а не в облачной учетной записи. Веб-приложение находится в контрольной плоскости.
Плоскость вычислений — это место обработки данных. Существует два типа вычислительных плоскостей в зависимости от используемых вами вычислений.
- Для бессерверных вычислений бессерверные вычислительные ресурсы выполняются в бессерверной вычислительной плоскости в учетной записи Azure Databricks.
- Для классических вычислений Azure Databricks вычислительные ресурсы находятся в подписке Azure в том, что называется классической вычислительной плоскости. Это относится к сети в подписке Azure и ее ресурсах.
Дополнительные сведения о классических вычислениях и бессерверных вычислениях см. в статье "Вычисления".
Классическая архитектура рабочей области
Замечание
Классические рабочие области называются гибридными рабочими областями на портале Azure.
Классические рабочие области Azure Databricks имеют связанную учетную запись хранения, известную как учетная запись хранения рабочей области. Учетная запись хранения рабочей области находится в рамках вашей подписки Azure.
На следующей схеме описана общая архитектура Azure Databricks для классических рабочих областей.
Архитектура бессерверной рабочей области
Хранилище рабочей области в бессерверных рабочих областях хранится в хранилище по умолчанию рабочей области. Вы также можете подключиться к учетной записи облачного хранения для доступа к данным. На следующей схеме описана общая архитектура бессерверных рабочих областей.
Бессерверная плоскость вычислений
В бессерверной вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в вычислительном слое в учетной записи Azure Databricks. Azure Databricks создает бессерверную плоскость вычислений в том же регионе Azure, что и классическая плоскость вычислений рабочей области. Этот регион выбирается при создании рабочей области.
Чтобы защитить данные клиентов в плоскости бессерверных вычислений, бессерверные вычисления выполняются в пределах сетевой границы рабочей области с различными уровнями безопасности для изоляции различных рабочих областей клиентов Azure Databricks и дополнительных сетевых элементов управления между кластерами одного и того же клиента.
Дополнительные сведения о сети в бессерверной вычислительной плоскости— сети бессерверных вычислений.
Классическая плоскость вычислений
В классической вычислительной плоскости ресурсы для вычислений Azure Databricks работают в вашей подписке Azure. Новые вычислительные ресурсы создаются в виртуальной сети каждой рабочей области в подписке Azure клиента.
Классическая инфраструктура вычислений обеспечивает естественную степень изоляции, поскольку она работает в собственной подписке Azure каждого клиента. Дополнительные сведения о сети в классической плоскости вычислений см. в статье "Классические сети плоскости вычислений".
Сведения о региональной поддержке см. в регионах Azure Databricks.
Хранилище рабочей области
Управление хранилищем рабочей области осуществляется по-разному в зависимости от типа рабочей области. Дополнительные сведения о типах рабочих областей см. в статье "Создание рабочей области".
Хранилище рабочей области содержит две категории данных: данные файловой системы рабочей области и системные данные рабочей области. Оба являются отдельными от ваших собственных объектов данных, таких как таблицы и тома каталога Unity.
Данные файловой системы рабочей области
Файловая система рабочей области хранит ресурсы, которые пользователи создают и управляют с помощью пользовательского интерфейса Azure Databricks. К ним относятся:
- Ноутбуки
- Запросы и панели мониторинга SQL
- Оповещения
- Репозитории (папки, подключенные к репозиториям Git)
- Библиотеки (
.whl,.jar) - Файлы Python, файлы конфигурации YAML и другие небольшие файлы
Дополнительные сведения о файлах рабочей области см. в разделе "Что такое файлы рабочей области?". Полный список ресурсов рабочей области см. в разделе "Общие сведения о объектах рабочей области".
Системные данные рабочей области
Каждая рабочая область Azure Databricks также хранит системные данные, созданные внутренними функциями Azure Databricks. Эти данные слишком большие для хранения в памяти или базах данных или должны сохраняться за пределами времени существования одного вычислительного ресурса. Примеры данных системы рабочей области:
- Результаты sql-запроса и кэшированные результаты запроса
- Результаты выполнения задания
- Ревизии ноутбука
- Планы запросов SQL, используемые для наблюдения
- Журналы кластера
Дополнительные сведения о настройке хранилища рабочей области для каждого типа рабочей области см. в следующих разделах.
Бессерверные рабочие области
Бессерверные рабочие области используют хранилище по умолчанию, которое является полностью управляемым расположением хранилища для внутренних системных данных рабочей области и ресурсов данных каталога Unity. Бессерверные пространства работы также поддерживают возможность подключиться к местам хранения в облаке для ваших собственных каталогов, таблиц и других ресурсов данных. См. сведения о хранилище по умолчанию в Databricks.
Классические рабочие области
Это важно
Не удаляйте или не изменяйте хранилище рабочей области в облачной учетной записи. Рабочая область Azure Databricks зависит от баз данных уровня управления и хранилища рабочей области для правильной работы. Если хранилище рабочей области удаляется, рабочая область не может быть восстановлена.
В классических рабочих областях системные данные рабочей области отличаются от того, что такое DBFS?. Хотя оба могут находиться в одной облачной учетной записи в классических рабочих пространствах, они служат разным целям. Корневой каталог DBFS — это файловая система, доступная для пользователей, а данные системы рабочей области используются внутренними функциями Azure Databricks.
Учетная запись хранилища рабочей области содержит следующее:
- Системные данные рабочей области: внутренние данные, созданные функциями Azure Databricks
- Каталог рабочей области каталога Unity: если рабочая область включена для каталога Unity автоматически, учетная запись хранения рабочей области содержит каталог рабочей области по умолчанию. Все пользователи в рабочей области могут создавать ресурсы в схеме по умолчанию в этом каталоге. См. статью "Начало работы с каталогом Unity".
- DBFS (устаревшая версия): корневая структура DBFS и прикрепления DBFS являются устаревшими и могут быть отключены в вашей рабочей области. DBFS (Databricks File System) — это распределенная файловая система в средах Azure Databricks, доступная в
dbfs:/пространстве имен. Корневой каталог DBFS и точки монтирования DBFS находятся в пространстве именdbfs:/. Хранение и доступ к данным с помощью корня DBFS или точек монтирования DBFS является устаревшим подходом и не рекомендовано Databricks. Дополнительные сведения см. в разделе "Что такое DBFS?".
Чтобы ограничить доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей, см. Включите поддержку брандмауэра для учетной записи хранения рабочей области.