Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье представлен общий обзор архитектуры Azure Databricks, включая ее корпоративную архитектуру в сочетании с Azure.
Объекты Databricks
Учетная запись Azure Databricks — это конструкция верхнего уровня, используемая для управления Azure Databricks в организации. На уровне учетной записи вы управляете:
- Удостоверение и доступ: пользователи, группы, субъекты-службы и подготовка пользователей.
Управление рабочими областями: создание, обновление и удаление рабочих областей в нескольких регионах.
Управление хранилищем метаданных каталога Unity: создание и присоединение хранилища метаданных к рабочим областям.
Управление использованием: выставление счетов, соблюдение нормативных требований и политики/правила.
Учетная запись может содержать несколько рабочих областей и хранилища метаданных каталога Unity.
Рабочие области — это среда совместной работы, в которой пользователи выполняют вычислительные рабочие нагрузки, такие как загрузка данных, интерактивное исследование, запланированные задания и обучение моделей машинного обучения.
Хранилища метаданных каталога Unity — это центральная система управления для ресурсов данных, таких как таблицы и модели машинного обучения. В хранилище метаданных данные организуются в трехуровневом пространстве имен:
<catalog-name>.<schema-name>.<object-name>
Хранилища метаданных присоединены к рабочим областям. Вы можете связать одно хранилище метаданных с несколькими рабочими областями Azure Databricks в одном регионе, предоставляя каждой рабочей области одно и то же представление данных. Управление контроля доступа к данным можно осуществлять во всех связанных рабочих областях.
Архитектура рабочей области
Azure Databricks работает из плоскости управления и вычислительной плоскости.
Уровень управления включает внутренние службы, которыми управляет Azure Databricks в учетной записи Azure Databricks. Веб-приложение находится в плоскости управления.
Плоскость вычислений — это место обработки данных. Существует два типа вычислительных плоскостей в зависимости от используемого вычислительных ресурсов.
- Для бессерверных вычислений бессерверные вычислительные ресурсы выполняются в бессерверной вычислительной плоскости в учетной записи Azure Databricks.
- Для классических вычислений Azure Databricks вычислительные ресурсы находятся в подписке Azure в том, что называется классической вычислительной плоскости. Это относится к сети в подписке Azure и ее ресурсах.
Дополнительные сведения о классических вычислениях и бессерверных вычислениях см. в статье "Вычисления".
Классическая архитектура рабочей области
Классические рабочие области Azure Databricks имеют связанную учетную запись хранения, известную как учетная запись хранения рабочей области. Учетная запись хранения рабочей области находится в подписке Azure.
На следующей схеме описана общая архитектура Azure Databricks для классических рабочих областей.
Архитектура бессерверной рабочей области
Хранилище рабочей области в бессерверных рабочих областях хранится в хранилище по умолчанию рабочей области. Вы также можете подключиться к учетной записи облачного хранения для доступа к данным. На следующей схеме описана общая архитектура бессерверных рабочих областей.
Бессерверная плоскость вычислений
В бессерверной вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в вычислительном слое в учетной записи Azure Databricks. Azure Databricks создает бессерверную плоскость вычислений в том же регионе Azure, что и классическая плоскость вычислений рабочей области. Этот регион выбирается при создании рабочей области.
Чтобы защитить данные клиентов в плоскости бессерверных вычислений, бессерверные вычисления выполняются в пределах сетевой границы рабочей области с различными уровнями безопасности для изоляции различных рабочих областей клиентов Azure Databricks и дополнительных сетевых элементов управления между кластерами одного и того же клиента.
Дополнительные сведения о сети в бессерверной вычислительной плоскости— сети бессерверных вычислений.
Классическая плоскость вычислений
В классической вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в подписке Azure. Новые вычислительные ресурсы создаются в виртуальной сети каждой рабочей области в подписке Azure клиента.
Классическая инфраструктура вычислений обеспечивает естественную степень изоляции, поскольку она работает в собственной подписке Azure каждого клиента. Дополнительные сведения о сети в классической плоскости вычислений см. в статье "Классические сети плоскости вычислений".
Сведения о региональной поддержке см. в регионах Azure Databricks.
Хранилище рабочей области
Управление хранилищем рабочей области осуществляется по-разному в зависимости от типа рабочей области. Дополнительные сведения о типах рабочих областей см. в статье "Создание рабочей области".
Бессерверные рабочие области
Бессерверные рабочие области используют хранилище по умолчанию, которое является полностью управляемым местом для системных данных рабочей области и каталогов Unity Catalog. Бессерверные рабочие области также поддерживают возможность подключения к местоположениям облачного хранилища. См. сведения о хранилище по умолчанию в Databricks.
Классические рабочие области
Учетная запись хранения рабочей области содержит следующее:
- Системные данные рабочей области: данные системы рабочей области создаются при использовании различных функций Azure Databricks, таких как создание записных книжек. В этом контейнере содержатся редакции записных книжек, сведения о выполнении задания, результаты команд и журналы Spark
- Каталог рабочей области каталога Unity: если рабочая область включена для каталога Unity автоматически, учетная запись хранения рабочей области содержит каталог рабочей области по умолчанию. Все пользователи в рабочей области могут создавать ресурсы в схеме по умолчанию в этом каталоге. См. статью "Начало работы с каталогом Unity".
- DBFS (устаревшая версия): корневая структура DBFS и прикрепления DBFS являются устаревшими и могут быть отключены в вашей рабочей области. DBFS (Databricks File System) — это распределенная файловая система в средах Azure Databricks, доступная в
dbfs:/пространстве имен. Корневое подключение DBFS и DBFS находятся вdbfs:/пространстве имен. Хранение и доступ к данным с помощью корня DBFS или точек монтирования DBFS является устаревшим подходом и не рекомендовано Databricks. Дополнительные сведения см. в разделе "Что такое DBFS?".
Чтобы ограничить доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей, см. Включите поддержку брандмауэра для учетной записи хранения рабочей области.