Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице объясняется, как работает хранилище по умолчанию в Azure Databricks и как создавать каталоги и объекты данных, которые используют его.
Что такое хранилище по умолчанию?
Хранилище по умолчанию — это полностью управляемая платформа хранения объектов, которая предоставляет готовое к использованию хранилище в учетной записи Azure Databricks. Некоторые функции Azure Databricks используют хранилище по умолчанию в качестве альтернативы внешнему хранилищу.
Бессерверные рабочие области используют хранилище по умолчанию для внутреннего и рабочего хранилищ, а также для каталога по умолчанию, создаваемого внутри рабочей области. В бессерверных рабочих областях можно создавать дополнительные каталоги в хранилище по умолчанию или в собственном облачном хранилище объектов.
В классических рабочих областях и бессерверных рабочих областях хранилище по умолчанию используется функциями для хранения метаданных плоскости управления, производных данных, моделей и других артефактов. Например, чистые комнаты, классификация данных, обнаружение аномалий, помощник по знаниям и автоматическое восстановление сеанса для бессерверных записных книжек используют хранилище по умолчанию рабочей области. Дополнительные сведения о том, какие компоненты хранятся в хранилище по умолчанию, см. в документации по отдельным функциям.
Замечание
Сведения о мониторинге затрат на хранение по умолчанию в учетной записи см. в статье "Мониторинг затрат на хранение по умолчанию".
Требования
- Создание каталогов в хранилище по умолчанию доступно только в бессерверных рабочих областях.
- По умолчанию каталоги, использующие хранилище по умолчанию, доступны только из рабочей области, в которой они создаются. Вы можете предоставить другим рабочим областям доступ, включая классические рабочие области, но они должны использовать бессерверные вычисления для доступа к данным в каталоге. См. связывание каталога рабочей области.
- Для создания каталога с хранилищем по умолчанию необходимо иметь
CREATE CATALOGправа. Смотрите справочник по привилегиям Unity Catalog. - Если клиент использует драйвер ODBC Azure Databricks для доступа к каталогу хранилища по умолчанию за брандмауэром, необходимо настроить брандмауэр, чтобы разрешить доступ к шлюзам регионального хранилища Azure Databricks. Сведения о IP-адресе и доменном имени для хранилища по умолчанию см. в разделах IP-адресов и доменов для служб и ресурсов Azure Databricks.
Создание нового каталога
Выполните следующие действия, чтобы создать новый каталог с помощью хранилища по умолчанию:
- Щелкните
Каталог на боковой панели. Откроется обозреватель каталогов.
- Нажмите Создать каталог. Откроется диалоговое окно "Создание нового каталога ".
- Укажите имя каталога , уникальное в вашей учетной записи.
- Выберите параметр "Использовать хранилище по умолчанию".
- Нажмите кнопку Создать.
В бессерверных рабочих областях можно также использовать следующую команду SQL для создания нового каталога в хранилище по умолчанию. Вам не нужно указывать расположение каталога.
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
Работа с хранилищем по умолчанию
Для всех взаимодействий с хранилищем по умолчанию требуются бессерверные вычислительные ресурсы с поддержкой каталога Unity.
Ресурсы, поддерживаемые хранилищем по умолчанию, используют ту же модель привилегий, что и другие объекты в каталоге Unity. Необходимо иметь достаточные привилегии для создания, просмотра, запроса или изменения объектов данных. Смотрите справочник по привилегиям Unity Catalog.
Вы работаете с хранилищем по умолчанию, создавая и взаимодействуя с управляемыми таблицами и управляемыми томами, поддерживаемыми хранилищем по умолчанию. Ознакомьтесь с управляемыми таблицами каталога Unity в Azure Databricks для Delta Lake и Apache Iceberg и что такое тома каталога Unity?.
Обозреватель каталогов, записные книжки, редактор SQL и панели мониторинга можно использовать для взаимодействия с объектами данных, хранящимися в хранилище по умолчанию.
Примеры задач
Ниже приведены примеры задач, которые можно выполнить с хранилищем по умолчанию.
- Отправьте локальные файлы в управляемый том или создайте управляемую таблицу. См. статью "Работа с файлами в томах каталога Unity " и создание или изменение таблицы с помощью отправки файлов.
- Запрос данных с помощью ноутбуков. См. руководство: Запрос данных и их визуализация из записной книжки.
- Создайте панель мониторинга. См . статью "Создание панели мониторинга".
- Запрашивать данные с помощью SQL и планировать sql-запросы. Смотрите «Написание запросов и исследование данных в новом редакторе SQL».
- Импорт данных из внешнего тома в управляемую таблицу. См. раздел "Использование автозагрузчика" с каталогом Unity.
- Загрузка данных в управляемую таблицу с Fivetran. См. раздел "Подключение к Fivetran".
- Используйте средства бизнес-аналитики для изучения управляемых таблиц. См. статью Connect Tableau и Azure Databricks и Power BI с помощью Azure Databricks.
- Запуск бессерверных записных книжек. См. Бессерверные вычисления для блокнотов.
- Выполнение бессерверных заданий. См. статью "Запуск заданий Lakeflow с бессерверными вычислениями для рабочих процессов".
- Запуск конечных точек обслуживания модели. См. раздел Развертывание моделей с помощью Mosaic AI Model Serving.
- Запустите бессерверные декларативные конвейеры Lakeflow Spark. См. раздел "Настройка бессерверного конвейера".
- Используйте прогнозную оптимизацию в таблицах. См. прогнозную оптимизацию для управляемых каталогом Unity таблиц.
Ограничения
Действительны следующие ограничения.
- Классические вычисления (любые вычислительные ресурсы, не бессерверные) не могут взаимодействовать с ресурсами данных в хранилище по умолчанию.
- Delta Sharing поддерживает общий доступ к таблицам любому получателю (открытому источнику или Azure Databricks), а получатели могут использовать классические вычислительные мощности для доступа к общим таблицам (бета-версия). Включите функцию Delta Sharing для хранилища по умолчанию – Расширенный доступ в консоли учетной записи.
- Эта функция не поддерживается в следующих регионах:
southcentralus,uksouthиwestus2.
- Все остальные общие ресурсы могут быть общими только для получателей Azure Databricks в одном облаке. Получатели должны использовать бессерверные вычисления.
- Эта функция не поддерживается в следующих регионах:
- Таблицы с включённым секционированием не могут быть переданы с помощью Delta.
- Внешние клиенты Iceberg и Delta не могут напрямую получить доступ к базовым метаданным, списку манифестов и файлам данных для таблиц UC в хранилище по умолчанию (доступ FileIO не поддерживается). Однако такие средства бизнес-аналитики, как Power BI и Tableau, могут получить доступ к таблицам каталога Unity в хранилище по умолчанию с помощью драйверов ODBC и JDBC. Внешние клиенты также могут получить доступ к томам каталога Unity в хранилище по умолчанию с помощью API файлов.
- Хранилище по умолчанию поддерживает внешний доступ с помощью драйверов ODBC и JDBC в Azure Databricks, включая оптимизацию производительности функции Cloud Fetch драйвера ODBC для выполнения запросов по большим наборам данных. Однако если вы обращаетесь к таблице хранилища по умолчанию из рабочей области с включенным интерфейсным приватным каналом, клиентские запросы ODBC размером более 100 МБ завершаются ошибкой, так как оптимизация Cloud Fetch для таблиц хранилища по умолчанию не поддерживает интерфейсный приватный канал.
- Выдача учетных данных не поддерживается, например, при подключении внешних систем к Unity REST API или REST каталогу Iceberg. Для информации о распределении учетных данных для доступа к внешней системе см. раздел каталога Unity.