Что такое файловая система Databricks (DBFS)?
Файловая система Databricks (DBFS) — это распределенная файловая система, подключенная к рабочей области Azure Databricks и доступная в кластерах Azure Databricks. DBFS — это абстракция поверх масштабируемого хранилища объектов, которое сопоставляет вызовы файловой системы unix с вызовами API собственного облачного хранилища.
Примечание.
Рабочие области Azure Databricks развертываются с использованием корневого тома DBFS, доступного для всех пользователей по умолчанию. Databricks рекомендует хранить данные рабочей среды в этом расположении.
Какие возможности предоставляет DBFS?
С DBFS удобно работать, так как URI облачного хранилища объектов сопоставляются с относительными путями.
- Позволяет взаимодействовать с хранилищем объектов, используя семантику каталогов и файлов вместо команд API, предназначенных для облака.
- Позволяет подключать расположения облачного хранилища объектов, чтобы можно было сопоставить учетные данные хранилища с путями в рабочей области Azure Databricks.
- Упрощает сохранение файлов в хранилище объектов, обеспечивая возможность безопасного удаления виртуальных машин и подключенного хранилища томов при завершении работы кластера.
- Предоставляет удобное расположение для хранения скриптов инициализации, JAR-файлов и конфигураций для инициализации кластеров.
- Предоставляет удобное расположение для файлов контрольных точек, созданных во время обучения модели с использованием библиотек глубокого обучения OSS.
Примечание.
DBFS — это реализация Azure Databricks для FUSE. См. статью " Работа с файлами в Azure Databricks".
Взаимодействие с файлами в облачном хранилище объектов
DBFS предоставляет множество возможностей взаимодействия с файлами в облачном хранилище объектов:
- Работа с файлами в Azure Databricks
- Перечисление, перемещение, копирование и удаление файлов с помощью служебных программ Databricks
- Обзор файлов в DBFS
- Отправка файлов в DBFS с помощью пользовательского интерфейса
- Взаимодействие с файлами DBFS с помощью интерфейса командной строки Databricks
- Взаимодействие с файлами DBFS с помощью REST API Databricks
Подключение хранилища объектов
Подключение хранилища объектов к DBFS позволяет получать доступ к объектам в хранилище объектов, как если бы они находились в локальной файловой системе. Так как в данных подключений сохраняются конфигурации Hadoop, необходимые для доступа к хранилищу, вам не нужно указывать эти параметры в коде или во время настройки кластера.
Дополнительные сведения см. в статье Подключение облачного хранилища объектов в Azure Databricks.
Что такое корневой каталог DBFS?
Корневой каталог DBFS — это место хранения по умолчанию для рабочей области Azure Databricks, подготовленное в рамках создания рабочей области в облачной учетной записи, содержащей рабочую область Azure Databricks. Дополнительные сведения о настройке и развертывании корневого каталога DBFS см. в кратком руководстве по Azure Databricks.
Некоторые пользователи Azure Databricks могут упоминать корневой каталог DBFS как "DBFS". Важно понимать, что DBFS — это файловая система, используемая для взаимодействия с данными в облачном хранилище объектов, а корневой каталог DBFS — расположение облачного хранилища объектов. Для взаимодействия с корневым каталогом DBFS используется DBFS, но это разные понятия. У DBFS множество областей применения помимо корневого каталога DBFS.
Корневой каталог DBFS содержит ряд специальных расположений, которые служат расположениями по умолчанию для различных действий, выполняемых пользователями в рабочей области. Дополнительные сведения см. в статье Какие каталоги по умолчанию находятся в корневом каталоге DBFS.
Как DBFS работает с Unity Catalog?
В Unity Catalog дополнительно реализованы принципы внешних расположений и учетных данных управляемого хранилища, чтобы организациям было проще предоставлять минимальные права доступа к данным в облачном хранилище объектов. Кроме того, Unity Catalog предоставляет новое место хранения по умолчанию для управляемых таблиц. Некоторые конфигурации системы безопасности обеспечивают прямой доступ как к ресурсам, управляемым Unity Catalog, так и к DBFS. Databricks содержит скомпилированные рекомендации по использованию DBFS и Unity Catalog.