Что такое файловая система Databricks (DBFS)?

Файловая система Databricks (DBFS) — это распределенная файловая система, подключенная к рабочей области Azure Databricks и доступная в кластерах Azure Databricks. DBFS — это абстракция поверх масштабируемого хранилища объектов, которое сопоставляет вызовы файловой системы unix с вызовами API собственного облачного хранилища.

Примечание.

Рабочие области Azure Databricks развертываются с использованием корневого тома DBFS, доступного для всех пользователей по умолчанию. Databricks рекомендует хранить данные рабочей среды в этом расположении.

Какие возможности предоставляет DBFS?

С DBFS удобно работать, так как URI облачного хранилища объектов сопоставляются с относительными путями.

  • Позволяет взаимодействовать с хранилищем объектов, используя семантику каталогов и файлов вместо команд API, предназначенных для облака.
  • Позволяет подключать расположения облачного хранилища объектов, чтобы можно было сопоставить учетные данные хранилища с путями в рабочей области Azure Databricks.
  • Упрощает сохранение файлов в хранилище объектов, обеспечивая возможность безопасного удаления виртуальных машин и подключенного хранилища томов при завершении работы кластера.
  • Предоставляет удобное расположение для хранения скриптов инициализации, JAR-файлов и конфигураций для инициализации кластеров.
  • Предоставляет удобное расположение для файлов контрольных точек, созданных во время обучения модели с использованием библиотек глубокого обучения OSS.

Примечание.

DBFS — это реализация Azure Databricks для FUSE. См. статью " Работа с файлами в Azure Databricks".

Взаимодействие с файлами в облачном хранилище объектов

DBFS предоставляет множество возможностей взаимодействия с файлами в облачном хранилище объектов:

Подключение хранилища объектов

Подключение хранилища объектов к DBFS позволяет получать доступ к объектам в хранилище объектов, как если бы они находились в локальной файловой системе. Так как в данных подключений сохраняются конфигурации Hadoop, необходимые для доступа к хранилищу, вам не нужно указывать эти параметры в коде или во время настройки кластера.

Дополнительные сведения см. в статье Подключение облачного хранилища объектов в Azure Databricks.

Что такое корневой каталог DBFS?

Корневой каталог DBFS — это место хранения по умолчанию для рабочей области Azure Databricks, подготовленное в рамках создания рабочей области в облачной учетной записи, содержащей рабочую область Azure Databricks. Дополнительные сведения о настройке и развертывании корневого каталога DBFS см. в кратком руководстве по Azure Databricks.

Некоторые пользователи Azure Databricks могут упоминать корневой каталог DBFS как "DBFS". Важно понимать, что DBFS — это файловая система, используемая для взаимодействия с данными в облачном хранилище объектов, а корневой каталог DBFS — расположение облачного хранилища объектов. Для взаимодействия с корневым каталогом DBFS используется DBFS, но это разные понятия. У DBFS множество областей применения помимо корневого каталога DBFS.

Корневой каталог DBFS содержит ряд специальных расположений, которые служат расположениями по умолчанию для различных действий, выполняемых пользователями в рабочей области. Дополнительные сведения см. в статье Какие каталоги по умолчанию находятся в корневом каталоге DBFS.

Как DBFS работает с Unity Catalog?

В Unity Catalog дополнительно реализованы принципы внешних расположений и учетных данных управляемого хранилища, чтобы организациям было проще предоставлять минимальные права доступа к данным в облачном хранилище объектов. Кроме того, Unity Catalog предоставляет новое место хранения по умолчанию для управляемых таблиц. Некоторые конфигурации системы безопасности обеспечивают прямой доступ как к ресурсам, управляемым Unity Catalog, так и к DBFS. Databricks содержит скомпилированные рекомендации по использованию DBFS и Unity Catalog.