Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Файлы рабочей области — это файлы, хранящиеся и управляемые в файловой системе рабочей области Databricks. Файлы рабочей области могут быть практически любым типом файла. Ниже приведены распространенные примеры.
- Записные книжки (
.ipynb) - Исходные записные книжки (
.py,.sql,.rи.scala) - Запросы SQL (
.dbquery.ipynb) - Информационные панели (
.lvdash.json) - Оповещения (
.dbalert.json) - Файлы Python (
.py) используются в пользовательских модулях - Конфигурация YAML (
.yamlили.yml) - Файлы Markdown (
.md), такие какREADME.md - Текстовые файлы () или другие небольшие файлы данных (
.txt.csv) - Библиотеки (
.whl,.jar) - Файлы журналов (
.log)
Примечание.
Пространства Genie и эксперименты не могут быть файлами рабочей области.
Рекомендации по работе с файлами см. в разделе о файлах в томах и файлах рабочей области.
Дерево файлов рабочей области Azure Databricks может содержать папки, подключенные к репозиторию Git с именем "Папки Databricks Git". Папки Git имеют некоторые дополнительные ограничения типа файлов. Список типов файлов, поддерживаемых в папках Git (прежнее название — Repos), см. в разделе " Типы ресурсов", поддерживаемые папками Git.
Внимание
Файлы рабочей области по умолчанию включены везде в Databricks Runtime версии 11.2. Для рабочих нагрузок используйте Databricks Runtime 11.3 LTS или более поздней версии. Обратитесь к администратору рабочей области, если вы не сможете получить доступ к этой функции.
Что можно сделать с файлами рабочей области?
Azure Databricks предоставляет функции, аналогичные локальной разработке для многих типов файлов рабочей области, включая встроенный редактор файлов. Не все варианты использования для всех типов файлов поддерживаются.
Вы можете создавать, изменять и управлять доступом к файлам рабочей области с помощью знакомых шаблонов взаимодействия с записной книжкой. Для импорта библиотеки из файлов рабочей области можно использовать относительные пути, аналогичные локальной разработке. Дополнительные сведения см. в статье
- Основные сведения об использовании файлов рабочей области
- Программное взаимодействие с файлами рабочей области
- Работа с модулями Python и R
- Отображение изображений
- Управление записными книжками
- Списки управления доступом к файлам
Скрипты инициализации, хранящиеся в файлах рабочей области, имеют особое поведение. Файлы рабочей области можно использовать для хранения и ссылки на скрипты инициализации в любых версиях среды выполнения Databricks. См. скрипты инициализации в Магазине в файлах рабочей области.
Примечание.
В Databricks Runtime 14.0 и выше текущий рабочий каталог по умолчанию (CWD) для кода, выполняемого локально, — это каталог, содержащий записную книжку или скрипт, выполняемый. Это изменение поведения по сравнению с Databricks Runtime 13.3 LTS и более ранними версиями. См. раздел " Что такое текущий рабочий каталог по умолчанию?".
Ограничения
- Если рабочий процесс использует исходный код, расположенный в удаленном репозитории Git, вы не можете записать в текущий каталог или написать с помощью относительного пути. Запись данных в альтернативные места расположения.
- Вы не можете использовать команды
git, когда сохраняете файлы в рабочую область. В файлах рабочей области запрещено создание каталогов.git. - Чтение из файлов рабочей области с помощью исполнителей Spark (например
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")), не поддерживается в бессерверных вычислениях. - Исполнители не могут вносить изменения в файлы рабочей области.
- Символические ссылки поддерживаются только для целевых каталогов в корневой папке
/Workspace, например,os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing"). - Доступ к файлам рабочей области из определяемых пользователем функций (UDFs) на кластерах со стандартным режимом доступа на Databricks Runtime 14.2 и ниже невозможен.
- Записные книжки поддерживаются только в виде файлов рабочей области в Databricks Runtime 16.2 и выше, а также в бессерверной среде версии 2 и выше.
- Записная книжка не может быть импортирована как модуль Python в Databricks Runtime 16.0 и более поздней версии. Вместо этого измените формат записной книжки; или, если вы хотите импортировать код, рефакторизуйте записную книжку в файл Python.
- Запросы, оповещения и панели мониторинга поддерживаются только в виде файлов рабочей области в Databricks Runtime 16.4 и более поздних версий, а также в бессерверной среде 2 и выше. Кроме того, эти файлы рабочей области нельзя переименовать.
- Только записные книжки и файлы поддерживают просмотр и редактирование с помощью команд файловой системы, таких как
%sh ls. - Использование команд
dbutils.fsдля доступа к файлам рабочей области не поддерживается в бессерверных вычислениях. Используйте ячейку%shв записных книжках или в языковых командах, например,shutilв Python, при выполнении записных книжек в безсерверной среде.
Ограничение размера файла
- Размер файла рабочей области ограничен 500 МБ. Операции, которые пытаются скачать или создать файлы, превышающие это ограничение, завершатся ошибкой.
Ограничение разрешений доступа к файлам
Разрешение на доступ к файлам в папках /Workspace истекает через 36 часов для интерактивных вычислений и через 30 дней для заданий. Databricks рекомендует выполнять длительные процессы в качестве задач, если требуется доступ к файлам /Workspace.
Включение файлов рабочей области
Чтобы включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите REST API /api/2.0/workspace-conf из записной книжки или другой среды с доступом к рабочей области Databricks. Файлы рабочей области активированы по умолчанию.
Чтобы включить или повторно включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите /api/2.0/workspace-conf и получите значение ключа enableWorkspaceFileSystem. Если для рабочей области задано значение true, файлы, не являющиеся записными книжками, уже включены.
В следующем примере показано, как вызвать этот API из записной книжки, чтобы проверить, отключены ли файлы рабочей области и если да, повторно включите их.