Общие сведения о объектах рабочей области
В этой статье приведены общие сведения об объектах рабочей области Azure Databricks. Вы можете создавать, просматривать и упорядочивать объекты рабочей области в браузере рабочей области в разных пользователях.
Примечание о ресурсах рабочей области namimg
Полное имя ресурса рабочей области состоит из базового имени и расширения файла. Например, расширение файла записной книжки может быть .py
, .sql
и .scala
.r
.ipynb
в зависимости от языка и формата записной книжки.
При создании ресурса записной книжки его базовое имя и полное имя (базовое имя, сцепленное с расширением файла), должно быть уникальным в любой папке рабочей области. Если вы назовете ресурс, Databricks проверяет, соответствует ли он этому критерию, добавив в него расширение файла, и если полное имя соответствует существующему файлу в папке, имя не разрешено, и необходимо выбрать новое имя для записной книжки. Например, если вы пытаетесь создать записную книжку Python (в исходном формате Python), именованную в той же папке, что и файл Python с именем test
test.py
, он не будет разрешен.
Кластеры
Кластеры Azure Databricks Обработка и анализ данных и Databricks Mosaic AI предоставляют унифицированную платформу для различных вариантов использования, таких как запуск рабочих конвейеров ETL, потоковой аналитики, аналитики, аналитики нерегламентированного анализа и машинного обучения. Кластер — это разновидность вычислительных ресурсов Azure Databricks. К другим типам вычислительных ресурсов относятся, например, хранилища SQL Azure Databricks.
Подробные сведения об управлении и использовании кластеров см. в разделе "Вычисления".
Записные книжки
Записная книжка — это веб-интерфейс для документов, содержащих ряд выполняемых ячеек (команд), которые работают с файлами, таблицами, визуализациями и текстовым описанием. Команды можно выполнять последовательно, со ссылкой на выходные данные одной или нескольких ранее выполненных команд.
Записные книжки — это один из механизмов выполнения кода в Azure Databricks. Другой механизм — это задания.
Подробные сведения об управлении и использовании записных книжек см. в статье "Общие сведения о записных книжках Databricks".
Рабочих мест
Задания — это один из механизмов выполнения кода в Azure Databricks. Другой механизм — это записные книжки.
Подробные сведения об управлении заданиями и использовании см. в разделе "Планирование и оркестрация рабочих процессов".
Библиотеки
Библиотека делает сторонний или локальный код доступным для записных книжек и заданий, выполняемых в кластерах.
Подробные сведения об управлении библиотеками и их использовании см. в разделе Библиотеки.
Данные
Данные можно импортировать в распределенную файловую систему, подключенную к рабочей области Azure Databricks и работающую с ними в записных книжках и кластерах Azure Databricks. Для доступа к данным можно также использовать широкий спектр источников данных Apache Spark.
Подробные сведения о загрузке данных см. в разделе "Прием данных" в lakehouse Databricks.
Файлы
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
В Databricks Runtime 11.3 LTS и более поздних версиях можно создавать и использовать произвольные файлы в рабочей области Databricks. Файлы могут быть любым типом файла. Распространенные примеры:
.py
файлы, используемые в пользовательских модулях..md
файлы, такие какREADME.md
..csv
или другие небольшие файлы данных.- Файлы
.txt
. - Файлы журнала.
Подробные сведения об использовании файлов см. в статье "Работа с файлами в Azure Databricks". Сведения об использовании файлов для модульного использования кода при разработке с помощью записных книжек Databricks см. в разделе "Общий доступ к коду между записными книжками Databricks"
Папки Git
Папки Git — это папки Azure Databricks, содержимое которых совместно версиями выполняется путем синхронизации их с удаленным репозиторием Git. С помощью папок Databricks Git вы можете разрабатывать записные книжки в Azure Databricks и использовать удаленный репозиторий Git для совместной работы и управления версиями.
Подробные сведения об использовании репозиториев см. в разделе интеграции Git для папок Databricks Git.
Модели
Понятие Модель здесь означает модель, зарегистрированную в реестре моделей MLflow. Реестр моделей — это централизованное хранилище моделей, которое позволяет управлять полным жизненным циклом моделей MLflow. Он предоставляет хронологию происхождения моделей, управление версиями моделей, переходы между стадиями, а также заметки и описания моделей и их версий.
Подробные сведения об управлении и использовании моделей см. в разделе "Управление жизненным циклом модели" в каталоге Unity.
Эксперименты
Эксперимент MLflow — это основная единица организации и управления доступом для обучающих запусков моделей машинного обучения MLflow; все запуски MLflow относятся к эксперименту. Каждый эксперимент позволяет визуализировать запуски, выполнять по ним поиск и сравнивать их, а также скачивать артефакты или метаданные запусков для анализа в других инструментах.
Подробные сведения об управлении и использовании экспериментов см. в статье "Упорядочивание учебных запусков с помощью экспериментов MLflow".
Запросы
Запросы — это инструкции SQL, позволяющие взаимодействовать с данными. Дополнительные сведения см. в статье Access и управление сохраненными запросами.
Панели мониторинга
Панели мониторинга — это представления визуализаций запросов и комментарии. См . панели мониторинга или устаревшие панели мониторинга.
видны узлы
Оповещения — это уведомления о том, что для поля, возвращаемого запросом, достигнуто пороговое значение. Дополнительные сведения см. в статье "Что такое оповещения Sql Databricks?".
Ссылки на объекты рабочей области
Исторически пользователи должны были включать /Workspace
префикс пути для некоторых API Databricks (%sh
), но не для других (%run
входных данных REST API).
Пользователи могут использовать пути к рабочей области с /Workspace
префиксом везде. Старые ссылки на пути без /Workspace
префикса перенаправляются и продолжают работать. Рекомендуется, чтобы все пути к рабочей области носили /Workspace
префикс, чтобы отличить их от путей тома и DBFS.
Предварительным условием для согласованного /Workspace
поведения префикса пути является следующее: не может быть /Workspace
папка на корневом уровне рабочей области. Если у вас есть /Workspace
папка на корневом уровне и хотите включить это улучшение пользовательского интерфейса, удалите или переименуйте /Workspace
созданную папку и обратитесь к группе учетной записи Azure Databricks.
Общий доступ к файлу, папке или URL-адресу записной книжки
В рабочей области Azure Databricks URL-адреса для файлов рабочих областей, записных книжек и папок находятся в форматах:
URL-адреса файлов рабочей области
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
URL-адреса записной книжки
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
URL-адреса папки (рабочая область и Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Эти ссылки могут прерываться, если любая папка, файл или записная книжка в текущем пути обновляется с помощью команды извлечения Git или удаляется и повторно создается с тем же именем. Однако можно создать ссылку на основе пути рабочей области для совместного использования с другими пользователями Databricks с соответствующими уровнями доступа, изменив ее на ссылку в этом формате:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Ссылки на папки, записные книжки и файлы можно предоставить, заменив все в URL-адресе после ?o=<16-digit-workspace-ID>
пути к файлу, папке или записной книжке из корневого каталога рабочей области. Если вы предоставляете общий доступ к URL-адресу в папку, удалите /browse/folders/<16-digit-ID>
его из исходного URL-адреса.
Чтобы получить путь к файлу, откройте контекстное меню, щелкнув правой кнопкой мыши папку, записную книжку или файл в рабочей области, к которой нужно предоставить общий доступ, и выберите "Копировать URL-адрес или путь>полный". #workspace
Перед копируемым путем к файлу и добавьте полученную строку после ?o=<16-digit-workspace-ID>
того, как она соответствует приведенному выше формату URL-адреса.
Пример формулировки URL-адреса #1: URL-адреса папок
Чтобы предоставить общий доступ к URL-адресу https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
папки рабочей области, удалите browse/folders/1111111111111111
подстроку из URL-адреса. Добавьте #workspace
путь к папке или объекту рабочей области, к которому вы хотите предоставить общий доступ.
В этом случае путь к рабочей области — к папке /Workspace/Users/user@example.com/team-git/notebooks
. После копирования полного пути из рабочей области теперь можно создать общую ссылку:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
Пример формулировки URL-адреса 2. URL-адреса записной книжки
Чтобы предоставить общий доступ к URL-адресу https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
записной книжки, удалите #notebook/2222222222222222/command/3333333333333333
его. Добавьте #workspace
путь к папке или объекту рабочей области.
В этом случае путь к рабочей области указывает на записную книжку /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. После копирования полного пути из рабочей области теперь можно создать общую ссылку:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Теперь у вас есть стабильный URL-адрес для общего доступа к файлу, папке или записной книжке! Дополнительные сведения о URL-адресах и идентификаторах см. в разделе "Получение идентификаторов для объектов рабочей области".