Поделиться через


Databricks Runtime для машинного обучения

На этой странице описывается среда выполнения Databricks для машинного обучения и приведены рекомендации по созданию классического вычислительного ресурса, использующего его.

Что такое Databricks Runtime для машинного обучения?

Среда выполнения Databricks для машинного обучения (Databricks Runtime ML) автоматизирует создание вычислительного ресурса с предварительно созданной инфраструктурой машинного обучения и глубокого обучения, включая наиболее распространенные библиотеки машинного обучения и библиотеки DLL.

Библиотеки, включенные в состав Databricks Runtime ML

Databricks Runtime ML включает различные популярные библиотеки машинного обучения. Библиотеки обновляются в каждом выпуске, чтобы включать новые функции и исправления.

Databricks назначил подмножество поддерживаемых библиотек в качестве библиотек верхнего уровня. Для этих библиотек Databricks обеспечивает более быструю частоту обновления, обновляя до последних выпусков пакетов с каждым выпуском среды выполнения (за исключением конфликтов зависимостей). Databricks также предоставляет расширенную поддержку, тестирование и внедренную оптимизацию для библиотек верхнего уровня. Библиотеки верхнего уровня добавляются или удаляются только с основными выпусками.

  • Полный список библиотек высшего уровня и других предоставленных библиотек можно найти в примечаниях к выпуску Databricks Runtime ML.
  • Сведения о том, как часто обновляются библиотеки и когда библиотеки объявляются устаревшими, см. в политике обслуживания Databricks Runtime ML.

Можно установить дополнительные библиотеки для создания пользовательской среды для записной книжки или вычислительного ресурса.

Создание вычислительного ресурса с помощью Databricks Runtime для машинного обучения

Чтобы создать вычислительный ресурс, использующий среду выполнения Databricks для машинного обучения, установите флажок "Машинное обучение " в пользовательском интерфейсе создания вычислений. Это автоматически устанавливает режим доступа Dedicated, при котором ваша учетная запись используется в качестве выделенного пользователя. Вы можете вручную назначить вычислительный ресурс другому пользователю или группе в разделе "Дополнительно " в пользовательском интерфейсе создания вычислений.

Для вычислений на основе GPU выберите тип экземпляра с поддержкой GPU в раскрывающемся меню "Рабочий тип ". Полный список поддерживаемых типов GPU см. в разделе Поддерживаемые типы экземпляров.

Фотон и Databricks Runtime ML

При создании вычислительного ресурса, работающего под управлением Databricks Runtime 15.2 ML или более поздней версии, можно включить Photon. Photon повышает производительность приложений с помощью Spark SQL, Spark DataFrames, проектирования функций, GraphFrames и xgboost4j. Не ожидается улучшение производительности приложений с использованием RDD Spark, Pandas UDF и языков, отличных от JVM, например, Python. Таким образом, пакеты Python, такие как XGBoost, PyTorch и TensorFlow, не увидят улучшения с Photon.

API-интерфейсы Spark RDD и Spark MLlib имеют ограниченную совместимость с Photon. При обработке больших наборов данных с помощью Spark RDD или Spark MLlib могут возникнуть проблемы с памятью Spark. Смотрите статью о проблемах с памятью Spark.

Режим вычислительного доступа для среды выполнения Databricks ML.

Чтобы получить доступ к данным в каталоге Unity в вычислительном ресурсе, на котором выполняется машинное обучение Databricks Runtime, необходимо задать режим доступа выделенным. Режим доступа автоматически устанавливается в пользовательском интерфейсе создания вычислений при выборе флажка "Машинное обучение ".

Если вычислительный ресурс имеет выделенный режим доступа, ресурс можно назначить одному пользователю или группе. При назначении группе разрешения пользователя автоматически ограничиваются разрешениями группы, позволяя пользователю безопасно делиться ресурсом с другими членами группы.

При использовании выделенного режима доступа следующие функции доступны только в Databricks Runtime 15.4 LTS ML и более поздних версиях: