Поделиться через


Databricks Runtime для машинного обучения

На этой странице описывается среда выполнения Databricks для машинного обучения и приведены рекомендации по созданию классического вычислительного ресурса, использующего его.

Что такое Databricks Runtime для машинного обучения?

Среда выполнения Databricks для машинного обучения (Databricks Runtime ML) автоматизирует создание вычислительного ресурса с предварительно созданной инфраструктурой машинного обучения и глубокого обучения, включая наиболее распространенные библиотеки машинного обучения и библиотеки DLL.

Библиотеки, включенные в состав Databricks Runtime ML

Databricks Runtime ML включает различные популярные библиотеки машинного обучения. Библиотеки обновляются в каждом выпуске, чтобы включать новые функции и исправления.

Databricks назначил подмножество поддерживаемых библиотек в качестве библиотек верхнего уровня. Для этих библиотек Databricks обеспечивает более быструю частоту обновления, обновляя до последних выпусков пакетов с каждым выпуском среды выполнения (за исключением конфликтов зависимостей). Databricks также предоставляет расширенную поддержку, тестирование и внедренную оптимизацию для библиотек верхнего уровня. Библиотеки верхнего уровня добавляются или удаляются только с основными выпусками.

  • Полный список библиотек высшего уровня и других предоставленных библиотек можно найти в примечаниях к выпуску Databricks Runtime ML.
  • Сведения о том, как часто обновляются библиотеки и когда библиотеки объявляются устаревшими, см. в политике обслуживания Databricks Runtime ML.

Можно установить дополнительные библиотеки для создания пользовательской среды для записной книжки или вычислительного ресурса.

Создание вычислительного ресурса с помощью Databricks Runtime для машинного обучения

Чтобы создать вычислительный ресурс, использующий среду выполнения Databricks для машинного обучения, установите флажок "Машинное обучение " в пользовательском интерфейсе создания вычислений. Это автоматически устанавливает режим доступа Dedicated, при котором ваша учетная запись используется в качестве выделенного пользователя. Вы можете вручную назначить вычислительный ресурс другому пользователю или группе в разделе "Дополнительно " в пользовательском интерфейсе создания вычислений.

Для вычислений на основе GPU выберите тип экземпляра с поддержкой GPU в раскрывающемся меню "Рабочий тип ". Полный список поддерживаемых типов GPU см. в разделе Поддерживаемые типы экземпляров.

Фотон и Databricks Runtime ML

При создании вычислительного ресурса, работающего под управлением Databricks Runtime 15.2 ML или более поздней версии, можно включить Photon. Photon повышает производительность приложений с помощью Spark SQL, Spark DataFrames, проектирования функций, GraphFrames и xgboost4j. Не ожидается улучшение производительности приложений с использованием RDD Spark, Pandas UDF и языков, отличных от JVM, например, Python. Таким образом, пакеты Python, такие как XGBoost, PyTorch и TensorFlow, не увидят улучшения с Photon.

API-интерфейсы Spark RDD и Spark MLlib имеют ограниченную совместимость с Photon. При обработке больших наборов данных с помощью Spark RDD или Spark MLlib могут возникнуть проблемы с памятью Spark. Смотрите статью о проблемах с памятью Spark.

Режим вычислительного доступа для среды выполнения Databricks ML.

Чтобы получить доступ к данным в каталоге Unity в вычислительном ресурсе, на котором выполняется машинное обучение Databricks Runtime, необходимо задать режим доступа выделенным. Режим доступа автоматически устанавливается в пользовательском интерфейсе создания вычислений при выборе флажка "Машинное обучение ".

Если вычислительный ресурс имеет выделенный режим доступа, ресурс можно назначить одному пользователю или группе. При назначении группе разрешения пользователя автоматически ограничиваются разрешениями группы, позволяя пользователю безопасно делиться ресурсом с другими членами группы.

При использовании выделенного режима доступа следующие функции доступны только в Databricks Runtime 15.4 LTS ML и более поздних версиях:

Тренировка моделей

В следующих ресурсах показано, как обучать модели машинного обучения и ИИ на Mosaic AI и Databricks Runtime для машинного обучения.

Обучение модели AI Mosaic упрощает и объединяет процесс обучения и развертывания традиционных моделей машинного обучения с помощью AutoML и доработки фундаментальных моделей.

AutoML (автоматизированное машинное обучение)

AutoML упрощает процесс применения машинного обучения к наборам данных путем автоматического поиска оптимальной конфигурации алгоритма и гиперпараметров. AutoML предлагает пользовательский интерфейс без кода, а также API Python.

Тонкая настройка базовой модели

Базовая настройка модели ( в настоящее время часть обучения модели Мозаики ИИ) в Azure Databricks позволяет настраивать большие языковые модели (LLM) с помощью собственных данных. Этот процесс включает в себя точное обучение предварительно существующей базовой модели, значительно уменьшая объем данных, времени и вычислительных ресурсов, необходимых по сравнению с обучением модели с нуля. К ключевым функциям относятся:

  • Точная настройка инструкций: адаптировать вашу модель к новым задачам, обучая ее на структурированных данных с запросами и ответами.
  • Продолжающееся предварительное обучение. Улучшение модели с дополнительными текстовыми данными для добавления новых знаний или фокуса на определенном домене.
  • Завершение чата: обучение модели в журналах чата для улучшения возможностей общения.

Примеры библиотеки с открытым кодом

Ознакомьтесь с примерами машинного обучения из различных библиотек машинного обучения с открытым кодом, включая примеры настройки гиперпараметров с помощью Optuna и Hyperopt.

Глубокое обучение

Примеры и рекомендации по распределенному обучению для разработки и точной настройки моделей глубинного обучения в Azure Databricks.

Рекомендации

Узнайте, как обучать модели рекомендаций на основе глубокого обучения в Azure Databricks. По сравнению с традиционными моделями рекомендаций модели глубокого обучения могут достичь более качественных результатов и масштабирования до больших объемов данных.