Рекомендации по глубокому обучению в Azure Databricks

Статья
03/18/2024

В этой статье содержатся советы по глубокому обучению в Azure Databricks и сведения о встроенных средствах и библиотеках, предназначенных для оптимизации рабочих нагрузок глубокого обучения, таких как:

Delta и Petastorm для загрузки данных
Horovod и Hyperopt для параллельного обучения
Pandas UDF для вывода

Databricks Машинное обучение предоставляет предварительно созданную инфраструктуру глубокого обучения с databricks Runtime для Машинное обучение, которая включает в себя наиболее распространенные библиотеки глубокого обучения, такие как TensorFlow, PyTorch и Keras. Также содержит встроенную, предварительно настроенную поддержку GPU, включая драйверы и вспомогательные библиотеки.

Databricks Runtime ML также включает все возможности рабочей области Azure Databricks, такие как создание и управление кластерами, управление библиотеками и средой, управление кодом с папками Databricks Git, поддержка автоматизации, включая Задания и API Databricks, а также интегрированный MLflow для отслеживания разработки моделей и развертывания моделей и обслуживания.

Управление ресурсами и средой

Azure Databricks помогает настраивать среду глубокого обучения и поддерживать согласование между пользователями.

Настройка среды разработки

С помощью Databricks Runtime можно настроить среду разработки на уровне записной книжки, кластера и задания.

Используйте библиотеки Python с областью действия записной книжки или библиотеки R с областью действия записной книжки для использования определенного набора или версии библиотек, не затрагивая других пользователей кластера.
Установите библиотеки на уровне кластера, чтобы стандартизировать версии для команды или проекта.
Настройте Задание Azure Databricks, чтобы обеспечить выполнение повторяющейся задачи в постоянной, неизменной среде.

Использование политик кластера

Вы можете создать политики кластера, которые помогут специалистам по анализу данных выбрать нужный вариант, например, использовать кластер с одним узлом для разработки и использования кластера с автомасштабированием для больших заданий.

Рассмотрим gpu A100 для рабочих нагрузок глубокого обучения

Графические процессоры A100 являются эффективным выбором для многих задач глубокого обучения, таких как обучение и настройка больших языковых моделей, обработка естественного языка, обнаружение объектов и классификация и подсистемы рекомендаций.

Databricks поддерживает графические процессоры A100 во всех облаках. Полный список поддерживаемых типов GPU см. в разделе "Поддерживаемые типы экземпляров".
100 GPU обычно имеют ограниченную доступность. Обратитесь к поставщику облачных служб для выделения ресурсов или заранее рассмотрите возможность резервирования емкости.

Лучшие практики для загрузки данных

Облачное хранилище данных, обычно, не оптимизировано для ввода/вывода, что может быть сложной задачей для моделей глубокого обучения, требующих больших наборов данных. Databricks Runtime ML включают в себя Delta Lake и Petastorm для оптимизации пропускной способности данных для приложений глубокого обучения.

Для хранения данных в Databricks рекомендуется использовать таблицы Delta Lake. Delta Lake упрощает ETL и позволяет эффективно обращаться к данным. В частности, для образов Delta Lake помогает оптимизировать прием для обучения и вывода. В справочном решении для приложений с образами приведен пример оптимизации ETL для образов с использованием Delta Lake.

Petastorm предоставляет интерфейсы API, позволяющие подготавливать данные в формате Parquet для использования с помощью TensorFlow, Keras или PyTorch. API SparkConverter обеспечивает интеграцию c DataFrame Spark. Petastorm также предоставляет сегментирование данных для распределенной обработки. Дополнительные сведения см. в статье Загрузка данных с помощью Petastorm.

Рекомендации по глубокому обучению в Azure Databricks

Управление ресурсами и средой

Настройка среды разработки

Использование политик кластера

Рассмотрим gpu A100 для рабочих нагрузок глубокого обучения

Лучшие практики для загрузки данных

Рекомендации по обучению моделей глубокого обучения

Начало работы с кластером с одним узлом

Использование метрики TensorBoard и кластера для мониторинга процесса обучения

Оптимизация производительности для глубокого обучения

Ранняя остановка

Настройка размера пакета

Перенос обучения

Переход на распределенное обучение

HorovodRunner

`spark-tensorflow-distributor`

ФакелDistributor

Hyperopt

Рекомендации по выводу

Интернет-обслуживание

Вывод пакетной и потоковой передачи

Обратная связь

Обратная связь

Дополнительные ресурсы