horovod.spark
: распределенное глубокое обучение с помощью Horovod
Внимание
Horovod и HorovodRunner теперь устарели. Выпуски после 15.4 машинного обучения LTS не будут установлены в этом пакете. Для распределенного глубокого обучения Databricks рекомендует использовать TorchDistributor для распределенного обучения с PyTorch или tf.distribute.Strategy
API для распределенного обучения с TensorFlow.
Узнайте, как использовать horovod.spark
пакет для распределенного обучения моделей машинного обучения.
horovod.spark
в Azure Databricks
Azure Databricks поддерживает пакет horovod.spark
, который предоставляет программный интерфейс оценщика, который можно использовать в конвейерах Машинного обучения с Keras и PyTorch. Дополнительные сведения см. в статье Horovod в Spark, который включает раздел Horovod в Databricks.
Примечание.
- Azure Databricks устанавливает пакет
horovod
с зависимостями. При обновлении или понижении уровня этих зависимостей могут возникнуть проблемы совместимости. - При использовании
horovod.spark
с настраиваемыми обратными вызовами в Keras необходимо сохранять модели в формате TensorFlow SavedModel.- В TensorFlow 2.x используйте суффикс
.tf
в имени файла. - В TensorFlow 1.x задайте параметр
save_weights_only=True
.
- В TensorFlow 2.x используйте суффикс
Требования
Databricks Runtime ML 7.4 или более поздней версии
Примечание.
horovod.spark
не поддерживает pyarrow версии 11.0 и выше (см. соответствующую проблему GitHub). Databricks Runtime 15.0 ML включает pyarrow версии 14.0.1. Чтобы использовать horovod.spark
с Databricks Runtime 15.0 ML или более поздней версии, необходимо вручную установить pyarrow, указав версию ниже 11.0.
Пример: распределенная функция обучения
Ниже приведен базовый пример выполнения распределенной функции обучения с помощью horovod.spark
:
def train():
import horovod.tensorflow as hvd
hvd.init()
import horovod.spark
horovod.spark.run(train, num_proc=2)
Примеры записных книжек: оценщики Horovod Spark с помощью Keras и PyTorch
В следующих записных книжках показано, как использовать API оценки Horovod Spark с Keras и PyTorch.