Bagikan melalui


horovod.spark: pembelajaran mendalam terdistribusi dengan Horovod

Pelajari cara menggunakan horovod.spark paket untuk melakukan pelatihan terdistribusi model pembelajaran mesin.

horovod.spark di Azure Databricks

Azure Databricks mendukung paket horovod.spark, yang menyediakan API estimator yang dapat Anda gunakan dalam alur ML dengan Keras dan PyTorch. Untuk mengetahui detailnya, lihat Horovod di Spark, yang mencakup bagian mengenai Horovod di Databricks.

Catatan

  • Azure Databricks memasang paket horovod dengan dependensi. Jika Anda meningkatkan atau menurunkan dependensi tersebut, mungkin masalah kompatibilitas akan muncul.
  • Saat menggunakan horovod.spark dengan panggilan balik kustom di Keras, Anda harus menyimpan model dalam format TensorFlow SavedModel.
    • Dengan TensorFlow 2.x, gunakan akhiran .tf dalam nama file.
    • Dengan TensorFlow 1.x, atur opsi save_weights_only=True.

Persyaratan

Databricks Runtime ML 7.4 atau di atasnya.

Catatan

horovod.sparktidak mendukung pyarrow versi 11.0 ke atas (lihat Masalah GitHub yang relevan). Databricks Runtime 15.0 ML menyertakan pyarrow versi 14.0.1. Untuk digunakan horovod.spark dengan Databricks Runtime 15.0 ML atau yang lebih tinggi, Anda harus menginstal pyarrow secara manual, menentukan versi di bawah 11.0.

Contoh: Fungsi pelatihan terdistribusi

Berikut adalah contoh dasar untuk menjalankan fungsi pelatihan terdistribusi menggunakan horovod.spark:

def train():
  import horovod.tensorflow as hvd
  hvd.init()

import horovod.spark
horovod.spark.run(train, num_proc=2)

Contoh notebook: Estimator Horovod Spark menggunakan Keras dan PyTorch

Notebook berikut menunjukkan cara menggunakan Horovod Spark Estimator API dengan Keras dan PyTorch.

Buku catatan Horovod Spark Estimator Keras

Dapatkan buku catatan

Buku catatan Horovod Spark Estimator PyTorch

Dapatkan buku catatan