Aracılığıyla paylaş


Dağıtılmış eğitim

Azure Databricks, sinir ağlarınızı mümkün olduğunda tek bir makinede eğitmenizi önerir. Eğitim ve çıkarım için dağıtılmış kod, tek makine kodundan daha karmaşıktır ve iletişim ek yükü nedeniyle daha yavaştır. Ancak, modeliniz veya verileriniz tek bir makinede belleğe sığmayacak kadar büyükse dağıtılmış eğitimi ve çıkarımı göz önünde bulundurmalısınız. Bu iş yükleri için Databricks Runtime ML, TorchDistributor, Horovod ve spark-tensorflow-distributor paketlerini içerir.

Azure Databricks, modülüyle pyspark.ml.connect Spark ML modelleri için dağıtılmış eğitim de sunar. Bkz . Pyspark.ml.connect ile Databricks Connect'te Spark ML modellerini eğitme.

Not

Databricks, düşük düğümler arası ağ performansı nedeniyle NC serisi VM'leri kullanarak çok düğümlü dağıtılmış eğitimin çalıştırılmasını önermez. Bunun yerine, tek bir çoklu GPU düğümü kullanın veya hızlandırılmış ağı destekleyen NCasT4_v3 serisi gibi farklı bir GPU VM boyutu kullanın.

DeepSpeed distribütörü

DeepSpeed distribütörü TorchDistributor'un üzerine kurulmuştur ve daha yüksek işlem gücü gerektiren ancak bellek kısıtlamalarıyla sınırlı olan modellere sahip müşteriler için önerilen bir çözümdür. DeepSpeed, Microsoft tarafından geliştirilen ve iyileştirilmiş bellek kullanımı, azaltılmış iletişim yükü ve gelişmiş işlem hattı paralelliği sunan bir açık kaynak kitaplığıdır. DeepSpeed dağıtımcısı ile dağıtılmış eğitim hakkında daha fazla bilgi edinin

TorchDistributor

TorchDistributor , PySpark'ta kullanıcıların Spark kümelerinde PyTorch ile dağıtılmış eğitim yapmalarına yardımcı olan açık kaynak bir modüldür, bu nedenle PyTorch eğitim işlerini Spark işleri olarak başlatmanıza olanak tanır. Altta, çalışanlar arasındaki ortamı ve iletişim kanallarını başlatır ve çalışan düğümleri arasında dağıtılmış eğitim çalıştırmak için CLI komutunu torch.distributed.run kullanır. TorchDistributor ile Dağıtılmış eğitim hakkında daha fazla bilgi edinin.

spark-tensorflow-distributor

spark-tensorflow-distributor, Spark kümelerinde TensorFlow ile dağıtılmış eğitime yönelik, TensorFlow içindeki açık kaynaklı bir yerel pakettir. TensorFlow 2 ile Dağıtılmış eğitim hakkında daha fazla bilgi edinin.

Işın

Ray , ML iş akışlarını ve yapay zeka uygulamalarını ölçeklendirmek için paralel işlem işleme konusunda uzmanlaşmış bir açık kaynak çerçevedir. Bkz. Azure Databricks'te Ray nedir?).

Horovod (Kullanım Dışı)

Önemli

Horovod ve HorovodRunner artık kullanım dışıdır ve Databricks Runtime 16.0 ML ve üzeri sürümlerde önceden yüklenmez. Dağıtılmış derin öğrenme için Databricks, PyTorch ile dağıtılmış eğitim için TorchDistributor veya tf.distribute.Strategy TensorFlow ile dağıtılmış eğitim için API kullanılmasını önerir.

Horovod; TensorFlow, Keras, ve PyTorch’a yönelik bir dağıtılmış eğitim çerçevesidir. Azure Databricks, HorovodRunner ve horovod.spark paketini kullanarak dağıtılmış derin öğrenme eğitimini destekler. Keras veya PyTorch kullanan Spark ML işlem hattı uygulamaları için horovod.sparktahmin aracı API’sini kullanabilirsiniz. Bkz . Horovod.