Dağıtılmış eğitim
Azure Databricks, sinir ağlarınızı mümkün olduğunda tek bir makinede eğitmenizi önerir. Eğitim ve çıkarım için dağıtılmış kod, tek makine kodundan daha karmaşıktır ve iletişim ek yükü nedeniyle daha yavaştır. Ancak, modeliniz veya verileriniz tek bir makinede belleğe sığmayacak kadar büyükse dağıtılmış eğitimi ve çıkarımı göz önünde bulundurmalısınız. Bu iş yükleri için Databricks Runtime ML, TorchDistributor, Horovod ve spark-tensorflow-distributor paketlerini içerir.
Azure Databricks, modülüyle pyspark.ml.connect
Spark ML modelleri için dağıtılmış eğitim de sunar. Bkz . Pyspark.ml.connect ile Databricks Connect'te Spark ML modellerini eğitme.
Not
Databricks, düşük düğümler arası ağ performansı nedeniyle NC serisi VM'leri kullanarak çok düğümlü dağıtılmış eğitimin çalıştırılmasını önermez. Bunun yerine, tek bir çoklu GPU düğümü kullanın veya hızlandırılmış ağı destekleyen NCasT4_v3 serisi gibi farklı bir GPU VM boyutu kullanın.
DeepSpeed distribütörü
DeepSpeed distribütörü TorchDistributor'un üzerine kurulmuştur ve daha yüksek işlem gücü gerektiren ancak bellek kısıtlamalarıyla sınırlı olan modellere sahip müşteriler için önerilen bir çözümdür. DeepSpeed, Microsoft tarafından geliştirilen ve iyileştirilmiş bellek kullanımı, azaltılmış iletişim yükü ve gelişmiş işlem hattı paralelliği sunan bir açık kaynak kitaplığıdır. DeepSpeed dağıtımcısı ile dağıtılmış eğitim hakkında daha fazla bilgi edinin
TorchDistributor
TorchDistributor , PySpark'ta kullanıcıların Spark kümelerinde PyTorch ile dağıtılmış eğitim yapmalarına yardımcı olan açık kaynak bir modüldür, bu nedenle PyTorch eğitim işlerini Spark işleri olarak başlatmanıza olanak tanır. Altta, çalışanlar arasındaki ortamı ve iletişim kanallarını başlatır ve çalışan düğümleri arasında dağıtılmış eğitim çalıştırmak için CLI komutunu torch.distributed.run
kullanır. TorchDistributor ile Dağıtılmış eğitim hakkında daha fazla bilgi edinin.
spark-tensorflow-distributor
spark-tensorflow-distributor, Spark kümelerinde TensorFlow ile dağıtılmış eğitime yönelik, TensorFlow içindeki açık kaynaklı bir yerel pakettir. TensorFlow 2 ile Dağıtılmış eğitim hakkında daha fazla bilgi edinin.
Işın
Ray , ML iş akışlarını ve yapay zeka uygulamalarını ölçeklendirmek için paralel işlem işleme konusunda uzmanlaşmış bir açık kaynak çerçevedir. Bkz. Azure Databricks'te Ray nedir?).
Horovod (Kullanım Dışı)
Önemli
Horovod ve HorovodRunner artık kullanım dışıdır ve Databricks Runtime 16.0 ML ve üzeri sürümlerde önceden yüklenmez. Dağıtılmış derin öğrenme için Databricks, PyTorch ile dağıtılmış eğitim için TorchDistributor veya tf.distribute.Strategy
TensorFlow ile dağıtılmış eğitim için API kullanılmasını önerir.
Horovod; TensorFlow, Keras, ve PyTorch’a yönelik bir dağıtılmış eğitim çerçevesidir. Azure Databricks, HorovodRunner ve horovod.spark
paketini kullanarak dağıtılmış derin öğrenme eğitimini destekler. Keras veya PyTorch kullanan Spark ML işlem hattı uygulamaları için horovod.spark
tahmin aracı API’sini kullanabilirsiniz. Bkz . Horovod.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin