Aracılığıyla paylaş


Dağıtılmış eğitim

Azure Databricks, sinir ağlarınızı mümkün olduğunda tek bir makinede eğitmenizi önerir. Eğitim ve çıkarım için dağıtılmış kod, tek makine kodundan daha karmaşıktır ve iletişim ek yükü nedeniyle daha yavaştır. Ancak, modeliniz veya verileriniz tek bir makinede belleğe sığmayacak kadar büyükse dağıtılmış eğitimi ve çıkarımı göz önünde bulundurmalısınız. Bu iş yükleri için Databricks Runtime ML, TorchDistributor, DeepSpeed dağıtımcı ve Ray paketlerini içerir.

Azure Databricks, modülüyle pyspark.ml.connect Spark ML modelleri için dağıtılmış eğitim de sunar.

Not

Databricks, düşük düğümler arası ağ performansı nedeniyle NC serisi VM'leri kullanarak çok düğümlü dağıtılmış eğitimin çalıştırılmasını önermez. Bunun yerine, tek bir çoklu GPU düğümü kullanın veya hızlandırılmış ağı destekleyen NCasT4_v3 serisi gibi farklı bir GPU VM boyutu kullanın.

DeepSpeed distribütörü

DeepSpeed distribütörü TorchDistributor'un üzerine kurulmuştur ve daha yüksek işlem gücü gerektiren ancak bellek kısıtlamalarıyla sınırlı olan modellere sahip müşteriler için önerilen bir çözümdür. DeepSpeed, Microsoft tarafından geliştirilen ve iyileştirilmiş bellek kullanımı, azaltılmış iletişim yükü ve gelişmiş işlem hattı paralelliği sunan bir açık kaynak kitaplığıdır. DeepSpeed dağıtımcısı ile dağıtılmış eğitim hakkında daha fazla bilgi edinin

TorchDistributor

TorchDistributor , PySpark'ta kullanıcıların Spark kümelerinde PyTorch ile dağıtılmış eğitim yapmalarına yardımcı olan açık kaynak bir modüldür, bu nedenle PyTorch eğitim işlerini Spark işleri olarak başlatmanıza olanak tanır. Altta, çalışanlar arasındaki ortamı ve iletişim kanallarını başlatır ve çalışan düğümleri arasında dağıtılmış eğitim çalıştırmak için CLI komutunu torch.distributed.run kullanır. TorchDistributor ile Dağıtılmış eğitim hakkında daha fazla bilgi edinin.

Işın

Ray , ML iş akışlarını ve yapay zeka uygulamalarını ölçeklendirmek için paralel işlem işleme konusunda uzmanlaşmış bir açık kaynak çerçevedir. Bkz . Azure Databricks'te Ray nedir?.

Spark ML

pyspark.ml.connect modülünü, Spark ML modellerini eğitmek için dağıtılmış eğitim gerçekleştirmek ve model çıkarımını çalıştırmak amacıyla kullanın. Databricks Runtime 17.0 ve üzeri sürümlerde Spark ML, Standart işlem kaynaklarında varsayılan olarak etkindir ve spark'ın dağıtılmış makine öğrenmesi özelliklerini tam kümeyi yönetmeden kullanmanıza olanak tanır. Bkz. Databricks Connect ile Spark ML modellerini eğitme pyspark.ml.connect.