Machine Learning için Databricks Runtime
Machine Learning için Databricks Runtime (Databricks Runtime ML), en yaygın ML ve DL kitaplıkları dahil olmak üzere önceden oluşturulmuş makine öğrenmesi ve derin öğrenme altyapısı ile küme oluşturmayı otomatikleştirir. Databricks Runtime ML'nin her sürümündeki kitaplıkların tam listesi için sürüm notlarına bakın.
Not
Makine öğrenmesi iş akışları için Unity Kataloğu'ndaki verilere erişmek için kümenin erişim modu tek kullanıcı (atanmış) olmalıdır. Paylaşılan kümeler Machine Learning için Databricks Runtime ile uyumlu değildir. Ayrıca Databricks Runtime ML, olarak ayarlanmış true
TableACLs kümelerinde veya kümelerinde spark.databricks.pyspark.enableProcessIsolation config
desteklenmez.
Databricks Runtime ML kullanarak küme oluşturma
Küme oluşturduğunuzda Databricks çalışma zamanı sürümü açılan menüsünden bir Databricks Runtime ML sürümü seçin. Hem CPU hem de GPU özellikli ML çalışma zamanları kullanılabilir.
Not defterindeki açılan menüden bir küme seçerseniz, küme adının sağ tarafında Databricks Runtime sürümü görüntülenir:
GPU özellikli bir ML çalışma zamanı seçerseniz uyumlu bir Sürücü türü ve Çalışan türü seçmeniz istenir. Uyumsuz örnek türleri açılan menüde gri gösterilir. GPU özellikli örnek türleri, GPU hızlandırılmış etiketi altında listelenir. Azure Databricks GPU kümeleri oluşturma hakkında bilgi için bkz . GPU özellikli işlem. Databricks Runtime ML, GPU donanım sürücülerini ve CUDA gibi NVIDIA kitaplıklarını içerir.
Photon ve Databricks Runtime ML
Databricks Runtime 15.2 ML veya üzerini çalıştıran bir CPU kümesi oluşturduğunuzda, Photon'u etkinleştirmeyi seçebilirsiniz. Foton, Spark SQL, Spark DataFrames, özellik mühendisliği, GraphFrames ve xgboost4j kullanan uygulamalar için performansı artırır. Spark RDD'leri, Pandas UDF'leri ve Python gibi JVM dışı dilleri kullanan uygulamalarda performansın artırılması beklenmemektedir. Bu nedenle XGBoost, PyTorch ve TensorFlow gibi Python paketleri Photon ile ilgili bir iyileştirme görmez.
Spark RDD API'leri ve Spark MLlib ' in Photon ile uyumluluğu sınırlıdır. Spark RDD veya Spark MLlib kullanarak büyük veri kümelerini işlerken Spark bellek sorunlarıyla karşılaşabilirsiniz. Bkz. Spark bellek sorunları.
Databricks Runtime ML'de bulunan kitaplıklar
Databricks Runtime ML, çeşitli popüler ML kitaplıkları içerir. Kitaplıklar her sürümle birlikte yeni özellikler ve düzeltmeler içerecek şekilde güncelleştirilir.
Databricks, desteklenen kitaplıkların bir alt kümesini üst katman kitaplıkları olarak belirlemiştir. Bu kitaplıklar için Databricks, her çalışma zamanı sürümüyle (bağımlılık çakışmalarını engelleme) en son paket sürümlerine güncelleştirerek daha hızlı bir güncelleştirme temposu sağlar. Databricks ayrıca en üst katman kitaplıklar için gelişmiş destek, test ve tümleşik iyileştirmeler sağlar.
En üst katman ve sağlanan diğer kitaplıkların tam listesi için Databricks Runtime ML sürüm notlarına bakın.
Not defteriniz veya kümeniz için özel bir ortam oluşturmak üzere ek kitaplıklar yükleyebilirsiniz.
- Bir kitaplığı kümede çalışan tüm not defterlerinde kullanılabilir hale getirmek için bir küme kitaplığı oluşturun. Ayrıca, oluşturma işleminden sonra kümelere kitaplık yüklemek için bir init betiği de kullanabilirsiniz.
- Yalnızca belirli bir not defteri oturumu için kullanılabilen bir kitaplık yüklemek için Not Defteri kapsamlı Python kitaplıklarını kullanın.