Aracılığıyla paylaş


AI Runtime için kullanıcı kılavuzları

Önemli

Tek düğümlü görevler için AI Çalışma Zamanı Genel Önizleme aşamasındadır. Çoklu GPU iş yükleri için dağıtılmış eğitim API'si Beta'da kalır.

Bu sayfa geçiş bilgilerini, örnek not defterlerinin bağlantılarını ve sorun giderme bilgilerini içerir.

Klasik GPU iş yüklerini sunucusuzlara geçirme

Mevcut derin öğrenme iş yükünü klasik bir Databricks kümesinden (Databricks Runtime ML ile) sunucusuz (AI Runtime ile) taşıyorsanız şu adımları izleyin:

  1. Kümeye bağımlı kodu değiştirin. Spark tabanlı dağıtılmış eğitime (örneğin, TorchDistributor) yönelik tüm başvuruları kaldırın ve @distributed dekoratörünü serverless_gpu ile değiştirin.
  2. Veri yüklemesini güncelleştirin. Doğrudan DBFS yollarını Unity Kataloğu birim yollarıyla (/Volumes/...) değiştirin. Yerel Spark DataFrame işlemlerini Spark Connect ile değiştirin.
  3. Bağımlılıkları yeniden yükleyin. Databricks Runtime ML'nin önceden yüklenmiş kitaplıklarına güvenmeyin. Tüm gerekli paketler için açık %pip install komutlar ekleyin.
  4. Denetim noktası yollarını güncelleştirin. Denetim noktalarını DBFS'den veya yerel depolama alanından Unity Kataloğu birimlerine (/Volumes/<catalog>/<schema>/<volume>/... ) taşıyın.
  5. MLflow yapılandırmasını güncelleştirin. Deneme adlarının mutlak yollar kullandığına emin olun ve çalıştırma adlarını kolayca yeniden başlatılabilmeleri için yapılandırın.
  6. Önce etkileşimli olarak test edin. İş olarak zamanlamadan önce etkileşimli bir not defterinde iş yükünüzü doğrulayın.

Kullanımı ve maliyetleri izleme

Faturalanabilir kullanım sistemi tablosunu (system.billing.usage ) sorgulayarak AI Çalışma Zamanı GPU harcamalarınızı izleyebilirsiniz. Aşağıdaki sorgu sunucusuz GPU iş yükleri için toplam kullanımı döndürür:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Faturalanabilir kullanım tablosu şeması hakkında daha fazla bilgi için bkz. Faturalanabilir kullanım sistemi tablo başvurusu.

Model Eğitimi SKU'sunda Yapay Zeka Çalışma Zamanı, GPU saati başına aşağıdaki fiyatlarla ücretlendirilmektedir:

  • İsteğe bağlı H100: 7,00 ABD doları/GPU saati (ABD Doğu)
  • İsteğe bağlı A10: 4,90 ABD doları/GPU saati (ABD Doğu)

Örnek not defterleri

Başlamanıza yardımcı olmak için aşağıdaki örnek not defterleri kategorileri kullanılabilir:

Kategori Açıklama
Büyük Dil Modelleri (LLM'ler) Parametre verimli yöntemler de dahil olmak üzere büyük dil modellerinde ince ayar (LoRA, QLoRA)
Görüntü İşleme Nesne algılama, görüntü sınıflandırma ve diğer CV görevleri
Derin Öğrenme Öneri Sistemleri İki kuleli modeller gibi modern derin öğrenme yaklaşımlarını kullanarak öneri sistemleri oluşturma
Klasik ML XGBoost model eğitimi ve zaman serisi tahmini dahil olmak üzere geleneksel ML görevleri
Dağıtık Çoklu GPU Eğitimi Sunucusuz GPU API'sini kullanarak eğitimi birden çok GPU arasında ölçeklendirme

Tam liste için bkz. AI Runtime örnek not defterleri.

Sorun giderme

Genie Code, kitaplık yükleme hatalarını tanılamaya ve düzeltme önermeye yardımcı olabilir. Bkz. Genie Code'u kullanarak hesaplama ortamı hatalarını ayıklama.

ValueError: numpy.dtype boyutu değiştirildi, ikili uyumsuzluğu gösterebilir. C başlığından beklenen 96, PyObject'ten elde edilen 88 oldu.

Hata genellikle, bağımlı bir paketin ve şu anda çalışma zamanı ortamında yüklü olan NumPy sürümünün derlenmesi sırasında kullanılan NumPy sürümlerinde bir uyuşmazlık olduğunda ortaya çıkar. Bu uyumsuzluk genellikle NumPy'nin C API'sindeki değişikliklerden kaynaklanır ve özellikle NumPy 1.x'ten 2.x'e fark edilir. Bu hata, not defterinde yüklü olan Python paketinin NumPy sürümünü değiştirmiş olabileceğini gösterir.

Önerilen çözüm:

Çalışma zamanında NumPy sürümünü denetleyin ve paketlerinizle uyumlu olduğundan emin olun. Önceden yüklenmiş Python kitaplıkları hakkında bilgi için ortam 4 ve ortam 3 için Sunucusuz GPU İşlem sürüm notlarına bakın. NumPy'nin farklı bir sürümüne bağımlılığınız varsa, bu bağımlılığı işlem ortamınıza ekleyin.

PyTorch torç yüklerken libcudnn bulamıyor

uygulamasının torchfarklı bir sürümünü yüklediğinizde şu hatayı görebilirsiniz: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Bunun nedeni, torch'un yalnızca yerel yoldaki cuDNN kütüphanesini aramasıdır.

Önerilen çözüm:

Dependensları torch yüklerken --force-reinstall ekleyerek yeniden yükleyin:

%pip install torch --force-reinstall