Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Tek düğümlü görevler için AI Çalışma Zamanı Genel Önizleme aşamasındadır. Çoklu GPU iş yükleri için dağıtılmış eğitim API'si Beta'da kalır.
Bu sayfa geçiş bilgilerini, örnek not defterlerinin bağlantılarını ve sorun giderme bilgilerini içerir.
Klasik GPU iş yüklerini sunucusuzlara geçirme
Mevcut derin öğrenme iş yükünü klasik bir Databricks kümesinden (Databricks Runtime ML ile) sunucusuz (AI Runtime ile) taşıyorsanız şu adımları izleyin:
- Kümeye bağımlı kodu değiştirin. Spark tabanlı dağıtılmış eğitime (örneğin,
TorchDistributor) yönelik tüm başvuruları kaldırın ve@distributeddekoratörünüserverless_gpuile değiştirin. - Veri yüklemesini güncelleştirin. Doğrudan DBFS yollarını Unity Kataloğu birim yollarıyla (
/Volumes/...) değiştirin. Yerel Spark DataFrame işlemlerini Spark Connect ile değiştirin. - Bağımlılıkları yeniden yükleyin. Databricks Runtime ML'nin önceden yüklenmiş kitaplıklarına güvenmeyin. Tüm gerekli paketler için açık
%pip installkomutlar ekleyin. - Denetim noktası yollarını güncelleştirin. Denetim noktalarını DBFS'den veya yerel depolama alanından Unity Kataloğu birimlerine (
/Volumes/<catalog>/<schema>/<volume>/...) taşıyın. - MLflow yapılandırmasını güncelleştirin. Deneme adlarının mutlak yollar kullandığına emin olun ve çalıştırma adlarını kolayca yeniden başlatılabilmeleri için yapılandırın.
- Önce etkileşimli olarak test edin. İş olarak zamanlamadan önce etkileşimli bir not defterinde iş yükünüzü doğrulayın.
Kullanımı ve maliyetleri izleme
Faturalanabilir kullanım sistemi tablosunu (system.billing.usage ) sorgulayarak AI Çalışma Zamanı GPU harcamalarınızı izleyebilirsiniz. Aşağıdaki sorgu sunucusuz GPU iş yükleri için toplam kullanımı döndürür:
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
Faturalanabilir kullanım tablosu şeması hakkında daha fazla bilgi için bkz. Faturalanabilir kullanım sistemi tablo başvurusu.
Model Eğitimi SKU'sunda Yapay Zeka Çalışma Zamanı, GPU saati başına aşağıdaki fiyatlarla ücretlendirilmektedir:
- İsteğe bağlı H100: 7,00 ABD doları/GPU saati (ABD Doğu)
- İsteğe bağlı A10: 4,90 ABD doları/GPU saati (ABD Doğu)
Örnek not defterleri
Başlamanıza yardımcı olmak için aşağıdaki örnek not defterleri kategorileri kullanılabilir:
| Kategori | Açıklama |
|---|---|
| Büyük Dil Modelleri (LLM'ler) | Parametre verimli yöntemler de dahil olmak üzere büyük dil modellerinde ince ayar (LoRA, QLoRA) |
| Görüntü İşleme | Nesne algılama, görüntü sınıflandırma ve diğer CV görevleri |
| Derin Öğrenme Öneri Sistemleri | İki kuleli modeller gibi modern derin öğrenme yaklaşımlarını kullanarak öneri sistemleri oluşturma |
| Klasik ML | XGBoost model eğitimi ve zaman serisi tahmini dahil olmak üzere geleneksel ML görevleri |
| Dağıtık Çoklu GPU Eğitimi | Sunucusuz GPU API'sini kullanarak eğitimi birden çok GPU arasında ölçeklendirme |
Tam liste için bkz. AI Runtime örnek not defterleri.
Sorun giderme
Genie Code, kitaplık yükleme hatalarını tanılamaya ve düzeltme önermeye yardımcı olabilir. Bkz. Genie Code'u kullanarak hesaplama ortamı hatalarını ayıklama.
ValueError: numpy.dtype boyutu değiştirildi, ikili uyumsuzluğu gösterebilir. C başlığından beklenen 96, PyObject'ten elde edilen 88 oldu.
Hata genellikle, bağımlı bir paketin ve şu anda çalışma zamanı ortamında yüklü olan NumPy sürümünün derlenmesi sırasında kullanılan NumPy sürümlerinde bir uyuşmazlık olduğunda ortaya çıkar. Bu uyumsuzluk genellikle NumPy'nin C API'sindeki değişikliklerden kaynaklanır ve özellikle NumPy 1.x'ten 2.x'e fark edilir. Bu hata, not defterinde yüklü olan Python paketinin NumPy sürümünü değiştirmiş olabileceğini gösterir.
Önerilen çözüm:
Çalışma zamanında NumPy sürümünü denetleyin ve paketlerinizle uyumlu olduğundan emin olun. Önceden yüklenmiş Python kitaplıkları hakkında bilgi için ortam 4 ve ortam 3 için Sunucusuz GPU İşlem sürüm notlarına bakın. NumPy'nin farklı bir sürümüne bağımlılığınız varsa, bu bağımlılığı işlem ortamınıza ekleyin.
PyTorch torç yüklerken libcudnn bulamıyor
uygulamasının torchfarklı bir sürümünü yüklediğinizde şu hatayı görebilirsiniz: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Bunun nedeni, torch'un yalnızca yerel yoldaki cuDNN kütüphanesini aramasıdır.
Önerilen çözüm:
Dependensları torch yüklerken --force-reinstall ekleyerek yeniden yükleyin:
%pip install torch --force-reinstall