Mozaik AutoML nedir?
Mozaik AutoML, sizin için en iyi algoritmayı ve hiper parametre yapılandırmasını otomatik olarak bularak veri kümelerinize makine öğrenmesi uygulama sürecini basitleştirir.
Veri kümenizi sağlayın ve makine öğrenmesi sorununun türünü belirtin, ardından AutoML aşağıdakileri yapar:
- Verilerinizi temizler ve hazırlar.
- Birden çok algoritmada dağıtılmış model eğitimini ve hiper parametre ayarlamayı düzenler.
- scikit-learn, xgboost, LightGBM, Prophet ve ARIMA'dan açık kaynak değerlendirme algoritmalarını kullanarak en iyi modeli bulur.
- Sonuçları sunar. AutoML ayrıca her deneme için kaynak kod not defterleri oluşturur ve gerektiğinde kodu gözden geçirmenize, yeniden oluşturmanıza ve değiştirmenize olanak sağlar.
Düşük kodlu bir kullanıcı arabirimi veya Python API'siyle AutoML denemelerini kullanmaya başlayın.
Gereksinim -leri
Databricks Runtime 9.1 ML veya üzeri. Genel kullanılabilirlik (GA) sürümü için Databricks Runtime 10.4 LTS ML veya üzeri.
- Zaman serisi tahmini için Databricks Runtime 10.0 ML veya üzeri.
- Databricks Runtime 9.1 LTS ML ve üzeri sürümleriyle AutoML, AutoML dışında yararlı olan bileşenleri içeren pakete bağımlıdır
databricks-automl-runtime
ve ayrıca AutoML eğitimi tarafından oluşturulan not defterlerini basitleştirmeye yardımcı olur.databricks-automl-runtime
PyPI'da kullanılabilir.
Kümeye Machine Learning için Databricks Runtime'da önceden yüklenmiş olan kitaplıklar dışında başka hiçbir kitaplık yüklenmemelidir.
- Mevcut kitaplık sürümlerinde yapılan tüm değişiklikler (kaldırma, yükseltmeler veya düşürmeler) uyumsuzluk nedeniyle çalıştırma hatalarına neden olur.
Çalışma alanınızdaki dosyalara erişmek için 1017 ve 1021 ağ bağlantı noktalarının AutoML denemeleri için açık olması gerekir. Bu bağlantı noktalarını açmak veya açık olduklarını onaylamak için bulut VPN güvenlik duvarı yapılandırmanızı ve güvenlik grubu kurallarınızı gözden geçirin veya yerel bulut yöneticinize başvurun. Çalışma alanı yapılandırması ve dağıtımı hakkında ek bilgi için bkz . Çalışma alanı oluşturma.
Desteklenen işlem erişim moduyla bir işlem kaynağı kullanın. Tüm işlem erişim modlarının Unity Kataloğu'na erişimi yoktur:
İşlem erişim modu AutoML desteği Unity Kataloğu desteği tek kullanıcı Desteklenir (küme için belirlenen tek kullanıcı olmalıdır) Desteklenir Paylaşılan erişim modu Desteklenmeyen Desteklenmeyen Yalıtım paylaşılmamalıdır Desteklenir Desteklenmeyen
AutoML algoritmaları
Mozaik AutoML, aşağıdaki tabloda yer alan algoritmalara göre modelleri eğitip değerlendirir.
Not
Sınıflandırma ve regresyon modellerinde karar ağacı, rastgele ormanlar, lojistik regresyon ve stokastik gradyan azalma algoritmalarıyla doğrusal regresyon scikit-learn'e dayanır.
Sınıflandırma modelleri | Regresyon modelleri | Tahmin modelleri |
---|---|---|
Karar ağaçları | Karar ağaçları | Peygamber |
Rastgele ormanlar | Rastgele ormanlar | Otomatik ARIMA (Databricks Runtime 10.3 ML ve üzerinde kullanılabilir.) |
Lojistik regresyon | Stokastik gradyan azalma ile doğrusal regresyon | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Deneme not defteri oluşturma
AutoML, gerektiğinde kodu gözden geçirebilmeniz, yeniden üretebilmeniz ve değiştirebilmeniz için denemelerin arkasındaki kaynak kodun not defterlerini oluşturur.
Deneme tahmini için, Denemenizin tüm denemeleri için AutoML tarafından oluşturulan not defterleri otomatik olarak çalışma alanınıza aktarılır.
Sınıflandırma ve regresyon denemeleri için, veri keşfi için AutoML tarafından oluşturulan not defterleri ve denemenizdeki en iyi deneme otomatik olarak çalışma alanınıza aktarılır. Diğer deneme denemeleri için oluşturulan not defterleri, çalışma alanınıza otomatik olarak içeri aktarmak yerine DBFS'de MLflow yapıtları olarak kaydedilir. En iyi deneme yanı sıra tüm denemeler notebook_path
için Python API'sindeki TrialInfo
ve notebook_url
ayarlanmaz. Bu not defterlerini kullanmanız gerekiyorsa, Bunları AutoML deneme kullanıcı arabirimi veya databricks.automl.import_notebook
Python API'si ile çalışma alanınıza el ile aktarabilirsiniz.
Yalnızca AutoML tarafından oluşturulan veri araştırma not defterini veya en iyi deneme not defterini kullanıyorsanız, AutoML deneme kullanıcı arabirimindeki Kaynak sütunu en iyi deneme için oluşturulan not defterinin bağlantısını içerir.
AutoML deneme kullanıcı arabiriminde oluşturulan diğer not defterlerini kullanırsanız, bunlar çalışma alanına otomatik olarak içeri aktarılmaz. Her MLflow çalıştırmasına tıklayarak not defterlerini bulabilirsiniz. IPython not defteri, çalıştırma sayfasının Yapıtlar bölümüne kaydedilir. Yapıtları indirme çalışma alanı yöneticileriniz tarafından etkinleştirildiyse, bu not defterini indirebilir ve çalışma alanına aktarabilirsiniz.
Model açıklanabilirliği için Shapley değerleri (SHAP)
Not
MLR 11.1 ve altı için, veri kümesi bir datetime
sütun içeriyorsa SHAP çizimleri oluşturulmaz.
AutoML regresyonu ve sınıflandırma çalıştırmaları tarafından üretilen not defterleri Shapley değerlerini hesaplamak için kod içerir. Shapley değerleri oyun teorisini temel alır ve her özelliğin bir modelin tahminleri için önemini tahmin eder.
AutoML not defterleri SHAP paketini kullanarak Shapley değerlerini hesaplar. Bu hesaplamalar yüksek bellek yoğunluklu olduğundan, hesaplamalar varsayılan olarak gerçekleştirilmez.
Shapley değerlerini hesaplamak ve görüntülemek için:
- AutoML tarafından oluşturulan bir deneme not defterinde Özellik önemi bölümüne gidin.
- öğesini ayarlayın
shap_enabled = True
. - Not defterini yeniden çalıştırın.