Aracılığıyla paylaş


AutoML nedir?

Databricks AutoML, sizin için en iyi algoritmayı ve hiper parametre yapılandırmasını otomatik olarak bularak veri kümelerinize makine öğrenmesi uygulama sürecini basitleştirir.

Veri kümenizi sağlayın ve makine öğrenmesi sorununun türünü belirtin, ardından AutoML aşağıdakileri yapar:

  1. Verilerinizi temizler ve hazırlar.
  2. Birden çok algoritmada dağıtılmış model eğitimini ve hiper parametre ayarlamayı düzenler.
  3. scikit-learn, xgboost, LightGBM, Prophet ve ARIMA'dan açık kaynak değerlendirme algoritmalarını kullanarak en iyi modeli bulur.
  4. Sonuçları sunar. AutoML ayrıca her deneme için kaynak kod not defterleri oluşturur ve gerektiğinde kodu gözden geçirmenize, yeniden oluşturmanıza ve değiştirmenize olanak sağlar.

Düşük kodlu bir kullanıcı arabirimi veya Python API'siyle AutoML denemelerini kullanmaya başlayın.

Gereksinim -leri

  • Databricks Runtime 9.1 ML veya üzeri. Genel kullanılabilirlik (GA) sürümü için Databricks Runtime 10.4 LTS ML veya üzeri.
    • Zaman serisi tahmini için Databricks Runtime 10.0 ML veya üzeri.
    • Databricks Runtime 9.1 LTS ML ve üzeri sürümleriyle AutoML, AutoML dışında yararlı olan bileşenleri içeren pakete bağımlıdır databricks-automl-runtime ve ayrıca AutoML eğitimi tarafından oluşturulan not defterlerini basitleştirmeye yardımcı olur. databricks-automl-runtimePyPI'da kullanılabilir.
  • Kümeye Machine Learning için Databricks Runtime'da önceden yüklenmiş olan kitaplıklar dışında başka hiçbir kitaplık yüklenmemelidir.
    • Mevcut kitaplık sürümlerinde yapılan tüm değişiklikler (kaldırma, yükseltmeler veya düşürmeler) uyumsuzluk nedeniyle çalıştırma hatalarına neden olur.
  • AutoML, paylaşılan erişim modu kümeleriyle uyumsuz.
  • Unity Kataloğu'nu AutoML ile kullanmak için küme erişim modunun Tek Kullanıcı olması ve kümenin belirlenen tek kullanıcısı olmanız gerekir.
  • Çalışma alanınızdaki dosyalara erişmek için 1017 ve 1021 ağ bağlantı noktalarının AutoML denemeleri için açık olması gerekir. Bu bağlantı noktalarını açmak veya açık olduklarını onaylamak için bulut VPN güvenlik duvarı yapılandırmanızı ve güvenlik grubu kurallarınızı gözden geçirin veya yerel bulut yöneticinize başvurun. Çalışma alanı yapılandırması ve dağıtımı hakkında ek bilgi için bkz . Çalışma alanı oluşturma.

AutoML algoritmaları

Databricks AutoML, aşağıdaki tabloda yer alan algoritmalara göre modelleri eğitip değerlendirir.

Not

Sınıflandırma ve regresyon modellerinde karar ağacı, rastgele ormanlar, lojistik regresyon ve stokastik gradyan azalma algoritmalarıyla doğrusal regresyon scikit-learn'e dayanır.

Sınıflandırma modelleri Regresyon modelleri Tahmin modelleri
Karar ağaçları Karar ağaçları Peygamber
Rastgele ormanlar Rastgele ormanlar Otomatik ARIMA (Databricks Runtime 10.3 ML ve üzerinde kullanılabilir.)
Lojistik regresyon Stokastik gradyan azalma ile doğrusal regresyon
XGBoost XGBoost
LightGBM LightGBM

Deneme not defteri oluşturma

AutoML, gerektiğinde kodu gözden geçirebilmeniz, yeniden üretebilmeniz ve değiştirebilmeniz için denemelerin arkasındaki kaynak kodun not defterlerini oluşturur.

Deneme tahmini için, Denemenizin tüm denemeleri için AutoML tarafından oluşturulan not defterleri otomatik olarak çalışma alanınıza aktarılır.

Sınıflandırma ve regresyon denemeleri için, veri keşfi için AutoML tarafından oluşturulan not defterleri ve denemenizdeki en iyi deneme otomatik olarak çalışma alanınıza aktarılır. Diğer deneme denemeleri için oluşturulan not defterleri, çalışma alanınıza otomatik olarak içeri aktarmak yerine DBFS'de MLflow yapıtları olarak kaydedilir. En iyi deneme yanı sıra tüm denemeler notebook_path için Python API'sindeki TrialInfo ve notebook_url ayarlanmaz. Bu not defterlerini kullanmanız gerekiyorsa, Bunları AutoML deneme kullanıcı arabirimi veya databricks.automl.import_notebook Python API'si ile çalışma alanınıza el ile aktarabilirsiniz.

Yalnızca AutoML tarafından oluşturulan veri araştırma not defterini veya en iyi deneme not defterini kullanıyorsanız, AutoML deneme kullanıcı arabirimindeki Kaynak sütunu en iyi deneme için oluşturulan not defterinin bağlantısını içerir.

AutoML deneme kullanıcı arabiriminde oluşturulan diğer not defterlerini kullanırsanız, bunlar çalışma alanına otomatik olarak içeri aktarılmaz. Her MLflow çalıştırmasına tıklayarak not defterlerini bulabilirsiniz. IPython not defteri, çalıştırma sayfasının Yapıtlar bölümüne kaydedilir. Yapıtları indirme çalışma alanı yöneticileriniz tarafından etkinleştirildiyse, bu not defterini indirebilir ve çalışma alanına aktarabilirsiniz.

Model açıklanabilirliği için Shapley değerleri (SHAP)

Not

MLR 11.1 ve altı için, veri kümesi bir datetime sütun içeriyorsa SHAP çizimleri oluşturulmaz.

AutoML regresyonu ve sınıflandırma çalıştırmaları tarafından üretilen not defterleri Shapley değerlerini hesaplamak için kod içerir. Shapley değerleri oyun teorisini temel alır ve her özelliğin bir modelin tahminleri için önemini tahmin eder.

AutoML not defterleri SHAP paketini kullanarak Shapley değerlerini hesaplar. Bu hesaplamalar yüksek bellek yoğunluklu olduğundan, hesaplamalar varsayılan olarak gerçekleştirilmez.

Shapley değerlerini hesaplamak ve görüntülemek için:

  1. AutoML tarafından oluşturulan bir deneme not defterinde Özellik önemi bölümüne gidin.
  2. öğesini ayarlayın shap_enabled = True.
  3. Not defterini yeniden çalıştırın.

Sonraki adımlar