AutoML'de tahmin için model süpürme ve seçim

Bu makalede AutoML'nin tahmin modellerini nasıl arayıp seçtiğine odaklanmaktadır. AutoML'de tahmin metodolojisi hakkında daha fazla genel bilgi için yöntemlere genel bakış makalesine bakın. AutoML'deki eğitim tahmin modellerine yönelik yönergeler ve örnekler , zaman serisi tahmini için AutoML'yi ayarlama makalemizde bulunabilir.

Model süpürme

AutoML için temel görev, çeşitli modelleri eğitmek ve değerlendirmek ve verilen birincil ölçüme göre en iyi olanı seçmektir. Buradaki "model" sözcüğü hem ARIMA veya Rastgele Orman gibi model sınıfını hem de bir sınıf içindeki modelleri ayırt eden belirli hiper parametre ayarlarını ifade eder. Örneğin, ARIMA bir matematiksel şablonu ve bir dizi istatistiksel varsayımı paylaşan bir model sınıfına başvurur. AriMA modelinin eğitilmesi veya uygun olması için modelin kesin matematiksel biçimini belirten pozitif tamsayıların listesi gerekir; bunlar hiper parametrelerdir. ARIMA(1, 0, 1) ve ARIMA(2, 1, 2) aynı sınıfa sahiptir, ancak farklı hiper parametrelere sahiptir ve bu nedenle eğitim verilerine ayrı olarak sığabilir ve birbirlerine karşı değerlendirilebilir. AutoML, farklı model sınıfları üzerinde ve sınıflar içinde değişen hiper parametrelerle aramalar veya süpürmeler.

Aşağıdaki tabloda AutoML'nin farklı model sınıfları için kullandığı farklı hiper parametre süpürme yöntemleri gösterilmektedir:

Model sınıfı grubu Model türü Hiper parametre süpürme yöntemi
Naive, Mevsimsel Naive, Ortalama, Mevsimsel Ortalama Time series (Zaman serisi) Model kolaylığı nedeniyle sınıf içinde süpürme yok
Üstel Düzeltme, ARIMA(X) Time series (Zaman serisi) Sınıf içi süpürme için kılavuz araması
Peygamber Regresyon Sınıf içinde süpürme yok
Doğrusal SGD, LARS KEMENT, Elastik Ağ, K En Yakın Komşular, Karar Ağacı, Rastgele Orman, Son Derece Rastgele Ağaçlar, Gradyan Artırılmış Ağaçlar, LightGBM, XGBoost Regresyon AutoML'nin model öneri hizmeti hiper parametre alanlarını dinamik olarak keşfeder
ForecastTCN Regresyon Ağ boyutu, bırakma oranı ve öğrenme oranı üzerinden rastgele aramanın ardından gelen modellerin statik listesi.

Farklı model türlerinin açıklaması için yöntemlere genel bakış makalesinin tahmin modelleri bölümüne bakın.

AutoML'nin yaptığı süpürme miktarı tahmin işi yapılandırmasına bağlıdır. Durdurma ölçütlerini bir süre sınırı veya deneme sayısı sınırı ya da buna eşdeğer model sayısı olarak belirtebilirsiniz. Birincil ölçüm iyileştirilmiyorsa süpürmeyi durdurmak için her iki durumda da erken sonlandırma mantığı kullanılabilir.

Model seçimi

AutoML tahmin modeli araması ve seçimi aşağıdaki üç aşamada devam eder:

  1. Zaman serisi modellerini tarayın ve cezalı olasılık yöntemlerini kullanarak her sınıftan en iyi modeli seçin.
  2. Regresyon modellerini tarayın ve doğrulama kümelerindeki birincil ölçüm değerlerine göre 1. aşamadaki en iyi zaman serisi modelleriyle birlikte bunları sıralar.
  3. En üst sıradaki modellerden bir grup modeli oluşturun, doğrulama ölçümünü hesaplayın ve diğer modellerle birlikte sıralayın.

3. aşamanın sonunda en yüksek dereceli ölçüm değerine sahip model en iyi model olarak belirlenir.

Önemli

AutoML'nin model seçiminin son aşaması her zaman örnek dışı verilerdeki ölçümleri hesaplar. Yani, modeller için kullanılmayan veriler. Bu, aşırı sığdırmaya karşı korumaya yardımcı olur.

AutoML iki doğrulama yapılandırmasına sahiptir: çapraz doğrulama ve açık doğrulama verileri. Çapraz doğrulama durumunda AutoML, eğitim ve doğrulama katlarına ayrılmış veri bölmeleri oluşturmak için giriş yapılandırmasını kullanır. Zaman sırası bu bölmelerde korunmalıdır; bu nedenle AutoML, seriyi bir kaynak zaman noktası kullanarak eğitim ve doğrulama verilerine ayıran Sıralı Çıkış Noktası Çapraz Doğrulama adını kullanır. Kaynağın zaman içinde kaydırlanması çapraz doğrulama katlamalarını oluşturur. Her doğrulama katlama, verilen katlama için çıkış noktasının konumunun hemen ardından gözlemlerin bir sonraki ufkunu içerir. Bu strateji zaman serisi veri bütünlüğünü korur ve bilgi sızıntısı riskini azaltır.

Çapraz doğrulama adım boyutuna göre eğitim ve doğrulama kümelerini ayıran çapraz doğrulama katlamalarını gösteren diyagram.

AutoML, her katlama ve tüm katlamalardan ortalama doğrulama ölçümleri üzerinde ayrı bir model eğiterek normal çapraz doğrulama yordamını izler.

Tahmin işleri için çapraz doğrulama, çapraz doğrulama katlamalarının sayısı ve isteğe bağlı olarak iki ardışık çapraz doğrulama katları arasındaki zaman aralığı sayısı ayarlanarak yapılandırılır. Daha fazla bilgi ve tahmin için çapraz doğrulama yapılandırma örneği için özel çapraz doğrulama ayarları kılavuzuna bakın.

Kendi doğrulama verilerinizi de getirebilirsiniz. AutoML'de (SDK v1) veri bölmelerini ve çapraz doğrulamayı yapılandırma makalesinde daha fazla bilgi edinin.

Sonraki adımlar