AutoML'de tahmin hakkında sık sorulan sorular

UYGULANANLAR: Python SDK'sı azure-ai-ml v2 (geçerli)

Bu makalede AutoML'de tahmin hakkında sık sorulan sorular yanıtlar. AutoML'de tahmin metodolojisi hakkında daha fazla genel bilgi için yöntemlere genel bakış makalesine bakın. AutoML'de eğitim tahmin modellerine yönelik yönergeler ve örnekler , zaman serisi tahmini için AutoML'yi ayarlama makalemizde bulunabilir.

AutoML'de tahmin modelleri oluşturmaya Nasıl yaparım? başladı?

Python ile zaman serisi tahmin modelini eğitmek için AutoML'yi ayarlama kılavuzumuzu okuyarak başlayabilirsiniz. Ayrıca birkaç Jupyter not defterinde uygulamalı örnekler de sağladık:

  1. Bisiklet paylaşımı örneği
  2. Derin öğrenme kullanarak tahmin etme
  3. Birçok model
  4. Yemek Tariflerini Tahmin Etme
  5. Gelişmiş tahmin senaryoları

AutoML verilerimde neden yavaş?

Her zaman daha hızlı ve daha ölçeklenebilir hale getirmek için çalışıyoruz! Genel bir tahmin platformu olarak çalışmak için AutoML kapsamlı veri doğrulamaları, karmaşık özellik mühendisliği ve büyük bir model alanı üzerinde aramalar yapar. Bu karmaşıklık, verilere ve yapılandırmaya bağlı olarak çok fazla zaman gerektirebilir.

Yavaş çalışma zamanının yaygın kaynaklarından biri, çok sayıda zaman serisi içeren verilerde varsayılan ayarlarla AutoML eğitimidir. Birçok tahmin yönteminin maliyeti, seri sayısıyla ölçeklendirilir. Örneğin Üstel Düzeltme ve Peygamber gibi yöntemler, eğitim verilerindeki her zaman serisi için bir model eğitmektedir . AutoML'nin Birçok Model özelliği , eğitim işlerini bir işlem kümesine dağıtarak bu senaryolara ölçeklendirilir ve milyonlarca zaman serisine sahip verilere başarıyla uygulanmıştır. Daha fazla bilgi için ölçek düzeyinde tahmin makalesine bakın. Ayrıca, yüksek profilli bir rekabet veri kümesinde Birçok Modelin başarısı hakkında bilgi edinebilirsiniz.

AutoML'i nasıl hızlandırabilirim?

Sizin durumunuzda neden yavaş olabileceğini anlamak için "AutoML verilerimde neden yavaş" yanıtına bakın. İşinizi hızlandırabilecek aşağıdaki yapılandırma değişikliklerini göz önünde bulundurun:

  • ARIMA ve Peygamber gibi zaman serisi modellerini engelleme
  • Gecikmeler ve hareketli pencereler gibi arka arkaya bakma özelliklerini kapatma
  • Azalt
    • deneme/yineleme sayısı
    • deneme/yineleme zaman aşımı
    • deneme zaman aşımı
    • çapraz doğrulama katlama sayısı.
  • Erken sonlandırmanın etkinleştirildiğinden emin olun.

Hangi modelleme yapılandırmasını kullanmalıyım?

AutoML tahmini tarafından desteklenen dört temel yapılandırma vardır:

Yapılandırma Senaryo Avantajlar Dezavantajlar
Varsayılan AutoML Veri kümesinde benzer geçmiş davranışlara sahip az sayıda zaman serisi varsa önerilir. - Koddan/SDK'dan veya Azure Machine Learning stüdyosu yapılandırması basit

- Regresyon modelleri tüm serileri eğitimde bir araya topdiğinden AutoML farklı zaman serilerinde çapraz öğrenme şansına sahiptir. Daha fazla bilgi için model gruplandırma bölümüne bakın.
- Eğitim verilerindeki zaman serisinin farklı davranışları varsa regresyon modelleri daha az doğru olabilir

- Eğitim verilerinde çok sayıda seri varsa zaman serisi modellerinin eğitilmiş olması uzun sürebilir. Daha fazla bilgi için "AutoML verilerimde neden yavaş çalışıyor" yanıtına bakın.
Derin öğrenme ile AutoML 1000'den fazla gözleme sahip veri kümeleri ve karmaşık desenler sergileyerek potansiyel olarak çok sayıda zaman serisi için önerilir. Etkinleştirildiğinde AutoML, eğitim sırasında zamansal kıvrımlı sinir ağı (TCN) modellerini süpürür. Daha fazla bilgi için Derin öğrenmeyi etkinleştirme bölümüne bakın. - Koddan/SDK'dan veya Azure Machine Learning stüdyosu yapılandırması basit

- TCN tüm serilerde verileri havuza sunduğundan bu yana çapraz öğrenme fırsatları

- DNN modellerinin büyük kapasitesi nedeniyle potansiyel olarak daha yüksek doğruluk. Daha fazla bilgi için AutoML'deki tahmin modelleri bölümüne bakın.
- DNN modellerinin karmaşıklığı nedeniyle eğitim çok daha uzun sürebilir

- Az miktarda geçmişe sahip serilerin bu modellerden yararlanma olasılığı düşüktür.
Birçok Model Çok sayıda tahmin modelinizi ölçeklenebilir bir şekilde eğitip yönetmeniz gerekiyorsa önerilir. Daha fazla bilgi için ölçek düzeyinde tahmin bölümüne bakın. -Ölçeklenebilir

- Zaman serisi birbirinden farklı davranışlara sahip olduğunda potansiyel olarak daha yüksek doğruluk.
- Zaman serileri arasında çapraz öğrenme yoktur

- Azure Machine Learning stüdyosu'dan Birçok Model işi yapılandıramaz veya başlatamazsınız, şu anda yalnızca kod/SDK deneyimi kullanılabilir.
Hiyerarşik Zaman Serisi HTS, verilerinizdeki serilerin iç içe, hiyerarşik bir yapıya sahip olması ve hiyerarşinin toplu düzeylerinde tahminler eğitmenin veya tahminde bulunmanızın gerekip gerekmediğini gösterir. Daha fazla bilgi için hiyerarşik zaman serisi tahmin bölümüne bakın. - Toplam düzeylerde eğitim, yaprak düğüm zaman serisindeki gürültüyü azaltabilir ve daha yüksek doğruluk modellerine yol açabilir.

- Tahminler, eğitim düzeyinden tahminler toplanarak veya çıkarılarak hiyerarşinin herhangi bir düzeyi için alınabilir.
- Eğitim için toplama düzeyini sağlamanız gerekir. AutoML şu anda en uygun düzeyi bulmak için bir algoritmaya sahip değildir.

Not

Yüksek DNN kapasitesinden en iyi şekilde yararlanmak için derin öğrenme etkinleştirildiğinde GPU'larla işlem düğümleri kullanmanızı öneririz. Eğitim süresi, yalnızca CPU'ları olan düğümlere kıyasla çok daha hızlı olabilir. Daha fazla bilgi için GPU için iyileştirilmiş işlem makalesine bakın.

Not

HTS, hiyerarşideki toplu düzeylerde eğitim veya tahmin gerektiren görevler için tasarlanmıştır. Yalnızca yaprak düğüm eğitimi ve tahmini gerektiren hiyerarşik veriler için bunun yerine Çok Model kullanın.

Aşırı sığdırma ve veri sızıntısını nasıl önleyebilirim?

AutoML, birçok fazla uygun sorunu azaltan çapraz doğrulanmış model seçimi gibi makine öğrenmesi en iyi yöntemlerini kullanır. Ancak, fazla sığdırma için başka olası kaynaklar da vardır:

  • Giriş verileri, basit bir formülle hedeften türetilen özellik sütunları içerir. Örneğin, hedefin tam katı olan bir özellik neredeyse mükemmel bir eğitim puanına neden olabilir. Ancak model büyük olasılıkla örnek dışı verileri genelleştirmeyecektir. Model eğitimi öncesinde verileri incelemenizi ve hedef bilgileri "sızdıran" sütunları bırakmanızı öneririz.
  • Eğitim verileri, tahmin ufkuna kadar gelecekte bilinmeyen özellikleri kullanır. AutoML'nin regresyon modelleri şu anda tüm özelliklerin tahmin ufku tarafından bilindiği varsayılmaktadır. Eğitimden önce verilerinizi incelemenizi ve yalnızca geçmişe dönük olarak bilinen özellik sütunlarını kaldırmanızı öneririz.
  • Verilerin eğitim, doğrulama veya test bölümleri arasında önemli yapısal farklılıklar (rejim değişiklikleri) vardır. Örneğin, COVID-19 pandemisinin 2020 ve 2021 boyunca neredeyse her türlü iyiye yönelik isteğe bağlı etkisini düşünün; Bu, bir rejim değişikliğinin klasik bir örneğidir. Son derece senaryoya bağımlı olduğundan ve tanımlamak için derin bilgi gerektirebileceğinden, rejim değişikliği nedeniyle aşırı uyum sorunu en zorlu çözümdür. İlk savunma hattı olarak, doğrulama veya çapraz doğrulama için toplam geçmişin %10-20'sini ayırmayı deneyin. Eğitim geçmişi kısaysa bu miktarda doğrulama verisi ayırmak her zaman mümkün değildir, ancak en iyi uygulamadır. Daha fazla bilgi için doğrulamayı yapılandırma kılavuzumuza bakın.

Zaman serisi verilerimde düzenli aralıklı gözlemler yoksa ne olur?

AutoML'nin tahmin modellerinin tümü, eğitim verilerinin takvime göre düzenli aralıklı gözlemler olmasını gerektirir. Bu gereksinim, gözlemler arasındaki gün sayısının değişebileceği aylık veya yıllık gözlemler gibi durumları içerir. Zamana bağlı verilerin bu gereksinimi karşılamayabileceği iki durum vardır:

  • Verilerin iyi tanımlanmış bir sıklığı vardır, ancak seride boşluklar oluşturan eksik gözlemler vardır. Bu durumda, AutoML sıklığı algılamaya, boşluklar için yeni gözlemleri doldurmaya ve eksik hedef ve özellik değerlerini burada aktarmaya çalışır. Imputation yöntemleri isteğe bağlı olarak kullanıcı tarafından SDK ayarları veya Web kullanıcı arabirimi aracılığıyla yapılandırılabilir. Atamayı yapılandırma hakkında daha fazla bilgi için özel özellik geliştirme kılavuzuna bakın.

  • Verilerin iyi tanımlanmış bir sıklığı yoktur. Başka bir ifadeyle, gözlemler arasındaki süre ayırt edilebilir bir desene sahip değildir. Satış noktası sisteminden alınan işlemsel veriler de buna örnek olarak gösteriliyor. Bu durumda AutoML'yi verilerinizi seçilen sıklıkta topacak şekilde ayarlayabilirsiniz. Verileri ve modelleme hedeflerini en iyi şekilde paketleyen düzenli bir sıklık seçebilirsiniz. Daha fazla bilgi için veri toplama bölümüne bakın.

Birincil ölçümü Nasıl yaparım? seçin?

Doğrulama verilerindeki değeri süpürme ve seçim sırasında en iyi modeli belirlediğinden birincil ölçüm çok önemlidir. Normalleştirilmiş kök ortalama kare hatası (NRMSE) veya normalleştirilmiş ortalama mutlak hata (NMAE), tahmin görevlerinde birincil ölçüm için genellikle en iyi seçeneklerdir . Aralarından seçim yapmak için RMSE'nin hata karesini kullandığından eğitim verilerindeki aykırı değerleri MAE'den daha fazla cezalandırdığını unutmayın. Modelin aykırı değerlere daha az duyarlı olmasını istiyorsanız NMAE daha iyi bir seçim olabilir. Daha fazla bilgi için regresyon ve tahmin ölçümleri kılavuzuna bakın.

Not

Tahmin için birincil ölçüm olarak R2 puanını veya R2'yi kullanmanızı önermeyiz.

Not

AutoML, birincil ölçüm için özel veya kullanıcı tarafından sağlanan işlevleri desteklemez. AutoML'nin desteklediği önceden tanımlanmış birincil ölçümlerden birini seçmeniz gerekir.

Modelimin doğruluğunu nasıl geliştirebilirim?

  • AutoML'yi verileriniz için en iyi şekilde yapılandırdığınızdan emin olun. Daha fazla bilgi için bkz. model yapılandırma yanıtı.
  • Tahmin modellerini oluşturma ve geliştirme hakkında adım adım kılavuzlar için tahmin tarifleri not defterine göz atın.
  • Birkaç tahmin döngüsünde arka testleri kullanarak modeli değerlendirin. Bu yordam, tahmin hatasıyla ilgili daha sağlam bir tahmin sağlar ve iyileştirmeleri ölçmek için size bir temel sağlar. Örnek için geri test not defterimize bakın.
  • Veriler gürültülüyse sinyal-gürültü oranını artırmak için kaba frekansa toplamayı göz önünde bulundurun. Daha fazla bilgi için veri toplama kılavuzuna bakın.
  • Hedefi tahmin etmenize yardımcı olabilecek yeni özellikler ekleyin. Konu uzmanlığı, eğitim verilerini seçerken büyük ölçüde yardımcı olabilir.
  • Doğrulama ve test ölçüm değerlerini karşılaştırın ve seçilen modelin verilere çok uygun veya fazla uygun olup olmadığını belirleyin. Bu bilgi, daha iyi bir eğitim yapılandırması için size yol gösterebilir. Örneğin, aşırı sığdırmaya yanıt olarak daha fazla çapraz doğrulama katlama kullanmanız gerektiğini belirleyebilirsiniz.

AutoML her zaman aynı eğitim verileri ve yapılandırmasına göre aynı en iyi modeli mi seçecek?

AutoML'nin model arama işlemi belirleyici değildir, bu nedenle aynı veriler ve yapılandırma göz önüne alındığında her zaman aynı modeli seçmez.

Bellek Yetersiz hatası Nasıl yaparım? düzeltilir?

İki tür bellek sorunu vardır:

  • RAM Yetersiz Bellek
  • Disk Yetersiz

İlk olarak, AutoML'yi verileriniz için en iyi şekilde yapılandırdığınızdan emin olun. Daha fazla bilgi için bkz. model yapılandırma yanıtı.

Varsayılan AutoML ayarları için RAM Yetersiz Bellek, daha fazla RAM içeren işlem düğümleri kullanılarak düzeltilebilir. AutoML'yi varsayılan ayarlarla çalıştırmak için boş RAM miktarının ham veri boyutundan en az 10 kat daha büyük olması yararlı bir kuraldır.

Disk Yetersiz Bellek hataları, işlem kümesi silinerek ve yeni bir küme oluşturularak çözülebilir.

AutoML tarafından hangi gelişmiş tahmin senaryoları desteklenir?

Aşağıdaki gelişmiş tahmin senaryolarını destekliyoruz:

  • Nicel tahminler
  • Sıralı tahminler aracılığıyla sağlam model değerlendirmesi
  • Tahmin ufkunun ötesinde tahmin
  • Eğitim ve tahmin dönemleri arasında zaman aralığı olup olmadığını tahmin etme.

Örnekler ve ayrıntılar için gelişmiş tahmin senaryoları not defterine bakın.

Eğitim işlerini tahmin etme ölçümlerini Nasıl yaparım? görüntüleyebilirsiniz?

Eğitim ve doğrulama ölçüm değerlerini bulmak için studio kullanıcı arabirimindeki ölçümler kılavuzuna bakın. Studiodaki AutoML iş kullanıcı arabiriminden bir modele gidip "ölçümler" sekmesine tıklayarak AutoML'de eğitilen herhangi bir tahmin modelinin ölçümlerini görüntüleyebilirsiniz.

AutoML tahmin modeli için ölçüm arabiriminin görünümü.

Eğitim işlerini tahmin etme ile hata ayıklama Nasıl yaparım??

AutoML tahmin işiniz başarısız olursa, stüdyo kullanıcı arabiriminde sorunu tanılamaya ve çözmeye yardımcı olabilecek bir hata iletisi görürsünüz. Hata iletisinin ötesinde hatayla ilgili en iyi bilgi kaynağı işin sürücü günlüğüdür. Sürücü günlüklerini bulma yönergeleri için çalıştırma günlükleri kılavuzuna göz atın.

Not

Birçok Model veya HTS işi için eğitim genellikle çok düğümlü işlem kümelerinde yapılır. Bu işlerin günlükleri her düğüm IP adresi için mevcuttur. Bu durumda her düğümde hata günlüklerini aramanız gerekir. Hata günlükleri ve sürücü günlükleri her düğüm IP'sinin user_logs klasöründedir.

Çalışma alanı / ortam / deneme / işlem örneği / işlem hedefi nedir?

Azure Machine Learning kavramlarını bilmiyorsanız , "Azure Machine Learning nedir" makalesiyle ve çalışma alanları makalesiyle başlayın.

Sonraki adımlar