AutoML'de tahmin hakkında sık sorulan sorular

UYGULANANLAR: Python SDK'sı azure-ai-ml v2 (geçerli)

Bu makalede otomatik makine öğrenmesinde (AutoML) tahmin hakkında sık sorulan sorular yanıtlar. AutoML'de tahmin metodolojisi hakkında genel bilgi için AutoML'de tahmin yöntemlerine genel bakış makalesine bakın.

AutoML'de tahmin modelleri oluşturmaya Nasıl yaparım? başladı?

Zaman serisi tahmin modelini eğitmek için AutoML'yi ayarlama makalesini okuyarak başlayabilirsiniz. Uygulamalı örnekleri birkaç Jupyter not defterinde de bulabilirsiniz:

AutoML verilerimde neden yavaş?

AutoML'yi her zaman daha hızlı ve daha ölçeklenebilir hale getirmek için çalışıyoruz. Genel bir tahmin platformu olarak çalışmak için AutoML kapsamlı veri doğrulamaları ve karmaşık özellik mühendisliği yapar ve büyük bir model alanı üzerinde arama yapar. Bu karmaşıklık, verilere ve yapılandırmaya bağlı olarak çok fazla zaman gerektirebilir.

Yavaş çalışma zamanının yaygın kaynaklarından biri, çok sayıda zaman serisi içeren verilerde varsayılan ayarlarla AutoML eğitimidir. Birçok tahmin yönteminin maliyeti, seri sayısıyla ölçeklendirilir. Örneğin Üstel Düzeltme ve Peygamber gibi yöntemler, eğitim verilerindeki her zaman serisi için bir model eğitmektedir .

AutoML'nin Birçok Model özelliği, eğitim işlerini bir işlem kümesine dağıtarak bu senaryolara ölçeklendirilir. Milyonlarca zaman serisine sahip verilere başarıyla uygulanmıştır. Daha fazla bilgi için birçok model makalesi bölümüne bakın. Ayrıca, yüksek profilli bir rekabet veri kümesinde Birçok Modelin başarısı hakkında bilgi edinebilirsiniz.

AutoML'i nasıl hızlandırabilirim?

AutoML'nin sizin durumunuzda neden yavaş olabileceğini anlamak için Bkz. AutoML verilerimde neden yavaş? yanıtı.

İşinizi hızlandırabilecek aşağıdaki yapılandırma değişikliklerini göz önünde bulundurun:

  • ARIMA ve Prophet gibi zaman serisi modellerini engelleyin.
  • Gecikmeler ve hareketli pencereler gibi arka plan özelliklerini kapatın.
  • Azaltmak:
    • Deneme/yineleme sayısı.
    • Deneme/yineleme zaman aşımı.
    • Deneme zaman aşımı.
    • Çapraz doğrulama katlama sayısı.
  • Erken sonlandırmanın etkinleştirildiğinden emin olun.

Hangi modelleme yapılandırmasını kullanmalıyım?

AutoML tahmini dört temel yapılandırmayı destekler:

Yapılandırma Senaryo Avantajlar Dezavantajlar
Varsayılan AutoML Veri kümesinde benzer geçmiş davranışlara sahip az sayıda zaman serisi varsa önerilir. - Koddan/SDK'dan veya Azure Machine Learning stüdyosu yapılandırması kolaydır.

- Regresyon modelleri tüm serileri eğitimde bir araya topladığı için AutoML farklı zaman serilerinde bilgi edinebilir. Daha fazla bilgi için bkz . Model gruplandırma.
- Eğitim verilerindeki zaman serisinin farklı davranışları varsa regresyon modelleri daha az doğru olabilir.

- Eğitim verilerinin çok sayıda serisi varsa zaman serisi modellerinin eğitilmiş olması uzun sürebilir. Daha fazla bilgi için bkz. AutoML verilerimde neden yavaş? yanıtı.
Derin öğrenme ile AutoML 1.000'den fazla gözleme ve potansiyel olarak karmaşık desenler sergileyen çok sayıda zaman serisine sahip veri kümeleri için önerilir. Etkinleştirildiğinde AutoML, eğitim sırasında zamansal kıvrımlı sinir ağı (TCN) modellerini süpürür. Daha fazla bilgi için bkz . Derin öğrenmeyi etkinleştirme. - Koddan/SDK'dan veya Azure Machine Learning stüdyosu yapılandırması kolaydır.

- Çapraz öğrenme fırsatları, çünkü TCN tüm serilerde verileri havuza alır.

- Derin sinir ağı (DNN) modellerinin büyük kapasitesi nedeniyle potansiyel olarak daha yüksek doğruluk. Daha fazla bilgi için bkz. AutoML'de modelleri tahmin etme.
- DNN modellerinin karmaşıklığı nedeniyle eğitim çok daha uzun sürebilir.

- Az miktarda geçmişe sahip serilerin bu modellerden yararlanma olasılığı düşüktür.
Birçok Model Çok sayıda tahmin modelinizi ölçeklenebilir bir şekilde eğitip yönetmeniz gerekiyorsa önerilir. Daha fazla bilgi için birçok model makalesi bölümüne bakın. -Ölçeklenebilir.

- Zaman serisi birbirinden farklı davranışlara sahip olduğunda potansiyel olarak daha yüksek doğruluk.
- Zaman serisi boyunca öğrenme yok.

- Azure Machine Learning stüdyosu'dan Birçok Model işi yapılandıramaz veya çalıştıramazsınız. Şu anda yalnızca kod/SDK deneyimi kullanılabilir.
Hiyerarşik zaman serisi (HTS) Verilerinizdeki serilerin iç içe, hiyerarşik bir yapısı varsa ve hiyerarşinin toplanmış düzeylerinde tahminde bulunmanız veya tahminde bulunmanız gerekiyorsa önerilir. Daha fazla bilgi için hiyerarşik zaman serisi tahmin makalesi bölümüne bakın. - Toplam düzeylerde eğitim, yaprak düğüm zaman serisindeki gürültüyü azaltabilir ve daha yüksek doğruluklu modellere yol açabilir.

- Eğitim düzeyinden tahminleri toplayarak veya kaldırarak hiyerarşinin herhangi bir düzeyi için tahminleri alabilirsiniz.
- Eğitim için toplama düzeyini sağlamanız gerekir. AutoML şu anda en uygun düzeyi bulmak için bir algoritmaya sahip değildir.

Not

Yüksek DNN kapasitesinden en iyi şekilde yararlanmak için derin öğrenme etkinleştirildiğinde GPU'larla işlem düğümleri kullanmanızı öneririz. Eğitim süresi, yalnızca CPU'ları olan düğümlere kıyasla çok daha hızlı olabilir. Daha fazla bilgi için GPU için iyileştirilmiş sanal makine boyutları makalesine bakın.

Not

HTS, hiyerarşideki toplu düzeylerde eğitim veya tahmin gerektiren görevler için tasarlanmıştır. Yalnızca yaprak düğüm eğitimi ve tahmini gerektiren hiyerarşik veriler için bunun yerine birçok model kullanın.

Fazla uygunluk ve veri sızıntısını nasıl önleyebilirim?

AutoML, birçok fazla uygunluk sorununu azaltan çapraz doğrulanmış model seçimi gibi makine öğrenmesi en iyi yöntemlerini kullanır. Ancak, fazla uygunluk için başka olası kaynaklar da vardır:

  • Giriş verileri, basit bir formülle hedeften türetilen özellik sütunları içerir. Örneğin, hedefin tam katı olan bir özellik neredeyse mükemmel bir eğitim puanına neden olabilir. Ancak model büyük olasılıkla örnek dışı verileri genelleştirmeyecektir. Model eğitimi öncesinde verileri incelemenizi ve hedef bilgileri "sızdıran" sütunları bırakmanızı öneririz.

  • Eğitim verileri, tahmin ufkuna kadar gelecekte bilinmeyen özellikleri kullanır. AutoML'nin regresyon modelleri şu anda tüm özelliklerin tahmin ufku tarafından bilindiğini varsayar. Eğitimden önce verilerinizi incelemenizi ve yalnızca geçmişe dönük olarak bilinen özellik sütunlarını kaldırmanızı öneririz.

  • Verilerin eğitim, doğrulama veya test bölümleri arasında önemli yapısal farklılıklar (rejim değişiklikleri) vardır. Örneğin, COVID-19 pandemisinin 2020 ve 2021 boyunca neredeyse her türlü iyiye yönelik isteğe bağlı etkisini düşünün. Bu, klasik bir rejim değişikliği örneğidir. Rejim değişikliği nedeniyle fazla uygunluk, son derece senaryoya bağımlı olduğundan ve tanımlamak için derin bilgi gerektirebileceğinden çözülmesi en zor sorundur.

    İlk savunma hattı olarak, doğrulama verileri veya çapraz doğrulama verileri için toplam geçmişin yüzde 10-20'sini ayırmayı deneyin. Eğitim geçmişi kısaysa bu miktarda doğrulama verisi ayırmak her zaman mümkün değildir, ancak en iyi yöntem budur. Daha fazla bilgi için bkz . Eğitim ve doğrulama verileri.

Eğitim işimde mükemmel doğrulama puanları elde etmek ne anlama gelir?

Bir eğitim işinden doğrulama ölçümlerini görüntülerken mükemmel puanları görmek mümkündür. Mükemmel puan, doğrulama kümesindeki tahminin ve fiili değerlerin aynı veya neredeyse aynı olduğu anlamına gelir. Örneğin, 0,0'a eşit bir kök ortalama hata karesine veya 1,0 R2 puanına sahip olursunuz.

Mükemmel bir doğrulama puanı genellikle modelin büyük olasılıkla veri sızıntısı nedeniyle aşırı uygun olduğunu gösterir. En iyi eylem, verilerde sızıntı olup olmadığını incelemek ve sızıntıya neden olan sütunları bırakmaktır.

Zaman serisi verilerimde düzenli aralıklı gözlemler yoksa ne olur?

AutoML'nin tahmin modellerinin tümü, eğitim verilerinin takvimle ilgili düzenli aralıklı gözlemler olmasını gerektirir. Bu gereksinim, gözlemler arasındaki gün sayısının değişebileceği aylık veya yıllık gözlemler gibi durumları içerir. Zamana bağlı veriler iki durumda bu gereksinimi karşılamayabilir:

  • Verilerin iyi tanımlanmış bir sıklığı vardır, ancak eksik gözlemler seride boşluklar oluşturur. Bu durumda, AutoML sıklığı algılamaya, boşluklar için yeni gözlemleri doldurmaya ve eksik hedef ve özellik değerlerine impute yapmaya çalışır. İsteğe bağlı olarak kullanıcı, kimlik doğrulama yöntemlerini SDK ayarları veya Web kullanıcı arabirimi aracılığıyla yapılandırabilir. Daha fazla bilgi için bkz . Özel özellik geliştirme.

  • Verilerin iyi tanımlanmış bir sıklığı yoktur. Başka bir ifadeyle, gözlemler arasındaki süre ayırt edilebilir bir desene sahip değildir. Satış noktası sisteminden alınan işlemsel veriler de buna örnek olarak gösteriliyor. Bu durumda AutoML'yi verilerinizi seçilen sıklıkta topacak şekilde ayarlayabilirsiniz. Verilere ve modelleme hedeflerine en uygun düzenli sıklığı seçebilirsiniz. Daha fazla bilgi için bkz . Veri toplama.

Birincil ölçümü Nasıl yaparım? seçin?

Birincil ölçüm önemlidir çünkü doğrulama verilerindeki değeri süpürme ve seçim sırasında en iyi modeli belirler. Normalleştirilmiş kök ortalama kare hatası (NRMSE) ve normalleştirilmiş ortalama mutlak hata (NMAE), tahmin görevlerinde birincil ölçüm için genellikle en iyi seçeneklerdir.

Aralarından seçim yapmak için, NRMSE'nin hatanın karesini kullandığından, eğitim verilerindeki aykırı değerleri NMAE'den daha fazla cezalandırdığını unutmayın. Modelin aykırı değerlere daha az duyarlı olmasını istiyorsanız NMAE daha iyi bir seçim olabilir. Daha fazla bilgi için bkz . Regresyon ve tahmin ölçümleri.

Not

Tahmin için birincil ölçüm olarak R2 puanını veya R2'yi kullanmanızı önermiyoruz.

Not

AutoML, birincil ölçüm için özel veya kullanıcı tarafından sağlanan işlevleri desteklemez. AutoML'nin desteklediği önceden tanımlanmış birincil ölçümlerden birini seçmeniz gerekir.

Modelimin doğruluğunu nasıl geliştirebilirim?

  • AutoML'yi verileriniz için en iyi şekilde yapılandırdığınızdan emin olun. Daha fazla bilgi için bkz. Hangi modelleme yapılandırmasını kullanmalıyım? yanıtı.
  • Tahmin modellerini oluşturma ve geliştirme hakkında adım adım kılavuzlar için tahmin tarifleri not defterine göz atın.
  • Birkaç tahmin döngüsünde geri testlerini kullanarak modeli değerlendirin. Bu yordam, tahmin hatasıyla ilgili daha sağlam bir tahmin sağlar ve iyileştirmeleri ölçmek için size bir temel sağlar. Örnek için geri test not defterine bakın.
  • Veriler gürültülüyse sinyal-gürültü oranını artırmak için kaba frekansa toplamayı göz önünde bulundurun. Daha fazla bilgi için bkz . Sıklık ve hedef veri toplama.
  • Hedefi tahmin etmenize yardımcı olabilecek yeni özellikler ekleyin. Konu uzmanlığı, eğitim verilerini seçerken büyük ölçüde yardımcı olabilir.
  • Doğrulama ve test ölçüm değerlerini karşılaştırın ve seçilen modelin verileri yetersiz uygunlukta mı yoksa fazla uygunlukta mı olduğunu belirleyin. Bu bilgi, daha iyi bir eğitim yapılandırması için size yol gösterebilir. Örneğin, fazla uygunluk için daha fazla çapraz doğrulama katlama kullanmanız gerektiğini belirleyebilirsiniz.

AutoML her zaman aynı eğitim verilerinden ve yapılandırmasından aynı en iyi modeli mi seçer?

AutoML'nin model arama işlemi belirleyici olmadığından her zaman aynı verilerden ve yapılandırmadan aynı modeli seçmez.

Bellek yetersiz hatası Nasıl yaparım? düzeltilir?

İki tür bellek hatası vardır:

  • RAM yetersiz bellek
  • Disk yetersiz bellek

İlk olarak, AutoML'yi verileriniz için en iyi şekilde yapılandırdığınızdan emin olun. Daha fazla bilgi için bkz. Hangi modelleme yapılandırmasını kullanmalıyım? yanıtı.

Varsayılan AutoML ayarları için, daha fazla RAM'e sahip işlem düğümlerini kullanarak RAM yetersiz bellek hatalarını düzeltebilirsiniz. Genel bir kural, AutoML'yi varsayılan ayarlarla çalıştırmak için boş RAM miktarının ham veri boyutundan en az 10 kat daha büyük olmasıdır.

İşlem kümesini silip yeni bir tane oluşturarak disk yetersiz bellek hatalarını çözebilirsiniz.

AutoML hangi gelişmiş tahmin senaryolarını destekler?

AutoML aşağıdaki gelişmiş tahmin senaryolarını destekler:

  • Nicel tahminler
  • Sıralı tahminler aracılığıyla sağlam model değerlendirmesi
  • Tahmin ufkunun ötesinde tahmin
  • Eğitim ve tahmin dönemleri arasında zaman aralığı olduğunda tahmin etme

Örnekler ve ayrıntılar için gelişmiş tahmin senaryoları için not defterine bakın.

Eğitim işlerini tahmin etme ölçümlerini Nasıl yaparım? görüntüleyebilirsiniz?

Eğitim ve doğrulama ölçüm değerlerini bulmak için bkz. Stüdyodaki işleri/çalıştırma bilgilerini görüntüleme. Studiodaki AutoML iş kullanıcı arabiriminden bir modele gidip Ölçümler sekmesini seçerek AutoML'de eğitilen herhangi bir tahmin modelinin ölçümlerini görüntüleyebilirsiniz.

AutoML tahmin modelinin ölçüm arabirimini gösteren ekran görüntüsü.

Eğitim işlerini tahmin etme ile hata ayıklama Nasıl yaparım??

AutoML tahmin işiniz başarısız olursa, studio kullanıcı arabirimindeki bir hata iletisi sorunu tanılamanıza ve çözmenize yardımcı olabilir. Hata iletisinin ötesinde hatayla ilgili en iyi bilgi kaynağı işin sürücü günlüğüdür. Sürücü günlüklerini bulma yönergeleri için bkz. MLflow ile işleri/çalıştırma bilgilerini görüntüleme.

Not

Birçok Model veya HTS işi için eğitim genellikle birden çok düğümlü işlem kümelerinde yapılır. Bu işlerin günlükleri her düğüm IP adresi için mevcuttur. Bu durumda, her düğümde hata günlüklerini aramanız gerekir. Hata günlükleri ve sürücü günlükleri her düğüm IP'sinin user_logs klasöründedir.

Eğitim işlerini tahmin etmeden bir model Nasıl yaparım? dağıtın?

Eğitim işlerini tahmin ederek modeli şu yollardan biriyle dağıtabilirsiniz:

Kullanıcı arabirimi dağıtımları için şu seçeneklerden birini kullanmanızı öneririz:

  • Gerçek zamanlı uç nokta
  • Batch uç noktası

AutoML tahmin modelinin dağıtım seçeneklerinin ekran görüntüsü.

İlk seçenek olan Gerçek zamanlı uç nokta (hızlı) seçeneğini kullanmayın.

Not

Şu andan itibaren SDK, CLI veya kullanıcı arabirimi aracılığıyla eğitim işlerini tahmin etmeden MLflow modelini dağıtmayı desteklemiyoruz. Denerseniz hata alırsınız.

Çalışma alanı, ortam, deneme, işlem örneği veya işlem hedefi nedir?

Azure Machine Learning kavramlarını bilmiyorsanız Azure Machine Learning nedir? ve Azure Machine Learning çalışma alanı nedir? makaleleriyle başlayın.

Sonraki adımlar