AutoMLConfig Sınıf

Azure Machine Learning'de otomatik ml denemesi gönderme yapılandırmasını temsil eder.

Bu yapılandırma nesnesi, deneme çalıştırmasını yapılandırmaya yönelik parametrelerin yanı sıra çalışma zamanında kullanılacak eğitim verilerini içerir ve kalıcı hale alır. Ayarlarınızı seçme konusunda rehberlik için bkz https://aka.ms/AutoMLConfig. .

AutoMLConfig oluşturun.

Devralma
builtins.object
AutoMLConfig

Oluşturucu

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parametreler

task
str veya Tasks
Gerekli

Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.

path
str
Gerekli

Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.

iterations
int
Gerekli

Otomatik ML denemesi sırasında test edilmesi gereken farklı algoritma ve parametre bileşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.

primary_metric
str veya Metric
Gerekli

Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .

Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama kare kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.

positive_label
Any
Gerekli

Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:

  1. etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
  2. positive_label belirtilen çok sınıflı sınıflandırma görevi

Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.

compute_target
AbstractComputeTarget
Gerekli

Otomatik Makine Öğrenmesi denemesini çalıştırmak için Azure Machine Learning işlem hedefi. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .

spark_context
<xref:SparkContext>
Gerekli

Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.

X
DataFrame veya ndarray veya Dataset veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.

y
DataFrame veya ndarray veya Dataset veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.

sample_weight
DataFrame veya ndarray veya TabularDataset
Gerekli

Uygun işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.

X_valid
DataFrame veya ndarray veya Dataset veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.

Belirtildiyse y_valid veya sample_weight_valid de belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.

y_valid
DataFrame veya ndarray veya Dataset veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.

Hem hem de X_validy_valid birlikte belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.

sample_weight_valid
DataFrame veya ndarray veya TabularDataset
Gerekli

Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X_valid. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.

cv_splits_indices
List[List[ndarray]]
Gerekli

Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim endeksleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir.

Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data. Bunun yerine AutoML'nin doğrulama verilerini eğitim verilerinden ayıklamasına izin vermek için veya validation_sizebelirtinn_cross_validations. içinde training_dataçapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names.

validation_size
float
Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin ne kadar kesirli olduğu. Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde doğrulama verilerini belirtilen eğitim verilerinden ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

n_cross_validations
int
Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde doğrulama verilerini belirtilen eğitim verilerinden ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

y_min
float
Gerekli

Regresyon denemesi için en az y değeri. ve birleşimi y_miny_max , giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

y_max
float
Gerekli

Regresyon denemesi için en fazla y değeri. ve birleşimi y_miny_max , giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

num_classes
int
Gerekli

Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

featurization
str veya FeaturizationConfig
Gerekli

Özellik ekleme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.

Sütun türü otomatik olarak algılanır. Algılanan sütun türüne göre ön işleme/özellik geliştirme aşağıdaki gibi yapılır:

  • Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma/kapatma.

  • Sayısal: Eksik değerler, küme uzaklığı, kanıtın ağırlığı.

  • DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.

  • Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.

Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.

Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik geliştirme şu anda bir transformatör kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.

Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında timeseries özellikleri ayrı olarak işlenir.

max_cores_per_iteration
int
Gerekli

Belirli bir eğitim yinelemesi için kullanılacak iş parçacığı sayısı üst sınırı. Kabul edilebilir değerler:

  • 1'den büyük ve işlem hedefinde maksimum çekirdek sayısından küçük veya ona eşit.

  • -1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.

  • Varsayılan değer olan 1'e eşittir.

max_concurrent_iterations
int
Gerekli

Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.

  • AmlCompute kümeleri düğüm başına çalışan bir interation'i destekler. Tek bir AmlCompute kümesinde paralel olarak yürütülen birden çok AutoML denemesi üst çalıştırması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır. Aksi takdirde, düğümler kullanılabilir olana kadar çalıştırmalar kuyruğa alınır.

  • DSVM düğüm başına birden çok yinelemeyi destekler. max_concurrent_iterations DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.

  • Databricks - max_concurrent_iterations Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.

max_concurrent_iterations yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations.

iteration_timeout_minutes
int
Gerekli

Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.

mem_in_mb
int
Gerekli

Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.

enforce_time_on_windows
bool
Gerekli

Windows'taki her yinelemede model eğitimi için bir zaman sınırı zorunlu kılınıp uygulanmaymayacağı. Varsayılan değer True'dur. Python betik dosyasından (.py) çalıştırıyorsanız Windows'da kaynak sınırlarına izin verme belgelerine bakın.

experiment_timeout_hours
float
Gerekli

Deneme sona ermeden önce tüm yinelemelerin birleştirildiği saat cinsinden maksimum süre. 15 dakikayı temsil eden 0,25 gibi bir ondalık değer olabilir. Belirtilmezse, varsayılan deneme zaman aşımı 6 gündür. 1 saatten küçük veya buna eşit bir zaman aşımı belirtmek için veri kümenizin boyutunun 10.000.000'den (satır çarpı sütunu) büyük olmadığından veya hata sonuçlarından emin olun.

experiment_exit_score
float
Gerekli

Deneme için hedef puan. Bu puana ulaşıldıktan sonra deneme sonlandırılır. Belirtilmezse (ölçüt yoksa), birincil ölçümde başka bir ilerleme kaydedilmeden deneme çalıştırılır. Çıkış ölçütleri hakkında daha fazla bilgi için bu makaleye bakın.

enable_early_stopping
bool
Gerekli

Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.

Erken durdurma mantığı:

  • İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.

  • Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar

    (şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.

  • AutoML, erken durdurma sonrasında 2 grup yinelemesi zamanlamaya devam eder ve bu da

    daha yüksek puanlar.

  • En iyi puanın hesaplanmış mutlak değeri geçmiş için aynıysa erken durdurma tetikleniyor

    early_stopping_n_iters yinelemeler, yani early_stopping_n_iters yinelemeler için puanda bir gelişme yoksa.

blocked_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Deneme için yoksayılan algoritmaların listesi. False ise enable_tf , TensorFlow modelleri içinde blocked_modelsbulunur.

blacklist_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Kullanım dışı parametresi yerine blocked_models kullanın.

exclude_nan_labels
bool
Gerekli

Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.

verbosity
int
Gerekli

Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.

enable_tf
bool
Gerekli

Tensorflow algoritmalarını etkinleştirmek/devre dışı bırakmak için kullanım dışı parametresi. Varsayılan değer False'tur.

model_explainability
bool
Gerekli

Tüm AutoML eğitim yinelemelerinin sonunda en iyi AutoML modelinin açıklanıp açıklanmayacağı. Varsayılan değer True'dur. Daha fazla bilgi için bkz. Yorumlanabilirlik: otomatik makine öğrenmesinde model açıklamaları.

allowed_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models belirtilen veya kullanım dışı bırakılan modellerden çıkarılır. Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .

whitelist_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Kullanım dışı parametresi yerine allowed_models kullanın.

enable_onnx_compatible_models
bool
Gerekli

ONNX uyumlu modelleri zorunlu tutmanın etkinleştirilip etkinleştirilmeyileceği veya devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur. Açık Sinir Ağı Değişimi (ONNX) ve Azure Machine Learning hakkında daha fazla bilgi için bu makaleye bakın.

forecasting_parameters
ForecastingParameters
Gerekli

Tüm tahmine özgü parametreleri tutan bir ForecastingParameters nesnesi.

time_column_name
str
Gerekli

Saat sütununun adı. Bu parametre, zaman serisini oluşturmak ve sıklığını çıkarsamak için kullanılan giriş verilerinde tarih saat sütununu belirtmek için tahminde bulunurken gereklidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

max_horizon
int
Gerekli

Zaman serisi sıklığı birimleri cinsinden istenen maksimum tahmin ufku. Varsayılan değer 1’dir.

Birimler, eğitim verilerinizin zaman aralığına (örn. tahminde bulunanın tahmin etmesi gereken aylık, haftalık) bağlıdır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

grain_column_names
str veya list(str)
Gerekli

Zaman aralıklarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin tek bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_lags
int veya list(int)
Gerekli

Hedef sütundan geri alınacak geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yaparken, bu parametre verilerin sıklığına bağlı olarak hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ile bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya ilişkilendirilmediğinde gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep, 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişki üzerinde eğitim görebilmesi için hedefi (talebi) 3 ay gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.

feature_lags
str
Gerekli

Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_rolling_window_size
int
Gerekli

Hedef sütunun sıralı pencere ortalamasını oluşturmak için kullanılan geçmiş dönemlerin sayısı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi , <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.

country_or_region
str
Gerekli

Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodu olmalıdır, örneğin 'ABD' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

use_stl
str
Gerekli

Zaman serisi hedef sütununun STL Ayrıştırma'sını yapılandırın. use_stl üç değer alabilir: Yok (varsayılan) - ayrıştırma yok, 'sezon' - yalnızca sezon bileşeni ve season_trend oluştur - hem mevsim hem de eğilim bileşenlerini oluşturun. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

seasonality
int veya str
Gerekli

Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik 'otomatik' olarak ayarlanırsa çıkarım yapılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

short_series_handling_configuration
str
Gerekli

AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.

Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.

  • uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
  • tuş takımı tüm kısa seriler doldurulacaktır.
  • tüm kısa seriler bırakılacaktır".
  • Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:

Date

numeric_value

Dize

Hedef

2020-01-01

23

green

55

En az değer sayısının dört olduğunu varsayarsak çıkış:

Date

numeric_value

Dize

Hedef

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

2020-01-01

23

green

55

Not: short_series_handling_configuration ve eski short_series_handling iki parametremiz vardır. Her iki parametre de ayarlandığında, bunları aşağıdaki tabloda gösterildiği gibi eşitleriz (short_series_handling_configuration ve kısaltma için short_series_handling sırasıyla handling_configuration ve işleme olarak işaretlenir).

Işleme

handling_configuration

sonuç işleme

sonuç handling_configuration

Doğru

auto

Doğru

auto

Doğru

Pad

Doğru

auto

Doğru

drop

Doğru

auto

Doğru

Hiçbiri

Yanlış

Hiçbiri

Yanlış

auto

Yanlış

Hiçbiri

Yanlış

Pad

Yanlış

Hiçbiri

Yanlış

drop

Yanlış

Hiçbiri

Yanlış

Hiçbiri

Yanlış

Hiçbiri

freq
str veya None
Gerekli

Tahmin sıklığı.

Tahmin yapılırken, bu parametre tahminin istendiği dönemi (örneğin, günlük, haftalık, yıllık vb.) temsil eder. Tahmin sıklığı varsayılan olarak veri kümesi sıklığıdır. İsteğe bağlı olarak veri kümesi sıklığından daha büyük (ancak daha az değil) olarak ayarlayabilirsiniz. Verileri toplayarak sonuçları tahmin sıklığında oluşturacağız. Örneğin, günlük veriler için sıklığı günlük, haftalık veya aylık olarak ayarlayabilirsiniz ancak saatlik olarak ayarlayamayabilirsiniz. Sıklığın pandas uzaklık diğer adı olması gerekir. Daha fazla bilgi için lütfen pandas belgelerine bakın: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
str veya None
Gerekli

Zaman serisi hedef sütununu kullanıcının belirtilen sıklığına uyacak şekilde toplamak için kullanılacak işlev. target_aggregation_function ayarlandıysa ancak freq parametresi ayarlanmadıysa hata oluşur. Olası hedef toplama işlevleri şunlardır: "sum", "max", "min" ve "mean".

Frekans

target_aggregation_function

Veri düzenliliği düzeltme mekanizması

Hiçbiri (Varsayılan)

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.

Bazı Değerler

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.

Hiçbiri (Varsayılan)

Toplama işlevi

Eksik sıklık parametresiyle ilgili hata tetiklenmiş.

Bazı Değerler

Toplama işlevi

providedaggregation işlevini kullanarak sıklık olarak toplama.

enable_voting_ensemble
bool
Gerekli

VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

enable_stack_ensemble
bool
Gerekli

StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tur. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerini önlemek için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

debug_log
str
Gerekli

Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse, 'automl.log' kullanılır.

training_data
DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme içinde kullanılacak eğitim verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir. belirtilirse training_data parametresinin label_column_name de belirtilmesi gerekir.

training_data sürüm 1.0.81'de kullanıma sunulmuştur.

validation_data
DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme içinde kullanılacak doğrulama verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir. belirtilirse validation_datatraining_data ve label_column_name parametreleri belirtilmelidir.

validation_data sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

test_data
Dataset veya TabularDataset
Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu parametre veya test_size parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir. Test verileri hem özellikleri hem de etiket sütununu içermelidir. belirtilirse test_data parametresi belirtilmelidir label_column_name .

test_size
float
Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadar bölümü. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir. ile aynı anda validation_sizebelirtilirsetest_size, doğrulama verileri bölünmeden önce test verileri'nden training_data bölünür. Örneğin , ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1test_size=0.1, test verilerinin 100 satırı olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.

Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitme/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.

Bu parametre veya test_data parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.

label_column_name
Union[str, int]
Gerekli

Etiket sütununun adı. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre, validation_data ve test_data parametreleri için training_datageçerlidir. label_column_name sürüm 1.0.81'de kullanıma sunulmuştur.

weight_column_name
Union[str, int]
Gerekli

Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre ve validation_data parametreleri için training_data geçerlidir. weight_column_names sürüm 1.0.81'de kullanıma sunulmuştur.

cv_split_column_names
list(str)
Gerekli

Özel çapraz doğrulama bölme içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmeyi temsil eder.

Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data geçerlidir. cv_split_column_names sürüm 1.6.0'da kullanıma sunulmuştur

cv_split_column_names veya cv_splits_indiceskullanın.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

enable_local_managed
bool
Gerekli

Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.

enable_dnn
bool
Gerekli

Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tur. Ancak, DNN NLP görevleri için varsayılan değer True, diğer tüm AutoML görevleri için ise False'tur.

task
str veya Tasks
Gerekli

Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.

path
str
Gerekli

Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.

iterations
int
Gerekli

Otomatik ml denemesi sırasında test edilmesi gereken farklı algoritma ve parametre birleşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.

primary_metric
str veya Metric
Gerekli

Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için komutunu kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .

Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama karesi kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.

positive_label
Any
Gerekli

Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:

  1. etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
  2. positive_label belirtilmiş çok sınıflı sınıflandırma görevi

Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.

compute_target
AbstractComputeTarget
Gerekli

Otomatik Makine Öğrenmesi denemesini çalıştırmak için Azure Machine Learning işlem hedefi. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote .

spark_context
<xref:SparkContext>
Gerekli

Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.

X
DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.

y
DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.

sample_weight
DataFrame veya ndarray veya TabularDataset
Gerekli

Sığdırma işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.

X_valid
DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.

Belirtilirse y_valid veya sample_weight_valid de belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.

y_valid
DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.

y_valid Hem hem de X_valid birlikte belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.

sample_weight_valid
DataFrame veya ndarray veya TabularDataset
Gerekli

Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X_valid. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.

cv_splits_indices
List[List[ndarray]]
Gerekli

Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim dizinleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir. Bu seçenek, veriler ayrı Özellikler veri kümesi ve Etiket sütunu olarak geçirildiğinde desteklenir.

Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data. AutoML'nin eğitim verilerinin dışında doğrulama verilerini ayıklamasına izin vermek için veya validation_sizebelirtinn_cross_validations. içinde training_dataçapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names.

validation_size
float
Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin kesri. Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde belirtilen eğitim verilerinden doğrulama verilerini ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

n_cross_validations
int veya str
Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde belirtilen eğitim verilerinden doğrulama verilerini ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

y_min
float
Gerekli

Regresyon denemesi için en az y değeri. ve y_max birleşimiy_min, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

y_max
float
Gerekli

Regresyon denemesi için en fazla y değeri. ve y_max birleşimiy_min, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

num_classes
int
Gerekli

Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

featurization
str veya FeaturizationConfig
Gerekli

Özellik geliştirme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.

Sütun türü otomatik olarak algılanır. Algılanan sütun türüne bağlı olarak ön işleme/özellik kazandırma aşağıdaki gibi yapılır:

  • Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma.

  • Sayısal: Eksik değerlerin yerine getirme, küme uzaklığı, kanıtın ağırlığı.

  • DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.

  • Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.

Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.

Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik kazandırma şu anda bir dönüştürücü kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.

Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında zaman aralıkları özellikleri ayrı işlenir.

max_cores_per_iteration
int
Gerekli

Belirli bir eğitim yinelemesi için kullanılacak en fazla iş parçacığı sayısı. Kabul edilebilir değerler:

  • 1'den büyük ve işlem hedefi üzerindeki maksimum çekirdek sayısından küçük veya buna eşit.

  • -1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.

  • Varsayılan değer olan 1'e eşittir.

max_concurrent_iterations
int
Gerekli

Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.

  • AmlCompute kümeleri düğüm başına çalışan bir interation destekler. Tek bir AmlCompute kümesinde paralel olarak çalıştırılacak birden çok deneme için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.

  • DSVM düğüm başına birden çok yinelemeyi destekler. max_concurrent_iterations DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.

  • Databricks - max_concurrent_iterations Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.

max_concurrent_iterations yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations.

iteration_timeout_minutes
int
Gerekli

Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.

mem_in_mb
int
Gerekli

Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.

enforce_time_on_windows
bool
Gerekli

Windows'taki her yinelemede model eğitimi için bir zaman sınırı zorunlu kılınıp uygulanmaymayacağı. Varsayılan değer True'dur. Python betik dosyasından (.py) çalıştırıyorsanız Windows'da kaynak sınırlarına izin verme belgelerine bakın.

experiment_timeout_hours
float
Gerekli

Deneme sona ermeden önce tüm yinelemelerin birleştirildiği saat cinsinden maksimum süre. 15 dakikayı temsil eden 0,25 gibi bir ondalık değer olabilir. Belirtilmezse, varsayılan deneme zaman aşımı 6 gündür. 1 saatten küçük veya buna eşit bir zaman aşımı belirtmek için veri kümenizin boyutunun 10.000.000'den (satır çarpı sütunu) büyük olmadığından veya hata sonuçlarından emin olun.

experiment_exit_score
float
Gerekli

Deneme için hedef puan. Bu puana ulaşıldıktan sonra deneme sonlandırılır. Belirtilmezse (ölçüt yoksa), birincil ölçümde başka bir ilerleme kaydedilmeden deneme çalıştırılır. Çıkış ölçütleri hakkında daha fazla bilgi için bu >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<

enable_early_stopping
bool
Gerekli

Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.

Erken durdurma mantığı:

  • İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.

  • Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar (şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.

  • AutoML hala erken durdurmadan sonra 2 grup yinelemesi zamanlar ve bu da daha yüksek puanlara neden olabilir.

  • En iyi puanın mutlak değeri geçmiş early_stopping_n_iters yinelemeleri için aynıysa, yani early_stopping_n_iters yinelemeleri için puanda bir iyileştirme yoksa erken durdurma tetikleniyor.

blocked_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Deneme için yoksayılan algoritmaların listesi. False ise enable_tf , TensorFlow modelleri içinde blocked_modelsbulunur.

blacklist_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Kullanım dışı parametresi yerine blocked_models kullanın.

exclude_nan_labels
bool
Gerekli

Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.

verbosity
int
Gerekli

Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.

enable_tf
bool
Gerekli

TensorFlow algoritmalarının etkinleştirilip etkinleştirilmeyileceği/devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur.

model_explainability
bool
Gerekli

Tüm AutoML eğitim yinelemelerinin sonunda en iyi AutoML modelinin açıklanıp açıklanmayacağı. Varsayılan değer True'dur. Daha fazla bilgi için bkz. Yorumlanabilirlik: otomatik makine öğrenmesinde model açıklamaları.

allowed_models
list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Gerekli

Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models belirtilen veya kullanım dışı bırakılan modellerden çıkarılır. Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .

allowed_models
Gerekli

Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models belirtilen veya kullanım dışı bırakılan modellerden çıkarılır. Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .

whitelist_models
Gerekli

Kullanım dışı parametresi yerine allowed_models kullanın.

enable_onnx_compatible_models
bool
Gerekli

ONNX uyumlu modelleri zorunlu tutmanın etkinleştirilip etkinleştirilmeyileceği veya devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur. Açık Sinir Ağı Değişimi (ONNX) ve Azure Machine Learning hakkında daha fazla bilgi için bu makaleye bakın.

forecasting_parameters
ForecastingParameters
Gerekli

Tüm tahmine özgü parametrelerin barındırılması için bir nesne.

time_column_name
str
Gerekli

Saat sütununun adı. Bu parametre, zaman serisini oluşturmak ve sıklığını çıkarsamak için kullanılan giriş verilerinde tarih saat sütununu belirtmek için tahminde bulunurken gereklidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

max_horizon
int
Gerekli

Zaman serisi sıklığı birimlerinde istenen maksimum tahmin ufku. Varsayılan değer 1’dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Birimler, tahminde bulunanın tahmin etmesi gereken aylık, haftalık gibi eğitim verilerinizin zaman aralığını temel alır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.

grain_column_names
str veya list(str)
Gerekli

Zaman zamanlarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_lags
int veya list(int)
Gerekli

Hedef sütundan gecikmeye neden olan geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yapılırken, bu parametre verilerin sıklığına göre hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ve bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya bağıntılı olmadığında gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişkiyi eğitmesi için hedefi (talebi) 3 ay olumsuz olarak gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitin.

feature_lags
str
Gerekli

Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_rolling_window_size
int
Gerekli

Hedef sütunun sıralı pencere ortalamasını oluşturmak için kullanılan geçmiş dönemlerin sayısı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi, <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.

country_or_region
str
Gerekli

Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodları olmalıdır, örneğin 'US' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

use_stl
str
Gerekli

Zaman serisi hedef sütununun STL Ayrıştırmasını yapılandırın. use_stl üç değer alabilir: Hiçbiri (varsayılan) - ayrıştırma yok, 'season' - yalnızca sezon bileşeni ve season_trend oluşturma - hem mevsim hem de eğilim bileşenlerini oluşturur. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

seasonality
int
Gerekli

Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik -1 olarak ayarlanırsa, çıkarsanır. use_stl ayarlanmadıysa, bu parametre kullanılmaz. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

short_series_handling_configuration
str
Gerekli

AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.

Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.

  • uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
  • tuş takımı tüm kısa seriler doldurulacaktır.
  • tüm kısa seriler bırakılacaktır".
  • Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:

Date

numeric_value

Dize

Hedef

2020-01-01

23

green

55

En az değer sayısının dört olduğunu varsayarsak çıkış: +————+—————+———-+—–+ | Tarih | numeric_value | dize | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | yeşil | 55 | +————+—————+———-+——–+

Not: short_series_handling_configuration ve eski short_series_handling iki parametremiz vardır. Her iki parametre de ayarlandığında, bunları aşağıdaki tabloda gösterildiği gibi eşitleriz (short_series_handling_configuration ve kısaltma için short_series_handling sırasıyla handling_configuration ve işleme olarak işaretlenir).

Işleme

handling_configuration

sonuç işleme

sonuç handling_configuration

Doğru

auto

Doğru

auto

Doğru

Pad

Doğru

auto

Doğru

drop

Doğru

auto

Doğru

Hiçbiri

Yanlış

Hiçbiri

Yanlış

auto

Yanlış

Hiçbiri

Yanlış

Pad

Yanlış

Hiçbiri

Yanlış

drop

Yanlış

Hiçbiri

Yanlış

Hiçbiri

Yanlış

Hiçbiri

freq
str veya None
Gerekli

Tahmin sıklığı.

Tahmin yapılırken, bu parametre tahminin istendiği dönemi (örneğin, günlük, haftalık, yıllık vb.) temsil eder. Tahmin sıklığı varsayılan olarak veri kümesi sıklığıdır. İsteğe bağlı olarak veri kümesi sıklığından daha büyük (ancak daha az değil) olarak ayarlayabilirsiniz. Verileri toplayarak sonuçları tahmin sıklığında oluşturacağız. Örneğin, günlük veriler için sıklığı günlük, haftalık veya aylık olarak ayarlayabilirsiniz ancak saatlik olarak ayarlayamayabilirsiniz. Sıklığın pandas uzaklık diğer adı olması gerekir. Daha fazla bilgi için lütfen pandas belgelerine bakın: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
str veya None
Gerekli

Zaman serisi hedef sütununu kullanıcının belirtilen sıklığına uyacak şekilde toplamak için kullanılacak işlev. target_aggregation_function ayarlandıysa ancak freq parametresi ayarlanmadıysa hata oluşur. Olası hedef toplama işlevleri şunlardır: "sum", "max", "min" ve "mean".

Frekans

target_aggregation_function

Veri düzenliliği düzeltme mekanizması

Hiçbiri (Varsayılan)

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.

Bazı Değerler

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.

Hiçbiri (Varsayılan)

Toplama işlevi

Eksik sıklık parametresiyle ilgili hata tetiklenmiş.

Bazı Değerler

Toplama işlevi

providedaggregation işlevini kullanarak sıklık olarak toplama.

enable_voting_ensemble
bool
Gerekli

VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

enable_stack_ensemble
bool
Gerekli

StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tır. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerinden kaçınmak için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

debug_log
str
Gerekli

Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse , 'automl.log' kullanılır.

training_data
DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme içinde kullanılacak eğitim verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir. belirtilirse training_data parametresinin label_column_name de belirtilmesi gerekir.

training_data sürüm 1.0.81'de kullanıma sunulmuştur.

validation_data
DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Gerekli

Deneme içinde kullanılacak doğrulama verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir. belirtilirse validation_datatraining_data ve label_column_name parametreleri belirtilmelidir.

validation_data sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

test_data
Dataset veya TabularDataset
Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu parametre veya test_size parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir. Test verileri hem özellikleri hem de etiket sütununu içermelidir. belirtilirse test_data parametresi belirtilmelidir label_column_name .

test_size
float
Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadarı. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir. ile aynı zamanda validation_sizebelirtilirsetest_size, doğrulama verileri bölünmeden önce test verileri'nden training_data bölünür. Örneğin, ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1test_size=0.1, test verileri 100 satıra sahip olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.

Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitim/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.

Bu parametre veya test_data parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.

label_column_name
Union[str, int]
Gerekli

Etiket sütununun adı. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre, validation_data ve test_data parametreleri için training_datageçerlidir. label_column_name sürüm 1.0.81'de kullanıma sunulmuştur.

weight_column_name
Union[str, int]
Gerekli

Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre ve validation_data parametreleri için training_data geçerlidir. weight_column_names sürüm 1.0.81'de kullanıma sunulmuştur.

cv_split_column_names
list(str)
Gerekli

Özel çapraz doğrulama bölmesini içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmesini temsil eder.

Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data geçerlidir. cv_split_column_names sürüm 1.6.0'da kullanıma sunulmuştur

cv_split_column_names veya cv_splits_indiceskullanın.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

enable_local_managed
bool
Gerekli

Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.

enable_dnn
bool
Gerekli

Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tır. Ancak, varsayılan değer DNN NLP görevleri için True ve diğer tüm AutoML görevleri için False'tur.

Açıklamalar

Aşağıdaki kod, AutoMLConfig nesnesi oluşturmanın ve regresyon için deneme göndermenin temel bir örneğini gösterir:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Regresyon'da tam bir örnek mevcuttur

Tahmin için AutoMLConfig kullanma örnekleri şu not defterlerinde verilmiştir:

Tüm görev türleri için AutoMLConfig kullanma örnekleri bu otomatik ML not defterlerinde bulunabilir.

Otomatik ML arka planı için makalelere bakın:

Otomatik makine öğrenmesi, AutoML ve denemeleriniz için eğitim/doğrulama veri bölmelerini ve çapraz doğrulamayı yapılandırmaya yönelik farklı seçenekler hakkında daha fazla bilgi için bkz. Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

Yöntemler

as_serializable_dict

Nesneyi sözlüğe dönüştürün.

get_supported_dataset_languages

ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın.

as_serializable_dict

Nesneyi sözlüğe dönüştürün.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parametreler

cls
Gerekli

sınıf nesnesi AutoMLConfig.

use_gpu
Gerekli

gpu işleminin kullanılıp kullanılmadığını gösteren boole değeri.

Döndürülenler

{: } biçiminin sözlüğü. Dil kodu ISO 639-3 standardına uygun, lütfen https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes