AutoMLConfig Sınıf
Azure Machine Learning'de otomatik ml denemesi gönderme yapılandırmasını temsil eder.
Bu yapılandırma nesnesi, deneme çalıştırmasını yapılandırmaya yönelik parametrelerin yanı sıra çalışma zamanında kullanılacak eğitim verilerini içerir ve kalıcı hale alır. Ayarlarınızı seçme konusunda rehberlik için bkz https://aka.ms/AutoMLConfig. .
AutoMLConfig oluşturun.
- Devralma
-
builtins.objectAutoMLConfig
Oluşturucu
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Parametreler
Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.
- path
- str
Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.
- iterations
- int
Otomatik ML denemesi sırasında test edilmesi gereken farklı algoritma ve parametre bileşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.
Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .
Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama kare kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.
- positive_label
- Any
Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:
- etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
- positive_label belirtilen çok sınıflı sınıflandırma görevi
Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.
- compute_target
- AbstractComputeTarget
Otomatik Makine Öğrenmesi denemesini çalıştırmak için Azure Machine Learning işlem hedefi. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .
- spark_context
- <xref:SparkContext>
Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.
- X
- DataFrame veya ndarray veya Dataset veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.
- y
- DataFrame veya ndarray veya Dataset veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.
- sample_weight
- DataFrame veya ndarray veya TabularDataset
Uygun işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.
belirtirken bu parametreyi belirtin X
.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.
- X_valid
- DataFrame veya ndarray veya Dataset veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.
Belirtildiyse y_valid
veya sample_weight_valid
de belirtilmelidir.
Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.
- y_valid
- DataFrame veya ndarray veya Dataset veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.
Hem hem de X_valid
y_valid
birlikte belirtilmelidir.
Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.
- sample_weight_valid
- DataFrame veya ndarray veya TabularDataset
Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.
belirtirken bu parametreyi belirtin X_valid
.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.
Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim endeksleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir.
Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data
. Bunun yerine AutoML'nin doğrulama verilerini eğitim verilerinden ayıklamasına izin vermek için veya validation_size
belirtinn_cross_validations
.
içinde training_data
çapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names
.
- validation_size
- float
Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin ne kadar kesirli olduğu. Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.
Doğrulama verilerini sağlamak için belirtin validation_data
, aksi takdirde doğrulama verilerini belirtilen eğitim verilerinden ayarlayın n_cross_validations
veya validation_size
ayıklayın.
Özel çapraz doğrulama katlama için kullanın cv_split_column_names
.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- n_cross_validations
- int
Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.
Doğrulama verilerini sağlamak için belirtin validation_data
, aksi takdirde doğrulama verilerini belirtilen eğitim verilerinden ayarlayın n_cross_validations
veya validation_size
ayıklayın.
Özel çapraz doğrulama katlama için kullanın cv_split_column_names
.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- y_min
- float
Regresyon denemesi için en az y değeri. ve birleşimi y_min
y_max
, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- y_max
- float
Regresyon denemesi için en fazla y değeri. ve birleşimi y_min
y_max
, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- num_classes
- int
Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- featurization
- str veya FeaturizationConfig
Özellik ekleme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.
Sütun türü otomatik olarak algılanır. Algılanan sütun türüne göre ön işleme/özellik geliştirme aşağıdaki gibi yapılır:
Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma/kapatma.
Sayısal: Eksik değerler, küme uzaklığı, kanıtın ağırlığı.
DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.
Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.
Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.
Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik geliştirme şu anda bir transformatör kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.
Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında timeseries özellikleri ayrı olarak işlenir.
- max_cores_per_iteration
- int
Belirli bir eğitim yinelemesi için kullanılacak iş parçacığı sayısı üst sınırı. Kabul edilebilir değerler:
1'den büyük ve işlem hedefinde maksimum çekirdek sayısından küçük veya ona eşit.
-1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.
Varsayılan değer olan 1'e eşittir.
- max_concurrent_iterations
- int
Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.
AmlCompute kümeleri düğüm başına çalışan bir interation'i destekler. Tek bir AmlCompute kümesinde paralel olarak yürütülen birden çok AutoML denemesi üst çalıştırması için, tüm denemelerin değerlerinin
max_concurrent_iterations
toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır. Aksi takdirde, düğümler kullanılabilir olana kadar çalıştırmalar kuyruğa alınır.DSVM düğüm başına birden çok yinelemeyi destekler.
max_concurrent_iterations
DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerininmax_concurrent_iterations
toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.Databricks -
max_concurrent_iterations
Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.
max_concurrent_iterations
yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations
.
- iteration_timeout_minutes
- int
Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.
- mem_in_mb
- int
Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.
- enforce_time_on_windows
- bool
Windows'taki her yinelemede model eğitimi için bir zaman sınırı zorunlu kılınıp uygulanmaymayacağı. Varsayılan değer True'dur. Python betik dosyasından (.py) çalıştırıyorsanız Windows'da kaynak sınırlarına izin verme belgelerine bakın.
- experiment_timeout_hours
- float
Deneme sona ermeden önce tüm yinelemelerin birleştirildiği saat cinsinden maksimum süre. 15 dakikayı temsil eden 0,25 gibi bir ondalık değer olabilir. Belirtilmezse, varsayılan deneme zaman aşımı 6 gündür. 1 saatten küçük veya buna eşit bir zaman aşımı belirtmek için veri kümenizin boyutunun 10.000.000'den (satır çarpı sütunu) büyük olmadığından veya hata sonuçlarından emin olun.
- experiment_exit_score
- float
Deneme için hedef puan. Bu puana ulaşıldıktan sonra deneme sonlandırılır. Belirtilmezse (ölçüt yoksa), birincil ölçümde başka bir ilerleme kaydedilmeden deneme çalıştırılır. Çıkış ölçütleri hakkında daha fazla bilgi için bu makaleye bakın.
- enable_early_stopping
- bool
Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.
Erken durdurma mantığı:
İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.
Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar
(şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.
AutoML, erken durdurma sonrasında 2 grup yinelemesi zamanlamaya devam eder ve bu da
daha yüksek puanlar.
En iyi puanın hesaplanmış mutlak değeri geçmiş için aynıysa erken durdurma tetikleniyor
early_stopping_n_iters yinelemeler, yani early_stopping_n_iters yinelemeler için puanda bir gelişme yoksa.
- blocked_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Deneme için yoksayılan algoritmaların listesi. False ise enable_tf
, TensorFlow modelleri içinde blocked_models
bulunur.
- blacklist_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Kullanım dışı parametresi yerine blocked_models kullanın.
- exclude_nan_labels
- bool
Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.
- verbosity
- int
Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.
- enable_tf
- bool
Tensorflow algoritmalarını etkinleştirmek/devre dışı bırakmak için kullanım dışı parametresi. Varsayılan değer False'tur.
- model_explainability
- bool
Tüm AutoML eğitim yinelemelerinin sonunda en iyi AutoML modelinin açıklanıp açıklanmayacağı. Varsayılan değer True'dur. Daha fazla bilgi için bkz. Yorumlanabilirlik: otomatik makine öğrenmesinde model açıklamaları.
- allowed_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models
belirtilen veya kullanım dışı bırakılan modellerden çıkarılır.
Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .
- whitelist_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Kullanım dışı parametresi yerine allowed_models kullanın.
- enable_onnx_compatible_models
- bool
ONNX uyumlu modelleri zorunlu tutmanın etkinleştirilip etkinleştirilmeyileceği veya devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur. Açık Sinir Ağı Değişimi (ONNX) ve Azure Machine Learning hakkında daha fazla bilgi için bu makaleye bakın.
- forecasting_parameters
- ForecastingParameters
Tüm tahmine özgü parametreleri tutan bir ForecastingParameters nesnesi.
- time_column_name
- str
Saat sütununun adı. Bu parametre, zaman serisini oluşturmak ve sıklığını çıkarsamak için kullanılan giriş verilerinde tarih saat sütununu belirtmek için tahminde bulunurken gereklidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- max_horizon
- int
Zaman serisi sıklığı birimleri cinsinden istenen maksimum tahmin ufku. Varsayılan değer 1’dir.
Birimler, eğitim verilerinizin zaman aralığına (örn. tahminde bulunanın tahmin etmesi gereken aylık, haftalık) bağlıdır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Zaman aralıklarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin tek bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Hedef sütundan geri alınacak geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Tahmin yaparken, bu parametre verilerin sıklığına bağlı olarak hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ile bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya ilişkilendirilmediğinde gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep, 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişki üzerinde eğitim görebilmesi için hedefi (talebi) 3 ay gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.
- feature_lags
- str
Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- target_rolling_window_size
- int
Hedef sütunun sıralı pencere ortalamasını oluşturmak için kullanılan geçmiş dönemlerin sayısı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi , <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.
- country_or_region
- str
Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodu olmalıdır, örneğin 'ABD' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- use_stl
- str
Zaman serisi hedef sütununun STL Ayrıştırma'sını yapılandırın. use_stl üç değer alabilir: Yok (varsayılan) - ayrıştırma yok, 'sezon' - yalnızca sezon bileşeni ve season_trend oluştur - hem mevsim hem de eğilim bileşenlerini oluşturun. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik 'otomatik' olarak ayarlanırsa çıkarım yapılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- short_series_handling_configuration
- str
AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.
Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.
- uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
- tuş takımı tüm kısa seriler doldurulacaktır.
- tüm kısa seriler bırakılacaktır".
- Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:
Date
numeric_value
Dize
Hedef
2020-01-01
23
green
55
En az değer sayısının dört olduğunu varsayarsak çıkış:
Date
numeric_value
Dize
Hedef
2019-12-29
0
NA
55.1
2019-12-30
0
NA
55.6
2019-12-31
0
NA
54.5
2020-01-01
23
green
55
Not: short_series_handling_configuration ve eski short_series_handling iki parametremiz vardır. Her iki parametre de ayarlandığında, bunları aşağıdaki tabloda gösterildiği gibi eşitleriz (short_series_handling_configuration ve kısaltma için short_series_handling sırasıyla handling_configuration ve işleme olarak işaretlenir).
Işleme
handling_configuration
sonuç işleme
sonuç handling_configuration
Doğru
auto
Doğru
auto
Doğru
Pad
Doğru
auto
Doğru
drop
Doğru
auto
Doğru
Hiçbiri
Yanlış
Hiçbiri
Yanlış
auto
Yanlış
Hiçbiri
Yanlış
Pad
Yanlış
Hiçbiri
Yanlış
drop
Yanlış
Hiçbiri
Yanlış
Hiçbiri
Yanlış
Hiçbiri
Tahmin sıklığı.
Tahmin yapılırken, bu parametre tahminin istendiği dönemi (örneğin, günlük, haftalık, yıllık vb.) temsil eder. Tahmin sıklığı varsayılan olarak veri kümesi sıklığıdır. İsteğe bağlı olarak veri kümesi sıklığından daha büyük (ancak daha az değil) olarak ayarlayabilirsiniz. Verileri toplayarak sonuçları tahmin sıklığında oluşturacağız. Örneğin, günlük veriler için sıklığı günlük, haftalık veya aylık olarak ayarlayabilirsiniz ancak saatlik olarak ayarlayamayabilirsiniz. Sıklığın pandas uzaklık diğer adı olması gerekir. Daha fazla bilgi için lütfen pandas belgelerine bakın: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Zaman serisi hedef sütununu kullanıcının belirtilen sıklığına uyacak şekilde toplamak için kullanılacak işlev. target_aggregation_function ayarlandıysa ancak freq parametresi ayarlanmadıysa hata oluşur. Olası hedef toplama işlevleri şunlardır: "sum", "max", "min" ve "mean".
Frekans
target_aggregation_function
Veri düzenliliği düzeltme mekanizması
Hiçbiri (Varsayılan)
Hiçbiri (Varsayılan)
Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.
Bazı Değerler
Hiçbiri (Varsayılan)
Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.
Hiçbiri (Varsayılan)
Toplama işlevi
Eksik sıklık parametresiyle ilgili hata tetiklenmiş.
Bazı Değerler
Toplama işlevi
providedaggregation işlevini kullanarak sıklık olarak toplama.
- enable_voting_ensemble
- bool
VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.
- enable_stack_ensemble
- bool
StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tur. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerini önlemek için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.
- debug_log
- str
Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse, 'automl.log' kullanılır.
- training_data
- DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Deneme içinde kullanılacak eğitim verileri.
Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir.
belirtilirse training_data
parametresinin label_column_name
de belirtilmesi gerekir.
training_data
sürüm 1.0.81'de kullanıma sunulmuştur.
- validation_data
- DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Deneme içinde kullanılacak doğrulama verileri.
Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir.
belirtilirse validation_data
training_data
ve label_column_name
parametreleri belirtilmelidir.
validation_data
sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- test_data
- Dataset veya TabularDataset
Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.
Bu parametre veya test_size
parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.
Test verileri hem özellikleri hem de etiket sütununu içermelidir.
belirtilirse test_data
parametresi belirtilmelidir label_column_name
.
- test_size
- float
Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadar bölümü. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.
Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.
ile aynı anda validation_size
belirtilirsetest_size
, doğrulama verileri bölünmeden önce test verileri'nden training_data
bölünür.
Örneğin , ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1
test_size=0.1
, test verilerinin 100 satırı olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.
Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitme/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.
Bu parametre veya test_data
parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.
Etiket sütununun adı. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.
Bu parametre, validation_data
ve test_data
parametreleri için training_data
geçerlidir.
label_column_name
sürüm 1.0.81'de kullanıma sunulmuştur.
Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.
Bu parametre ve validation_data
parametreleri için training_data
geçerlidir.
weight_column_names
sürüm 1.0.81'de kullanıma sunulmuştur.
Özel çapraz doğrulama bölme içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmeyi temsil eder.
Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data
geçerlidir.
cv_split_column_names
sürüm 1.6.0'da kullanıma sunulmuştur
cv_split_column_names
veya cv_splits_indices
kullanın.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- enable_local_managed
- bool
Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.
- enable_dnn
- bool
Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tur. Ancak, DNN NLP görevleri için varsayılan değer True, diğer tüm AutoML görevleri için ise False'tur.
Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.
- path
- str
Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.
- iterations
- int
Otomatik ml denemesi sırasında test edilmesi gereken farklı algoritma ve parametre birleşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.
Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için komutunu kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .
Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama karesi kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.
- positive_label
- Any
Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:
- etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
- positive_label belirtilmiş çok sınıflı sınıflandırma görevi
Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.
- compute_target
- AbstractComputeTarget
Otomatik Makine Öğrenmesi denemesini çalıştırmak için Azure Machine Learning işlem hedefi. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote .
- spark_context
- <xref:SparkContext>
Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.
- X
- DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.
- y
- DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.
- sample_weight
- DataFrame veya ndarray veya TabularDataset
Sığdırma işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.
belirtirken bu parametreyi belirtin X
.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.
- X_valid
- DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.
Belirtilirse y_valid
veya sample_weight_valid
de belirtilmelidir.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.
- y_valid
- DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset
Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.
y_valid
Hem hem de X_valid
birlikte belirtilmelidir.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.
- sample_weight_valid
- DataFrame veya ndarray veya TabularDataset
Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.
belirtirken bu parametreyi belirtin X_valid
.
Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.
Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim dizinleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir. Bu seçenek, veriler ayrı Özellikler veri kümesi ve Etiket sütunu olarak geçirildiğinde desteklenir.
Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data
. AutoML'nin eğitim verilerinin dışında doğrulama verilerini ayıklamasına izin vermek için veya validation_size
belirtinn_cross_validations
.
içinde training_data
çapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names
.
- validation_size
- float
Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin kesri. Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.
Doğrulama verilerini sağlamak için belirtin validation_data
, aksi takdirde belirtilen eğitim verilerinden doğrulama verilerini ayarlayın n_cross_validations
veya validation_size
ayıklayın.
Özel çapraz doğrulama katlama için kullanın cv_split_column_names
.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.
Doğrulama verilerini sağlamak için belirtin validation_data
, aksi takdirde belirtilen eğitim verilerinden doğrulama verilerini ayarlayın n_cross_validations
veya validation_size
ayıklayın.
Özel çapraz doğrulama katlama için kullanın cv_split_column_names
.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- y_min
- float
Regresyon denemesi için en az y değeri. ve y_max
birleşimiy_min
, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- y_max
- float
Regresyon denemesi için en fazla y değeri. ve y_max
birleşimiy_min
, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- num_classes
- int
Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.
- featurization
- str veya FeaturizationConfig
Özellik geliştirme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.
Sütun türü otomatik olarak algılanır. Algılanan sütun türüne bağlı olarak ön işleme/özellik kazandırma aşağıdaki gibi yapılır:
Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma.
Sayısal: Eksik değerlerin yerine getirme, küme uzaklığı, kanıtın ağırlığı.
DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.
Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.
Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.
Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik kazandırma şu anda bir dönüştürücü kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.
Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında zaman aralıkları özellikleri ayrı işlenir.
- max_cores_per_iteration
- int
Belirli bir eğitim yinelemesi için kullanılacak en fazla iş parçacığı sayısı. Kabul edilebilir değerler:
1'den büyük ve işlem hedefi üzerindeki maksimum çekirdek sayısından küçük veya buna eşit.
-1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.
Varsayılan değer olan 1'e eşittir.
- max_concurrent_iterations
- int
Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.
AmlCompute kümeleri düğüm başına çalışan bir interation destekler. Tek bir AmlCompute kümesinde paralel olarak çalıştırılacak birden çok deneme için, tüm denemelerin değerlerinin
max_concurrent_iterations
toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.DSVM düğüm başına birden çok yinelemeyi destekler.
max_concurrent_iterations
DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerininmax_concurrent_iterations
toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.Databricks -
max_concurrent_iterations
Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.
max_concurrent_iterations
yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations
.
- iteration_timeout_minutes
- int
Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.
- mem_in_mb
- int
Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.
- enforce_time_on_windows
- bool
Windows'taki her yinelemede model eğitimi için bir zaman sınırı zorunlu kılınıp uygulanmaymayacağı. Varsayılan değer True'dur. Python betik dosyasından (.py) çalıştırıyorsanız Windows'da kaynak sınırlarına izin verme belgelerine bakın.
- experiment_timeout_hours
- float
Deneme sona ermeden önce tüm yinelemelerin birleştirildiği saat cinsinden maksimum süre. 15 dakikayı temsil eden 0,25 gibi bir ondalık değer olabilir. Belirtilmezse, varsayılan deneme zaman aşımı 6 gündür. 1 saatten küçük veya buna eşit bir zaman aşımı belirtmek için veri kümenizin boyutunun 10.000.000'den (satır çarpı sütunu) büyük olmadığından veya hata sonuçlarından emin olun.
- experiment_exit_score
- float
Deneme için hedef puan. Bu puana ulaşıldıktan sonra deneme sonlandırılır.
Belirtilmezse (ölçüt yoksa), birincil ölçümde başka bir ilerleme kaydedilmeden deneme çalıştırılır. Çıkış ölçütleri hakkında daha fazla bilgi için bu >>article
https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<
- enable_early_stopping
- bool
Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.
Erken durdurma mantığı:
İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.
Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar (şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.
AutoML hala erken durdurmadan sonra 2 grup yinelemesi zamanlar ve bu da daha yüksek puanlara neden olabilir.
En iyi puanın mutlak değeri geçmiş early_stopping_n_iters yinelemeleri için aynıysa, yani early_stopping_n_iters yinelemeleri için puanda bir iyileştirme yoksa erken durdurma tetikleniyor.
- blocked_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Deneme için yoksayılan algoritmaların listesi. False ise enable_tf
, TensorFlow modelleri içinde blocked_models
bulunur.
- blacklist_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Kullanım dışı parametresi yerine blocked_models kullanın.
- exclude_nan_labels
- bool
Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.
- verbosity
- int
Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.
- enable_tf
- bool
TensorFlow algoritmalarının etkinleştirilip etkinleştirilmeyileceği/devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur.
- model_explainability
- bool
Tüm AutoML eğitim yinelemelerinin sonunda en iyi AutoML modelinin açıklanıp açıklanmayacağı. Varsayılan değer True'dur. Daha fazla bilgi için bkz. Yorumlanabilirlik: otomatik makine öğrenmesinde model açıklamaları.
- allowed_models
- list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>
Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models
belirtilen veya kullanım dışı bırakılan modellerden çıkarılır.
Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .
- allowed_models
Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models
belirtilen veya kullanım dışı bırakılan modellerden çıkarılır.
Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .
- whitelist_models
Kullanım dışı parametresi yerine allowed_models kullanın.
- enable_onnx_compatible_models
- bool
ONNX uyumlu modelleri zorunlu tutmanın etkinleştirilip etkinleştirilmeyileceği veya devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur. Açık Sinir Ağı Değişimi (ONNX) ve Azure Machine Learning hakkında daha fazla bilgi için bu makaleye bakın.
- forecasting_parameters
- ForecastingParameters
Tüm tahmine özgü parametrelerin barındırılması için bir nesne.
- time_column_name
- str
Saat sütununun adı. Bu parametre, zaman serisini oluşturmak ve sıklığını çıkarsamak için kullanılan giriş verilerinde tarih saat sütununu belirtmek için tahminde bulunurken gereklidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- max_horizon
- int
Zaman serisi sıklığı birimlerinde istenen maksimum tahmin ufku. Varsayılan değer 1’dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Birimler, tahminde bulunanın tahmin etmesi gereken aylık, haftalık gibi eğitim verilerinizin zaman aralığını temel alır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.
Zaman zamanlarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Hedef sütundan gecikmeye neden olan geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Tahmin yapılırken, bu parametre verilerin sıklığına göre hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ve bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya bağıntılı olmadığında gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişkiyi eğitmesi için hedefi (talebi) 3 ay olumsuz olarak gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitin.
- feature_lags
- str
Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- target_rolling_window_size
- int
Hedef sütunun sıralı pencere ortalamasını oluşturmak için kullanılan geçmiş dönemlerin sayısı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi, <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.
- country_or_region
- str
Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodları olmalıdır, örneğin 'US' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- use_stl
- str
Zaman serisi hedef sütununun STL Ayrıştırmasını yapılandırın. use_stl üç değer alabilir: Hiçbiri (varsayılan) - ayrıştırma yok, 'season' - yalnızca sezon bileşeni ve season_trend oluşturma - hem mevsim hem de eğilim bileşenlerini oluşturur. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- seasonality
- int
Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik -1 olarak ayarlanırsa, çıkarsanır. use_stl ayarlanmadıysa, bu parametre kullanılmaz. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.
- short_series_handling_configuration
- str
AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.
Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.
- uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
- tuş takımı tüm kısa seriler doldurulacaktır.
- tüm kısa seriler bırakılacaktır".
- Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:
Date
numeric_value
Dize
Hedef
2020-01-01
23
green
55
En az değer sayısının dört olduğunu varsayarsak çıkış: +————+—————+———-+—–+ | Tarih | numeric_value | dize | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | yeşil | 55 | +————+—————+———-+——–+
Not: short_series_handling_configuration ve eski short_series_handling iki parametremiz vardır. Her iki parametre de ayarlandığında, bunları aşağıdaki tabloda gösterildiği gibi eşitleriz (short_series_handling_configuration ve kısaltma için short_series_handling sırasıyla handling_configuration ve işleme olarak işaretlenir).
Işleme
handling_configuration
sonuç işleme
sonuç handling_configuration
Doğru
auto
Doğru
auto
Doğru
Pad
Doğru
auto
Doğru
drop
Doğru
auto
Doğru
Hiçbiri
Yanlış
Hiçbiri
Yanlış
auto
Yanlış
Hiçbiri
Yanlış
Pad
Yanlış
Hiçbiri
Yanlış
drop
Yanlış
Hiçbiri
Yanlış
Hiçbiri
Yanlış
Hiçbiri
Tahmin sıklığı.
Tahmin yapılırken, bu parametre tahminin istendiği dönemi (örneğin, günlük, haftalık, yıllık vb.) temsil eder. Tahmin sıklığı varsayılan olarak veri kümesi sıklığıdır. İsteğe bağlı olarak veri kümesi sıklığından daha büyük (ancak daha az değil) olarak ayarlayabilirsiniz. Verileri toplayarak sonuçları tahmin sıklığında oluşturacağız. Örneğin, günlük veriler için sıklığı günlük, haftalık veya aylık olarak ayarlayabilirsiniz ancak saatlik olarak ayarlayamayabilirsiniz. Sıklığın pandas uzaklık diğer adı olması gerekir. Daha fazla bilgi için lütfen pandas belgelerine bakın: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Zaman serisi hedef sütununu kullanıcının belirtilen sıklığına uyacak şekilde toplamak için kullanılacak işlev. target_aggregation_function ayarlandıysa ancak freq parametresi ayarlanmadıysa hata oluşur. Olası hedef toplama işlevleri şunlardır: "sum", "max", "min" ve "mean".
Frekans
target_aggregation_function
Veri düzenliliği düzeltme mekanizması
Hiçbiri (Varsayılan)
Hiçbiri (Varsayılan)
Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.
Bazı Değerler
Hiçbiri (Varsayılan)
Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.
Hiçbiri (Varsayılan)
Toplama işlevi
Eksik sıklık parametresiyle ilgili hata tetiklenmiş.
Bazı Değerler
Toplama işlevi
providedaggregation işlevini kullanarak sıklık olarak toplama.
- enable_voting_ensemble
- bool
VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.
- enable_stack_ensemble
- bool
StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tır. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerinden kaçınmak için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.
- debug_log
- str
Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse , 'automl.log' kullanılır.
- training_data
- DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Deneme içinde kullanılacak eğitim verileri.
Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir.
belirtilirse training_data
parametresinin label_column_name
de belirtilmesi gerekir.
training_data
sürüm 1.0.81'de kullanıma sunulmuştur.
- validation_data
- DataFrame veya Dataset veya DatasetDefinition veya TabularDataset
Deneme içinde kullanılacak doğrulama verileri.
Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir.
belirtilirse validation_data
training_data
ve label_column_name
parametreleri belirtilmelidir.
validation_data
sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- test_data
- Dataset veya TabularDataset
Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.
Bu parametre veya test_size
parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.
Test verileri hem özellikleri hem de etiket sütununu içermelidir.
belirtilirse test_data
parametresi belirtilmelidir label_column_name
.
- test_size
- float
Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadarı. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.
Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.
ile aynı zamanda validation_size
belirtilirsetest_size
, doğrulama verileri bölünmeden önce test verileri'nden training_data
bölünür.
Örneğin, ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1
test_size=0.1
, test verileri 100 satıra sahip olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.
Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitim/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.
Bu parametre veya test_data
parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.
Etiket sütununun adı. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.
Bu parametre, validation_data
ve test_data
parametreleri için training_data
geçerlidir.
label_column_name
sürüm 1.0.81'de kullanıma sunulmuştur.
Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.
Bu parametre ve validation_data
parametreleri için training_data
geçerlidir.
weight_column_names
sürüm 1.0.81'de kullanıma sunulmuştur.
Özel çapraz doğrulama bölmesini içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmesini temsil eder.
Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data
geçerlidir.
cv_split_column_names
sürüm 1.6.0'da kullanıma sunulmuştur
cv_split_column_names
veya cv_splits_indices
kullanın.
Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
- enable_local_managed
- bool
Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.
- enable_dnn
- bool
Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tır. Ancak, varsayılan değer DNN NLP görevleri için True ve diğer tüm AutoML görevleri için False'tur.
Açıklamalar
Aşağıdaki kod, AutoMLConfig nesnesi oluşturmanın ve regresyon için deneme göndermenin temel bir örneğini gösterir:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Regresyon'da tam bir örnek mevcuttur
Tahmin için AutoMLConfig kullanma örnekleri şu not defterlerinde verilmiştir:
Tüm görev türleri için AutoMLConfig kullanma örnekleri bu otomatik ML not defterlerinde bulunabilir.
Otomatik ML arka planı için makalelere bakın:
Python'da otomatik ML denemelerini yapılandırma. Bu makalede, her görev türü için kullanılan farklı algoritmalar ve birincil ölçümler hakkında bilgi sağlanır.
Zaman serisi tahmin modelini otomatik olarak eğitin. Bu makalede, tahminde hangi oluşturucu parametrelerinin kullanıldığı ve
**kwargs
kullanıldığı hakkında bilgiler yer alır.
Otomatik makine öğrenmesi, AutoML ve denemeleriniz için eğitim/doğrulama veri bölmelerini ve çapraz doğrulamayı yapılandırmaya yönelik farklı seçenekler hakkında daha fazla bilgi için bkz. Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.
Yöntemler
as_serializable_dict |
Nesneyi sözlüğe dönüştürün. |
get_supported_dataset_languages |
ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın. |
as_serializable_dict
Nesneyi sözlüğe dönüştürün.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Parametreler
- use_gpu
gpu işleminin kullanılıp kullanılmadığını gösteren boole değeri.
Döndürülenler
{: } biçiminin sözlüğü. Dil kodu ISO 639-3 standardına uygun, lütfen https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin