AutoMLConfig Osztály
Egy automatizált gépi tanulási kísérlet Azure Machine Learningben való elküldéséhez szükséges konfigurációt jelöli.
Ez a konfigurációs objektum tartalmazza és megőrzi a kísérletfuttatás konfigurálásához szükséges paramétereket, valamint a futtatáskor használandó betanítási adatokat. A beállítások kiválasztásával kapcsolatos útmutatásért lásd: https://aka.ms/AutoMLConfig.
AutoMLConfig létrehozása.
- Öröklődés
-
builtins.objectAutoMLConfig
Konstruktor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Paraméterek
Name | Description |
---|---|
task
Kötelező
|
A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően. |
path
Kötelező
|
Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata. |
iterations
Kötelező
|
Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció. |
primary_metric
Kötelező
|
Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják. |
positive_label
Kötelező
|
A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:
A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit. |
compute_target
Kötelező
|
Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote információ a számítási célokról. |
spark_context
Kötelező
|
<xref:SparkContext>
A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható. |
X
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name. |
y
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name. |
sample_weight
Kötelező
|
Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak. A paraméter megadásakor adja meg ezt a paramétert |
X_valid
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók. Ha meg van adva, akkor |
y_valid
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék. Mindkettőt |
sample_weight_valid
Kötelező
|
A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával. A paraméter megadásakor adja meg ezt a paramétert |
cv_splits_indices
Kötelező
|
Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe. A meglévő adatok érvényesítési adatokként való megadásához használja a következőt |
validation_size
Kötelező
|
A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat. Itt adhatja meg További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
n_cross_validations
Kötelező
|
Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva. Itt adhatja meg További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
y_min
Kötelező
|
Regressziós kísérlet minimális értéke y. A és |
y_max
Kötelező
|
Egy regressziós kísérlet maximális értéke y. A és |
num_classes
Kötelező
|
A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva. |
featurization
Kötelező
|
str vagy
FeaturizationConfig
"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be. A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:
További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál. A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása. Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be. |
max_cores_per_iteration
Kötelező
|
Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:
|
max_concurrent_iterations
Kötelező
|
A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.
|
iteration_timeout_minutes
Kötelező
|
Az egyes iterációk futásának maximális időtartama percekben, mielőtt befejeződik. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ. |
mem_in_mb
Kötelező
|
Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ. |
enforce_time_on_windows
Kötelező
|
A modell betanítására vonatkozó időkorlát kényszerítése a Windows minden iterációjában. Az alapértelmezett érték az Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg az erőforráskorlátok Windows rendszeren történő engedélyezésének dokumentációját. |
experiment_timeout_hours
Kötelező
|
A kísérlet befejeződése előtt az összes iteráció által együtt töltött órák maximális száma. Lehet egy 0,25-hez hasonló decimális érték, amely 15 percet jelöl. Ha nincs megadva, a kísérlet alapértelmezett időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem nagyobb 10 000 000-nél (sorok száma oszlopban) vagy hibaeredménynél. |
experiment_exit_score
Kötelező
|
A kísérlet célpontszáma. A kísérlet a pontszám elérése után leáll. Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem halad tovább. A kilépési feltételekről ebben a cikkben talál további információt. |
enable_early_stopping
Kötelező
|
Lehetővé teszi-e a korai megszüntetést, ha a pontszám rövid távon nem javul. Az alapértelmezett érték az Igaz. Korai leállítási logika:
|
blocked_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
A kísérletben figyelmen kívül hagyandó algoritmusok listája. Ha |
blacklist_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
Elavult paraméter helyett használja a blocked_models. |
exclude_nan_labels
Kötelező
|
Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték az Igaz. |
verbosity
Kötelező
|
A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy 20. Az elfogadható értékek a Python naplózási kódtárában vannak meghatározva. |
enable_tf
Kötelező
|
Elavult paraméter a Tensorflow-algoritmusok engedélyezéséhez/letiltásához. Az alapértelmezett érték a Hamis. |
model_explainability
Kötelező
|
Engedélyezi-e a legjobb AutoML-modell magyarázatát az autoML betanítási iterációinak végén. Az alapértelmezett érték az Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban. |
allowed_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
Modellnevek listája egy kísérlet kereséséhez. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben |
whitelist_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
Elavult paraméter helyett használja a allowed_models. |
enable_onnx_compatible_models
Kötelező
|
Engedélyezi vagy letiltja az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték a Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatásról ebben a cikkben talál további információt. |
forecasting_parameters
Kötelező
|
Egy ForecastingParameters objektum, amely az összes előrejelzési specifikus paramétert tárolja. |
time_column_name
Kötelező
|
Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
max_horizon
Kötelező
|
A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1. Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
grain_column_names
Kötelező
|
Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
target_lags
Kötelező
|
A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters. Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása. |
feature_lags
Kötelező
|
A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
target_rolling_window_size
Kötelező
|
A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters. Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor. |
country_or_region
Kötelező
|
Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódnak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
use_stl
Kötelező
|
Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
seasonality
Kötelező
|
Idősor szezonalitásának beállítása. Ha a szezonalitás "auto" értékre van állítva, akkor a rendszer arra következtet. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
short_series_handling_configuration
Kötelező
|
A paraméter határozza meg, hogy az AutoML hogyan kezelje a rövid idősorokat. Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.
Date numeric_value Karakterlánc Cél 2020-01-01 23 zöld 55 A kimenet minimális értékeket feltételezve négy: Date numeric_value Karakterlánc Cél 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 zöld 55 Megjegyzés: Két paraméterünk short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidséghez handling_configuration és kezelésként vannak megjelölve). Kezelése handling_configuration eredményként kapott kezelés eredményként kapott handling_configuration Igaz auto Igaz auto Igaz Pad Igaz auto Igaz drop Igaz auto Igaz None Hamis None Hamis auto Hamis None Hamis Pad Hamis None Hamis drop Hamis None Hamis None Hamis None |
freq
Kötelező
|
Előrejelzés gyakorisága. Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést kívánja, például napi, heti, éves stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja, hogy a gyakoriság napi, heti vagy havi legyen, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Kötelező
|
Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba jelentkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean". Freq target_aggregation_function Adatszűrési mechanizmus Nincs (alapértelmezett) Nincs (alapértelmezett) Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik. Valamilyen érték Nincs (alapértelmezett) Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor a rendszer eltávolítja ezeket a pontokat, ellenkező esetben a hiba jelentkezik. Nincs (alapértelmezett) Aggregációs függvény A hiányzó gyakorisági paraméterekkel kapcsolatos hiba merült fel. Valamilyen érték Aggregációs függvény Összesítés gyakoriságra a megadottaggregációs függvény használatával. |
enable_voting_ensemble
Kötelező
|
Engedélyezze vagy tiltsa le a VotingEnsemble iterációt. Az alapértelmezett érték Igaz. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja. |
enable_stack_ensemble
Kötelező
|
A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Az időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. Az együttesekkel kapcsolatos további információkért lásd: Együttes konfigurációja. |
debug_log
Kötelező
|
A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja. |
training_data
Kötelező
|
A kísérletben használandó betanítási adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha
|
validation_data
Kötelező
|
A kísérletben használandó érvényesítési adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha
|
test_data
Kötelező
|
Dataset vagy
TabularDataset
A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat. Ha ez a paraméter vagy a |
test_size
Kötelező
|
A modelltesztelési funkció tesztadatkészletek vagy tesztadatok felosztása egy előzetes verziójú funkció, amely bármikor változhat. A betanítási adatok hány része legyen visszatartva egy tesztfuttatás tesztadataihoz, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket kapni, és az előrejelzések alapján kiszámítja a metrikákat. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat.
Ha Regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását. Ha ez a paraméter vagy a |
label_column_name
Kötelező
|
A címkeoszlop neve. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve. Ez a paraméter a és |
weight_column_name
Kötelező
|
A mintasúly oszlop neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, így az adatok sorai felfelé vagy lefelé lesznek súlyozottak. Ha a bemeneti adatok pandasból származnak. Az oszlopnevekkel nem rendelkező DataFrame helyett az oszlopindexek használhatók egész számként kifejezve. Ez a paraméter a és |
cv_split_column_names
Kötelező
|
Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az önéletrajz felosztási oszlopai egy cv felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez. Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható Használja a További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
enable_local_managed
Kötelező
|
Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők. |
enable_dnn
Kötelező
|
DNN-alapú modellek felvétele a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban A DNN NLP-tevékenységek esetében igaz, és az összes többi AutoML-tevékenység esetében hamis. |
task
Kötelező
|
A futtatandó feladat típusa. Az értékek lehetnek "besorolás", "regresszió" vagy "előrejelzés" a megoldandó automatizált gépi tanulási probléma típusától függően. |
path
Kötelező
|
Az Azure Machine Learning projektmappájának teljes elérési útja. Ha nincs megadva, az alapértelmezett érték az aktuális könyvtár vagy a "." használata. |
iterations
Kötelező
|
Az automatizált gépi tanulási kísérlet során tesztelendő különböző algoritmusok és paraméterkombinációk teljes száma. Ha nincs megadva, az alapértelmezett érték 1000 iteráció. |
primary_metric
Kötelező
|
Az automatizált gépi tanulás által a modell kiválasztására optimalizált metrika. Az automatizált gépi tanulás több metrikát gyűjt, mint amennyit optimalizálni tud. A használatával get_primary_metrics lekérheti az adott feladathoz tartozó érvényes metrikák listáját. A metrikák kiszámításával kapcsolatos további információkért lásd: https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Ha nincs megadva, a rendszer pontosságot használ a besorolási feladatokhoz, a normalizált gyökér középérték négyzetes, az előrejelzési és regressziós feladatokhoz, a pontosságot a képbesoroláshoz és a kép több címkés besorolásához, az átlagos pontosságot pedig a képobjektumok észleléséhez használják. |
positive_label
Kötelező
|
A pozitív osztálycímke, amellyel az Automated Machine Learning bináris metrikákat fog kiszámítani. A bináris metrikák kiszámítása két feltétel alapján történik a besorolási feladatokhoz:
A besorolással kapcsolatos további információkért tekintse meg a besorolási forgatókönyvek kivételi metrikáit. |
compute_target
Kötelező
|
Az Azure Machine Learning számítási cél az automatizált gépi tanulási kísérlet futtatásához. További https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote információ a számítási célokról. |
spark_context
Kötelező
|
<xref:SparkContext>
A Spark-környezet. Csak azure Databricks-/Spark-környezetben való használat esetén alkalmazható. |
X
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó betanítási funkciók. Ez a beállítás elavult. Használja inkább training_data és label_column_name. |
y
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó betanítási címkék. Ez az az érték, amelyet a modell előre jelez. Ez a beállítás elavult. Használja inkább training_data és label_column_name. |
sample_weight
Kötelező
|
Az egyes betanítási mintáknak az illesztési folyamatok futtatásakor adott súlyának minden sornak meg kell felelnie egy X és y adatsornak. A paraméter megadásakor adja meg ezt a paramétert |
X_valid
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési funkciók. Ha meg van adva, akkor |
y_valid
Kötelező
|
A folyamatok kísérlet közbeni illesztésekor használandó érvényesítési címkék. Mindkettőt |
sample_weight_valid
Kötelező
|
A pontozási folyamatok futtatásakor az egyes ellenőrzési mintáknak adott súlynak meg kell egyeznie az X és y adatok sorával. A paraméter megadásakor adja meg ezt a paramétert |
cv_splits_indices
Kötelező
|
Indexek, ahol fel kell osztani a betanítási adatokat keresztérvényesítés céljából. Minden sor külön kereszthajlítású, és minden keresztcseppen belül 2 numpy tömböt biztosít, az első a betanítási adatokhoz használandó minták indexeivel, a második pedig az ellenőrzési adatokhoz használandó indexekkel. azaz [[t1, v1], [t2, v2], ...] ahol a t1 az első kereszthajlítás betanítási indexe, a v1 pedig az első kereszthajtás érvényesítési indexe. Ez a beállítás akkor támogatott, ha az adatokat külön Szolgáltatások adatkészletként és Címke oszlopként adja át. A meglévő adatok érvényesítési adatokként való megadásához használja a következőt |
validation_size
Kötelező
|
A felhasználói érvényesítési adatok megadásakor az ellenőrzéshez visszatartandó adatok hány része van megadva. Ennek 0,0 és 1,0 közöttinek kell lennie, nem beleértve azokat. Itt adhatja meg További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
n_cross_validations
Kötelező
|
Hány keresztérvényesítést kell végrehajtani, ha a felhasználói érvényesítési adatok nincsenek megadva. Itt adhatja meg További információ: Adatfelosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
y_min
Kötelező
|
Regressziós kísérlet minimális értéke y. A és |
y_max
Kötelező
|
Egy regressziós kísérlet maximális értéke y. A és |
num_classes
Kötelező
|
A besorolási kísérlet címkeadataiban szereplő osztályok száma. Ez a beállítás elavult. Ehelyett ez az érték az adatokból lesz kiszámítva. |
featurization
Kötelező
|
str vagy
FeaturizationConfig
"auto" / "off" / FeaturizationConfig Annak jelzése, hogy a featurizálási lépést automatikusan kell-e elvégezni, vagy hogy a testre szabott featurizációt kell-e használni. Megjegyzés: Ha a bemeneti adatok ritkán fordulnak elő, a featurizáció nem kapcsolható be. A rendszer automatikusan észleli az oszloptípust. Az észlelt oszloptípus alapján az előfeldolgozás/featurizálás az alábbiak szerint történik:
További részleteket az Automatizált gépi tanulási kísérletek konfigurálása Pythonban című cikkben talál. A featurizálási lépés testreszabásához adjon meg egy FeaturizationConfig objektumot. A testre szabott featurizálás jelenleg támogatja a transzformátorok blokkolását, az oszlop rendeltetésének frissítését, a transzformátorparaméterek szerkesztését és az oszlopok elvetésének lehetőségét. További információ: Szolgáltatástervezés testreszabása. Megjegyzés: Az időbélyegek funkcióit külön kezeli a rendszer, ha a tevékenységtípust a paramétertől független előrejelzésre állítja be. |
max_cores_per_iteration
Kötelező
|
Az adott betanítási iterációhoz használandó szálak maximális száma. Elfogadható értékek:
|
max_concurrent_iterations
Kötelező
|
A párhuzamosan végrehajtandó iterációk maximális számát jelöli. Az alapértelmezett érték az 1.
|
iteration_timeout_minutes
Kötelező
|
Az egyes iterációk legfeljebb percek alatt futtathatók a leállása előtt. Ha nincs megadva, a rendszer 1 hónap vagy 43200 perc értéket használ. |
mem_in_mb
Kötelező
|
Az egyes iterációk által futtatható maximális memóriahasználat a leállása előtt. Ha nincs megadva, a rendszer 1 PB vagy 1073741824 MB értéket használ. |
enforce_time_on_windows
Kötelező
|
A modell betanítására vonatkozó időkorlát kikényszerítése a Windows minden iterációjában. Az alapértelmezett érték Igaz. Ha Python-szkriptfájlból (.py) fut, tekintse meg a Windows erőforráskorlátainak engedélyezéséről szóló dokumentációt. |
experiment_timeout_hours
Kötelező
|
A kísérlet befejeződése előtt az összes iteráció összevonásának maximális időtartama órákon belül. Lehet egy 0,25-ös decimális érték, amely 15 percet jelöl. Ha nincs megadva, az alapértelmezett kísérlet időtúllépése 6 nap. Ha 1 óránál rövidebb vagy egyenlő időtúllépést szeretne megadni, győződjön meg arról, hogy az adathalmaz mérete nem haladja meg a 10 000 000 000-et (soridő oszlop) vagy a hibaeredményeket. |
experiment_exit_score
Kötelező
|
A kísérlet célértéke. A kísérlet a pontszám elérése után leáll.
Ha nincs megadva (nincs feltétel), a kísérlet addig fut, amíg az elsődleges metrika nem végez további előrehaladást. A kilépési feltételekről további információt a >> |
enable_early_stopping
Kötelező
|
A korai megszüntetés engedélyezése, ha a pontszám rövid távon nem javul. Az alapértelmezett érték Igaz. Korai leállítási logika:
|
blocked_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
A kísérlethez figyelmen kívül hagyandó algoritmusok listája. Ha |
blacklist_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
Elavult paraméter, használja inkább a blocked_models. |
exclude_nan_labels
Kötelező
|
Kizárja-e a naN-értékeket tartalmazó sorokat a címkében. Az alapértelmezett érték Igaz. |
verbosity
Kötelező
|
A naplófájlba való írás részletességi szintje. Az alapértelmezett érték az INFO vagy a 20. Az elfogadható értékek a Python naplózási kódtárában vannak definiálva. |
enable_tf
Kötelező
|
A TensorFlow-algoritmusok engedélyezése/letiltása. Az alapértelmezett érték Hamis. |
model_explainability
Kötelező
|
A legjobb AutoML-modell magyarázatának engedélyezése az AutoML-betanítási iterációk végén. Az alapértelmezett érték Igaz. További információ : Értelmezhetőség: modellmagyarázatok az automatizált gépi tanulásban. |
allowed_models
Kötelező
|
list(str) vagy
list(Classification) <xref:for classification task> vagy
list(Regression) <xref:for regression task> vagy
list(Forecasting) <xref:for forecasting task>
A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben |
allowed_models
Kötelező
|
A kísérlet kereséséhez használt modellnevek listája. Ha nincs megadva, akkor a rendszer a tevékenységhez támogatott összes modellt használja a TensorFlow-modellekben |
whitelist_models
Kötelező
|
Elavult paraméter, használja inkább a allowed_models. |
enable_onnx_compatible_models
Kötelező
|
Engedélyezze vagy tiltsa le az ONNX-kompatibilis modellek kényszerítését. Az alapértelmezett érték Hamis. Az Open Neural Network Exchange (ONNX) és az Azure Machine Learning szolgáltatással kapcsolatos további információkért lásd ezt a cikket. |
forecasting_parameters
Kötelező
|
Az összes előrejelzési paraméter tárolására szolgáló objektum. |
time_column_name
Kötelező
|
Az időoszlop neve. Ez a paraméter szükséges az előrejelzéshez az idősor létrehozásához és gyakoriságának meghatározásához használt bemeneti adatok datetime oszlopának megadásához. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
max_horizon
Kötelező
|
A kívánt maximális előrejelzési horizont idősorozat-gyakoriság egységekben. Az alapértelmezett érték az 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters. Az egységek a betanítási adatok időintervallumán alapulnak, például havonta, hetente, amelyet az előrejelzőnek előre kell jeleznie. A tevékenységtípus előrejelzése esetén erre a paraméterre van szükség. További információ az előrejelzési paraméterek beállításáról: Idősoros előrejelzési modell automatikus betanítása. |
grain_column_names
Kötelező
|
Az idősorok csoportosításához használt oszlopok neve. Több adatsor létrehozására is használható. Ha a gabona nincs definiálva, a rendszer azt feltételezi, hogy az adathalmaz egy idősor. Ezt a paramétert a tevékenységtípus-előrejelzéshez használjuk. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
target_lags
Kötelező
|
A céloszloptól eltúlzott időszakok száma. Az alapértelmezett érték 1. Ez a beállítás elavult. Használja inkább a forecasting_parameters. Előrejelzéskor ez a paraméter az adatok gyakorisága alapján a célértékek késéséhez használt sorok számát jelöli. Ez listaként vagy egyetlen egész számként jelenik meg. Késést akkor kell használni, ha a független változók és a függő változók közötti kapcsolat alapértelmezés szerint nem egyezik vagy nem egyezik. Ha például egy termék keresletét szeretné előrejelezni, a kereslet bármely hónapban függhet az adott áruk 3 hónappal korábbi árától. Ebben a példában érdemes lehet 3 hónappal negatívan lekésni a célt (keresletet), hogy a modell betanítást használjon a megfelelő kapcsolatra. További információ: Idősorozat-előrejelzési modell automatikus betanítása. |
feature_lags
Kötelező
|
A numerikus jellemzők késéseinek generálására szolgáló jelző. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
target_rolling_window_size
Kötelező
|
A céloszlop gördülőablak-átlagának létrehozásához használt múltbeli időszakok száma. Ez a beállítás elavult. Használja inkább a forecasting_parameters. Előrejelzéskor ez a paraméter n előzményidőszakot jelöl az előrejelzett értékek létrehozásához, <= betanítási készlet mérete. Ha nincs megadva, n a betanítási csoport teljes mérete. Adja meg ezt a paramétert, ha csak bizonyos mennyiségű előzményt szeretne figyelembe venni a modell betanításakor. |
country_or_region
Kötelező
|
Az ünnepi szolgáltatások létrehozásához használt ország/régió. Ezeknek iso 3166 kétbetűs ország-/régiókódoknak kell lenniük, például "US" vagy "GB". Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
use_stl
Kötelező
|
Konfigurálja az idősor céloszlopának STL-felbontását. use_stl három értéket vehet fel: Nincs (alapértelmezett) – nincs stl-felbontás, "szezon" – csak szezonösszetevőt és season_trend generál, valamint szezon- és trendösszetevőket is. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
seasonality
Kötelező
|
Idősor szezonalitásának beállítása. Ha a szezonalitás -1 értékre van állítva, a rendszer a következőt fogja levonni. Ha use_stl nincs beállítva, a rendszer nem használja ezt a paramétert. Ez a beállítás elavult. Használja inkább a forecasting_parameters. |
short_series_handling_configuration
Kötelező
|
Az a paraméter, amely meghatározza, hogy az AutoML hogyan kezelje a rövid idősorokat. Lehetséges értékek: "auto" (alapértelmezett), "pad", "drop" és None.
Date numeric_value Karakterlánc Cél 2020-01-01 23 zöld 55 Kimenet, ha az értékek minimális száma négy: +————+—————+———-+—–+ | Dátum | numeric_value | sztring | cél | +============+===============+==========+========+ | 2019.12.29. | 0 | NA | 55.1 . +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 . +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 . +————+—————+———-+——–+ | 2020.01.01. | 23 | zöld | 55 | +————+—————+———-+——–+ Megjegyzés: Két paraméterünk van short_series_handling_configuration és örökölt short_series_handling. Ha mindkét paraméter be van állítva, szinkronizáljuk őket az alábbi táblázatban látható módon (short_series_handling_configuration és short_series_handling a rövidség kedvéért handling_configuration és kezelésként vannak megjelölve). Kezelése handling_configuration eredményként kapott kezelés eredményként kapott handling_configuration Igaz auto Igaz auto Igaz Pad Igaz auto Igaz drop Igaz auto Igaz None Hamis None Hamis auto Hamis None Hamis Pad Hamis None Hamis drop Hamis None Hamis None Hamis None |
freq
Kötelező
|
Előrejelzés gyakorisága. Előrejelzéskor ez a paraméter azt az időszakot jelöli, amellyel az előrejelzést szeretné elérni, például naponta, hetente, évente stb. Az előrejelzés gyakorisága alapértelmezés szerint az adathalmaz gyakorisága. Igény szerint nagyobb (de nem kisebb) értékre állíthatja, mint az adathalmaz gyakorisága. Összesítjük az adatokat, és előrejelzési gyakorisággal generáljuk az eredményeket. A napi adatok esetében például beállíthatja a gyakoriságot napi, heti vagy havi értékre, de nem óránként. A gyakoriságnak pandas offset aliasnak kell lennie. További információért tekintse meg a pandas dokumentációját: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Kötelező
|
Az idősor céloszlopának összesítéséhez használandó függvény, hogy megfeleljen a felhasználó által megadott gyakoriságnak. Ha a target_aggregation_function be van állítva, de a freq paraméter nincs beállítva, a hiba keletkezik. A lehetséges célösszesítési függvények a következők: "sum", "max", "min" és "mean". Freq target_aggregation_function Adatszűrési mechanizmus Nincs (alapértelmezett) Nincs (alapértelmezett) Az összesítés nincs alkalmazva. Ha az érvényes gyakoriság nem határozható meg, a hiba jelentkezik. Néhány érték Nincs (alapértelmezett) Az összesítés nincs alkalmazva. Ha a megadott frekvenciarácsnak megfelelő adatpontok száma kisebb, akkor ezek a pontok 90%-a törlődik, ellenkező esetben a hiba jelentkezik. Nincs (alapértelmezett) Aggregációs függvény A hiányzó gyakorisági paraméterekkel kapcsolatos hiba lépett fel. Néhány érték Aggregációs függvény Összesítés gyakoriságra a providedaggregation függvénnyel. |
enable_voting_ensemble
Kötelező
|
A VotingEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték az Igaz. További információ az együttesekről: Együttes konfigurációja. |
enable_stack_ensemble
Kötelező
|
A StackEnsemble iteráció engedélyezése/letiltása. Az alapértelmezett érték a Nincs. Ha enable_onnx_compatible_models jelző van beállítva, a StackEnsemble iteráció le lesz tiltva. Hasonlóképpen, az Időzített feladatok esetében a StackEnsemble iteráció alapértelmezés szerint le lesz tiltva, hogy elkerülje a túlillesztés kockázatát a metatanuló illesztéséhez használt kis betanítási készlet miatt. További információ az együttesekről: Együttes konfigurációja. |
debug_log
Kötelező
|
A hibakeresési információk írásához szükséges naplófájl. Ha nincs megadva, a rendszer az "automl.log" értéket használja. |
training_data
Kötelező
|
A kísérletben használandó betanítási adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha
|
validation_data
Kötelező
|
A kísérletben használandó érvényesítési adatok.
Tartalmaznia kell a betanítási funkciókat és a címkeoszlopot is (opcionálisan egy minta súlyozási oszlopot).
Ha
|
test_data
Kötelező
|
Dataset vagy
TabularDataset
A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A tesztfuttatáshoz használandó tesztadatok, amelyek automatikusan elindulnak a modell betanítása után. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat. Ha ez a paraméter vagy a |
test_size
Kötelező
|
A tesztelési adatkészleteket vagy tesztadat-felosztásokat használó Modellteszt szolgáltatás előzetes verziójú funkció, amely bármikor változhat. A modell betanítása után automatikusan elinduló tesztfuttatáshoz szükséges betanítási adatok hány része lesz visszatartva a tesztadatokhoz. A tesztfuttatás a legjobb modellel fog előrejelzéseket lekérni, és az előrejelzések alapján kiszámítja a metrikákat. Ennek 0,0 és 1,0 közöttinek kell lennie, nem inkluzívnak.
Ha A regresszióalapú feladatokhoz véletlenszerű mintavételezést használunk. Besorolási feladatokhoz rétegzett mintavételezést használunk. Az előrejelzés jelenleg nem támogatja a tesztadatkészletek betanítási/tesztelési felosztással történő megadását. Ha ez a paraméter vagy a |
label_column_name
Kötelező
|
A címkeoszlop neve. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve. Ez a paraméter a és |
weight_column_name
Kötelező
|
A minta súlyozási oszlopának neve. Az automatizált gépi tanulás bemenetként támogatja a súlyozott oszlopokat, ami az adatok sorainak súlyozását okozza. Ha a bemeneti adatok pandas-ból származnak. A DataFrame nem rendelkezik oszlopnevekkel, az oszlopindexek használhatók egész számként kifejezve. Ez a paraméter a és |
cv_split_column_names
Kötelező
|
Az egyéni keresztérvényesítési felosztást tartalmazó oszlopok nevének listája. Az egyes CV felosztási oszlopok egy CV-felosztást jelölnek, ahol az egyes sorok 1-et jelölnek betanításra, vagy 0-t az ellenőrzéshez. Ez a paraméter egyéni keresztérvényesítési célokra alkalmazható Használja a További információ: Adatmegosztások és keresztérvényesítés konfigurálása automatizált gépi tanulásban. |
enable_local_managed
Kötelező
|
Letiltott paraméter. A helyi felügyelt futtatások jelenleg nem engedélyezhetők. |
enable_dnn
Kötelező
|
DNN-alapú modellek belefoglalása a modell kiválasztása során. Az init alapértelmezett értéke Nincs. Az alapértelmezett érték azonban igaz a DNN NLP-feladatok esetében, és az összes többi AutoML-tevékenység esetén hamis. |
Megjegyzések
Az alábbi kód egy egyszerű példát mutat be egy AutoMLConfig-objektum létrehozására és egy regressziós kísérlet elküldésére:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Teljes minta érhető el a regressziónál
Az AutoMLConfig előrejelzéshez való használatát az alábbi jegyzetfüzetek szemléltetik:
Az AutoMLConfig minden feladattípushoz való használatára példákat találhat ezekben az automatizált gépi tanulási jegyzetfüzetekben.
Az automatizált gépi tanulás hátteréről a következő cikkekben olvashat:
Automatizált gépi tanulási kísérletek konfigurálása Pythonban. Ebben a cikkben az egyes tevékenységtípusokhoz használt különböző algoritmusokról és elsődleges metrikákról olvashat.
Idősoros előrejelzési modell automatikus betanítása. Ebben a cikkben információkat talál arról, hogy mely konstruktorparamétereket használják
**kwargs
az előrejelzéshez.
Az automatikus gépi tanulás, az AutoML és a kísérletek betanítási/érvényesítési adatok felosztásának és keresztérvényesítésének konfigurálásával kapcsolatos további információkért lásd: Adatfelosztások és keresztérvényesítés konfigurálása az automatizált gépi tanulásban.
Metódusok
as_serializable_dict |
Konvertálja az objektumot szótárlá. |
get_supported_dataset_languages |
Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban. |
as_serializable_dict
Konvertálja az objektumot szótárlá.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Szerezze be a támogatott nyelveket és a hozzájuk tartozó nyelvkódokat az ISO 639-3-ban.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Paraméterek
Name | Description |
---|---|
cls
Kötelező
|
A osztályobjektuma AutoMLConfig. |
use_gpu
Kötelező
|
logikai érték, amely azt jelzi, hogy gpu-számítás van-e használatban. |
Válaszok
Típus | Description |
---|---|
a(z) {: } formátumú szótár. A nyelvi kód megfelel az ISO 639-3 szabványnak. Lásd: https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |