ClassificationJob Třída

Konfigurace pro úlohu klasifikace automatizovaného strojového učení

Inicializace nové úlohy klasifikace Automatizovaného strojového učení

Dědičnost
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

Konstruktor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parametry

primary_metric
Optional[str]

Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).

positive_label
Optional[str]

Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)

featurization
Optional[TabularFeaturizationSettings]

Nastavení extrakce příznaků. Výchozí hodnota je Žádná.

limits
Optional[TabularLimitSettings]

Nastavení omezení. Výchozí hodnota je Žádná.

training
Optional[TrainingSettings]

Nastavení trénování. Výchozí hodnota je Žádná.

primary_metric
Optional[str]

Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).

positive_label
Optional[str]

Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)

featurization
Optional[TabularFeaturizationSettings]

featurizace. Výchozí hodnota je Žádná.

limits
Optional[TabularLimitSettings]

nastavení limitů. Výchozí hodnota je Žádná.

training
Optional[TrainingSettings]

nastavení školení. Výchozí hodnota je Žádná.

Metody

dump

Vytvoří výpis obsahu úlohy do souboru ve formátu YAML.

set_data

Definujte konfiguraci dat.

set_featurization

Definujte konfiguraci přípravy atributů.

set_limits

Nastavte limity pro úlohu.

set_training

Metoda konfigurace nastavení souvisejících s trénováním.

dump

Vytvoří výpis obsahu úlohy do souboru ve formátu YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametry

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Vyžadováno

Místní cesta nebo datový proud souboru, do které se má obsah YAML zapisovat. Pokud je dest cesta k souboru, vytvoří se nový soubor. Pokud je dest otevřený soubor, zapíše se přímo do souboru.

kwargs
dict

Další argumenty, které se mají předat serializátoru YAML.

Výjimky

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_data

Definujte konfiguraci dat.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametry

training_data
Input

Trénovací data.

target_column_name
str

Název cílového sloupce.

weight_column_name
Optional[str]

Název sloupce s váhou, výchozí hodnota je Žádná

validation_data
Optional[Input]

Ověřovací data, výchozí hodnota je Žádná.

validation_data_size
Optional[float]

Velikost ověřovacích dat, výchozí hodnota je Žádná

n_cross_validations
Optional[Union[str, int]]

n_cross_validations je výchozí hodnota Žádná.

cv_split_column_names
Optional[List[str]]

cv_split_column_names je výchozí hodnota Žádná.

test_data
Optional[Input]

Testovací data, výchozí hodnota je Žádná.

test_data_size
Optional[float]

Velikost testovacích dat, výchozí hodnota je Žádná

Výjimky

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_featurization

Definujte konfiguraci přípravy atributů.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametry

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Seznam názvů transformátorů, které se mají blokovat během extrakce příznaků, výchozí hodnota je None (Žádný).

column_name_and_types
Optional[Dict[str, str]]

Slovník názvů sloupců a typů funkcí používaných k aktualizaci účelu sloupce má výchozí hodnotu Žádný.

dataset_language
Optional[str]

Tříznakový kód ISO 639-3 pro jazyky obsažené v datové sadě. Jiné jazyky než angličtina jsou podporované jenom v případě, že používáte výpočetní prostředky s podporou GPU. Language_code "mul" by se měl použít, pokud datová sada obsahuje více jazyků. Pokud chcete najít kódy ISO 639-3 pro různé jazyky, podívejte se na https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, výchozí hodnota je Žádná.

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Slovník transformátoru a odpovídajících parametrů vlastního nastavení má výchozí hodnotu None (Žádný).

mode
Optional[str]

"off", "auto", výchozí hodnota je "auto", výchozí hodnota je None

enable_dnn_featurization
Optional[bool]

Jestli se mají zahrnout metody přípravy atributů založené na názvu DNN, výchozí hodnota je None (Žádné)

Výjimky

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_limits

Nastavte limity pro úlohu.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametry

enable_early_termination
Optional[bool]

Jestli chcete povolit předčasné ukončení, pokud se skóre nezlepšuje v krátkodobém horizontu, výchozí hodnota je None (Žádné).

Logika předčasného zastavení:

  • Prvních 20 iterací (orientačních bodů) se nezastavuje včas.

  • Při 21. iteraci se spustí okno předčasného zastavení a vyhledá early_stopping_n_iters iterací.

    (aktuálně nastaveno na hodnotu 10). To znamená, že první iterace, kde může dojít k zastavení, je 31.

  • AutoML stále plánuje 2 iterace souboru po brzkém zastavení, což může mít za následek vyšší skóre.

  • Brzké zastavení se aktivuje, pokud je absolutní hodnota vypočítaného nejlepšího skóre stejná jako v minulosti.

    early_stopping_n_iters iterací, tj. pokud nedojde k žádnému zlepšení skóre pro early_stopping_n_iters iterací.

exit_score
Optional[float]

Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadaný (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další postup. Další informace o kritériích ukončení najdete v tomto článku . Výchozí hodnota je Žádná.

max_concurrent_trials
Optional[int]

Jedná se o maximální počet paralelně spuštěných iterací. Výchozí hodnota je 1.

  • Clustery AmlCompute podporují jednu spuštěnou iteraci na uzel.

V případě několika nadřazených spuštění experimentů Automatizovaného strojového učení spuštěných paralelně v jednom clusteru AmlCompute by součet max_concurrent_trials hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů. V opačném případě budou spuštění zařazena do fronty, dokud nebudou k dispozici uzly.

  • DSVM podporuje více iterací na uzel. max_concurrent_trials By měla

musí být menší než nebo roven počtu jader na DSVM. V případě několika experimentů spuštěných paralelně na jednom počítači DSVM by součet max_concurrent_trials hodnot všech experimentů měl být menší nebo roven maximálnímu počtu uzlů.

  • Databricks – max_concurrent_trials hodnota by měla být menší než nebo rovna počtu

pracovní uzly v Databricks.

max_concurrent_trials se nevztahuje na místní spuštění. Dříve se tento parametr jmenoval concurrent_iterations.

max_cores_per_trial
Optional[int]

Maximální počet vláken, které se mají použít pro danou iteraci trénování. Přijatelné hodnoty:

  • Větší než 1 a menší nebo roven maximálnímu počtu jader na cílovém výpočetním objektu

  • Rovná se hodnotě -1, což znamená použít všechna možná jádra na iteraci na podřízený běh.

  • Výchozí hodnota se rovná 1.

max_nodes
Optional[int]

[Experimentální] Maximální počet uzlů, které se mají použít pro distribuované trénování.

  • Pro prognózování se každý model trénuje pomocí uzlů max(2, int(max_nodes / max_concurrent_trials)).

  • Pro účely klasifikace/regrese se každý model trénuje pomocí uzlů max_nodes.

Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.

max_trials
Optional[int]

Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během experimentu automatizovaného strojového učení. Pokud není zadaný, výchozí hodnota je 1 000 iterací.

timeout_minutes
Optional[int]

Maximální doba v minutách, kterou mohou všechny kombinované iterace trvat, než se experiment ukončí. Pokud není zadaný, výchozí časový limit experimentu je 6 dnů. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby výsledek chyby nebyl ve výchozím nastavení Žádný.

trial_timeout_minutes
Optional[int]

Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut, výchozí hodnota je Žádná.

Výjimky

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_training

Metoda konfigurace nastavení souvisejících s trénováním.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametry

enable_onnx_compatible_models
Optional[bool]

Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a službě Azure Machine Learning najdete v tomto článku.

enable_dnn_training
Optional[bool]

Jestli se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatizovaného strojového učení je false.

enable_model_explainability
Optional[bool]

Jestli chcete povolit vysvětlení nejlepšího modelu Automatizovaného strojového učení na konci všech iterací trénování automatizovaného strojového učení. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení. , výchozí hodnota je Žádná

enable_stack_ensemble
Optional[bool]

Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Pokud se nastavuje příznak enable_onnx_compatible_models , iterace StackEnsemble se zakáže. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě používané k přizpůsobení metaučávače. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.

enable_vote_ensemble
Optional[bool]

Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.

stack_ensemble_settings
Optional[StackEnsembleSettings]

Nastavení pro iteraci StackEnsemble, výchozí hodnota je None

ensemble_model_download_timeout
Optional[int]

Během generování modelu VotingEnsemble a StackEnsemble se stáhne více fitovaných modelů z předchozích podřízených spuštění. Nakonfigurujte tento parametr s vyšší hodnotou než 300 sekund. Pokud je potřeba více času, výchozí hodnota není žádná.

allowed_training_algorithms
Optional[List[str]]

Seznam názvů modelů pro vyhledání experimentu Pokud není zadaný, použijí se všechny modely podporované pro danou úlohu a použijí se všechny zadané v blocked_training_algorithms modelech TensorFlow nebo zastaralé modely TensorFlow, výchozí hodnota je None (Žádný).

blocked_training_algorithms
Optional[List[str]]

Seznam algoritmů, které se při experimentu mají ignorovat, výchozí hodnota je None (Žádný)

training_mode
Optional[Union[str, TabularTrainingMode]]

[Experimentální] Režim trénování, který se má použít. Možné hodnoty jsou-

  • distributed – umožňuje distribuované trénování pro podporované algoritmy.

  • non_distributed – zakáže distribuované trénování.

  • auto – v současné době je stejná jako non_distributed. V budoucnu se to může změnit.

Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.

Výjimky

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

Atributy

base_path

Základní cesta prostředku.

Návraty

Základní cesta prostředku.

Návratový typ

str

creation_context

Kontext vytvoření prostředku.

Návraty

Metadata vytvoření prostředku.

Návratový typ

featurization

Získejte nastavení tabulkové extrakce příznaků pro úlohu AutoML.

Návraty

Nastavení funkce tabulkové funkce pro úlohu AutoML

Návratový typ

id

ID prostředku.

Návraty

Globální ID prostředku, ID Azure Resource Manager (ARM).

Návratový typ

inputs

limits

Získejte tabulkové limity pro úlohu AutoML.

Návraty

Tabulkové limity pro úlohu AutoML

Návratový typ

log_files

Výstupní soubory úlohy.

Návraty

Slovník názvů protokolů a adres URL.

Návratový typ

log_verbosity

Získejte úroveň podrobností protokolu pro úlohu Automatizovaného strojového učení.

Návraty

úroveň podrobností protokolu pro úlohu Automatizovaného strojového učení

Návratový typ

<xref:LogVerbosity>

outputs

primary_metric

Primární metrika, která se má použít k optimalizaci.

Návraty

Primární metrika, která se má použít k optimalizaci.

Návratový typ

status

Stav úlohy.

Mezi běžné vrácené hodnoty patří Spuštěno, Dokončeno a Neúspěšné. Všechny možné hodnoty jsou:

  • NotStarted – jedná se o dočasný stav, ve který se objekty Run na straně klienta nacházejí před odesláním do cloudu.

  • Spuštění – Spuštění se začalo zpracovávat v cloudu. Volající má v tuto chvíli ID spuštění.

  • Zřizování – pro odeslání úlohy se vytváří výpočetní prostředky na vyžádání.

  • Příprava – Prostředí spuštění se připravuje a je v jedné ze dvou fází:

    • Sestavení image Dockeru

    • Nastavení prostředí conda

  • Zařazeno do fronty – Úloha je zařazená do fronty v cílovém výpočetním objektu. Například ve službě BatchAI je úloha ve frontě.

    při čekání na připravenost všech požadovaných uzlů.

  • Spuštěno – Úloha se začala spouštět na cílovém výpočetním objektu.

  • Finalizace – Spuštění uživatelského kódu bylo dokončeno a spuštění je ve fázích následného zpracování.

  • CancelRequested – pro úlohu bylo požádáno o zrušení.

  • Dokončeno – Spuštění bylo úspěšně dokončeno. To zahrnuje spuštění uživatelského kódu i spuštění.

    fáze následného zpracování.

  • Neúspěšné – spuštění se nezdařilo. Vlastnost Error při spuštění obvykle obsahuje podrobné informace o tom, proč tomu tak je.

  • Zrušeno – následuje žádost o zrušení a indikuje, že spuštění se teď úspěšně zrušilo.

  • Nereaguje – U spuštění s povolenými prezenčními signály se v nedávné době neodeslal žádný prezenční signál.

Návraty

Stav úlohy.

Návratový typ

studio_url

Koncový bod studia Azure ML.

Návraty

Adresa URL stránky s podrobnostmi úlohy

Návratový typ

task_type

Získejte typ úkolu.

Návraty

Typ úlohy, která se má spustit. Mezi možné hodnoty patří: "classification", "regression", "forecasting" (prognózování).

Návratový typ

str

test_data

Získání testovacích dat

Návraty

Testování vstupu dat

Návratový typ

training

Nastavení trénování pro úlohu klasifikace Automatizovaného strojového učení

Návraty

Nastavení trénování používaná pro úlohu klasifikace AutoML.

Návratový typ

<xref:ClassificationTrainingSettings>

training_data

Získejte trénovací data.

Návraty

Trénování vstupu dat

Návratový typ

type

Typ úlohy.

Návraty

Typ úlohy.

Návratový typ

validation_data

Získání ověřovacích dat

Návraty

Ověřovací vstup dat

Návratový typ