ClassificationJob Třída

Reference

Konfigurace pro úlohu klasifikace automatizovaného strojového učení

Inicializace nové úlohy klasifikace Automatizovaného strojového učení

Dědičnost: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

Konstruktor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parametry

primary_metric: Optional[str]

Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).

positive_label: Optional[str]

Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)

featurization: Optional[TabularFeaturizationSettings]

Nastavení extrakce příznaků. Výchozí hodnota je Žádná.

limits: Optional[TabularLimitSettings]

Nastavení omezení. Výchozí hodnota je Žádná.

training: Optional[TrainingSettings]

Nastavení trénování. Výchozí hodnota je Žádná.

primary_metric: Optional[str]

Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).

positive_label: Optional[str]

Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)

featurization: Optional[TabularFeaturizationSettings]

featurizace. Výchozí hodnota je Žádná.

limits: Optional[TabularLimitSettings]

nastavení limitů. Výchozí hodnota je Žádná.

training: Optional[TrainingSettings]

nastavení školení. Výchozí hodnota je Žádná.

Metody

dump	Vytvoří výpis obsahu úlohy do souboru ve formátu YAML.
set_data	Definujte konfiguraci dat.
set_featurization	Definujte konfiguraci přípravy atributů.
set_limits	Nastavte limity pro úlohu.
set_training	Metoda konfigurace nastavení souvisejících s trénováním.

dump

Vytvoří výpis obsahu úlohy do souboru ve formátu YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametry

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Vyžadováno

Místní cesta nebo datový proud souboru, do které se má obsah YAML zapisovat. Pokud je dest cesta k souboru, vytvoří se nový soubor. Pokud je dest otevřený soubor, zapíše se přímo do souboru.

kwargs: dict

Další argumenty, které se mají předat serializátoru YAML.

Výjimky

FileExistsError

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

IOError

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_data

Definujte konfiguraci dat.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametry

training_data: Input

Trénovací data.

target_column_name: str

Název cílového sloupce.

weight_column_name: Optional[str]

Název sloupce s váhou, výchozí hodnota je Žádná

validation_data: Optional[Input]

Ověřovací data, výchozí hodnota je Žádná.

validation_data_size: Optional[float]

Velikost ověřovacích dat, výchozí hodnota je Žádná

n_cross_validations: Optional[Union[str, int]]

n_cross_validations je výchozí hodnota Žádná.

cv_split_column_names: Optional[List[str]]

cv_split_column_names je výchozí hodnota Žádná.

test_data: Optional[Input]

Testovací data, výchozí hodnota je Žádná.

test_data_size: Optional[float]

Velikost testovacích dat, výchozí hodnota je Žádná

Výjimky

FileExistsError

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

IOError

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_featurization

Definujte konfiguraci přípravy atributů.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametry

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Seznam názvů transformátorů, které se mají blokovat během extrakce příznaků, výchozí hodnota je None (Žádný).

column_name_and_types: Optional[Dict[str, str]]

Slovník názvů sloupců a typů funkcí používaných k aktualizaci účelu sloupce má výchozí hodnotu Žádný.

dataset_language: Optional[str]

Tříznakový kód ISO 639-3 pro jazyky obsažené v datové sadě. Jiné jazyky než angličtina jsou podporované jenom v případě, že používáte výpočetní prostředky s podporou GPU. Language_code "mul" by se měl použít, pokud datová sada obsahuje více jazyků. Pokud chcete najít kódy ISO 639-3 pro různé jazyky, podívejte se na https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, výchozí hodnota je Žádná.

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Slovník transformátoru a odpovídajících parametrů vlastního nastavení má výchozí hodnotu None (Žádný).

mode: Optional[str]

"off", "auto", výchozí hodnota je "auto", výchozí hodnota je None

enable_dnn_featurization: Optional[bool]

Jestli se mají zahrnout metody přípravy atributů založené na názvu DNN, výchozí hodnota je None (Žádné)

Výjimky

FileExistsError

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

IOError

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_limits

Nastavte limity pro úlohu.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametry

enable_early_termination: Optional[bool]

Jestli chcete povolit předčasné ukončení, pokud se skóre nezlepšuje v krátkodobém horizontu, výchozí hodnota je None (Žádné).

Logika předčasného zastavení:

Prvních 20 iterací (orientačních bodů) se nezastavuje včas.
Při 21. iteraci se spustí okno předčasného zastavení a vyhledá early_stopping_n_iters iterací.

(aktuálně nastaveno na hodnotu 10). To znamená, že první iterace, kde může dojít k zastavení, je 31.
AutoML stále plánuje 2 iterace souboru po brzkém zastavení, což může mít za následek vyšší skóre.
Brzké zastavení se aktivuje, pokud je absolutní hodnota vypočítaného nejlepšího skóre stejná jako v minulosti.

early_stopping_n_iters iterací, tj. pokud nedojde k žádnému zlepšení skóre pro early_stopping_n_iters iterací.

exit_score: Optional[float]

Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadaný (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další postup. Další informace o kritériích ukončení najdete v tomto článku . Výchozí hodnota je Žádná.

max_concurrent_trials: Optional[int]

Jedná se o maximální počet paralelně spuštěných iterací. Výchozí hodnota je 1.

Clustery AmlCompute podporují jednu spuštěnou iteraci na uzel.

V případě několika nadřazených spuštění experimentů Automatizovaného strojového učení spuštěných paralelně v jednom clusteru AmlCompute by součet max_concurrent_trials hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů. V opačném případě budou spuštění zařazena do fronty, dokud nebudou k dispozici uzly.

DSVM podporuje více iterací na uzel. max_concurrent_trials By měla

musí být menší než nebo roven počtu jader na DSVM. V případě několika experimentů spuštěných paralelně na jednom počítači DSVM by součet max_concurrent_trials hodnot všech experimentů měl být menší nebo roven maximálnímu počtu uzlů.

Databricks – max_concurrent_trials hodnota by měla být menší než nebo rovna počtu

pracovní uzly v Databricks.

max_concurrent_trials se nevztahuje na místní spuštění. Dříve se tento parametr jmenoval concurrent_iterations.

max_cores_per_trial: Optional[int]

Maximální počet vláken, které se mají použít pro danou iteraci trénování. Přijatelné hodnoty:

Větší než 1 a menší nebo roven maximálnímu počtu jader na cílovém výpočetním objektu
Rovná se hodnotě -1, což znamená použít všechna možná jádra na iteraci na podřízený běh.
Výchozí hodnota se rovná 1.

max_nodes: Optional[int]

[Experimentální] Maximální počet uzlů, které se mají použít pro distribuované trénování.

Pro prognózování se každý model trénuje pomocí uzlů max(2, int(max_nodes / max_concurrent_trials)).
Pro účely klasifikace/regrese se každý model trénuje pomocí uzlů max_nodes.

Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.

max_trials: Optional[int]

Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během experimentu automatizovaného strojového učení. Pokud není zadaný, výchozí hodnota je 1 000 iterací.

timeout_minutes: Optional[int]

Maximální doba v minutách, kterou mohou všechny kombinované iterace trvat, než se experiment ukončí. Pokud není zadaný, výchozí časový limit experimentu je 6 dnů. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby výsledek chyby nebyl ve výchozím nastavení Žádný.

trial_timeout_minutes: Optional[int]

Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut, výchozí hodnota je Žádná.

Výjimky

FileExistsError

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

IOError

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

set_training

Metoda konfigurace nastavení souvisejících s trénováním.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametry

enable_onnx_compatible_models: Optional[bool]

Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a službě Azure Machine Learning najdete v tomto článku.

enable_dnn_training: Optional[bool]

Jestli se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatizovaného strojového učení je false.

enable_model_explainability: Optional[bool]

Jestli chcete povolit vysvětlení nejlepšího modelu Automatizovaného strojového učení na konci všech iterací trénování automatizovaného strojového učení. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení. , výchozí hodnota je Žádná

enable_stack_ensemble: Optional[bool]

Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Pokud se nastavuje příznak enable_onnx_compatible_models , iterace StackEnsemble se zakáže. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě používané k přizpůsobení metaučávače. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.

enable_vote_ensemble: Optional[bool]

Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.

stack_ensemble_settings: Optional[StackEnsembleSettings]

Nastavení pro iteraci StackEnsemble, výchozí hodnota je None

ensemble_model_download_timeout: Optional[int]

Během generování modelu VotingEnsemble a StackEnsemble se stáhne více fitovaných modelů z předchozích podřízených spuštění. Nakonfigurujte tento parametr s vyšší hodnotou než 300 sekund. Pokud je potřeba více času, výchozí hodnota není žádná.

allowed_training_algorithms: Optional[List[str]]

Seznam názvů modelů pro vyhledání experimentu Pokud není zadaný, použijí se všechny modely podporované pro danou úlohu a použijí se všechny zadané v blocked_training_algorithms modelech TensorFlow nebo zastaralé modely TensorFlow, výchozí hodnota je None (Žádný).

blocked_training_algorithms: Optional[List[str]]

Seznam algoritmů, které se při experimentu mají ignorovat, výchozí hodnota je None (Žádný)

training_mode: Optional[Union[str, TabularTrainingMode]]

[Experimentální] Režim trénování, který se má použít. Možné hodnoty jsou-

distributed – umožňuje distribuované trénování pro podporované algoritmy.
non_distributed – zakáže distribuované trénování.
auto – v současné době je stejná jako non_distributed. V budoucnu se to může změnit.

Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.

Výjimky

FileExistsError

Vyvolána, pokud je dest cesta k souboru a soubor již existuje.

IOError

Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

Primární metrika, která se má použít k optimalizaci.

Návraty

Primární metrika, která se má použít k optimalizaci.

Návratový typ

Union[str, ClassificationPrimaryMetrics]

status

Stav úlohy.

Mezi běžné vrácené hodnoty patří Spuštěno, Dokončeno a Neúspěšné. Všechny možné hodnoty jsou:

NotStarted – jedná se o dočasný stav, ve který se objekty Run na straně klienta nacházejí před odesláním do cloudu.
Spuštění – Spuštění se začalo zpracovávat v cloudu. Volající má v tuto chvíli ID spuštění.
Zřizování – pro odeslání úlohy se vytváří výpočetní prostředky na vyžádání.
Příprava – Prostředí spuštění se připravuje a je v jedné ze dvou fází:
- Sestavení image Dockeru
- Nastavení prostředí conda
Zařazeno do fronty – Úloha je zařazená do fronty v cílovém výpočetním objektu. Například ve službě BatchAI je úloha ve frontě.

při čekání na připravenost všech požadovaných uzlů.
Spuštěno – Úloha se začala spouštět na cílovém výpočetním objektu.
Finalizace – Spuštění uživatelského kódu bylo dokončeno a spuštění je ve fázích následného zpracování.
CancelRequested – pro úlohu bylo požádáno o zrušení.
Dokončeno – Spuštění bylo úspěšně dokončeno. To zahrnuje spuštění uživatelského kódu i spuštění.

fáze následného zpracování.
Neúspěšné – spuštění se nezdařilo. Vlastnost Error při spuštění obvykle obsahuje podrobné informace o tom, proč tomu tak je.
Zrušeno – následuje žádost o zrušení a indikuje, že spuštění se teď úspěšně zrušilo.
Nereaguje – U spuštění s povolenými prezenčními signály se v nedávné době neodeslal žádný prezenční signál.

Konstruktor

Parametry

Metody

dump

Parametry

Výjimky

set_data

Parametry

Výjimky

set_featurization

Parametry

Výjimky

set_limits

Parametry

Výjimky

set_training

Parametry

Výjimky

Atributy

base_path

Návraty

Návratový typ

creation_context

Návraty

Návratový typ

featurization

Návraty

Návratový typ

id

Návraty

Návratový typ

inputs

limits

Návraty

Návratový typ

log_files

Návraty

Návratový typ

log_verbosity

Návraty

Návratový typ

outputs

primary_metric

Návraty

Návratový typ

status

Návraty

Návratový typ

studio_url

Návraty

Návratový typ

task_type

Návraty

Návratový typ

test_data

Návraty

Návratový typ

training

Návraty

Návratový typ

training_data

Návraty

Návratový typ

type

Návraty

Návratový typ

validation_data

Návraty

Návratový typ

Další materiály