ClassificationJob Třída
Konfigurace pro úlohu klasifikace automatizovaného strojového učení
Inicializace nové úlohy klasifikace Automatizovaného strojového učení
- Dědičnost
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
Konstruktor
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
Parametry
Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).
Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)
- featurization
- Optional[TabularFeaturizationSettings]
Nastavení extrakce příznaků. Výchozí hodnota je Žádná.
- limits
- Optional[TabularLimitSettings]
Nastavení omezení. Výchozí hodnota je Žádná.
- training
- Optional[TrainingSettings]
Nastavení trénování. Výchozí hodnota je Žádná.
Primární metrika, která se má použít k optimalizaci, má výchozí hodnotu None (Žádná).
Kladný popisek pro výpočet binárních metrik, výchozí hodnota je None (Žádný)
- featurization
- Optional[TabularFeaturizationSettings]
featurizace. Výchozí hodnota je Žádná.
- limits
- Optional[TabularLimitSettings]
nastavení limitů. Výchozí hodnota je Žádná.
- training
- Optional[TrainingSettings]
nastavení školení. Výchozí hodnota je Žádná.
Metody
dump |
Vytvoří výpis obsahu úlohy do souboru ve formátu YAML. |
set_data |
Definujte konfiguraci dat. |
set_featurization |
Definujte konfiguraci přípravy atributů. |
set_limits |
Nastavte limity pro úlohu. |
set_training |
Metoda konfigurace nastavení souvisejících s trénováním. |
dump
Vytvoří výpis obsahu úlohy do souboru ve formátu YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parametry
Místní cesta nebo datový proud souboru, do které se má obsah YAML zapisovat. Pokud je dest cesta k souboru, vytvoří se nový soubor. Pokud je dest otevřený soubor, zapíše se přímo do souboru.
- kwargs
- dict
Další argumenty, které se mají předat serializátoru YAML.
Výjimky
Vyvolána, pokud je dest cesta k souboru a soubor již existuje.
Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.
set_data
Definujte konfiguraci dat.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parametry
- training_data
- Input
Trénovací data.
- target_column_name
- str
Název cílového sloupce.
Výjimky
Vyvolána, pokud je dest cesta k souboru a soubor již existuje.
Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.
set_featurization
Definujte konfiguraci přípravy atributů.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parametry
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Seznam názvů transformátorů, které se mají blokovat během extrakce příznaků, výchozí hodnota je None (Žádný).
Slovník názvů sloupců a typů funkcí používaných k aktualizaci účelu sloupce má výchozí hodnotu Žádný.
Tříznakový kód ISO 639-3 pro jazyky obsažené v datové sadě. Jiné jazyky než angličtina jsou podporované jenom v případě, že používáte výpočetní prostředky s podporou GPU. Language_code "mul" by se měl použít, pokud datová sada obsahuje více jazyků. Pokud chcete najít kódy ISO 639-3 pro různé jazyky, podívejte se na https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, výchozí hodnota je Žádná.
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Slovník transformátoru a odpovídajících parametrů vlastního nastavení má výchozí hodnotu None (Žádný).
Jestli se mají zahrnout metody přípravy atributů založené na názvu DNN, výchozí hodnota je None (Žádné)
Výjimky
Vyvolána, pokud je dest cesta k souboru a soubor již existuje.
Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.
set_limits
Nastavte limity pro úlohu.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parametry
Jestli chcete povolit předčasné ukončení, pokud se skóre nezlepšuje v krátkodobém horizontu, výchozí hodnota je None (Žádné).
Logika předčasného zastavení:
Prvních 20 iterací (orientačních bodů) se nezastavuje včas.
Při 21. iteraci se spustí okno předčasného zastavení a vyhledá early_stopping_n_iters iterací.
(aktuálně nastaveno na hodnotu 10). To znamená, že první iterace, kde může dojít k zastavení, je 31.
AutoML stále plánuje 2 iterace souboru po brzkém zastavení, což může mít za následek vyšší skóre.
Brzké zastavení se aktivuje, pokud je absolutní hodnota vypočítaného nejlepšího skóre stejná jako v minulosti.
early_stopping_n_iters iterací, tj. pokud nedojde k žádnému zlepšení skóre pro early_stopping_n_iters iterací.
Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadaný (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další postup. Další informace o kritériích ukončení najdete v tomto článku . Výchozí hodnota je Žádná.
Jedná se o maximální počet paralelně spuštěných iterací. Výchozí hodnota je 1.
- Clustery AmlCompute podporují jednu spuštěnou iteraci na uzel.
V případě několika nadřazených spuštění experimentů Automatizovaného strojového učení spuštěných paralelně v jednom clusteru AmlCompute by součet max_concurrent_trials
hodnot pro všechny experimenty měl být menší nebo roven maximálnímu počtu uzlů. V opačném případě budou spuštění zařazena do fronty, dokud nebudou k dispozici uzly.
- DSVM podporuje více iterací na uzel.
max_concurrent_trials
By měla
musí být menší než nebo roven počtu jader na DSVM. V případě několika experimentů spuštěných paralelně na jednom počítači DSVM by součet max_concurrent_trials
hodnot všech experimentů měl být menší nebo roven maximálnímu počtu uzlů.
- Databricks –
max_concurrent_trials
hodnota by měla být menší než nebo rovna počtu
pracovní uzly v Databricks.
max_concurrent_trials
se nevztahuje na místní spuštění. Dříve se tento parametr jmenoval concurrent_iterations
.
Maximální počet vláken, které se mají použít pro danou iteraci trénování. Přijatelné hodnoty:
Větší než 1 a menší nebo roven maximálnímu počtu jader na cílovém výpočetním objektu
Rovná se hodnotě -1, což znamená použít všechna možná jádra na iteraci na podřízený běh.
Výchozí hodnota se rovná 1.
[Experimentální] Maximální počet uzlů, které se mají použít pro distribuované trénování.
Pro prognózování se každý model trénuje pomocí uzlů max(2, int(max_nodes / max_concurrent_trials)).
Pro účely klasifikace/regrese se každý model trénuje pomocí uzlů max_nodes.
Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.
Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během experimentu automatizovaného strojového učení. Pokud není zadaný, výchozí hodnota je 1 000 iterací.
Maximální doba v minutách, kterou mohou všechny kombinované iterace trvat, než se experiment ukončí. Pokud není zadaný, výchozí časový limit experimentu je 6 dnů. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby výsledek chyby nebyl ve výchozím nastavení Žádný.
Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut, výchozí hodnota je Žádná.
Výjimky
Vyvolána, pokud je dest cesta k souboru a soubor již existuje.
Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.
set_training
Metoda konfigurace nastavení souvisejících s trénováním.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parametry
Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a službě Azure Machine Learning najdete v tomto článku.
Jestli se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatizovaného strojového učení je false.
Jestli chcete povolit vysvětlení nejlepšího modelu Automatizovaného strojového učení na konci všech iterací trénování automatizovaného strojového učení. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení. , výchozí hodnota je Žádná
Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Pokud se nastavuje příznak enable_onnx_compatible_models , iterace StackEnsemble se zakáže. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě používané k přizpůsobení metaučávače. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.
Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Další informace o souborech najdete v tématu Konfigurace souboru , výchozí hodnota je Žádná.
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Nastavení pro iteraci StackEnsemble, výchozí hodnota je None
Během generování modelu VotingEnsemble a StackEnsemble se stáhne více fitovaných modelů z předchozích podřízených spuštění. Nakonfigurujte tento parametr s vyšší hodnotou než 300 sekund. Pokud je potřeba více času, výchozí hodnota není žádná.
Seznam názvů modelů pro vyhledání experimentu Pokud není zadaný, použijí se všechny modely podporované pro danou úlohu a použijí se všechny zadané v blocked_training_algorithms
modelech TensorFlow nebo zastaralé modely TensorFlow, výchozí hodnota je None (Žádný).
Seznam algoritmů, které se při experimentu mají ignorovat, výchozí hodnota je None (Žádný)
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Experimentální] Režim trénování, který se má použít. Možné hodnoty jsou-
distributed – umožňuje distribuované trénování pro podporované algoritmy.
non_distributed – zakáže distribuované trénování.
auto – v současné době je stejná jako non_distributed. V budoucnu se to může změnit.
Poznámka: Tento parametr je ve verzi Public Preview a v budoucnu se může změnit.
Výjimky
Vyvolána, pokud je dest cesta k souboru a soubor již existuje.
Vyvolá se, pokud je soubor dest otevřený a soubor nelze zapisovat.
Atributy
base_path
creation_context
Kontext vytvoření prostředku.
Návraty
Metadata vytvoření prostředku.
Návratový typ
featurization
Získejte nastavení tabulkové extrakce příznaků pro úlohu AutoML.
Návraty
Nastavení funkce tabulkové funkce pro úlohu AutoML
Návratový typ
id
ID prostředku.
Návraty
Globální ID prostředku, ID Azure Resource Manager (ARM).
Návratový typ
inputs
limits
Získejte tabulkové limity pro úlohu AutoML.
Návraty
Tabulkové limity pro úlohu AutoML
Návratový typ
log_files
Výstupní soubory úlohy.
Návraty
Slovník názvů protokolů a adres URL.
Návratový typ
log_verbosity
Získejte úroveň podrobností protokolu pro úlohu Automatizovaného strojového učení.
Návraty
úroveň podrobností protokolu pro úlohu Automatizovaného strojového učení
Návratový typ
outputs
primary_metric
Primární metrika, která se má použít k optimalizaci.
Návraty
Primární metrika, která se má použít k optimalizaci.
Návratový typ
status
Stav úlohy.
Mezi běžné vrácené hodnoty patří Spuštěno, Dokončeno a Neúspěšné. Všechny možné hodnoty jsou:
NotStarted – jedná se o dočasný stav, ve který se objekty Run na straně klienta nacházejí před odesláním do cloudu.
Spuštění – Spuštění se začalo zpracovávat v cloudu. Volající má v tuto chvíli ID spuštění.
Zřizování – pro odeslání úlohy se vytváří výpočetní prostředky na vyžádání.
Příprava – Prostředí spuštění se připravuje a je v jedné ze dvou fází:
Sestavení image Dockeru
Nastavení prostředí conda
Zařazeno do fronty – Úloha je zařazená do fronty v cílovém výpočetním objektu. Například ve službě BatchAI je úloha ve frontě.
při čekání na připravenost všech požadovaných uzlů.
Spuštěno – Úloha se začala spouštět na cílovém výpočetním objektu.
Finalizace – Spuštění uživatelského kódu bylo dokončeno a spuštění je ve fázích následného zpracování.
CancelRequested – pro úlohu bylo požádáno o zrušení.
Dokončeno – Spuštění bylo úspěšně dokončeno. To zahrnuje spuštění uživatelského kódu i spuštění.
fáze následného zpracování.
Neúspěšné – spuštění se nezdařilo. Vlastnost Error při spuštění obvykle obsahuje podrobné informace o tom, proč tomu tak je.
Zrušeno – následuje žádost o zrušení a indikuje, že spuštění se teď úspěšně zrušilo.
Nereaguje – U spuštění s povolenými prezenčními signály se v nedávné době neodeslal žádný prezenční signál.
Návraty
Stav úlohy.
Návratový typ
studio_url
Koncový bod studia Azure ML.
Návraty
Adresa URL stránky s podrobnostmi úlohy
Návratový typ
task_type
Získejte typ úkolu.
Návraty
Typ úlohy, která se má spustit. Mezi možné hodnoty patří: "classification", "regression", "forecasting" (prognózování).
Návratový typ
test_data
training
Nastavení trénování pro úlohu klasifikace Automatizovaného strojového učení
Návraty
Nastavení trénování používaná pro úlohu klasifikace AutoML.
Návratový typ
training_data
type
validation_data
Azure SDK for Python