ClassificationJob Klasse

Referenz

Konfiguration für AutoML-Klassifizierungsauftrag.

Initialisieren Sie einen neuen AutoML-Klassifizierungstask.

Vererbung: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

Konstruktor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parameter

primary_metric: Optional[str]

Die primäre Metrik, die für die Optimierung verwendet werden soll, lautet standardmäßig Keine.

positive_label: Optional[str]

Positive Bezeichnung für die Berechnung binärer Metriken, Standardwert auf Keine

featurization: Optional[TabularFeaturizationSettings]

Einstellungen für die Featurisierung. Der Standardwert ist „None“.

limits: Optional[TabularLimitSettings]

Schränkt Einstellungen ein. Der Standardwert ist „None“.

training: Optional[TrainingSettings]

Trainingseinstellungen. Der Standardwert ist „None“.

primary_metric: Optional[str]

Die primäre Metrik, die für die Optimierung verwendet werden soll, lautet standardmäßig Keine.

positive_label: Optional[str]

Positive Bezeichnung für die Berechnung binärer Metriken, Standardwert auf Keine

featurization: Optional[TabularFeaturizationSettings]

Featurisierungseinstellungen. Der Standardwert ist „None“.

limits: Optional[TabularLimitSettings]

schränkt Einstellungen ein. Der Standardwert ist „None“.

training: Optional[TrainingSettings]

Trainingseinstellungen. Der Standardwert ist „None“.

Methoden

dump	Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.
set_data	Definieren Sie die Datenkonfiguration.
set_featurization	Definieren Sie die Featureentwicklungskonfiguration.
set_limits	Legen Sie Grenzwerte für den Auftrag fest.
set_training	Die Methode zum Konfigurieren von Trainingseinstellungen.

dump

Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parameter

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Erforderlich

Der lokale Pfad oder Dateistream, in den der YAML-Inhalt geschrieben werden soll. Wenn dest ein Dateipfad ist, wird eine neue Datei erstellt. Wenn dest eine geöffnete Datei ist, wird die Datei direkt in geschrieben.

kwargs: dict

Zusätzliche Argumente, die an den YAML-Serialisierer übergeben werden sollen.

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_data

Definieren Sie die Datenkonfiguration.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parameter

training_data: Input

Trainingsdaten

target_column_name: str

Spaltenname der Zielspalte.

weight_column_name: Optional[str]

Gewichtung des Spaltennamens, standardmäßig Keine

validation_data: Optional[Input]

Validierungsdaten, standardwert auf Keine

validation_data_size: Optional[float]

Validierungsdatengröße, standardwert auf "None"

n_cross_validations: Optional[Union[str, int]]

n_cross_validations, wird standardmäßig Keine verwendet.

cv_split_column_names: Optional[List[str]]

cv_split_column_names wird standardmäßig Keine verwendet.

test_data: Optional[Input]

Testdaten, standardmäßig keine

test_data_size: Optional[float]

Testdatengröße, standardwert: Keine

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_featurization

Definieren Sie die Featureentwicklungskonfiguration.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parameter

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Eine Liste von Transformatornamen, die während der Featurisierung blockiert werden sollen, lautet standardmäßig Keine.

column_name_and_types: Optional[Dict[str, str]]

Ein Wörterbuch mit Spaltennamen und Featuretypen, die zum Aktualisieren des Spaltenzwecks verwendet werden, ist standardmäßig auf Keine festgelegt.

dataset_language: Optional[str]

Iso 639-3-Code mit drei Zeichen für die Sprache(en) im Dataset. Andere Sprachen als Englisch werden nur unterstützt, wenn Sie GPU-fähiges Compute verwenden. Die language_code "mul" sollte verwendet werden, wenn das Dataset mehrere Sprachen enthält. Informationen zum Suchen nach ISO 639-3-Codes für verschiedene Sprachen finden Sie unter https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, standardmäßig keine.

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Ein Wörterbuch mit Transformatoren und entsprechenden Anpassungsparametern , ist standardmäßig auf Keine festgelegt.

mode: Optional[str]

"off", "auto", default to "auto", default to None

enable_dnn_featurization: Optional[bool]

Gibt an, ob DNN-basierte Featureentwicklungsmethoden eingeschlossen werden sollen, standardmäßig keine

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_limits

Legen Sie Grenzwerte für den Auftrag fest.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parameter

enable_early_termination: Optional[bool]

Gibt an, ob eine vorzeitige Beendigung aktiviert werden soll, wenn sich die Bewertung nicht kurzfristig verbessert, wird standardmäßig Auf Keine festgelegt.

Logik zum frühzeitigen Beenden:

Kein frühzeitiges Beenden für die ersten 20 Iterationen (Orientierungspunkte).
Das Fenster für das frühzeitige Beenden startet bei der 21. Iteration und sucht nach early_stopping_n_iters-Iterationen

(derzeit auf 10 festgelegt). Dies bedeutet, dass die erste Iteration, bei der das Beenden erfolgen kann, die 31. ist.
AutoML plant nach dem vorzeitigen Beenden weiterhin zwei Ensembleiterationen, was zu höheren Bewertungen führen kann.
Frühzeitiges Beenden wird ausgelöst, wenn der berechnete absolute Wert des besten Scores mit dem für vergangene

early_stopping_n_iters-Iterationen identisch ist, das heißt, wenn es keine Verbesserung beim Score für early_stopping_n_iters-Iterationen gibt.

exit_score: Optional[float]

Der Zielscore für das Experiment. Das Experiment wird beendet, nachdem dieser Score erreicht wurde. Wenn keine Angabe erfolgt (keine Kriterien), wird das Experiment ausgeführt, bis kein weiterer Fortschritt bei der primären Metrik erzielt wird. Weitere Informationen zu Exitkriterien finden Sie in diesem Artikel , standardmäßig keine.

max_concurrent_trials: Optional[int]

Dies ist die maximale Anzahl von Iterationen, die parallel ausgeführt werden. Der Standardwert ist 1.

AmlCompute-Cluster unterstützen eine Iteration, die pro Knoten ausgeführt wird.

Für mehrere übergeordnete Ausführungen von AutoML-Experimenten, die auf einem einzelnen AmlCompute-Cluster parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein. Andernfalls werden Ausführungen in die Warteschlange gestellt, bis Knoten verfügbar sind.

DSVM unterstützt mehrere Iterationen pro Knoten. max_concurrent_trials Sollten

kleiner oder gleich der Anzahl der Kerne auf dem DSVM sein. Für mehrere Experimente, die auf einer einzelnen DSVM parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein.

Databricks: max_concurrent_trials sollte kleiner oder gleich der Anzahl von

Workerknoten in Databricks.

max_concurrent_trials gilt nicht für lokale Ausführungen. Der Name dieses Parameters lautete früher concurrent_iterations.

max_cores_per_trial: Optional[int]

Die maximale Anzahl von Threads, die für eine bestimmte Trainingsiteration verwendet werden sollen. Gültige Werte:

Größer als 1 und kleiner oder gleich der maximalen Anzahl von Kernen auf dem Computeziel.
Gleich -1, was bedeutet, dass alle möglichen Kerne pro Iteration pro untergeordneter Ausführung verwendet werden.
Gleich 1, der Standardwert.

max_nodes: Optional[int]

[Experimentell] Die maximale Anzahl von Knoten, die für verteiltes Training verwendet werden sollen.

Für die Prognose wird jedes Modell mithilfe von max(2, int(max_nodes/max_concurrent_trials)))-Knoten trainiert.
Für die Klassifizierung/Regression wird jedes Modell mit max_nodes Knoten trainiert.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

max_trials: Optional[int]

Die Gesamtzahl der verschiedenen Algorithmus- und Parameterkombinationen, die während eines automatisierten ML-Experiments getestet werden sollen. Wenn keine Angabe erfolgt ist, lautet der Standardwert 1000 Iterationen.

timeout_minutes: Optional[int]

Maximal zulässige Dauer für alle Iterationen (in Minuten). Danach wird das Experiment beendet. Wenn keine Angabe erfolgt, beträgt das Standardtimeout für Experimente 6 Tage. Um ein Timeout von weniger als oder gleich 1 Stunde anzugeben, stellen Sie sicher, dass die Größe Ihres Datasets nicht größer als 10.000.000 (Zeilen mal Spalte) ist, oder dass ein Fehler auftritt, der standardmäßig auf Keine lautet.

trial_timeout_minutes: Optional[int]

Maximale Dauer in Minuten für jede Ausführung einer Iteration, bevor sie beendet wird. Wenn nicht angegeben, wird ein Wert von 1 Monat oder 43200 Minuten verwendet, standardmäßig keine.

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_training

Die Methode zum Konfigurieren von Trainingseinstellungen.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parameter

enable_onnx_compatible_models: Optional[bool]

Gibt an, ob das Erzwingen der ONNX-kompatiblen Modelle aktiviert oder deaktiviert werden soll. Die Standardeinstellung lautet „false“. Weitere Informationen zu Open Neural Network Exchange (ONNX) und Azure Machine Learning finden Sie in diesem Artikel.

enable_dnn_training: Optional[bool]

Gibt an, ob DNN-basierte Modelle bei der Modellauswahl eingeschlossen werden sollen. Für DNN-NLP-Aufgaben ist der Standardwert jedoch „True“ und für alle anderen Aufgaben des automatisierten maschinellen Lernens „False“.

enable_model_explainability: Optional[bool]

Gibt an, ob die Erläuterung des besten AutoML-Modells am Ende aller AutoML-Trainingsiterationen aktiviert werden soll. Weitere Informationen finden Sie unter Interpretierbarkeit: Modellerklärungen beim automatisierten maschinellen Lernen. , ist standardmäßig Keine.

enable_stack_ensemble: Optional[bool]

Gibt an, ob die StackEnsemble-Iteration aktiviert/deaktiviert werden soll. Wenn das Flag enable_onnx_compatible_models festgelegt wird, ist die StackEnsemble-Iteration deaktiviert. Analog dazu wird die StackEnsemble-Iteration für Timeseries-Aufgaben standardmäßig deaktiviert, um das Risiko einer Überanpassung aufgrund eines kleinen Trainingssatzes zu vermeiden, der für die Anpassung des Meta-Learners verwendet wird. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , Standardwerte auf Keine.

enable_vote_ensemble: Optional[bool]

Gibt an, ob die VotingEnsemble-Iteration aktiviert/deaktiviert werden soll. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , Standardwerte auf Keine.

stack_ensemble_settings: Optional[StackEnsembleSettings]

Einstellungen für Die StackEnsemble-Iteration, Standardwerte auf None

ensemble_model_download_timeout: Optional[int]

Während der VotingEnsemble- und StackEnsemble-Modellgeneration werden mehrere angepasste Modelle aus den vorherigen untergeordneten Ausführungen heruntergeladen. Konfigurieren Sie diesen Parameter mit einem höheren Wert als 300 Sekunden. Wenn mehr Zeit benötigt wird, wird standardmäßig Keine verwendet.

allowed_training_algorithms: Optional[List[str]]

Eine Liste der Modellnamen, in denen nach einem Experiment gesucht werden soll. Wenn nicht angegeben, werden alle für den Task unterstützten Modelle abzüglich aller angegebenen blocked_training_algorithms oder veralteten TensorFlow-Modelle verwendet. Standardwert ist Keine.

blocked_training_algorithms: Optional[List[str]]

Eine Liste von Algorithmen, die für ein Experiment ignoriert werden sollen, lautet standardmäßig Keine.

training_mode: Optional[Union[str, TabularTrainingMode]]

[Experimentell] Der zu verwendende Trainingsmodus. Die möglichen Werte sind:

distributed– ermöglicht verteiltes Training für unterstützte Algorithmen.
non_distributed– deaktiviert verteiltes Training.
auto: Derzeit ist es identisch mit non_distributed. In Zukunft könnte sich dies ändern.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

Die primäre Metrik, die für die Optimierung verwendet werden soll.

Gibt zurück

Die primäre Metrik, die für die Optimierung verwendet werden soll.

Rückgabetyp

Union[str, ClassificationPrimaryMetrics]

status

Der Status des Auftrags.

Zu den häufig zurückgegebenen Werten zählen „Running“ (Wird ausgeführt), „Completed“ (Abgeschlossen) und „Failed“ (Fehlgeschlagen). Alle möglichen Werte sind:

NotStarted: Dies ist ein temporärer Zustand, in dem sich clientseitige Run-Objekte vor der Cloudübermittlung befinden.
Starting: Die Verarbeitung der Ausführung in der Cloud hat begonnen. Die aufrufende Funktion besitzt zu diesem Zeitpunkt eine Ausführungs-ID.
Bereitstellung: Bedarfsgesteuerte Computeerstellung wird für eine bestimmte Auftragsübermittlung erstellt.
Vorbereitung: Die Ausführungsumgebung wird vorbereitet und befindet sich in einer von zwei Phasen:
- Docker-Imagebuild
- Einrichten der Conda-Umgebung
Warteschlangen: Der Auftrag wird auf dem Computeziel in die Warteschlange gestellt. In BatchAI befindet sich der Auftrag beispielsweise in einer Warteschlange.

während darauf gewartet wird, dass alle angeforderten Knoten bereit sind.
Ausführen: Der Auftrag wurde auf dem Computeziel ausgeführt.
Abschluss: Die Ausführung des Benutzercodes wurde abgeschlossen, und die Ausführung befindet sich in Nachverarbeitungsphasen.
CancelRequested: Für den Auftrag wurde ein Abbruch angefordert.
Abgeschlossen: Die Ausführung wurde erfolgreich abgeschlossen. Dies umfasst sowohl die Ausführung von Benutzercode als auch die Ausführung.

Nachbearbeitungsphasen der Ausführung ein.
Failed: Die Ausführung ist fehlgeschlagen. In der Regel liefert die Eigenschaft „Error“ einer Ausführung Details zur Ursache.
Canceled: Folgt einer Abbruchanforderung und gibt an, dass die Ausführung jetzt erfolgreich abgebrochen wurde.
„NotResponding“ (Reagiert nicht): Für eine Ausführung, für die Heartbeats aktiviert ist, wurde vor Kurzem kein Heartbeat gesendet.

Konstruktor

Parameter

Methoden

dump

Parameter

Ausnahmen

set_data

Parameter

Ausnahmen

set_featurization

Parameter

Ausnahmen

set_limits

Parameter

Ausnahmen

set_training

Parameter

Ausnahmen

Attribute

base_path

Gibt zurück

Rückgabetyp

creation_context

Gibt zurück

Rückgabetyp

featurization

Gibt zurück

Rückgabetyp

id

Gibt zurück

Rückgabetyp

inputs

limits

Gibt zurück

Rückgabetyp

log_files

Gibt zurück

Rückgabetyp

log_verbosity

Gibt zurück

Rückgabetyp

outputs

primary_metric

Gibt zurück

Rückgabetyp

status

Gibt zurück

Rückgabetyp

studio_url

Gibt zurück

Rückgabetyp

task_type

Gibt zurück

Rückgabetyp

test_data

Gibt zurück

Rückgabetyp

training

Gibt zurück

Rückgabetyp

training_data

Gibt zurück

Rückgabetyp

type

Gibt zurück

Rückgabetyp

validation_data

Gibt zurück

Rückgabetyp

Zusätzliche Ressourcen