ClassificationJob Klasse
Konfiguration für AutoML-Klassifizierungsauftrag.
Initialisieren Sie einen neuen AutoML-Klassifizierungstask.
- Vererbung
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
Konstruktor
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
Parameter
Die primäre Metrik, die für die Optimierung verwendet werden soll, lautet standardmäßig Keine.
Positive Bezeichnung für die Berechnung binärer Metriken, Standardwert auf Keine
- featurization
- Optional[TabularFeaturizationSettings]
Einstellungen für die Featurisierung. Der Standardwert ist „None“.
- limits
- Optional[TabularLimitSettings]
Schränkt Einstellungen ein. Der Standardwert ist „None“.
- training
- Optional[TrainingSettings]
Trainingseinstellungen. Der Standardwert ist „None“.
Die primäre Metrik, die für die Optimierung verwendet werden soll, lautet standardmäßig Keine.
Positive Bezeichnung für die Berechnung binärer Metriken, Standardwert auf Keine
- featurization
- Optional[TabularFeaturizationSettings]
Featurisierungseinstellungen. Der Standardwert ist „None“.
- limits
- Optional[TabularLimitSettings]
schränkt Einstellungen ein. Der Standardwert ist „None“.
- training
- Optional[TrainingSettings]
Trainingseinstellungen. Der Standardwert ist „None“.
Methoden
dump |
Gibt den Auftragsinhalt in eine Datei im YAML-Format ab. |
set_data |
Definieren Sie die Datenkonfiguration. |
set_featurization |
Definieren Sie die Featureentwicklungskonfiguration. |
set_limits |
Legen Sie Grenzwerte für den Auftrag fest. |
set_training |
Die Methode zum Konfigurieren von Trainingseinstellungen. |
dump
Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parameter
Der lokale Pfad oder Dateistream, in den der YAML-Inhalt geschrieben werden soll. Wenn dest ein Dateipfad ist, wird eine neue Datei erstellt. Wenn dest eine geöffnete Datei ist, wird die Datei direkt in geschrieben.
- kwargs
- dict
Zusätzliche Argumente, die an den YAML-Serialisierer übergeben werden sollen.
Ausnahmen
Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.
Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.
set_data
Definieren Sie die Datenkonfiguration.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parameter
- training_data
- Input
Trainingsdaten
- target_column_name
- str
Spaltenname der Zielspalte.
n_cross_validations, wird standardmäßig Keine verwendet.
Ausnahmen
Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.
Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.
set_featurization
Definieren Sie die Featureentwicklungskonfiguration.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parameter
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Eine Liste von Transformatornamen, die während der Featurisierung blockiert werden sollen, lautet standardmäßig Keine.
Ein Wörterbuch mit Spaltennamen und Featuretypen, die zum Aktualisieren des Spaltenzwecks verwendet werden, ist standardmäßig auf Keine festgelegt.
Iso 639-3-Code mit drei Zeichen für die Sprache(en) im Dataset. Andere Sprachen als Englisch werden nur unterstützt, wenn Sie GPU-fähiges Compute verwenden. Die language_code "mul" sollte verwendet werden, wenn das Dataset mehrere Sprachen enthält. Informationen zum Suchen nach ISO 639-3-Codes für verschiedene Sprachen finden Sie unter https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, standardmäßig keine.
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Ein Wörterbuch mit Transformatoren und entsprechenden Anpassungsparametern , ist standardmäßig auf Keine festgelegt.
Gibt an, ob DNN-basierte Featureentwicklungsmethoden eingeschlossen werden sollen, standardmäßig keine
Ausnahmen
Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.
Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.
set_limits
Legen Sie Grenzwerte für den Auftrag fest.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parameter
Gibt an, ob eine vorzeitige Beendigung aktiviert werden soll, wenn sich die Bewertung nicht kurzfristig verbessert, wird standardmäßig Auf Keine festgelegt.
Logik zum frühzeitigen Beenden:
Kein frühzeitiges Beenden für die ersten 20 Iterationen (Orientierungspunkte).
Das Fenster für das frühzeitige Beenden startet bei der 21. Iteration und sucht nach early_stopping_n_iters-Iterationen
(derzeit auf 10 festgelegt). Dies bedeutet, dass die erste Iteration, bei der das Beenden erfolgen kann, die 31. ist.
AutoML plant nach dem vorzeitigen Beenden weiterhin zwei Ensembleiterationen, was zu höheren Bewertungen führen kann.
Frühzeitiges Beenden wird ausgelöst, wenn der berechnete absolute Wert des besten Scores mit dem für vergangene
early_stopping_n_iters-Iterationen identisch ist, das heißt, wenn es keine Verbesserung beim Score für early_stopping_n_iters-Iterationen gibt.
Der Zielscore für das Experiment. Das Experiment wird beendet, nachdem dieser Score erreicht wurde. Wenn keine Angabe erfolgt (keine Kriterien), wird das Experiment ausgeführt, bis kein weiterer Fortschritt bei der primären Metrik erzielt wird. Weitere Informationen zu Exitkriterien finden Sie in diesem Artikel , standardmäßig keine.
Dies ist die maximale Anzahl von Iterationen, die parallel ausgeführt werden. Der Standardwert ist 1.
- AmlCompute-Cluster unterstützen eine Iteration, die pro Knoten ausgeführt wird.
Für mehrere übergeordnete Ausführungen von AutoML-Experimenten, die auf einem einzelnen AmlCompute-Cluster parallel ausgeführt werden, sollte die Summe der max_concurrent_trials
-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein. Andernfalls werden Ausführungen in die Warteschlange gestellt, bis Knoten verfügbar sind.
- DSVM unterstützt mehrere Iterationen pro Knoten.
max_concurrent_trials
Sollten
kleiner oder gleich der Anzahl der Kerne auf dem DSVM sein. Für mehrere Experimente, die auf einer einzelnen DSVM parallel ausgeführt werden, sollte die Summe der max_concurrent_trials
-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein.
- Databricks:
max_concurrent_trials
sollte kleiner oder gleich der Anzahl von
Workerknoten in Databricks.
max_concurrent_trials
gilt nicht für lokale Ausführungen. Der Name dieses Parameters lautete früher concurrent_iterations
.
Die maximale Anzahl von Threads, die für eine bestimmte Trainingsiteration verwendet werden sollen. Gültige Werte:
Größer als 1 und kleiner oder gleich der maximalen Anzahl von Kernen auf dem Computeziel.
Gleich -1, was bedeutet, dass alle möglichen Kerne pro Iteration pro untergeordneter Ausführung verwendet werden.
Gleich 1, der Standardwert.
[Experimentell] Die maximale Anzahl von Knoten, die für verteiltes Training verwendet werden sollen.
Für die Prognose wird jedes Modell mithilfe von max(2, int(max_nodes/max_concurrent_trials)))-Knoten trainiert.
Für die Klassifizierung/Regression wird jedes Modell mit max_nodes Knoten trainiert.
Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.
Die Gesamtzahl der verschiedenen Algorithmus- und Parameterkombinationen, die während eines automatisierten ML-Experiments getestet werden sollen. Wenn keine Angabe erfolgt ist, lautet der Standardwert 1000 Iterationen.
Maximal zulässige Dauer für alle Iterationen (in Minuten). Danach wird das Experiment beendet. Wenn keine Angabe erfolgt, beträgt das Standardtimeout für Experimente 6 Tage. Um ein Timeout von weniger als oder gleich 1 Stunde anzugeben, stellen Sie sicher, dass die Größe Ihres Datasets nicht größer als 10.000.000 (Zeilen mal Spalte) ist, oder dass ein Fehler auftritt, der standardmäßig auf Keine lautet.
Maximale Dauer in Minuten für jede Ausführung einer Iteration, bevor sie beendet wird. Wenn nicht angegeben, wird ein Wert von 1 Monat oder 43200 Minuten verwendet, standardmäßig keine.
Ausnahmen
Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.
Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.
set_training
Die Methode zum Konfigurieren von Trainingseinstellungen.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parameter
Gibt an, ob das Erzwingen der ONNX-kompatiblen Modelle aktiviert oder deaktiviert werden soll. Die Standardeinstellung lautet „false“. Weitere Informationen zu Open Neural Network Exchange (ONNX) und Azure Machine Learning finden Sie in diesem Artikel.
Gibt an, ob DNN-basierte Modelle bei der Modellauswahl eingeschlossen werden sollen. Für DNN-NLP-Aufgaben ist der Standardwert jedoch „True“ und für alle anderen Aufgaben des automatisierten maschinellen Lernens „False“.
Gibt an, ob die Erläuterung des besten AutoML-Modells am Ende aller AutoML-Trainingsiterationen aktiviert werden soll. Weitere Informationen finden Sie unter Interpretierbarkeit: Modellerklärungen beim automatisierten maschinellen Lernen. , ist standardmäßig Keine.
Gibt an, ob die StackEnsemble-Iteration aktiviert/deaktiviert werden soll. Wenn das Flag enable_onnx_compatible_models festgelegt wird, ist die StackEnsemble-Iteration deaktiviert. Analog dazu wird die StackEnsemble-Iteration für Timeseries-Aufgaben standardmäßig deaktiviert, um das Risiko einer Überanpassung aufgrund eines kleinen Trainingssatzes zu vermeiden, der für die Anpassung des Meta-Learners verwendet wird. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , Standardwerte auf Keine.
Gibt an, ob die VotingEnsemble-Iteration aktiviert/deaktiviert werden soll. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , Standardwerte auf Keine.
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Einstellungen für Die StackEnsemble-Iteration, Standardwerte auf None
Während der VotingEnsemble- und StackEnsemble-Modellgeneration werden mehrere angepasste Modelle aus den vorherigen untergeordneten Ausführungen heruntergeladen. Konfigurieren Sie diesen Parameter mit einem höheren Wert als 300 Sekunden. Wenn mehr Zeit benötigt wird, wird standardmäßig Keine verwendet.
Eine Liste der Modellnamen, in denen nach einem Experiment gesucht werden soll. Wenn nicht angegeben, werden alle für den Task unterstützten Modelle abzüglich aller angegebenen blocked_training_algorithms
oder veralteten TensorFlow-Modelle verwendet. Standardwert ist Keine.
Eine Liste von Algorithmen, die für ein Experiment ignoriert werden sollen, lautet standardmäßig Keine.
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Experimentell] Der zu verwendende Trainingsmodus. Die möglichen Werte sind:
distributed– ermöglicht verteiltes Training für unterstützte Algorithmen.
non_distributed– deaktiviert verteiltes Training.
auto: Derzeit ist es identisch mit non_distributed. In Zukunft könnte sich dies ändern.
Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.
Ausnahmen
Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.
Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.
Attribute
base_path
creation_context
Der Erstellungskontext der Ressource.
Gibt zurück
Die Erstellungsmetadaten für die Ressource.
Rückgabetyp
featurization
Rufen Sie die Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag ab.
Gibt zurück
Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag
Rückgabetyp
id
Die Ressourcen-ID.
Gibt zurück
Die globale ID der Ressource, eine Arm-ID (Azure Resource Manager).
Rückgabetyp
inputs
limits
Rufen Sie die tabellarischen Grenzwerte für den AutoML-Auftrag ab.
Gibt zurück
Tabellarische Grenzwerte für den AutoML-Auftrag
Rückgabetyp
log_files
Auftragsausgabedateien.
Gibt zurück
Das Wörterbuch der Protokollnamen und URLs.
Rückgabetyp
log_verbosity
Rufen Sie die Protokoll-Ausführlichkeit für den AutoML-Auftrag ab.
Gibt zurück
Protokoll-Ausführlichkeit für den AutoML-Auftrag
Rückgabetyp
outputs
primary_metric
Die primäre Metrik, die für die Optimierung verwendet werden soll.
Gibt zurück
Die primäre Metrik, die für die Optimierung verwendet werden soll.
Rückgabetyp
status
Der Status des Auftrags.
Zu den häufig zurückgegebenen Werten zählen „Running“ (Wird ausgeführt), „Completed“ (Abgeschlossen) und „Failed“ (Fehlgeschlagen). Alle möglichen Werte sind:
NotStarted: Dies ist ein temporärer Zustand, in dem sich clientseitige Run-Objekte vor der Cloudübermittlung befinden.
Starting: Die Verarbeitung der Ausführung in der Cloud hat begonnen. Die aufrufende Funktion besitzt zu diesem Zeitpunkt eine Ausführungs-ID.
Bereitstellung: Bedarfsgesteuerte Computeerstellung wird für eine bestimmte Auftragsübermittlung erstellt.
Vorbereitung: Die Ausführungsumgebung wird vorbereitet und befindet sich in einer von zwei Phasen:
Docker-Imagebuild
Einrichten der Conda-Umgebung
Warteschlangen: Der Auftrag wird auf dem Computeziel in die Warteschlange gestellt. In BatchAI befindet sich der Auftrag beispielsweise in einer Warteschlange.
während darauf gewartet wird, dass alle angeforderten Knoten bereit sind.
Ausführen: Der Auftrag wurde auf dem Computeziel ausgeführt.
Abschluss: Die Ausführung des Benutzercodes wurde abgeschlossen, und die Ausführung befindet sich in Nachverarbeitungsphasen.
CancelRequested: Für den Auftrag wurde ein Abbruch angefordert.
Abgeschlossen: Die Ausführung wurde erfolgreich abgeschlossen. Dies umfasst sowohl die Ausführung von Benutzercode als auch die Ausführung.
Nachbearbeitungsphasen der Ausführung ein.
Failed: Die Ausführung ist fehlgeschlagen. In der Regel liefert die Eigenschaft „Error“ einer Ausführung Details zur Ursache.
Canceled: Folgt einer Abbruchanforderung und gibt an, dass die Ausführung jetzt erfolgreich abgebrochen wurde.
„NotResponding“ (Reagiert nicht): Für eine Ausführung, für die Heartbeats aktiviert ist, wurde vor Kurzem kein Heartbeat gesendet.
Gibt zurück
Status des Auftrags.
Rückgabetyp
studio_url
task_type
Vorgangstyp abrufen.
Gibt zurück
Der Typ der auszuführenden Aufgabe. Mögliche Werte sind : "klassifizierung", "regression", "forecasting".
Rückgabetyp
test_data
training
Trainingseinstellungen für den AutoML-Klassifizierungsauftrag.
Gibt zurück
Trainingseinstellungen, die für den AutoML-Klassifizierungsauftrag verwendet werden.
Rückgabetyp
training_data
type
validation_data
Azure SDK for Python