ClassificationJob Klasa

Odwołanie

Konfiguracja zadania klasyfikacji automatycznego uczenia maszynowego.

Zainicjuj nowe zadanie klasyfikacji automatycznego uczenia maszynowego.

Dziedziczenie: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

Konstruktor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parametry

primary_metric: Optional[str]

Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak

positive_label: Optional[str]

Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak

featurization: Optional[TabularFeaturizationSettings]

Ustawienia cechowania. Wartość domyślna to None (Brak).

limits: Optional[TabularLimitSettings]

Limity ustawień. Wartość domyślna to None (Brak).

training: Optional[TrainingSettings]

Ustawienia trenowania. Wartość domyślna to None (Brak).

primary_metric: Optional[str]

Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak

positive_label: Optional[str]

Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak

featurization: Optional[TabularFeaturizationSettings]

ustawienia cechowania. Wartość domyślna to None (Brak).

limits: Optional[TabularLimitSettings]

ogranicza ustawienia. Wartość domyślna to None (Brak).

training: Optional[TrainingSettings]

ustawienia trenowania. Wartość domyślna to None (Brak).

Metody

dump	Zrzuty zawartości zadania do pliku w formacie YAML.
set_data	Definiowanie konfiguracji danych.
set_featurization	Definiowanie konfiguracji inżynierii cech.
set_limits	Ustaw limity dla zadania.
set_training	Metoda konfigurowania ustawień powiązanych ze szkoleniem.

dump

Zrzuty zawartości zadania do pliku w formacie YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametry

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Wymagane

Ścieżka lokalna lub strumień plików do zapisu zawartości YAML. Jeśli dest jest ścieżką pliku, zostanie utworzony nowy plik. Jeśli plik jest otwarty, plik zostanie zapisany bezpośrednio.

kwargs: dict

Dodatkowe argumenty do przekazania do serializatora YAML.

Wyjątki

FileExistsError

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

IOError

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_data

Definiowanie konfiguracji danych.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametry

training_data: Input

Dane szkoleniowe.

target_column_name: str

Nazwa kolumny docelowej.

weight_column_name: Optional[str]

Nazwa kolumny wagi, domyślnie ma wartość Brak

validation_data: Optional[Input]

Dane sprawdzania poprawności, domyślnie ma wartość Brak

validation_data_size: Optional[float]

Rozmiar danych sprawdzania poprawności, domyślnie ma wartość Brak

n_cross_validations: Optional[Union[str, int]]

n_cross_validations wartość domyślna to Brak

cv_split_column_names: Optional[List[str]]

cv_split_column_names wartość domyślna to Brak

test_data: Optional[Input]

Dane testowe, domyślnie ma wartość Brak

test_data_size: Optional[float]

Rozmiar danych testowych, domyślnie wartość Brak

Wyjątki

FileExistsError

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

IOError

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_featurization

Definiowanie konfiguracji inżynierii cech.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametry

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Lista nazw transformatorów, które mają być blokowane podczas cechowania, domyślnie ma wartość Brak

column_name_and_types: Optional[Dict[str, str]]

Słownik nazw kolumn i typów funkcji używany do aktualizowania przeznaczenia kolumny , domyślnie ma wartość Brak

dataset_language: Optional[str]

Trzy znaki kodu ISO 639-3 dla języków zawartych w zestawie danych. Języki inne niż angielski są obsługiwane tylko w przypadku korzystania z obliczeń z obsługą procesora GPU. Jeśli zestaw danych zawiera wiele języków, należy użyć language_code "mul". Aby znaleźć kody ISO 639-3 dla różnych języków, zobacz https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, domyślnie ma wartość Brak

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Słownik transformatora i odpowiednie parametry dostosowywania , domyślnie ma wartość Brak

mode: Optional[str]

"off", "auto", domyślnie "auto", domyślnie ma wartość None

enable_dnn_featurization: Optional[bool]

Czy należy uwzględnić metody inżynierii cech opartej na sieci DNN, domyślnie wartość None

Wyjątki

FileExistsError

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

IOError

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_limits

Ustaw limity dla zadania.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametry

enable_early_termination: Optional[bool]

Czy włączyć wczesne zakończenie, jeśli wynik nie poprawia się w krótkim okresie, wartość domyślna to None.

Logika wczesnego zatrzymywania:

Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punktów orientacyjnych).
Wczesne zatrzymywanie rozpoczyna się od iteracji 21 i szuka iteracji early_stopping_n_iters

(obecnie ustawiono wartość 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymanie, to 31.
AutoML nadal planuje 2 iteracji zespołu PO wczesnym zatrzymaniu, co może spowodować wyższe wyniki.
Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego wyniku obliczonego jest taka sama dla przeszłości

early_stopping_n_iters iteracji, oznacza to, że w przypadku braku poprawy oceny dla iteracji early_stopping_n_iters.

exit_score: Optional[float]

Wynik docelowy eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie określono (bez kryteriów), eksperyment jest uruchamiany do momentu dalszego postępu w metryce podstawowej. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł , domyślnie ma wartość Brak

max_concurrent_trials: Optional[int]

Jest to maksymalna liczba iteracji, które zostaną wykonane równolegle. Wartość domyślna to 1.

Klastry AmlCompute obsługują jedną iterację uruchomioną na węzeł.

W przypadku wielu przebiegów nadrzędnych eksperymentu automatycznego uczenia maszynowego wykonywanych równolegle w jednym klastrze AmlCompute suma max_concurrent_trials wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebiegi będą kolejkowane do momentu udostępnienia węzłów.

Maszyna DSVM obsługuje wiele iteracji na węzeł. max_concurrent_trials Powinny

być mniejsze niż lub równe liczbie rdzeni na maszynie DSVM. W przypadku wielu eksperymentów uruchamianych równolegle na jednej maszynie DSVM suma max_concurrent_trials wartości wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.

Databricks — max_concurrent_trials powinna być mniejsza lub równa liczbie

węzły procesu roboczego w usłudze Databricks.

max_concurrent_trials nie dotyczy przebiegów lokalnych. Wcześniej ten parametr nosił nazwę concurrent_iterations.

max_cores_per_trial: Optional[int]

Maksymalna liczba wątków do użycia dla danej iteracji trenowania. Dopuszczalne wartości:

Większa niż 1 i mniejsza lub równa maksymalnej liczbie rdzeni w obiekcie docelowym obliczeniowym.
Równe -1, co oznacza użycie wszystkich możliwych rdzeni na iterację na przebieg podrzędny.
Wartość domyślna to 1.

max_nodes: Optional[int]

[Eksperymentalne] Maksymalna liczba węzłów do użycia na potrzeby trenowania rozproszonego.

W przypadku prognozowania każdy model jest trenowany przy użyciu węzłów max(2, int(max_nodes/max_concurrent_trials)).
W przypadku klasyfikacji/regresji każdy model jest trenowany przy użyciu węzłów max_nodes.

Uwaga — ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

max_trials: Optional[int]

Całkowita liczba różnych kombinacji algorytmów i parametrów do testowania podczas eksperymentu zautomatyzowanego uczenia maszynowego. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.

timeout_minutes: Optional[int]

Maksymalny czas w minutach, jaki wszystkie iteracji połączone mogą potrwać przed zakończeniem eksperymentu. Jeśli nie zostanie określony, domyślny limit czasu eksperymentu wynosi 6 dni. Aby określić limit czasu mniejszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (kolumna times wierszy) lub wyniki błędu, domyślnie wartość Brak

trial_timeout_minutes: Optional[int]

Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed jej zakończeniem. Jeśli nie zostanie określona, zostanie użyta wartość 1 miesiąca lub 43200 minut, domyślnie wartość Brak

Wyjątki

FileExistsError

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

IOError

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_training

Metoda konfigurowania ustawień powiązanych ze szkoleniem.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametry

enable_onnx_compatible_models: Optional[bool]

Czy włączyć lub wyłączyć wymuszanie modeli zgodnych z programem ONNX. Wartość domyślna to False. Aby uzyskać więcej informacji na temat programu Open Neuron Network Exchange (ONNX) i usługi Azure Machine Learning, zobacz ten artykuł.

enable_dnn_training: Optional[bool]

Czy należy uwzględnić modele oparte na sieci rozproszonej podczas wybierania modelu. Jednak wartość domyślna to True dla zadań równoważenia obciążenia sieciowego sieci DNN i jest to wartość False dla wszystkich innych zadań rozwiązania AutoML.

enable_model_explainability: Optional[bool]

Czy włączyć wyjaśnienie najlepszego modelu automatycznego uczenia maszynowego na końcu wszystkich iteracji trenowania automatycznego uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Interpretowanie: wyjaśnienia modelu w zautomatyzowanym uczeniu maszynowym. , domyślnie ma wartość Brak

enable_stack_ensemble: Optional[bool]

Czy włączyć/wyłączyć iterację StackEnsemble. Jeśli flaga enable_onnx_compatible_models jest ustawiona, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań Timeseries iteracja StackEnsemble będzie domyślnie wyłączona, aby uniknąć ryzyka nadmiernego dopasowania ze względu na niewielki zestaw treningowy używany w dopasowywaniu meta ucznia. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

enable_vote_ensemble: Optional[bool]

Czy włączyć/wyłączyć iterację VotingEnsemble. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

stack_ensemble_settings: Optional[StackEnsembleSettings]

Ustawienia iteracji StackEnsemble, domyślnie wartość Brak

ensemble_model_download_timeout: Optional[int]

Podczas generowania modelu VotingEnsemble i StackEnsemble pobierane są wiele dopasowanych modeli z poprzednich przebiegów podrzędnych. Skonfiguruj ten parametr o wyższej wartości niż 300 s, jeśli jest potrzebny więcej czasu, domyślnie wartość Brak

allowed_training_algorithms: Optional[List[str]]

Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane dla zadania są używane minus wszystkie określone w blocked_training_algorithms lub przestarzałe modele TensorFlow, domyślnie ma wartość None

blocked_training_algorithms: Optional[List[str]]

Lista algorytmów, które mają być ignorowane dla eksperymentu, domyślnie ma wartość None

training_mode: Optional[Union[str, TabularTrainingMode]]

[Eksperymentalne] Tryb trenowania do użycia. Możliwe wartości to:

rozproszone — umożliwia trenowanie rozproszone dla obsługiwanych algorytmów.
non_distributed — wyłącza trenowanie rozproszone.
auto - Obecnie jest to samo co non_distributed. W przyszłości może to ulec zmianie.

Uwaga: ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

Wyjątki

FileExistsError

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

IOError

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

Podstawowa metryka do użycia do optymalizacji.

Zwraca

Podstawowa metryka do użycia do optymalizacji.

Typ zwracany

Union[str, ClassificationPrimaryMetrics]

status

Stan zadania.

Zwracane typowe wartości to "Running", "Completed" i "Failed". Wszystkie możliwe wartości to:

NotStarted — jest to stan tymczasowy, w przypadku którego przed przesłaniem do chmury znajdują się obiekty Uruchom po stronie klienta.
Uruchamianie — uruchomienie zostało rozpoczęte w chmurze. Obiekt wywołujący ma w tym momencie identyfikator uruchomienia.
Aprowizacja — obliczenia na żądanie są tworzone dla danego przesłania zadania.
Przygotowywanie — środowisko uruchomieniowe jest przygotowywane i znajduje się w jednym z dwóch etapów:
- Kompilacja obrazu platformy Docker
- Konfiguracja środowiska conda
W kolejce — zadanie jest kolejkowane w docelowym obiekcie obliczeniowym. Na przykład w usłudze BatchAI zadanie jest w stanie w kolejce

podczas oczekiwania na gotowość wszystkich żądanych węzłów.
Uruchomione — zadanie zostało uruchomione na docelowym obiekcie obliczeniowym.
Finalizowanie — wykonywanie kodu użytkownika zostało ukończone, a przebieg znajduje się na etapach przetwarzania końcowego.
CancelRequested — zażądano anulowania zadania.
Ukończono — przebieg został ukończony pomyślnie. Obejmuje to zarówno wykonywanie kodu użytkownika, jak i uruchamianie

etapy przetwarzania końcowego.
Niepowodzenie — przebieg zakończył się niepowodzeniem. Zazwyczaj właściwość Error w przebiegu zawiera szczegółowe informacje o przyczynie.
Anulowano — następuje żądanie anulowania i wskazuje, że przebieg został pomyślnie anulowany.
NotResponding — w przypadku przebiegów z włączonymi pulsami nie wysłano ostatnio pulsu.

Konstruktor

Parametry

Metody

dump

Parametry

Wyjątki

set_data

Parametry

Wyjątki

set_featurization

Parametry

Wyjątki

set_limits

Parametry

Wyjątki

set_training

Parametry

Wyjątki

Atrybuty

base_path

Zwraca

Typ zwracany

creation_context

Zwraca

Typ zwracany

featurization

Zwraca

Typ zwracany

id

Zwraca

Typ zwracany

inputs

limits

Zwraca

Typ zwracany

log_files

Zwraca

Typ zwracany

log_verbosity

Zwraca

Typ zwracany

outputs

primary_metric

Zwraca

Typ zwracany

status

Zwraca

Typ zwracany

studio_url

Zwraca

Typ zwracany

task_type

Zwraca

Typ zwracany

test_data

Zwraca

Typ zwracany

training

Zwraca

Typ zwracany

training_data

Zwraca

Typ zwracany

type

Zwraca

Typ zwracany

validation_data

Zwraca

Typ zwracany

Dodatkowe zasoby