Udostępnij za pośrednictwem


ClassificationJob Klasa

Konfiguracja zadania klasyfikacji automatycznego uczenia maszynowego.

Zainicjuj nowe zadanie klasyfikacji automatycznego uczenia maszynowego.

Dziedziczenie
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

Konstruktor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parametry

primary_metric
Optional[str]

Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak

positive_label
Optional[str]

Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak

featurization
Optional[TabularFeaturizationSettings]

Ustawienia cechowania. Wartość domyślna to None (Brak).

limits
Optional[TabularLimitSettings]

Limity ustawień. Wartość domyślna to None (Brak).

training
Optional[TrainingSettings]

Ustawienia trenowania. Wartość domyślna to None (Brak).

primary_metric
Optional[str]

Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak

positive_label
Optional[str]

Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak

featurization
Optional[TabularFeaturizationSettings]

ustawienia cechowania. Wartość domyślna to None (Brak).

limits
Optional[TabularLimitSettings]

ogranicza ustawienia. Wartość domyślna to None (Brak).

training
Optional[TrainingSettings]

ustawienia trenowania. Wartość domyślna to None (Brak).

Metody

dump

Zrzuty zawartości zadania do pliku w formacie YAML.

set_data

Definiowanie konfiguracji danych.

set_featurization

Definiowanie konfiguracji inżynierii cech.

set_limits

Ustaw limity dla zadania.

set_training

Metoda konfigurowania ustawień powiązanych ze szkoleniem.

dump

Zrzuty zawartości zadania do pliku w formacie YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametry

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Wymagane

Ścieżka lokalna lub strumień plików do zapisu zawartości YAML. Jeśli dest jest ścieżką pliku, zostanie utworzony nowy plik. Jeśli plik jest otwarty, plik zostanie zapisany bezpośrednio.

kwargs
dict

Dodatkowe argumenty do przekazania do serializatora YAML.

Wyjątki

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_data

Definiowanie konfiguracji danych.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametry

training_data
Input

Dane szkoleniowe.

target_column_name
str

Nazwa kolumny docelowej.

weight_column_name
Optional[str]

Nazwa kolumny wagi, domyślnie ma wartość Brak

validation_data
Optional[Input]

Dane sprawdzania poprawności, domyślnie ma wartość Brak

validation_data_size
Optional[float]

Rozmiar danych sprawdzania poprawności, domyślnie ma wartość Brak

n_cross_validations
Optional[Union[str, int]]

n_cross_validations wartość domyślna to Brak

cv_split_column_names
Optional[List[str]]

cv_split_column_names wartość domyślna to Brak

test_data
Optional[Input]

Dane testowe, domyślnie ma wartość Brak

test_data_size
Optional[float]

Rozmiar danych testowych, domyślnie wartość Brak

Wyjątki

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_featurization

Definiowanie konfiguracji inżynierii cech.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametry

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Lista nazw transformatorów, które mają być blokowane podczas cechowania, domyślnie ma wartość Brak

column_name_and_types
Optional[Dict[str, str]]

Słownik nazw kolumn i typów funkcji używany do aktualizowania przeznaczenia kolumny , domyślnie ma wartość Brak

dataset_language
Optional[str]

Trzy znaki kodu ISO 639-3 dla języków zawartych w zestawie danych. Języki inne niż angielski są obsługiwane tylko w przypadku korzystania z obliczeń z obsługą procesora GPU. Jeśli zestaw danych zawiera wiele języków, należy użyć language_code "mul". Aby znaleźć kody ISO 639-3 dla różnych języków, zobacz https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, domyślnie ma wartość Brak

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Słownik transformatora i odpowiednie parametry dostosowywania , domyślnie ma wartość Brak

mode
Optional[str]

"off", "auto", domyślnie "auto", domyślnie ma wartość None

enable_dnn_featurization
Optional[bool]

Czy należy uwzględnić metody inżynierii cech opartej na sieci DNN, domyślnie wartość None

Wyjątki

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_limits

Ustaw limity dla zadania.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametry

enable_early_termination
Optional[bool]

Czy włączyć wczesne zakończenie, jeśli wynik nie poprawia się w krótkim okresie, wartość domyślna to None.

Logika wczesnego zatrzymywania:

  • Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punktów orientacyjnych).

  • Wczesne zatrzymywanie rozpoczyna się od iteracji 21 i szuka iteracji early_stopping_n_iters

    (obecnie ustawiono wartość 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymanie, to 31.

  • AutoML nadal planuje 2 iteracji zespołu PO wczesnym zatrzymaniu, co może spowodować wyższe wyniki.

  • Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego wyniku obliczonego jest taka sama dla przeszłości

    early_stopping_n_iters iteracji, oznacza to, że w przypadku braku poprawy oceny dla iteracji early_stopping_n_iters.

exit_score
Optional[float]

Wynik docelowy eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie określono (bez kryteriów), eksperyment jest uruchamiany do momentu dalszego postępu w metryce podstawowej. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł , domyślnie ma wartość Brak

max_concurrent_trials
Optional[int]

Jest to maksymalna liczba iteracji, które zostaną wykonane równolegle. Wartość domyślna to 1.

  • Klastry AmlCompute obsługują jedną iterację uruchomioną na węzeł.

W przypadku wielu przebiegów nadrzędnych eksperymentu automatycznego uczenia maszynowego wykonywanych równolegle w jednym klastrze AmlCompute suma max_concurrent_trials wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebiegi będą kolejkowane do momentu udostępnienia węzłów.

  • Maszyna DSVM obsługuje wiele iteracji na węzeł. max_concurrent_trials Powinny

być mniejsze niż lub równe liczbie rdzeni na maszynie DSVM. W przypadku wielu eksperymentów uruchamianych równolegle na jednej maszynie DSVM suma max_concurrent_trials wartości wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.

  • Databricks — max_concurrent_trials powinna być mniejsza lub równa liczbie

węzły procesu roboczego w usłudze Databricks.

max_concurrent_trials nie dotyczy przebiegów lokalnych. Wcześniej ten parametr nosił nazwę concurrent_iterations.

max_cores_per_trial
Optional[int]

Maksymalna liczba wątków do użycia dla danej iteracji trenowania. Dopuszczalne wartości:

  • Większa niż 1 i mniejsza lub równa maksymalnej liczbie rdzeni w obiekcie docelowym obliczeniowym.

  • Równe -1, co oznacza użycie wszystkich możliwych rdzeni na iterację na przebieg podrzędny.

  • Wartość domyślna to 1.

max_nodes
Optional[int]

[Eksperymentalne] Maksymalna liczba węzłów do użycia na potrzeby trenowania rozproszonego.

  • W przypadku prognozowania każdy model jest trenowany przy użyciu węzłów max(2, int(max_nodes/max_concurrent_trials)).

  • W przypadku klasyfikacji/regresji każdy model jest trenowany przy użyciu węzłów max_nodes.

Uwaga — ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

max_trials
Optional[int]

Całkowita liczba różnych kombinacji algorytmów i parametrów do testowania podczas eksperymentu zautomatyzowanego uczenia maszynowego. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.

timeout_minutes
Optional[int]

Maksymalny czas w minutach, jaki wszystkie iteracji połączone mogą potrwać przed zakończeniem eksperymentu. Jeśli nie zostanie określony, domyślny limit czasu eksperymentu wynosi 6 dni. Aby określić limit czasu mniejszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (kolumna times wierszy) lub wyniki błędu, domyślnie wartość Brak

trial_timeout_minutes
Optional[int]

Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed jej zakończeniem. Jeśli nie zostanie określona, zostanie użyta wartość 1 miesiąca lub 43200 minut, domyślnie wartość Brak

Wyjątki

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_training

Metoda konfigurowania ustawień powiązanych ze szkoleniem.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametry

enable_onnx_compatible_models
Optional[bool]

Czy włączyć lub wyłączyć wymuszanie modeli zgodnych z programem ONNX. Wartość domyślna to False. Aby uzyskać więcej informacji na temat programu Open Neuron Network Exchange (ONNX) i usługi Azure Machine Learning, zobacz ten artykuł.

enable_dnn_training
Optional[bool]

Czy należy uwzględnić modele oparte na sieci rozproszonej podczas wybierania modelu. Jednak wartość domyślna to True dla zadań równoważenia obciążenia sieciowego sieci DNN i jest to wartość False dla wszystkich innych zadań rozwiązania AutoML.

enable_model_explainability
Optional[bool]

Czy włączyć wyjaśnienie najlepszego modelu automatycznego uczenia maszynowego na końcu wszystkich iteracji trenowania automatycznego uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Interpretowanie: wyjaśnienia modelu w zautomatyzowanym uczeniu maszynowym. , domyślnie ma wartość Brak

enable_stack_ensemble
Optional[bool]

Czy włączyć/wyłączyć iterację StackEnsemble. Jeśli flaga enable_onnx_compatible_models jest ustawiona, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań Timeseries iteracja StackEnsemble będzie domyślnie wyłączona, aby uniknąć ryzyka nadmiernego dopasowania ze względu na niewielki zestaw treningowy używany w dopasowywaniu meta ucznia. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

enable_vote_ensemble
Optional[bool]

Czy włączyć/wyłączyć iterację VotingEnsemble. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

stack_ensemble_settings
Optional[StackEnsembleSettings]

Ustawienia iteracji StackEnsemble, domyślnie wartość Brak

ensemble_model_download_timeout
Optional[int]

Podczas generowania modelu VotingEnsemble i StackEnsemble pobierane są wiele dopasowanych modeli z poprzednich przebiegów podrzędnych. Skonfiguruj ten parametr o wyższej wartości niż 300 s, jeśli jest potrzebny więcej czasu, domyślnie wartość Brak

allowed_training_algorithms
Optional[List[str]]

Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane dla zadania są używane minus wszystkie określone w blocked_training_algorithms lub przestarzałe modele TensorFlow, domyślnie ma wartość None

blocked_training_algorithms
Optional[List[str]]

Lista algorytmów, które mają być ignorowane dla eksperymentu, domyślnie ma wartość None

training_mode
Optional[Union[str, TabularTrainingMode]]

[Eksperymentalne] Tryb trenowania do użycia. Możliwe wartości to:

  • rozproszone — umożliwia trenowanie rozproszone dla obsługiwanych algorytmów.

  • non_distributed — wyłącza trenowanie rozproszone.

  • auto - Obecnie jest to samo co non_distributed. W przyszłości może to ulec zmianie.

Uwaga: ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

Wyjątki

Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.

Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

Atrybuty

base_path

Ścieżka podstawowa zasobu.

Zwraca

Ścieżka podstawowa zasobu.

Typ zwracany

str

creation_context

Kontekst tworzenia zasobu.

Zwraca

Metadane tworzenia zasobu.

Typ zwracany

featurization

Pobierz ustawienia cech tabelarycznych dla zadania rozwiązania AutoML.

Zwraca

Ustawienia cech tabelarycznych dla zadania rozwiązania AutoML

Typ zwracany

id

Identyfikator zasobu.

Zwraca

Identyfikator globalny zasobu, identyfikator usługi Azure Resource Manager (ARM).

Typ zwracany

inputs

limits

Pobierz limity tabelaryczne dla zadania rozwiązania AutoML.

Zwraca

Limity tabelaryczne zadania rozwiązania AutoML

Typ zwracany

log_files

Pliki wyjściowe zadania.

Zwraca

Słownik nazw dzienników i adresów URL.

Typ zwracany

log_verbosity

Uzyskaj szczegółowość dziennika dla zadania rozwiązania AutoML.

Zwraca

szczegółowość dziennika dla zadania rozwiązania AutoML

Typ zwracany

<xref:LogVerbosity>

outputs

primary_metric

Podstawowa metryka do użycia do optymalizacji.

Zwraca

Podstawowa metryka do użycia do optymalizacji.

Typ zwracany

status

Stan zadania.

Zwracane typowe wartości to "Running", "Completed" i "Failed". Wszystkie możliwe wartości to:

  • NotStarted — jest to stan tymczasowy, w przypadku którego przed przesłaniem do chmury znajdują się obiekty Uruchom po stronie klienta.

  • Uruchamianie — uruchomienie zostało rozpoczęte w chmurze. Obiekt wywołujący ma w tym momencie identyfikator uruchomienia.

  • Aprowizacja — obliczenia na żądanie są tworzone dla danego przesłania zadania.

  • Przygotowywanie — środowisko uruchomieniowe jest przygotowywane i znajduje się w jednym z dwóch etapów:

    • Kompilacja obrazu platformy Docker

    • Konfiguracja środowiska conda

  • W kolejce — zadanie jest kolejkowane w docelowym obiekcie obliczeniowym. Na przykład w usłudze BatchAI zadanie jest w stanie w kolejce

    podczas oczekiwania na gotowość wszystkich żądanych węzłów.

  • Uruchomione — zadanie zostało uruchomione na docelowym obiekcie obliczeniowym.

  • Finalizowanie — wykonywanie kodu użytkownika zostało ukończone, a przebieg znajduje się na etapach przetwarzania końcowego.

  • CancelRequested — zażądano anulowania zadania.

  • Ukończono — przebieg został ukończony pomyślnie. Obejmuje to zarówno wykonywanie kodu użytkownika, jak i uruchamianie

    etapy przetwarzania końcowego.

  • Niepowodzenie — przebieg zakończył się niepowodzeniem. Zazwyczaj właściwość Error w przebiegu zawiera szczegółowe informacje o przyczynie.

  • Anulowano — następuje żądanie anulowania i wskazuje, że przebieg został pomyślnie anulowany.

  • NotResponding — w przypadku przebiegów z włączonymi pulsami nie wysłano ostatnio pulsu.

Zwraca

Stan zadania.

Typ zwracany

studio_url

Punkt końcowy programu Azure ML Studio.

Zwraca

Adres URL strony szczegółów zadania.

Typ zwracany

task_type

Pobierz typ zadania.

Zwraca

Typ zadania do uruchomienia. Możliwe wartości to: "classification", "regression", "forecasting".

Typ zwracany

str

test_data

Pobieranie danych testowych.

Zwraca

Testowanie danych wejściowych

Typ zwracany

training

Ustawienia trenowania dla zadania klasyfikacji automatycznego uczenia maszynowego.

Zwraca

Ustawienia trenowania używane do zadania klasyfikacji automatycznego uczenia maszynowego.

Typ zwracany

<xref:ClassificationTrainingSettings>

training_data

Pobieranie danych treningowych.

Zwraca

Dane wejściowe danych szkoleniowych

Typ zwracany

type

Typ zadania.

Zwraca

Typ zadania.

Typ zwracany

validation_data

Pobieranie danych weryfikacji.

Zwraca

Dane wejściowe danych walidacji

Typ zwracany