Udostępnij za pośrednictwem


RegressionJob Klasa

Konfiguracja zadania regresji automatycznego uczenia maszynowego.

Zainicjuj nowe zadanie regresji automatycznego uczenia maszynowego.

Dziedziczenie
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

Konstruktor

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Parametry

primary_metric
str
Wymagane

Podstawowa metryka do użycia do optymalizacji

kwargs
dict
Wymagane

Argumenty specyficzne dla zadania

Metody

dump

Zrzuty zawartości zadania do pliku w formacie YAML.

set_data

Zdefiniuj konfigurację danych.

set_featurization

Definiowanie konfiguracji inżynierii cech.

set_limits

Ustaw limity dla zadania.

set_training

Metoda konfigurowania ustawień powiązanych ze szkoleniem.

dump

Zrzuty zawartości zadania do pliku w formacie YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametry

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Wymagane

Ścieżka lokalna lub strumień plików do zapisania zawartości YAML do. Jeśli dest jest ścieżką pliku, zostanie utworzony nowy plik. Jeśli dest jest otwartym plikiem, plik zostanie zapisany bezpośrednio.

kwargs
dict

Dodatkowe argumenty do przekazania do serializatora YAML.

Wyjątki

Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.

Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_data

Zdefiniuj konfigurację danych.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametry

training_data
Input

Dane szkoleniowe.

target_column_name
str

Nazwa kolumny docelowej.

weight_column_name
Optional[str]

Nazwa kolumny wagi, domyślnie wartość None

validation_data
Optional[Input]

Dane sprawdzania poprawności, domyślnie wartość Brak

validation_data_size
Optional[float]

Rozmiar danych weryfikacji, domyślnie wartość Brak

n_cross_validations
Optional[Union[str, int]]

n_cross_validations wartość domyślna to None (Brak)

cv_split_column_names
Optional[List[str]]

cv_split_column_names wartość domyślna to None (Brak)

test_data
Optional[Input]

Testowanie danych, domyślnie wartość Brak

test_data_size
Optional[float]

Rozmiar danych testowych, domyślnie wartość Brak

Wyjątki

Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.

Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_featurization

Definiowanie konfiguracji inżynierii cech.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametry

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Lista nazw transformatorów, które mają być blokowane podczas cechowania, domyślnie ma wartość Brak

column_name_and_types
Optional[Dict[str, str]]

Słownik nazw kolumn i typów funkcji używany do aktualizowania przeznaczenia kolumny , domyślnie ma wartość None

dataset_language
Optional[str]

Trzy znaki KODU ISO 639-3 dla języków zawartych w zestawie danych. Języki inne niż angielski są obsługiwane tylko w przypadku korzystania z obliczeń z obsługą procesora GPU. Należy użyć language_code "mul", jeśli zestaw danych zawiera wiele języków. Aby znaleźć kody ISO 639-3 dla różnych języków, zapoznaj się z https://en.wikipedia.org/wiki/List_of_ISO_639-3_codesartykułem , wartości domyślne to Brak

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Słownik transformatora i odpowiednie parametry dostosowywania , domyślnie ma wartość Brak

mode
Optional[str]

"off", "auto", domyślnie "auto", domyślnie ma wartość None

enable_dnn_featurization
Optional[bool]

Czy należy uwzględnić metody inżynierii cech opartej na sieci DNN, domyślnie wartość None

Wyjątki

Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.

Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_limits

Ustaw limity dla zadania.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametry

enable_early_termination
Optional[bool]

Czy włączyć wczesne zakończenie, jeśli wynik nie poprawia się w krótkim okresie, wartość domyślna to None.

Logika wczesnego zatrzymywania:

  • Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punktów orientacyjnych).

  • Wczesne zatrzymywanie rozpoczyna się od iteracji 21 i szuka iteracji early_stopping_n_iters

    (obecnie ustawiono wartość 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymanie, to 31.

  • AutoML nadal planuje 2 iteracji zespołu PO wczesnym zatrzymaniu, co może spowodować wyższe wyniki.

  • Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego wyniku obliczonego jest taka sama dla przeszłości

    early_stopping_n_iters iteracji, oznacza to, że w przypadku braku poprawy oceny dla iteracji early_stopping_n_iters.

exit_score
Optional[float]

Wynik docelowy eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie określono (bez kryteriów), eksperyment jest uruchamiany do momentu dalszego postępu w metryce podstawowej. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł , domyślnie ma wartość Brak

max_concurrent_trials
Optional[int]

Jest to maksymalna liczba iteracji, które zostaną wykonane równolegle. Wartość domyślna to 1.

  • Klastry AmlCompute obsługują jedną iterację uruchomioną na węzeł.

W przypadku wielu przebiegów nadrzędnych eksperymentu automatycznego uczenia maszynowego wykonywanych równolegle w jednym klastrze AmlCompute suma max_concurrent_trials wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebiegi będą kolejkowane do momentu udostępnienia węzłów.

  • Maszyna DSVM obsługuje wiele iteracji na węzeł. max_concurrent_trials Powinny

być mniejsze niż lub równe liczbie rdzeni na maszynie DSVM. W przypadku wielu eksperymentów uruchamianych równolegle na jednej maszynie DSVM suma max_concurrent_trials wartości wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.

  • Databricks — max_concurrent_trials powinna być mniejsza lub równa liczbie

węzły procesu roboczego w usłudze Databricks.

max_concurrent_trials nie dotyczy przebiegów lokalnych. Wcześniej ten parametr nosił nazwę concurrent_iterations.

max_cores_per_trial
Optional[int]

Maksymalna liczba wątków do użycia dla danej iteracji trenowania. Dopuszczalne wartości:

  • Większa niż 1 i mniejsza lub równa maksymalnej liczbie rdzeni w obiekcie docelowym obliczeniowym.

  • Równe -1, co oznacza użycie wszystkich możliwych rdzeni na iterację na przebieg podrzędny.

  • Wartość domyślna to 1.

max_nodes
Optional[int]

[Eksperymentalne] Maksymalna liczba węzłów do użycia na potrzeby trenowania rozproszonego.

  • W przypadku prognozowania każdy model jest trenowany przy użyciu węzłów max(2, int(max_nodes/max_concurrent_trials)).

  • W przypadku klasyfikacji/regresji każdy model jest trenowany przy użyciu węzłów max_nodes.

Uwaga — ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

max_trials
Optional[int]

Całkowita liczba różnych kombinacji algorytmów i parametrów do testowania podczas eksperymentu zautomatyzowanego uczenia maszynowego. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.

timeout_minutes
Optional[int]

Maksymalny czas w minutach, jaki wszystkie iteracji połączone mogą potrwać przed zakończeniem eksperymentu. Jeśli nie zostanie określony, domyślny limit czasu eksperymentu wynosi 6 dni. Aby określić limit czasu mniejszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (kolumna times wierszy) lub wyniki błędu, domyślnie wartość Brak

trial_timeout_minutes
Optional[int]

Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed jej zakończeniem. Jeśli nie zostanie określona, zostanie użyta wartość 1 miesiąca lub 43200 minut, domyślnie wartość Brak

Wyjątki

Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.

Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

set_training

Metoda konfigurowania ustawień powiązanych ze szkoleniem.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametry

enable_onnx_compatible_models
Optional[bool]

Czy włączyć lub wyłączyć wymuszanie modeli zgodnych z programem ONNX. Wartość domyślna to False. Aby uzyskać więcej informacji na temat programu Open Neuron Network Exchange (ONNX) i usługi Azure Machine Learning, zobacz ten artykuł.

enable_dnn_training
Optional[bool]

Czy należy uwzględnić modele oparte na sieci rozproszonej podczas wybierania modelu. Jednak wartość domyślna to True dla zadań równoważenia obciążenia sieciowego sieci DNN i jest to wartość False dla wszystkich innych zadań rozwiązania AutoML.

enable_model_explainability
Optional[bool]

Czy włączyć wyjaśnienie najlepszego modelu automatycznego uczenia maszynowego na końcu wszystkich iteracji trenowania automatycznego uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Interpretowanie: wyjaśnienia modelu w zautomatyzowanym uczeniu maszynowym. , domyślnie ma wartość Brak

enable_stack_ensemble
Optional[bool]

Czy włączyć/wyłączyć iterację StackEnsemble. Jeśli flaga enable_onnx_compatible_models jest ustawiona, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań Timeseries iteracja StackEnsemble będzie domyślnie wyłączona, aby uniknąć ryzyka nadmiernego dopasowania ze względu na niewielki zestaw treningowy używany w dopasowywaniu meta ucznia. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

enable_vote_ensemble
Optional[bool]

Czy włączyć/wyłączyć iterację VotingEnsemble. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków

stack_ensemble_settings
Optional[StackEnsembleSettings]

Ustawienia iteracji StackEnsemble, domyślnie wartość Brak

ensemble_model_download_timeout
Optional[int]

Podczas generowania modelu VotingEnsemble i StackEnsemble pobierane są wiele dopasowanych modeli z poprzednich przebiegów podrzędnych. Skonfiguruj ten parametr o wyższej wartości niż 300 s, jeśli jest potrzebny więcej czasu, domyślnie wartość Brak

allowed_training_algorithms
Optional[List[str]]

Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane dla zadania są używane minus wszystkie określone w blocked_training_algorithms lub przestarzałe modele TensorFlow, domyślnie ma wartość None

blocked_training_algorithms
Optional[List[str]]

Lista algorytmów, które mają być ignorowane dla eksperymentu, domyślnie ma wartość None

training_mode
Optional[Union[str, TabularTrainingMode]]

[Eksperymentalne] Tryb trenowania do użycia. Możliwe wartości to:

  • rozproszone — umożliwia trenowanie rozproszone dla obsługiwanych algorytmów.

  • non_distributed — wyłącza trenowanie rozproszone.

  • auto - Obecnie jest to samo co non_distributed. W przyszłości może to ulec zmianie.

Uwaga: ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.

Wyjątki

Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.

Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.

Atrybuty

base_path

Podstawowa ścieżka zasobu.

Zwraca

Podstawowa ścieżka zasobu.

Typ zwracany

str

creation_context

Kontekst tworzenia zasobu.

Zwraca

Metadane tworzenia zasobu.

Typ zwracany

featurization

Pobierz ustawienia cech tabelarycznych zadania automatycznego uczenia maszynowego.

Zwraca

Ustawienia cech tabelarycznych dla zadania autoML

Typ zwracany

id

Identyfikator zasobu.

Zwraca

Globalny identyfikator zasobu, identyfikator usługi Azure Resource Manager (ARM).

Typ zwracany

inputs

limits

Pobierz limity tabelaryczne dla zadania automl.

Zwraca

Limity tabelaryczne zadania automatycznego uczenia maszynowego

Typ zwracany

log_files

Pliki wyjściowe zadania.

Zwraca

Słownik nazw dzienników i adresów URL.

Typ zwracany

log_verbosity

Uzyskaj szczegółowość dziennika dla zadania rozwiązania AutoML.

Zwraca

szczegółowe informacje o dzienniku dla zadania autoML

Typ zwracany

<xref:LogVerbosity>

outputs

primary_metric

status

Stan zadania.

Zwracane wspólne wartości to "Running", "Completed" i "Failed". Wszystkie możliwe wartości to:

  • NotStarted — jest to stan tymczasowy, w przypadku którego przed przesłaniem chmury znajdują się obiekty Uruchom po stronie klienta.

  • Uruchamianie — uruchamianie zaczęło być przetwarzane w chmurze. Obiekt wywołujący ma w tym momencie identyfikator uruchomienia.

  • Aprowizowanie — zasoby obliczeniowe na żądanie są tworzone dla danego przesłania zadania.

  • Przygotowywanie — środowisko uruchamiania jest przygotowane i znajduje się w jednym z dwóch etapów:

    • Kompilacja obrazu platformy Docker

    • Konfiguracja środowiska conda

  • Queued — zadanie jest w kolejce w obiekcie docelowym obliczeniowym. Na przykład w usłudze BatchAI zadanie jest w stanie w kolejce

    czekając na gotowość wszystkich żądanych węzłów.

  • Uruchomiono — zadanie zostało uruchomione na docelowym obiekcie obliczeniowym.

  • Finalizowanie — wykonanie kodu użytkownika zostało ukończone, a przebieg znajduje się na etapach przetwarzania końcowego.

  • CancelRequested — zażądano anulowania zadania.

  • Ukończono — przebieg został ukończony pomyślnie. Obejmuje to zarówno wykonywanie kodu użytkownika, jak i uruchamianie

    etapy przetwarzania końcowego.

  • Niepowodzenie — przebieg zakończył się niepowodzeniem. Zazwyczaj właściwość Error w przebiegu zawiera szczegółowe informacje o przyczynie.

  • Anulowano — następuje żądanie anulowania i wskazuje, że przebieg został pomyślnie anulowany.

  • Brak odpowiedzi — w przypadku przebiegów z włączonymi pulsami nie wysłano ostatnio żadnego pulsu.

Zwraca

Stan zadania.

Typ zwracany

studio_url

Punkt końcowy usługi Azure ML Studio.

Zwraca

Adres URL strony szczegółów zadania.

Typ zwracany

task_type

Pobierz typ zadania.

Zwraca

Typ zadania do uruchomienia. Możliwe wartości to: "classification", "regression", "forecasting".

Typ zwracany

str

test_data

Pobieranie danych testowych.

Zwraca

Testowanie danych wejściowych

Typ zwracany

training

training_data

Pobieranie danych szkoleniowych.

Zwraca

Dane wejściowe danych szkoleniowych

Typ zwracany

type

Typ zadania.

Zwraca

Typ zadania.

Typ zwracany

validation_data

Pobieranie danych weryfikacji.

Zwraca

Dane wejściowe danych walidacji

Typ zwracany