RegressionJob Klasa
Konfiguracja zadania regresji automatycznego uczenia maszynowego.
Zainicjuj nowe zadanie regresji automatycznego uczenia maszynowego.
- Dziedziczenie
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularRegressionJob
Konstruktor
RegressionJob(*, primary_metric: str | None = None, **kwargs)
Parametry
Metody
dump |
Zrzuty zawartości zadania do pliku w formacie YAML. |
set_data |
Zdefiniuj konfigurację danych. |
set_featurization |
Definiowanie konfiguracji inżynierii cech. |
set_limits |
Ustaw limity dla zadania. |
set_training |
Metoda konfigurowania ustawień powiązanych ze szkoleniem. |
dump
Zrzuty zawartości zadania do pliku w formacie YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parametry
Ścieżka lokalna lub strumień plików do zapisania zawartości YAML do. Jeśli dest jest ścieżką pliku, zostanie utworzony nowy plik. Jeśli dest jest otwartym plikiem, plik zostanie zapisany bezpośrednio.
- kwargs
- dict
Dodatkowe argumenty do przekazania do serializatora YAML.
Wyjątki
Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.
Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_data
Zdefiniuj konfigurację danych.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parametry
- training_data
- Input
Dane szkoleniowe.
- target_column_name
- str
Nazwa kolumny docelowej.
Wyjątki
Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.
Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_featurization
Definiowanie konfiguracji inżynierii cech.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parametry
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Lista nazw transformatorów, które mają być blokowane podczas cechowania, domyślnie ma wartość Brak
Słownik nazw kolumn i typów funkcji używany do aktualizowania przeznaczenia kolumny , domyślnie ma wartość None
Trzy znaki KODU ISO 639-3 dla języków zawartych w zestawie danych. Języki inne niż angielski są obsługiwane tylko w przypadku korzystania z obliczeń z obsługą procesora GPU. Należy użyć language_code "mul", jeśli zestaw danych zawiera wiele języków. Aby znaleźć kody ISO 639-3 dla różnych języków, zapoznaj się z https://en.wikipedia.org/wiki/List_of_ISO_639-3_codesartykułem , wartości domyślne to Brak
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Słownik transformatora i odpowiednie parametry dostosowywania , domyślnie ma wartość Brak
Czy należy uwzględnić metody inżynierii cech opartej na sieci DNN, domyślnie wartość None
Wyjątki
Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.
Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_limits
Ustaw limity dla zadania.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parametry
Czy włączyć wczesne zakończenie, jeśli wynik nie poprawia się w krótkim okresie, wartość domyślna to None.
Logika wczesnego zatrzymywania:
Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punktów orientacyjnych).
Wczesne zatrzymywanie rozpoczyna się od iteracji 21 i szuka iteracji early_stopping_n_iters
(obecnie ustawiono wartość 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymanie, to 31.
AutoML nadal planuje 2 iteracji zespołu PO wczesnym zatrzymaniu, co może spowodować wyższe wyniki.
Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego wyniku obliczonego jest taka sama dla przeszłości
early_stopping_n_iters iteracji, oznacza to, że w przypadku braku poprawy oceny dla iteracji early_stopping_n_iters.
Wynik docelowy eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie określono (bez kryteriów), eksperyment jest uruchamiany do momentu dalszego postępu w metryce podstawowej. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł , domyślnie ma wartość Brak
Jest to maksymalna liczba iteracji, które zostaną wykonane równolegle. Wartość domyślna to 1.
- Klastry AmlCompute obsługują jedną iterację uruchomioną na węzeł.
W przypadku wielu przebiegów nadrzędnych eksperymentu automatycznego uczenia maszynowego wykonywanych równolegle w jednym klastrze AmlCompute suma max_concurrent_trials
wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebiegi będą kolejkowane do momentu udostępnienia węzłów.
- Maszyna DSVM obsługuje wiele iteracji na węzeł.
max_concurrent_trials
Powinny
być mniejsze niż lub równe liczbie rdzeni na maszynie DSVM. W przypadku wielu eksperymentów uruchamianych równolegle na jednej maszynie DSVM suma max_concurrent_trials
wartości wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.
- Databricks —
max_concurrent_trials
powinna być mniejsza lub równa liczbie
węzły procesu roboczego w usłudze Databricks.
max_concurrent_trials
nie dotyczy przebiegów lokalnych. Wcześniej ten parametr nosił nazwę concurrent_iterations
.
Maksymalna liczba wątków do użycia dla danej iteracji trenowania. Dopuszczalne wartości:
Większa niż 1 i mniejsza lub równa maksymalnej liczbie rdzeni w obiekcie docelowym obliczeniowym.
Równe -1, co oznacza użycie wszystkich możliwych rdzeni na iterację na przebieg podrzędny.
Wartość domyślna to 1.
[Eksperymentalne] Maksymalna liczba węzłów do użycia na potrzeby trenowania rozproszonego.
W przypadku prognozowania każdy model jest trenowany przy użyciu węzłów max(2, int(max_nodes/max_concurrent_trials)).
W przypadku klasyfikacji/regresji każdy model jest trenowany przy użyciu węzłów max_nodes.
Uwaga — ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.
Całkowita liczba różnych kombinacji algorytmów i parametrów do testowania podczas eksperymentu zautomatyzowanego uczenia maszynowego. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.
Maksymalny czas w minutach, jaki wszystkie iteracji połączone mogą potrwać przed zakończeniem eksperymentu. Jeśli nie zostanie określony, domyślny limit czasu eksperymentu wynosi 6 dni. Aby określić limit czasu mniejszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (kolumna times wierszy) lub wyniki błędu, domyślnie wartość Brak
Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed jej zakończeniem. Jeśli nie zostanie określona, zostanie użyta wartość 1 miesiąca lub 43200 minut, domyślnie wartość Brak
Wyjątki
Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.
Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_training
Metoda konfigurowania ustawień powiązanych ze szkoleniem.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parametry
Czy włączyć lub wyłączyć wymuszanie modeli zgodnych z programem ONNX. Wartość domyślna to False. Aby uzyskać więcej informacji na temat programu Open Neuron Network Exchange (ONNX) i usługi Azure Machine Learning, zobacz ten artykuł.
Czy należy uwzględnić modele oparte na sieci rozproszonej podczas wybierania modelu. Jednak wartość domyślna to True dla zadań równoważenia obciążenia sieciowego sieci DNN i jest to wartość False dla wszystkich innych zadań rozwiązania AutoML.
Czy włączyć wyjaśnienie najlepszego modelu automatycznego uczenia maszynowego na końcu wszystkich iteracji trenowania automatycznego uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Interpretowanie: wyjaśnienia modelu w zautomatyzowanym uczeniu maszynowym. , domyślnie ma wartość Brak
Czy włączyć/wyłączyć iterację StackEnsemble. Jeśli flaga enable_onnx_compatible_models jest ustawiona, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań Timeseries iteracja StackEnsemble będzie domyślnie wyłączona, aby uniknąć ryzyka nadmiernego dopasowania ze względu na niewielki zestaw treningowy używany w dopasowywaniu meta ucznia. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków
Czy włączyć/wyłączyć iterację VotingEnsemble. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Ustawienia iteracji StackEnsemble, domyślnie wartość Brak
Podczas generowania modelu VotingEnsemble i StackEnsemble pobierane są wiele dopasowanych modeli z poprzednich przebiegów podrzędnych. Skonfiguruj ten parametr o wyższej wartości niż 300 s, jeśli jest potrzebny więcej czasu, domyślnie wartość Brak
Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane dla zadania są używane minus wszystkie określone w blocked_training_algorithms
lub przestarzałe modele TensorFlow, domyślnie ma wartość None
Lista algorytmów, które mają być ignorowane dla eksperymentu, domyślnie ma wartość None
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Eksperymentalne] Tryb trenowania do użycia. Możliwe wartości to:
rozproszone — umożliwia trenowanie rozproszone dla obsługiwanych algorytmów.
non_distributed — wyłącza trenowanie rozproszone.
auto - Obecnie jest to samo co non_distributed. W przyszłości może to ulec zmianie.
Uwaga: ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.
Wyjątki
Podniesione, jeśli dest jest ścieżką pliku i plik już istnieje.
Podniesione, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
Atrybuty
base_path
creation_context
featurization
Pobierz ustawienia cech tabelarycznych zadania automatycznego uczenia maszynowego.
Zwraca
Ustawienia cech tabelarycznych dla zadania autoML
Typ zwracany
id
Identyfikator zasobu.
Zwraca
Globalny identyfikator zasobu, identyfikator usługi Azure Resource Manager (ARM).
Typ zwracany
inputs
limits
Pobierz limity tabelaryczne dla zadania automl.
Zwraca
Limity tabelaryczne zadania automatycznego uczenia maszynowego
Typ zwracany
log_files
Pliki wyjściowe zadania.
Zwraca
Słownik nazw dzienników i adresów URL.
Typ zwracany
log_verbosity
Uzyskaj szczegółowość dziennika dla zadania rozwiązania AutoML.
Zwraca
szczegółowe informacje o dzienniku dla zadania autoML
Typ zwracany
outputs
primary_metric
status
Stan zadania.
Zwracane wspólne wartości to "Running", "Completed" i "Failed". Wszystkie możliwe wartości to:
NotStarted — jest to stan tymczasowy, w przypadku którego przed przesłaniem chmury znajdują się obiekty Uruchom po stronie klienta.
Uruchamianie — uruchamianie zaczęło być przetwarzane w chmurze. Obiekt wywołujący ma w tym momencie identyfikator uruchomienia.
Aprowizowanie — zasoby obliczeniowe na żądanie są tworzone dla danego przesłania zadania.
Przygotowywanie — środowisko uruchamiania jest przygotowane i znajduje się w jednym z dwóch etapów:
Kompilacja obrazu platformy Docker
Konfiguracja środowiska conda
Queued — zadanie jest w kolejce w obiekcie docelowym obliczeniowym. Na przykład w usłudze BatchAI zadanie jest w stanie w kolejce
czekając na gotowość wszystkich żądanych węzłów.
Uruchomiono — zadanie zostało uruchomione na docelowym obiekcie obliczeniowym.
Finalizowanie — wykonanie kodu użytkownika zostało ukończone, a przebieg znajduje się na etapach przetwarzania końcowego.
CancelRequested — zażądano anulowania zadania.
Ukończono — przebieg został ukończony pomyślnie. Obejmuje to zarówno wykonywanie kodu użytkownika, jak i uruchamianie
etapy przetwarzania końcowego.
Niepowodzenie — przebieg zakończył się niepowodzeniem. Zazwyczaj właściwość Error w przebiegu zawiera szczegółowe informacje o przyczynie.
Anulowano — następuje żądanie anulowania i wskazuje, że przebieg został pomyślnie anulowany.
Brak odpowiedzi — w przypadku przebiegów z włączonymi pulsami nie wysłano ostatnio żadnego pulsu.
Zwraca
Stan zadania.
Typ zwracany
studio_url
Punkt końcowy usługi Azure ML Studio.
Zwraca
Adres URL strony szczegółów zadania.
Typ zwracany
task_type
Pobierz typ zadania.
Zwraca
Typ zadania do uruchomienia. Możliwe wartości to: "classification", "regression", "forecasting".
Typ zwracany
test_data
training
training_data
type
validation_data
Azure SDK for Python