ClassificationJob Klasa
Konfiguracja zadania klasyfikacji automatycznego uczenia maszynowego.
Zainicjuj nowe zadanie klasyfikacji automatycznego uczenia maszynowego.
- Dziedziczenie
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
Konstruktor
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
Parametry
Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak
Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak
- featurization
- Optional[TabularFeaturizationSettings]
Ustawienia cechowania. Wartość domyślna to None (Brak).
- limits
- Optional[TabularLimitSettings]
Limity ustawień. Wartość domyślna to None (Brak).
- training
- Optional[TrainingSettings]
Ustawienia trenowania. Wartość domyślna to None (Brak).
Podstawowa metryka, która ma być używana do optymalizacji, domyślnie ma wartość Brak
Etykieta dodatnia dla obliczeń metryk binarnych, domyślnie ma wartość Brak
- featurization
- Optional[TabularFeaturizationSettings]
ustawienia cechowania. Wartość domyślna to None (Brak).
- limits
- Optional[TabularLimitSettings]
ogranicza ustawienia. Wartość domyślna to None (Brak).
- training
- Optional[TrainingSettings]
ustawienia trenowania. Wartość domyślna to None (Brak).
Metody
dump |
Zrzuty zawartości zadania do pliku w formacie YAML. |
set_data |
Definiowanie konfiguracji danych. |
set_featurization |
Definiowanie konfiguracji inżynierii cech. |
set_limits |
Ustaw limity dla zadania. |
set_training |
Metoda konfigurowania ustawień powiązanych ze szkoleniem. |
dump
Zrzuty zawartości zadania do pliku w formacie YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parametry
Ścieżka lokalna lub strumień plików do zapisu zawartości YAML. Jeśli dest jest ścieżką pliku, zostanie utworzony nowy plik. Jeśli plik jest otwarty, plik zostanie zapisany bezpośrednio.
- kwargs
- dict
Dodatkowe argumenty do przekazania do serializatora YAML.
Wyjątki
Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.
Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_data
Definiowanie konfiguracji danych.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parametry
- training_data
- Input
Dane szkoleniowe.
- target_column_name
- str
Nazwa kolumny docelowej.
Rozmiar danych sprawdzania poprawności, domyślnie ma wartość Brak
Wyjątki
Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.
Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_featurization
Definiowanie konfiguracji inżynierii cech.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parametry
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Lista nazw transformatorów, które mają być blokowane podczas cechowania, domyślnie ma wartość Brak
Słownik nazw kolumn i typów funkcji używany do aktualizowania przeznaczenia kolumny , domyślnie ma wartość Brak
Trzy znaki kodu ISO 639-3 dla języków zawartych w zestawie danych. Języki inne niż angielski są obsługiwane tylko w przypadku korzystania z obliczeń z obsługą procesora GPU. Jeśli zestaw danych zawiera wiele języków, należy użyć language_code "mul". Aby znaleźć kody ISO 639-3 dla różnych języków, zobacz https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, domyślnie ma wartość Brak
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Słownik transformatora i odpowiednie parametry dostosowywania , domyślnie ma wartość Brak
Czy należy uwzględnić metody inżynierii cech opartej na sieci DNN, domyślnie wartość None
Wyjątki
Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.
Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_limits
Ustaw limity dla zadania.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parametry
Czy włączyć wczesne zakończenie, jeśli wynik nie poprawia się w krótkim okresie, wartość domyślna to None.
Logika wczesnego zatrzymywania:
Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punktów orientacyjnych).
Wczesne zatrzymywanie rozpoczyna się od iteracji 21 i szuka iteracji early_stopping_n_iters
(obecnie ustawiono wartość 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymanie, to 31.
AutoML nadal planuje 2 iteracji zespołu PO wczesnym zatrzymaniu, co może spowodować wyższe wyniki.
Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego wyniku obliczonego jest taka sama dla przeszłości
early_stopping_n_iters iteracji, oznacza to, że w przypadku braku poprawy oceny dla iteracji early_stopping_n_iters.
Wynik docelowy eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie określono (bez kryteriów), eksperyment jest uruchamiany do momentu dalszego postępu w metryce podstawowej. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł , domyślnie ma wartość Brak
Jest to maksymalna liczba iteracji, które zostaną wykonane równolegle. Wartość domyślna to 1.
- Klastry AmlCompute obsługują jedną iterację uruchomioną na węzeł.
W przypadku wielu przebiegów nadrzędnych eksperymentu automatycznego uczenia maszynowego wykonywanych równolegle w jednym klastrze AmlCompute suma max_concurrent_trials
wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebiegi będą kolejkowane do momentu udostępnienia węzłów.
- Maszyna DSVM obsługuje wiele iteracji na węzeł.
max_concurrent_trials
Powinny
być mniejsze niż lub równe liczbie rdzeni na maszynie DSVM. W przypadku wielu eksperymentów uruchamianych równolegle na jednej maszynie DSVM suma max_concurrent_trials
wartości wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.
- Databricks —
max_concurrent_trials
powinna być mniejsza lub równa liczbie
węzły procesu roboczego w usłudze Databricks.
max_concurrent_trials
nie dotyczy przebiegów lokalnych. Wcześniej ten parametr nosił nazwę concurrent_iterations
.
Maksymalna liczba wątków do użycia dla danej iteracji trenowania. Dopuszczalne wartości:
Większa niż 1 i mniejsza lub równa maksymalnej liczbie rdzeni w obiekcie docelowym obliczeniowym.
Równe -1, co oznacza użycie wszystkich możliwych rdzeni na iterację na przebieg podrzędny.
Wartość domyślna to 1.
[Eksperymentalne] Maksymalna liczba węzłów do użycia na potrzeby trenowania rozproszonego.
W przypadku prognozowania każdy model jest trenowany przy użyciu węzłów max(2, int(max_nodes/max_concurrent_trials)).
W przypadku klasyfikacji/regresji każdy model jest trenowany przy użyciu węzłów max_nodes.
Uwaga — ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.
Całkowita liczba różnych kombinacji algorytmów i parametrów do testowania podczas eksperymentu zautomatyzowanego uczenia maszynowego. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.
Maksymalny czas w minutach, jaki wszystkie iteracji połączone mogą potrwać przed zakończeniem eksperymentu. Jeśli nie zostanie określony, domyślny limit czasu eksperymentu wynosi 6 dni. Aby określić limit czasu mniejszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (kolumna times wierszy) lub wyniki błędu, domyślnie wartość Brak
Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed jej zakończeniem. Jeśli nie zostanie określona, zostanie użyta wartość 1 miesiąca lub 43200 minut, domyślnie wartość Brak
Wyjątki
Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.
Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
set_training
Metoda konfigurowania ustawień powiązanych ze szkoleniem.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parametry
Czy włączyć lub wyłączyć wymuszanie modeli zgodnych z programem ONNX. Wartość domyślna to False. Aby uzyskać więcej informacji na temat programu Open Neuron Network Exchange (ONNX) i usługi Azure Machine Learning, zobacz ten artykuł.
Czy należy uwzględnić modele oparte na sieci rozproszonej podczas wybierania modelu. Jednak wartość domyślna to True dla zadań równoważenia obciążenia sieciowego sieci DNN i jest to wartość False dla wszystkich innych zadań rozwiązania AutoML.
Czy włączyć wyjaśnienie najlepszego modelu automatycznego uczenia maszynowego na końcu wszystkich iteracji trenowania automatycznego uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Interpretowanie: wyjaśnienia modelu w zautomatyzowanym uczeniu maszynowym. , domyślnie ma wartość Brak
Czy włączyć/wyłączyć iterację StackEnsemble. Jeśli flaga enable_onnx_compatible_models jest ustawiona, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań Timeseries iteracja StackEnsemble będzie domyślnie wyłączona, aby uniknąć ryzyka nadmiernego dopasowania ze względu na niewielki zestaw treningowy używany w dopasowywaniu meta ucznia. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków
Czy włączyć/wyłączyć iterację VotingEnsemble. Aby uzyskać więcej informacji na temat zespołów, zobacz Konfiguracja zespołu , wartości domyślne do braków
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Ustawienia iteracji StackEnsemble, domyślnie wartość Brak
Podczas generowania modelu VotingEnsemble i StackEnsemble pobierane są wiele dopasowanych modeli z poprzednich przebiegów podrzędnych. Skonfiguruj ten parametr o wyższej wartości niż 300 s, jeśli jest potrzebny więcej czasu, domyślnie wartość Brak
Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane dla zadania są używane minus wszystkie określone w blocked_training_algorithms
lub przestarzałe modele TensorFlow, domyślnie ma wartość None
Lista algorytmów, które mają być ignorowane dla eksperymentu, domyślnie ma wartość None
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Eksperymentalne] Tryb trenowania do użycia. Możliwe wartości to:
rozproszone — umożliwia trenowanie rozproszone dla obsługiwanych algorytmów.
non_distributed — wyłącza trenowanie rozproszone.
auto - Obecnie jest to samo co non_distributed. W przyszłości może to ulec zmianie.
Uwaga: ten parametr jest w publicznej wersji zapoznawczej i może ulec zmianie w przyszłości.
Wyjątki
Zgłaszane, jeśli dest jest ścieżką pliku i plik już istnieje.
Zgłaszane, jeśli dest jest otwartym plikiem, a plik nie jest zapisywalny.
Atrybuty
base_path
creation_context
featurization
Pobierz ustawienia cech tabelarycznych dla zadania rozwiązania AutoML.
Zwraca
Ustawienia cech tabelarycznych dla zadania rozwiązania AutoML
Typ zwracany
id
Identyfikator zasobu.
Zwraca
Identyfikator globalny zasobu, identyfikator usługi Azure Resource Manager (ARM).
Typ zwracany
inputs
limits
Pobierz limity tabelaryczne dla zadania rozwiązania AutoML.
Zwraca
Limity tabelaryczne zadania rozwiązania AutoML
Typ zwracany
log_files
Pliki wyjściowe zadania.
Zwraca
Słownik nazw dzienników i adresów URL.
Typ zwracany
log_verbosity
Uzyskaj szczegółowość dziennika dla zadania rozwiązania AutoML.
Zwraca
szczegółowość dziennika dla zadania rozwiązania AutoML
Typ zwracany
outputs
primary_metric
Podstawowa metryka do użycia do optymalizacji.
Zwraca
Podstawowa metryka do użycia do optymalizacji.
Typ zwracany
status
Stan zadania.
Zwracane typowe wartości to "Running", "Completed" i "Failed". Wszystkie możliwe wartości to:
NotStarted — jest to stan tymczasowy, w przypadku którego przed przesłaniem do chmury znajdują się obiekty Uruchom po stronie klienta.
Uruchamianie — uruchomienie zostało rozpoczęte w chmurze. Obiekt wywołujący ma w tym momencie identyfikator uruchomienia.
Aprowizacja — obliczenia na żądanie są tworzone dla danego przesłania zadania.
Przygotowywanie — środowisko uruchomieniowe jest przygotowywane i znajduje się w jednym z dwóch etapów:
Kompilacja obrazu platformy Docker
Konfiguracja środowiska conda
W kolejce — zadanie jest kolejkowane w docelowym obiekcie obliczeniowym. Na przykład w usłudze BatchAI zadanie jest w stanie w kolejce
podczas oczekiwania na gotowość wszystkich żądanych węzłów.
Uruchomione — zadanie zostało uruchomione na docelowym obiekcie obliczeniowym.
Finalizowanie — wykonywanie kodu użytkownika zostało ukończone, a przebieg znajduje się na etapach przetwarzania końcowego.
CancelRequested — zażądano anulowania zadania.
Ukończono — przebieg został ukończony pomyślnie. Obejmuje to zarówno wykonywanie kodu użytkownika, jak i uruchamianie
etapy przetwarzania końcowego.
Niepowodzenie — przebieg zakończył się niepowodzeniem. Zazwyczaj właściwość Error w przebiegu zawiera szczegółowe informacje o przyczynie.
Anulowano — następuje żądanie anulowania i wskazuje, że przebieg został pomyślnie anulowany.
NotResponding — w przypadku przebiegów z włączonymi pulsami nie wysłano ostatnio pulsu.
Zwraca
Stan zadania.
Typ zwracany
studio_url
Punkt końcowy programu Azure ML Studio.
Zwraca
Adres URL strony szczegółów zadania.
Typ zwracany
task_type
Pobierz typ zadania.
Zwraca
Typ zadania do uruchomienia. Możliwe wartości to: "classification", "regression", "forecasting".
Typ zwracany
test_data
training
Ustawienia trenowania dla zadania klasyfikacji automatycznego uczenia maszynowego.
Zwraca
Ustawienia trenowania używane do zadania klasyfikacji automatycznego uczenia maszynowego.
Typ zwracany
training_data
type
validation_data
Azure SDK for Python