RegressionJob クラス

リファレンス

AutoML 回帰ジョブの構成。

新しい AutoML 回帰タスクを初期化します。

継承: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

RegressionJob

コンストラクター

RegressionJob(*, primary_metric: str | None = None, **kwargs)

パラメーター

primary_metric: str

必須

最適化に使用する主なメトリック

kwargs: dict

必須

ジョブ固有の引数

メソッド

dump	ジョブの内容を YAML 形式のファイルにダンプします。
set_data	データ構成を定義します。
set_featurization	特徴エンジニアリング構成を定義します。
set_limits	ジョブの制限を設定します。
set_training	トレーニング関連の設定を構成するメソッド。

dump

ジョブの内容を YAML 形式のファイルにダンプします。

dump(dest: str | PathLike | IO, **kwargs) -> None

パラメーター

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

必須

YAML コンテンツを書き込むローカルパスまたはファイルストリーム。 dest がファイルパスの場合は、新しいファイルが作成されます。 dest が開いているファイルの場合、ファイルはに直接書き込まれます。

kwargs: dict

YAML シリアライザーに渡す追加の引数。

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_data

データ構成を定義します。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

パラメーター

training_data: Input

トレーニングデータ。

target_column_name: str

ターゲット列の列名。

weight_column_name: Optional[str]

重みの列名。既定値は None です

validation_data: Optional[Input]

検証データ、既定値は [なし]

validation_data_size: Optional[float]

検証データサイズ(既定値は None)

n_cross_validations: Optional[Union[str, int]]

n_cross_validations、既定値は None です

cv_split_column_names: Optional[List[str]]

cv_split_column_names、既定値は None です

test_data: Optional[Input]

テストデータ、既定値は [なし]

test_data_size: Optional[float]

テストデータサイズ(既定値は None)

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_featurization

特徴エンジニアリング構成を定義します。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

パラメーター

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

特徴量化中にブロックされるトランスフォーマー名の一覧。既定値は None です

column_name_and_types: Optional[Dict[str, str]]

列の目的を更新するために使用される列名と機能の種類のディクショナリは、既定値は None です

dataset_language: Optional[str]

データセットに含まれる言語の 3 文字の ISO 639-3 コード。英語以外の言語は、GPU 対応コンピューティングを使用する場合にのみサポートされます。データセットに複数の言語が含まれている場合は、language_code 'mul' を使用する必要があります。さまざまな言語の ISO 639-3 コードを見つけるには、を https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes参照してください。既定値は None です

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

トランスフォーマーと対応するカスタマイズパラメーターのディクショナリは、既定値は None です。

mode: Optional[str]

"off"、"auto"、既定値は "auto"、既定値は None

enable_dnn_featurization: Optional[bool]

DNN ベースの特徴エンジニアリング方法を含めるかどうか(既定値は None)

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_limits

ジョブの制限を設定します。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

パラメーター

enable_early_termination: Optional[bool]

短期間にスコアが改善しない場合に早期終了を有効にするかどうかは、既定値は None です。

早期停止ロジック:

最初の 20 回の反復 (ランドマーク) に早期停止はありません。
早期停止期間は 21 回目の反復で開始され、early_stopping_n_iters 回の反復を探します

(現在は 10 に設定されています)。つまり、停止が発生しうる最初の反復は 31 回目です。
AutoML では、早期停止後に 2 回のアンサンブルイテレーションがスケジュールされるため、スコアが高くなる可能性があります。
計算される最高スコアの絶対値が過去の

early_stopping_n_iters 回の反復と同じ、つまり、early_stopping_n_iters 回の反復のスコアに改善がない場合、早期停止がトリガーされます。

exit_score: Optional[float]

実験のターゲットスコア。実験は、このスコアに達すると終了します。指定しない場合 (基準なし)、実験は、主要メトリックでそれ以上の進行がなくなるまで実行されます。終了条件の詳細については、この記事を参照してください。既定値は None です

max_concurrent_trials: Optional[int]

これは、並列で実行される反復の最大数です。既定値は 1 です。

AmlCompute クラスターでは、ノードごとに 1 回のイテレーション実行がサポートされます。

複数の AutoML 実験の親が単一の AmlCompute クラスターで並行して実行される場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。それ以外の場合は、実行は、ノードが使用可能になるまでキューに入れられます。

DSVM は、ノードごとに複数の反復をサポートします。 max_concurrent_trials should

は、DSVM 上のコアの数以下である必要があります。 1 つの DSVM 上で複数の実験を並行して実行する場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。

Databricks - max_concurrent_trials の数以下にする必要があります

Databricks 上のワーカーノード。

max_concurrent_trials はローカル実行には適用されません。以前は、このパラメーターの名前は concurrent_iterations でした。

max_cores_per_trial: Optional[int]

特定のトレーニング反復に使用するスレッドの最大数。許容される値:

1 より大きく、コンピューティング先のコアの最大数以下。
-1 に等しい。これは、子の実行ごと、反復ごとに可能なすべてのコアを使用することを意味します。
1 に等しい。これは既定値です。

max_nodes: Optional[int]

[試験段階]分散トレーニングに使用するノードの最大数。

予測のために、各モデルは max(2, int(max_nodes / max_concurrent_trials)) ノードを使用してトレーニングされます。
分類/回帰の場合、各モデルはmax_nodesノードを使用してトレーニングされます。

注- このパラメーターはパブリックプレビュー段階であり、今後変更される可能性があります。

max_trials: Optional[int]

自動 ML 実験中にテストする異なるアルゴリズムとパラメーターの組み合わせの合計数。指定しない場合、既定値は 1000 反復です。

timeout_minutes: Optional[int]

すべてのイテレーションを組み合わせて、実験が終了するまでにかかる分単位での最大時間。指定されていない場合、既定の実験タイムアウトは 6 日です。タイムアウトを 1 時間以下に指定するには、データセットのサイズが 10,000,000 (行の時間列) を超えないか、エラー結果であることを確認します。既定値は None です

trial_timeout_minutes: Optional[int]

各反復で終了前に実行できる最大時間 (分)。指定しない場合、1 か月または 43200 分の値が使用され、既定値は None です

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_training

トレーニング関連の設定を構成するメソッド。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

パラメーター

enable_onnx_compatible_models: Optional[bool]

ONNX と互換性のあるモデルの強制を有効または無効にするかどうか。既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、こちらの記事を参照してください。

enable_dnn_training: Optional[bool]

モデルの選択時に DNN ベースのモデルを含めるかどうか。ただし、既定値は、DNN NLP タスクの場合は True、他のすべての AutoML タスクの場合は False です。

enable_model_explainability: Optional[bool]

すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。の既定値は None です

enable_stack_ensemble: Optional[bool]

StackEnsemble の反復を有効/無効にするかどうか。 enable_onnx_compatible_models フラグを設定すると、StackEnsemble 反復は無効になります。同様に、Timeseries タスクの場合、meta learner の調整に使用されるトレーニングセットが小さいことによるオーバーフィットのリスクを回避するために、StackEnsemble の反復は既定で無効になります。アンサンブルの詳細については、「アンサンブル構成」を参照してください。既定値は None です。

enable_vote_ensemble: Optional[bool]

VotingEnsemble の反復を有効/無効にするかどうか。アンサンブルの詳細については、「アンサンブル構成」を参照してください。既定値は None です。

stack_ensemble_settings: Optional[StackEnsembleSettings]

StackEnsemble イテレーションの設定。既定値は None です

ensemble_model_download_timeout: Optional[int]

VotingEnsemble と StackEnsemble モデルの生成中に、前の子実行から複数の適合モデルがダウンロードされます。 300 秒より大きい値でこのパラメーターを構成します。時間が長い場合、既定値は None です

allowed_training_algorithms: Optional[List[str]]

実験を検索するモデル名のリスト。指定しない場合、タスクでサポートされているすべてのモデルから、または非推奨の TensorFlow モデルで blocked_training_algorithms 指定されたすべてのモデルを引いた値が使用され、既定値は None になります。

blocked_training_algorithms: Optional[List[str]]

実験に対して無視するアルゴリズムの一覧。既定値は None です

training_mode: Optional[Union[str, TabularTrainingMode]]

[試験段階]使用するトレーニングモード。使用可能な値は次のとおりです。

distributed- では、サポートされているアルゴリズムの分散トレーニングが可能になります。
non_distributed- 分散トレーニングを無効にします。
auto- 現在、non_distributedと同じです。今後、これは変更される可能性があります。

注: このパラメーターはパブリックプレビュー段階であり、今後変更される可能性があります。

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

属性

base_path

リソースのベースパス。

戻り値

リソースのベースパス。

の戻り値の型 :

str

creation_context

リソースの作成コンテキスト。

戻り値

リソースの作成メタデータ。

の戻り値の型 :

Optional[SystemData]

featurization

AutoML ジョブの表形式の特徴付け設定を取得します。

戻り値

AutoML ジョブの表形式の特徴付け設定

の戻り値の型 :

TabularFeaturizationSettings

id

リソース ID。

戻り値

リソースのグローバル ID、Azure Resource Manager (ARM) ID。

の戻り値の型 :

Optional[str]

inputs

limits

AutoML ジョブの表形式の制限を取得します。

戻り値

AutoML ジョブの表形式の制限

の戻り値の型 :

TabularLimitSettings

log_files

ジョブ出力ファイル。

戻り値

ログ名と URL のディクショナリ。

の戻り値の型 :

Optional[Dict[str, str]]

log_verbosity

AutoML ジョブのログの詳細度を取得します。

戻り値

AutoML ジョブのログの詳細度

の戻り値の型 :

<xref:LogVerbosity>

outputs

primary_metric

status

ジョブの状態。

一般的には "Running"、"Completed"、"Failed" などの値が返されます。使用可能なすべての値は次のとおりです。

NotStarted - これは、クラウドの送信前にクライアント側の Run オブジェクトが存在する一時的な状態です。
Starting - クラウドで Run が処理され始めています。この時点で、呼び出し元に実行 ID があります。
プロビジョニング - 特定のジョブの送信に対してオンデマンドコンピューティングが作成されています。
準備中 - 実行環境は準備中であり、次の 2 つの段階のいずれかにあります。
- Docker イメージのビルド
- Conda 環境のセットアップ
Queued - ジョブはコンピューティング先でキューに入れられます。たとえば、BatchAI では、ジョブはキューに入った状態です

要求されたノードの準備が整うのを待機しています。
実行中 - コンピューティング先でジョブの実行が開始されました。
最終処理 - ユーザーコードの実行が完了し、実行は後処理段階にあります。
CancelRequested - ジョブに対してキャンセルが要求されました。
完了 - 実行が正常に完了しました。これには、ユーザーコードの実行と実行の両方が含まれます

後処理のステージ。
Failed - 実行に失敗しました。通常は実行の Error プロパティで、理由に関する詳細が提供されます。
Canceled - キャンセル要求に従い、実行が現在正常にキャンセルされたことを示します。
NotResponding - ハートビートが有効になっている実行の場合、最近ハートビートが送信されていません。

戻り値

ジョブの状態。

の戻り値の型 :

Optional[str]

studio_url

Azure ML Studio エンドポイント。

戻り値

ジョブの詳細ページの URL。

の戻り値の型 :

Optional[str]

task_type

タスクの種類を取得します。

戻り値

実行するタスクの種類。使用できる値は、"classification"、"regression"、"forecasting" です。

の戻り値の型 :

str

test_data

テストデータを取得します。

戻り値

データ入力をテストする

の戻り値の型 :

Input

training

training_data

トレーニングデータを取得します。

戻り値

トレーニングデータ入力

の戻り値の型 :

Input

type

ジョブの種類。

戻り値

ジョブの種類。

の戻り値の型 :

Optional[str]

validation_data

検証データを取得します。

戻り値

検証データの入力

の戻り値の型 :

Input

次の方法で共有

RegressionJob クラス

コンストラクター

パラメーター

メソッド

dump

パラメーター

例外

set_data

パラメーター

例外

set_featurization

パラメーター

例外

set_limits

パラメーター

例外

set_training

パラメーター

例外

属性

base_path

戻り値

の戻り値の型 :

creation_context

戻り値

の戻り値の型 :

featurization

戻り値

の戻り値の型 :

id

戻り値

の戻り値の型 :

inputs

limits

戻り値

の戻り値の型 :

log_files

戻り値

の戻り値の型 :

log_verbosity

戻り値

の戻り値の型 :

outputs

primary_metric

status

戻り値

の戻り値の型 :

studio_url

戻り値

の戻り値の型 :

task_type

戻り値

の戻り値の型 :

test_data

戻り値

の戻り値の型 :

training

training_data

戻り値

の戻り値の型 :

type

戻り値

の戻り値の型 :

validation_data

戻り値

の戻り値の型 :

フィードバック

その他のリソース