RegressionJob クラス

AutoML 回帰ジョブの構成。

新しい AutoML 回帰タスクを初期化します。

継承
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

コンストラクター

RegressionJob(*, primary_metric: str | None = None, **kwargs)

パラメーター

primary_metric
str
必須

最適化に使用する主なメトリック

kwargs
dict
必須

ジョブ固有の引数

メソッド

dump

ジョブの内容を YAML 形式のファイルにダンプします。

set_data

データ構成を定義します。

set_featurization

特徴エンジニアリング構成を定義します。

set_limits

ジョブの制限を設定します。

set_training

トレーニング関連の設定を構成するメソッド。

dump

ジョブの内容を YAML 形式のファイルにダンプします。

dump(dest: str | PathLike | IO, **kwargs) -> None

パラメーター

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
必須

YAML コンテンツを書き込むローカル パスまたはファイル ストリーム。 dest がファイル パスの場合は、新しいファイルが作成されます。 dest が開いているファイルの場合、ファイルは に直接書き込まれます。

kwargs
dict

YAML シリアライザーに渡す追加の引数。

例外

dest がファイル パスであり、ファイルが既に存在する場合に発生します。

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_data

データ構成を定義します。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

パラメーター

training_data
Input

トレーニング データ。

target_column_name
str

ターゲット列の列名。

weight_column_name
Optional[str]

重みの列名。既定値は None です

validation_data
Optional[Input]

検証データ、既定値は [なし]

validation_data_size
Optional[float]

検証データ サイズ(既定値は None)

n_cross_validations
Optional[Union[str, int]]

n_cross_validations、既定値は None です

cv_split_column_names
Optional[List[str]]

cv_split_column_names、既定値は None です

test_data
Optional[Input]

テスト データ、既定値は [なし]

test_data_size
Optional[float]

テスト データ サイズ(既定値は None)

例外

dest がファイル パスであり、ファイルが既に存在する場合に発生します。

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_featurization

特徴エンジニアリング構成を定義します。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

パラメーター

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

特徴量化中にブロックされるトランスフォーマー名の一覧。既定値は None です

column_name_and_types
Optional[Dict[str, str]]

列の目的を更新するために使用される列名と機能の種類のディクショナリは、既定値は None です

dataset_language
Optional[str]

データセットに含まれる言語の 3 文字の ISO 639-3 コード。 英語以外の言語は、GPU 対応コンピューティングを使用する場合にのみサポートされます。 データセットに複数の言語が含まれている場合は、language_code 'mul' を使用する必要があります。 さまざまな言語の ISO 639-3 コードを見つけるには、 を https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes参照してください。既定値は None です

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

トランスフォーマーと対応するカスタマイズ パラメーターのディクショナリは、既定値は None です。

mode
Optional[str]

"off"、"auto"、既定値は "auto"、既定値は None

enable_dnn_featurization
Optional[bool]

DNN ベースの特徴エンジニアリング方法を含めるかどうか(既定値は None)

例外

dest がファイル パスであり、ファイルが既に存在する場合に発生します。

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_limits

ジョブの制限を設定します。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

パラメーター

enable_early_termination
Optional[bool]

短期間にスコアが改善しない場合に早期終了を有効にするかどうかは、既定値は None です。

早期停止ロジック:

  • 最初の 20 回の反復 (ランドマーク) に早期停止はありません。

  • 早期停止期間は 21 回目の反復で開始され、early_stopping_n_iters 回の反復を探します

    (現在は 10 に設定されています)。 つまり、停止が発生しうる最初の反復は 31 回目です。

  • AutoML では、早期停止後に 2 回のアンサンブル イテレーションがスケジュールされるため、スコアが高くなる可能性があります。

  • 計算される最高スコアの絶対値が過去の

    early_stopping_n_iters 回の反復と同じ、つまり、early_stopping_n_iters 回の反復のスコアに改善がない場合、早期停止がトリガーされます。

exit_score
Optional[float]

実験のターゲット スコア。 実験は、このスコアに達すると終了します。 指定しない場合 (基準なし)、実験は、主要メトリックでそれ以上の進行がなくなるまで実行されます。 終了条件の詳細については、この 記事 を参照してください。既定値は None です

max_concurrent_trials
Optional[int]

これは、並列で実行される反復の最大数です。 既定値は 1 です。

  • AmlCompute クラスターでは、ノードごとに 1 回のイテレーション実行がサポートされます。

複数の AutoML 実験の親が単一の AmlCompute クラスターで並行して実行される場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。 それ以外の場合は、実行は、ノードが使用可能になるまでキューに入れられます。

  • DSVM は、ノードごとに複数の反復をサポートします。 max_concurrent_trials should

は、DSVM 上のコアの数以下である必要があります。 1 つの DSVM 上で複数の実験を並行して実行する場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。

  • Databricks - max_concurrent_trials の数以下にする必要があります

Databricks 上のワーカー ノード。

max_concurrent_trials はローカル実行には適用されません。 以前は、このパラメーターの名前は concurrent_iterations でした。

max_cores_per_trial
Optional[int]

特定のトレーニング反復に使用するスレッドの最大数。 許容される値:

  • 1 より大きく、コンピューティング先のコアの最大数以下。

  • -1 に等しい。これは、子の実行ごと、反復ごとに可能なすべてのコアを使用することを意味します。

  • 1 に等しい。これは既定値です。

max_nodes
Optional[int]

[試験段階]分散トレーニングに使用するノードの最大数。

  • 予測のために、各モデルは max(2, int(max_nodes / max_concurrent_trials)) ノードを使用してトレーニングされます。

  • 分類/回帰の場合、各モデルはmax_nodesノードを使用してトレーニングされます。

注- このパラメーターはパブリック プレビュー段階であり、今後変更される可能性があります。

max_trials
Optional[int]

自動 ML 実験中にテストする異なるアルゴリズムとパラメーターの組み合わせの合計数。 指定しない場合、既定値は 1000 反復です。

timeout_minutes
Optional[int]

すべてのイテレーションを組み合わせて、実験が終了するまでにかかる分単位での最大時間。 指定されていない場合、既定の実験タイムアウトは 6 日です。 タイムアウトを 1 時間以下に指定するには、データセットのサイズが 10,000,000 (行の時間列) を超えないか、エラー結果であることを確認します。既定値は None です

trial_timeout_minutes
Optional[int]

各反復で終了前に実行できる最大時間 (分)。 指定しない場合、1 か月または 43200 分の値が使用され、既定値は None です

例外

dest がファイル パスであり、ファイルが既に存在する場合に発生します。

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_training

トレーニング関連の設定を構成するメソッド。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

パラメーター

enable_onnx_compatible_models
Optional[bool]

ONNX と互換性のあるモデルの強制を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、こちらの 記事を参照してください。

enable_dnn_training
Optional[bool]

モデルの選択時に DNN ベースのモデルを含めるかどうか。 ただし、既定値は、DNN NLP タスクの場合は True、他のすべての AutoML タスクの場合は False です。

enable_model_explainability
Optional[bool]

すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。 詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。 の既定値は None です

enable_stack_ensemble
Optional[bool]

StackEnsemble の反復を有効/無効にするかどうか。 enable_onnx_compatible_models フラグを設定すると、StackEnsemble 反復は無効になります。 同様に、Timeseries タスクの場合、meta learner の調整に使用されるトレーニング セットが小さいことによるオーバーフィットのリスクを回避するために、StackEnsemble の反復は既定で無効になります。 アンサンブルの詳細については、「 アンサンブル構成 」を参照してください。既定値は None です。

enable_vote_ensemble
Optional[bool]

VotingEnsemble の反復を有効/無効にするかどうか。 アンサンブルの詳細については、「 アンサンブル構成 」を参照してください。既定値は None です。

stack_ensemble_settings
Optional[StackEnsembleSettings]

StackEnsemble イテレーションの設定。既定値は None です

ensemble_model_download_timeout
Optional[int]

VotingEnsemble と StackEnsemble モデルの生成中に、前の子実行から複数の適合モデルがダウンロードされます。 300 秒より大きい値でこのパラメーターを構成します。時間が長い場合、既定値は None です

allowed_training_algorithms
Optional[List[str]]

実験を検索するモデル名のリスト。 指定しない場合、タスクでサポートされているすべてのモデルから、または非推奨の TensorFlow モデルで blocked_training_algorithms 指定されたすべてのモデルを引いた値が使用され、既定値は None になります。

blocked_training_algorithms
Optional[List[str]]

実験に対して無視するアルゴリズムの一覧。既定値は None です

training_mode
Optional[Union[str, TabularTrainingMode]]

[試験段階]使用するトレーニング モード。 使用可能な値は次のとおりです。

  • distributed- では、サポートされているアルゴリズムの分散トレーニングが可能になります。

  • non_distributed- 分散トレーニングを無効にします。

  • auto- 現在、non_distributedと同じです。 今後、これは変更される可能性があります。

注: このパラメーターはパブリック プレビュー段階であり、今後変更される可能性があります。

例外

dest がファイル パスであり、ファイルが既に存在する場合に発生します。

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

属性

base_path

リソースのベース パス。

戻り値

リソースのベース パス。

の戻り値の型 :

str

creation_context

リソースの作成コンテキスト。

戻り値

リソースの作成メタデータ。

の戻り値の型 :

featurization

AutoML ジョブの表形式の特徴付け設定を取得します。

戻り値

AutoML ジョブの表形式の特徴付け設定

の戻り値の型 :

id

リソース ID。

戻り値

リソースのグローバル ID、Azure Resource Manager (ARM) ID。

の戻り値の型 :

inputs

limits

AutoML ジョブの表形式の制限を取得します。

戻り値

AutoML ジョブの表形式の制限

の戻り値の型 :

log_files

ジョブ出力ファイル。

戻り値

ログ名と URL のディクショナリ。

の戻り値の型 :

log_verbosity

AutoML ジョブのログの詳細度を取得します。

戻り値

AutoML ジョブのログの詳細度

の戻り値の型 :

<xref:LogVerbosity>

outputs

primary_metric

status

ジョブの状態。

一般的には "Running"、"Completed"、"Failed" などの値が返されます。 使用可能なすべての値は次のとおりです。

  • NotStarted - これは、クラウドの送信前にクライアント側の Run オブジェクトが存在する一時的な状態です。

  • Starting - クラウドで Run が処理され始めています。 この時点で、呼び出し元に実行 ID があります。

  • プロビジョニング - 特定のジョブの送信に対してオンデマンド コンピューティングが作成されています。

  • 準備中 - 実行環境は準備中であり、次の 2 つの段階のいずれかにあります。

    • Docker イメージのビルド

    • Conda 環境のセットアップ

  • Queued - ジョブはコンピューティング先でキューに入れられます。 たとえば、BatchAI では、ジョブはキューに入った状態です

    要求されたノードの準備が整うのを待機しています。

  • 実行中 - コンピューティング 先でジョブの実行が開始されました。

  • 最終処理 - ユーザー コードの実行が完了し、実行は後処理段階にあります。

  • CancelRequested - ジョブに対してキャンセルが要求されました。

  • 完了 - 実行が正常に完了しました。 これには、ユーザー コードの実行と実行の両方が含まれます

    後処理のステージ。

  • Failed - 実行に失敗しました。 通常は実行の Error プロパティで、理由に関する詳細が提供されます。

  • Canceled - キャンセル要求に従い、実行が現在正常にキャンセルされたことを示します。

  • NotResponding - ハートビートが有効になっている実行の場合、最近ハートビートが送信されていません。

戻り値

ジョブの状態。

の戻り値の型 :

studio_url

Azure ML Studio エンドポイント。

戻り値

ジョブの詳細ページの URL。

の戻り値の型 :

task_type

タスクの種類を取得します。

戻り値

実行するタスクの種類。 使用できる値は、"classification"、"regression"、"forecasting" です。

の戻り値の型 :

str

test_data

テスト データを取得します。

戻り値

データ入力をテストする

の戻り値の型 :

training

training_data

トレーニング データを取得します。

戻り値

トレーニング データ入力

の戻り値の型 :

type

ジョブの種類。

戻り値

ジョブの種類。

の戻り値の型 :

validation_data

検証データを取得します。

戻り値

検証データの入力

の戻り値の型 :