次の方法で共有


AutoMLConfig クラス

Azure Machine Learning で自動 ML 実験を送信するための構成を表します。

この構成オブジェクトには、実験の実行を構成するためのパラメーターと、実行時に使用されるトレーニング データが含まれており、保持されます。 設定の選択に関するガイダンスについては、「 https://aka.ms/AutoMLConfig」を参照してください。

AutoMLConfig を作成します。

コンストラクター

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

パラメーター

名前 説明
task
必須
str または Tasks

実行するタスクの種類。 解決する自動 ML の問題の種類に応じて、値として "分類"、"回帰"、または "予測" を指定できます。

path
必須
str

Azure Machine Learning プロジェクト フォルダーへの完全なパス。 指定しない場合、既定では現在のディレクトリまたは "." が使用されます。

iterations
必須
int

自動 ML 実験中にテストするさまざまなアルゴリズムとパラメーターの組み合わせの合計数。 指定しない場合、既定値は 1,000 イテレーションです。

primary_metric
必須
str または Metric

自動機械学習がモデルの選択のために最適化するメトリック。 自動化された Machine Learning では、最適化できる数よりも多くのメトリックが収集されます。 get_primary_metricsを使用して、特定のタスクの有効なメトリックの一覧を取得できます。 メトリックの計算方法の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricを参照してください。

指定しない場合、精度は分類タスクに使用され、正規化された平方根平均は予測タスクと回帰タスクに使用され、精度は画像分類と画像の複数ラベル分類に使用され、平均平均精度は画像物体検出に使用されます。

positive_label
必須
Any

自動機械学習がバイナリ メトリックの計算に使用する正のクラス ラベル。 二項メトリックは、分類タスクの 2 つの条件で計算されます。

  1. label 列は、positive_labelが 渡されたときに AutoML が指定された正のクラスを使用する二項分類タスクを示す 2 つのクラスで構成されます。それ以外の場合、AutoML はラベルでエンコードされた値に基づいて正のクラスを選択します。
  2. positive_labelが指定された複数クラス分類タスク

分類の詳細については、分類 シナリオのチェックアウト メトリックを参照してください

compute_target
必須

自動 Machine Learning 実験を実行する Azure Machine Learning コンピューティング ターゲット。 コンピューティング 先の詳細については、 https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote を参照してください。

spark_context
必須
<xref:SparkContext>

Spark コンテキスト。 Azure Databricks/Spark 環境内で使用する場合にのみ適用されます。

X
必須
DataFrame または ndarray または Dataset または TabularDataset

実験中にパイプラインを調整するときに使用するトレーニング機能。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。

y
必須
DataFrame または ndarray または Dataset または TabularDataset

実験中にパイプラインを調整するときに使用するトレーニング ラベル。 これは、モデルが予測する値です。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。

sample_weight
必須
DataFrame または ndarray または TabularDataset

適合パイプラインを実行するときに各トレーニング サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。

Xを指定するときに、このパラメーターを指定します。 この設定は非推奨になっています。 代わりにtraining_dataとweight_column_nameを使用してください。

X_valid
必須
DataFrame または ndarray または Dataset または TabularDataset

実験中にパイプラインを調整するときに使用する検証機能。

指定する場合は、 y_valid または sample_weight_valid も指定する必要があります。 この設定は非推奨になっています。 代わりにvalidation_dataとlabel_column_nameを使用してください。

y_valid
必須
DataFrame または ndarray または Dataset または TabularDataset

実験中にパイプラインを調整するときに使用する検証ラベル。

X_validy_validの両方を一緒に指定する必要があります。 この設定は非推奨になっています。 代わりにvalidation_dataとlabel_column_nameを使用してください。

sample_weight_valid
必須
DataFrame または ndarray または TabularDataset

スコアリング パイプラインの実行時に各検証サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。

X_validを指定するときに、このパラメーターを指定します。 この設定は非推奨になっています。 代わりに、validation_dataとweight_column_nameを使用してください。

cv_splits_indices
必須

クロス検証のためにトレーニング データを分割する場所のインデックス。 各行は個別のクロスフォールドであり、各クロスフォールド内で、2 つの numpy 配列を提供します。1 つ目はトレーニング データに使用するサンプルのインデックス、2 つ目は検証データに使用するインデックスを持つインデックスです。 つまり、[t1, v1], [t2, v2], ...] です。ここで、t1 は最初のクロスフォールドのトレーニング インデックスで、v1 は最初のクロスフォールドの検証インデックスです。

既存のデータを検証データとして指定するには、 validation_dataを使用します。 AutoML でトレーニング データから検証データを抽出できるようにするには、 n_cross_validations または validation_sizeを指定します。 cv_split_column_namesにクロス検証列がある場合は、training_dataを使用します。

validation_size
必須

ユーザー検証データが指定されていない場合に検証のために保持するデータの割合。 これは、0.0 から 1.0 までの範囲で指定する必要があります。

検証データを提供する validation_data を指定します。それ以外の場合は、指定したトレーニング データから検証データを抽出する n_cross_validations または validation_size を設定します。 カスタムクロス検証フォールドの場合は、 cv_split_column_namesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

n_cross_validations
必須
int

ユーザー検証データが指定されていない場合に実行するクロス検証の数。

検証データを提供する validation_data を指定します。それ以外の場合は、指定したトレーニング データから検証データを抽出する n_cross_validations または validation_size を設定します。 カスタムクロス検証フォールドの場合は、 cv_split_column_namesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

y_min
必須

回帰実験の最小値 y。 y_miny_maxの組み合わせは、入力データ範囲に基づいてテスト セットメトリックを正規化するために使用されます。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

y_max
必須

回帰実験の最大値 y。 y_miny_maxの組み合わせは、入力データ範囲に基づいてテスト セットメトリックを正規化するために使用されます。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

num_classes
必須
int

分類実験のラベル データ内のクラスの数。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

featurization
必須

'auto' / 'off' / FeaturizationConfig Indicator for if featurization step should be automatically or not, orwhether customized featurization should be used. 注: 入力データがスパースの場合、特徴量化を有効にすることはできません。

列の種類が自動的に検出されます。 検出された列の種類に基づいて、前処理/特徴付けは次のように行われます。

  • カテゴリ: ターゲット エンコード、1 つのホット エンコード、高カーディナリティ カテゴリのドロップ、欠損値の補完。

  • 数値: 欠損値、クラスター距離、証拠の重みを補完します。

  • DateTime: 日、秒、分、時間などのいくつかの機能。

  • テキスト: 単語のバッグ、事前トレーニング済みの Word 埋め込み、テキスト ターゲット エンコード。

詳細については、 Python での自動 ML 実験の構成に関する記事を参照してください。

特徴量化ステップをカスタマイズするには、FeaturizationConfig オブジェクトを指定します。 カスタマイズされた特徴量化では、現在、一連のトランスフォーマーのブロック、列の目的の更新、トランスフォーマー パラメーターの編集、列の削除がサポートされています。 詳細については、「 特徴エンジニアリングのカスタマイズ」を参照してください。

注: 時系列機能は、タスクの種類がこのパラメーターに依存しない予測に設定されている場合は、個別に処理されます。

max_cores_per_iteration
必須
int

特定のトレーニング イテレーションに使用するスレッドの最大数。 許容される値:

  • 1 より大きく、コンピューティング 先のコアの最大数以下。

  • -1 と同じです。つまり、子実行ごとにイテレーションごとに使用可能なすべてのコアを使用します。

  • 既定値は 1 です。

max_concurrent_iterations
必須
int

並列で実行されるイテレーションの最大数を表します。 既定値は 1 です。

  • AmlCompute クラスターでは、ノードごとに 1 つの相互運用が実行されます。 1 つの AmlCompute クラスターで並列に実行される複数の AutoML 実験の親実行の場合、すべての実験の max_concurrent_iterations 値の合計がノードの最大数以下である必要があります。 それ以外の場合、ノードが使用可能になるまで実行はキューに入れられます。

  • DSVM では、ノードごとに複数のイテレーションがサポートされます。 max_concurrent_iterations は、DSVM 上のコア数以下である必要があります。 1 つの DSVM で複数の実験を並列に実行する場合、すべての実験の max_concurrent_iterations 値の合計がノードの最大数以下である必要があります。

  • Databricks - max_concurrent_iterations は、Databricks 上のワーカー ノードの数以下にする必要があります。

max_concurrent_iterations はローカル実行には適用されません。 以前は、このパラメーターの名前は concurrent_iterations でした。

iteration_timeout_minutes
必須
int

各イテレーションが終了するまでに実行できる最大時間 (分)。 指定しない場合は、1 か月または 43200 分の値が使用されます。

mem_in_mb
必須
int

各イテレーションが終了する前に実行できる最大メモリ使用量。 指定しない場合は、1 PB または 1073741824 MB の値が使用されます。

enforce_time_on_windows
必須

Windows での各イテレーションでモデル トレーニングに時間制限を適用するかどうか。 既定値は True です。 Python スクリプト ファイル (.py) から実行する場合は、Windows でリソース制限を許可するためのドキュメントを参照してください。

experiment_timeout_hours
必須

すべてのイテレーションを組み合わせて、実験が終了するまでにかかる最大時間 (時間単位)。 15 分を表す 0.25 のような 10 進値を指定できます。 指定しない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行数列) を超えないか、エラー結果であることを確認します。

experiment_exit_score
必須

実験のターゲット スコア。 このスコアに達すると、実験は終了します。 指定しない場合 (条件なし)、実験はプライマリ メトリックに対してそれ以上の進行状況が行われなくなるまで実行されます。 終了条件の詳細については、この 記事を参照してください。

enable_early_stopping
必須

スコアが短期的に改善されていない場合に早期終了を有効にするかどうか。 既定値は True です。

早期停止ロジック:

  • 最初の 20 回のイテレーション (ランドマーク) の早期停止はありません。

  • 早期停止ウィンドウは 21 番目のイテレーションで開始され、early_stopping_n_itersイテレーションが検索されます

    (現在は 10 に設定されています)。 これは、停止が発生する可能性がある最初のイテレーションが 31 番目であることを意味します。

  • AutoML では、早期停止後も 2 回のアンサンブル イテレーションがスケジュールされるため、

    より高いスコア。

  • 計算されたベスト スコアの絶対値が過去と同じ場合、早期停止がトリガーされます

    イテレーションearly_stopping_n_iters、つまり、early_stopping_n_itersイテレーションのスコアが改善されていない場合です。

blocked_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

実験に対して無視するアルゴリズムの一覧。 enable_tfが False の場合、TensorFlow モデルはblocked_modelsに含まれます。

blacklist_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

非推奨のパラメーターは、代わりにblocked_modelsを使用してください。

exclude_nan_labels
必須

ラベルに NaN 値を含む行を除外するかどうかを指定します。 既定値は True です。

verbosity
必須
int

ログ ファイルに書き込む詳細レベル。 既定値は INFO または 20 です。 許容される値は、Python ログ ライブラリで定義されています。

enable_tf
必須

Tensorflow アルゴリズムを有効または無効にするパラメーターが非推奨になりました。 既定値は False です。

model_explainability
必須

すべての AutoML トレーニング イテレーションの最後に最適な AutoML モデルの説明を有効にするかどうか。 既定値は True です。 詳細については、「 解釈可能性: 自動機械学習のモデルの説明」を参照してください。

allowed_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 blocked_models または非推奨の TensorFlow モデルで指定されたモデルを引いた値が使用されます。 各タスクの種類でサポートされているモデルについては、 SupportedModels クラスで説明します。

whitelist_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

非推奨のパラメーターは、代わりに allowed_models を使用してください。

enable_onnx_compatible_models
必須

ONNX 互換モデルの適用を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、この 記事を参照してください。

forecasting_parameters
必須

すべての予測特定のパラメーターを保持する ForecastingParameters オブジェクト。

time_column_name
必須
str

時刻列の名前。 このパラメーターは、時系列の構築とその頻度の推論に使用される入力データの datetime 列を予測する場合に必要です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

max_horizon
必須
int

時系列の頻度の単位で求められる最大予測期間。 既定値は 1 です。

単位は、トレーニング データの時間間隔 (予測者が予測する必要がある月単位、週単位など) に基づいています。タスクの種類が予測の場合、このパラメーターは必須です。 予測パラメーターの設定の詳細については、「時系列予測 モデルの自動トレーニング」を参照してください。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

grain_column_names
必須
str または list(str)

時系列をグループ化するために使用される列の名前。 複数の系列を作成するために使用できます。 グレインが定義されていない場合、データ セットは 1 つの時系列であると見なされます。 このパラメーターは、タスクの種類の予測で使用されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

target_lags
必須
int または list(int)

ターゲット列から遅延する過去の期間の数。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

予測の場合、このパラメーターは、データの頻度に基づいてターゲット値に遅延する行数を表します。 これは、リストまたは単一の整数として表されます。 遅延は、独立変数と依存変数の関係が既定で一致しない場合、または相互に関連付けられない場合に使用する必要があります。 たとえば、製品の需要を予測する場合、任意の月の需要は、3 か月前の特定の商品の価格によって異なります。 この例では、モデルが正しい関係に基づいてトレーニングされるように、ターゲット (需要) を 3 か月差で遅くすることができます。 詳細については、「 時系列予測モデルの自動トレーニング」を参照してください。

feature_lags
必須
str

数値特徴のラグを生成するためのフラグ。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

target_rolling_window_size
必須
int

ターゲット列のローリング ウィンドウ平均の作成に使用された過去の期間の数。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

予測の場合、このパラメーターは予測値の生成に使用する n 個の履歴期間 ( <= トレーニング セット サイズ) を表します。 省略した場合、 n はトレーニング セットの完全なサイズです。 モデルのトレーニング時に特定の量の履歴のみを考慮する場合は、このパラメーターを指定します。

country_or_region
必須
str

休日の特徴を生成するために使用される国/地域。 これらは、ISO 3166 の 2 文字の国/地域コード ("US" や "GB" など) である必要があります。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

use_stl
必須
str

時系列ターゲット列の STL 分解を構成します。 use_stlは、3 つの値を取ることができます。None (既定値) - stl 分解なし、'season' - シーズン コンポーネントのみを生成し、season_trend - シーズンコンポーネントとトレンド コンポーネントの両方を生成します。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

seasonality
必須
int または str

時系列の季節性を設定します。 季節性が 'auto' に設定されている場合は、推論されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

short_series_handling_configuration
必須
str

AutoML で短い時系列を処理する方法を定義するパラメーター。

使用可能な値: 'auto' (既定値)、'pad'、'drop'、None。

  • オート ショートシリーズは、長い系列がない場合はパディングされ、それ以外の場合はショートシリーズが削除されます。
  • パッド すべての短いシリーズが埋め込まれます。
  • すべての 短いシリーズをドロップするとドロップされます。
  • い系列は変更されません。 "pad" に設定すると、テーブルには、リグレッサーのゼロと空の値が埋め込まれます。ターゲットのランダム値には、指定された時系列 ID の平均がターゲット値の中央値と等しくなります。中央値が 0 以上の場合、最小埋め込み値は 0 でクリップされます。入力:

日付

numeric_value

文字列

ターゲット する

2020-01-01

23

55

値の最小数が 4 であると仮定した場合の出力:

日付

numeric_value

文字列

ターゲット する

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

2020-01-01

23

55

手記: short_series_handling_configurationとレガシ short_series_handlingの 2 つのパラメーターがあります。 両方のパラメーターを設定すると、次の表に示すように同期されます (簡潔にするためにshort_series_handling_configurationとshort_series_handlingはそれぞれhandling_configurationと処理としてマークされます)。

取り扱い

handling_configuration

結果の処理

結果のhandling_configuration

正しい

自動

正しい

自動

正しい

パッド

正しい

自動

正しい

落とす

正しい

自動

正しい

なし

いいえ

なし

いいえ

自動

いいえ

なし

いいえ

パッド

いいえ

なし

いいえ

落とす

いいえ

なし

いいえ

なし

いいえ

なし

freq
必須
str または None

予測頻度。

予測の場合、このパラメーターは、日単位、週単位、年単位など、予測が必要な期間を表します。予測頻度は、既定ではデータセットの頻度です。 必要に応じて、データセットの頻度よりも大きい (ただし小さくすることはできません) に設定できます。 データを集計し、予測頻度で結果を生成します。 たとえば、日次データの場合、頻度を日単位、週単位、月単位に設定できますが、時間単位には設定できません。 頻度は pandas オフセット エイリアスである必要があります。 詳細については、pandas のドキュメントを参照してください。 https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
必須
str または None

ユーザーが指定した頻度に準拠するように時系列ターゲット列を集計するために使用する関数。 target_aggregation_functionが設定されていても freq パラメーターが設定されていない場合は、エラーが発生します。 可能なターゲット集計関数は、"sum"、"max"、"min"、"mean" です。

周波数

target_aggregation_function

データの規則性の修正メカニズム

なし (既定値)

なし (既定値)

集計は適用されません。有効な頻度が固定できない場合は、エラーが発生します。

一部の値

なし (既定値)

集計は適用されません。指定された周波数グリッドに準拠するデータ ポイントの数が少ない場合は、90%these ポイントが削除されます。それ以外の場合はエラーが発生します。

なし (既定値)

集計関数

頻度パラメーターの不足に関するエラーが発生しました。

一部の値

集計関数

providedaggregation 関数を使用して頻度に集計します。

enable_voting_ensemble
必須

VotingEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は True です。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。

enable_stack_ensemble
必須

StackEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は None です。 enable_onnx_compatible_models フラグが設定されている場合、StackEnsemble イテレーションは無効になります。 同様に、時系列タスクでは、メタ学習者の適合に使用されるトレーニング セットが小さいためにオーバーフィットのリスクを回避するために、StackEnsemble イテレーションが既定で無効になります。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。

debug_log
必須
str

デバッグ情報を書き込むログ ファイル。 指定しない場合は、'automl.log' が使用されます。

training_data
必須
DataFrame または Dataset または DatasetDefinition または TabularDataset

実験内で使用するトレーニング データ。 これには、トレーニング機能とラベル列 (必要に応じてサンプルの重み列) の両方が含まれている必要があります。 training_dataを指定する場合は、label_column_name パラメーターも指定する必要があります。

training_data はバージョン 1.0.81 で導入されました。

validation_data
必須
DataFrame または Dataset または DatasetDefinition または TabularDataset

実験内で使用する検証データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。 validation_data を指定する場合は、training_datalabel_column_name のパラメーターを指定する必要があります。

validation_data はバージョン 1.0.81 で導入されました。 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

test_data
必須

テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用されるテスト データ。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。

このパラメーターまたは test_size パラメーターが指定されていない場合、モデルのトレーニングが完了した後、テストの実行は自動的に実行されません。 テスト データには、特徴とラベル列の両方が含まれている必要があります。 test_dataを指定する場合は、label_column_name パラメーターを指定する必要があります。

test_size
必須

テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のテスト データに対して保持するトレーニング データの割合。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。

これは、0.0 から 1.0 までの範囲で指定する必要があります。 test_sizevalidation_sizeと同時に指定されている場合、検証データが分割される前に、テスト データがtraining_dataから分割されます。 たとえば、 validation_size=0.1test_size=0.1 、元のトレーニング データに 1,000 行がある場合、テスト データには 100 行、検証データには 90 行、トレーニング データには 810 行が含まれます。

回帰ベースのタスクでは、ランダム サンプリングが使用されます。 分類タスクでは、階層サンプリングが使用されます。 現在、予測では、トレーニング/テスト分割を使用したテスト データセットの指定はサポートされていません。

このパラメーターまたは test_data パラメーターが指定されていない場合、モデルのトレーニングが完了した後、テストの実行は自動的に実行されません。

label_column_name
必須

ラベル列の名前。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。

このパラメーターは、 training_datavalidation_data 、および test_data パラメーターに適用できます。 label_column_name はバージョン 1.0.81 で導入されました。

weight_column_name
必須

サンプルの重み列の名前。 自動 ML では、加重列が入力としてサポートされ、データ内の行が上下に重み付けされます。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。

このパラメーターは、 training_data パラメーターと validation_data パラメーターに適用できます。 weight_column_names はバージョン 1.0.81 で導入されました。

cv_split_column_names
必須

カスタムクロス検証分割を含む列の名前の一覧。 各 CV 分割列は 1 つの CV 分割を表し、各行はトレーニング用に 1、検証用に 0 としてマークされます。

このパラメーターは、カスタムクロス検証の目的 training_data パラメーターに適用できます。 cv_split_column_names バージョン 1.6.0 で導入されました

cv_split_column_namesまたはcv_splits_indicesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

enable_local_managed
必須

無効なパラメーター。 現時点では、ローカルマネージド実行を有効にすることはできません。

enable_dnn
必須

モデルの選択中に DNN ベースのモデルを含めるかどうか。 init の既定値は None です。 ただし、DNN NLP タスクの既定値は True で、他のすべての AutoML タスクでは False です。

task
必須
str または Tasks

実行するタスクの種類。 解決する自動 ML の問題の種類に応じて、値として "分類"、"回帰"、または "予測" を指定できます。

path
必須
str

Azure Machine Learning プロジェクト フォルダーへの完全なパス。 指定しない場合、既定では現在のディレクトリまたは "." が使用されます。

iterations
必須
int

自動 ML 実験中にテストするさまざまなアルゴリズムとパラメーターの組み合わせの合計数。 指定しない場合、既定値は 1,000 イテレーションです。

primary_metric
必須
str または Metric

自動機械学習がモデルの選択のために最適化するメトリック。 自動化された Machine Learning では、最適化できる数よりも多くのメトリックが収集されます。 get_primary_metricsを使用して、特定のタスクの有効なメトリックの一覧を取得できます。 メトリックの計算方法の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricを参照してください。

指定しない場合、精度は分類タスクに使用され、正規化された平方根平均は予測タスクと回帰タスクに使用され、精度は画像分類と画像の複数ラベル分類に使用され、平均平均精度は画像物体検出に使用されます。

positive_label
必須
Any

自動機械学習がバイナリ メトリックの計算に使用する正のクラス ラベル。 二項メトリックは、分類タスクの 2 つの条件で計算されます。

  1. label 列は、positive_labelが 渡されたときに AutoML が指定された正のクラスを使用する二項分類タスクを示す 2 つのクラスで構成されます。それ以外の場合、AutoML はラベルでエンコードされた値に基づいて正のクラスを選択します。
  2. positive_labelが指定された複数クラス分類タスク

分類の詳細については、分類 シナリオのチェックアウト メトリックを参照してください

compute_target
必須

自動 Machine Learning 実験を実行する Azure Machine Learning コンピューティング ターゲット。 コンピューティング 先の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote を参照してください。

spark_context
必須
<xref:SparkContext>

Spark コンテキスト。 Azure Databricks/Spark 環境内で使用する場合にのみ適用されます。

X
必須
DataFrame または ndarray または Dataset または DatasetDefinition または TabularDataset

実験中にパイプラインを調整するときに使用するトレーニング機能。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。

y
必須
DataFrame または ndarray または Dataset または DatasetDefinition または TabularDataset

実験中にパイプラインを調整するときに使用するトレーニング ラベル。 これは、モデルが予測する値です。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。

sample_weight
必須
DataFrame または ndarray または TabularDataset

適合パイプラインを実行するときに各トレーニング サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。

Xを指定するときに、このパラメーターを指定します。 この設定は非推奨になっています。 代わりにtraining_dataとweight_column_nameを使用してください。

X_valid
必須
DataFrame または ndarray または Dataset または DatasetDefinition または TabularDataset

実験中にパイプラインを調整するときに使用する検証機能。

指定する場合は、 y_valid または sample_weight_valid も指定する必要があります。 この設定は非推奨になっています。 代わりにvalidation_dataとlabel_column_nameを使用してください。

y_valid
必須
DataFrame または ndarray または Dataset または DatasetDefinition または TabularDataset

実験中にパイプラインを調整するときに使用する検証ラベル。

X_validy_validの両方を一緒に指定する必要があります。 この設定は非推奨になっています。 代わりにvalidation_dataとlabel_column_nameを使用してください。

sample_weight_valid
必須
DataFrame または ndarray または TabularDataset

スコアリング パイプラインの実行時に各検証サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。

X_validを指定するときに、このパラメーターを指定します。 この設定は非推奨になっています。 代わりに、validation_dataとweight_column_nameを使用してください。

cv_splits_indices
必須

クロス検証のためにトレーニング データを分割する場所のインデックス。 各行は個別のクロスフォールドであり、各クロスフォールド内で、2 つの numpy 配列を提供します。1 つ目はトレーニング データに使用するサンプルのインデックス、2 つ目は検証データに使用するインデックスを持つインデックスです。 つまり、[t1, v1], [t2, v2], ...] です。ここで、t1 は最初のクロスフォールドのトレーニング インデックスで、v1 は最初のクロスフォールドの検証インデックスです。 このオプションは、データが個別の特徴データセットとラベル列として渡される場合にサポートされます。

既存のデータを検証データとして指定するには、 validation_dataを使用します。 AutoML でトレーニング データから検証データを抽出できるようにするには、 n_cross_validations または validation_sizeを指定します。 cv_split_column_namesにクロス検証列がある場合は、training_dataを使用します。

validation_size
必須

ユーザー検証データが指定されていない場合に検証のために保持するデータの割合。 これは、0.0 から 1.0 までの範囲で指定する必要があります。

検証データを提供する validation_data を指定します。それ以外の場合は、指定したトレーニング データから検証データを抽出する n_cross_validations または validation_size を設定します。 カスタムクロス検証フォールドの場合は、 cv_split_column_namesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

n_cross_validations
必須
int または str

ユーザー検証データが指定されていない場合に実行するクロス検証の数。

検証データを提供する validation_data を指定します。それ以外の場合は、指定したトレーニング データから検証データを抽出する n_cross_validations または validation_size を設定します。 カスタムクロス検証フォールドの場合は、 cv_split_column_namesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

y_min
必須

回帰実験の最小値 y。 y_miny_maxの組み合わせは、入力データ範囲に基づいてテスト セットメトリックを正規化するために使用されます。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

y_max
必須

回帰実験の最大値 y。 y_miny_maxの組み合わせは、入力データ範囲に基づいてテスト セットメトリックを正規化するために使用されます。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

num_classes
必須
int

分類実験のラベル データ内のクラスの数。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。

featurization
必須

'auto' / 'off' / FeaturizationConfig Indicator for if featurization step should be automatically or not, orwhether customized featurization should be used. 注: 入力データがスパースの場合、特徴量化を有効にすることはできません。

列の種類が自動的に検出されます。 検出された列の種類に基づいて、前処理/特徴付けは次のように行われます。

  • カテゴリ: ターゲット エンコード、1 つのホット エンコード、高カーディナリティ カテゴリのドロップ、欠損値の補完。

  • 数値: 欠損値、クラスター距離、証拠の重みを補完します。

  • DateTime: 日、秒、分、時間などのいくつかの機能。

  • テキスト: 単語のバッグ、事前トレーニング済みの Word 埋め込み、テキスト ターゲット エンコード。

詳細については、 Python での自動 ML 実験の構成に関する記事を参照してください。

特徴量化ステップをカスタマイズするには、FeaturizationConfig オブジェクトを指定します。 カスタマイズされた特徴量化では、現在、一連のトランスフォーマーのブロック、列の目的の更新、トランスフォーマー パラメーターの編集、列の削除がサポートされています。 詳細については、「 特徴エンジニアリングのカスタマイズ」を参照してください。

注: 時系列機能は、タスクの種類がこのパラメーターに依存しない予測に設定されている場合は、個別に処理されます。

max_cores_per_iteration
必須
int

特定のトレーニング イテレーションに使用するスレッドの最大数。 許容される値:

  • 1 より大きく、コンピューティング 先のコアの最大数以下。

  • -1 と同じです。つまり、子実行ごとにイテレーションごとに使用可能なすべてのコアを使用します。

  • 既定値は 1 です。

max_concurrent_iterations
必須
int

並列で実行されるイテレーションの最大数を表します。 既定値は 1 です。

  • AmlCompute クラスターでは、ノードごとに 1 つの相互運用が実行されます。 1 つの AmlCompute クラスターで複数の実験を並列実行する場合、すべての実験の max_concurrent_iterations 値の合計がノードの最大数以下である必要があります。

  • DSVM では、ノードごとに複数のイテレーションがサポートされます。 max_concurrent_iterations は、DSVM 上のコア数以下である必要があります。 1 つの DSVM で複数の実験を並列に実行する場合、すべての実験の max_concurrent_iterations 値の合計がノードの最大数以下である必要があります。

  • Databricks - max_concurrent_iterations は、Databricks 上のワーカー ノードの数以下にする必要があります。

max_concurrent_iterations はローカル実行には適用されません。 以前は、このパラメーターの名前は concurrent_iterations でした。

iteration_timeout_minutes
必須
int

各イテレーションが終了するまでに実行できる最大時間 (分)。 指定しない場合は、1 か月または 43200 分の値が使用されます。

mem_in_mb
必須
int

各イテレーションが終了する前に実行できる最大メモリ使用量。 指定しない場合は、1 PB または 1073741824 MB の値が使用されます。

enforce_time_on_windows
必須

Windows での各イテレーションでモデル トレーニングに時間制限を適用するかどうか。 既定値は True です。 Python スクリプト ファイル (.py) から実行する場合は、Windows でリソース制限を許可するためのドキュメントを参照してください。

experiment_timeout_hours
必須

すべてのイテレーションを組み合わせて、実験が終了するまでにかかる最大時間 (時間単位)。 15 分を表す 0.25 のような 10 進値を指定できます。 指定しない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行数列) を超えないか、エラー結果であることを確認します。

experiment_exit_score
必須

実験のターゲット スコア。 このスコアに達すると、実験は終了します。 指定しない場合 (条件なし)、実験はプライマリ メトリックに対してそれ以上の進行状況が行われなくなるまで実行されます。 終了条件の詳細については、この >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_<<を参照してください。

enable_early_stopping
必須

スコアが短期的に改善されていない場合に早期終了を有効にするかどうか。 既定値は True です。

早期停止ロジック:

  • 最初の 20 回のイテレーション (ランドマーク) の早期停止はありません。

  • 早期停止ウィンドウは、21 番目のイテレーションで開始され、early_stopping_n_itersイテレーション (現在は 10 に設定) を探します。 これは、停止が発生する可能性がある最初のイテレーションが 31 番目であることを意味します。

  • AutoML では、早期停止後も 2 つのアンサンブル イテレーションがスケジュールされるため、スコアが高くなる可能性があります。

  • 計算されたベスト スコアの絶対値が過去のearly_stopping_n_itersイテレーションで同じ場合、つまり、early_stopping_n_itersイテレーションのスコアが改善されていない場合は、早期停止がトリガーされます。

blocked_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

実験に対して無視するアルゴリズムの一覧。 enable_tfが False の場合、TensorFlow モデルはblocked_modelsに含まれます。

blacklist_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

非推奨のパラメーターは、代わりにblocked_modelsを使用してください。

exclude_nan_labels
必須

ラベルに NaN 値を含む行を除外するかどうかを指定します。 既定値は True です。

verbosity
必須
int

ログ ファイルに書き込む詳細レベル。 既定値は INFO または 20 です。 許容される値は、Python ログ ライブラリで定義されています。

enable_tf
必須

TensorFlow アルゴリズムを有効または無効にするかどうかを指定します。 既定値は False です。

model_explainability
必須

すべての AutoML トレーニング イテレーションの最後に最適な AutoML モデルの説明を有効にするかどうか。 既定値は True です。 詳細については、「 解釈可能性: 自動機械学習のモデルの説明」を参照してください。

allowed_models
必須
list(str) または list(Classification) <xref:for classification task> または list(Regression) <xref:for regression task> または list(Forecasting) <xref:for forecasting task>

実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 blocked_models または非推奨の TensorFlow モデルで指定されたモデルを引いた値が使用されます。 各タスクの種類でサポートされているモデルについては、 SupportedModels クラスで説明します。

allowed_models
必須

実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 blocked_models または非推奨の TensorFlow モデルで指定されたモデルを引いた値が使用されます。 各タスクの種類でサポートされているモデルについては、 SupportedModels クラスで説明します。

whitelist_models
必須

非推奨のパラメーターは、代わりに allowed_models を使用してください。

enable_onnx_compatible_models
必須

ONNX 互換モデルの適用を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、この 記事を参照してください。

forecasting_parameters
必須

すべての予測固有のパラメーターを保持するオブジェクト。

time_column_name
必須
str

時刻列の名前。 このパラメーターは、時系列の構築とその頻度の推論に使用される入力データの datetime 列を予測する場合に必要です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

max_horizon
必須
int

時系列の頻度の単位で求められる最大予測期間。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

単位は、トレーニング データの時間間隔 (予測者が予測する必要がある月単位、週単位など) に基づいています。タスクの種類が予測の場合、このパラメーターは必須です。 予測パラメーターの設定の詳細については、「時系列予測 モデルの自動トレーニング」を参照してください。

grain_column_names
必須
str または list(str)

時系列をグループ化するために使用される列の名前。 複数の系列を作成するために使用できます。 グレインが定義されていない場合、データ セットは 1 つの時系列であると見なされます。 このパラメーターは、タスクの種類の予測で使用されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

target_lags
必須
int または list(int)

ターゲット列から遅延する過去の期間の数。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

予測の場合、このパラメーターは、データの頻度に基づいてターゲット値に遅延する行数を表します。 これは、リストまたは単一の整数として表されます。 遅延は、独立変数と依存変数の関係が既定で一致しない場合、または相互に関連付けられない場合に使用する必要があります。 たとえば、製品の需要を予測する場合、任意の月の需要は、3 か月前の特定の商品の価格によって異なります。 この例では、モデルが正しい関係に基づいてトレーニングされるように、ターゲット (需要) を 3 か月差で遅くすることができます。 詳細については、「 時系列予測モデルの自動トレーニング」を参照してください。

feature_lags
必須
str

数値特徴のラグを生成するためのフラグ。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

target_rolling_window_size
必須
int

ターゲット列のローリング ウィンドウ平均の作成に使用された過去の期間の数。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

予測の場合、このパラメーターは予測値の生成に使用する n 個の履歴期間 ( <= トレーニング セット サイズ) を表します。 省略した場合、 n はトレーニング セットの完全なサイズです。 モデルのトレーニング時に特定の量の履歴のみを考慮する場合は、このパラメーターを指定します。

country_or_region
必須
str

休日の特徴を生成するために使用される国/地域。 これらは、ISO 3166 の 2 文字の国/地域コード ("US" や "GB" など) である必要があります。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

use_stl
必須
str

時系列ターゲット列の STL 分解を構成します。 use_stlは、3 つの値を取ることができます。None (既定値) - stl 分解なし、'season' - シーズン コンポーネントのみを生成し、season_trend - シーズンコンポーネントとトレンド コンポーネントの両方を生成します。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

seasonality
必須
int

時系列の季節性を設定します。 季節性が -1 に設定されている場合は、推論されます。 use_stlが設定されていない場合、このパラメーターは使用されません。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。

short_series_handling_configuration
必須
str

AutoML で短い時系列を処理する方法を定義するパラメーター。

使用可能な値: 'auto' (既定値)、'pad'、'drop'、None。

  • オート ショートシリーズは、長い系列がない場合はパディングされ、それ以外の場合はショートシリーズが削除されます。
  • パッド すべての短いシリーズが埋め込まれます。
  • すべての 短いシリーズをドロップするとドロップされます。
  • い系列は変更されません。 "pad" に設定すると、テーブルには、リグレッサーのゼロと空の値が埋め込まれます。ターゲットのランダム値には、指定された時系列 ID の平均がターゲット値の中央値と等しくなります。中央値が 0 以上の場合、最小埋め込み値は 0 でクリップされます。入力:

日付

numeric_value

文字列

ターゲット する

2020-01-01

23

55

最小値数が 4 であると仮定した出力: +————+—————+———-+──–+ |日付 |numeric_value |string |target |+============+===============+==========+========+ |2019-12-29 |0 |NA |55.1 |+————+—————+———-+——–+ |2019-12-30 |0 |NA |55.6 |+————+—————+———-+——–+ |2019-12-31 |0 |NA |54.5 |+————+—————+———-+——–+ |2020-01-01 |23 |green |55 |+————+—————+———-+——–+

手記: short_series_handling_configurationとレガシ short_series_handlingの 2 つのパラメーターがあります。 両方のパラメーターを設定すると、次の表に示すように同期されます (簡潔にするためにshort_series_handling_configurationとshort_series_handlingはそれぞれhandling_configurationと処理としてマークされます)。

取り扱い

handling_configuration

結果の処理

結果のhandling_configuration

正しい

自動

正しい

自動

正しい

パッド

正しい

自動

正しい

落とす

正しい

自動

正しい

なし

いいえ

なし

いいえ

自動

いいえ

なし

いいえ

パッド

いいえ

なし

いいえ

落とす

いいえ

なし

いいえ

なし

いいえ

なし

freq
必須
str または None

予測頻度。

予測の場合、このパラメーターは、日単位、週単位、年単位など、予測が必要な期間を表します。予測頻度は、既定ではデータセットの頻度です。 必要に応じて、データセットの頻度よりも大きい (ただし小さくすることはできません) に設定できます。 データを集計し、予測頻度で結果を生成します。 たとえば、日次データの場合、頻度を日単位、週単位、月単位に設定できますが、時間単位には設定できません。 頻度は pandas オフセット エイリアスである必要があります。 詳細については、pandas のドキュメントを参照してください。 https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
必須
str または None

ユーザーが指定した頻度に準拠するように時系列ターゲット列を集計するために使用する関数。 target_aggregation_functionが設定されていても freq パラメーターが設定されていない場合は、エラーが発生します。 可能なターゲット集計関数は、"sum"、"max"、"min"、"mean" です。

周波数

target_aggregation_function

データの規則性の修正メカニズム

なし (既定値)

なし (既定値)

集計は適用されません。有効な頻度が固定できない場合は、エラーが発生します。

一部の値

なし (既定値)

集計は適用されません。指定された周波数グリッドに準拠するデータ ポイントの数が少ない場合は、90%these ポイントが削除されます。それ以外の場合はエラーが発生します。

なし (既定値)

集計関数

頻度パラメーターの不足に関するエラーが発生しました。

一部の値

集計関数

providedaggregation 関数を使用して頻度に集計します。

enable_voting_ensemble
必須

VotingEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は True です。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。

enable_stack_ensemble
必須

StackEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は None です。 enable_onnx_compatible_models フラグが設定されている場合、StackEnsemble イテレーションは無効になります。 同様に、時系列タスクでは、メタ学習者の適合に使用されるトレーニング セットが小さいためにオーバーフィットのリスクを回避するために、StackEnsemble イテレーションが既定で無効になります。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。

debug_log
必須
str

デバッグ情報を書き込むログ ファイル。 指定しない場合は、'automl.log' が使用されます。

training_data
必須
DataFrame または Dataset または DatasetDefinition または TabularDataset

実験内で使用するトレーニング データ。 これには、トレーニング機能とラベル列 (必要に応じてサンプルの重み列) の両方が含まれている必要があります。 training_dataを指定する場合は、label_column_name パラメーターも指定する必要があります。

training_data はバージョン 1.0.81 で導入されました。

validation_data
必須
DataFrame または Dataset または DatasetDefinition または TabularDataset

実験内で使用する検証データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。 validation_data を指定する場合は、training_datalabel_column_name のパラメーターを指定する必要があります。

validation_data はバージョン 1.0.81 で導入されました。 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

test_data
必須

テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用されるテスト データ。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。

このパラメーターまたは test_size パラメーターが指定されていない場合、モデルのトレーニングが完了した後、テストの実行は自動的に実行されません。 テスト データには、特徴とラベル列の両方が含まれている必要があります。 test_dataを指定する場合は、label_column_name パラメーターを指定する必要があります。

test_size
必須

テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のテスト データに対して保持するトレーニング データの割合。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。

これは、0.0 から 1.0 までの範囲で指定する必要があります。 test_sizevalidation_sizeと同時に指定されている場合、検証データが分割される前に、テスト データがtraining_dataから分割されます。 たとえば、 validation_size=0.1test_size=0.1 、元のトレーニング データに 1,000 行がある場合、テスト データには 100 行、検証データには 90 行、トレーニング データには 810 行が含まれます。

回帰ベースのタスクでは、ランダム サンプリングが使用されます。 分類タスクでは、階層サンプリングが使用されます。 現在、予測では、トレーニング/テスト分割を使用したテスト データセットの指定はサポートされていません。

このパラメーターまたは test_data パラメーターが指定されていない場合、モデルのトレーニングが完了した後、テストの実行は自動的に実行されません。

label_column_name
必須

ラベル列の名前。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。

このパラメーターは、 training_datavalidation_data 、および test_data パラメーターに適用できます。 label_column_name はバージョン 1.0.81 で導入されました。

weight_column_name
必須

サンプルの重み列の名前。 自動 ML では、加重列が入力としてサポートされ、データ内の行が上下に重み付けされます。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。

このパラメーターは、 training_data パラメーターと validation_data パラメーターに適用できます。 weight_column_names はバージョン 1.0.81 で導入されました。

cv_split_column_names
必須

カスタムクロス検証分割を含む列の名前の一覧。 各 CV 分割列は 1 つの CV 分割を表し、各行はトレーニング用に 1、検証用に 0 としてマークされます。

このパラメーターは、カスタムクロス検証の目的 training_data パラメーターに適用できます。 cv_split_column_names バージョン 1.6.0 で導入されました

cv_split_column_namesまたはcv_splits_indicesを使用します。

詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。

enable_local_managed
必須

無効なパラメーター。 現時点では、ローカルマネージド実行を有効にすることはできません。

enable_dnn
必須

モデルの選択中に DNN ベースのモデルを含めるかどうか。 init の既定値は None です。 ただし、DNN NLP タスクの既定値は True で、他のすべての AutoML タスクでは False です。

注釈

次のコードは、AutoMLConfig オブジェクトを作成し、回帰の実験を送信する基本的な例を示しています。


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

完全なサンプルは回帰で入手できます

予測に AutoMLConfig を使用する例は、次のノートブックにあります。

すべてのタスクの種類に AutoMLConfig を使用する例については、これらの 自動 ML ノートブックを参照してください

自動 ML の背景については、次の記事を参照してください。

自動機械学習、AutoML、実験のトレーニング/検証データ分割とクロス検証を構成するためのさまざまなオプションの詳細については、「自動機械学習 でのデータ分割とクロス検証の構成」を参照してください。

メソッド

as_serializable_dict

オブジェクトをディクショナリに変換します。

get_supported_dataset_languages

サポートされている言語とそれに対応する言語コードを ISO 639-3 で取得します。

as_serializable_dict

オブジェクトをディクショナリに変換します。

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

サポートされている言語とそれに対応する言語コードを ISO 639-3 で取得します。

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

パラメーター

名前 説明
cls
必須

AutoMLConfigのクラス オブジェクト。

use_gpu
必須

gpu コンピューティングが使用されているかどうかを示すブール値。

戻り値

説明

形式 {: }の辞書。 言語コードは ISO 639-3 標準に準拠しています。 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes