AutoMLConfig クラス
Azure Machine Learning で自動 ML 実験を送信するための構成を表します。
この構成オブジェクトには、実験の実行を構成するためのパラメーターと、実行時に使用されるトレーニング データが含まれており、保持されます。 設定の選択に関するガイダンスについては、「 https://aka.ms/AutoMLConfig」を参照してください。
AutoMLConfig を作成します。
コンストラクター
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
パラメーター
名前 | 説明 |
---|---|
task
必須
|
実行するタスクの種類。 解決する自動 ML の問題の種類に応じて、値として "分類"、"回帰"、または "予測" を指定できます。 |
path
必須
|
Azure Machine Learning プロジェクト フォルダーへの完全なパス。 指定しない場合、既定では現在のディレクトリまたは "." が使用されます。 |
iterations
必須
|
自動 ML 実験中にテストするさまざまなアルゴリズムとパラメーターの組み合わせの合計数。 指定しない場合、既定値は 1,000 イテレーションです。 |
primary_metric
必須
|
自動機械学習がモデルの選択のために最適化するメトリック。 自動化された Machine Learning では、最適化できる数よりも多くのメトリックが収集されます。 get_primary_metricsを使用して、特定のタスクの有効なメトリックの一覧を取得できます。 メトリックの計算方法の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricを参照してください。 指定しない場合、精度は分類タスクに使用され、正規化された平方根平均は予測タスクと回帰タスクに使用され、精度は画像分類と画像の複数ラベル分類に使用され、平均平均精度は画像物体検出に使用されます。 |
positive_label
必須
|
自動機械学習がバイナリ メトリックの計算に使用する正のクラス ラベル。 二項メトリックは、分類タスクの 2 つの条件で計算されます。
分類の詳細については、分類 シナリオのチェックアウト メトリックを参照してください。 |
compute_target
必須
|
自動 Machine Learning 実験を実行する Azure Machine Learning コンピューティング ターゲット。 コンピューティング 先の詳細については、 https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote を参照してください。 |
spark_context
必須
|
<xref:SparkContext>
Spark コンテキスト。 Azure Databricks/Spark 環境内で使用する場合にのみ適用されます。 |
X
必須
|
実験中にパイプラインを調整するときに使用するトレーニング機能。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。 |
y
必須
|
実験中にパイプラインを調整するときに使用するトレーニング ラベル。 これは、モデルが予測する値です。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。 |
sample_weight
必須
|
適合パイプラインを実行するときに各トレーニング サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。
|
X_valid
必須
|
実験中にパイプラインを調整するときに使用する検証機能。 指定する場合は、 |
y_valid
必須
|
実験中にパイプラインを調整するときに使用する検証ラベル。
|
sample_weight_valid
必須
|
スコアリング パイプラインの実行時に各検証サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。
|
cv_splits_indices
必須
|
クロス検証のためにトレーニング データを分割する場所のインデックス。 各行は個別のクロスフォールドであり、各クロスフォールド内で、2 つの numpy 配列を提供します。1 つ目はトレーニング データに使用するサンプルのインデックス、2 つ目は検証データに使用するインデックスを持つインデックスです。 つまり、[t1, v1], [t2, v2], ...] です。ここで、t1 は最初のクロスフォールドのトレーニング インデックスで、v1 は最初のクロスフォールドの検証インデックスです。 既存のデータを検証データとして指定するには、 |
validation_size
必須
|
ユーザー検証データが指定されていない場合に検証のために保持するデータの割合。 これは、0.0 から 1.0 までの範囲で指定する必要があります。 検証データを提供する 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
n_cross_validations
必須
|
ユーザー検証データが指定されていない場合に実行するクロス検証の数。 検証データを提供する 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
y_min
必須
|
回帰実験の最小値 y。
|
y_max
必須
|
回帰実験の最大値 y。
|
num_classes
必須
|
分類実験のラベル データ内のクラスの数。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。 |
featurization
必須
|
'auto' / 'off' / FeaturizationConfig Indicator for if featurization step should be automatically or not, orwhether customized featurization should be used. 注: 入力データがスパースの場合、特徴量化を有効にすることはできません。 列の種類が自動的に検出されます。 検出された列の種類に基づいて、前処理/特徴付けは次のように行われます。
詳細については、 Python での自動 ML 実験の構成に関する記事を参照してください。 特徴量化ステップをカスタマイズするには、FeaturizationConfig オブジェクトを指定します。 カスタマイズされた特徴量化では、現在、一連のトランスフォーマーのブロック、列の目的の更新、トランスフォーマー パラメーターの編集、列の削除がサポートされています。 詳細については、「 特徴エンジニアリングのカスタマイズ」を参照してください。 注: 時系列機能は、タスクの種類がこのパラメーターに依存しない予測に設定されている場合は、個別に処理されます。 |
max_cores_per_iteration
必須
|
特定のトレーニング イテレーションに使用するスレッドの最大数。 許容される値:
|
max_concurrent_iterations
必須
|
並列で実行されるイテレーションの最大数を表します。 既定値は 1 です。
|
iteration_timeout_minutes
必須
|
各イテレーションが終了するまでに実行できる最大時間 (分)。 指定しない場合は、1 か月または 43200 分の値が使用されます。 |
mem_in_mb
必須
|
各イテレーションが終了する前に実行できる最大メモリ使用量。 指定しない場合は、1 PB または 1073741824 MB の値が使用されます。 |
enforce_time_on_windows
必須
|
Windows での各イテレーションでモデル トレーニングに時間制限を適用するかどうか。 既定値は True です。 Python スクリプト ファイル (.py) から実行する場合は、Windows でリソース制限を許可するためのドキュメントを参照してください。 |
experiment_timeout_hours
必須
|
すべてのイテレーションを組み合わせて、実験が終了するまでにかかる最大時間 (時間単位)。 15 分を表す 0.25 のような 10 進値を指定できます。 指定しない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行数列) を超えないか、エラー結果であることを確認します。 |
experiment_exit_score
必須
|
実験のターゲット スコア。 このスコアに達すると、実験は終了します。 指定しない場合 (条件なし)、実験はプライマリ メトリックに対してそれ以上の進行状況が行われなくなるまで実行されます。 終了条件の詳細については、この 記事を参照してください。 |
enable_early_stopping
必須
|
スコアが短期的に改善されていない場合に早期終了を有効にするかどうか。 既定値は True です。 早期停止ロジック:
|
blocked_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
実験に対して無視するアルゴリズムの一覧。
|
blacklist_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
非推奨のパラメーターは、代わりにblocked_modelsを使用してください。 |
exclude_nan_labels
必須
|
ラベルに NaN 値を含む行を除外するかどうかを指定します。 既定値は True です。 |
verbosity
必須
|
ログ ファイルに書き込む詳細レベル。 既定値は INFO または 20 です。 許容される値は、Python ログ ライブラリで定義されています。 |
enable_tf
必須
|
Tensorflow アルゴリズムを有効または無効にするパラメーターが非推奨になりました。 既定値は False です。 |
model_explainability
必須
|
すべての AutoML トレーニング イテレーションの最後に最適な AutoML モデルの説明を有効にするかどうか。 既定値は True です。 詳細については、「 解釈可能性: 自動機械学習のモデルの説明」を参照してください。 |
allowed_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 |
whitelist_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
非推奨のパラメーターは、代わりに allowed_models を使用してください。 |
enable_onnx_compatible_models
必須
|
ONNX 互換モデルの適用を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、この 記事を参照してください。 |
forecasting_parameters
必須
|
すべての予測特定のパラメーターを保持する ForecastingParameters オブジェクト。 |
time_column_name
必須
|
時刻列の名前。 このパラメーターは、時系列の構築とその頻度の推論に使用される入力データの datetime 列を予測する場合に必要です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
max_horizon
必須
|
時系列の頻度の単位で求められる最大予測期間。 既定値は 1 です。 単位は、トレーニング データの時間間隔 (予測者が予測する必要がある月単位、週単位など) に基づいています。タスクの種類が予測の場合、このパラメーターは必須です。 予測パラメーターの設定の詳細については、「時系列予測 モデルの自動トレーニング」を参照してください。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
grain_column_names
必須
|
時系列をグループ化するために使用される列の名前。 複数の系列を作成するために使用できます。 グレインが定義されていない場合、データ セットは 1 つの時系列であると見なされます。 このパラメーターは、タスクの種類の予測で使用されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
target_lags
必須
|
ターゲット列から遅延する過去の期間の数。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 予測の場合、このパラメーターは、データの頻度に基づいてターゲット値に遅延する行数を表します。 これは、リストまたは単一の整数として表されます。 遅延は、独立変数と依存変数の関係が既定で一致しない場合、または相互に関連付けられない場合に使用する必要があります。 たとえば、製品の需要を予測する場合、任意の月の需要は、3 か月前の特定の商品の価格によって異なります。 この例では、モデルが正しい関係に基づいてトレーニングされるように、ターゲット (需要) を 3 か月差で遅くすることができます。 詳細については、「 時系列予測モデルの自動トレーニング」を参照してください。 |
feature_lags
必須
|
数値特徴のラグを生成するためのフラグ。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
target_rolling_window_size
必須
|
ターゲット列のローリング ウィンドウ平均の作成に使用された過去の期間の数。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 予測の場合、このパラメーターは予測値の生成に使用する n 個の履歴期間 ( <= トレーニング セット サイズ) を表します。 省略した場合、 n はトレーニング セットの完全なサイズです。 モデルのトレーニング時に特定の量の履歴のみを考慮する場合は、このパラメーターを指定します。 |
country_or_region
必須
|
休日の特徴を生成するために使用される国/地域。 これらは、ISO 3166 の 2 文字の国/地域コード ("US" や "GB" など) である必要があります。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
use_stl
必須
|
時系列ターゲット列の STL 分解を構成します。 use_stlは、3 つの値を取ることができます。None (既定値) - stl 分解なし、'season' - シーズン コンポーネントのみを生成し、season_trend - シーズンコンポーネントとトレンド コンポーネントの両方を生成します。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
seasonality
必須
|
時系列の季節性を設定します。 季節性が 'auto' に設定されている場合は、推論されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
short_series_handling_configuration
必須
|
AutoML で短い時系列を処理する方法を定義するパラメーター。 使用可能な値: 'auto' (既定値)、'pad'、'drop'、None。
日付 numeric_value 文字列 ターゲット を する 2020-01-01 23 緑 55 値の最小数が 4 であると仮定した場合の出力: 日付 numeric_value 文字列 ターゲット を する 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 緑 55 手記: short_series_handling_configurationとレガシ short_series_handlingの 2 つのパラメーターがあります。 両方のパラメーターを設定すると、次の表に示すように同期されます (簡潔にするためにshort_series_handling_configurationとshort_series_handlingはそれぞれhandling_configurationと処理としてマークされます)。 取り扱い handling_configuration 結果の処理 結果のhandling_configuration 正しい 自動 正しい 自動 正しい パッド 正しい 自動 正しい 落とす 正しい 自動 正しい なし いいえ なし いいえ 自動 いいえ なし いいえ パッド いいえ なし いいえ 落とす いいえ なし いいえ なし いいえ なし |
freq
必須
|
予測頻度。 予測の場合、このパラメーターは、日単位、週単位、年単位など、予測が必要な期間を表します。予測頻度は、既定ではデータセットの頻度です。 必要に応じて、データセットの頻度よりも大きい (ただし小さくすることはできません) に設定できます。 データを集計し、予測頻度で結果を生成します。 たとえば、日次データの場合、頻度を日単位、週単位、月単位に設定できますが、時間単位には設定できません。 頻度は pandas オフセット エイリアスである必要があります。 詳細については、pandas のドキュメントを参照してください。 https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
必須
|
ユーザーが指定した頻度に準拠するように時系列ターゲット列を集計するために使用する関数。 target_aggregation_functionが設定されていても freq パラメーターが設定されていない場合は、エラーが発生します。 可能なターゲット集計関数は、"sum"、"max"、"min"、"mean" です。 周波数 target_aggregation_function データの規則性の修正メカニズム なし (既定値) なし (既定値) 集計は適用されません。有効な頻度が固定できない場合は、エラーが発生します。 一部の値 なし (既定値) 集計は適用されません。指定された周波数グリッドに準拠するデータ ポイントの数が少ない場合は、90%these ポイントが削除されます。それ以外の場合はエラーが発生します。 なし (既定値) 集計関数 頻度パラメーターの不足に関するエラーが発生しました。 一部の値 集計関数 providedaggregation 関数を使用して頻度に集計します。 |
enable_voting_ensemble
必須
|
VotingEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は True です。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。 |
enable_stack_ensemble
必須
|
StackEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は None です。 enable_onnx_compatible_models フラグが設定されている場合、StackEnsemble イテレーションは無効になります。 同様に、時系列タスクでは、メタ学習者の適合に使用されるトレーニング セットが小さいためにオーバーフィットのリスクを回避するために、StackEnsemble イテレーションが既定で無効になります。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。 |
debug_log
必須
|
デバッグ情報を書き込むログ ファイル。 指定しない場合は、'automl.log' が使用されます。 |
training_data
必須
|
実験内で使用するトレーニング データ。
これには、トレーニング機能とラベル列 (必要に応じてサンプルの重み列) の両方が含まれている必要があります。
|
validation_data
必須
|
実験内で使用する検証データ。
トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
|
test_data
必須
|
テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用されるテスト データ。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。 このパラメーターまたは |
test_size
必須
|
テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のテスト データに対して保持するトレーニング データの割合。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。 これは、0.0 から 1.0 までの範囲で指定する必要があります。
回帰ベースのタスクでは、ランダム サンプリングが使用されます。 分類タスクでは、階層サンプリングが使用されます。 現在、予測では、トレーニング/テスト分割を使用したテスト データセットの指定はサポートされていません。 このパラメーターまたは |
label_column_name
必須
|
ラベル列の名前。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。 このパラメーターは、 |
weight_column_name
必須
|
サンプルの重み列の名前。 自動 ML では、加重列が入力としてサポートされ、データ内の行が上下に重み付けされます。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。 このパラメーターは、 |
cv_split_column_names
必須
|
カスタムクロス検証分割を含む列の名前の一覧。 各 CV 分割列は 1 つの CV 分割を表し、各行はトレーニング用に 1、検証用に 0 としてマークされます。 このパラメーターは、カスタムクロス検証の目的
詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
enable_local_managed
必須
|
無効なパラメーター。 現時点では、ローカルマネージド実行を有効にすることはできません。 |
enable_dnn
必須
|
モデルの選択中に DNN ベースのモデルを含めるかどうか。 init の既定値は None です。 ただし、DNN NLP タスクの既定値は True で、他のすべての AutoML タスクでは False です。 |
task
必須
|
実行するタスクの種類。 解決する自動 ML の問題の種類に応じて、値として "分類"、"回帰"、または "予測" を指定できます。 |
path
必須
|
Azure Machine Learning プロジェクト フォルダーへの完全なパス。 指定しない場合、既定では現在のディレクトリまたは "." が使用されます。 |
iterations
必須
|
自動 ML 実験中にテストするさまざまなアルゴリズムとパラメーターの組み合わせの合計数。 指定しない場合、既定値は 1,000 イテレーションです。 |
primary_metric
必須
|
自動機械学習がモデルの選択のために最適化するメトリック。 自動化された Machine Learning では、最適化できる数よりも多くのメトリックが収集されます。 get_primary_metricsを使用して、特定のタスクの有効なメトリックの一覧を取得できます。 メトリックの計算方法の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricを参照してください。 指定しない場合、精度は分類タスクに使用され、正規化された平方根平均は予測タスクと回帰タスクに使用され、精度は画像分類と画像の複数ラベル分類に使用され、平均平均精度は画像物体検出に使用されます。 |
positive_label
必須
|
自動機械学習がバイナリ メトリックの計算に使用する正のクラス ラベル。 二項メトリックは、分類タスクの 2 つの条件で計算されます。
分類の詳細については、分類 シナリオのチェックアウト メトリックを参照してください。 |
compute_target
必須
|
自動 Machine Learning 実験を実行する Azure Machine Learning コンピューティング ターゲット。 コンピューティング 先の詳細については、 https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote を参照してください。 |
spark_context
必須
|
<xref:SparkContext>
Spark コンテキスト。 Azure Databricks/Spark 環境内で使用する場合にのみ適用されます。 |
X
必須
|
実験中にパイプラインを調整するときに使用するトレーニング機能。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。 |
y
必須
|
実験中にパイプラインを調整するときに使用するトレーニング ラベル。 これは、モデルが予測する値です。 この設定は非推奨になっています。 代わりに、training_dataとlabel_column_nameを使用してください。 |
sample_weight
必須
|
適合パイプラインを実行するときに各トレーニング サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。
|
X_valid
必須
|
実験中にパイプラインを調整するときに使用する検証機能。 指定する場合は、 |
y_valid
必須
|
実験中にパイプラインを調整するときに使用する検証ラベル。
|
sample_weight_valid
必須
|
スコアリング パイプラインの実行時に各検証サンプルに与える重みは、各行が X データと y データの行に対応している必要があります。
|
cv_splits_indices
必須
|
クロス検証のためにトレーニング データを分割する場所のインデックス。 各行は個別のクロスフォールドであり、各クロスフォールド内で、2 つの numpy 配列を提供します。1 つ目はトレーニング データに使用するサンプルのインデックス、2 つ目は検証データに使用するインデックスを持つインデックスです。 つまり、[t1, v1], [t2, v2], ...] です。ここで、t1 は最初のクロスフォールドのトレーニング インデックスで、v1 は最初のクロスフォールドの検証インデックスです。 このオプションは、データが個別の特徴データセットとラベル列として渡される場合にサポートされます。 既存のデータを検証データとして指定するには、 |
validation_size
必須
|
ユーザー検証データが指定されていない場合に検証のために保持するデータの割合。 これは、0.0 から 1.0 までの範囲で指定する必要があります。 検証データを提供する 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
n_cross_validations
必須
|
ユーザー検証データが指定されていない場合に実行するクロス検証の数。 検証データを提供する 詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
y_min
必須
|
回帰実験の最小値 y。
|
y_max
必須
|
回帰実験の最大値 y。
|
num_classes
必須
|
分類実験のラベル データ内のクラスの数。 この設定は非推奨になっています。 代わりに、この値はデータから計算されます。 |
featurization
必須
|
'auto' / 'off' / FeaturizationConfig Indicator for if featurization step should be automatically or not, orwhether customized featurization should be used. 注: 入力データがスパースの場合、特徴量化を有効にすることはできません。 列の種類が自動的に検出されます。 検出された列の種類に基づいて、前処理/特徴付けは次のように行われます。
詳細については、 Python での自動 ML 実験の構成に関する記事を参照してください。 特徴量化ステップをカスタマイズするには、FeaturizationConfig オブジェクトを指定します。 カスタマイズされた特徴量化では、現在、一連のトランスフォーマーのブロック、列の目的の更新、トランスフォーマー パラメーターの編集、列の削除がサポートされています。 詳細については、「 特徴エンジニアリングのカスタマイズ」を参照してください。 注: 時系列機能は、タスクの種類がこのパラメーターに依存しない予測に設定されている場合は、個別に処理されます。 |
max_cores_per_iteration
必須
|
特定のトレーニング イテレーションに使用するスレッドの最大数。 許容される値:
|
max_concurrent_iterations
必須
|
並列で実行されるイテレーションの最大数を表します。 既定値は 1 です。
|
iteration_timeout_minutes
必須
|
各イテレーションが終了するまでに実行できる最大時間 (分)。 指定しない場合は、1 か月または 43200 分の値が使用されます。 |
mem_in_mb
必須
|
各イテレーションが終了する前に実行できる最大メモリ使用量。 指定しない場合は、1 PB または 1073741824 MB の値が使用されます。 |
enforce_time_on_windows
必須
|
Windows での各イテレーションでモデル トレーニングに時間制限を適用するかどうか。 既定値は True です。 Python スクリプト ファイル (.py) から実行する場合は、Windows でリソース制限を許可するためのドキュメントを参照してください。 |
experiment_timeout_hours
必須
|
すべてのイテレーションを組み合わせて、実験が終了するまでにかかる最大時間 (時間単位)。 15 分を表す 0.25 のような 10 進値を指定できます。 指定しない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行数列) を超えないか、エラー結果であることを確認します。 |
experiment_exit_score
必須
|
実験のターゲット スコア。 このスコアに達すると、実験は終了します。
指定しない場合 (条件なし)、実験はプライマリ メトリックに対してそれ以上の進行状況が行われなくなるまで実行されます。 終了条件の詳細については、この >> |
enable_early_stopping
必須
|
スコアが短期的に改善されていない場合に早期終了を有効にするかどうか。 既定値は True です。 早期停止ロジック:
|
blocked_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
実験に対して無視するアルゴリズムの一覧。
|
blacklist_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
非推奨のパラメーターは、代わりにblocked_modelsを使用してください。 |
exclude_nan_labels
必須
|
ラベルに NaN 値を含む行を除外するかどうかを指定します。 既定値は True です。 |
verbosity
必須
|
ログ ファイルに書き込む詳細レベル。 既定値は INFO または 20 です。 許容される値は、Python ログ ライブラリで定義されています。 |
enable_tf
必須
|
TensorFlow アルゴリズムを有効または無効にするかどうかを指定します。 既定値は False です。 |
model_explainability
必須
|
すべての AutoML トレーニング イテレーションの最後に最適な AutoML モデルの説明を有効にするかどうか。 既定値は True です。 詳細については、「 解釈可能性: 自動機械学習のモデルの説明」を参照してください。 |
allowed_models
必須
|
list(str) または
list(Classification) <xref:for classification task> または
list(Regression) <xref:for regression task> または
list(Forecasting) <xref:for forecasting task>
実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 |
allowed_models
必須
|
実験を検索するモデル名の一覧。 指定しない場合、タスクでサポートされているすべてのモデルから、 |
whitelist_models
必須
|
非推奨のパラメーターは、代わりに allowed_models を使用してください。 |
enable_onnx_compatible_models
必須
|
ONNX 互換モデルの適用を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、この 記事を参照してください。 |
forecasting_parameters
必須
|
すべての予測固有のパラメーターを保持するオブジェクト。 |
time_column_name
必須
|
時刻列の名前。 このパラメーターは、時系列の構築とその頻度の推論に使用される入力データの datetime 列を予測する場合に必要です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
max_horizon
必須
|
時系列の頻度の単位で求められる最大予測期間。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 単位は、トレーニング データの時間間隔 (予測者が予測する必要がある月単位、週単位など) に基づいています。タスクの種類が予測の場合、このパラメーターは必須です。 予測パラメーターの設定の詳細については、「時系列予測 モデルの自動トレーニング」を参照してください。 |
grain_column_names
必須
|
時系列をグループ化するために使用される列の名前。 複数の系列を作成するために使用できます。 グレインが定義されていない場合、データ セットは 1 つの時系列であると見なされます。 このパラメーターは、タスクの種類の予測で使用されます。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
target_lags
必須
|
ターゲット列から遅延する過去の期間の数。 既定値は 1 です。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 予測の場合、このパラメーターは、データの頻度に基づいてターゲット値に遅延する行数を表します。 これは、リストまたは単一の整数として表されます。 遅延は、独立変数と依存変数の関係が既定で一致しない場合、または相互に関連付けられない場合に使用する必要があります。 たとえば、製品の需要を予測する場合、任意の月の需要は、3 か月前の特定の商品の価格によって異なります。 この例では、モデルが正しい関係に基づいてトレーニングされるように、ターゲット (需要) を 3 か月差で遅くすることができます。 詳細については、「 時系列予測モデルの自動トレーニング」を参照してください。 |
feature_lags
必須
|
数値特徴のラグを生成するためのフラグ。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
target_rolling_window_size
必須
|
ターゲット列のローリング ウィンドウ平均の作成に使用された過去の期間の数。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 予測の場合、このパラメーターは予測値の生成に使用する n 個の履歴期間 ( <= トレーニング セット サイズ) を表します。 省略した場合、 n はトレーニング セットの完全なサイズです。 モデルのトレーニング時に特定の量の履歴のみを考慮する場合は、このパラメーターを指定します。 |
country_or_region
必須
|
休日の特徴を生成するために使用される国/地域。 これらは、ISO 3166 の 2 文字の国/地域コード ("US" や "GB" など) である必要があります。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
use_stl
必須
|
時系列ターゲット列の STL 分解を構成します。 use_stlは、3 つの値を取ることができます。None (既定値) - stl 分解なし、'season' - シーズン コンポーネントのみを生成し、season_trend - シーズンコンポーネントとトレンド コンポーネントの両方を生成します。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
seasonality
必須
|
時系列の季節性を設定します。 季節性が -1 に設定されている場合は、推論されます。 use_stlが設定されていない場合、このパラメーターは使用されません。 この設定は非推奨になっています。 代わりにforecasting_parametersを使用してください。 |
short_series_handling_configuration
必須
|
AutoML で短い時系列を処理する方法を定義するパラメーター。 使用可能な値: 'auto' (既定値)、'pad'、'drop'、None。
日付 numeric_value 文字列 ターゲット を する 2020-01-01 23 緑 55 最小値数が 4 であると仮定した出力: +————+—————+———-+──–+ |日付 |numeric_value |string |target |+============+===============+==========+========+ |2019-12-29 |0 |NA |55.1 |+————+—————+———-+——–+ |2019-12-30 |0 |NA |55.6 |+————+—————+———-+——–+ |2019-12-31 |0 |NA |54.5 |+————+—————+———-+——–+ |2020-01-01 |23 |green |55 |+————+—————+———-+——–+ 手記: short_series_handling_configurationとレガシ short_series_handlingの 2 つのパラメーターがあります。 両方のパラメーターを設定すると、次の表に示すように同期されます (簡潔にするためにshort_series_handling_configurationとshort_series_handlingはそれぞれhandling_configurationと処理としてマークされます)。 取り扱い handling_configuration 結果の処理 結果のhandling_configuration 正しい 自動 正しい 自動 正しい パッド 正しい 自動 正しい 落とす 正しい 自動 正しい なし いいえ なし いいえ 自動 いいえ なし いいえ パッド いいえ なし いいえ 落とす いいえ なし いいえ なし いいえ なし |
freq
必須
|
予測頻度。 予測の場合、このパラメーターは、日単位、週単位、年単位など、予測が必要な期間を表します。予測頻度は、既定ではデータセットの頻度です。 必要に応じて、データセットの頻度よりも大きい (ただし小さくすることはできません) に設定できます。 データを集計し、予測頻度で結果を生成します。 たとえば、日次データの場合、頻度を日単位、週単位、月単位に設定できますが、時間単位には設定できません。 頻度は pandas オフセット エイリアスである必要があります。 詳細については、pandas のドキュメントを参照してください。 https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
必須
|
ユーザーが指定した頻度に準拠するように時系列ターゲット列を集計するために使用する関数。 target_aggregation_functionが設定されていても freq パラメーターが設定されていない場合は、エラーが発生します。 可能なターゲット集計関数は、"sum"、"max"、"min"、"mean" です。 周波数 target_aggregation_function データの規則性の修正メカニズム なし (既定値) なし (既定値) 集計は適用されません。有効な頻度が固定できない場合は、エラーが発生します。 一部の値 なし (既定値) 集計は適用されません。指定された周波数グリッドに準拠するデータ ポイントの数が少ない場合は、90%these ポイントが削除されます。それ以外の場合はエラーが発生します。 なし (既定値) 集計関数 頻度パラメーターの不足に関するエラーが発生しました。 一部の値 集計関数 providedaggregation 関数を使用して頻度に集計します。 |
enable_voting_ensemble
必須
|
VotingEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は True です。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。 |
enable_stack_ensemble
必須
|
StackEnsemble イテレーションを有効または無効にするかどうかを指定します。 既定値は None です。 enable_onnx_compatible_models フラグが設定されている場合、StackEnsemble イテレーションは無効になります。 同様に、時系列タスクでは、メタ学習者の適合に使用されるトレーニング セットが小さいためにオーバーフィットのリスクを回避するために、StackEnsemble イテレーションが既定で無効になります。 アンサンブルの詳細については、「 アンサンブルの構成」を参照してください。 |
debug_log
必須
|
デバッグ情報を書き込むログ ファイル。 指定しない場合は、'automl.log' が使用されます。 |
training_data
必須
|
実験内で使用するトレーニング データ。
これには、トレーニング機能とラベル列 (必要に応じてサンプルの重み列) の両方が含まれている必要があります。
|
validation_data
必須
|
実験内で使用する検証データ。
トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
|
test_data
必須
|
テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用されるテスト データ。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。 このパラメーターまたは |
test_size
必須
|
テスト データセットまたはテスト データ分割を使用するモデル テスト機能はプレビュー状態の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のテスト データに対して保持するトレーニング データの割合。 テストの実行では、最適なモデルを使用して予測が取得され、これらの予測に従ってメトリックが計算されます。 これは、0.0 から 1.0 までの範囲で指定する必要があります。
回帰ベースのタスクでは、ランダム サンプリングが使用されます。 分類タスクでは、階層サンプリングが使用されます。 現在、予測では、トレーニング/テスト分割を使用したテスト データセットの指定はサポートされていません。 このパラメーターまたは |
label_column_name
必須
|
ラベル列の名前。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。 このパラメーターは、 |
weight_column_name
必須
|
サンプルの重み列の名前。 自動 ML では、加重列が入力としてサポートされ、データ内の行が上下に重み付けされます。 入力データが pandas からの場合。列名を持たない DataFrame では、代わりに列インデックスを整数で表して使用できます。 このパラメーターは、 |
cv_split_column_names
必須
|
カスタムクロス検証分割を含む列の名前の一覧。 各 CV 分割列は 1 つの CV 分割を表し、各行はトレーニング用に 1、検証用に 0 としてマークされます。 このパラメーターは、カスタムクロス検証の目的
詳細については、「 自動機械学習でのデータ分割とクロス検証の構成」を参照してください。 |
enable_local_managed
必須
|
無効なパラメーター。 現時点では、ローカルマネージド実行を有効にすることはできません。 |
enable_dnn
必須
|
モデルの選択中に DNN ベースのモデルを含めるかどうか。 init の既定値は None です。 ただし、DNN NLP タスクの既定値は True で、他のすべての AutoML タスクでは False です。 |
注釈
次のコードは、AutoMLConfig オブジェクトを作成し、回帰の実験を送信する基本的な例を示しています。
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
完全なサンプルは回帰で入手できます
予測に AutoMLConfig を使用する例は、次のノートブックにあります。
すべてのタスクの種類に AutoMLConfig を使用する例については、これらの 自動 ML ノートブックを参照してください。
自動 ML の背景については、次の記事を参照してください。
Python で自動 ML 実験を構成します。 この記事では、タスクの種類ごとに使用されるさまざまなアルゴリズムとプライマリ メトリックに関する情報を示します。
時系列予測モデルを自動トレーニングします。 この記事では、予測で使用されるコンストラクター パラメーターと
**kwargs
について説明します。
自動機械学習、AutoML、実験のトレーニング/検証データ分割とクロス検証を構成するためのさまざまなオプションの詳細については、「自動機械学習 でのデータ分割とクロス検証の構成」を参照してください。
メソッド
as_serializable_dict |
オブジェクトをディクショナリに変換します。 |
get_supported_dataset_languages |
サポートされている言語とそれに対応する言語コードを ISO 639-3 で取得します。 |
as_serializable_dict
オブジェクトをディクショナリに変換します。
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
サポートされている言語とそれに対応する言語コードを ISO 639-3 で取得します。
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
パラメーター
名前 | 説明 |
---|---|
cls
必須
|
AutoMLConfigのクラス オブジェクト。 |
use_gpu
必須
|
gpu コンピューティングが使用されているかどうかを示すブール値。 |
戻り値
型 | 説明 |
---|---|
形式 {: }の辞書。 言語コードは ISO 639-3 標準に準拠しています。 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |