AutoML での予測のためのモデル スイープと選択

この記事では、AutoML で予測モデルを検索して選択する方法に焦点を当てています。 AutoML での予測方法に関するより一般的な情報については、方法の概要に関する記事を参照してください。 AutoML で予測モデルをトレーニングする手順と例については、時系列予測用に AutoML を設定するの記事を参照してください。

モデルのスイープ

AutoML の主なタスクは、いくつかのモデルをトレーニングして評価し、指定された主要メトリックに関して最適なものを選ぶことです。 ここでの "モデル" という単語は、ARIMA や Random Forest などのモデル クラスと、クラス内のモデルを区別する特定のハイパーパラメーター設定の両方を指します。 たとえば、ARIMA は、数学的テンプレートと一連の統計的仮定を共有するモデルのクラスを指します。 ARIMA モデルをトレーニングする (適合させる) には、モデルの正確な数学的形式を指定する正の整数のリストが必要です。これらはハイパーパラメーターです。 ARIMA(1, 0, 1) と ARIMA(2, 1, 2) のクラスは同じですが、ハイパーパラメーターは異なるため、トレーニング データに個別に適合させ、相互に評価することができます。 AutoML では、さまざまなモデル クラスおよびクラス内で、さまざまなハイパーパラメーターを使用して検索 (''スイープ'') します。

次の表には、AutoML でさまざまなモデル クラスに使用されるさまざまなハイパーパラメーター スイープ メソッドが示されています。

モデル クラス グループ モデルの種類 ハイパーパラメーター スイープ方法
Naive、Seasonal Naive、Average、Seasonal Average タイム シリーズ モデルがシンプルであるため、クラス内でのスイープなし
指数平滑法、ARIMA(X) タイム シリーズ クラス内スイープのグリッド検索
Prophet 回帰 クラス内でのスイープなし
Linear SGD、LARS LASSO、Elastic Net、K Nearest Neighbors、Decision Tree、Random Forest、Extremely Randomized Trees、Gradient Boosted Trees、LightGBM、XGBoost 回帰 AutoML のモデル レコメンデーション サービスでは、ハイパーパラメーター空間が動的に探索されます
ForecastTCN 回帰 モデルの静的リストの後に、ネットワーク サイズ、ドロップアウト率、学習率に対するランダム検索が続きます。

さまざまなモデルの種類の説明については、メソッドの概要に関する記事の「予測モデル」セクションを参照してください。

AutoML で実行するスイープの量は、予測ジョブの構成によって異なります。 停止条件は、時間制限または試行回数の制限、つまり、モデルの数として指定できます。 主要メトリックが改善されない場合は、どちらの場合も早期終了ロジックを使用してスイープを停止できます。

モデル選択

AutoML 予測モデルの検索と選択は、次の 3 つのフェーズで進められます。

  1. 時系列モデルをスイープし、罰則付き尤度方を使用して ''各クラス'' から最適なモデルを選択します。
  2. 回帰モデルをスイープし、検証セットの主要メトリック値に従って、フェーズ 1 の最適な時系列モデルと共にランク付けします。
  3. 上位ランクのモデルからアンサンブル モデルを構築し、その検証メトリックを計算して、他のモデルと共にランク付けします。

フェーズ 3 の終了時に上位ランクのメトリック値を持つモデルが、最適なモデルとして指定されます。

重要

AutoML のモデル選択の最終フェーズでは常に、サンプル外データのメトリックが計算されます。 つまり、モデルを適合させるために使用されなかったデータです。 これは、過剰適合から保護するのに役立ちます。

AutoML には、クロス検証と明示的な検証データという 2 つの検証構成があります。 クロス検証の場合、AutoML では入力構成を使用して、トレーニングおよび検証フォールドに分割されたデータを作成します。 これらの分割では時間順を保持する必要があるため、AutoML では、いわゆるローリング オリジンクロス検証が使用されます。その場合、起点の時点を使用して、系列がトレーニングおよび検証データに分割されます。 時間内の原点をスライドすると、クロス検証のフォールドが生成されます。 各検証フォールドには、指定されたフォールドの起点の位置の直後にある観測値の次の水平線が含まれます。 この戦略により、時系列データの整合性が維持され、情報漏えいのリスクが軽減されます。

クロス検証フォールドを示す図。クロス検証ステップのサイズに基づいて、トレーニングおよび検証セットが分離されています。

AutoML では通常のクロス検証手順に従い、フォールドごとに個別のモデルをトレーニングし、すべてのフォールドの検証メトリックを平均化します。

予測ジョブのクロス検証は、クロス検証フォールドの数と、必要に応じて、2 つの連続するクロス検証フォールド間の期間数を設定することによって構成されます。 予測のためのクロス検証の構成の詳細と例については、「カスタム クロス検証設定」ガイドを参照してください。

独自の検証データを持ち込むこともできます。 詳しくは、AutoML (SDK v1) でのデータ分割とクロス検証の構成の記事をご覧ください。

次のステップ