ML.NET モデルを改善する

2025-01-31

ML.NET モデルを改善する方法について説明します。

問題を見直す

場合によっては、モデルの改善は、モデルのトレーニングに使用されるデータや手法と関係がない可能性があります。そうではなく、質問が正しくないだけの場合があります。問題をさまざまな角度から考慮し、データを利用して潜在的なインジケーターと隠れた関係を抽出し、問題を絞り込みます。

より多くのデータサンプルを用意する

人間と同様に、トレーニングアルゴリズムが増えるほど、パフォーマンスが向上する可能性が高まります。モデルのパフォーマンスを向上させる方法の 1 つとして、より多くのトレーニングデータサンプルをアルゴリズムに提供することがあります。学習するデータが多いほど、正しく識別できるケースが増えます。

データにコンテキストを追加する

1 つのデータポイントの意味は解釈が難しい可能性があります。データポイントを中心としたコンテキストの構築は、アルゴリズムだけでなく、領域の専門家による決定にも役立ちます。たとえば、住宅が 3 ベッドルームであるという事実だけでは、その価格の良い指標にはなりません。ただし、コンテキストを追加し、平均年齢が 38 歳、平均世帯収入が 80,000 ドル、学校が上位 20 パーセンタイルに含まれる大都市圏外の郊外近辺にあることがわかると、アルゴリズムが決定を下すための情報が増えます。このすべてのコンテキストは、機械学習モデルへの特徴の入力として追加できます。

意味のあるデータと特徴を使用する

データサンプルと特徴を増やすと、モデルの正確度の向上に役立ちますが、すべてのデータと特徴が意味があるわけではないので、ノイズが生じる可能性もあります。そのため、アルゴリズムによる決定に最も大きな影響を与える特徴を把握することが重要です。順列特徴重要度 (PFI) のような手法を使用すると、重要な特徴を特定するために役立ちます。また、モデルを説明するだけでなく、トレーニングプロセスに入るノイズ的な特徴の数を減らす特徴選択方法として出力を使用するためにも役立ちます。

PFI の使用の詳細については、「Permutation Feature Importance を使用してモデル予測を説明する」を参照してください。

クロス検証

クロス検証は、データをいくつかのパーティションに分割し、それらのパーティション上で複数のアルゴリズムをトレーニングするトレーニングおよびモデル評価手法です。この手法は、トレーニングプロセスのデータを提供することでモデルの堅牢性を改善します。データに制約のある環境では、目に見えない観測のパフォーマンス向上に加え、小規模のデータセットでモデルをトレーニングする場合の効果的なツールになる可能性があります。

詳細については、「ML.NETでクロス検証を使用する方法」を参照してください。

ハイパーパラメーターの調整

機械学習モデルのトレーニングは、反復的であり、探索的なプロセスです。たとえば、K-Means アルゴリズムを使用してモデルをトレーニングするときに最適なクラスター数はいくつでしょうか。その答えは、データの構造など、さまざまな要因によって異なります。その数を見つけるには、k の値を変えて実験し、パフォーマンスを評価して最適な値を判断する必要があります。最適なモデルを見つけるためにトレーニングプロセスをガイドするパラメーターをチューニングする方法は、ハイパーパラメーター調整と呼ばれます。

別のアルゴリズムを選択する

回帰や分類などの機械学習タスクには、さまざまなアルゴリズムの実装が含まれています。解決対象の問題とデータの構築方法が、現在のアルゴリズムにあまり適していない場合もあります。このような場合は、タスクに別のアルゴリズムを使用して、データからの学習が改善されるかどうかを確認してみてください。

選択するアルゴリズムのその他のガイダンスについては、こちらのリンクを参照してください。

次の方法で共有