データを前処理し特徴量化を構成する

6 分

自動機械学習 (AutoML) 実験を実行する前に、データを準備する必要があります。分類モデルをトレーニングする場合は、トレーニングデータのみを提供する必要があります。

データを収集したら、Azure Machine Learning でデータ資産を作成する必要があります。 AutoML がデータの読み取り方法を理解するには、データのスキーマを含む MLTable データ資産を作成する必要があります。

データが MLTable ファイルと共にフォルダーに格納されている場合は、MLTable データ資産を作成できます。データ資産を作成したら、次のコードを使用して入力として指定できます。

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

ヒント

Azure Machine Learning で MLTable データ資産を作成する方法の詳細を確認してください。

データ資産を作成したら、AutoML の実験を構成できます。 AutoML が分類モデルをトレーニングする前に、前処理変換をデータに適用できます。

スケーリングと正規化について理解する

AutoML では、数値データに対してスケーリングと正規化が自動的に適用されます。これは、大規模な特徴量でトレーニングの多くが占められるのを防ぐために役立ちます。 AutoML の実験中は、複数のスケーリングおよび正規化の技法が適用されます。

オプションの特徴量化を構成する

AutoML で、たとえば次のような前処理変換の適用を選択できます。

トレーニングデータセット内の null 値を削除するための欠損値補完。
カテゴリ別の特徴を数値インジケーターに変換するカテゴリ別エンコード。
高カーディナリティ機能 (レコード ID など) の削除。
特徴エンジニアリング (たとえば、DateTime の特徴から個々の日付部分を派生させるなど)。

既定では、AutoML はデータに対して特徴量化を実行します。データを変換しない場合は、これを無効にすることができます。

統合された特徴量化関数を使用する場合は、それをカスタマイズできます。たとえば、特定の特徴に使用する補完方法を指定できます。

AutoML の実験が完了すると、適用されたスケーリングと正規化の方法を確認できます。また、欠損値やクラスの不均衡など、データに関する問題が AutoML によって検出された場合にも通知されます。

続行

スケーリングと正規化について理解する

オプションの特徴量化を構成する

フィードバック