次の方法で共有


分離メソッド (データ マイニング)

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。

SQL Server SQL Server Analysis Servicesでデータ マイニング モデルを作成するために使用される一部のアルゴリズムでは、正しく機能するために特定のコンテンツ タイプが必要です。 たとえば、Microsoft Naive Bayes アルゴリズムでは、入力として連続列を使用できず、連続値を予測できません。 また、一部の列に含まれている値が多すぎるため、データ マイニング モデルの作成元となるデータ内の対象パターンをアルゴリズムで容易に識別できない場合があります。

このような場合、アルゴリズムを使用してマイニング モデルを生成できるように、列内のデータを分離できます。 分離 とは、値をバケットに分割して、限定された数の可能な状態を生成するプロセスです。 バケット自体は、順序付きの不連続の値として処理されます。 数値と文字列の両方の列を分離できます。

データを分離するためのいくつかのメソッドがあります。 データ マイニング ソリューションでリレーショナル データを使用する場合は、 DiscretizationBucketCount property プロパティの値を設定して、データのグループ化に使用するバケットの数を制御できます。 既定のバケット数は 5 です。

データ マイニング ソリューションでオンライン分析処理 (OLAP) キューブのデータを使用する場合、データ マイニング アルゴリズムでは生成するバケットの数が次の式を使用して自動的に計算されます。ここで、n は列のデータの個別の値の数です。

Number of Buckets = sqrt(n)

バケットの数を計算SQL Server Analysis Servicesしたくない場合は、 プロパティをDiscretizationBucketCount使用してバケットの数を手動で指定できます。

次の表では、SQL Server Analysis Services内のデータを分離するために使用できるメソッドについて説明します。

分離メソッド 説明
自動 SQL Server Analysis Servicesは、使用する分離方法を決定します。
クラスター このアルゴリズムは、トレーニング データをサンプリングして多数のランダム ポイントに初期化し、Expectation Maximization (EM) クラスター化アルゴリズムを使用して Microsoft クラスタリング アルゴリズムを何度か繰り返し実行することによって、データをグループに分割します。 CLUSTERS メソッドは、どのような分布曲線にも使用できるので便利です。 ただし、その他の分離メソッドよりも処理時間は長くなります。

このメソッドは数値列でのみ使用できます。
EQUAL_AREAS このアルゴリズムは、同数の値が含まれているグループにデータを分割します。 このメソッドは正規分布曲線に最適ですが、連続データの小さなグループに多数の値が含まれている分布の場合は適切に機能しません。 たとえば、品目の半数のコストが 0 である場合、データの半数は曲線の 1 点の下に位置します。 このような分布の場合、このメソッドはデータを分割するときに、複数の領域に均等に分離しようとします。 これにより、データが不適切に表示されます。

注釈

  • EQUAL_AREAS メソッドを使用すると、文字列を分離できます。

  • CLUSTERS メソッドでは、ランダム サンプルとして 1,000 個のレコードを使用してデータの分離が行われます。 アルゴリズムでデータをサンプリングしない場合は、 EQUAL_AREAS メソッドを使用します。

参照

コンテンツの種類 (データ マイニング)
コンテンツの種類 (DMX)
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
マイニング構造 (Analysis Services - データ マイニング)
データ型 (データ マイニング)
マイニング構造列
列の分布 (データ マイニング)