離散化方法（數據採礦）

一些用來在 SQL Server Analysis Services 中建立數據採礦模型的演算法需要特定內容類型才能正常運作。例如，Microsoft貝氏機率分類演算法無法使用連續數據行作為輸入，也無法預測連續值。此外，某些數據行可能包含這麼多值，因此演算法無法輕易識別要建立模型之數據中的有趣模式。

在這些情況下，您可以離散化數據行中的數據，讓演算法能夠產生採礦模型。 離散化 是將值放入貯體的程式，因此可能的狀態數目有限。這些「桶」本身被視為有順序且為離散的值。您可以離散化數值和字串資料行。

有數種方法可用來離散化數據。如果您的資料採礦解決方案使用關係型數據，您可以藉由設定屬性的值 DiscretizationBucketCount 來控制要用於分組數據的貯體數目。預設的桶數為 5。

如果您的數據採礦解決方案使用在線分析處理（OLAP） Cube 中的數據，數據採礦演算法會自動使用下列方程式計算要產生的貯體數目，其中 n 是數據行中相異值的數目：

Number of Buckets = sqrt(n)

如果您不想讓 Analysis Services 計算貯體數目，您可以使用 DiscretizationBucketCount 屬性手動指定貯體數目。

下表描述可用來在 Analysis Services 中離散化數據的方法。

離散化方法	說明
`AUTOMATIC`	Analysis Services 會決定要使用的離散化方法。
`CLUSTERS`	此演算法透過對訓練數據進行取樣、初始化為若干隨機點，然後使用期望最大化 (EM) 叢集方法執行Microsoft叢集演算法的多次迭代，將數據分割成不同群組。方法 `CLUSTERS` 很有用，因為它適用於任何分佈曲線。不過，它需要比其他離散化方法更多的處理時間。這個方法只能與數值數據行搭配使用。
`EQUAL_AREAS`	演算法會將數據分割成包含相等值數目的群組。這個方法最適合用於常態分佈曲線，但如果分佈包含連續數據中窄群組中發生的大量值，則效果不佳。例如，如果一半的項目的成本為 0，則一半的數據會集中在曲線的一個點上。在這類分佈中，此方法會將數據分割，以求在多個區域中實現平均分離。這會產生不正確的數據表示法。

備註

您可以使用 EQUAL_AREAS 方法來離散化字串。
方法 CLUSTERS 會使用 1000 筆記錄的隨機樣本本來離散化數據。如果您不想讓演算法取樣數據，請使用EQUAL_AREAS方法。
類神經網路採礦模型教學課程提供如何自定義離散化的範例。如需詳細資訊，請參閱第 5 課：建置類神經網路和羅吉斯回歸模型（元數據採礦教學課程）。

另請參閱

內容類型（資料採礦）
內容類型（DMX）
資料採礦演算法（Analysis Services - 數據採礦）
採礦結構（Analysis Services - 數據採礦）
資料型態（資料採礦）
採礦結構欄位
 欄位分布（資料探勘）

Last updated on 2017-03-06

離散化方法 （數據採礦）

備註

另請參閱

其他資源

離散化方法（數據採礦）