共用方式為


離散化方法 (數據採礦)

一些用來在 SQL Server Analysis Services 中建立數據採礦模型的演算法需要特定內容類型才能正常運作。 例如,Microsoft貝氏機率分類演算法無法使用連續數據行作為輸入,也無法預測連續值。 此外,某些數據行可能包含這麼多值,因此演算法無法輕易識別要建立模型之數據中的有趣模式。

在這些情況下,您可以離散化數據行中的數據,讓演算法能夠產生採礦模型。 離散化 是將值放入貯體的程式,因此可能的狀態數目有限。 這些「桶」本身被視為有順序且為離散的值。 您可以離散化數值和字串資料行。

有數種方法可用來離散化數據。 如果您的資料採礦解決方案使用關係型數據,您可以藉由設定 屬性的值 DiscretizationBucketCount 來控制要用於分組數據的貯體數目。 預設的桶數為 5。

如果您的數據採礦解決方案使用在線分析處理 (OLAP) Cube 中的數據,數據採礦演算法會自動使用下列方程式計算要產生的貯體數目,其中 n 是數據行中相異值的數目:

Number of Buckets = sqrt(n)

如果您不想讓 Analysis Services 計算貯體數目,您可以使用 DiscretizationBucketCount 屬性手動指定貯體數目。

下表描述可用來在 Analysis Services 中離散化數據的方法。

離散化方法 說明
AUTOMATIC Analysis Services 會決定要使用的離散化方法。
CLUSTERS 此演算法透過對訓練數據進行取樣、初始化為若干隨機點,然後使用期望最大化 (EM) 叢集方法執行Microsoft叢集演算法的多次迭代,將數據分割成不同群組。 方法 CLUSTERS 很有用,因為它適用於任何分佈曲線。 不過,它需要比其他離散化方法更多的處理時間。

這個方法只能與數值數據行搭配使用。
EQUAL_AREAS 演算法會將數據分割成包含相等值數目的群組。 這個方法最適合用於常態分佈曲線,但如果分佈包含連續數據中窄群組中發生的大量值,則效果不佳。 例如,如果一半的項目的成本為 0,則一半的數據會集中在曲線的一個點上。 在這類分佈中,此方法會將數據分割,以求在多個區域中實現平均分離。 這會產生不正確的數據表示法。

備註

另請參閱

內容類型 (資料採礦)
內容類型 (DMX)
資料採礦演算法 (Analysis Services - 數據採礦)
採礦結構 (Analysis Services - 數據採礦)
資料型態 (資料採礦)
採礦結構欄位
欄位分布(資料探勘)