列分布(数据挖掘)

在 Microsoft SQL Server Analysis Services 中,可以定义挖掘结构中的列分布以影响在创建挖掘模型时算法如何处理这些列中的数据。 对于某些算法,如果已知列中包含常用的值分布,则在处理模型之前定义任意连续列的分布将非常有用。 如果不定义分布,则由于算法据以解释数据的信息较少,生成的挖掘模型产生的预测可能不如定义了分布时产生的预测精确。

Analysis Services 中可用的算法支持下列分布类型:

  • Normal
    连续列的值构成一个正态分布直方图。

    具有正态分布的直方图

  • Log Normal
    连续列的值构成一个直方图,其曲线在较高端延长并向较低端倾斜。

    具有日志正态分布的直方图

  • Uniform
    连续列的值构成平坦曲线,曲线上的所有值都具有相同概率。

    具有均匀分布的直方图

有关 Analysis Services 所提供的算法的详细信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)

请参阅

参考

分布 (DMX)

概念

内容类型(数据挖掘)

挖掘结构(Analysis Services – 数据挖掘)

离散化方法(数据挖掘)

挖掘结构列