列分布(数据挖掘)
适用于:SQL Server 2019 及更早版本的 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
数据挖掘在 SQL Server 2017 Analysis Services 中已弃用,现在在 SQL Server 2022 Analysis Services 中已停止使用。 对于已弃用和停止使用的功能,文档不会更新。 若要了解详细信息,请参阅 Analysis Services 后向兼容性。
在 Microsoft SQL Server SQL Server Analysis Services 中,可以在挖掘结构中定义列分布,以在创建挖掘模型时影响算法处理这些列中数据的方式。 对于某些算法,如果已知列中包含常用的值分布,则在处理模型之前定义任意连续列的分布将非常有用。 如果不定义分布,则由于算法据以解释数据的信息较少,生成的挖掘模型产生的预测可能不如定义了分布时产生的预测精确。
SQL Server Analysis Services 中提供的算法支持以下分发类型:
正常
连续列的值构成一个正态分布直方图。
Log Normal
连续列的值构成一个直方图,其曲线在较高端延长并向较低端倾斜。
的
Uniform
连续列的值构成平坦曲线,曲线上的所有值都具有相同概率。
直
有关SQL Server Analysis Services提供的算法的详细信息,请参阅数据挖掘算法 (Analysis Services - 数据挖掘) 。
另请参阅
内容类型(数据挖掘)
挖掘结构(Analysis Services – 数据挖掘)
离散化方法(数据挖掘)
分布 (DMX)
挖掘结构列