计算基础统计

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

为所选数据集列计算指定的摘要统计信息

类别: 统计函数

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典 ) 中的计算基本统计信息模块为数据集生成摘要报表,其中列出了关键统计信息,例如平均值、标准偏差以及每个所选列的值范围。

此报告可用于分析集中趋势、分散和数据形状。

如何配置计算基本统计信息

  1. "计算基本统计信息" 模块添加到试验。 可以在 机器学习 Studio (经典) 中的"统计函数"类别中找到此模块。

  2. 连接包含要分析的列的数据集。

  3. 单击 "方法 "下拉列表,然后选择要针对每列计算的值的类型。

    有关 可用统计信息的完整 列表及其含义,请参阅支持的统计信息部分。

  4. 默认情况下,将为数据集中具有数值数据类型的所有列计算在"方法"下拉列表中所选的值。 如果任何列具有阻止计算值的值,将引发错误,并且不会创建报表。

    若要避免此错误,请使用列选择器选取要报告的数字列。 选择的所有列都必须是数值。

  5. 运行试验。

结果

生成的报表包括每列的名称和计算的统计信息。 例如,下表显示了为 mpg 列生成的统计信息。

DeviationSquared (mpg) 最大 (mpg) 最小 (mpg)
9674.312 25.21951 13

提示

每次运行计算 基本统计信息时,它只能针对每个所选列生成单个摘要统计信息。 但是,可以使用" 添加 列"或" 添加 行"模块将结果合并到单个表中,如前面的示例所示。

支持的统计信息

此模块支持以下标准描述性统计信息。

平方离差

计算 列值的平方 偏差。 也称为平方和。

平方偏差是值与平均值的差值的度量值。

几何平均值

计算 列值的 几何平均值。

几何平均值可用于度量一组数字的中心趋势。 与算术平均值相比,它受少量极值的影响较小。 它还可用于比较不同刻度的度量,因为它可以有效地规范化要比较的数字的刻度。 几何方法有时用于估计复合年增长率。

该函数中的等效函数Excel GEOMEAN。

调和平均值

计算 列值的调 和平均值。

为了计算调和平均值,所有值都转换为其倒数,然后取这些值的平均值。 调和平均值是该平均值的倒数。 如果列值为正数,则较大的数字的权重小于较小的数字。

调和平均值始终小于几何平均值,该平均值始终小于算术平均值。 对于表示速率的平均值变量(例如,速度 (一段时间或每季度销售额) 平均值非常有用。

该函数中的等效Excel为 HARMEAN。

四分位数间距

计算 列值的第一 个四分位数和最后一 个四 分位数的分位差。 也称为 四分位数范围。 当四分位数介于两个数字之间时,四分位数值是剪切两侧两个值的平均值。

四分位数值将值列划分为四个值相等的组。 因此,四分之一的值小于或等于第 25 个百分位。 四分之三的值小于或等于第 75 个百分位。 通过查看四分位数范围,可以了解数据值的分布范围。

K 阶中心矩

计算 列值的 K-th 中央时刻。

计算 K-th 中央时刻时,还必须指定 Order,即 k 的值。 k 的值的范围可以是 0 到任何允许的整数值,但较高的顺序值通常没有意义。

通常,在描述性统计信息中,时刻是描述一组点形状的度量值。 中心时刻是平均值的一些时刻,通常用于它们,因为它们提供有关分布形状的更好信息。 2 的顺序通常表示方差;一个 4 的顺序用于 kurt 以表示。 第一个顺序时刻是平均值。 因此,所有时刻的集合唯一描述了列中值的分布。

Max

查找 列中 的最大值。

平均值

计算 列值的 算术平均值。

函数中的等效函数Excel AVERAGE。

平均方差

计算 列值平均 绝对偏差。

也就是说,为列计算平均值,为列的每个值计算偏差。 各个偏差值的绝对值平均值是平均偏差。

此统计信息告诉你数字列的平均值的分布。

中值

返回 值的中值。

中值是数字列中间的数字。 如果列中的数字数为均匀数,则中值是中间两个数字的平均值。

中值与平均值和模式一起是度量中心趋势的三个统计信息之一。 如果值围绕平均值对称,则三个数字将大约相同。 但是,中值对于离群值比平均值更可靠。

中间方差

计算 列的中 值偏差。

也就是说,为列计算中值,为列的每个值计算偏差。 取各个偏差值的绝对值的中值。

中值绝对偏差也称为 MAD,用于描述数字样本的可变性。 MAD 告诉你数字列的平均值是如何分散的。

Min

返回 列值的 最小值。

模型

查找 列的所有 模式。

模式是列中显示最多的值。 如果多个值出现相同次数,则列可以有多个模式。

作为中心趋势的度量,模式对离群值比平均值更可靠,并且也可以与名义数据一起使用。

总体标准方差

计算 列值总体 标准偏差。

此统计信息假定列值表示整个总体。 如果数据只是总体的样本,则必须使用样本标准偏差 来计算标准偏差。 但是,在大型数据集中,这两个统计信息返回的值大致相等。

标准偏差计算为列方差的平方根。 此统计信息捕获列中的可变性量。

总体方差

计算 列值 总体方差。

方差度量一组数字的分布情况。如果方差为零,则所有数字都相同。

此统计信息假定值的列表示整个总体。 如果数据仅包含值的样本,则应该使用样本方差 来计算方差

等效的 Excel 函数为 VAR.P

产品

计算 元素的 product。

若要获取产品,请对列中的所有数字进行多个操作。 结果本身不用作描述性统计信息,但函数可用于其他各种计算。

范围

计算 值的范围。 范围定义为最大值减去最小值

样本峰度

计算 列值的示例峰值

Kurt以正态分布描述值的分布形状,即值的分布的峰值或平缓度。

  • 正态分布的峰值为 0。

  • 高峰值值指示概率质量围绕峰值或分布尾部进行集中。

  • 负峰值值表示相对平面分布。

样本偏斜度

计算 列值的示例 偏斜。

倾斜描述大部分值是位于中心、向左移动还是向右移动。 两个分布可能具有相同的均值和标准偏差,但形状差异很大。 可以使用偏斜和峰度来特征化形状。

  • 负偏斜值表示分布向左倾斜。

  • 0 表示正态分布。

  • 正偏斜值表示分布向右倾斜。

样本标准方差

计算 列值的示例 标准偏差。

样本的标准偏差测量列中值的分布与平均值的差值。 它表示集内数据的值与平均值之间的平均距离。

此统计信息假定列值表示总体的样本。 如果数据表示整个总体,则必须使用总体标准偏差 计算标准偏差

等效的 Excel函数为 ST。DEV.S.

样本方差

计算 列值的 样本方差。

此方法假定列值表示总体的示例。 如果列包含整个总体,则应当使用 总体标准方差

等效Excel VAR.S。

Sum

计算 值的总和。

示例

下面的试验演示了Azure AI 库如何创建包含整个数据集的描述性统计信息的摘要报表。 摘要报表仅包含常规统计信息;但是,可以使用计算基本统计信息中的选项将其另存为数据集,然后添加 更详细的统计信息

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

提示

使用计算基本统计信息模块时, 必须满足以下 条件:

  • 必须有足够的数据点 (行) 所选统计信息。 例如,若要计算 样本标准偏差 ,至少需要两个数据点;否则,结果为 NaN。
  • 输入列必须是数字或布尔值。

默认情况下,选择所有数值列。 但是,如果任何数值列都标记为分类列,则可能会收到以下错误:"错误 0056:<>具有名称列名的列不在允许的类别中。"若要更正此错误,请添加"编辑元数据"模块的实例,选择出现问题的列,然后使用"删除分类"选项

实现详细信息

布尔值列的处理如下所示:

  • MIN 计算为逻辑 AND。

  • MAX 计算为逻辑 OR。

  • RANGE 检查列中的唯一值数是否等于 2。

  • 忽略缺失值。

  • 对于需要浮点计算的统计数据,True = 1.0,False = 0.0

预期输入

名称 类型 说明
数据集 数据表 输入数据集

模块参数

名称 范围 类型 默认 说明
方法 列表 基础统计方法 选择要在计算中使用的统计方法。 有关值列表,请参阅如何使用 部分。
列集 any ColumnSelection NumericAll 选择要计算其统计数据的列
订单 >=1 Integer 3 指定 (仅用于 k 阶中心时刻的中间标准数值)

输出

名称 类型 说明
结果数据集 数据表 输出数据集

例外

异常 描述
错误 0017 如果一个或多个指定列具有当前模块不支持的类型,则会发生异常。

有关特定于 Studio (经典) 模块的错误列表,请参阅机器学习错误代码

有关 API 异常的列表,请参阅机器学习 REST API 错误代码

另请参阅

统计函数
基本的
汇总数据
A-Z 模块列表