汇总数据

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

为数据集中的列生成基本描述性统计信息报告

Category: 统计函数

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用机器学习 Studio 中的 "汇总数据" 模块 (经典) ,以创建一组描述输入表中每一列的标准统计度量值。

当您想要了解完整数据集的特征时,此类摘要统计信息非常有用。 例如,你可能需要知道:

  • 每个列中的缺失值有多少?
  • 特征列中有多少唯一值?
  • 每个列的平均值和标准偏差是多少?

该模块计算每列的重要分数,并为以输入形式提供的每个变量(数据列)返回一行汇总统计信息。

提示

您可能已经知道,通过使用 Studio 中的 " 可视化 " 选项 (经典) ,可以获取统计信息的简短列表。 但是,此可视化效果是基于某些最多行数创建的。 与此相反," 汇总数据 " 模块计算所有数据行的统计信息。

如何使用汇总数据

  1. 将 " 汇总数据 " 模块添加到试验中。 可以在 Studio (经典) 中的 " 统计函数 " 类别中找到此模块。

  2. 连接要为其生成报表的数据集。

    如果只想要针对某些列进行报告,请使用选择数据集中的列模块来投影要使用的列的子集。

  3. 无需指定其他参数。 默认情况下,此模块将分析作为输入提供的所有列,并根据列中的值的类型输出一组相关的统计信息,如结果部分所述。

  4. 运行试验,或右键单击该模块,然后选择 " 运行所选项"。

结果

模块中的报表可能包含以下统计信息。

  • 生成的确切统计信息取决于列数据类型。 有关详细信息,请参阅 技术说明 部分。

  • 假设实例属于总体的一个典型示例。 如果需要计算人口统计信息,请使用 " 计算基本统计信息 " 模块中的选项,该模块可计算样本统计信息或人口统计信息。

列名称 说明
功能 列的名称
计数 所有行的计数
唯一值计数 列中的唯一值数
缺失值计数 列中的唯一值数
最小值 列中的最低值
最大值 列中的最高值
平均值 所有列值的平均
平均偏差 列值的平均偏差
第 1 个四分位数 第 1 个四分位点的值
中值 中值列值
第 3 个四分位数 第 3 个四分位点的值
模式 列值的模式
范围 一个整数,表示最大值和最小值之间的值的数目
样本方差 列的方差;请参阅“说明”
样本标准差 列的标准差;请参阅“说明”
样本偏度 列的偏度;请参阅“说明”
样本峰度 列的峰度;请参阅“说明”
P0.5 0.5% 百分位数
P1 1% 百分位数
P5 5% 百分位数
P95 95% 百分位数
P99.5 99.5% 百分位数

提示

将 statistics 报表输出为表格数据集,以便可以在 BI 报表工具中使用数据,或使用这些值作为试验中其他操作的输入。

示例

有关如何在试验中使用 " 汇总数据 " 模块的示例,请参阅 Azure AI 库

  • 从 uci 下载数据集:使用其在 uci 机器学习存储库中的 URL 读取 CSV 格式的数据集,并生成有关该数据集的某些基本统计信息。

  • 数据集处理和分析:将数据集加载到工作区,更改列名并添加元数据。

  • 学生绩效预测:从 Azure Blob 存储中读取以 TSV 格式存储的数据。

技术说明

  • 对于数字列和布尔值列,可以输出平均值、中值、模式和标准偏差。

  • 对于非数字列,只计算“计数”、“唯一值计数”和“缺失值计数”的值。 对于其他统计信息,返回 null 值。

  • 使用以下规则处理包含布尔值的列:

    • 在计算“最小值”时应用逻辑 AND。

    • 计算 Max时,应用逻辑 OR

    • 在计算“范围”时,该模块首先检查列中的唯一值数是否等于 2。

    • 在计算需要浮点计算的任何统计量时,True 值将视为 1.0,False 值将视为 0.0。

预期输入

名称 类型 说明
数据集 数据表 输入数据集

输出

名称 类型 说明
结果数据集 数据表 包含描述性统计信息的输入数据集的配置文件

例外

异常 描述
错误 0003 如果一个或多个输入为 null 或为空,则会发生异常。
错误 0020 如果某些数据集中传递给模块的列数太小,则会发生异常。
错误 0021 如果某些数据集中传递给模块的行数太小,则会发生异常。

有关特定于 Studio (经典) 模块的错误列表,请参阅机器学习错误代码

有关 API 异常的列表,请参阅机器学习 REST API 错误代码

另请参阅

统计函数
计算基础统计