Excel 统计函数:RSQ

概要

本文介绍 Microsoft Office Excel 2003 和更高版本的 Excel 中的 RSQ 函数。 本文讨论如何使用函数,并将这些更高版本的 Excel 中的 RSQ 结果与早期版本的 Excel 中的 RSQ 结果进行比较。

详细信息

RSQ(array1, array2) 函数返回两个数据数组之间的皮尔逊 Product-Moment 相关系数的平方。

语法

RSQ(array1, array2)

参数 array1 和 array2 必须是数字或名称、数组常量或包含数字的引用。

RSQ 的最常见用法包括两个包含数据的单元格区域,例如 RSQ(A1:A100、B1:B100)。

用法示例

若要说明 RSQ 函数,请执行以下步骤:

  1. 创建空白 Excel 工作表,然后复制下表。

    一个 B C D
    1 = 3 + 10^$D$2 要添加到数据的 10 的强大功能
    2 =4 + 10^$D$2 0
    3 =2 + 10^$D$2
    4 =5 + 10^$D$2
    5 =4+10^$D$2
    6 =7+10^$D$2 pre-Excel 2003
    =RSQ(A1:A6,B1:B6) when D2 = 7.5
    =PEARSON(A1:A6,B1:B6)^2 RSQ = PEARSON^2 0.492857142857143
    =CORREL(A1:A6,B1:B6)^2 CORREL^2 0.509470304975923
    when D2 = 8
    RSQ = PEARSON^2 #DIV/0!
    CORREL^2 0.509470304975923
  2. 在空白 Excel 工作表中选择单元格 A1,然后粘贴这些条目,以便表格填充工作表中的单元格 A1:D13。

  3. 将表格粘贴到新的 Excel 工作表中后,选择“ 粘贴选项 ”按钮,然后选择“ 匹配目标格式”。 在保持粘贴范围选定的状态下,根据所使用的 Excel 版本选择以下操作之一:

    • 在 Microsoft Office Excel 2007 中,选择“开始”选项卡,在“单元格”组中选择“格式”,然后选择“自动调整列宽”。
    • 在 Excel 2003 中,首先指向格式菜单中的,然后选择自动调整选择

注释

你可能希望将单元格 B1:B6 设置为带 0 位小数位数的数字。

单元格 A1:A6 和 B1:B6 包含此示例中使用的两个数据数组,用于在单元格 A8:A10 中调用 RSQ、PEARSON 和 CORREL。 RSQ 的计算过程基本上是计算 PEARSON 然后对结果进行平方。 由于 PEARSON 和 CORREL 都计算皮尔逊 Product-Moment 相关系数,因此其结果应达成一致。 RSQ 可以(但未实现)通过实质上计算 CORREL 并将结果平方来实现。

在早于 Excel 2003 的 Excel 版本中,PEARSON 可能会显示舍入错误。 此行为会导致 RSQ 中的舍入错误。 PEARSON 和 RSQ 的行为已针对 Excel 2003 及更高版本进行了改进。 CORREL 始终通过使用在 Excel 2003 和更高版本的 Excel 中找到的改进过程来实现。 因此,对于早期版本的 Excel,RSQ 的替代方法是改用 CORREL,然后对结果进行正方形处理。

在 Excel 2003 之前的版本中,可以使用本文所述的工作表进行实验,以识别舍入错误产生的时机。 如果将常量添加到 B1:B6 中的每个观察值,则不应影响单元格 A7:A9 中的 RSQ、PEARSON^2 和 CORREL^2 的值。 如果增加 D2 中的值,则会向 B1:B6 添加更大的常量。 如果 D2 <= 7,则 A7:A9 中没有出现舍入错误。 现在更改 7.25、7.5、7.75 和 8 的值。 A9 中的 CORREL^2 不受影响,但 RSQ 和 PEARSON^2(这些表达式始终相互同意)在 A7:A8 中显示舍入错误。 当 D2 = 7.5 和 8 时,D6:D13 显示 RSQ = PEARSON^2 和 CORREL^2 的值。

请注意,CORREL 仍然表现良好,但 PEARSON 中的舍入误差已经变得如此严重,以至于当 D2 = 8 时,RSQ 和 PEARSON^2 出现除以 0 的情况。

早期版本的 Excel 在这些情况下表现出不正确的答案,因为舍入错误的影响对于这些版本的 Excel 使用的计算公式更为深刻。 不过,此试验中使用的事例可能被视为极端情况。

如果你有 Excel 2003 或更高版本的 Excel,则在尝试试验时,RSQ 和 PEARSON^2 的值不会发生任何更改。 但是,单元格 D6 到 D13 显示的是在早期版本的 Excel 中会出现的舍入误差。

早期版本的 Excel 中的结果

如果将两个数据数组命名为 X's 和 Y's,则早期版本的 Excel 使用单个传递数据来计算 X's 的平方和、Y 的平方和、X's 的总和、Y 的和、XY 的和以及每个数组中的观察数。 然后,这些数量合并在早期版本的 Excel 帮助文件中提供的计算公式中。 RSQ 的帮助文件显示 Pearson Product-Moment 相关系数的公式。 此结果平方以获取 RSQ。

Excel 2003 和更高版本的 Excel 中的结果

在 Excel 2003 和更高版本的 Excel 中使用的过程是通过两次处理数据。 首先,计算 X 和 Y 的和以及每个数组中观测值的数量,然后可以从这些得出 X 和 Y 观测值的平均值。 然后,在第二遍中,找到每个 X 和 X 平均值之间的平方差值,并将这些平方差值求和。 发现每个 Y 和 Y 平均值之间的平方差,并求和这些平方差异。 此外,为每对数据点找到产品(X – X 平均值) * (Y – Y 平均值), 并求和。 这三个总和合并在 PEARSON 的公式中。 请注意,如果将常量添加到 Y 数组中的每个值(或 X 数组中),则不会影响这三个总和。 发生此行为的原因是将相同的值添加到 Y 平均值(或 X 平均值)。 在数值示例中,即使单元格 D12 中具有 10 的高次幂,这三个总和也不会受到影响,第二次运算的结果与单元格 D2 中的条目无关。 因此,Excel 2003 和更高版本中的 Excel 结果在数字上更加稳定。

结论

将单轮方法替换为双轮方法可以确保 PEARSON,以及因此的 RSQ,在 Excel 2003 和更高版本的 Excel 中拥有更好的数值性能。 在 Excel 2003 和更高版本的 Excel 中获取的结果永远不会比在早期版本的 Excel 中获取的结果更准确。

在大多数实际示例中,你不太可能看到早期版本的 Excel 的结果与早期版本的 Excel 中的结果之间的差异。 发生此行为是因为典型数据不太可能表现出此试验所说明的异常行为。 如果数据包含大量有效数字,且数据值之间的差异相对较小,则数字不稳定很可能出现在早期版本的 Excel 中。

通过求样本均值、计算每个平方偏差并累加这些平方偏差以求其总和的过程比替代方法更准确。 此替代过程经常被命名为“计算器公式”,因为它适合在几个数据点上使用计算器。 备用程序使用了以下步骤:

  • 找到所有观察值的平方和、样本大小和所有观测值的总和
  • 计算所有观察值的平方和减去([所有观察值的总和的平方] / 样本大小)。

对于 Excel 2003 和更高版本的 Excel,还有其他许多已改进的函数。 这些函数得到改进,因为更高版本的 Excel 将一次性过程替换为第一次传递上查找样本平均值的双传递过程,然后计算第二次传递上样本平均值的平方偏差之和。

以下列表是此类函数的列表:

  • VAR
  • VARP
  • STDEV
  • STDEVP
  • DVAR
  • DVARP
  • DSTDEV
  • DSTDEVP
  • 预测
  • 拦截
  • 皮尔森
  • RSQ
  • STEYX

在分析工具库的三个方差分析工具中,都进行了类似的改进。