创建关键影响因素可视化效果

适用范围:Power BI Desktop Power BI 服务

关键影响因素视觉对象可帮助你了解驱动你感兴趣的指标的因素。 它可分析数据,对重要因素进行排序,并将其显示为“关键影响因素”。 例如,假设你想要找出影响员工流动(也称为流失)的因素。 一大因素可能是就业合同时限,另一大因素可能是上下班时间。

本文提供了有关如何在 Power BI 中使用关键影响因素视觉对象的分步教程。 其中介绍了如何设置视觉对象、解释其结果以及排查常见问题。 如果想要了解哪些因素驱动了数据中的特定结果(例如客户反馈、销售或其他指标),本指南将帮助你使用 Power BI 的 AI 驱动的分析工具获取可作的见解。

何时使用关键影响因素

如果需要执行以下操作,可以选择关键影响因素视觉对象:

  • 看看哪些因素会影响所分析的指标。
  • 对比这些因素的相对重要性。 例如,短期合同比长期合同对流失的影响更大吗?

关键影响因素视觉对象的功能

关键影响因素视觉对象的编号特征的屏幕截图。

  1. 选项卡:选择选项卡并在视图之间切换。 “关键影响因素”显示对所选指标值影响最大的一些因素。 “首要区段”显示对所选指标值影响最大的一些区段。 “细分市场”由值的组合组成。 例如,一个细分市场可能是长期客户并居住在西部地区的消费者。

  2. 下拉框:正在调查的指标的值。 在此示例中,请查看指标“评级”。 所选的值为“低”。

  3. 重述:帮助解释左侧窗格中的视觉对象

  4. 左窗格:左窗格包含一个视觉对象。 在此情况下,左窗格显示首要关键影响因素列表。

  5. 重述:帮助解释右侧窗格中的视觉对象

  6. 右窗格:右窗格包含一个视觉对象。 在此情况下,列图显示左窗格中已选中关键影响因素“主题”的所有值。 左侧窗格中 可用性 的特定值以绿色显示。 “主题”的所有其他值均以黑色显示。

  7. 平均行:对主题的所有可能值计算平均值,可用性除外(它是所选的影响因素)。 因此该计算适用于所有黑色的值。 它显示了其他低分“主题”的百分比。 在这种情况下,11.35% 的评级较低(由虚线显示)。

  8. 复选框:筛选出右侧窗格中的视觉对象,以仅显示该字段影响因素的值。

分析分类型指标

  1. 你的产品经理希望找出哪些因素会导致客户对云服务进行负面评论。 若要在 Power BI Desktop 中进行操作,请打开 客户反馈 PBIX 文件

注意

客户反馈数据集基于 [Moro et al., 2014] S. Moro, P. Cortez 和 P. Rita. “一种预测银行电话营销成功的数据驱动方法。”Decision Support Systems, Elsevier, 62:22-31, June 2014。

  1. 在“可视化效果”窗格的“生成视觉对象”下,选择“关键影响因素”图标。

    “可视化效果”窗格上的“关键影响因素”图标的屏幕截图。

  2. 将要研究的指标移动到“分析”字段。 若要查看导致客户对服务的评级较低的因素,请选择“客户表”“评级” 。

  3. 将认为可能影响“评级”的字段移动到“解释依据”区域 。 可以根据需要移动任意数量的字段。 在此例中从以下字段开始:

    • 国家/地区
    • 在组织中的角色
    • 订阅类型
    • 公司规模
    • 主题
  4. 将“扩展方式”字段保留为空。 此字段仅在分析度量值或汇总字段时使用。

  5. 若要关注负评级,请在“影响评级的”下拉框中选择“”。

    包含高选项和低选项的下拉框的屏幕截图。

分析在所分析字段的表级别上运行。 在此例中,为“评级”指标。 该指标是在客户级别定义的。 每个客户都提供高分或低分。 所有的解释因素都必须以客户级别进行定义,以便视觉对象可进行利用。

在先前示例中,所有的解释因素与指标均为一对一或多对一关系。 在本例中,每个客户均为其评级分配了一个主题。 同样,来自同一国家或地区的客户在其组织中具有同一成员身份类型和同一角色。 解释因素已经是客户属性,无需转换。 视觉对象可以直接使用它们。

本教程的后面部分将介绍更复杂的示例,其中具有一对多关系。 在这些情况下,必须首先将列向下聚合到客户级别,然后才能运行分析。

用作解释因素的度量值和聚合也在“分析”指标的表级别进行评估。 本文后面部分将提供一些示例。

解释分类关键影响因素

我们来看看导致低评级的关键影响因素。

影响低评级可能性的第一大因素

此示例中的客户可以具有三个角色之一:使用者、管理员或发布者。 客户是导致低评级的首要因素。

关键影响因素的屏幕截图,其中选择了“组织中的角色是使用者”。

更准确地说,客户给服务留下负面评分的可能性是 2.57 倍。 关键影响因素图表先在左侧列表中列出“在组织中的角色是客户”。 选择“在组织中的角色是使用者”后,Power BI 会在右侧窗格中显示其他详细信息。 会显示各角色在导致低评级上的影响的比较分析。

  • 14.93% 的客户给出低分。
  • 平均来看,5.78% 的所有其他角色给出了低分。
  • 与其他角色相比,使用者给出低分的可能性高出 2.57 倍。 可以通过用绿色条数据除以红色虚线数据来确定分数。

影响低评级可能性的第二大因素

关键影响因素视觉对象可比较许多不同变量的因素并对其进行排列。 第二影响因素与“在组织中的角色”无关。选择列表中的第二影响因素,即“主题为可用性”。

关键影响因素的屏幕截图,其中“主题”已选择为可用性。

第二重要因素与客户评价的主题相关。 与对可靠性、设计或速度等其他主题发表评论的客户相比,对产品可用性发表评论的客户给出低分的可能性为 2.55 倍。

在视觉对象中,由红色虚线显示的平均值从 5.78% 变为 11.35%。 平均值是动态的,因为该值基于所有其他值的平均值。 对于第一个影响因素,平均值排除了客户角色的影响。 对于第二个影响因素,排除了可用性主题。

选中 “仅显示影响因素” 复选框以仅使用有影响力的值筛选数据。 在此例中,他们是导致低分的角色。 12 个主题减少到 Power BI 标识为驱动低评级的主题的 4 个主题。

复选框的屏幕截图,仅显示影响因素的值。

与其他视觉对象交互

每当选择画布上的切片器、筛选器或其他视觉对象时,关键影响因素视觉对象就会重新运行对新数据部分的分析。 例如,可以将“公司规模”移动到报表,并用作切片器。 使用它来了解企业客户的关键影响因素是否不同于一般人群。 公司规模大于 50000 人。

选择“> 50000”会重新运行分析,可以看到影响因素已发生变化。 对于大型企业客户,低评级的首要影响因素具有与安全性相关的主题。 你可能需要进一步调查,从而了解是否存在大型客户不满意的特定安全功能。

按公司规模选择的视觉对象的屏幕截图。

解释持续关键影响因素

到目前为止,你学习了如何使用视觉对象来探索不同的分类字段如何影响低评级。 “解释依据”字段中也可含有年龄、身高和价格等连续性因素。 让我们看看当Tenure从客户表移动到解释依据时,会发生什么情况。 任期描述客户使用该服务的时间。

随着“服务期”变长,获得低评级的可能性也在增加。 这一趋势表明,长期客户更有可能给出负面评分。 这种见解很有趣,会使你想进行后续跟进。

可视化效果显示,每当服务期延长 13.44 个月,低评级的可能性平均增加 1.23 倍。 在此情况下,13.44 个月表示服务期的标准差。 所以你得到的见解着眼于按标准数额(服务期标准差)增加服务期会如何影响收到低评级的可能性。

右窗格中的散点图显示每个工龄阶段低评级的平均百分比。 它用走向线突出显示了斜率。

任期散点图的截图。

分箱的连续关键影响因素

在某些情况下,你可能会发现连续因素自动转换为分类因素。 如果变量之间的关系不是线性的,则我们不能简单地将关系描述为增加或减少(就像我们在前面的示例中所做的那样)。

我们运行相关测试来确定影响因素与目标之间的线性关系。 如果目标是连续的,我们将运行 Pearson 关联;如果目标是分类的,则运行 Point Biserial 相关测试。 如果我们检测到关系不够线性,我们将进行监督装箱,并生成最多五个箱。为了弄清楚哪些箱最有意义,我们使用监督装箱方法。 监督装箱方法查看解释因子与要分析的目标之间的关系。

将度量值和聚合值作为关键影响因素进行解释

可以将度量值和聚合值用作分析中的解释因素。 例如,客户支持票证计数对收到的分数有何影响。 或者,打开票证的平均持续时间对收到的分数有何影响。

在此情况下,你想知道客户拥有的支持工单数量是否会影响其给出的分数。 现在,从 “支持票证”表中引入支持票证 ID 。 由于客户可拥有多个支持工单,因此你可将 ID 聚合到客户级别。 聚合非常重要,因为分析在客户级别运行,因此必须在该粒度级别上定义所有因素。

我们来看看 ID 计数。 每个客户行都有一个与之关联的支持工单计数。 在此情况下,随着支持工单计数的增加,低评级的可能性增加了 4.08 倍。 屏幕截图显示了按不同“评级”值(在客户级别评估)划分的支持工单的平均计数

显示支持工单 ID 的影响的屏幕截图。

解释结果:首要细分市场

可以使用“关键影响因素”选项卡分别评估每个因素。 还可以使用“首要区段”选项卡查看因素组合如何影响正在分析的指标。

首要区段一开始会显示 Power BI 发现的所有区段的概述。 以下示例显示找到了六个区段。 段内的低评级百分比决定了排名。 例如,区段 1 客户的低评级百分比为 74.3%。 气泡越高,低评级的比例就越高。 气泡尺寸表示该区段中的客户数量。

选定的“首要细分市场”选项卡的屏幕截图。

选择气泡可显示该区段的详细信息。 例如,如果选择“细分 1”,则发现它表示已建立的客户。 他们成为客户已经超过 29 个月,并拥有超过四张支持工单。 最后,他们并不是发布者,因此是客户或管理员。

在这一组中,74.3% 的客户评价较低。 此时给出低评级的普通客户的百分比为 11.7%,所以此区段的低评级比例较高。 高出 63 个百分点。 区段 1 还包含大约 2.2% 的数据,因此可表示总体中的可处理部分。

根据评级划分的顶级段的屏幕截图。

添加计数

有时,影响因素可以有很大的影响,但只代表极少的数据。 例如,“主题为可用性”是低分的第三大影响因素。 但可能仅有少数客户抱怨可用性问题。 计数有助于对要关注的影响因素进行优先级排序。

可以通过“格式视觉窗格”的 “分析”卡 打开计数功能。

“格式”窗格中“启用计数”滑块的屏幕截图。

启用计数之后,每个影响因素的气泡周围将显示一个环,表示该影响因素所包含数据的大致百分比。 该环包围的气泡面积越大,其包含的数据就越多。 可以看到主题为“可用性” 包含的数据比例非常小。

表示计数的影响因素气泡周围的环形的屏幕截图。

还可以使用视觉对象左下角的“排序方式”按钮,先按计数(而不是影响)对气泡进行排序。 “订阅类型为顶级”是基于计数的最大影响因素 。

先按计数排序的“排序方式”切换开关的屏幕截图。

完整的圆环表示影响因素包含 100% 的数据。 可以使用“格式视觉对象”窗格的“分析”卡片上的“计数类型”下拉列表,将计数类型更改为相对于最大影响因素。 现在,具有最大数据量的影响因素由全环表示,所有其他计数都相对于它。

显示相对计数下拉菜单的屏幕截图。

分析数值型指标

如果将未汇总的数值字段移动到“分析”字段,可以选择如何处理该场景。 可以通过转到“设置视觉对象格式”窗格并在分类分析类型和连续分析类型之间切换来更改视觉对象的行为。

从分类更改为连续的下拉菜单的屏幕截图。

本文前面介绍了分类分析类型。 例如,如果查看 1 到 10 不等的调查分数,可以询问“调查分数对 1 的影响是什么?”

“连续分析类型”将问题更改为连续型问题。 使用前面的示例,我们的新问题是“什么影响调查分数来增加/减少?”

如果分析的字段中有许多唯一值,这一区别会很有用。 在下一个示例中,我们将查看房价。 问“房价对156,214有什么影响?”这并不有意义,因为具体来说,我们可能没有足够的数据来推断模式。

相反,我们可能想问,“什么影响房价上涨”,这允许我们把房价视为一个范围,而不是不同的价值。

用于选择影响因素的下拉列表选项的屏幕截图。

解释结果:关键影响因素

注意

本部分中的示例使用公共域内部价格数据。 如果您想跟着一起操作,可以下载示例数据集

在这种情况下,我们看看“影响房价上涨什么”。一些解释性因素可能会影响房价,如 年建 (房屋建造年份)、 厨房Qual (厨房质量)和 YearRemodAdd (房屋改造年份)。

在下面的示例中,我们看看我们最大的影响者,这是厨房质量是优秀的。 结果与我们分析类别指标时看到的结果相似,但有一些重要区别:

  • 右侧的柱形图关注平均值而不是百分比。 因此,它告诉我们,拥有优秀厨房的房子的平均房价(绿色条)与没有优秀厨房的房子的平均房价(虚线)相比是多少。
  • 气泡中的数字仍然是红色点线和绿色条之间的差值,但它以数字(\$158.49K)而不是可能性(1.93x)表示。 因此,平均而言,拥有优秀厨房的房屋比没有优秀厨房的房屋贵近16万美元。

数值目标类别影响因素的屏幕截图。

在下一个示例中,我们看看连续因素(年房被改造)对房价的影响。 以下显示了与类别指标持续性影响因素的分析方式之间的差异:

  • 右窗格中的散点图绘制了每个年份翻新的不同年份的平均房价。
  • 气泡中的数值展示了当房屋翻新年份增加一个标准差(在本例中为20年)时,房屋平均价格上涨的幅度(在本例中为2.87K美元)。

数字目标连续影响因素的屏幕截图。

最后,在度量值的例子中,我们关注房屋建成的平均年份。 分析如下:

  • 右侧窗格中的散点图展示了表中的每个不同值的平均房价。
  • 泡沫中的值显示当平均年份按其标准偏差(在本例中为30年)增加时,平均房价上涨的幅度(在本例中为1.35千美元)。

房价的主要影响因素的屏幕截图,左侧有影响因素和右侧的散点图。

使用顶级片段解释结果

数值目标的首要区段显示平均房价高于整体数据集的组。 例如,下面我们可以看到“区段 1”包含符合后述特征的房屋:“GarageCars”(车库可容纳的汽车数量)大于 2,“RoofStyle”(屋顶风格)为“时尚” 。 这些特征的房屋的平均价格为 \$355K,而数据中的平均价格为 \$18 万美元。

显示房价首要细分市场的屏幕截图。

分析度量值或汇总列型指标

对于度量值或汇总列,分析默认为本文前面所述的连续分析类型。 它不能更改。 分析度量值/汇总列和分析未汇总数字列之间的最大区别在于分析运行的级别。

对于未汇总列,分析始终在表级别运行。 在房价示例中,我们分析了 房价 指标,以了解房价上涨/降低的影响。 该分析在表级别自动运行。 表中每个房屋都有唯一的 ID,因此分析在房屋级别运行。

显示房价示例的表级分析的屏幕截图。

对于度量值和汇总列,无法立即确定在哪个级别进行分析。 如果将“房价”汇总为“平均”,则需要考虑要在哪个级别上计算此平均房价 。 是社区级别的平均房价? 还是地区级别的?

在所用“扩展方式”字段的级别自动分析度量值和汇总列。 想象一下,我们想在“通过解释”中研究三个领域:厨房质量建筑类型空调房价平均值将为这三个字段的每个唯一组合计算。 切换到表视图查看要评估的数据通常很有帮助。

显示三个列和平均房价的屏幕截图。

此分析进行了高度总结,因此回归模型可能很难找到它可以从中学习的数据中的任何模式。 应在更详细的级别运行分析,以获得更好的结果。 如果想要在房屋级别分析房价,则需要将“ID”字段显式添加到分析。 但我们不想将房屋 ID 视为影响因素。 了解房屋 ID 上涨时,房价上涨并不有用。 此处提供了 “按字段展开 ”选项。 可以使用 Expand by 添加要用于设置分析级别的字段,而无需查找新的影响因素。

查看将 ID 添加到 Expand by 后可视化效果的外观。 定义要计算度量值的级别后,解释影响因素与 未求和的数字列完全相同。

显示房价可视化效果的屏幕截图,该可视化效果取决于本节中讨论的三列。

若要了解 Power BI 如何在后台使用 ML.NET 以自然的方式推理数据和表面见解,请参阅 Power BI 使用 ML.NET 识别关键影响因素

注意事项和疑难解答

视觉对象的限制是什么?

关键影响因素视觉对象具有一些限制:

  • 不支持直接查询。
  • 不支持与 Azure Analysis Services 和 SQL Server Analysis Services 的实时连接。
  • 不支持发布到网络。
  • 需要 .NET Framework 4.6 或更高版本。
  • 不支持 SharePoint Online 嵌入。
  • 如果数据模型将 阻止隐式度量 设置为 true,则不支持分析类别型指标(例如,当在数据模型中定义了计算组时)。

数字问题的下拉选项的屏幕截图

我遇到错误:找不到任何影响因素或区段。 为什么会这样?

未找到任何影响因素错误消息的屏幕截图。

“解释依据”中已包含字段但未找到影响因素时,会出现此错误。 检查以下问题之一是否适用。

  • 同时在“分析”和“解释依据”中包含了所分析的指标 。 将其从“解释依据”中删除。
  • 解释字段具有太多类别,而只有少量观测数据。 这种情况使得可视化效果很难确定哪些因素是影响因素。 仅根据少数观察结果很难概括。 如果要分析数值字段,可能需要在“分析”卡上的“格式视觉对象”窗格中从分类分析切换到“连续分析”。
  • 解释因素具有足够的观测数据来进行归纳,但可视化效果并未发现任何有意义的相关性。

出现了错误:我分析的指标没有足够数据运行分析。 为什么会这样?

数据不足错误消息的屏幕截图。

可视化的工作原理是将一个组的数据模式与其他组进行比较。 例如,它会查找所给评级较低的客户,而不是评级较高的客户。 如果模型中的数据只有少量观测数据,则很难发现模式。 如果可视化效果没有足够数据查找有意义的影响因素,将表示需要更多数据运行分析。

建议为所选状态至少获取 100 个观测数据。 在此例中,状态是客户流失。 还需要为用于比较的状态获取至少 10 个观测数据。 在此例中,比较状态是客户未流失。

如果要分析数值字段,可能需要在“分析”卡上的“格式视觉对象”窗格中从分类分析切换到“连续分析”。

我看到一个错误:如果“分析”未汇总,则分析总是在其父表的行级运行。 不允许通过“扩展方式”字段更改此级别。 为什么会这样?

分析数值列或分类列时,分析总是在表级运行。 例如,如果要分析房价,并且表包含 ID 列,则分析会自动在房屋 ID 级别运行。

如果分析的是度量值或汇总列,则需要显式地声明想要分析在哪个级别运行。 可以使用“扩展方式”更改度量值和汇总列的分析级别,而不添加新的影响因素。 如果将“房价”定义为度量值,则可以向“扩展方式”添加房屋 ID 列,从而更改分析级别。

分析在所分析字段的表级别上运行。 例如,如果分析的是客户对服务的反馈,则可能具有一个表,该表可告知客户给出了高评级或低评级。 在此例中,分析会在客户表级别运行。

如果具有比包含指标的表更精细的级别定义的相关表,则会看到此错误。 下面是一个示例:

  • 你在分析导致客户对服务给出低评级的原因。
  • 你想要查看客户使用服务的设备是否会影响给出的评价。
  • 客户可以通过多种不同方式使用服务。
  • 在下面的示例中,客户 10000000 同时使用浏览器和平板电脑与服务交互。

在比包含指标的表更细化的级别定义的相关表的屏幕截图。

如果尝试使用设备列作为解释因素,则会出现以下错误:

错误列错误消息的屏幕截图。

出现此错误是因为未在客户级别定义设备。 客户可以在多个设备上使用该服务。 若要使可视化效果可查找模式,设备必须是客户属性。 有几种解决方案,取决于你对业务的理解:

  • 可以更改要计数的设备的摘要。 例如,如果设备数量可能影响客户给出的分数,请使用计数。
  • 你可以透视设备列,查看在特定设备上使用服务是否会影响客户评级。

此示例对数据进行了透视,以便为浏览器、移动设备和平板电脑创建新列(请确保在透视数据后在建模视图中删除并重新创建关系)。 现在可以在“解释依据”中使用这些特定设备。 所有设备都是影响因素,而浏览器对客户评分的影响最大。

更准确地说,不通过浏览器使用服务的客户比通过浏览器使用服务的客户给出低分数的可能性高 3.79 倍。 在列表中较低的位置,移动端情况相反。 使用移动应用的客户比不使用移动应用的客户更可能给出低分。

显示移动应用更有可能给出低分的屏幕截图。

出现了警告:度量值未包含在分析中。 为什么会这样?

显示未包含错误消息的度量值的屏幕截图。

分析在所分析字段的表级别上运行。 如果分析的是客户流失,可能会有表格告知是否有客户流失。 在此例中,分析会在客户表级别运行。

默认情况下,度量值和聚合会在表级别进行分析。 如果存在“每月平均支出”度量值,则将在客户表级别对其进行分析。

如果客户表没有唯一标识符,则无法对度量值进行评估,分析中也会将其忽略。 若要避免这种情况,请确保包含指标的表具有唯一标识符。 在此例中,是客户表,其唯一标识符是客户 ID。 使用 Power Query 添加索引列也很轻松。

出现了警告:所分析指标具有 10 个以上唯一值,这可能会影响分析质量。 为什么会这样?

AI 可视化效果可以分析类别字段和数值字段。 对于分类字段,示例可能是“是”或“否”,而“客户满意度”为“高”、“中”或“低”。 增加要分析的类别数意味着每个类别的观察量会减少。 这种情况使可视化效果更难以在数据中找到模式。

分析数值字段时,可以选择像文本一样处理数值字段,在这种情况下,运行的分析与分类数据(分类分析)相同。 如果你有大量的非重复值,建议将分析切换到 连续分析,这意味着我们可以从数字增加或减少时推断模式,而不是将它们视为非重复值。 可以在分析卡上的格式视觉窗格中从分类分析切换到连续分析

为了查找更强的影响因素,建议将类似值组合到一个单元中。 例如,如果有价格指标,将类似价格分组为“高”、“中”、“低”类别,而不是使用单独的价格点,可能会获得更好的结果。

显示超过 10 个唯一因素警告的屏幕截图。

数据中的一些因素看起来应该是关键影响因素,但并非如此。 为何出现这种情况?

在以下示例中,身份为使用者的客户导致评级较低,低评级占 14.93%。 管理员角色拥有 13.42%的高比例低评级,但它不被视为具有影响力的角色。

得出此判断的原因是可视化效果在发现影响因素时也考虑了数据点的数量。 以下示例包含超过 29,000 个使用者和数量是使用者数量 10 分之 1 的管理员(约为 2,900 个)。 其中仅 390 人给出低评级。 视觉对象没有足够数据来确定是否凭借管理员评级找到了模式,或者是否只是偶然找到。

显示如何确定有影响力的人的屏幕截图。

关键影响因素的数据点限制是什么?

我们对具有 10,000 个数据点的示例运行分析。 一侧的气泡显示我们找到的所有影响因素。 另一边的柱形图和散点图遵守这些核心视觉对象的采样策略。

如何计算分类分析的关键影响因素?

在幕后,AI 可视化效果使用 ML.NET 运行逻辑回归来计算关键影响因素。 逻辑回归是统计模型,用于相互比较不同的组。

如果想要找出导致低评级的原因,逻辑回归会查找给出低评级的客户与给出高评级的客户之间的区别。 如果有多个类别,例如高、中和低分,可以研究评分较低的客户与评分不低的客户的差异。 在此例中,评分低的客户与评分高或中等的客户有什么不同?

逻辑回归在数据中搜索模式,查找给出低评级的客户与给出高评级的客户之间的区别。 例如,逻辑回归可能会发现,与拥有很少或没有支持工单的客户相比,拥有更多支持工单的客户给出低评级的百分比要高得多。

逻辑回归还会考虑存在的数据点数量。 例如,如果扮演管理员角色的客户提供比例更高的负面分数,但只有少数管理员,则此因素并不被视为有影响力的。 得出此判断的原因是没有足够的数据点可用于推断模式。 统计检验(称为 Wald 检验)用于确定是否将某因素视为影响因素。 视觉对象使用 0.05 的 p 值确定阈值。

如何计算数字分析的关键影响因素?

在幕后,AI 可视化效果使用 ML.NET 运行线性回归来计算关键影响因素。 线性回归是一种统计模型,它研究正在分析的字段结果如何基于解释性因素而变化。

例如,如果我们正在分析房价,线性回归将研究拥有优秀厨房对房价的影响。 与没有优质厨房的房屋相比,拥有优质厨房的房屋通常具有更低还是更高的房价?

线性回归还考虑数据点的数量。 例如,如果带网球场的房屋价格较高,但带网球场的房屋很少,这个因素就不视为具有影响力。 得出此判断的原因是没有足够的数据点可用于推断模式。 统计检验(称为 Wald 检验)用于确定是否将某因素视为影响因素。 视觉对象使用 0.05 的 p 值确定阈值。

如何计算这些段?

在后台,AI 可视化效果使用 ML.NET 运行决策树来查找有趣的子组。 决策树的目标是最终得到在关注的指标中相对高的数据点子组。 可能会是评级较低的客户或价格较高的房屋。

决策树采用每个解释因素,并试图推断出给出最佳“分支”的因素。 例如,如果将数据筛选为仅包含大型企业客户,那么是否将给予高评级的客户与低评级分开? 或者最好筛选数据,只包括那些关于安全性发表过评论的客户?

决策树设置分支后,它会获取数据子组,并确定该数据的下一个最佳分支。 在此例中,子组是评论了安全性的客户。 每次拆分后,决策树还会考虑它是否有足够的数据点来使此组具有足够代表性来推断模式。 如果没有,则它是数据中的异常,而不是实际段。 另一项统计测试用于检查具有 p 值 0.05 的拆分条件的统计意义。

决策树完成运行后,将采用所有分支(例如安全评论和大型企业)并创建 Power BI 筛选器。 此筛选器组合打包为视觉对象中的细分市场。

为什么随着我将更多字段移动到按解释,某些因素会成为影响因素或停止成为影响因素?

可视化效果同时评估所有解释因素。 一个因素本身可能是一个影响因素,但当考虑其他因素时,它可能不会。 假设需要分析导致房价高的原因,卧室和房子大小是解释因素:

  • 就其本身而言,更多的卧室可能是房价高的驱动因素。
  • 在分析中纳入房屋大小意味着,现在可以了解在房屋大小不变的情况下,卧室会有何变化。
  • 如果房屋大小固定在1,500平方英尺,则卧室数量不太可能持续增加,从而大幅提高房价。
  • 在将房屋大小纳入考虑之后,卧室作为一个因素的重要性可能会降低。

与 Power BI 同事共享报表要求你拥有单个 Fabric 或 Power BI Pro 许可证,或者报表保存在高级容量中。 请参阅 共享报表