“交叉验证”选项卡(“挖掘准确性图表”视图)

使用交叉验证可以将挖掘结构分区为交叉部分,并针对每个交叉部分循环定型和测试模型。您可以指定要将数据划分成多少个折叠,每个折叠反过来会用作测试数据,而其余的数据用于为新模型定型。Analysis Services 则会为每个模型生成一组标准准确性指标。通过比较为每个交叉部分生成的模型的指标,可以清楚地了解挖掘模型对于整个数据集的可靠程度。

有关详细信息,请参阅交叉验证(Analysis Services – 数据挖掘)

注意注意

交叉验证不能用于使用 Microsoft 时序算法或 Microsoft 顺序分析和聚类分析算法生成的模型。如果对包含这些模型类型的挖掘结构运行报表,则这些模型将不会包括在报表中。

  • 指定折叠数。

  • 指定将用于交叉验证的最大事例数。

  • 指定可预测列。

  • 可以选择指定可预测状态。

  • 可以选择设置控制如何评估预测准确性的参数。

  • 单击**“获取结果”**可显示交叉验证的结果。

  • 折叠计数
    指定要创建的折叠数或分区数。最小值是 2,这表示数据集的一半用于测试,另一半用于定型。

    对于会话挖掘结构,最大值是 10。

    如果挖掘结构存储在 Analysis Services 的实例中,则最大值为 256。

    注意注意

    如果增加折叠数,则执行交叉验证所需的时间会相应增加。如果事例数较大并且“折叠计数”的值也较大,则可能会遇到性能问题。

  • 最大事例数
    指定将用于交叉验证的最大事例数。任一特定折叠中的事例数等于**“最大事例数”值除以“折叠计数”**值。

    如果使用 0,则源数据中的所有事例都用于交叉验证。

    没有默认值。

    注意注意

    如果增加事例数,处理时间也会增加。

  • 目标属性
    从在所有模型中找到的可预测列的列表中选择列。每次执行交叉验证时,只能选择一个可预测列。

    若要只测试聚类分析模型,请选择**“分类”**。

  • 目标状态
    键入一个值,或者从值的下拉列表中选择一个目标值。

    默认值为 null,表示将测试所有状态。

    对聚类分析模型禁用。

  • 目标阈值
    指定一个 0 到 1 之间的值,该值指示预测概率,高于此概率的预测状态被计为正确。可以使用 0.1 为增量来设置该值。

    默认值为 null,表明将可能性最大的预测计为正确。

    注意注意

    虽然可以将值设置为 0.0,但这样做会增加处理时间,而且不会产生有意义的结果。

  • 获取结果
    单击此项将使用指定参数开始模型的交叉验证。

    模型被分区为指定数量的折叠,并为每个折叠测试单独的模型。因此,交叉验证可能需要一些时间才能返回结果。

有关如何解释交叉验证报告的结果的详细信息,请参阅交叉验证报表(Analysis Services - 数据挖掘)

设置准确性阈值

您可以通过设置**“目标阈值”的值来控制度量预测准确性的标准。阈值表示一种准确性栏。为每个预测分配一个预测值正确的概率。因此,如果将“目标阈值”的值设置为接近 1,则要求任一特定预测的概率很高才能计为准确的预测。反之,如果将“目标阈值”**设置为接近 0,则即使具有较低概率值的预测也会计为“准确的”预测。

由于任何预测的概率都取决于数据量以及所进行预测的类型,因此没有建议的阈值。应查看不同概率级别的一些预测,以确定适用于您的数据的准确性栏。进行此操作非常重要,因为对**“目标阈值”**设置的值会影响模型的度量准确性。

例如,假设对特定目标状态进行了三次预测,每次预测的概率分别是 0.05、0.15 和 0.8。如果将阈值设置为 0.5,则仅有一个预测计为正确。如果将**“目标阈值”**设置为 0.10,则两个预测将计为正确。

在**“目标阈值”**设置为默认值 null 时,将每个事例的可能性最大的预测计为正确。在上面的示例中,0.05、0.15 和 0.8 是三个不同事例中的预测概率。虽然概率差别较大,但每个预测都记为正确,因为每个事例只生成一个预测,而这些预测是这些事例的最佳预测。