创建挖掘结构 (SQL Server 数据挖掘加载项)

“创建挖掘结构”按钮、“数据挖掘”功能区

如果要创建用于分析的数据集,而无需创建模型,请使用数据建模组中的高级选项。 如果要试验不同的算法,这非常有用。

创建挖掘结构后,使用 “将模型添加到结构 ”向导基于该结构创建模型。 还可以使用 数据挖掘高级查询编辑器创建新模型。

您还可以使用此选项,当您打算使用 Analysis Services 所支持的高级算法来建立模型,但这些算法如线性回归或序列聚类等无法通过向导访问,或者如果您使用的是自定义算法。

注释

创建挖掘结构时,还可以建立一个随机选择的测试数据集,可用于验证所有模型。 这很方便,因为可以轻松地将模型准确性与通用数据集进行比较。 只需选择此选项, 将数据拆分为训练集和测试集 ,并指定适当的数据百分比以供测试,通常约为 30%。

使用向导创建挖掘结构

  1. “数据挖掘 ”功能区中,单击“ 高级”,然后选择“ 创建结构”。

  2. “选择源数据 ”对话框中,指定包含要用于分析的数据的 Excel 范围、Excel 数据表或外部数据源。

    单击 “下一步”

  3. “选择列 ”对话框中,查看所选数据源中可用的列列表。

  4. 单击列名称右侧的箭头以更改列的 用法 ,从以下值中进行选择:

    • Key。 每个模型至少需要一个密钥。

    • 关键时间。 此选项仅适用于预测模型,因为这是必要的。

    • 包括。 这表明该列应在数据挖掘结构中可用,但不是关键列。

    • 请勿使用。 表示该列不应包含在挖掘结构中。

    请记住,在生成模型时,始终可以忽略列,但稍后添加列需要重新处理结构和模型。

  5. 单击“浏览 ”按钮 可设置内容类型、数据类型和建模标志。

    注释

    如果列包含数值数据,应始终打开此对话框,以确保选择了正确的数据类型。 在某些情况下,即使输入数据是数字,也希望将其视为分类变量或离散值,而不是连续数。

    例如,邮政编码列可能默认列为连续长数据类型,但为了获得更好的结果,可以指定将其作为离散文本值进行处理。

    有关详细信息,请参阅 “为数据挖掘选择数据”中的内容类型部分。

    单击 “确定” 关闭对话框。

  6. 单击 “下一步”

    根据所使用的数据类型,您可以在此步骤后完成向导。 在这种情况下,请跳到 “完成 ”页以命名挖掘结构。

    对于其他模型,可以选择创建测试数据集。

  7. “将数据拆分为训练和测试数据集 ”对话框中,指定数据分区的方式。 默认情况下,30% 的数据用于测试。

    (可选)键入用于测试的最大行数。

    单击 “下一步”

  8. 在“ 完成 ”对话框中,键入新挖掘结构的名称和说明。

  9. 单击“完成”。

选项 注释
“选择源数据 ”对话框 选择 Excel 表时,应指示数据是否已有标头。 如果跳过此步骤,第一行数据将被用作列名。

如果使用选项 “外部数据源”,则可以使用可在 Analysis Services 数据源中定义的任何类型的数据。 但是,用于创建新数据源的外接程序中的对话框不包括 Analysis Services 支持的全部数据源,因此我们建议你提前在 Analysis Services 服务器上创建数据源,然后使用外接程序进行连接。
“数据源查询编辑器 ”对话框 连接到指定的数据源后,可以添加列,或创建自定义查询以生成自定义列。
将数据拆分为训练和测试数据集 训练集与测试集的建议值为 70%用于训练,30% 用于测试:但是,如果你有大量数据,则可以指定用于测试的最大行数。
完成对话框 钻取选项在某些模型类型上可用,如果在挖掘结构中包含详细信息列,则非常有用。 例如,如果创建一个聚类模型,您可以包括姓名或电子邮件地址等详细信息用于钻取,但不用于分析,以便更轻松地联系特定群组中的客户。

在“创建挖掘结构向导”中设置列使用情况

创建新的挖掘结构时,可以指定数据源中的哪些列应包含在挖掘结构中,以及应如何使用这些列。 请记住,挖掘结构可以支持多个挖掘模型。

价值观 DESCRIPTION
包括 指定列包含可用于分析或预测的数据。
密钥 指定列包含事务 ID、序列 ID 或处理所需的其他键。

所有算法都需要主键列。 但是,某些算法仅允许单个密钥,而其他算法则允许多个密钥。

如果列包含键,但不需要进行处理,请选择 “请勿使用”。
关键时间 指定列包含可用于唯一标识时序中的项的日期或其他数值。
请勿使用 指定列应被忽略。 不会处理列中的数据。

若要正确处理模型,算法必须知道哪个列是唯一标识每行的关键列,在创建可预测模型时,哪个列是用于创建预测的目标列,以及要用作输入列的列来创建预测目标列的关系。

  • 指定为 Do not use 的列将不会存在于挖掘结构中。

    如果添加不必要的列或具有错误值,则可能会对分析结果产生不利影响。 因此,请务必仅包含相关列。 但是,请记住,在挖掘结构中不使用的列将不可用于查询。

  • 指定为 Include 类型的列将包含在挖掘结构中,稍后可用于挖掘模型中的分析或预测。

    如果不确定是否需要使用该列,始终可以在挖掘结构中包含该列,然后创建不使用该列的挖掘模型。 例如,可以在数据中包含电话号码列以供以后参考,但创建忽略电话号码的聚类分析模型。 创建群集后,可以创建一个查询,该查询返回属于特定群集的人员的电话号码。

  • 所有算法都需要 关键列。 键列中的值必须是唯一的。 仅预测或时序模型需要 关键时间 列。 .

要求

若要创建数据挖掘结构,必须连接到 Analysis Services 实例。 即使使用临时结构,也需要连接。 有关如何创建或更改连接的详细信息,请参阅“连接到源数据”(Excel 数据挖掘客户端)。

另请参阅

创建数据挖掘模型