创建挖掘结构（SQL Server 数据挖掘加载项）

“创建挖掘结构”按钮、“数据挖掘”功能区

如果要创建用于分析的数据集，而无需创建模型，请使用数据建模组中的高级选项。如果要试验不同的算法，这非常有用。

创建挖掘结构后，使用 “将模型添加到结构 ”向导基于该结构创建模型。还可以使用 数据挖掘高级查询编辑器创建新模型。

您还可以使用此选项，当您打算使用 Analysis Services 所支持的高级算法来建立模型，但这些算法如线性回归或序列聚类等无法通过向导访问，或者如果您使用的是自定义算法。

注释

创建挖掘结构时，还可以建立一个随机选择的测试数据集，可用于验证所有模型。这很方便，因为可以轻松地将模型准确性与通用数据集进行比较。只需选择此选项， 将数据拆分为训练集和测试集 ，并指定适当的数据百分比以供测试，通常约为 30%。

使用向导创建挖掘结构

在 “数据挖掘 ”功能区中，单击“ 高级”，然后选择“ 创建结构”。
在 “选择源数据 ”对话框中，指定包含要用于分析的数据的 Excel 范围、Excel 数据表或外部数据源。

单击 “下一步” 。
在 “选择列 ”对话框中，查看所选数据源中可用的列列表。
单击列名称右侧的箭头以更改列的用法，从以下值中进行选择：
- Key。每个模型至少需要一个密钥。
- 关键时间。此选项仅适用于预测模型，因为这是必要的。
- 包括。这表明该列应在数据挖掘结构中可用，但不是关键列。
- 请勿使用。表示该列不应包含在挖掘结构中。
请记住，在生成模型时，始终可以忽略列，但稍后添加列需要重新处理结构和模型。
单击“浏览 ”按钮 可设置内容类型、数据类型和建模标志。

注释

如果列包含数值数据，应始终打开此对话框，以确保选择了正确的数据类型。在某些情况下，即使输入数据是数字，也希望将其视为分类变量或离散值，而不是连续数。

例如，邮政编码列可能默认列为连续长数据类型，但为了获得更好的结果，可以指定将其作为离散文本值进行处理。

有关详细信息，请参阅 “为数据挖掘选择数据”中的内容类型部分。

单击 “确定” 关闭对话框。
单击 “下一步” 。

根据所使用的数据类型，您可以在此步骤后完成向导。在这种情况下，请跳到 “完成 ”页以命名挖掘结构。

对于其他模型，可以选择创建测试数据集。
在 “将数据拆分为训练和测试数据集 ”对话框中，指定数据分区的方式。默认情况下，30% 的数据用于测试。

（可选）键入用于测试的最大行数。

单击 “下一步” 。
在“ 完成 ”对话框中，键入新挖掘结构的名称和说明。
单击“完成”。

选项	注释
“选择源数据 ”对话框	选择 Excel 表时，应指示数据是否已有标头。如果跳过此步骤，第一行数据将被用作列名。如果使用选项 “外部数据源”，则可以使用可在 Analysis Services 数据源中定义的任何类型的数据。但是，用于创建新数据源的外接程序中的对话框不包括 Analysis Services 支持的全部数据源，因此我们建议你提前在 Analysis Services 服务器上创建数据源，然后使用外接程序进行连接。
“数据源查询编辑器 ”对话框	连接到指定的数据源后，可以添加列，或创建自定义查询以生成自定义列。
将数据拆分为训练和测试数据集	训练集与测试集的建议值为 70%用于训练，30% 用于测试：但是，如果你有大量数据，则可以指定用于测试的最大行数。
完成对话框	钻取选项在某些模型类型上可用，如果在挖掘结构中包含详细信息列，则非常有用。例如，如果创建一个聚类模型，您可以包括姓名或电子邮件地址等详细信息用于钻取，但不用于分析，以便更轻松地联系特定群组中的客户。

在“创建挖掘结构向导”中设置列使用情况

创建新的挖掘结构时，可以指定数据源中的哪些列应包含在挖掘结构中，以及应如何使用这些列。请记住，挖掘结构可以支持多个挖掘模型。

价值观	DESCRIPTION
包括	指定列包含可用于分析或预测的数据。
密钥	指定列包含事务 ID、序列 ID 或处理所需的其他键。所有算法都需要主键列。但是，某些算法仅允许单个密钥，而其他算法则允许多个密钥。如果列包含键，但不需要进行处理，请选择 “请勿使用”。
关键时间	指定列包含可用于唯一标识时序中的项的日期或其他数值。
请勿使用	指定列应被忽略。不会处理列中的数据。

若要正确处理模型，算法必须知道哪个列是唯一标识每行的关键列，在创建可预测模型时，哪个列是用于创建预测的目标列，以及要用作输入列的列来创建预测目标列的关系。

指定为 Do not use 的列将不会存在于挖掘结构中。

如果添加不必要的列或具有错误值，则可能会对分析结果产生不利影响。因此，请务必仅包含相关列。但是，请记住，在挖掘结构中不使用的列将不可用于查询。
指定为 Include 类型的列将包含在挖掘结构中，稍后可用于挖掘模型中的分析或预测。

如果不确定是否需要使用该列，始终可以在挖掘结构中包含该列，然后创建不使用该列的挖掘模型。例如，可以在数据中包含电话号码列以供以后参考，但创建忽略电话号码的聚类分析模型。创建群集后，可以创建一个查询，该查询返回属于特定群集的人员的电话号码。
所有算法都需要 关键列。键列中的值必须是唯一的。仅预测或时序模型需要 关键时间 列。 .

要求

若要创建数据挖掘结构，必须连接到 Analysis Services 实例。即使使用临时结构，也需要连接。有关如何创建或更改连接的详细信息，请参阅“连接到源数据”（Excel 数据挖掘客户端）。

另请参阅

创建数据挖掘模型

Last updated on 2017-12-29

通过

创建挖掘结构 （SQL Server 数据挖掘加载项）

使用向导创建挖掘结构

相关选项

在“创建挖掘结构向导”中设置列使用情况

要求

另请参阅

其他资源

创建挖掘结构（SQL Server 数据挖掘加载项）