数据挖掘向导(Analysis Services - 数据挖掘)

每次向数据挖掘项目中添加新的挖掘结构时,都会启动 Microsoft SQL Server Analysis Services 中的数据挖掘向导。该向导有助于定义新的挖掘结构和选择将用于数据挖掘的数据源。该向导还可将挖掘结构中的数据分区为定型集和测试集,并且可以帮助您为每个结构添加初始挖掘模型。

挖掘结构的内容是从现有的数据源视图或多维数据集派生而来的。可以选择要在挖掘结构中包括哪些列。基于该结构的所有模型都可以使用这些列。可以使数据挖掘模型的用户从该挖掘模型的结果进行深化,以查看没有包括在挖掘模型中的其他挖掘结构列。

在使用数据挖掘向导创建数据挖掘结构和模型时,您必须做出以下决策:

  • 是从关系数据库还是根据 OLAP 数据库中的现有多维数据集生成数据挖掘结构和模型。

  • 定型使用多少数据,为测试保留多少数据。将挖掘结构分区为定型数据集和测试数据集时,基于该结构的所有模型都可以使用该测试集。

  • 将哪些列或属性用于预测,将哪些列或属性用作分析的输入。此外,每个结构都必须包含一个唯一标识事例记录的键。

  • 使用哪种算法。SQL Server Analysis Services 中提供的算法具有不同的特征并产生不同的结果。可以使用不同的算法创建多个模型,也可以更改算法的参数来创建不同的模型。

数据挖掘向导提供了帮助您做出这些决策的功能:

  • 可用于在其中定义事例集的向导页。可以从关系数据源选择事例表和嵌套表,也可以选择 OLAP 数据源,再选择事例键和事例级的列,然后对多维数据集设置筛选器(可选)。

  • 分析列中数据以及列的建议用法的对话框。

  • 自动检测列内容和数据类型。

  • 如果挖掘模型基于 OLAP 数据源,则自动对多维数据集进行切片。

完成数据挖掘向导后,使用数据挖掘设计器来修改挖掘结构和模型、查看模型的准确性、查看结构和模型的特征或者使用模型进行预测。

有关详细信息,请参阅数据挖掘设计器

使用数据挖掘向导

若要启动数据挖掘向导,请使用解决方案资源管理器或 Business Intelligence Development Studio 中的**“项目”**菜单,在 Analysis Services 项目中添加一个新的挖掘结构。

数据挖掘向导有两个分支,具体取决于您的数据源是关系数据源还是位于多维数据集中:

  • 关系挖掘模型

  • OLAP 挖掘模型

注意注意

无需拥有多维数据集或 OLAP 数据库即可进行数据挖掘。除非数据已存储在多维数据集中,或者要挖掘 OLAP 维度或 OLAP 聚合或计算的结果,否则,我们建议您将关系表或数据源用于数据挖掘。

关系挖掘模型

根据 Analysis Services 中的关系数据源生成挖掘模型时,首先在数据挖掘向导中指定要使用现有关系数据库来定义模型的结构。还可以选择只创建挖掘结构,或者创建挖掘结构以及一个关联的数据挖掘模型。如果选择创建挖掘模型,则必须通过选择最适合所需数据挖掘分析类型的算法来指定要使用的数据挖掘技术。

有关详细信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)

指定数据源视图和表类型

向导中的下一个步骤是选择想用于定义挖掘模型的特定数据源视图,并指定事例表。事例表将用于为数据挖掘模型定型,并可以用于测试数据挖掘模型。还可以指定嵌套表。

选择事例表是一项重要决策。事例表应包含要分析的实体,例如客户及其人口统计信息。嵌套表通常包含有关事例表中实体的附加信息,如客户执行的交易或与实体具有多对一关系的属性。例如,与 Customers 事例表联接的嵌套表可能包括每个客户所购买产品的列表或爱好列表。有关详细信息,请参阅嵌套表(Analysis Services – 数据挖掘)

指定列的用法

指定了事例表和嵌套表后,可以确定要包括在挖掘结构中的表的每一列的使用类型。如果没有指定列的使用类型,则挖掘结构中将不会包含该列。

数据挖掘列可以为下列四种类型之一:键列、输入列、可预测列或输入列和可预测列的组合。键列包含表中每个行的唯一标识符。某些挖掘模型(如基于顺序分析和聚类分析或者时序算法的挖掘模型)可能包含多个键列。但是,这些键并非相关意义上的复合键,必须选择这些键才能为时序分析以及顺序分析和聚类分析提供支持。有关详细信息,请参阅 Microsoft 时序算法Microsoft 顺序分析和聚类分析算法

输入列提供据以进行预测的信息。预测列包含要在挖掘模型中预测的信息。

例如,一系列表可能包含客户 ID、人口统计信息以及每位客户在某个特定商店消费的金额。客户 ID 可以唯一标识客户,而且还使事例表与嵌套表相关;因此,一般会将客户 ID 作为键列。您可以使用从人口统计信息中选择的列作为输入列,将说明每位客户消费金额的列作为预测列。然后,您可以生成一个挖掘模型,该模型可将人口统计信息与某位客户在商店中的消费金额关联起来。您可以使用此模型作为有针对性的营销的基础。

数据挖掘向导提供了**“建议”功能,在选择预测列时将启用该功能。数据集包含的列通常多于生成挖掘模型时需要的列。“建议”功能可以计算出一个数值分数(介于 0 到 1 之间),用于说明数据集中的每一列与预测列之间的关系。根据此分数,该功能可以建议可用作挖掘模型的输入的列。如果使用了“建议”**功能,您就可以使用建议的列,修改选择的列以满足需要,也可以忽略建议。

指定内容类型和数据类型

在选择一个或多个可预测列和输入列后,您可以指定各列的内容类型和数据类型。

有关详细信息,请参阅数据类型(数据挖掘)内容类型(数据挖掘)

将数据拆分为定型集和测试集

完成向导前的最后一步是将数据分区为定型集和测试集。SQL Server 2008 中新增了保留部分数据进行测试的功能,该功能提供了一种易于使用的机制,用于确保对与新挖掘结构关联的所有挖掘模型使用一致的测试数据集。

您可以指定将一定百分比的数据用于测试,将所有剩余数据用于定型。您还可以指定用于测试的事例数。分区定义与挖掘结构存储在一起,因此在每次基于该结构创建新模型时,都可以使用该测试数据集来评估模型的准确性。

有关详细信息,请参阅验证数据挖掘模型(Analysis Services – 数据挖掘)将数据分区为定型集和测试集(Analysis Services - 数据挖掘)

完成向导

向导中的最后一步是对挖掘结构和关联的挖掘模型进行命名。如果选择**“允许钻取”**,则会在模型中启用钻取功能。这样,具有相应权限的用户就可以浏览用于生成模型的源数据。

有关详细信息,请参阅:针对挖掘模型和挖掘结构使用钻取(Analysis Services – 数据挖掘)

返回页首

OLAP 挖掘模型

根据 Analysis Services 的 OLAP 数据源生成多维挖掘模型时,首先在数据挖掘向导中指定要使用现有多维数据集来定义模型的结构。可以选择只创建挖掘结构,或者创建挖掘结构以及一个关联的数据挖掘模型。如果选择创建挖掘模型,则必须通过选择最适合业务问题的算法来指定要使用的数据挖掘技术。

有关详细信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)

指定数据源和事例健

然后,选择要用作数据源的多维数据集维度来定义挖掘结构。最后,选择要用作挖掘模型的键(即“事例键”)的属性。

注意注意

要生成的 OLAP 挖掘模型和用于创建模型的源多维数据集必须包含在同一个 Analysis Services 数据库中。

指定事例级别列和列用法

选择了事例键后,与该键关联的属性和度量值将在向导的下一页的树视图中显示。您可以从此列表中选择用作结构的列的属性和度量值。这些列被称为“事例级别列”。与使用关系模型时一样,您也必须指定每一列在结构中的使用方法,这将在向导的下一页中执行。列可以是键列、输入列、可预测列、输入和预测列的组合,也可以不选择列。

添加嵌套表

在数据挖掘向导的 OLAP 分支中,可以选择在挖掘模型结构中添加嵌套表。在向导的**“指定挖掘模型列用法”页中,单击“添加嵌套表”**将打开一个单独的对话框,该对话框可以指导完成添加嵌套表的步骤。其中只显示应用于维度的度量值组。选择包含事例维度外键的度量值组。然后,指定度量值组中每个列的用法(输入列还是可预测列)。最后,向导将嵌套表添加到事例表中。嵌套表的默认名称为嵌套维度的名称,但是您可以重命名嵌套表和嵌套表的列。有关详细信息,请参阅嵌套表(Analysis Services – 数据挖掘)

指定内容类型和数据类型

在选择一个或多个可预测列和输入列后,您可以指定各列的内容类型和数据类型。

有关详细信息,请参阅数据类型(数据挖掘)内容类型(数据挖掘)

对源多维数据集进行切片

在向导的 OLAP 分支中,您可以在为挖掘模型定型之前,通过对源多维数据集进行切片,以限制挖掘模型的作用域。对多维数据集进行切片类似于在 SQL 语句中添加 WHERE 子句。例如,如果某个多维数据集包含有关产品购买的信息,则您可将年纪属性限制为 30 岁以上,性别列限制为仅女性,购买日期限制为不早于 2000 年 3 月。这样一来,模型的作用域就被限制为年纪大于 30 岁且在 2000 年 3 月之后购买产品的女性。

将数据拆分为定型集和测试集

完成向导前的最后一步是将多维数据集中的可用数据分区为定型集和测试集。分区定义与挖掘结构存储在一起,因此在每次基于该结构创建新模型时,都可以使用该测试数据集来评估模型的准确性。

有关详细信息,请参阅验证数据挖掘模型(Analysis Services – 数据挖掘)将数据分区为定型集和测试集(Analysis Services - 数据挖掘)

完成向导

向导中的最后一步是对挖掘结构和关联的挖掘模型进行命名。如果选择**“允许钻取”**,则会在模型中启用钻取功能。这样,具有相应权限的用户就可以浏览用于生成模型的源数据。您还可以指定是要向基于挖掘模型的源多维数据集中添加新维度,还是根据挖掘模型创建新的多维数据集。

有关详细信息,请参阅:针对挖掘模型和挖掘结构使用钻取(Analysis Services – 数据挖掘)

返回页首