创建目标邮件挖掘模型结构(数据挖掘教程)

创建目标邮件方案的第一步是使用 Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

有关详细信息,请参阅下列主题的内容:

数据挖掘向导, 数据挖掘设计器, Microsoft 决策树算法

创建用于目标邮件方案的挖掘结构

  1. 在解决方案资源管理器中,右键单击**“挖掘结构”并选择“新建挖掘结构”**。

    系统将打开数据挖掘向导。

  2. 在**“欢迎使用数据挖掘向导”页上,单击“下一步”**。

  3. 在**“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”**。

  4. 在**“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”**。

    在本教程中,您将创建数个基于这种初始挖掘结构的模型。 第一个模型将在您完成该向导时与结构一起创建,且基于 Microsoft 决策树算法。

  5. 单击**“下一步”**。

  6. 在**“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。 在数据源视图中,单击“浏览”查看各表,然后单击“关闭”**返回该向导。

  7. 单击**“下一步”**。

  8. 在**“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”**。

  9. 在**“指定定型数据”**页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。

    如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。

  10. 选中 BikeBuyer 列旁边的**“输入”“可预测”**。

    当表示某列可预测时,将启用**“建议”按钮。 单击“建议”打开“提供相关列建议”**对话框,该对话框列出与可预测列关系最密切的列。

    “提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。 值大于 0.05 的列将被自动选中,以包括在模型中。 如果您同意这些建议,请单击“确定”,以便在向导中将所选列标记为输入列。 对于本教程,请单击**“取消”**,忽略这些建议。

  11. 选中以下各列旁边的**“输入”**复选框:

    • Age
    • CommuteDistance
    • EnglishEducation
    • EnglishOccupation
    • FirstName
    • Gender
    • GeographyKey
    • HouseOwnerFlag
    • LastName
    • MaritalStatus
    • NumberCarsOwned
    • NumberChildrenAtHome
    • Region
    • TotalChildren
    • YearlyIncome

    使用 Shift 键可以同时选中多列。

  12. 单击**“下一步”**。

  13. 在**“指定列的内容和数据类型”页上,单击“检测”**。

    某个算法将运行此示例数字数据,并确定这些数字列是包含连续值还是包含离散值。 例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = < $25,000;2 = 从 $25,000 到 $50,000)。

  14. 单击**“检测”之后,请确保“内容类型”“数据类型”**列中的各项具有下表中列出的设置。

    内容类型 数据类型

    Age

    连续

    Long

    BikeBuyer

    离散

    Long

    CommuteDistance

    离散

    Text

    CustomerKey

    Long

    EnglishEducation

    离散

    Text

    EnglishOccupation

    离散

    Text

    FirstName

    离散

    Text

    Gender

    离散

    Text

    GeographyKey

    离散

    Text

    HouseOwnerFlag

    离散

    Text

    LastName

    离散

    Text

    MaritalStatus

    离散

    Text

    NumberCarsOwned

    离散

    Long

    NumberChildrenAtHome

    离散

    Long

    Region

    离散

    Text

    TotalChildren

    离散

    Long

    YearlyIncome

    连续

    Double

ms170347.note(zh-cn,SQL.90).gif注意:
数据挖掘算法仅仅基于数值来建议 GeographyKey 列包含连续数字。 但是,诸如邮政编码这样的数字通常应作为离散数值对待,而不是作为连续数值,因为使用这些数字进行数学计算毫无意义可言。
  1. 单击**“下一步”**。
  2. 在**“完成向导”页上的“挖掘结构名称”**中,键入 Targeted Mailing
  3. 在**“挖掘模型名称”**中,键入 TM_Decision_Tree
  4. 选中**“允许钻取”**复选框。
  5. 单击**“完成”**。

课程中的下一个任务

修改目标邮件模型(数据挖掘教程)