创建目标邮件挖掘模型结构(数据挖掘基础教程)
要创建目标邮件方案,第一步是使用 SQL Server Data Tools (SSDT) 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。
在本任务中,您将设置一个新的挖掘结构,并且基于 Microsoft 决策树算法添加一个初始挖掘模型。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列。
创建用于目标邮件方案的挖掘结构
在解决方案资源管理器中,右键单击**“挖掘结构”并选择“新建挖掘结构”**启动数据挖掘向导。
在**“欢迎使用数据挖掘向导”页上,单击“下一步”**。
在**“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”**。
在**“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”**。
注意 如果收到警告,告知无法找到数据挖掘算法,则项目属性可能配置不正确。 当项目尝试从 Analysis Services 服务器检索数据挖掘算法列表却找不到服务器时,就会出现此警告。 默认情况下,SQL Server Data Tools 会将 localhost 用作服务器。 如果要使用其他实例或命名实例,则必须更改项目属性。 有关详细信息,请参阅创建 Analysis Services 项目(数据挖掘基础教程)。
单击**“下一步”**。
在**“选择数据源视图”页上的“可用数据源视图”窗格中,选择 Targeted Mailing。 可单击“浏览”查看数据源视图中的各表,然后单击“关闭”**返回该向导。
单击**“下一步”**。
在**“指定表类型”页上,选中 vTargetMail 的“事例”列中的复选框以将其作为事例表,然后单击“下一步”**。 稍后,将使用 ProspectiveBuyer 表进行测试,不过现在可以忽略它。
在**“指定定型数据”页上,将为模型至少指定一个可预测列、一个键列以及一个输入列。 选中 BikeBuyer 行中的“可预测”**列中的复选框。
注意 请注意窗口底部的警告。 只有在至少选中一个“输入”列和一个“可预测”列后,才能导航至下一页。
单击**“建议”打开“提供相关列建议”**对话框。
只要选中至少一个可预测属性,即可启用**“建议”**按钮。 **“提供相关列建议”**对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。 显著相关的列(置信度高于 95%)将被自动选中以添加到模型中。
查看建议,然后单击**“取消”**忽略建议。
注意 如果单击“确定”,所有列出的建议都将在向导中标记为输入列。 如果仅同意其中的某些建议,则必须手动更改值。
确认在 CustomerKey 行中已选中**“键”**列中的复选框。
注意 如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。
选中以下行中**“输入”**列中的复选框。 可通过下面的方法来同时选中多个列:突出显示一系列单元格,然后在按住 Ctrl 的同时选中一个复选框。
Age
CommuteDistance
EnglishEducation
EnglishOccupation
Gender
GeographyKey
HouseOwnerFlag
MaritalStatus
NumberCarsOwned
NumberChildrenAtHome
Region
TotalChildren
YearlyIncome
在该页的最左侧的列中,选中以下行中的复选框。
AddressLine1
AddressLine2
DateFirstPurchase
EmailAddress
FirstName
LastName
确保这些行仅选择了左侧列中的复选标记。 这些列将添加到结构中,但不会包含在模型中。 但是,模型生成后,它们将可用于钻取和测试。 有关钻取的详细信息,请参阅钻取查询(数据挖掘)。
单击**“下一步”**。