使用模糊分组转换标识相似数据行
若要添加和配置模糊分组转换,包必须已包含至少一个数据流任务和一个源。
在数据流中实现模糊分组转换
在 SQL Server Data Tools (SSDT) 中,打开包含所需包的 Integration Services 项目。
在解决方案资源管理器中,双击该包将其打开。
单击**“数据流”选项卡,然后从“工具箱”**中将模糊分组转换拖动到设计图面。
将连接线从数据源或前一个转换拖到模糊分组转换,从而将模糊分组转换连接到数据流。
双击模糊分组转换。
在**“模糊分组转换编辑器”对话框中的“连接管理器”**选项卡上,选择连接到 SQL Server 数据库的 OLE DB 连接管理器。
注意 转换要求连接到 SQL Server 数据库,以创建临时表和索引。
单击**“列”选项卡,在“可用输入列”**列表中,选中要使用的输入列的复选框,以标识数据集中的相似行。
选中**“传递”**列中的复选框,以标识要传递到转换输出的输入列。 在重复行的标识过程中不包含传递列。
注意 用于分组的输入列自动被选为传递列,所以当用于分组时无法取消选择这些输入列。
还可以更新**“输出别名”**列中的输出列名称。
还可以更新**“组输出别名”**中清除的列的名称。
注意 列的默认名称为输入列名称加“_clean”后缀。
还可以更新**“匹配类型”**列中所使用的匹配类型。
注意 至少有一列必须使用模糊匹配。
指定**“最低相似性”**列中的最低相似性级别列。 该值必须介于 0 和 1 之间。 值越接近 1,则输入列中的值必然越接近于组成一组。 最低相似性为 1,则指示完全匹配。
还可以更新**“相似性输出别名”**列中的相似性列的名称。
指定数据值中数字的处理方式,更新**“数字”**列中的值。
若要指定转换如何比较列中的字符串数据,请修改**“比较标志”**列中比较选项的默认选择。
单击**“高级”**选项卡,修改该转换为唯一行标识符 (_key_in)、重复行标识符 (_key_out) 和相似性值 (_score) 添加到输出的列的名称。
还可以通过移动滑块来调节相似性阈值。
还可以清除标记分隔符复选框以忽略数据中的分隔符。
单击**“确定”**。
若要保存更新后的包,请单击**“文件”菜单上的“保存选定项”**。