如何使用模糊分组转换标识相似数据行

若要添加和配置模糊分组转换,包必须已包含至少一个数据流任务和一个源。

在数据流中实现模糊分组转换

  1. 在 Business Intelligence Development Studio 中,打开包含所需包的 Integration Services 项目。

  2. 在解决方案资源管理器中,双击该包将其打开。

  3. 单击**“数据流”选项卡,然后从“工具箱”**中将模糊分组转换拖动到设计图面。

  4. 将连接线(绿色或红色箭头)从数据源或前一个转换拖动到模糊分组转换,从而将模糊分组转换连接到数据流。

  5. 双击模糊分组转换。

  6. 在**“模糊分组转换编辑器”对话框中的“连接管理器”**选项卡上,选择连接到 SQL Server 2005 数据库的 OLE DB 连接管理器。

    ms142155.note(zh-cn,SQL.90).gif注意:
    转换要求连接到 SQL Server 2005 数据库,以创建临时表和索引。
  7. 单击**“列”选项卡,在“可用输入列”**列表中,选中要使用的输入列的复选框,以标识数据集中的相似行。

  8. 选中**“传递”**列中的复选框,以标识要传递到转换输出的输入列。在重复行的标识过程中不包含传递列。

    ms142155.note(zh-cn,SQL.90).gif注意:
    用于分组的输入列自动被选为传递列,所以当用于分组时无法取消选择这些输入列。
  9. 或者,更新**“输出别名”**列中的输出列名称。

  10. 还可以更新**“组输出别名”**中清除的列的名称。

    ms142155.note(zh-cn,SQL.90).gif注意:
    列的默认名称为输入列名称加“_clean”后缀。
  11. 还可以更新**“匹配类型”**列中所使用的匹配类型。

    ms142155.note(zh-cn,SQL.90).gif注意:
    至少有一列必须使用模糊匹配。
  12. 指定**“最低相似性”**列中的最低相似性级别列。此值必须介于 0 和 1 之间。值越接近 1,则输入列中的值必然越接近于组成一组。最低相似性为 1,则指示完全匹配。

  13. 还可以更新**“相似性输出别名”**列中的相似性列的名称。

  14. 指定数据值中数字的处理方式,更新**“数字”**列中的值。

  15. 若要指定转换如何比较列中的字符串数据,请修改**“比较标志”**列中比较选项的默认选择。

  16. 单击**“高级”**选项卡,修改该转换为唯一行标识符 (_key_in)、重复行标识符 (_key_out) 和相似性值 (_score) 添加到输出的列的名称。

  17. 还可以通过移动滑块来调节相似性阈值。

  18. 还可以清除标记分隔符复选框以忽略数据中的分隔符。

  19. 单击**“确定”**。

  20. 若要保存更新后的包,请单击**“文件”菜单上的“保存选定项”**。

请参阅

概念

模糊分组转换
Integration Services 转换
Integration Services 路径
数据流任务
数据流操作指南主题 (SSIS)

其他资源

Integration Services 源
Integration Services 目标

帮助和信息

获取 SQL Server 2005 帮助