模糊分组转换编辑器(“高级”选项卡)

可以使用**“模糊分组转换编辑器”对话框的“高级”**选项卡,指定输入和输出列,设置相似性阈值以及定义分隔符。

注意注意

模糊分组转换的 Exhaustive 和 MaxMemoryUsage 属性未在“模糊分组转换编辑器”中提供,但可以使用“高级编辑器”进行设置。 有关这些属性的详细信息,请参阅转换自定义属性的“模糊分组转换”部分。

若要了解有关模糊分组转换的详细信息,请参阅模糊分组转换

选项

  • 输入键列名
    指定包含每个输入行的唯一表示符的输出列名称。 _key_in 列包含的值可唯一标识每个行。

  • 输出键列名
    对于一组重复的行,指定包含其规范行的唯一标识符的输出列名称。 _key_out 列对应于规范数据行的 _key_in 值。

  • 相似性计分列名
    指定包含相似性得分的列的名称。 相似性得分是介于 0 和 1 之间的值,用于指示输入行与规范行的相似性。 分数越接近于 1,该行与规范行的匹配度就越高。

  • 相似性阈值
    使用滑块设置相似性阈值。 阈值越接近于 1,则行必须越近似,才能被认定为重复。 增大阈值可以提高匹配的速度,因为需要考虑的候选记录更少。

  • 标记分隔符
    转换提供了一组默认的分隔符用于对数据进行词汇切分,但是您可以根据需要通过编辑列表来添加或删除分隔符。

请参阅

任务

使用模糊分组转换标识相似数据行

概念

Integration Services 错误和消息引用