模糊查找转换
更新日期: 2005 年 12 月 5 日
模糊查找转换执行数据清理任务,例如标准化数据、更正数据以及提供丢失的值。
这种转换与查找转换之间的不同在于:它使用了模糊匹配。查找转换使用同等联接在引用表中查找匹配的记录。它返回引用表中完全匹配的项,或者不返回任何内容。与此相比,模糊查找转换使用模糊匹配返回引用表中一个或多个接近的匹配项。
在包数据流中,模糊查找转换通常在查找转换之后。首先,查找转换尝试找到一个完全匹配的项。如果未找到,模糊查找转换提供引用表中接近的匹配项。
这种转换需要访问包含用于清理和扩展输入数据的值的引用数据源。引用数据源必须是 SQL Server 2005 数据库中的表。输入列中的值与引用表中的值之间的匹配可以是完全匹配,也可以是模糊匹配。但是,这种转换要求至少为模糊匹配配置一个列匹配。如果希望仅使用完全匹配,请改用查找转换。
此转换有一个输入和一个输出。
在模糊匹配中,只能使用具有 DT_WSTR 和 DT_STR 数据类型的输入列。完全匹配可以使用除 DT_TEXT、DT_NTEXT 和 DT_IMAGE 之外的所有 DTS 数据类型。有关详细信息,请参阅 Integration Services 数据类型。参与输入和引用表之间联接的列必须具有兼容的数据类型。例如,可以将具有 DTS DT_WSTR 数据类型的列联接到具有 SQL Server nvarchar 数据类型的列,但是不能将具有 DT_WSTR 数据类型的列联接到具有 int 数据类型的列。
通过指定最大内存量、行比较算法以及对转换所用的索引和引用表进行缓存,可以自定义这种转换。
可以通过设置 MaxMemoryUsage 自定义属性来配置模糊查找转换所使用的内存数量。可以指定内存量 (MB);或使用值 0,让转换根据其需要和可用物理内存来使用动态内存量。加载包时,可以通过属性表达式来更新 MaxMemoryUsage 自定义属性。有关详细信息,请参阅 Integration Services 表达式参考、在包中使用属性表达式和Transformation Custom Properties。
控制模糊匹配的行为
模糊查找转换包含以下三项可自定义所执行的查找的功能:每个输入行可返回的最大匹配项数、标记分隔符和相似性阈值。
这种转换返回零个或多个匹配项,匹配项的最大数量为所指定的匹配项数。指定最大匹配项数并不保证转换会返回最大数量的匹配项;它只保证转换最多返回该数量的匹配项。如果将最大匹配项数设置为大于 1 的值,则对于每次查找,转换的输出可能包括多行,而且其中一些行可能是重复的。
该转换提供了一组用于标记化数据的默认分隔符,但您可以添加适合自己数据需要的标记分隔符。Delimiters 属性包含默认分隔符。因为标记化在要进行比较的数据内定义相关单元,所以标记化是非常重要的操作。
相似性阈值可以在组件级和联接级设置。仅当转换在输入中的列与引用表的列之间执行模糊匹配时,联接级相似性阈值才可用。相似性范围是 0 到 1。阈值越接近 1,则行和列必须越相似,才能被认定为重复。通过在组件级和联接级设置 MinSimilarity 属性,可以指定相似性阈值。为了满足在组件级指定的相似性,所有匹配项的所有行都必须具有大于或等于在组件级所指定的相似性阈值的相似性。即,您不能在组件级指定非常接近的匹配项,除非行级或联接级的匹配项同样接近。
每个匹配项都包括一个相似性得分和一个置信度得分。相似性得分是一个数学度量值,表示输入记录与模糊查找转换从引用表中返回的记录之间在结构上的相似程度。置信度得分是一个可能性的度量值,表示特定值在从引用表中所发现的匹配项中成为最佳匹配项的可能程度。分配给记录的置信度得分取决于所返回的其他匹配记录。例如,匹配 St. 和 Saint 会返回一个较低的相似性得分,而无论其他匹配项是什么。如果 Saint 是返回的唯一匹配项,则置信度得分会很高。如果 Saint 和 St. 同时出现在引用表中,则 St. 的置信度较高,而 Saint 的置信度较低。但是,高相似性可能并不意味着高置信度。例如,如果正在查找值 Chapter 4,返回的结果 Chapter 1、Chapter 2 和 Chapter 3 都具有很高的相似性得分,然而置信度得分却都较低,这是因为无法肯定哪个结果是最佳匹配项。
相似性得分由介于 0 和 1 之间的一个小数值表示,其中,相似性得分 1 表示输入列中的值与引用表中的值完全匹配。置信度得分也是介于 0 和 1 之间的一个小数值,表示对匹配项的置信度。如果没有发现有用的匹配项,则为该行分配相似性得分 0 和置信度得分 0,并且从引用表中复制的输出列会包含空值。
有时,模糊查找可能在引用表中找不到相应的匹配项。如果查找中使用的输入值是一个短单词,则可能会发生这种情况。例如,如果该列或行中的任何其他列中都没有任何其他标记,则 helo 与引用表中的 hello 不匹配。
该转换的输出列包括标记为传递列的输入列、查找表中的选定列和以下其他列:
- _Similarity,此列描述输入列中的值和引用列中的值之间的相似性。
- _Confidence,此列描述匹配程度。
该转换使用与 SQL Server 2005 数据库的连接来创建模糊匹配算法所使用的临时表。
运行模糊查找转换
当包首次运行转换时,该转换将复制引用表,然后将具有整数数据类型的键添加到新表中,接着生成该键列的索引。随后,该转换生成引用表的副本的索引,该索引称为匹配索引。匹配索引存储转换输入列中的值的标记化结果,接着该转换在查找操作中使用这些标记。匹配索引是 SQL Server 2005 数据库中的一个表。
当包再次运行时,该转换可以使用现有的匹配索引,也可以创建新的索引。如果引用表是静态的,对于数据清理的重复会话,包可以避免开销可能很大的重新生成索引的过程。您可以选择使用现有索引,该索引是在包首次运行时创建的。如果多个模糊查找转换使用同一引用表,则它们可以使用同一索引。若要重用该索引,查找操作必须是相同的,而且查找必须使用相同的列。您可以命名该索引,然后选择到保存该索引的 SQL Server 数据库的连接。
如果该转换保存了匹配索引,则匹配索引将得到自动维护。这意味着,每次更新引用表中的记录时,也会更新匹配索引。维护匹配索引可以节省处理时间,因为无需在包运行时重新生成索引。您可以指定该转换如何管理匹配索引。
下表介绍了匹配索引选项:
选项 | 说明 |
---|---|
GenerateAndMaintainNewIndex |
创建一个新的索引,保存它,然后对其进行维护。该转换在引用表上安装触发器,使引用表和索引表同步。 |
GenerateAndPersistNewIndex |
创建一个新的索引,保存它,但不对其进行维护。 |
GenerateNewIndex |
创建一个新的索引,但不保存它。 |
ReuseExistingIndex |
重用现有索引。 |
维护匹配索引表
GenerateAndMaintainNewIndex 选项在引用表上安装触发器,以保持匹配索引表和引用表同步。如果必须删除已安装的触发器,则必须运行 sp_FuzzyLookupTableMaintenanceUnInstall 存储过程,然后将 MatchIndexName 属性中指定的名称提供为输入参数值。
在运行 sp_FuzzyLookupTableMaintenanceUnInstall 存储过程之前,不应该删除维护的匹配索引表。如果删除了匹配索引表,引用表上的触发器将无法正确执行。在手动删除引用表上的触发器之前,对引用表进行的所有后续更新都将失败。
SQL TRUNCATE TABLE 命令不调用 DELETE 触发器。如果对引用表使用 TRUNCATE TABLE 命令,则引用表和匹配索引表将无法再同步,模糊查找转换将失败。尽管维护匹配索引表的触发器安装在引用表上,您也应该使用 SQL DELETE 命令,而不是使用 TRUNCATE TABLE 命令。
行比较
配置模糊查找转换时,可以指定该转换在定位引用表中的匹配记录时所用的比较算法。如果将 Exhaustive 属性设置为 True,则转换会将输入中的每一行与引用表中的每一行相比较。这种比较算法可以生成更准确的结果,但是,除非引用表中的行数较少,否则很有可能使转换的执行速度变得很慢。如果 Exhaustive 属性设置为 True,则整个引用表都会加载到内存中。为了避免性能问题,最好只在包的开发过程中将 Exhaustive 属性设置为 True。
如果将 Exhaustive 属性设置为 False,则模糊查找转换只返回与输入记录一样至少有一个索引令牌或子字符串(该子字符串称为 q-gram)的匹配项。若要最大程度提高查找效率,请以模糊查找转换查找匹配项时所用的倒排索引结构仅对表内每行中的一个令牌子集建立索引。当输入数据集很小时,可以将 Exhaustive 设置为 True,以避免遗漏索引表中不存在其公共令牌的匹配项。
缓存索引和引用表
在配置模糊查找转换时,可以指定转换在开始执行其工作之前,是否将部分索引和引用表缓存到内存中。如果 WarmCaches 属性设置为 True,则索引和引用表将加载到内存中。当输入具有很多行时,将 WarmCaches 属性设置为 True 可以提高转换的性能。当输入行数很小时,将 WarmCaches 属性设置为 False 可以使重用大型索引的速度加快。
临时表和索引
在运行时,模糊查找转换会在该转换所连接到的 SQL Server 2005 数据库中创建临时对象,例如表和索引。这些临时表和索引的大小与引用表中的行数和标记数以及模糊查找转换所创建的标记数成比例;因此,它们有可能会占用相当大的磁盘空间。该转换也会查询这些临时表。因此,您应该考虑将模糊查找转换连接到 SQL Server 数据库的非生产实例中,在生产服务器只有有限的可用磁盘空间时,尤其应该如此。
如果此转换所使用的表和索引位于本地计算机,则此转换的性能可能会提高。如果模糊查找转换使用的引用表位于生产服务器上,您应该考虑将该表复制到非生产服务器,并将模糊查找转换配置为访问该副本。这样做可以防止查找查询占用生产服务器上的资源。此外,如果模糊查找转换维护匹配索引(即如果 MatchIndexOptions 设置为 GenerateAndMaintainNewIndex),则转换可以在执行数据清理操作的过程中锁定引用表,以防止其他用户和应用程序访问该表。
配置模糊查找转换
可以通过 SSIS 设计器或以编程方式来设置属性。
有关可以在**“模糊查找转换编辑器”**对话框中设置的属性的详细信息,请单击下列主题之一:
有关可以在**“高级编辑器”**对话框中或以编程方式设置的属性的详细信息,请单击下列主题之一:
有关如何设置属性的详细信息,请单击下列主题之一:
请参阅
概念
查找转换
模糊分组转换
Integration Services 转换
帮助和信息
更改历史记录
版本 | 历史记录 |
---|---|
2005 年 12 月 5 日 |
|