本主题介绍如何在 Data Quality Services(DQS)的知识库中更改和扩充元数据。 通过知识发现生成知识,将其导入知识库或领域中,或在一个知识库的基础上构建另一个知识库后,可以交互式更改数据值。 知识库生成不仅利用计算机辅助的过程,还让你能够利用自己的知识来验证数据值,并通过以下方式更改它们:
将域值添加到值列表中,或选择一个值并从列表中将其删除
更改 DQS 发现过程指定域值的状态,将其更改为更正、出错或无效
为错误或无效的值输入替换值。 如果值不属于域,则该值无效,例如,如果它不符合域数据类型或域规则失败。 如果值属于域,但语法错误,则值出错。
将两个或多个值设置为同义词并更改发现过程设置的前导值,结果显示,如果创建域时设置了 “使用前导值 ”属性,则前导值将替换同义词值
从 Excel 文件导入域值
在您开始之前
先决条件
若要更改域值,必须在域管理活动中打开知识库和域。
安全
权限
必须在DQS_MAIN数据库中具有dqs_kb_editor或dqs_administrator角色才能更改域值。
更改域值
值表显示添加到单个域的知识库中的知识。 可以随时选择域列表中的其他域以显示该域的值。 字段中的列如下:
“值”列显示发现过程从数据示例中的字段添加到所选域的所有值。 投射为错误的任何值都将显示为与投射为正确的值相对应的同义词。
“类型”列显示由发现过程确定的值的状态。 绿色检查指示值正确或更正;红色十字指示值出错;和带感叹号的橙色三角形指示值无效。 无效的值不符合域的数据要求。 虽然错误的值可能在某些方面有效,但由于数据原因,它不是正确的值。
更正至 列显示原始值将在标记为错误或无效后更改为的正确值。 DQS 可以提出正确的值作为发现过程的结果。
若要更改值,请按如下所示继续作:
启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。
在数据质量客户端主屏幕中,打开或创建知识库。 选择 “域管理 ”作为活动,然后单击“ 打开 ”或“ 创建”。 有关详细信息,请参阅 “创建知识库 ”或 “打开知识库”。
注释
域管理在 Data Quality Service 客户端的页面中执行,其中包含五个选项卡用于单独的域管理作。 它不是向导驱动的过程;任何管理作业可以单独执行。
在“域管理”页上的“域”列表中,选择要在其中更改值或创建新域的域。 如果必须创建新域,请参阅 “创建域”。 单击“ 域值 ”选项卡。
显示需要在 “值” 表中修改的值。 有关详细信息,请参阅下面的 “如何显示适当的值 ”。
若要更改值的状态,请按如下步骤执行:
将所选域值设置为已更正:若要将值的状态从“错误”或“无效”更改为“更正”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 设置所选域值 ”(选中)。 如果错误或无效值与正确值分组在一起,则在操作后删除该值。
将所选域值设置为错误:若要将值的状态从“正确”或“无效”更改为“错误”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 设置所选域值” 图标(交叉) 图标。 可以在“ 更正为 ”列中输入更正,或将其留空。
将所选域值设置为无效:若要将值的状态从“正确”或“错误”更改为“无效”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 将所选域值设置为无效 ”(三角形)图标。 可以在“ 更正为 ”列中输入更正,或将其留空。
更正为:将值设置为错误或无效后,请在 “更正到” 列中输入新值。 DQS 将为替换值添加新行,将其指定为正确,然后将这两个值分组。 新的值将被显示为主要值,并以粗体显示,错误或无效值则缩进显示。
若要将值指定为一组同义词,请选择多个正确值,然后按如下所示继续作:
将所选域值设置为同义词:若要设置同义词,请选择多个正确值,然后单击 “将所选域值设置为同义词 ”图标。 DQS 将对值进行分组,并将其中一个值指定为其他值所替换的主要值。 请注意,如果分组了两个值,但其中一个组出错或无效,则值不是同义词。
注释
如果在组中选择两个或多个值,并在组外部选择另一个值,然后将其设置为同义词,则会收到不正确的错误消息。 关闭错误消息弹出窗口后,值将正确设置为同义词。
断开所选同义词之间的关系:若要撤消两个或多个值的同义词指定,请选择这些值,然后单击 所选同义词图标之间的“中断关系 ”。 这些值必须分组,并且两个值都必须正确,才能使同义词的解组正常工作。
将所选域值设置为其组的前导值:若要更改组的前导值,请在未指定为前导值的组中选择一个值,然后单击“ 设置所选域值”作为其组按钮的前导值 。 这将将前导值设置为另一个值的替换项。 只有在设置了两个或更多的分组值,并且希望将前导值从 DQS 指定的值更改时,此操作才有效。 请注意,前导值由蓝色行指定,其值为粗体。
拼写检查器:如果某个值具有波浪红色下划线,拼写检查器会建议对值进行更正。 右键单击带有下划线的值,并选择一个更正(如果适用)。 值类型会变为(或保持为)错误,并将更正添加到“更正为”栏。 单击向下箭头可查看其他建议的更正。 手动输入更正以将其添加到拼写检查字典,并能够将其选为纠正的选项。 有关详细信息,请参阅使用 DQS 拼写检查器和设置域属性。
注释
若要使用拼写检查器,可以在“域属性”页中启用它。如果在“域属性”页中它被禁用,可以在“域值”页上点击“启用/禁用拼写检查器”图标,以启用它。
添加新域值:单击以在表末尾添加行。 输入值后,该行将按字母顺序重新定位,并由前面的星号标识为新条目。
从 Excel 导入域值:若要从 Excel 电子表格添加新值,请单击 “导入值 ”图标的向下箭头,然后选择 “从 Excel 导入域值”。 输入文件名,如果适用,请选择“ 使用第一行作为标题 ”,然后单击“ 确定”。 有关详细信息,请参阅 将值从 Excel 文件导入域。
导入项目值:单击 “导入值 ”图标的向下箭头并选择“ 导入项目值”,从数据质量项目添加新值。 输入文件名,如果适用,请选择“ 使用第一行作为标题 ”,然后单击“ 确定”。 选择要从中导入值的项目,然后单击“ 确定”。 将显示导入的值。 单击“完成”。 有关详细信息,请参阅将项目值导入域。
删除所选域值:若要从域中删除一个或多个现有值,请选择“值”表中的值,然后单击“ 删除所选域值” 图标。 无法删除DQS_NULL项,因此,如果选择多个值进行删除,并且DQS_NULL的条目是其中之一,作将失败。
单击“ 完成 ”以完成域管理活动,如 “结束域管理活动”中所述。
后续操作:更改域值后
更改域值后,可以对域执行其他域管理任务,可以执行知识发现以将知识添加到域,也可以向域添加匹配策略。 有关详细信息,请参阅 “执行知识发现”、“ 管理域”或 “创建匹配策略”。
正确、错误和无效值的含义
“域值”页的“值”表中的每个值都分配了“正确”、“错误”或“无效”的类型设置。 该值的类型最初由知识发现活动生成,你可以根据需要对其进行更改。 最终类型基于发现和交互式更改,由清理活动生成。 这些设置具有以下含义:
正确: 这是属于域且没有任何语法错误的值。 例如,City 域中的“芝加哥”是正确的。
错误: 这是属于域的值,但值不正确。 例如,城市域中的“Shicago”而不是“Chicago”错误。 DQS 将某个值标记为错误,并在发现过程中检测到语法错误以及相关的更正。 语法错误包括拼写错误。
无效: 此值不属于域,并且没有更正。 例如,City 域中的值“12345”无效。 当值失败域规则时,DQS 将值指定为无效。
可以手动将值的类型更改为其他两个值之一。 DQS 不会对手动操作施加有效性和错误语义。 可以为无效值输入更正,而不更改其状态。 即使值未失败域规则,也可以将值指定为无效值。 即使发现过程未指示其语法错误,也可以将值指定为错误。 还可以删除错误值的更正,该值标记为“正确”,而不更改其状态。
在“管理和查看结果”页面的清理活动中执行交互式数据清理时,“管理和查看结果”页面上的“无效”选项卡包含无效值和错误值。
如何显示适当的值
可以按如下所示修改显示:
通过选择“筛选器”下拉列表中的状态,根据表中所需的结果筛选结果。
要在“查找”文本框中输入一个或多个字母来查找数据,并进行修改。 这将突出显示这些字母,无论这些字母出现在显示的任何值中。
单击“ 仅显示新 ”,将表中显示的值限制为当前会话中发现的值,而不是以前的会话。
单击“ 全部展开 ”按钮,在折叠当前状态时显示任意组同义词中的所有值。
单击 “全部折叠” 按钮,在当前状态展开时,隐藏同义词组中除首个值以外的所有值。
单击“ 显示/隐藏域值更改历史记录面板 ”按钮,以显示值表底部的预览弹出窗口,其中显示了对域值集合的最新更改。
如何处理空值
“ 域值 ”选项卡中的每个值表都包含一个DQS_NULL值。 数据源中的空值将在值表中显示为 SQL_NULL。 可以将一个或多个 null 等效项设置为DQS_NULL的同义词。 执行此操作时,所有 null 和其等效项皆将被视为 DQS_NULL 进行处理。