更改域值

本主题介绍如何在 Data Quality Services (DQS) 知识库中更改和扩充元数据。 通过知识发现生成知识,将知识导入到知识库或域中,或者使知识基于其他知识库之后,您可以通过交互方式更改数据值。 知识库生成不仅利用计算机辅助过程,而且向您提供了一种方法,供您使用您的知识来验证数据值和按以下方式更改数据值:

  • 将域值添加到值列表中,或者选择一个值并且从列表中删除它

  • 将域值的状态从 DQS 发现过程所指定的状态更改为正确、错误或无效状态

  • 为错误或无效的值输入替换值。 如果某个值不属于某个域(例如,它不符合域数据类型或域规则失败),则该值无效。 如果某个值属于某个域,但有语法错误,则该值是错误的。

  • 如果在创建域时设置了 “使用前导值” 属性,则将两个或更多的值设置为同义词,并更改发现过程所设置的前导值,结果是前导值将替换同义词值。

  • 从 Excel 文件导入域值

开始之前

先决条件

若要更改域值,您必须具有知识库以及在域管理活动中打开了某个域。

安全性

权限

您必须对 DQS_MAIN 数据库具有 dqs_kb_editor 或 dqs_administrator 角色,才能更改域值。

更改域值

“值” 表显示添加到某个单一域的知识库的知识。 您可以随时在域列表中选择不同的域,以显示该域的值。 该字段中的列如下所示:

  • “值” 列显示发现过程从数据样本中的字段添加到所选域的所有值。 估测为错误的所有值都将显示为估测为正确的值的同义词。

  • “类型” 列显示值的状态,该状态由发现过程确定。 绿色对勾指示该值是正确的或已更正;红叉指示该值有误;带有感叹号的橙色三角形指示该值无效。 无效的值不符合对该域的数据要求。 有错误的值可能有效,但不是针对数据原因的正确值。

  • “更正为” 列显示标记为错误或无效的原始值将更改为的正确值。 DQS 可将正确值作为发现过程的结果提出。

若要更改值,请继续执行以下操作:

  1. 启动数据质量客户端。 有关执行此操作的信息,请参阅运行 Data Quality Client 应用程序

  2. 在Data Quality Client主屏幕中,打开或创建知识库。 选择 “域管理” 作为活动,然后单击 “打开”“创建”。 有关详细信息,请参阅 创建知识库打开知识库

    注意

    域管理在 Data Quality Service 客户端页面中执行,该页面包含用于单独域管理操作的五个选项卡。 它不是一个向导驱动的过程;任何管理操作都可以单独执行。

  3. “域管理” 页上的 “域列表” 中,选择您要在其中更改值的域或创建一个新域。 如果您必须创建新域,请参阅 创建域。 单击 “域值” 选项卡。

  4. “值” 表中显示需要修改的值。 有关详细信息,请参阅下方的 如何显示适当的值

  5. 若要更改某个值的状态,请继续执行以下操作:

    • 将所选域值设置为“已更正”:若要将值的状态从“错误”或“无效”更改为“正确”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“将所选域值设置为更正 (检查) ”。 如果有错误或无效的值与某一正确值组合在一起,则在该操作后删除该值。

    • 将所选域值设置为错误:若要将值的状态从“正确”或“无效”更改为“错误”,请选择该值,然后在图标栏中的向下箭头或“类型”下拉列表中单击“ 将所选域值设置为错误 (交叉) 图标。 您可以在 “更正为” 列中输入更正值,或者将其保留为空白。

    • 将所选域值设置为无效:若要将值的状态从“正确”或“错误”更改为“无效”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 将所选域值设置为无效 (三角形) ”图标。 您可以在 “更正为” 列中输入更正值,或者将其保留为空白。

    • 更正为:在将某个值设置为有错误或无效后,在 “更正为” 列中输入一个新值。 DQS 将为更换值添加一个新行,将其指定为正确,然后组合这两个值。 这个新值将显示为前导值,前导值为粗体,而有错误或无效值是缩进的。

  6. 若要将值指定为一组同义词,则选择正确的多个值,然后继续如下操作:

    • 将所选域值设为同义词:若要设置同义词,请选择多个正确的值,然后单击 “将所选域值设为同义词” 图标。 DQS 将对值进行分组,然后将这些值之一指定为将用来替换其他值的前导值。 注意,如果对两个值分组,但组中的一个值是错误的或无效,则值不是同义词。

      注意

      如果您在一个组中选择两个或更多值,并且在该组之外选择另一个值,然后将它们设置为同义词,则系统将会向您显示不正确的错误消息。 在关闭错误消息弹出窗口后,这些值将正确设置为同义词。

    • 断开所选同义词之间的关系:若要撤消针对两个或更多值的同义词指定,请选择这些值,然后单击 “断开所选同义词之间的关系” 图标。 值必须进行分组并必须都是正确的,才能取消同义词的分组。

    • 将所选域值设为其组的前导值:若要更改该组的前导值,请在组中选择未指定为前导值的一个值,然后单击 “将所选域值设为其组的前导值” 按钮。 这会将前导值设置为另一个值的替代值。 只有将两个或更多属于组的值设置为同义词,并且您要更改 DQS 所指定的主导值时,此操作才有效。 请注意,前导值由蓝色行且值由粗体显示来指示。

  7. 拼写检查器:如果值有红色的波浪下划线,则拼写检查器正在建议对值的更正。 右键单击带下划线的值,然后选择一个更正值(如果有适用的更正)。 值类型变为(或仍保持为)错误,并且更正将被添加到 “更正为” 列。 单击向下箭头可查看其他建议的更正。 手动输入一个更正并且将其添加到拼写检查器字典,并且能够将其作为更正选择。 有关详细信息,请参阅 使用 DQS 拼写检查器设置域属性

    注意

    若要使用拼写检查器,您或者可以在 “域属性” 页中启用它,或者如果已在 “域属性” 页中禁用它,则可以在 “域值” 页中单击 “启用/禁用拼写检查器” 图标以便在该页上启用它。

  8. 添加新的域值:单击以在行尾添加一行。 在输入值后,该行将以字母顺序重新定位,并将通过在前面加上星号字符定义为新条目。

  9. 从 Excel 导入域值:若要从 Excel 电子表格添加新值,请单击 “导入值” 图标的向下箭头,然后选择 “从 Excel 导入域值”,。 输入文件名,根据需要选择 “将第一行用作标头” ,然后单击 “确定”。 有关详细信息,请参阅 将值从 Excel 文件导入到域

  10. 从 Excel 导入项目值:若要从数据质量项目添加新值,请单击 “导入值” 图标的向下箭头,然后选择 “从 Excel 导入项目值”。 输入文件名,根据需要选择 “将第一行用作标头” ,然后单击 “确定”。 选择您从中导入值的项目,然后单击 “确定”。 将显示导入的值。 单击“完成”。 有关详细信息,请参阅“将项目值导入到域中”。

  11. 删除所选域值:若要从域中删除一个或多个现有值,请在“值”表中选择值,然后单击 “删除所选域值” 图标。 无法删除 DQS_NULL 的项,因此,如果您选择要删除的多个值,并且 DQS_NULL 的项是其中之一,则操作将失败。

  12. 单击 “完成” 以完成域管理活动,如 结束域管理活动中所述。

跟进:更改域值后

在更改域值后,您可以对域执行其他域管理任务,可以执行知识发现以便向域添加知识,或者可以向域添加匹配策略。 有关详细信息,请参阅执行知识发现管理域创建匹配策略

正确、错误和无效值的含义

“域值” 页的 “值” 表中的每个值都将被分配 “正确”“错误”“无效”“类型”设置。 值的类型最初由知识发现活动生成,并且您可以在适合时更改该值。 清理活动将基于知识发现和交互更改生成最终类型。 这些设置将具有以下含义:

  • 正确: 这是属于域并且没有任何语法错误的值。 例如,City 域中的“Chicago”是正确的。

  • 错误: 这是属于域但不正确的值。 例如,City 域中的“Shicago”(而非“Chicago”)是有错误的。 DQS 将其检测到有语法错误的值指定为有错误并且在发现过程中指定关联的更正。 语法错误包括拼写错误。

  • 无效: 这是不属于域并且没有更正的值。 例如,City 域中的“12345”无效。 DQS 在某个值未能通过域规则时将其指定为无效。

您可以手动将某个值的类型更改为两个其他值之一。 DQS 对手动操作不强制有效性和错误语义。 您可以为无效值输入更正而不更改其状态。 即使某个值未通过域规则,您也可以将其指定为无效。 即使发现过程未指示某个值具有语法错误,您也可以将其指定为存在错误。 您也可以删除对错误值的更正(这将标记为正确),而不更改其状态。

当您在 “清理” 活动的 “管理和查看结果” 页中执行交互式数据清理时,无效和有错误的值都将包含在 “管理和查看结果” 页的 “无效” 选项卡上。

How to Display the Appropriate Values

您可以按如下所示修改显示:

  • 通过在“筛选器” 下拉列表中选择状态,基于其状态筛选 “筛选器” 要处于表中的结果。

  • 通过在“查找” 文本框中输入要搜索的一个或多个字母,查找 “查找” 要检查或修改的数据。 这将突出显示在显示的任何值中出现的那些字母。

  • 单击 “仅显示新内容” 会将在表中显示的值限制为仅限在当前会话(而非之前的会话)中发现的值。

  • 单击 “全部展开” 按钮可在折叠当前状态时显示任何同义词组中的所有值。

  • 单击 “全部折叠” 按钮可在展开当前状态时隐藏任何同义词组中除前导值之外的所有值。

  • 单击 “显示/隐藏域值更改历史记录面板” 按钮可在值表的底部显示一个预览弹出窗口,该窗口显示对域值集合的最近更改。

如何处理 Null 等效项

“域值” 选项卡中的每个值表都包含一个 DQS_NULL 值。 在值表中,数据源中的 Null 将显示为 SQL_NULL。 您可以将一个或多个 null 等效值设置为 DQS_NULL 的同义词。 这样,所有 Null 和 Null 等效值都将处理为 DQS_NULL。