本主题介绍如何通过知识库发现生成知识库。 在发现过程中,Data Quality Services (DQS) 通过计算机辅助过程分析示例数据源中的数据,并将它获取的知识添加到知识库。 可以在知识发现活动的 “管理域值 ”步骤或域管理活动中修改和增强此知识。
知识发现是一个向导驱动的过程,其中包括三个步骤,每个步骤都必须完成。
在您开始之前
先决条件
如果运行发现的源数据位于 Excel 文件中,则必须在 Data Quality Client 计算机上安装 Microsoft Excel。 否则,将无法在映射阶段中选择 Excel 文件。 Microsoft Excel 创建的文件可以扩展名为 .xlsx、.xls或 .csv。 如果使用 64 位版本的 Excel,则仅支持 Excel 2003 文件(.xls) ;不支持 Excel 2007 或 2010 文件(.xlsx)。 如果使用 64 位版本的 Excel 2007 或 2010,请将该文件另存为 .xls 文件或 .csv 文件,或改为安装 32 位版本的 Excel。
安全
权限
要创建知识库,您必须在DQS_MAIN数据库上具有dqs_kb_editor角色或dqs_administrator。
第一步:启动知识发现
启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。
如果要在新知识库上执行知识发现,请单击“ 新建知识库”,输入名称和说明,并指定从中创建知识库的内容(如果适用)。 如果要对现有知识库执行知识发现,请单击“ 打开知识库”,然后选择知识库。
选择 “知识发现 ”作为活动,然后单击“ 创建 ”以创建新知识库或 打开 以打开现有知识库。
映射阶段
在 “数据源 ”字段中,选择 “SQL Server ”(默认值)或 Excel 文件。
注释
在此页中,你将连接到 SQL Server 或 Excel 数据源,然后在数据源中的列与知识库中的域之间映射。 “映射”表显示源数据库中要分析的所有列,以将知识添加到相应的域。 在数据源中的列和知识库中的域之间进行映射。
如果数据源为 SQL Server,请按如下所示继续作:
在 “数据库” 字段中,选择要分析的源数据库来创建知识库。 文本框下拉列表将列出可用的数据库。 源数据库必须与 Data Quality Server 位于同一 SQL Server 实例中。 否则,它不会显示在下拉列表中。
在 “表/视图” 字段中,选择要分析以创建知识库的表或视图。 此表或视图应该是示例数据,而不是执行数据清理或匹配的整个源数据库。 文本框下拉列表将列出可用于所选数据库的表和视图。
如果数据源为 Excel,请按如下所示继续作:
单击“ 浏览 ”,选择要分析的 Excel 文件以创建知识库。 必须在数据质量客户端计算机上安装 Excel 才能选择 Excel 文件。 如果未在数据质量客户端计算机上安装 Excel,“浏览”按钮将不可用,并且你将在此文本框下收到未安装 Excel 的通知。
如果 Excel 文件的第一行包含标题数据,请选中“ 使用第一行作为标题 ”复选框。
在 “映射” 表中,将每个需要进行知识发现的源列映射到知识库中的相应领域,如下所示:
通过从空行的 “源列” 列的下拉列表中选择源列,然后从同一行中的 “域 ”列的下拉列表中选择域(如果存在域)来创建映射。 如果不存在域,请单击“ 创建域 ”或 “创建复合域 ”以创建域。 有关详细信息,请参阅 “创建域规则 ”或 “创建复合域”。
对每个映射重复上一个步骤。 若要更改表中的行数,请单击“ 添加列映射”,或选择一行,然后单击“ 删除所选列映射”。 如果在选定填充行时单击“ 删除所选列映射 ”,即使存在未填充的行,也会删除所选行。
注释
仅当 DQS 中支持源数据类型并与 DQS 域数据类型匹配时,才能将源数据映射到 DQS 域来执行知识发现。 有关支持的数据类型的详细信息,请参阅 DQS 域支持的 SQL Server 和 SSIS 数据类型。
单击“ 查看/选择复合域” 以显示已定义的复合域。 如果未定义复合域,该控件将不可用。
单击 “预览数据源 ”以显示在 “表/视图” 或 “Excel 文件 ”文本框中所选数据源中的所有数据。
单击“ 下一步 ”以转到知识发现向导的“ 发现 ”页。 还可以选择以下内容:
单击“ 取消 ”以终止知识发现活动、丢失工作并返回到 DQS 主页。
单击“ 关闭 ”,保存工作时返回到 DQS 主页。 知识库将对您被锁定,在打开知识库界面的知识库表中的知识库状态将是发现 - 映射。 单击“关闭”后,若要执行域管理活动,必须从“打开知识库”屏幕单击“知识发现”,转到“知识库管理:管理域条款”屏幕,单击“完成”,然后单击“是”以发布知识库或“否”保存知识库上的工作并退出。
发现阶段
单击“ 开始 ”分析数据源。
注释
在“映射”页的“映射关系”表中输入的列上执行探索。 映射到每一列的域将填入从发掘中获取的知识。 如果域是复合域,则知识将添加到复合域包含的各个域。
当发现进程正在运行时,请检查针对每个发现步骤显示的完成状态: 预处理记录、 正在运行的域规则和 正在运行的发现。 每个阶段将显示完成百分比和完成状态。
分析完成后,验证完成统计信息下的状态行是否指示它已成功完成。
注释
在上传文件之前离开屏幕将终止文件上传过程。
分析完成后,请检查 “探查器 ”选项卡中的统计信息以查看数据的状态。 有关详细信息,请参阅 DQS 中的数据分析和通知。
分析完成后, “开始” 按钮变为 “重启 ”按钮。 单击“ 重启 ”再次运行分析过程。 但是,先前分析的结果尚未保存,因此单击 “重启 ”将导致以前的数据丢失。 若要继续,请在弹出窗口中单击“ 是 ”。 由于分析正在运行,请不要离开页面,否则分析过程将终止。
单击“ 下一步 ”转到知识发现向导的“ 管理域值 ”页。 在此页上,可以修改添加到知识库域的知识。 还可以选择以下内容:
单击“ 取消 ”以终止知识发现活动、丢失工作并返回到 DQS 主页。
单击“ 关闭 ”,保存工作时返回到 DQS 主页。 知识库将锁定给你,并且在打开知识库屏幕中的知识库表的状态将是探索 - 发掘。 单击“关闭”后,若要执行域管理活动,必须从“打开知识库”屏幕单击“知识发现”,转到“知识库管理:管理域条款”屏幕,单击“完成”,然后单击“是”以发布知识库或“否”保存知识库上的工作并退出。
单击可返回到 “发现 ”页。
管理数据发现结果阶段
执行知识发现活动后,可以按如下所示更改值:
将域值添加到值列表中,或选择一个值并从列表中将其删除
更改 DQS 发现过程指定域值的状态,将其更改为更正、出错或无效
为错误或无效的值输入替换值
将两个或多个值设置为同义词并更改发现过程设置的前导值,结果显示,如果创建域时设置了 “使用前导值 ”属性,则前导值将替换同义词值
从 Excel 文件导入域值。
值表显示添加到单个域的知识库中的知识。 在左侧窗格的域列表中选择该域。 字段中的列如下:
“值”列显示发现过程从数据示例中的字段添加到所选域的所有值。 投射为错误的任何值都将显示为与投射为正确的值相对应的同义词。
“ 频率 ”列显示域映射到的示例数据库字段中值实例数。 对于复合域,仅显示频率大于或等于 20 的值。 频率数据可用,因为知识发现过程仍与示例数据库建立连接。 “域管理”屏幕的“域值”选项卡上的域表中不提供频率数据,因为域管理过程没有与示例数据库的连接。
“类型”列显示由发现过程确定的值的状态。 绿色检查指示值正确或更正;红色十字指示值出错;和带感叹号的橙色三角形指示值无效。 无效的值不符合域的数据要求。 虽然错误的值可能在某些方面有效,但由于数据原因,它不是正确的值。
更正至 列显示原始值将在标记为错误或无效后更改为的正确值。 DQS 可以提出正确的值作为发现过程的结果。
按如下所示管理发现结果:
在左侧的“ 域列表 ”窗格中,选择要为其设置域值的域。 可以执行以下作来修改显示的值。
可以通过选择 “筛选器” 列表中的状态,在表格中显示你想要的结果。
通过在“查找”文本框中输入一个或多个字母来查找或修改您想要的数据。 这将突出显示这些字母,无论这些字母出现在显示的任何值中。
单击“ 仅显示新 ”,将表中显示的值限制为当前会话中发现的值,而不是以前的会话。
单击全部展开按钮,在当前状态折叠时显示同义词组中的所有值;或者单击全部折叠按钮,在当前状态展开时,仅显示同义词组中的领先值。
单击“ 显示/隐藏域值更改历史记录面板 ”按钮,以显示值表底部的预览弹出窗口,其中显示了对域值集合的最新更改。
通过将 “筛选器 ”设置为 “错误”来查找 Data Quality Services 建议的任何更正。 验证该数值是否实际出错,并检查 Correct To 列中的值是否合适。
将 “筛选器 ”设置为 “所有值 ”,并验证值的状态是否合适。 若要更改值的状态,请选择该值,然后单击“ 设置所选域值”作为更正 的按钮, 将所选域值设置为错误 (交叉)按钮,或 将所选域值设置为无效 (三角形)按钮。
若要更改值的状态,请按如下步骤执行:
将所选域值设置为已更正:若要将值的状态从“错误”或“无效”更改为“更正”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 设置所选域值 ”(选中)。 如果错误或无效值与正确值分组在一起,则在操作后删除该值。
将所选域值设置为错误:若要将值的状态从“正确”或“无效”更改为“错误”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 设置所选域值” 图标(交叉) 图标。 可以在“ 更正为 ”列中输入更正,或将其留空。
将所选域值设置为无效:若要将值的状态从“正确”或“错误”更改为“无效”,请选择该值,然后单击图标栏中的向下箭头或“类型”下拉列表中的“ 将所选域值设置为无效 ”(三角形)图标。 可以在“ 更正为 ”列中输入更正,或将其留空。
更正为:将值设置为错误或无效后,请在 “更正到” 列中输入新值。 DQS 将为替换值添加新行,将其指定为正确,然后将这两个值分组。 新的值将被显示为主要值,并以粗体显示,错误或无效值则缩进显示。
若要将值指定为一组同义词,请选择多个正确值,然后按如下所示继续作:
将所选域值设置为同义词:单击以将所选值设置为同义词。 DQS 将把其中一个值指定为主要值,并用它替换其他值。
注释
如果在组中选择两个或多个值,并在组外部选择另一个值,然后将其设置为同义词,则会收到不正确的错误消息。 关闭错误消息弹出窗口后,值将正确设置为同义词。
中断所选同义词之间的关系:单击可撤消同义词指定。
将所选域值设置为其组的前导值:通过选择一个未被指定为前导值的组中域值,然后单击将所选域值设置为其组的前导值按钮,以更改组的前导值。
拼写检查器:如果在“域属性”页中启用了拼写检查器,请查找具有波浪红色下划线的任何值,指示拼写检查器建议更正。 右键单击带有下划线的值,并选择一个更正(如果适用)。 值类型会变为(或保持为)错误,并将更正添加到“更正为”栏。 单击向下箭头可查看其他建议的更正。 手动输入更正以将其添加到拼写检查字典,并能够将其选为纠正的选项。 有关详细信息,请参阅使用 DQS 拼写检查器和设置域属性。
注释
若要使用拼写检查器,可以在域属性页中启用它。或者,如果在域属性页中禁用了拼写检查器,则可以单击管理数据发现结果页上的启用/禁用拼写检查器图标,以确保在此页上启用它。
添加新域值:通过单击“添加新 域值 ”按钮向域添加新值,以在表末尾添加行。 输入值后,行将按字母顺序重新定位。
从 Excel 导入域值:通过单击 “导入值 ”图标的向下箭头,然后选择 “从 Excel 导入域值”,从 Excel 电子表格添加新值。 输入文件名,如果适用,请选择“ 使用第一行作为标题 ”,然后单击“ 确定”。 有关详细信息,请参阅 将值从 Excel 文件导入域。
导入项目值:通过单击 “导入值 ”图标的向下箭头并选择 “导入项目值”,从数据质量项目添加新值。 输入文件名,如果适用,请选择“ 使用第一行作为标题 ”,然后单击“ 确定”。 选择要从中导入值的项目,然后单击“ 确定”。 将显示导入的值。 单击“完成”。 有关详细信息,请参阅将项目值导入域。
删除所选域值:选择值,然后单击“ 删除所选域值” 按钮,从域中删除一个或多个现有值。 无法删除DQS_NULL项,因此,如果选择多个值进行删除,并且DQS_NULL的条目是其中之一,作将失败。
单击“ 完成 ”以完成知识发现活动。 如果尚未查看每个域,将显示一个弹出窗口。 单击“ 是 ”继续审阅或 “否” 继续。 如果单击“否”,将显示另一个弹出窗口,使你能够执行以下作:
发布:将发布知识库供当前用户或其他用户使用。 不会锁定知识库,知识库(在知识库表中)的状态将设置为空,并且域管理和知识发现活动都将可用。 将返回到主页。 若要完成该过程,请在弹出窗口中单击“ 是 ”。
否:将保存你的工作,知识库将保持锁定状态,知识库的状态将设置为“工作中”。 域管理和知识发现活动都将可用。 将返回到主页。
取消:弹出窗口将关闭,你将留在 “管理域值 ”页中。
还可以单击以下内容:
取消 以终止知识发现活动、丢失工作并返回到 DQS 主页。
关闭当前窗口以在保持您的工作进度的同时返回到 DQS 主页。 知识库将对你锁定,在打开知识库屏幕的知识库表中,知识库的状态将是发现 - 值管理。
单击 “返回 ”以返回到 “发现 ”页。 单击“关闭”后,若要执行域管理活动,必须从“打开知识库”屏幕单击“知识发现”,转到“知识库管理:管理域条款”屏幕,单击“完成”,然后单击“是”以发布知识库或“否”保存知识库上的工作并退出。
后续事项:执行知识发现后
在计算机辅助知识发现过程中将知识添加到知识案例后,可以立即使用知识库进行清理项目,也可以在执行清理之前执行域管理。 有关数据清理或域管理的详细信息,请参阅 数据清理 或 管理域。
正确、错误和无效值的含义
“域值”页的“值”表中的每个值都分配了“正确”、“错误”或“无效”的类型设置。 该值的类型最初由知识发现活动生成,你可以根据需要对其进行更改。 最终类型基于发现和交互式更改,由清理活动生成。 这些设置具有以下含义:
正确: 这是属于域且没有任何语法错误的值。 例如,City 域中的“芝加哥”是正确的。
错误: 这是属于域的值,但值不正确。 例如,城市域中的“Shicago”而不是“Chicago”错误。 DQS 将某个值标记为错误,并在发现过程中检测到语法错误以及相关的更正。 语法错误包括拼写错误。
无效: 此值不属于域,并且没有更正。 例如,City 域中的值“12345”无效。 当值失败域规则时,DQS 将值指定为无效。
可以手动将值的类型更改为其他两个值之一。 DQS 不会对手动操作施加有效性和错误语义。 可以为无效值输入更正,而不更改其状态。 即使值未失败域规则,也可以将值指定为无效值。 即使发现过程未指示其语法错误,也可以将值指定为错误。 还可以删除错误值的更正,该值标记为“正确”,而不更改其状态。
在“管理和查看结果”页面的清理活动中执行交互式数据清理时,“管理和查看结果”页面上的“无效”选项卡包含无效值和错误值。
如何显示适当的值
可以按如下所示修改显示:
通过选择“筛选器”下拉列表中的状态,根据表中所需的结果筛选结果。
要在“查找”文本框中输入一个或多个字母来查找数据,并进行修改。 这将突出显示这些字母,无论它们出现在显示的值中的何处。
单击“ 仅显示新 ”,将表中显示的值限制为当前会话中发现的值,而不是以前的会话。
单击“ 全部展开 ”按钮,在折叠当前状态时显示任意组同义词中的所有值。
单击 “全部折叠” 按钮,在当前状态展开时,隐藏同义词组中除首个值以外的所有值。
单击“ 显示/隐藏域值更改历史记录面板 ”按钮,以显示值表底部的预览弹出窗口,其中显示了对域值集合的最新更改。
探查器统计信息
“探查器”选项卡提供用于指示源数据质量的统计信息。 这些统计信息不测量知识库的质量。 知识发现中的剖析提供了关于完整性和独特性的见解。 知识发现中的剖析不是用来评估准确性的。 通过知识管理剖析,帮助您评估数据源在多大程度上有助于在知识库中构建和增强知识的价值。
“ 探查器 ”选项卡按字段和域提供发现过程的以下统计信息:
记录:数据样本中发现了多少记录
总值:为每个字段和总计找到的总值数
新值:自上次发现过程以来,每个字段和所有映射字段的总值数以及总值的百分比都是新的
唯一值:每个字段和所有映射字段的总值数是唯一的,其总值的百分比
新的唯一值:自上次发现过程以来,每个字段和所有映射字段的唯一值数及其总值的百分比都是新的
域值有效性:统计每个字段和所有映射字段的总值中有效的个数,并计算其在总值中的百分比
字段统计信息包括:
字段:源数据库中字段的名称
域:映射到该字段的域的名称
新增:与字段中现有值相比,新值的数量和新值的百分比
独特性:字段中独特记录的数量及其在总数中的百分比
在域中有效:有效域值数及其总计百分比
完整性:为匹配练习映射的每个源字段的完整性
知识发现中的分析提供有关完整性的见解。 如果剖析表明某个字段相对不完整,你可能需要将其从数据质量项目的知识库中移除。 分析可能无法为复合域提供可靠的完整性统计信息。 如果需要完整性统计信息,请使用单个域而不是复合域。 如果要使用复合域,可能需要创建一个知识库,其中包含用于分析的单个域,以确定完整性,并使用复合域创建另一个域进行清理过程。 例如,分析可能会显示使用复合域的地址记录的 95 个% 完整性,但其中一列的不完整程度可能更高,例如邮政(zip)代码列。 在此示例中,你可能想要使用单个域测量邮政编码列的完整性。 分析可能会为复合域提供可靠的准确性统计信息,因为可以同时测量多个列的准确性。 此数据的值位于复合聚合中,因此可能需要使用复合域来测量准确性。
统计信息显示在以下阶段的 Profiler 选项卡中:
在 预处理记录 阶段,DQS 加载数据并为其编制索引。 这是逐个记录或按批处理完成的,因此进度可通过记录来显示。 在执行此步骤期间,可以生成大多数分析数据,但不能生成域内有效值。
在 “域规则运行” 阶段,执行所有域值的域规则作为一个原子单元时,会填充 “域内有效” 列。
在 “正在运行的发现” 阶段,探查器选项卡中没有更新任何新数据。在向导的下一步( “管理域值 ”阶段)中可以看到遇到的任何语法错误。
对于知识发现活动,以下条件会导致通知:
字段中没有新值;建议将其从映射中消除。
字段中很少有新值;你可能希望将其从映射中消除。
字段为空;建议将其从映射中消除。
字段完整性分数非常低;你可能希望将其从映射中消除。
字段中的所有值都无效;应验证域规则与字段内容的映射和相关性。
字段中存在低级别的有效值;应验证域规则与字段内容的映射和相关性。
有关分析的详细信息,请参阅 DQS 中的数据分析和通知。