在知识发现中从 Excel 文件中导入域

本主题介绍如何从 Data Quality Services (DQS) 知识发现活动中的 Excel 文件导入一个或多个域。 导入过程简化了知识生成过程,节省了时间和精力。 它使 Excel 文件或文本文件中具有数据的人员能够使用该数据创建知识库。 (有关将值导入到现有知识库的域中的详细信息,请参阅 将值从 Excel 文件导入域 。不支持导出到 Excel 文件。

在您开始之前

先决条件

若要从 Excel 文件导入域,必须在安装了 Data Quality Client 的计算机上安装 Excel;必须已创建包含域值的 Excel 文件(请参阅 导入工作原理):并且必须已创建并打开知识库,以便将域导入到该知识库中。

安全

权限

要从 Excel 文件导入域,您必须在 DQS_MAIN 数据库中具有 dqs_kb_editor、dqs_administrator 角色。

将域从 Excel 文件导入知识库

  1. 启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。

  2. 在数据质量客户端主屏幕中,执行下列作之一:

    • 通过单击“新建知识库”,输入知识库的名称,选择“”作为“创建知识库的来源”,选择“知识发现”活动,然后单击“创建”,创建新的知识库。

    • 打开要导入的现有知识库,方法是单击 “打开知识库”,选择知识库,选择 “知识发现”,然后单击“ 下一步”。

  3. 地图页面中,为数据源选择Excel文件

  4. 单击 Excel 文件行上的“浏览”。

  5. “选择 Excel 文件 ”对话框中,移动到包含要从中导入的 Excel 文件的文件夹,选择 Excel 文件,然后单击“ 打开”。

  6. “工作表 ”下拉列表中,选择要从中导入的 Excel 文件中的工作表。

  7. 如果希望第一行被视为数据标题,并且希望第一行中的值用作列名,请选择“使用第一 行”作为标题 。 如果希望第一行被视为数据值,则取消选择 “使用第一行”作为标题 ,在这种情况下,DQS 将使用列的 Excel 标题名称(字母字母)。

  8. 选择一列,然后将现有域映射到该列,或者通过单击“ 创建域 ”图标、在“ 创建域 ”对话框中创建域,然后将域映射到该列来创建新域。 域的数据类型必须与列的数据类型匹配。 对电子表格的所有列重复此作。

  9. 单击 “下一步”

  10. 在“ 发现 ”页面中,单击“ 开始” 以分析 Excel 电子表格中的数据。

    注释

    如果在上传数据之前离开页面,文件上传过程将终止。

  11. 验证分析是否已成功完成,然后单击“ 下一步”。

  12. 在“ 管理域值 ”页中,验证 域列表中是否 列出了正确的域,以及域表中输入的值。

  13. 单击“ 完成”,然后单击“ 发布 ”以发布知识库,或者 发布。

  14. 验证知识库是否已发布,然后单击“ 确定”。

在 Excel 文件中导入域名后,请进行后续操作:

将域从 Excel 文件导入后,可以根据域的实际内容来添加知识或在清理或匹配项目中使用这些域。 有关详细信息,请参阅 “执行知识发现”、“ 管理域”、“ 管理复合域”、“ 创建匹配策略”、“ 数据清理”或 “数据匹配”。

导入的工作原理

在导入操作中,DQS 按如下所示解释 Excel 文件:

  • 列表示域

  • 一行表示数据记录

  • 第一行表示域名,或者是第一个数据值或记录,具体取决于 “使用第一行”作为标题 复选框的设置。

以下规则适用于导入操作:

  • 此作将域值导入知识库。 它不导入域规则或匹配策略。

  • Excel 文件可以具有扩展名 .xlsx、.xls或 .csv。 Microsoft Excel 必须安装在数据质量客户端计算机上,才能导入域值或完整域。 支持 Excel 版本 2003 及更高版本。 如果使用 64 位版本的 Excel,则仅支持 Excel 2003 文件;不支持 Excel 2007 或 2010 文件。

  • Excel 64 位安装不支持类型为 .xlsx 的 Excel 文件。 如果使用 64 位 Excel,请将电子表格文件另存为 .xls 文件。

  • 在 .xlsx 和 .xls 文件中,列的数据类型由前八行中最普遍的数据类型确定。 如果单元格不符合该数据类型,则会为它提供 null 值。

  • 在 .csv 文件中,数据类型由前八行中最常见的数据类型确定。

  • Excel 电子表格中不符合域规则的值将导入为无效值。

  • 如果 Excel 文件的格式不正确或已损坏,则导入作将导致错误。