将数据从 Excel 文件导入到域中

本主题介绍如何将值从 Excel 文件导入数据质量服务(DQS)中的域。 使用 Excel 文件将域值导入数据质量客户端应用程序可以简化知识生成过程,从而节省时间和精力。 它使 Excel 文件或文本文件中具有有效数据值列表的人员能够将这些值导入域。 从 Excel 文件中,可以将域值导入到域,或者将域导入到知识库。 (有关将域导入知识库的详细信息,请参阅 知识发现中的 Excel 文件导入域)。不支持将内容导出到 Excel 文件中。

可以通过两种方式导入数据值:

  • 创建新域,然后从 Excel 文件导入值,在这种情况下,所有值都会添加到域。

  • 将值导入到现有填充的域中,在这种情况下,仅导入新值。 所有已存在的值都不会导入。

在您开始之前

先决条件

若要从 Excel 文件导入域,必须在安装了 Data Quality 客户端应用程序的计算机上安装 Excel 才能导入域值或完整域;必须已创建包含域值的 Excel 文件(请参阅 导入工作原理):并且必须已创建并打开知识库,以便将域导入到该知识库中。

安全

权限

必须在DQS_MAIN数据库中具有dqs_kb_editor或dqs_administrator角色,才能从 Excel 文件导入域值。

将值从 Excel 文件导入域

  1. 启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。

  2. 在“数据质量客户端”主屏幕中,在“域管理”活动中打开知识库。

  3. 如果向新域添加值,请使用 “创建域” 图标创建新域,然后在域列表中选择新域。

  4. 如果向现有域添加值,请选择域列表中的域。

  5. 单击“ 域值 ”选项卡,单击图标栏中的 “导入值 ”图标,然后单击 “从 Excel 导入有效值”。

  6. 在“ 导入域值 ”对话框中,单击“ 浏览”。

  7. “选择文件 ”对话框中,移动到包含要从中导入域值的 Excel 文件的文件夹,选择该文件(具有 .xlsx、.xls或 .csv 扩展名),然后单击“ 打开”。 该文件必须位于运行 DQS 的客户端上,或者位于用户有权访问的共享文件中。

  8. “工作表 ”下拉列表中,选择要从中导入的工作表。

  9. 如果电子表格中的第一行表示域名,则选择 “使用第一行”作为标题 ,所有其他行表示有效的域值。

  10. 单击 “确定” 。 将显示进度栏,其中指示已成功导入了多少个值、未导入多少个值以及值的总数。 单击“ 取消 ”按钮取消该过程。

  11. 验证“导入完成”是否显示在“ 导入域值 ”对话框中。 在此对话框中,查看已成功导入哪些值,以及哪些值未导入。 它指示文件的名称和文件的路径、作的完成状态、已成功导入的值数、未导入的值数以及处理的值总数。

  12. 对于未成功导入的值,请单击 “日志 ”以显示 “导入域值 - 失败值 ”对话框,以查看导入作失败的原因。 “失败值”列显示无法从 Excel 文件导入域的值,“原因”列说明了导入失败的原因。 单击“ 复制到剪贴板 ”,将 “失败值 ”表复制到剪贴板,可从中将其复制到其他程序,例如 Excel 电子表格或记事本文件。 单击“ 确定 ”关闭 “失败值 ”对话框。

  13. 单击 “确定” 以完成导入作并关闭对话框。 导入成功完成后,将刷新 “域值 ”页上的域值列表,并包含新的导入值。 筛选器更改为 “所有值 ”,并且已选中 “仅显示新 ”。 在导入作后仅选中 “仅显示新 ”时,将仅显示从 Excel 文件导入的值。

  14. 单击“ 完成 ”将值添加到知识库。

跟进:将值从 Excel 文件导入至域后进行后续操作

将值导入域后,可以对域执行其他域管理任务,执行知识发现以将知识添加到域,也可以向域添加匹配策略。 有关详细信息,请参阅 “执行知识发现”、“ 管理域”或 “创建匹配策略”。

导入同义词

同义词按如下所示导入:

  • 首先,导入所有值,然后建立同义词连接。

  • 如果无法连接同义词值,则会在日志屏幕中显示错误。 可以将文件中的前导值和同义词导入域,但不会设置为同义词。

下面适用于设置同义词连接的过程:

  • 如果 Excel 文件中的前导值已作为其他值的同义词存在于域中,则必须手动设置同义词(例如,在 Excel 文件中,我们希望该值 A 将是值 B 的前导值,但在域值 A 中显示为值 C 的同义词)。 除了在导入完成后手动设置同义词之外,还可以取消当前同义词(例如取消链接上述值 A 和 C)的值,然后导入文件。

  • 如果同义词已连接到其他前导值,则必须手动设置同义词。

  • 如果出于任何原因无法在应用程序中手动关联这些值,则这些值通过导入操作不适用。

导入的工作原理

此作导入以下值:

在导入操作中,DQS 从 Excel 文件导入,如下所示:

  • 导入正确的值和新值。 如果已存在一个或多个导入的域值,则不会导入这些值。

  • 与域规则相矛盾的值将导入为无效值。

  • 如果值不是域的数据类型或为 null,则不会从文件导入值。

  • 值按文件中显示的顺序导入。

  • 每行表示一个域值。

  • 第一行表示域名,或者是第一个数据值或记录,具体取决于 “使用第一行”作为标题 复选框的设置。 如果在使用 .xslx 或 .xls 文件时选择 “使用第一行”作为标题 ,则 null 的任何列名称将自动转换为 Fn,并且复制的任何列将追加一个数字。

  • 如果在导入操作完成之前取消,则会回滚该操作,并且不会导入任何数据。

  • 第一列中的值将导入域。 如果除了第一列外,还填充了一个或多个其他列,则这些列中的值将添加为同义词(请参阅 导入同义词)。

    • 预期格式是,第一列将是前导值,第二列及更高列将是同义词。

    • 可以在同一行或不同行中导入多个同义词。 例如,如果要将“NYC”和“纽约市”导入为“纽约”的同义词,则可以在列 1 中导入一行“纽约”,第 2 列中的“NYC”和第 3 列中的“纽约市”:或者,可以在第 1 列导入一行,第 2 列为“NYC”,第 2 列为“纽约”,第 2 列为“纽约市”的另一行。 请注意,如果域中已存在值“New York”,则只会添加同义词,并且用户在导入过程中不会收到错误,告知他该值已存在。 如果第一个值尚不存在,则会将其添加到域。

以下规则适用于用于导入的 Excel 文件:

  • Excel 文件可以具有扩展名 .xlsx、.xls或 .csv。 Microsoft Excel 必须安装在已安装 Data Quality 客户端应用程序的计算机上,才能导入域值或完整的域。 支持 Excel 版本 2003 及更高版本。 如果使用 64 位版本的 Excel,则仅支持 Excel 2003 文件;不支持 Excel 2007 或 2010 文件。

  • Excel 64 位安装不支持类型为 .xlsx 的 Excel 文件。 如果使用 64 位 Excel,请将电子表格文件另存为 .xls 文件或 .csv 文件,或改为安装 Excel 32 位安装。

  • 在 .xlsx 和 .xls 文件中,列的数据类型由前八行确定。 如果前八行的列数据类型是混合的,则列类型将为字符串。 如果第 9 行和更高行的单元格不符合该数据类型,则会为它提供 null 值。

  • 在 .csv 文件中,数据类型由前八行中最常见的数据类型确定。

  • 如果 Excel 文件的格式不正确或已损坏,则导入作将导致错误。