Поделиться через


Импорт доменов из файла Excel при обнаружении набора знаний

В этом разделе описывается, как импортировать один или несколько доменов из файла Excel в действие обнаружения знаний Службы Data Quality Services (DQS). Процесс импорта упрощает процесс формирования набора знаний, экономя время и силы. Это позволяет пользователям, у которых данные хранятся в файлах Excel или текстовых файлах, создавать базу знаний с применением этих данных. (Дополнительные сведения об импорте значений в домен существующей базы знаний см. в разделе Импорт значений из файла Excel в домен.) Экспорт в файл Excel не поддерживается.

В этом разделе

  • Перед началом работы выполните следующие действия.

    Предварительные требования

    Безопасность

  • Импорт доменов из файла Excel в базу знаний

  • Дальнейшие действия: после импорта доменов из файла Excel

  • Принцип работы импорта

Перед началом

Предварительные требования

Для импорта доменов из файла Excel необходимо установить Microsoft Excel на компьютер, на котором установлено приложение Клиент Data Quality. Необходимо создать файл Excel со значениями домена (см. раздел Принцип работы импорта). Кроме того, необходимо создать и открыть базу знаний, в которую будет импортироваться домен.

Безопасность

Разрешения

Для импорта доменов из файла Excel необходимо иметь роль dqs_kb_editor или dqs_administrator в базе данных DQS_MAIN.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Импорт доменов из файла Excel в базу знаний

  1. Запустите клиент DQS. Дополнительные сведения об этой процедуре см. в разделе Запуск клиентского приложения DQS.

  2. На главном экране Клиент Data Quality выполните одно из следующих действий.

    • Создайте новую базу знаний для импорта данных. Для этого нажмите кнопку Создать базу знаний, введите имя базы знаний, выберите Нет в поле Создать базу знаний из, выберите действие Обнаружение набора знаний и нажмите кнопку Создать.

    • Откройте существующую базу знаний для импорта. Для этого нажмите кнопку Открыть базу знаний, выберите базу знаний, выберите Обнаружение набора знаний, затем нажмите кнопку Далее.

  3. На странице Сопоставление выберите Файл Excel как Источник данных.

  4. Нажмите кнопку Обзор в строке Файл Excel.

  5. В диалоговом окне Выбрать файл Excel перейдите в папку с файлом Excel, из которого будут импортироваться данные, выберите файл Excel и нажмите кнопку Открыть.

  6. В раскрывающемся списке Лист выберите лист в файле Excel, откуда будет осуществляться импорт.

  7. Выберите Использовать первую строку как заголовок, если следует рассматривать первую строку как заголовок данных, а значения в первой строке как имена столбцов. Отмените выбор варианта Использовать первую строку как заголовок, если содержимое первой строки должно рассматриваться как значение данных. В этом случае службы DQS будут использовать в качестве заголовков имена столбцов Excel (буквы алфавита).

  8. Выберите столбец, затем либо сопоставьте с ним существующий домен, либо создайте новый домен. Для этого щелкните значок Создать домен, в результате чего откроется диалоговое окно Создать домен, затем сопоставьте домен со столбцом. Тип данных домена должен совпадать с типом данных столбца. Повторите эти действия для всех столбцов таблицы.

  9. Нажмите кнопку Далее.

  10. На странице Обнаружение выберите Пуск, чтобы запустить анализ данных в электронной таблице Excel.

    ПримечаниеПримечание

    Если вы выйдете из этой страницы до того, как будут переданы данные, процесс передачи файла будет прерван.

  11. Убедитесь, что анализ завершен успешно, и нажмите кнопку Далее.

  12. На странице Управление значениями домена проверьте правильность списка Домены, а также наличие значений в таблице доменов.

  13. Нажмите кнопку Готово, затем кнопку Опубликовать, чтобы опубликовать базу знаний, либо Нет, чтобы не публиковать.

  14. Убедитесь, что база знаний опубликована, и нажмите кнопку ОК.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Дальнейшие действия. после импорта доменов из файла Excel

После импорта доменов из файла Excel вы можете добавить наборы знаний в домены или использовать домены в проекте очистки данных или сопоставления, в зависимости от содержания доменов. Дополнительные сведения см. в разделе Обнаружение набора знаний, Управление доменом, Управление составным доменом, Создание политики сопоставления, Очистка данных или Сопоставление данных.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Принцип работы импорта

В ходе операции импорта служба DQS интерпретирует файл Excel следующим образом:

  • Столбец представляет домен

  • Строка представляет запись данных

  • Первая строка представляет имена доменов либо первое значение или запись данных, в зависимости от того, установлен ли флажок Использовать первую строку в качестве заголовка.

Для операции импорта действуют следующие правила.

  • Эта операция импортирует значения домена в базу знаний. Правила домена или политика сопоставления не импортируются.

  • Файл Excel может иметь расширение .xlsx, .xls или .csv. Чтобы можно было импортировать значения домена или весь домен, на компьютере c Клиент Data Quality необходимо установить Microsoft Excel. Поддерживаются Excel 2003 и более поздние версии. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003; файлы Excel 2007 и 2010 не поддерживаются.

  • Файлы Excel с расширением .xlsx не поддерживаются для 64-разрядной версии Excel. Если вы используете 64-разрядный Excel, сохраните файл электронной таблицы в виде XLS-файла.

  • В XLSX- и XLS-файлах тип данных столбца определяется по преобладающему типу данных в первых восьми строках. Если данные в ячейке не соответствуют данному типу, ячейке присваивается значение NULL.

  • В CSV-файле тип данных определяется по преобладающему типу данных в первых восьми строках.

  • Значение в электронной таблице Excel, которое не соответствует правилу домена, импортируется как недопустимое значение.

  • Если файл Excel поврежден или представлен в недопустимом формате, операция импорта вызывает ошибку.

Значок стрелки, используемый со ссылкой «В начало»[Top]