Поделиться через


Как определить подобные строки данных при помощи преобразования «Нечеткое группирование»

Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача потока данных.

Включение преобразования «Нечеткое группирование» в поток данных

  1. В среде Business Intelligence Development Studio откройте проект служб Integration Services, содержащий необходимый пакет.

  2. Чтобы открыть пакет, дважды щелкните его в обозревателе решений.

  3. Перейдите на вкладку Поток данных, а затем из области элементов перетащите преобразование «Нечеткое группирование» в область конструктора.

  4. Подключите преобразование к потоку данных, перетащив соединитель — зеленую или красную стрелку — от источника данных или существующего преобразования на преобразование «Нечеткое группирование».

  5. Дважды щелкните преобразование «Нечеткое группирование».

  6. В диалоговом окне Редактор преобразования «Нечеткое группирование» на вкладке Диспетчер соединений выберите диспетчер соединений OLE DB, подключающийся к базе данных SQL Server.

    ПримечаниеПримечание

    Соединение с базой данных SQL Server требуется преобразованию для создания временных таблиц и индексов.

  7. Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.

  8. Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.

    ПримечаниеПримечание

    Входные столбцы, используемые для группирования, автоматически помечаются как передаваемые, и эти флажки не могут быть сняты.

  9. Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода.

  10. Можно также обновить имена очищенных столбцов в столбце Псевдоним выхода групп.

    ПримечаниеПримечание

    По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».

  11. Можно изменить используемый тип соответствия в столбце Тип совпадения.

    ПримечаниеПримечание

    Хотя бы один из столбцов должен использовать нечеткое соответствие.

  12. Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Это значение должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.

  13. Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия.

  14. Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения.

  15. Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения.

  16. Щелкните вкладку Дополнительно, чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).

  17. При желании можно отрегулировать порог подобия при помощи ползунка.

  18. Можно также сбросить флажки разделителей лексем, чтобы игнорировать разделители в данных.

  19. Нажмите ОК.

  20. Чтобы сохранить обновленные пакеты, щелкните Сохранить выбранные элементы в меню Файл.