Статья
04/01/2012

Как определить подобные строки данных с помощью преобразования «Нечеткое группирование»

Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача потока данных.

Включение преобразования «Нечеткое группирование» в поток данных

В среде Business Intelligence Development Studio откройте проект служб Integration Services, содержащий необходимый пакет.
Чтобы открыть пакет, дважды щелкните его в обозревателе решений.
Перейдите на вкладку Поток данных, а затем из области элементов перетащите преобразование «Нечеткое группирование» в область конструктора.
Подключите преобразование к потоку данных, перетащив соединитель — зеленую или красную стрелку — от источника данных или существующего преобразования на преобразование «Нечеткое группирование».
Дважды щелкните преобразование «Нечеткое группирование».

В диалоговом окне Редактор преобразования «Нечеткое группирование» на вкладке Диспетчер соединений выберите диспетчер соединений OLE DB, подключающийся к базе данных SQL Server.

Примечание
Соединение с базой данных SQL Server требуется преобразованию для создания временных таблиц и индексов.

Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.

Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.

Примечание
Входные столбцы, используемые для группирования, автоматически помечаются как передаваемые, и эти флажки не могут быть сняты.

Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода.
Можно также обновить имена очищенных столбцов в столбце Псевдоним выхода групп.

Примечание

По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».
Можно изменить используемый тип соответствия в столбце Тип совпадения.

Примечание

Хотя бы один из столбцов должен использовать нечеткое соответствие.
Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Оно должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.
Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия.
Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения.
Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения.
Щелкните вкладку Дополнительно, чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).
При желании можно отрегулировать порог подобия при помощи ползунка.
Можно также сбросить флажки разделителей токенов, чтобы игнорировать разделители в данных.
Нажмите ОК.
Чтобы сохранить обновленные пакеты, щелкните Сохранить выбранные элементы в меню Файл.