Поделиться через


Создание структуры модели кластеризации последовательностей в интеллектуальном анализе данных (учебник среднего уровня по интеллектуальному анализу данных)

Первым шагом в создании модели интеллектуального анализа последовательностей является использование мастера интеллектуального анализа данных для создания новой структуры интеллектуального анализа данных и модели интеллектуального анализа данных на основе алгоритма кластеризации последовательностей Майкрософт.

Вы будете использовать то же представление источника данных, которое использовалось для анализа корзины рынка, но вы добавите столбец, содержащий sequence идентификатор. В этом сценарии последовательность означает порядок, в котором клиент добавил элементы в корзину покупок.

Вы также добавите некоторые столбцы, используемые в одной из моделей для группировки клиентов по демографическим данным.

Чтобы создать структуру и модель кластеризации последовательности

  1. В обозревателе решений в SQL Server Data Tools (SSDT) щелкните правой кнопкой мыши Майнинговые структуры и выберите Создать новую майнинговую структуру.

  2. На странице "Добро пожаловать в мастер интеллектуального анализа данных " нажмите кнопку "Далее".

  3. На странице "Выбор метода определения " убедитесь, что выбрана существующая реляционная база данных или хранилище данных , а затем нажмите кнопку "Далее".

  4. На странице Создание структуры интеллектуального анализа данных убедитесь, что выбран параметр Создать структуру интеллектуального анализа данных с моделью интеллектуального анализа данных. Затем щелкните раскрывающийся список для параметра, какой метод интеллектуального анализа данных вы хотите использовать?, и выберите кластеризацию последовательности Майкрософт. Нажмите кнопку Далее.

    Откроется страница "Выбор представления источника данных ". В разделе "Доступные представления источников данных" выберите Orders.

    Заказы представляют собой то же представление источника данных, которое использовалось для данного сценария покупательской корзины. Если вы не создали это представление источника данных, см. статью "Добавление представления источника данных" с вложенными таблицами (учебник по интеллектуальному анализу промежуточных данных).

  5. Нажмите кнопку Далее.

  6. На странице "Указание типов таблиц " установите флажок "Регистр " рядом с таблицей vAssocSeqOrders и установите флажок "Вложенные " рядом с таблицей vAssocSeqLineItems . Нажмите кнопку Далее.

    Замечание

    Если при выборе флажков "Регистр " или "Вложенные " возникает ошибка, возможно, соединение в представлении источника данных неправильно. Вложенная таблица vAssocSeqLineItems должна быть подключена к таблице регистров vAssocSeqOrders путем соединения "многие к одному". Вы можете изменить связь, щелкнув правой кнопкой мыши линию соединения и изменив направление соединения. Дополнительные сведения см. в диалоговом окне "Создание или изменение отношений" (службы Analysis Services — многомерные данные).

  7. На странице "Указание обучающих данных " выберите столбцы для использования в модели, установив флажок следующим образом:

    • Группа доходов Установите флажок Входные данные.

      Этот столбец содержит интересные сведения о клиентах, которые можно использовать для кластеризации. Вы будете использовать его в первой модели, а затем игнорировать ее во второй модели.

    • OrderNumber Установите флажок Key.

      Это поле будет использоваться в качестве идентификатора таблицы вариантов или Key. Как правило, никогда не следует использовать ключевое поле таблицы регистра в качестве входных данных, так как ключ содержит уникальные значения, которые не полезны для кластеризации.

    • Область Установите флажок "Ввод".

      Этот столбец содержит интересные сведения о клиентах, которые можно использовать для кластеризации. Вы будете использовать его в первой модели, а затем игнорировать ее во второй модели.

    • LineNumberKey Установите флажки выбора и ввода.

      Поле LineNumber будет использоваться в качестве идентификатора вложенной таблицы или Sequence Key. Ключ для вложенной таблицы всегда должен использоваться для ввода.

    • Модель Установите флажки "Входные данные " и "Прогнозируемые ".

    Убедитесь, что выбранные фрагменты верны, а затем нажмите кнопку "Далее".

  8. На странице "Указание столбцов" Содержимое и тип данных убедитесь, что сетка содержит столбцы, типы контента и типы данных, показанные в следующей таблице, а затем нажмите кнопку "Далее".

    Таблицы и столбцы Тип контента Тип данных
    Доходная группа Дискретный Текст
    Номер заказа Ключ Текст
    Регион Дискретный Текст
    vAssocSeqLineItems
    Номер строки Ключевая последовательность Длинный
    Модель Дискретный Текст
  9. На странице "Создание набора тестирования" измените процент данных для тестирования на 20, а затем нажмите кнопку "Далее".

  10. На странице "Завершение работы мастера", для имени структуры интеллектуального анализа данных введите Sequence Clustering with Region.

  11. В поле Sequence Clustering with Region введите имя модели интеллектуального анализа данных.

  12. Установите флажок "Разрешить детализацию " и нажмите кнопку "Готово".

Следующая задача на занятии

Обработка модели кластеризации последовательностей

См. также

Конструктор интеллектуального анализа данных
Алгоритм кластеризации последовательностей Майкрософт