Создание структуры модели интеллектуального анализа данных прямой почтовой рассылки (учебник по интеллектуальному анализу данных)
Первым шагом в создании сценария прямой почтовой рассылки является использование мастера интеллектуального анализа данных среды Business Intelligence Development Studio для создания новой структуры интеллектуального анализа данных и модели интеллектуального анализа данных дерева решений.
Дополнительные сведения см. в разделах
Мастер интеллектуального анализа данных, Конструктор интеллектуального анализа данных, Алгоритм дерева принятия решений (Майкрософт)
Создание структуры интеллектуального анализа данных для сценария прямой почтовой рассылки
В обозревателе решений щелкните правой кнопкой мыши узел Структуры интеллектуального анализа данных и выберите команду Создать структуру интеллектуального анализа данных.
Будет открыто окно мастера интеллектуального анализа данных.
На странице Вас приветствует мастер интеллектуального анализа данных нажмите кнопку Далее.
Убедитесь, что на странице Выбор метода определения выбран параметр На основе существующей реляционной базы данных или хранилища данных, затем нажмите кнопку Далее.
На странице Выбор технологии интеллектуального анализа данных в поле Какой метод интеллектуального анализа данных использовать? выберите Алгоритм дерева принятия решений (Microsoft).
В данном учебнике предстоит создать несколько моделей, основанных на этой исходной структуре интеллектуального анализа данных. Первая модель будет создана вместе со структурой при завершении мастера. Она будет основана на алгоритме дерева принятия решения Microsoft.
Нажмите кнопку Далее.
На странице Выбор представления источника данных обратите внимание, что по умолчанию выбрано хранилище данных Adventure Works. Нажмите кнопку Обзор, чтобы просмотреть таблицы в представлении источника данных, а затем нажмите кнопку Закрыть, чтобы вернуться в окно мастера.
Нажмите кнопку Далее.
На странице Определение типов таблиц установите флажки в столбце Вариант рядом с таблицей vTargetMail и нажмите кнопку Далее.
На странице Определение обучающих данных убедитесь, что установлен флажок в столбце Ключ рядом со столбцом CustomerKey.
Если для таблицы с входными данными из представления источника данных указан ключ, мастер интеллектуального анализа данных автоматически выберет этот столбец в качестве ключа для модели.
Установите флажки Вход и Прогнозируемый рядом со столбцом BikeBuyer.
Если столбец обозначен как прогнозируемый, на экран выводится кнопка Предложить. Нажав кнопку Предложить, можно открыть диалоговое окно Предложение связанных столбцов, в котором перечислены все столбцы, которые, вероятнее всего, связаны с прогнозируемым столбцом.
В диалоговом окне Предложение связанных столбцов атрибуты организованы по степени их корреляции с прогнозируемым атрибутом. Столбцы со значениями, большими, чем 0,05, автоматически выделены как включаемые в модель. Если предложенный мастером выбор верен, нажмите кнопку ОК, чтобы отметить выбранные столбцы как входные столбцы в мастере. При работе с этим учебником игнорируйте предложенный выбор путем нажатия кнопки Отмена.
Установите флажки Вход рядом со следующими столбцами.
- Age
- CommuteDistance
- EnglishEducation
- EnglishOccupation
- FirstName
- Gender
- GeographyKey
- HouseOwnerFlag
- LastName
- MaritalStatus
- NumberCarsOwned
- NumberChildrenAtHome
- Region
- TotalChildren
- YearlyIncome
Можно выбрать несколько столбцов одновременно, удерживая нажатой клавишу SHIFT.
Нажмите кнопку Далее.
На странице Определение содержимого столбцов и типов данных нажмите кнопку Определить.
Будет выполнен алгоритм, который обрабатывает числовые данные этого примера и определяет, будут ли числовые столбцы содержать непрерывные или дискретные значения. Например, один из столбцов может содержать сведения о фактической зарплате, которые являются непрерывным значением. Но в этом столбце также могут содержаться целые значения, определяющие закодированные интервалы заработной платы, например: 1 = < 25 000 рублей; 2 = от 25 000 до 50 000 рублей, т.е. дискретные значения.
После нажатия кнопки Определить убедитесь, что для записей в столбцах Тип содержимого и Тип данных установлены настройки, перечисленные в следующей таблице.
Столбец Тип содержимого Тип данных Age
Continuous
Long
BikeBuyer
Discrete
Long
CommuteDistance
Discrete
Text
CustomerKey
Key
Long
EnglishEducation
Discrete
Text
EnglishOccupation
Discrete
Text
FirstName
Discrete
Text
Gender
Discrete
Text
GeographyKey
Discrete
Text
HouseOwnerFlag
Discrete
Text
LastName
Discrete
Text
MaritalStatus
Discrete
Text
NumberCarsOwned
Discrete
Long
NumberChildrenAtHome
Discrete
Long
Region
Discrete
Text
TotalChildren
Discrete
Long
YearlyIncome
Continuous
Double
Примечание. |
---|
Будучи построен на основе только числовых значений, алгоритм интеллектуального анализа данных предполагает, что столбец GeographyKey содержит непрерывные числа. Однако такие числа, как почтовые коды, как правило, должны рассматриваться как дискретные, а не непрерывные числовые значения, потому что математические операции с этими числами бессмысленны. |
- Нажмите кнопку Далее.
- На странице Завершение работы мастера в поле Имя структуры интеллектуального анализа данных введите Прямая почтовая рассылка.
- В поле Имя модели интеллектуального анализа данных введите TM_Decision_Tree.
- Установите флажок Разрешить детализацию.
- Нажмите кнопку Готово.
Следующая задача занятия
Изменение модели прямой почтовой рассылки (учебник по интеллектуальному анализу данных)