Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Чтобы создать модель интеллектуального анализа данных, необходимо сначала использовать мастер интеллектуального анализа данных для создания новой структуры интеллектуального анализа данных на основе нового представления источника данных. В этой задаче вы будете использовать мастер для создания структуры интеллектуального анализа данных и одновременно создадите связанную модель интеллектуального анализа данных, основанную на алгоритме нейронной сети Майкрософт.
Так как нейронные сети являются чрезвычайно гибкими и могут анализировать множество сочетаний входных и выходных данных, следует поэкспериментировать с несколькими способами обработки данных, чтобы получить лучшие результаты. Например, может потребоваться настроить способ объединения числовых целевых значений для качества обслуживания или группирования в соответствии с конкретными бизнес-требованиями. Для этого вы добавите новый столбец в структуру интеллектуального анализа данных, которая группует числовые данные другим способом, а затем создадите модель, которая использует новый столбец. Вы будете использовать эти модели интеллектуального анализа данных для исследований.
Наконец, когда вы узнали из модели нейронной сети, какие факторы имеют наибольшее влияние на ваш бизнес-вопрос, вы создадите отдельную модель для прогнозирования и оценки. Вы будете использовать алгоритм логистической регрессии Майкрософт, основанный на модели нейронных сетей, но оптимизирован для поиска решения на основе определенных входных данных.
Шаги
Создайте структуру интеллектуального анализа данных по умолчанию и модель
Дискретизировать прогнозируемый столбец
Скопируйте столбец и измените метод дискретизации для другой модели.
Создайте псевдоним для прогнозируемого столбца, чтобы можно было сравнить модели.
Создание структуры центра вызовов по умолчанию
В обозревателе решений в SQL Server Data Tools (SSDT) щелкните правой кнопкой мыши Майнинговые структуры и выберите Создать новую майнинговую структуру.
На странице "Добро пожаловать в мастер интеллектуального анализа данных " нажмите кнопку "Далее".
На странице "Выбор метода определения " убедитесь, что выбрана существующая реляционная база данных или хранилище данных , а затем нажмите кнопку "Далее".
На странице Создание структуры интеллектуального анализа данных убедитесь, что выбран параметр Создать структуру интеллектуального анализа данных с моделью интеллектуального анализа данных.
Щелкните раскрывающийся список для параметра Какой метод интеллектуального анализа данных вы хотите использовать?, а затем выберите Microsoft Neural Networks.
Поскольку модели логистической регрессии основаны на нейронных сетях, вы можете повторно использовать ту же структуру и добавить новую модель анализа данных.
Нажмите кнопку Далее.
Откроется страница "Выбор представления источника данных ".
В разделе "Доступные представления источников данных" нажмите
Call Centerкнопку "Далее".На странице "Задание типов таблиц" установите флажок "Case" рядом с таблицей FactCallCenter. Не выбирайте ничего для DimDate. Нажмите кнопку Далее.
На странице "Указание обучающих данных " выберите "Ключ" рядом с столбцом FactCallCenterID.
PredictУстановите флажки и флажки ввода.Установите флажки "Ключ", "Вход" и
Predict"Ввод", как показано в следующей таблице:Таблицы и столбцы Key/Input/Predict AutomaticResponses Ввод Среднее время на задачу Входные и прогнозные данные Вызовы Ввод КлючДата Не используйте ДеньНедели Ввод FactCallCenterID Ключ ВозникшиеПроблемы Ввод LevelOneOperators Входные и прогнозные данные LevelTwoOperators Ввод Заказы Входные и прогнозные данные ServiceGrade Входные и прогнозные данные Сдвиг Ввод ТоталОператоры Не используйте Тип заработной платы Ввод Обратите внимание, что выбрано несколько прогнозируемых столбцов. Одним из преимуществ алгоритма нейронной сети является то, что он может анализировать все возможные сочетания входных и выходных атрибутов. Вы не хотите сделать это для большого набора данных, так как это может увеличить время обработки.
На странице "Указание содержимого столбцов и типа данных" убедитесь, что сетка содержит столбцы, типы контента и типы данных, как показано в следующей таблице, а затем нажмите кнопку "Далее".
Колонны Тип контента Типы данных AutomaticResponses Непрерывный Длинный Среднее время на задачу Непрерывный Длинный Вызовы Непрерывный Длинный ДеньНедели Дискретный Текст FactCallCenterID Ключ Длинный ВозникшиеПроблемы Непрерывный Длинный LevelOneOperators Непрерывный Длинный LevelTwoOperators Непрерывный Длинный Заказы Непрерывный Длинный Класс обслуживания Непрерывный Двойной Сдвиг Дискретный Текст Тип заработной платы Дискретный Текст На странице создания набора тестирования снимите текстовое поле для параметра " Процент данных для тестирования". Нажмите кнопку Далее.
На странице "Завершение работы мастера", для имени структуры интеллектуального анализа данных введите
Call Center.Для названия модели введите
Call Center Default NN, а затем нажмите Готово.Поле "Разрешить детализацию " отключено, так как невозможно выполнить детализацию данных с помощью моделей нейронной сети.
В обозревателе решений щелкните правой кнопкой мыши имя созданной структуры интеллектуального анализа данных и выберите "Процесс".
Используйте дискретизацию для разбиения целевого столбца на интервалы.
По умолчанию при создании модели нейронной сети с числовым прогнозируемым атрибутом алгоритм нейронной сети Майкрософт обрабатывает атрибут как непрерывное число. Например, атрибут ServiceGrade — это число, которое теоретически варьируется от 0,00 (все вызовы отвечены) до 1,00 (все звонящие отключаются). В этом наборе данных значения имеют следующее распределение:
В результате при обработке выходных данных модели выходные данные могут быть сгруппированы по-другому, чем ожидалось. Например, при использовании кластеризации для определения лучших групп значений алгоритм делит значения в ServiceGrade на диапазоны, такие как 0,0748051948 – 0,09716216215. Хотя такое группирование является математически точным, такие диапазоны могут быть не столь значимыми для бизнес-пользователей.
На этом шаге, чтобы сделать результат более интуитивно понятным, вы будете группировать числовые значения по-разному, создавая копии числовых столбцов данных.
Как работает дискретизация
Службы Analysis Services предоставляют различные методы для бинирования или обработки числовых данных. В следующей таблице показаны различия между результатами при обработке выходного атрибута ServiceGrade тремя способами:
Рассматривая его как непрерывное число.
Использование алгоритма кластеризации для определения оптимального расположения значений.
Указание на то, что числа будут распределены методом равных площадей.
Модель по умолчанию (непрерывная)
| ЦЕННОСТЬ | ПОДДЕРЖКА |
|---|---|
| Отсутствует | 0 |
| 0.09875 | 120 |
Распределение по кластерам
| ЦЕННОСТЬ | ПОДДЕРЖКА |
|---|---|
| < 0.0748051948 | 34 |
| 0.0748051948 - 0.09716216215 | двадцать семь |
| 0.09716216215 - 0.13297297295 | 39 |
| 0.13297297295 - 0.167499999975 | 10 |
| >= 0.16749999999975 | 10 |
Разделено на равные участки
| ЦЕННОСТЬ | ПОДДЕРЖКА |
|---|---|
| < 0.07 | 26 |
| 0.07 - 0.00 | двадцать два |
| 0.09 - 0.11 | 36 |
| >= 0.12 | 36 |
Замечание
Эти статистические данные можно получить из конечного узла статистики модели после обработки всех данных. Дополнительные сведения о узле статистики предельных показателей см. в разделе "Содержимое модели интеллектуального анализа данных для моделей нейронной сети (Analysis Services — интеллектуальный анализ данных).
В этой таблице столбец VALUE показывает, как обрабатывается число для ServiceGrade. В столбце SUPPORT показано, сколько случаев имело это значение или входило в данный диапазон.
Использование непрерывных чисел (по умолчанию)
Если вы использовали метод по умолчанию, алгоритм вычисляет результаты для 120 различных значений, среднее значение которого равно 0,09875. Вы также можете увидеть количество отсутствующих значений.
Классификация путем кластеризации
Если разрешить алгоритму кластеризации Майкрософт определить необязательное группирование значений, алгоритм сгруппирует значения для ServiceGrade в пять (5) диапазонов. Число случаев в каждом диапазоне не распределяется равномерно, как показано в столбце поддержки.
Категория по равным площадям
При выборе этого метода алгоритм распределяет значения по интервалам равного размера, что, в свою очередь, изменяет верхние и нижние границы каждого диапазона. Можно указать количество сегментов, но вы хотите избежать слишком малого числа значений в любом сегменте.
Дополнительные сведения о параметрах бинирования см. в разделе "Методы дискретизации " (интеллектуальный анализ данных)".
Кроме того, вместо использования числовых значений можно добавить отдельный производный столбец, который классифицирует оценки служб в предопределенные диапазоны целевых значений, например Best (ServiceGrade = 0,05), Acceptable (0.10 > ServiceGrade 0.05) и Poor (ServiceGrade ><> = 0.10).
Создание копии столбца и изменение метода дискретизации
Вы создадите копию столбца майнинга данных, содержащего целевой атрибут ServiceGrade, и измените способ группировки чисел. Можно создать несколько копий любого столбца в структуре данных, включая прогнозируемый атрибут.
В этом руководстве вы будете использовать метод "Равные области" дискретизации и указать четыре контейнера. Группы, полученные из этого метода, довольно близки к целевым значениям, интересующим ваших бизнес-пользователей.
Чтобы создать настраиваемую копию столбца в структуре интеллектуального анализа данных
В обозревателе решений дважды щелкните только что созданную структуру интеллектуального анализа данных.
На вкладке "Структура майнинга" нажмите "Добавить столбец структуры майнинга".
В диалоговом окне "Выбор столбца " выберите ServiceGrade из списка в исходном столбце, а затем нажмите кнопку "ОК".
Новый столбец добавляется в список столбцов структуры майнинга данных. По умолчанию новый столбец для добычи данных имеет то же имя, что и существующий столбец, с числовым постфиксом: например, ServiceGrade 1. Вы можете изменить имя этого столбца, чтобы он был более описательным.
Вы также укажете метод дискретизации.
Щелкните правой кнопкой мыши ServiceGrade 1 и выберите "Свойства".
В окне "Свойства" найдите свойство Name и измените имя на Категория обслуживания Binned.
Откроется диалоговое окно, в котором будет задан вопрос, хотите ли вы внести такое же изменение в названия всех столбцов связанных с моделью интеллектуального анализа данных. Нажмите кнопку "Нет".
В окне "Свойства" найдите раздел "Тип данных " и разверните его при необходимости.
Измените значение свойства
ContentсContinuousнаDiscretized.Теперь доступны следующие свойства. Измените значения свойств, как показано в следующей таблице:
Недвижимость Значение по умолчанию Новое значение DiscretizationMethodContinuousEqualAreasDiscretizationBucketCountНет значения 4 Замечание
Значение DiscretizationBucketCount по умолчанию равно 0, что означает, что алгоритм автоматически определяет оптимальное количество контейнеров. Поэтому, если вы хотите сбросить значение этого свойства по умолчанию, введите 0.
В конструкторе интеллектуального анализа данных перейдите на вкладку Модели интеллектуального анализа данных.
Обратите внимание, что при добавлении копии столбца структуры анализа данных флаг использования для копии автоматически устанавливается
Ignore. Как правило, при добавлении копии столбца в структуру интеллектуального анализа данных вы не будете использовать копию для анализа вместе с исходным столбцом, иначе алгоритм обнаружит сильную корреляцию между двумя столбцами, которая может скрыть другие взаимосвязи.
Добавление новой модели интеллектуального анализа данных в структуру интеллектуального анализа данных
Теперь, когда вы создали новую группировку для целевого атрибута данных, необходимо добавить новую модель анализа данных, использующую дискретизованный столбец. По завершении структура интеллектуального анализа данных CallCenter будет иметь две модели интеллектуального анализа данных:
Модель анализа данных Call Center Default NN обрабатывает значения ServiceGrade как непрерывный интервал.
Вы создадите новую модель интеллектуального анализа данных «Call Center Binned NN», которая использует в качестве целевых показателей значения столбца ServiceGrade, распределенные по четырем равным сегментам.
Добавление модели интеллектуального анализа данных на основе нового дискретизованного столбца
В обозревателе решений щелкните правой кнопкой мыши созданную структуру интеллектуального анализа данных и нажмите кнопку "Открыть".
Перейдите на вкладку "Модели интеллектуального анализа данных ".
Нажмите кнопку "Создать связанную модель интеллектуального анализа данных".
В диалоговом окне "Новая модель интеллектуального анализа данных", для имя модели, введите
Call Center Binned NN. В раскрывающемся списке "Имя алгоритма" выберите "Нейронная сеть Майкрософт".В списке столбцов, содержащихся в новой модели интеллектуального анализа данных, найдите ServiceGrade и измените использование с
PredictнаIgnore.Аналогичным образом найдите ServiceGrade Binned и измените использование с
IgnoreнаPredict.
Создание псевдонима для целевого столбца
Обычно нельзя сравнивать модели анализа данных, использующие различные прогнозируемые атрибуты. Однако можно создать псевдоним для столбца модели анализа данных. То есть можно переименовать столбец ServiceGrade Binned в модели интеллектуального анализа данных, чтобы он получил то же имя, что и исходный столбец. Затем можно напрямую сравнить эти две модели на диаграмме точности, даже если данные дискретизированы по-разному.
Добавление псевдонима для столбца структуры интеллектуального анализа данных в модели интеллектуального анализа данных
На вкладке "Модели интеллектуального анализа данных " в разделе "Структура" выберите ServiceGrade Binned.
Обратите внимание, что в окне "Свойства" отображаются свойства столбца ScalarMiningStructure.
В столбце модели интеллектуального анализа данных ServiceGrade Binned NN щелкните ячейку, соответствующую столбцу ServiceGrade Binned.
Обратите внимание, что теперь в окне свойств отображаются свойства объекта MiningModelColumn.
Найдите свойство Name и измените значение
ServiceGradeна .Найдите свойство Description и введите временный псевдоним столбца.
Окно "Свойства" должно содержать следующие сведения:
Недвижимость Ценность Описание Псевдоним временного столбца ИДЕНТИФИКАТОР ServiceGrade Binned Флаги моделирования Имя Уровень обслуживания Идентификатор исходного столбца Уровень обслуживания 1 Использование Предсказывать Щелкните в любом месте вкладки "Модель интеллектуального анализа данных".
Сетка обновляется, чтобы отобразить новый временный псевдоним столбца
ServiceGrade, рядом с использованием этого столбца. Таблица, содержащая структуру интеллектуального анализа данных и две модели интеллектуального анализа данных, должна выглядеть следующим образом:Структура Центр вызовов по умолчанию NN Центр обработки вызовов, сгруппированный NN Нейронная сеть Майкрософт Нейронная сеть Майкрософт AutomaticResponses Ввод Ввод Среднее время на задачу Предсказывать Предсказывать Вызовы Ввод Ввод ДеньНедели Ввод Ввод FactCallCenterID Ключ Ключ ВозникшиеПроблемы Ввод Ввод LevelOneOperators Ввод Ввод LevelTwoOperators Ввод Ввод Заказы Ввод Ввод ServceGrade Binned Игнорировать Прогнозирование (ServiceGrade) ServiceGrade Предсказывать Игнорировать Сдвиг Ввод Ввод Всего операторов Ввод Ввод Тип заработной платы Ввод Ввод
Обработка всех моделей
Наконец, чтобы убедиться, что созданные модели можно легко сравнить, вы задали начальный параметр как для моделей по умолчанию, так и для двоичных моделей. Задание начального значения гарантирует, что каждая модель начинает обработку данных с той же точки.
Замечание
Если числовое значение для начального параметра не указано, службы SQL Server Analysis Services создадут начальное значение на основе имени модели. Так как модели всегда имеют разные имена, необходимо задать начальное значение, чтобы обеспечить обработку данных в одном порядке.
Чтобы задать начальное значение и обработать модели
На вкладке "Модель данных" щелкните правой кнопкой мыши столбец модели с именем "Центр вызовов - LR" и выберите "Задать параметры алгоритма".
В строке параметра HOLDOUT_SEED щелкните пустую ячейку в разделе "Значение" и введите
1. Нажмите кнопку ОК. Повторите этот шаг для каждой модели, связанной со структурой.Замечание
Значение, выбранное в качестве начального значения, не имеет значения, если вы используете одно и то же начальное значение для всех связанных моделей.
В меню "Модели интеллектуального анализа данных" выберите "Структура интеллектуального анализа данных" и "Все модели". Нажмите кнопку "Да" , чтобы развернуть обновленный проект интеллектуального анализа данных на сервере.
В диалоговом окне "Модель процесс майнинга" нажмите "Выполнить".
Нажмите Закрыть, чтобы закрыть диалоговое окно Ход выполнения процесса, а затем снова нажмите Закрыть в диалоговом окне Модель интеллектуального анализа данных.
Теперь, когда вы создали две связанные модели добычи данных, вы изучите данные для обнаружения связей в данных.
Следующая задача на занятии
Изучение модели центра вызовов (учебник по интеллектуальному анализу промежуточных данных)
См. также
Структуры добычи данных (Analysis Services — интеллектуальный анализ данных)