Изучение модели Call Center (учебник по интеллектуальному анализу данных — средний уровень)
После того как построена исследовательская модель, из нее с помощью следующих средств, входящих в среду Business Intelligence Development Studio, можно получить дополнительные сведения о данных.
Средство просмотра нейронных сетей (Майкрософт): Это средство доступно на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных и предназначено для упрощения работы со взаимосвязями в данных.
Средство просмотра деревьев содержимого общего вида (Майкрософт): Это стандартное средство просмотра представляет подробные данные о закономерностях и статистические данные, обнаруженные алгоритмом во время создания модели.
Конструктор представлений источников данных**:** Это средство отображает простые и сводные таблицы, диаграммы, упрощающие изучение исходных данных. Возврат к исходным данным может быть весьма полезен для понимания трендов, которые выделены моделью.
Средство просмотра нейронных сетей (Microsoft)
Это средство просмотра содержит три области: Входные данные, Выходные данные и Переменные.
В области Выходные данные можно выбрать различные значения для прогнозируемого атрибута (или зависимой переменной). Если модель содержит несколько прогнозируемых атрибутов, атрибут можно выбрать из списка Выходной атрибут.
В области Переменные два выбранных результата сравниваются относительно составляющих их атрибутов или переменных. Цветные линии визуально представляют степень влияния переменной на конечные результаты. Также можно просмотреть оценку точности прогноза для переменных. Оценка точности вычисляется различным образом в зависимости от типа используемой модели интеллектуального анализа данных, но обычно сообщает, как улучшается работа модели в случае использования данного атрибута для прогнозирования.
Область Входные данные позволяет добавлять в модель факторы влияния, чтобы проверить работу в различных гипотетических вариантах сценариев.
Использование области «Выходные данные»
В этой первоначальной модели задачей является изучение влияния различных факторов на уровень обслуживания. Для этого из списка выходных атрибутов можно выбрать атрибут Service Grade, а затем сравнивать различные уровни обслуживания, выбирая диапазоны из раскрывающихся списков для Значение 1 и Значение 2.
Сравнение самого низкого и самого высокого уровней обслуживания
В поле Значение 1 выберите диапазон с самыми низкими значениями. Например, диапазон 0,0-0,7 представляет самые низкие показатели вызовов, прекращенных абонентом, что соответствует самому высокому уровню обслуживания.
Примечание Значения, фактически присутствующие в этом диапазоне, могут различаться в зависимости от конфигурации модели.
В поле Значение 2 выберите диапазон с самыми высокими значениями. Например, диапазон со значениями >=0,12 представляет самый высокий показатель вызовов, прекращенных абонентом, что соответствует самому низкому уровню обслуживания.
Содержимое области Переменные обновляется, чтобы сравнивать атрибуты, составляющие результирующие значения. Поэтому в левом столбце показаны атрибуты, связанные с самым высоким уровнем обслуживания, а в правом столбце — атрибуты, связанные с самым низким уровнем обслуживания.
Использование области «Переменные»
После настройки результатов для сравнения с помощью области Выходные данные можно использовать список Переменные, чтобы просмотреть вклад каждой переменной в результат. В этой модели главными тремя факторами, определяющими различие между самым высоким и самым низким уровнем обслуживания, являются Average Time Per Issue, Orders и Day Of Week. В области Переменные также приводится подробная статистика о важности каждого значения, влияющего на результат.
Просмотр и копирование вероятности и оценки точности прогноза для атрибута
Наведите указатель мыши на цветную полосу в первой строке области Переменные.
Эта цветная полоса показывает, как сильно переменная Average Time Per Issue влияет на уровень обслуживания. В подсказке выводится общая оценка, значения вероятности и оценка точности прогноза для каждого сочетания переменной и конечного результата.
Щелкните правой кнопкой мыши любую цветную полосу в области Переменные и выберите команду Копировать.
Щелкните правой кнопкой мыши любую ячейку на листе Excel и выберите команду Вставить.
Отчет будет вставлен в виде HTML-таблицы, где показаны только оценки для каждой полосы.
Щелкните правой кнопкой мыши любую ячейку на другом листе Excel и выберите команду Специальная вставка.
Отчет будет вставлен в текстовом формате, и будут показаны связанные статистические данные, описанные в следующем разделе.
Использование области «Входные данные»
Предположим, что нужно изучить влияние отдельного фактора, например дня недели, смены или количества заказов. Можно выбрать отдельную переменную в области Входные данные, и область Переменные автоматически обновится, чтобы сравнить две ранее выбранные группы по заданной переменной. Эти данные можно использовать для изучения факторов, которые могут влиять на целевой результат. Например, в ходе начального просмотра модели обнаружено, что уровень обслуживания по понедельникам и вторникам был выше, а по четвергам — ниже, и следует обратить внимание на факторы, влияющие на результат.
Просмотр влияния входных атрибутов на уровень обслуживания
На панели Входные данные выберите в поле атрибут значение Day Of Week.
В поле Значение выберите Thursday.
Область Переменные обновится, отразив эффект всех остальных переменных для фиксированного дня недели Thursday. При этом сохраняются все остальные выбранные значения и продолжается сравнение самого низкого и самого высокого уровней обслуживания.
В поле Значение измените день недели на Saturday.
Область Переменные обновится, чтобы показать переменные, которые сильнее всего влияют на уровень обслуживания по субботам.
В области Входные данные щелкните следующую пустую строку под строкой Атрибут и выберите значение Shift. В поле Значение выберите AM.
В список будет добавлено новое входное условие. Область Переменные обновится, чтобы показать, как изменится модель для заданной смены при выбранном дне недели.
Продолжайте изменять значения атрибутов Shift и Day Of Week, чтобы найти интересные взаимосвязи между этими переменными и уровнем обслуживания.
Примечание |
---|
Чтобы очистить область Входные данные и использовать другие атрибуты, щелкните ссылку Обновить содержимое средства просмотра. |
Интерпретация статистических данных, представленных в средстве просмотра
При увеличенном времени ожидания можно уверенно прогнозировать высокий показатель вызовов, прекращенных абонентом во время ожидания, что свидетельствует о низком уровне обслуживания. Такое заключение может показаться самоочевидным, однако модель интеллектуального анализа данных предоставляет также дополнительные статистические данные, позволяющие интерпретировать подобные тренды.
Оценка: значение, которое указывает общую важность данной переменной для определения различий между результатами. Чем выше оценка, тем сильнее влияние переменной на результат.
Вероятность значения 1: процентное отношение, представляющие вероятность данного значения в этом результате.
Вероятность значения 2: процентное отношение, представляющие вероятность данного значения в этом результате.
Точность прогноза для Value 1 и Точность прогноза для Value 2: оценки, которые представляют влияние заданной переменной на прогноз результатов Value 1 и Value 2. Чем выше оценка, тем лучше данная переменная подходит для прогнозирования результатов.
Как следует трактовать эти данные? Можно, например, сравнить самый высокий и самый низкий уровни обслуживания и посмотреть, как повлияет на них атрибут Average Time Per Issue. Модель содержит несколько диапазонов значений Average Time Per Issue, and provides these statistics: Вероятность значения 1 составляет 60,6 %, а Вероятность значения 2 составляет 8,30 %. Это означает, что, когда значение атрибута Average Time Per Issue находилось в диапазоне 44–70 минут, то 60,6 % вариантов приходились на смену с самым высоким уровнем обслуживания (значение 1), а 8,30 % вариантов приходилось на смену с самым низким уровнем обслуживания (значение 2).
По этим данным можно сделать ряд заключений. Меньшее время ответа на звонок (в диапазоне 44–70) сильно влияет на повышение уровня обслуживания (диапазон 0,00–0,07). Оценка (92.35) сообщает, что данная переменная является очень важной.
Однако воздействие других факторов менее заметно и более сложно для интерпретации. Например, смена влияет на качество обслуживания, однако она меняется в зависимости от дня недели, а оценка точности прогноза и относительные значения вероятности показывают, что смена не является важным фактором.
Ценность модели нейронной сети заключается в том, что она демонстрирует очень слабо выраженные связи, которые сложно обнаружить стандартными средствами анализа. Необходимо потратить некоторое время на изучение модели и интерпретацию связей с учетом собственного представления бизнес-задачи.
В начало
Средство просмотра деревьев содержимого общего вида (Майкрософт)
Это средство просмотра предназначено для вывода еще более подробных сведений, полученных алгоритмом во время обработки модели. Средство просмотра деревьев содержимого общего вида (Майкрософт) представляет модель интеллектуального анализа данных в виде последовательности узлов, где каждый узел представляет набор известных знаний об обучающих данных. Это средство просмотра может использоваться с любыми моделями, однако содержимое узлов различается в зависимости от типа модели.
Для моделей нейронной сети или логистической регрессии может оказаться особенно полезным marginal statistics node. Этот узел содержит выведенные статистические сведения о распределении значений в данных. Эти сведения могут быть полезны, если нужно получить сводное представление о данных, не создавая большое количество запросов T-SQL. Диаграмма распределения значений в предыдущем разделе была получена из граничного узла статистики.
Получение сводки по значениям данных из модели интеллектуального анализа данных
В конструкторе интеллектуального анализа данных на вкладке Средство просмотра моделей интеллектуального анализа данных выберите <имя модели интеллектуального анализа данных>.
Из списка Средство просмотра выберите Средство просмотра деревьев содержимого общего вида (Майкрософт).
Представление модели интеллектуального анализа данных обновится и будет отображать иерархию узлов в левой области и HTML-таблицу в правой области.
В области Заголовок узла щелкните узел с именем 10000000000000000.
Самый верхний узел в любой модели всегда является ее корневым узлом. В модели нейронной сети или логистической регрессии граничный узел статистики расположен непосредственно под корневым узлом.
Прокрутите область Сведения об узле вниз, пока не появится строка NODE_DISTRIBUTION.
Прокрутите таблицу NODE_DISTRIBUTION, чтобы просмотреть распределение значений, вычисленное алгоритмом нейронной сети.
Чтобы использовать эти данные в отчете, можно выделить и скопировать сведения из отдельных строк или использовать следующий запрос расширений интеллектуального анализа данных для извлечения полного содержимого узла.
SELECT * FROM [Call Center Binned NN].CONTENT WHERE NODE_NAME = '10000000000000000'
Также можно использовать иерархию узлов и данные из таблицы NODE_DISTRIBUTION, чтобы пройти по определенным путям в нейронной сети и просмотреть статистику скрытого слоя. Дополнительные сведения см. в разделе Запросы к модели нейронной сети (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).
В начало
Конструктор представления источника данных
Это средство просмотра используется при построении структуры интеллектуального анализа данных или куба, но также предоставляет набор средств, упрощающих интерпретацию исходных данных. Например, если модель обнаружила тренд, который не совсем понятен, можно просмотреть отдельные строки базовых данных, либо создать сводные представления или диаграммы, которые помогут понять взаимосвязи.
В этом разделе приводится пример использования конструктора представлений источников данных для изучения трендов, обнаруженных моделью, без необходимости копировать данные в Excel или выполнять несколько запросов T-SQL к источнику данных.
В этом сценарии создается несколько диаграмм, которые графически демонстрируют обнаруженную моделью взаимосвязь между временем ответа и качеством обслуживания.
Создание сводной диаграммы, которая иллюстрирует тренд, обнаруженный моделью интеллектуального анализа данных
В обозревателе решений в разделе Представления источника данных дважды щелкните файл Call Center.dsv.
На вкладке Call Center.dsv щелкните правой кнопкой мыши таблицу FactCallCenter и выберите пункт Просмотр данных.
Откроется новая вкладка Просмотр таблицы FactCallCenter. Эта вкладка содержит четыре раздела на различных вкладках: Таблица, Сводная таблица, Диаграмма и Сводная диаграмма.
Перейдите на вкладку Сводная диаграмма.
Перейдя в Список полей диаграммы, выберите элемент AverageTimePerIssue и перетащите его в область диаграммы, на поле с заголовком Перетащите сюда поля категорий.
Поскольку исходные данные берутся из плоской таблицы, иерархия в разделе Список полей диаграммы содержит одинаковые данные на уровне иерархии и на уровне полей. Однако во время работы с кубом или с измерением иерархия может содержать несколько элементов. Например, иерархия Date может содержать такие поля, как Quarter, Month и Day. Можно перетащить как иерархию целиком, так и отдельный ее элемент.
Перейдя в Список полей диаграммы, найдите элемент ServiceGrade и перетащите его в центр области диаграммы.
Диаграмма обновится, и в верхней ее части появится поле с заголовком Сумма ServiceGrade.
Щелкните значок суммы на панели инструментов и выберите функцию Среднее.
Заголовок изменится на Среднее ServiceGrade.
Перейдя в Список полей диаграммы, выберите элемент Shift и перетащите его в область диаграммы, на поле с заголовком Перетащите сюда поля фильтра. Перетащите элемент WageType из Списка полей диаграммы в позицию рядом с элементом Shift.
Теперь можно отфильтровать данные по смене и увидеть, меняется ли тренд в зависимости от смены или от дня недели (рабочий или выходной).
Выберите элемент AverageTimePerIssue в нижней части диаграммы и перетащите его обратно в Список полей диаграммы.
Выберите в Списке полей диаграммы элемент AverageTimePerLevelTwoOperators и перетащите его в область диаграммы, на поле с заголовком Перетащите сюда поля категорий.
Диаграмма обновится и отразит взаимосвязь между увеличением числа операторов и средним уровнем обслуживания. Эта связь представляется нелинейной. Можно продолжить эксперименты, перетаскивая новые поля на диаграмму или изменяя ее тип.
Однако обратите внимание, что обычно такие диаграммы могут одновременно отображать лишь несколько атрибутов одновременно, а алгоритм нейронной сети анализирует множество сложных взаимосвязей между несколькими входными значениями. Кроме того, модель нейронной сети обнаруживает много взаимосвязей, которые слишком слабы для представления на диаграмме.
Если нужно экспортировать схему сети зависимостей для модели нейронной сети, также можно использовать шаблоны интеллектуального анализа данных для Visio. Эта бесплатная надстройка для Visio 2007 предоставляет сложные настраиваемые схемы для моделей интеллектуального анализа данных, которые можно использовать для презентаций и отчетов. Дополнительные сведения см. в разделе Надстройки интеллектуального анализа данных для Office 2007.
В начало
Следующая задача занятия
См. также
Задания
Справочник
Основные понятия
Журнал изменений
Обновленное содержимое |
---|
Имена моделей интеллектуального анализа данных в прогнозах и инструкциях DDL исправлены в соответствии с обновленным сценарием. |
Модель обновлена и включает день недели. Удалена таблица статистика, относящаяся к предыдущей модели. Описано влияние дня недели. |