Основные сведения о трендах в модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)
При просмотре различных моделей, созданных на основе статистических данных, можно увидеть, что линии трендов и прогнозов очень отличаются в зависимости от того, выполнялось ли суммирование количества и суммы для разных моделей и регионов или усреднение цифр.
Прежде чем решить, какую модель применять в качестве общей модели для выполнения проекций по всему миру, необходимо просмотреть базовые данные вместе с диаграммой прогнозов, чтобы лучше понять прогнозы.
На диаграмме видно, что линии трендов накладывались друг на друга до июня 2002 года, но с этого момента линии количества и суммы расходятся. Затем в июле 2004 года линии снова разошлись.
В этой задаче будет создано именованное вычисление на основе представления исходного источника данных, чтобы отслеживать связь между количеством и ценой. Затем нужно создать сводную диаграмму, содержащую данное отношение, для понимания разбиений в линиях трендов.
Просмотр базовых данных
Создание именованного вычисления
В окне Обозреватель решений разверните узел представлений источников данных и дважды щелкните файл SalesByRegion.dsv.
Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Создать именованное вычисление.
В окне Создание именованного вычисления в поле Имя введите UnitAmt.
В текстовом поле Выражение введите Amount/Quantity. Нажмите кнопку ОК.
Теперь таблица vTimeSeries содержит дополнительный вычисляемый столбец UnitAmt. Этот столбец хранится только в определении представления источника данных для проекта интеллектуального анализа данных и не влияет на базовое представление реляционной базы данных.
Создание сводной диаграммы с использованием именованного вычисления
Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Просмотр данных.
На вкладке Просмотр таблицы vTimeSeries перейдите на вкладку Сводная таблица.
Перетащите поле TimeIndex из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля столбцов.
Перетащите поле ModelRegion из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля строк.
Перетащите поле UnitAmt из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля итогов или деталей.
Просмотр статических моделей
На основании сводной таблицы можно сказать о том, что в некоторых моментах времени происходили значительные изменения в объемах продаж определенной единицы товара, которые могли быть вызваны изменениями цен на продукцию. В июле 2003 года наблюдалось еще одно значительное изменение, когда во все регионы была добавлена новая версия T1000. Все такие изменения влияют на тренды, вычисляемые в модели. Обобщенная модель полезна, поскольку она сокращает отрицательный эффект любого изменения. Тем не менее в некоторых сценариях может быть принято решение создать отдельные модели для новых хранилищ, чтобы данные из этих хранилищ не влияли на тренды.
В рамках данного учебника необходимо выбрать одну из статических моделей для применения к прогнозам продаж. Следует помнить, что были созданы четыре различные модели интеллектуального анализа данных, каждая из которых основана на особой совокупной мере. Для реализации этого решения будут использоваться средства, предоставленные в средстве просмотра временных рядов, а также ранее созданная сводная таблица. Ниже приведена схема временных рядов, созданная для статистических моделей. Две серые линии ряда отображают средние значения, а две зеленые линии ряда показывают суммы.
Прежде чем выбрать модель интеллектуального анализа данных, которая будет использоваться для прогнозов продаж, принимается решение исследовать следующие моменты.
Модели интеллектуального анализа данных, основанные на сумме, имеют тенденцию к возвышению, тогда как модели, основанные на количестве, имеют циклический спад.
Проекции, основанные на средней сумме (AvgAmt), и проекции, основанные суммарном количестве (SumQty), расположены на очень большом расстоянии друг от друга.
Несмотря на то что линии трендов в трех из моделей выравниваются после 5 прогнозов, линия тренда в модели, основанной на суммарном количестве, уходит резко вверх.
Существует три вещи, которые можно проверить для получения дополнительных сведений. Во-первых, установите флажок Отображать отклонения, чтобы видеть стандартные отклонения для каждого прогноза. Чем длиннее планка погрешностей, тем выше дисперсия в прогнозируемом значении.
Во-вторых, обратите внимание, что единицей измерения оси y являются проценты. Кроме того, заметьте, что масштаб изменяется в зависимости от данных, содержащихся в диаграмме. По умолчанию средство просмотра временных рядов (Майкрософт) автоматически настраивает единицы оси процентов, чтобы сделать диаграмму более удобной для просмотра. Следовательно, чтобы использовать конкретный или фиксированный масштаб, необходимо с помощью прогнозирующего запроса создать и экспортировать значения, а также создать граф в другом приложении, например в Microsoft Excel.
В третьих, можно использовать представление дерева принятия решений модели временных рядов для понимания разбиений в определенной модели. В модели временных рядов разбиение, или ветвь дерева принятия решений, может указывать на значительное изменение угла наклона линии тренда в какой-то точке или на ветвление дерева на основании каких-то других условий. Представление, в котором эти разбиения отображаются в виде узлов дерева, позволяет выполнять детализацию углублением до сведений о причинах, вызвавших определенное разбиение.
Просмотр дерева принятия решений для каждого ряда
В окне Обозреватель решений разверните узел представлений источников данных и щелкните правой кнопкой мыши файл AllRegions.dsv.
Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Просмотр данных.
На вкладке Просмотр таблицы vTimeSeries перейдите на вкладку Сводная таблица.
Перетащите поле ReportingDate из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля столбцов.
Перетащите поле Region из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля строк.
Перетащите поле UnitAmt из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля итогов или деталей.
Также важно понимать, что, поскольку модель временных рядов вычисляется с помощью скользящих средних, значения данных в конце ряда данных могут оказывать более сильное влияние на прогноз, чем значения, находящиеся в начале ряда. Кроме того, подсказка периодичности, предоставленная во время построения модели, также влияет на то, как средние значения используются с течением времени.
Заключение
В ходе данного анализа было изучено несколько моментов.
Количество по своей природе изменчиво, поскольку абсолютные значения для некоторых хранилищ могут быть очень низкими. Кроме того, в представлении диаграммы наблюдается тенденция к преувеличению различий в связи с представлением цифр в процентах.
Сумма является еще более изменчивой, поскольку напрямую зависит от количества, в дополнение к воздействию, оказываемому на нее изменениями цен.
Причиной устойчивого возрастающего тренда в прогнозах для ряда M200 North America послужил тот факт, что объем продаж по данному сочетанию продукта и региона был особенно высок ближе к концу исторических данных.
В результате глубокого изучения данных и различных моделей была найдена надежная модель. Если бизнес-пользователям требуется обоснование для определенного анализа, формулы и поддерживающие данные можно получить при помощи статистики во всплывающих подсказках либо путем поиска по содержимому модели или запросов содержимого.
В следующем занятии для создания прогнозов относительно количества во всех регионах будет использоваться модель, основанная на средней величине.
Следующая задача занятия