Поделиться через


Основные сведения о трендах в модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)

При просмотре различных моделей, созданных на основе статистических данных, можно увидеть, что линии трендов и прогнозов очень отличаются в зависимости от того, выполнялось ли суммирование количества и суммы для разных моделей и регионов или усреднение цифр.

Прежде чем решить, какую модель применять в качестве общей модели для выполнения проекций по всему миру, необходимо просмотреть базовые данные вместе с диаграммой прогнозов, чтобы лучше понять прогнозы.

На диаграмме видно, что линии трендов накладывались друг на друга до июня 2002 года, но с этого момента линии количества и суммы расходятся. Затем в июле 2004 года линии снова разошлись.

В этой задаче будет создано именованное вычисление на основе представления исходного источника данных, чтобы отслеживать связь между количеством и ценой. Затем нужно создать сводную диаграмму, содержащую данное отношение, для понимания разбиений в линиях трендов.

Просмотр базовых данных

Создание именованного вычисления

  1. В окне Обозреватель решений разверните узел представлений источников данных и дважды щелкните файл SalesByRegion.dsv.

  2. Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Создать именованное вычисление.

  3. В окне Создание именованного вычисления в поле Имя введите UnitAmt.

  4. В текстовом поле Выражение введите Amount/Quantity. Нажмите кнопку ОК.

    Теперь таблица vTimeSeries содержит дополнительный вычисляемый столбец UnitAmt. Этот столбец хранится только в определении представления источника данных для проекта интеллектуального анализа данных и не влияет на базовое представление реляционной базы данных.

Создание сводной диаграммы с использованием именованного вычисления

  1. Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Просмотр данных.

  2. На вкладке Просмотр таблицы vTimeSeries перейдите на вкладку Сводная таблица.

  3. Перетащите поле TimeIndex из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля столбцов.

  4. Перетащите поле ModelRegion из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля строк.

  5. Перетащите поле UnitAmt из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля итогов или деталей.

Просмотр статических моделей

На основании сводной таблицы можно сказать о том, что в некоторых моментах времени происходили значительные изменения в объемах продаж определенной единицы товара, которые могли быть вызваны изменениями цен на продукцию. В июле 2003 года наблюдалось еще одно значительное изменение, когда во все регионы была добавлена новая версия T1000. Все такие изменения влияют на тренды, вычисляемые в модели. Обобщенная модель полезна, поскольку она сокращает отрицательный эффект любого изменения. Тем не менее в некоторых сценариях может быть принято решение создать отдельные модели для новых хранилищ, чтобы данные из этих хранилищ не влияли на тренды.

В рамках данного учебника необходимо выбрать одну из статических моделей для применения к прогнозам продаж. Следует помнить, что были созданы четыре различные модели интеллектуального анализа данных, каждая из которых основана на особой совокупной мере. Для реализации этого решения будут использоваться средства, предоставленные в средстве просмотра временных рядов, а также ранее созданная сводная таблица. Ниже приведена схема временных рядов, созданная для статистических моделей. Две серые линии ряда отображают средние значения, а две зеленые линии ряда показывают суммы.

Четыре модели для статистических мер

Прежде чем выбрать модель интеллектуального анализа данных, которая будет использоваться для прогнозов продаж, принимается решение исследовать следующие моменты.

  • Модели интеллектуального анализа данных, основанные на сумме, имеют тенденцию к возвышению, тогда как модели, основанные на количестве, имеют циклический спад.

  • Проекции, основанные на средней сумме (AvgAmt), и проекции, основанные суммарном количестве (SumQty), расположены на очень большом расстоянии друг от друга.

  • Несмотря на то что линии трендов в трех из моделей выравниваются после 5 прогнозов, линия тренда в модели, основанной на суммарном количестве, уходит резко вверх.

Существует три вещи, которые можно проверить для получения дополнительных сведений. Во-первых, установите флажок Отображать отклонения, чтобы видеть стандартные отклонения для каждого прогноза. Чем длиннее планка погрешностей, тем выше дисперсия в прогнозируемом значении.

Во-вторых, обратите внимание, что единицей измерения оси y являются проценты. Кроме того, заметьте, что масштаб изменяется в зависимости от данных, содержащихся в диаграмме. По умолчанию средство просмотра временных рядов (Майкрософт) автоматически настраивает единицы оси процентов, чтобы сделать диаграмму более удобной для просмотра. Следовательно, чтобы использовать конкретный или фиксированный масштаб, необходимо с помощью прогнозирующего запроса создать и экспортировать значения, а также создать граф в другом приложении, например в Microsoft Excel.

В третьих, можно использовать представление дерева принятия решений модели временных рядов для понимания разбиений в определенной модели. В модели временных рядов разбиение, или ветвь дерева принятия решений, может указывать на значительное изменение угла наклона линии тренда в какой-то точке или на ветвление дерева на основании каких-то других условий. Представление, в котором эти разбиения отображаются в виде узлов дерева, позволяет выполнять детализацию углублением до сведений о причинах, вызвавших определенное разбиение.

Просмотр дерева принятия решений для каждого ряда

  1. В окне Обозреватель решений разверните узел представлений источников данных и щелкните правой кнопкой мыши файл AllRegions.dsv.

  2. Щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Просмотр данных.

  3. На вкладке Просмотр таблицы vTimeSeries перейдите на вкладку Сводная таблица.

  4. Перетащите поле ReportingDate из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля столбцов.

  5. Перетащите поле Region из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля строк.

  6. Перетащите поле UnitAmt из окна Список полей сводной таблицы в область конструктора сводной таблицы, где отображается надпись Перетащите сюда поля итогов или деталей.

Также важно понимать, что, поскольку модель временных рядов вычисляется с помощью скользящих средних, значения данных в конце ряда данных могут оказывать более сильное влияние на прогноз, чем значения, находящиеся в начале ряда. Кроме того, подсказка периодичности, предоставленная во время построения модели, также влияет на то, как средние значения используются с течением времени.

Заключение

В ходе данного анализа было изучено несколько моментов.

  • Количество по своей природе изменчиво, поскольку абсолютные значения для некоторых хранилищ могут быть очень низкими. Кроме того, в представлении диаграммы наблюдается тенденция к преувеличению различий в связи с представлением цифр в процентах.

  • Сумма является еще более изменчивой, поскольку напрямую зависит от количества, в дополнение к воздействию, оказываемому на нее изменениями цен.

  • Причиной устойчивого возрастающего тренда в прогнозах для ряда M200 North America послужил тот факт, что объем продаж по данному сочетанию продукта и региона был особенно высок ближе к концу исторических данных.

В результате глубокого изучения данных и различных моделей была найдена надежная модель. Если бизнес-пользователям требуется обоснование для определенного анализа, формулы и поддерживающие данные можно получить при помощи статистики во всплывающих подсказках либо путем поиска по содержимому модели или запросов содержимого.

В следующем занятии для создания прогнозов относительно количества во всех регионах будет использоваться модель, основанная на средней величине.