Прогнозы временных рядов с заменой данных (учебник по интеллектуальному анализу данных — средний уровень)
Применимо к: SQL Server 2016 Preview
В этой задаче вы создадите новую модель на основе данных о продажах во всем мире. Затем вы создадите прогнозирующий запрос, в котором модель мировых продаж будет применена к одному из регионов
Создание общей модели
Помните, что анализ результатов начальной модели интеллектуального анализа данных показал большие различия между регионами и линейками продуктов. Например, продажи модели M200 в Северной Америке были высоки, а продажи модели T1000 были не так успешны. Тем не менее анализ осложняется тем, что по некоторым рядам имелось мало данных либо сбор данных начался в другой момент времени. Кроме того, некоторые данные отсутствовали.
Для устранения некоторых проблем с качеством данных принимается решение слить воедино данные о продажах по всему миру и использовать этот набор общих трендов продаж для создания общей модели, которая позволит прогнозировать продажи в любом регионе.
Для прогнозирования вы будете использовать закономерность, полученную во время обучения модели с данными мировых продаж, но заменять исторические точки данных данными о продажах для каждого отдельного региона. Таким образом, форма тренда сохраняется, но спрогнозированные значения будут соответствовать историческим показателям продаж для каждого региона и модели.
Перекрестное прогнозирование с помощью модели временных рядов
Процесс использования данных одного ряда для прогнозирования трендов в другом ряду называется перекрестным прогнозированием. Перекрестное прогнозирование можно использовать во многих сценариях: например, может решить, что продажи телевизоров являются хорошим прогнозом общей экономической деятельности и применить модель обучения на продажах телевизоров, к общим экономическим данным.
В SQL Server интеллектуального анализа данных, выполнять перекрестные прогнозы с помощью параметра REPLACE_MODEL_CASES в аргументах функции, PredictTimeSeries ( расширений интеллектуального анализа данных ).
В следующей задаче вы узнаете, как использовать параметр REPLACE_MODEL_CASES. Вы используете объединенные данные о мировых продажах для создания модели, а затем создадите прогнозирующий запрос, сопоставляющий общую модель с данными для замены.
Предполагается, что вы уже знаете, как создавать модели интеллектуального анализа данных, поэтому инструкции по созданию модели упрощены.
Построение структуры и модели интеллектуального анализа данных с использованием агрегатных данных
В обозревателе, щелкните правой кнопкой мыши структуры интеллектуального анализа данных, и выберите новую структуру интеллектуального анализа данных для запуска мастера интеллектуального анализа данных.
В окне мастера интеллектуального анализа данных выберите указанные ниже элементы.
Алгоритм: Microsoft временных рядов
В качестве источника данных для модели используйте источник данных, который уже создали ранее на этом уроке. В разделе Дополнительные прогнозы временных рядов ( учебник по интеллектуальному анализу данных — средний ).
Представление источника данных: AllRegions
Выберите следующие столбцы для ключа ряда и временного ключа:
Временной ключ: ReportingDate
Ключ: область
Выберите следующие столбцы для ввода и Predict:
SumQty
SumAmt
AvgAmt
AvgQty
Для имя структуры интеллектуального анализа данных, тип: все области
Для имя модели интеллектуального анализа данных, тип: все области
Обработайте новую структуру и новую модель.
Создание прогнозирующего запроса и сопоставление данных для замены с моделью
Если модель не открыт, дважды щелкните структуру AllRegions и в конструкторе интеллектуального анализа данных щелкните Прогнозирование моделей интеллектуального анализа вкладки.
В модель интеллектуального анализа данных области, модель AllRegions уже должен быть установлен. Если он не установлен, нажмите кнопку Выбор модели, а затем выберите эту модель.
В Выбор входных таблиц панели, щелкните выбрать таблицу вариантов.
В выберите таблицу диалоговое окно, измените источник данных на T1000 Pacific Region и нажмите кнопку ОК.
Щелкните правой кнопкой мыши соединительную линию между моделью интеллектуального анализа данных и входных данных и выберите Изменить соединения. Сопоставьте данные в представлении источника данных с моделью следующим образом.
Убедитесь, что столбец ReportingDate в модели интеллектуального анализа данных сопоставляется со столбцом ReportingDate во входных данных.
В Изменение сопоставления пункт в строке AvgQty столбца модели диалогового столбец таблицы и выберите пункт T1000 Pacific.Quantity. Нажмите кнопку ОК.
На этом шаге сопоставляется столбец, созданный в модели для прогнозирования среднего количества, с фактическими данными о количестве продаж продукта T1000.
Не сопоставляйте столбец региона в модели для входного столбца.
Поскольку в модели объединены данные по всем рядам, для значений рядов, таких как T1000 Pacific, совпадений нет и при выполнении прогнозирующего запроса возникает ошибка.
Теперь вы создадите прогнозирующий запрос.
Сначала добавьте к результатам столбец, который выдает с прогнозами метку AllRegions из модели. Таким образом, вы знаете, что результаты были основаны на общей модели.
В сетке щелкните первую пустую строку в столбце источника, а затем выберите модель интеллектуального анализа данных AllRegions.
Для поля, выберите регион.
Для псевдоним, тип модель используется.
Теперь добавьте к результатам другую метку, чтобы видеть, к какому ряду относится прогноз.
Щелкните пустую строку, а затем в разделе источника, выберите пользовательское выражение.
В псевдоним введите ModelRegion.
В Критерий или аргумент введите 'T1000 Pacific'.
Теперь вы создадите функцию перекрестного прогнозирования.
Щелкните пустую строку, а затем в разделе источника, выберите Прогнозирующая функция.
В поле выберите PredictTimeSeries.
Для псевдоним, тип прогнозируемые значения.
Перетащите поле AvgQty из модель интеллектуального анализа данных на панель Критерий или аргумент столбца с помощью операции перетаскивания.
В Критерий или аргумент столбец, после имени поля введите следующий текст: ,5, REPLACE_MODEL_CASES
Полный текст Критерий или аргумент текстовое поле должно быть следующим:
[AllRegions].[AvgQty],5,REPLACE_MODEL_CASES
Щелкните результатов.
Создание запроса перекрестного прогнозирования в DMX
Вы заметили проблему с перекрестным прогнозированием: дело в том, что чтобы применить общую модель к другому ряду данных, такие как модель продукта T1000 в Северной Америке, необходимо создать другой запрос для каждого ряда, чтобы можно было сопоставить каждый набор входных данных в модель.
Но можно не создавать запрос в конструкторе, а перейти в представление DMX и отредактировать созданную инструкцию DMX. Например, следующая инструкция DMX представляет только что созданный запрос:
SELECT
([All Regions].[Region]) as [Model Used],
('T-1000 Pacific') as [ModelRegion],
(PredictTimeSeries([All Regions].[Avg Qty],5, REPLACE_MODEL_CASES)) as [Predicted Quantity]
FROM [All Regions]
PREDICTION JOIN
OPENQUERY([Adventure Works DW2003R2], 'SELECT [ReportingDate] FROM
(
SELECT ReportingDate, ModelRegion, Quantity, Amount
FROM dbo.vTimeSeries
WHERE (ModelRegion = N''T1000 Pacific'')
) as [T1000 Pacific] ')
AS t
ON
[All Regions].[Reporting Date] = t.[ReportingDate]
AND
[All Regions].[Avg Qty] = t.[Quantity]
Чтобы применить ее к другой модели, достаточно изменить инструкцию запроса, заменив условие фильтра, и обновить метки для каждого результата.
Например, в случае изменения условий фильтра и меток столбцов путем замены «Pacific» на «North America» будут получены прогнозы для продукта T1000 в Северной Америке на основании шаблонов в общей модели.
Следующая задача занятия
См. также:
Примеры запросов моделей временных рядов
PredictTimeSeries (расширения интеллектуального анализа данных)