Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
При подготовке данных для использования в модели прогнозирования необходимо убедиться, что данные содержат столбец, который можно использовать для определения шагов в временных рядах. Этот столбец будет назначен в качестве столбца Key Time . Так как это ключ, столбец должен содержать уникальные числовые значения.
Выбор правильной единицы для столбца Key Time является важной частью анализа. Например, предположим, что данные о продажах обновляются за минуту на минуту. Не обязательно использовать минуты в качестве единицы измерения временных рядов; возможно, будет более значимое свернуть данные о продажах по дням, неделям или даже месяцам. Если вы не уверены, какая единица времени используется, можно создать новое представление источника данных для каждой агрегирования и создать связанные модели, чтобы узнать, появляются ли различные тенденции на каждом уровне агрегирования.
В этом руководстве данные о продажах собираются ежедневно в базе данных транзакций продаж, но для дата-майнинга данные предварительно агрегируются по месяцам с помощью представления.
Кроме того, для анализа желательно, чтобы данные содержали как можно меньше пробелов. Если вы планируете проанализировать несколько рядов данных, все ряды должны предпочтительно начинаться и заканчиваться на одну и ту же дату. Если данные имеют пробелы, но пробелы не находятся в начале или конце ряда, можно использовать параметр MISSING_VALUE_SUBSTITUTION для заполнения ряда. Службы Analysis Services также предоставляют несколько вариантов замены отсутствующих данных значениями, такими как использование средств или констант.
Предупреждение
Средства сводной диаграммы и сводной таблицы, включенные в более ранние версии конструктора представлений источников данных, больше не предоставляются. Рекомендуется заранее определить пробелы в данных временных рядов, используя такие средства, как профилировщик данных, включенный в службы Integration Services.
Определение ключа времени для модели прогнозирования
В области SalesByRegion.dsv [Конструктор], щелкните правой кнопкой мыши таблицу vTimeSeries и выберите "Просмотреть данные".
Откроется новая вкладка с заголовком "Обзор таблицы vTimeSeries".
На вкладке "Таблица" просмотрите данные, используемые в столбцах TimeIndex и Reporting Date.
Оба являются последовательности с уникальными значениями и могут использоваться как ключ временных рядов; Однако типы данных столбцов отличаются. Алгоритм временных рядов Майкрософт не требует
datetimeтипа данных, только то, что значения будут отличаться и упорядочены. Поэтому любой столбец можно использовать в качестве ключа времени для модели прогнозирования.В области конструктора представления источника данных выберите столбец Дата отчета и выберите Свойства. Затем щелкните столбец TimeIndex и выберите "Свойства".
Поле TimeIndex имеет тип данных System.Int32, в то время как поле Reporting Date имеет тип данных System.DateTime. Многие хранилища данных преобразуют значения даты и времени в целые числа и используют целый столбец в качестве ключа для повышения производительности индексирования. Однако если вы используете этот столбец, алгоритм временных рядов Майкрософт сделает прогнозы с помощью будущих значений, таких как 201014, 201014 и т. д. Так как вы хотите представить прогноз данных о продажах с помощью дат календаря, столбец "Дата отчетов" будет использоваться в качестве уникального идентификатора ряда.
Установка ключа в представлении источника данных
В области SalesByRegion.dsv выберите таблицу vTimeSeries.
Щелкните правой кнопкой мыши столбец «Дата отчета» и выберите Установить логический первичный ключ.
Обработка отсутствующих данных (необязательно)
Если в какой-либо серии отсутствуют данные, при попытке обработать модель может возникнуть ошибка. Существует несколько способов обойти отсутствующие данные:
Службы Analysis Services могут заполнять отсутствующие значения, вычисляя среднее или используя предыдущее значение. Для этого необходимо задать параметр MISSING_VALUE_SUBSTITUTION модели анализа данных. Дополнительные сведения об этом параметре см. в техническом справочнике по алгоритму временных рядов Майкрософт. Сведения об изменении параметров существующей модели интеллектуального анализа данных см. в разделе "Просмотр или изменение параметров алгоритма".
Вы можете изменить источник данных или отфильтровать базовое представление, чтобы исключить неровную серию или заменить значения. Это можно сделать в реляционном источнике данных или изменить представление источника данных, создав настраиваемые именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе "Представления источников данных" в многомерных моделях. Более поздняя задача в этом занятии содержит пример создания именованного запроса и пользовательского вычисления.
В этом сценарии некоторые данные отсутствуют в начале одной серии: то есть нет данных для линии продуктов T1000 до июля 2007 года. В противном случае все ряды заканчиваются на одну и ту же дату, и отсутствуют пропущенные значения.
Требование алгоритма временных рядов Майкрософт заключается в том, что любая серия, включенная в одну модель, должна иметь ту же конечную точку. Поскольку модель велосипедов T1000 была введена в 2007 году, данные для этой серии начинаются позже, чем для других велосипедных моделей, но серия заканчивается на ту же дату; поэтому данные доступны для использования.
Чтобы закрыть конструктор представлений источника данных
- Щелкните правой кнопкой мыши вкладку, изучите таблицу vTimeSeries и нажмите кнопку "Закрыть".