Compartir a través de


Descripción de los requisitos de un modelo de serie temporal (tutorial intermedio de minería de datos)

Cuando vaya a preparar datos para un modelo de pronóstico, debe asegurarse de que los datos contengan una columna que se pueda usar para identificar los pasos en la serie temporal. Esa columna se definirá como columna Key Time. Dado que es una clave, la columna debe contener valores numéricos únicos.

La elección de la unidad correcta para la columna Key Time es una parte importante del análisis. Por ejemplo, suponga que los datos de ventas se actualizarán a cada minuto. No sería necesario usar minutos como unidad de la serie temporal; podría ser más relevante acumular los datos de ventas por día, semana o incluso mes. Si no está seguro de qué unidad de tiempo debe usar, puede crear una nueva vista del origen de datos para cada agregación y compilar modelos relacionados para ver si surgen distintas tendencias en cada nivel de agregación.

Para este tutorial, los datos de ventas se recopilan diariamente en la base de datos transaccional de ventas, pero para la minería de datos, los datos se han agregado previamente por mes mediante una vista.

Además, es conveniente para el análisis que los datos tengan tan pocos huecos como sea posible. Si piensa analizar varias series de datos, todas ellas deben empezar y terminar preferiblemente en la misma fecha. Si faltan datos que no corresponden al comienzo o al final de una serie, puede usar el parámetro MISSING_VALUE_SUBSTITUTION para rellenar la serie. Analysis Services también proporciona varias opciones para reemplazar los datos que faltan por valores, como medias o constantes.

Nota de advertenciaAdvertencia

Las herramientas de gráfico dinámico y tabla dinámica que se incluyeron en versiones anteriores del diseñador de vistas de origen de datos ya no se proporcionan. Se recomienda identificar los huecos en los datos de serie temporal de antemano, mediante herramientas tales como el generador de perfiles de datos incluido en Integration Services.

Para identificar la clave temporal del modelo de pronóstico

  1. En el panel, SalesByRegion.dsv [Diseño], haga clic con el botón secundario en la tabla vTimeSeries y, a continuación, seleccione Explorar datos.

    Se abre una nueva pestaña, Explorar la tabla vTimeSeries.

  2. En la pestaña Tabla, revise los datos que se utilizan en las columnas TimeIndex y Reporting Date.

    Ambas son secuencias con valores únicos y se pueden usar como clave de serie temporal; sin embargo, los tipos de datos de las columnas son distintos. El algoritmo de serie temporal de Microsoft no requiere un tipo de datos datetime; solo exige que los valores sean distintos y estén ordenados. Por tanto, se puede utilizar cualquier columna como clave temporal para el modelo de pronóstico.

  3. En la superficie de diseño de la vista del origen de datos, seleccione la columna Reporting Date y seleccione Propiedades. A continuación, haga clic en la columna TimeIndex y seleccione Propiedades.

    El campo TimeIndex tiene el tipo de datos System.Int32, mientras que el campo Reporting Date tiene el tipo de datos System.DateTime. Muchos almacenamientos de datos convierten los valores de fecha y hora en enteros y usan la columna de enteros como clave para mejorar el rendimiento de la indización. Sin embargo, si usa esta columna, el algoritmo de serie temporal de Microsoft realizará las predicciones con valores futuros como 201014, 201014, etc. Debido a que desea representar la previsión de los datos de ventas mediante fechas del calendario, usará la columna Reporting Date como identificador único de la serie.

Para establecer la clave en la vista del origen de datos

  1. En el panel SalesByRegion.dsv, seleccione la tabla vTimeSeries.

  2. Haga clic con el botón secundario en la columna Reporting Date y seleccione Establecer clave principal lógica.

Manejar la ausencia de datos (opcional)

Si faltan datos en alguna serie, puede aparecer un error al intentar procesar el modelo. Existen varias formas de solucionar la ausencia de datos:

  • Puede hacer que Analysis Services rellene los valores que faltan, ya sea mediante el cálculo de la media o mediante un valor anterior. Para ello, establezca el parámetro MISSING_VALUE_SUBSTITUTION en el modelo de minería de datos. Para obtener más información acerca de este parámetro, vea Referencia técnica del algoritmo de serie temporal de Microsoft. Para obtener información sobre cómo cambiar parámetros en un modelo de minería de datos existente, vea Ver o cambiar parámetros del algoritmo.

  • Puede modificar el origen de datos o filtrar la vista subyacente para eliminar la serie irregular o reemplazar los valores. Esto se puede hacer en el origen de datos relacionales, o bien puede modificar la vista del origen de datos creando consultas con nombre personalizadas o cálculos con nombre. Para obtener más información, vea Vistas del origen de datos en modelos multidimensionales. En la última tarea de esta lección se proporciona un ejemplo de cómo generar una consulta con nombre y un cálculo personalizado.

En este escenario, faltan algunos datos al principio de una serie; es decir, no hay datos para la línea de productos T1000 hasta julio de 2007. Por lo demás, todas las series terminan en la misma fecha y no falta ningún valor.

El requisito del algoritmo de serie temporal de Microsoft consiste en que cualquier serie que se incluya en un modelo único debe tener el mismo punto final. Como el modelo de bicicletas T1000 se introdujo en 2007, los datos de esta serie empiezan después que los de otros modelos de bicicletas, pero la serie termina en la misma fecha; por tanto, se pueden usar los datos.

Para cerrar el diseñador de vistas del origen de datos

  • Haga clic con el botón secundario en la pestaña Explorar la tabla vTimeSeries y seleccione Cerrar.

Siguiente tarea de la lección

Crear una estructura de pronóstico y un modelo (tutorial intermedio de minería de datos)

Vea también

Conceptos

Algoritmo de serie temporal de Microsoft