Partager via


Spécifications pour un modèle de série chronologique (Didacticiel sur l'exploration de données intermédiaire)

Lorsque vous préparez des données afin de les utiliser dans un modèle de prévision, vous devez veiller à ce qu'elles contiennent une colonne unique qui peut être utilisée pour identifier les étapes dans une série chronologique. Cette colonne est utilisée en tant que colonne Key Time et doit contenir des valeurs numériques uniques. S'il manque des valeurs dans les données ailleurs qu'au début ou à la fin d'une série, vous pouvez utiliser le paramètre MISSING_VALUE_SUBSTITUTION afin de remplir la série. Analysis Services fournit plusieurs options permettant de remplacer des données manquantes par des données, telles que l'utilisation de moyennes ou de constantes.

Si vous envisagez d'analyser plusieurs séries de données, vous devez veiller à ce que toutes les séries commencent et se terminent à la même date.

Au cours de cette tâche, vous allez explorer les données de série chronologique en créant un tableau croisé dynamique simple dans Business Intelligence Development Studio. Vous allez également découvrir des manières de rechercher et gérer les vides dans les données.

Pour identifier la clé de temps pour le modèle de prévision

  1. Dans le volet SalesByRegion.dsv [Design], cliquez avec le bouton droit sur la table vTimeSeries, puis sélectionnez Explorer les données.

    Un nouvel onglet s'ouvre, intitulé Explorer la table vTimeSeries. Cet onglet contient quatre onglets : Table, Tableau croisé dynamique, Graphique et Graphique croisé dynamique.

  2. Sous l'onglet Table, cliquez sur le bouton Options d'échantillonnage situé à droite des onglets.

  3. Dans la boîte de dialogue Options d'exploration de données, notez que la méthode d'échantillonnage par défaut, sous Méthodes d'échantillonnage, consiste à utiliser l'option Jusqu'au compteur d'échantillonnage et à échantillonner les 5 000 premières lignes.

  4. Sélectionnez pour l'option Méthode d'échantillonnage la valeur Échantillon aléatoire et saisissez pour l'option Compteur d'échantillonnage la valeur 1000, puis cliquez sur OK.

    Notes

    La modification des options d'échantillonnage n'affecte pas les données utilisées pour l'exploration de données. Les graphiques et les tables sont uniquement des outils qui vous permettent de parcourir et de comprendre les données.

  5. Sous l'onglet Table, examinez les données utilisées dans les colonnes TimeIndex et ReportingDate.

    Ces deux colonnes sont des séquences comportant des valeurs uniques ; toutefois, vous souhaitez vérifier le type de données des colonnes.

    Notes

    Si vous n'apercevez pas la colonne ReportingDate, vous disposez probablement d'une version antérieure de la base de données AdventureWorksDW. Ce didacticiel requiert la base de données AdventureWorksDW2008R2, afin de tirer parti des nouvelles fonctionnalités de date et d'heure dans SQL Server 2008. Pour plus d'informations sur les modifications apportées aux dates et heures, consultez Changements essentiels apportés aux fonctionnalités du moteur de base de données dans SQL Server 20080 R2.

  6. Cliquez sur l'onglet SalesByRegion.dsv [Design].

  7. Sélectionnez la colonne ReportingDate.

    La fenêtre Propriétés indique que le champ TimeIndex répond au type de données System.Int32, tandis que le champ ReportingDate répond au type de données System.DateTime. L'algorithme MTS (Microsoft Time Series) ne requiert pas de type de données datetime, mais uniquement que les valeurs soient distinctes et classées. Par conséquent, l'une ou l'autre des colonnes peuvent être utilisées comme clé de temps pour le modèle de prévision. Toutefois, étant donné que vous souhaitez représenter vos données prévisionnelles des ventes à l'aide de dates de calendrier, vous allez utiliser la colonne ReportingDate comme identificateur de série unique.

Pour définir la clé dans la vue de source de données

  1. Dans le volet SalesByRegion.dsv, sélectionnez la table vTimeSeries.

  2. Cliquez avec le bouton droit sur la colonne ReportingDate et sélectionnez Définir la clé primaire logique.

Pour rechercher les vides dans la série de données à l'aide d'un graphique croisé dynamique

  1. Dans le volet SalesByRegion.dsv [Design], cliquez avec le bouton droit sur la table vTimeSeries, puis sélectionnez Explorer les données.

  2. Cliquez sur l'onglet Tableau croisé dynamique.

  3. Dans la boîte de dialogue Liste de champs PivotTable, sélectionnez les champs Quantity et Amount et faites-les glisser vers la zone Placer les totaux ou les champs de détails ici de la table.

  4. De la même façon, faites glisser le champ TimeIndex vers la zone Placer les champs de colonne ici.

    Notes

    Le champ TimeIndex n'est pas le champ que vous allez utiliser pour représenter la série chronologique, mais il est fourni à des fins de compatibilité descendante. En outre, le champ TimeIndex offre une vue plus simple de la série que vous pouvez utiliser lorsque vous parcourez les données dans le graphique croisé dynamique.

  5. Faites glisser le champ ModelRegion vers la zone Placer les champs de ligne ici.

    Le tableau croisé dynamique créé présente la liste des produits et des régions dans la colonne gauche, complétée par des colonnes qui contiennent la quantité et le montant des ventes pour chaque mois et année calendaires.

  6. Faites glisser la barre de défilement vers la droite pour voir la date de début des données de ventes pour la série T1000.

    Vous pouvez constater à partir de ce tableau qu'il n'existe aucune donnée pour la gamme de produits T1000 jusqu'en juillet 2003. Une spécification importante de l'algorithme MTS (Microsoft Time Series) dans SQL Server 2008 est que toute série que vous incluez dans un modèle unique doit avoir le même point de fin. Étant donné que le modèle de vélo T1000 a été introduit en 2003, les données pour cette série démarrent plus tard que pour les autres modèles de vélos, mais la série se termine à la même date, donc les données sont acceptables.

  7. Modifiez le champ utilisé pour représenter la série chronologique en faisant glisser TimeIndex en dehors de la table.

  8. Faites glisser l'un des champs suivants depuis la boîte de dialogue Liste de champs PivotTable vers la zone Placer les champs de colonne ici. Essayez d'afficher la série chronologique de différentes façons, en faisant glisser des colonnes en dehors de la table ou en sélectionnant des agrégations différentes, notamment trimestrielles ou mensuelles.

    • ReportingDate

    • ReportingDate par semaine

    • ReportingDate par mois

Gestion des données manquantes (facultatif)

S'il manque des données dans une série, vous risquez d'obtenir une erreur lorsque vous essayez de traiter le modèle. Il existe plusieurs manières de gérer les données manquantes :

  • Vous pouvez laisser Analysis Services remplir les valeurs manquantes, en calculant une moyenne ou en utilisant une valeur précédente. Pour ce faire, vous devez définir un paramètre lorsque vous créez le modèle d'exploration de données. Pour plus d'informations, consultez Références techniques relatives à l'algorithme MTS (Microsoft Time Series).

  • Vous pouvez modifier la source de données ou filtrer la vue sous-jacente pour éliminer la série ou remplacer des valeurs. Pour ce faire, vous devez utiliser la source de données relationnelle ou modifier la vue de source de données en créant des requêtes ou des calculs nommés clients. Pour plus d'informations, consultez Conception de vues de source de données (Analysis Services). Une tâche ultérieure au cours de cette leçon fournit un exemple de la manière de générer à la fois une requête nommée et un calcul personnalisé.

Pour ce scénario, certaines données manquent au début d'une série, mais toutes les séries se terminent à la même date et il n'y a donc pas de valeurs manquantes. Par conséquent, vous n'avez pas besoin d'apporter des modifications supplémentaires, parce que les données satisfont les spécifications pour un modèle de série chronologique.

Pour fermer le Concepteur de vues de source de données

  • Cliquez avec le bouton droit sur l'onglet Explorer la table vTimeSeries et sélectionnez Fermer.