Freigeben über


Grundlegendes zu den Anforderungen für ein Zeitreihenmodell (Lernprogramm für Zwischendatenbergbau)

Wenn Sie Daten für die Verwendung in einem Prognosemodell vorbereiten, müssen Sie sicherstellen, dass Ihre Daten eine Spalte enthalten, mit der die Schritte in der Zeitreihe identifiziert werden können. Diese Spalte wird als Key Time Spalte festgelegt. Da es sich um einen Schlüssel handelt, muss die Spalte eindeutige numerische Werte enthalten.

Die Auswahl der richtigen Einheit für die Key Time Spalte ist ein wichtiger Teil der Analyse. Angenommen, Ihre Umsatzdaten werden minutenweise aktualisiert. Sie würden nicht unbedingt Minuten als Einheit für die Zeitreihe verwenden; Möglicherweise ist es sinnvoller, Umsatzdaten nach Tag, Woche oder sogar Monat zu rollieren. Wenn Sie nicht sicher sind, welche Zeiteinheit sie verwenden soll, können Sie für jede Aggregation eine neue Datenquellenansicht erstellen und verwandte Modelle erstellen, um festzustellen, ob unterschiedliche Trends auf jeder Aggregationsebene auftreten.

In diesem Lernprogramm werden Verkaufsdaten täglich in der Transaktionsumsatzdatenbank gesammelt, aber für Data Mining wurden die Daten mithilfe einer Ansicht vorgeaggregatt.

Darüber hinaus ist es wünschenswert, dass die Daten so wenige Lücken wie möglich aufweisen. Wenn Sie beabsichtigen, mehrere Datenreihen zu analysieren, sollten alle Datenreihen vorzugsweise am selben Datum beginnen und enden. Wenn die Daten Lücken aufweisen, die Lücken jedoch nicht am Anfang oder Am Ende einer Datenreihe liegen, können Sie den parameter MISSING_VALUE_SUBSTITUTION verwenden, um die Datenreihe auszufüllen. Analysis Services bietet auch mehrere Optionen zum Ersetzen fehlender Daten durch Werte, z. B. die Verwendung von Mitteln oder Konstanten.

Warnung

Die PivotChart- und PivotTable-Tools, die in früheren Versionen des Datenquellenansicht-Designers enthalten waren, werden nicht mehr bereitgestellt. Es wird empfohlen, Lücken in Zeitreihendaten vorher mithilfe von Tools wie dem in Integration Services enthaltenen Datenprofiler zu identifizieren.

So identifizieren Sie den Zeitschlüssel für das Prognosemodell

  1. Klicken Sie im Bereich "SalesByRegion.dsv [Entwurf]" mit der rechten Maustaste auf die Tabelle vTimeSeries, und wählen Sie dann " Daten durchsuchen" aus.

    Eine neue Registerkarte wird geöffnet, mit dem Titel "Explore vTimeSeries Table".

  2. Überprüfen Sie auf der Registerkarte "Tabelle " die Daten, die in den Spalten "TimeIndex" und "Berichtsdatum" verwendet werden.

    Beide sind Sequenzen mit eindeutigen Werten und können beide als Zeitreihenschlüssel verwendet werden. Die Datentypen der Spalten unterscheiden sich jedoch. Der Microsoft Time Series-Algorithmus erfordert keinen bestimmten datetime Datentyp, sondern nur, dass die Werte eindeutig und geordnet sind. Daher kann entweder Spalte als Zeitschlüssel für das Vorhersagemodell verwendet werden.

  3. Wählen Sie in der Entwurfsoberfläche der Datenquellenansicht die Spalte 'Berichtsdatum' und dann Eigenschaften aus. Klicken Sie als Nächstes auf die Spalte "TimeIndex", und wählen Sie "Eigenschaften" aus.

    Das Feld "TimeIndex" weist den Datentyp "System.Int32" auf, während das Feld "Reporting Date" den Datentyp "System.DateTime" aufweist. Viele Data Warehouses konvertieren Datums-/Uhrzeitwerte in ganze Zahlen und verwenden die ganzzahlige Spalte als Schlüssel, um die Indizierungsleistung zu verbessern. Wenn Sie diese Spalte verwenden, macht der Microsoft Time Series-Algorithmus jedoch Vorhersagen mit zukünftigen Werten wie 201014, 201014 usw. aus. Da Sie Ihre Umsatzdatenprognose mithilfe von Kalenderdatumsangaben darstellen möchten, verwenden Sie die Spalte "Berichtsdatum" als eindeutigen Datenreihenbezeichner.

So legen Sie den Schlüssel in der Datenquellenansicht fest

  1. Wählen Sie im Bereich "SalesByRegion.dsv" die Tabelle "vTimeSeries" aus.

  2. Klicken Sie mit der rechten Maustaste auf die Spalte, das Berichtsdatum, und wählen Sie " Logischen Primärschlüssel festlegen" aus.

Behandeln fehlender Daten (optional)

Wenn datenreihen fehlen, erhalten Sie möglicherweise eine Fehlermeldung, wenn Sie versuchen, das Modell zu verarbeiten. Sie haben mehrere Möglichkeiten, um fehlende Daten zu umgehen:

  • Sie können Analysis Services fehlende Werte ausfüllen lassen, entweder durch Berechnen eines Mittelwerts oder mithilfe eines vorherigen Werts. Dazu legen Sie den parameter MISSING_VALUE_SUBSTITUTION für das Miningmodell fest. Weitere Informationen zu diesem Parameter finden Sie in der technischen Referenz zu Microsoft Time Series Algorithm. Informationen zum Ändern von Parametern für ein vorhandenes Miningmodell finden Sie unter Ansichts- oder Änderungsalgorithmusparameter.

  • Sie können die Datenquelle ändern oder die zugrunde liegende Ansicht filtern, um unregelmäßige Datenreihen zu beseitigen oder Werte zu ersetzen. Sie können dies in der relationalen Datenquelle tun, oder Sie können die Datenquellenansicht ändern, indem Sie benutzerdefinierte benannte Abfragen oder benannte Berechnungen erstellen. Weitere Informationen finden Sie unter Datenquellenansichten in mehrdimensionalen Modellen. Eine spätere Aufgabe in dieser Lektion enthält ein Beispiel zum Erstellen einer benannten Abfrage und einer benutzerdefinierten Berechnung.

Für dieses Szenario fehlen einige Daten am Anfang einer Datenreihe: d. h., es gibt keine Daten für die Produktlinie T1000 bis Juli 2007. Andernfalls enden alle Datenreihen am selben Datum, und es fehlen keine Werte.

Die Anforderung des Microsoft Time Series-Algorithmus besteht darin, dass alle Datenreihen, die Sie in ein einzelnes Modell einbeziehen, denselben Endpunkt aufweisen sollten. Da das Fahrradmodell T1000 im Jahr 2007 eingeführt wurde, beginnt die Daten für diese Serie später als für andere Fahrradmodelle, aber die Serie endet am selben Datum; daher können die Daten verwendet werden.

So schließen Sie den Designer für die Datenquellenansicht

  • Klicken Sie mit der rechten Maustaste auf die Registerkarte, erkunden Sie vTimeSeries-Tabelle, und wählen Sie "Schließen" aus.

Nächste Aufgabe in der Lektion

Erstellen einer Prognosestruktur und eines Prognosemodells (Lernprogramm für fortgeschrittenes Data Mining)

Siehe auch

Microsoft-Zeitreihenalgorithmus