Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Quando si preparano i dati per l'uso in un modello di previsione, è necessario assicurarsi che i dati contengano una colonna che può essere usata per identificare i passaggi della serie temporale. Tale colonna verrà designata come Key Time colonna. Poiché si tratta di una chiave, la colonna deve contenere valori numerici univoci.
La scelta dell'unità corretta per la Key Time colonna è una parte importante dell'analisi. Si supponga, ad esempio, che i dati di vendita vengano aggiornati ogni minuto per minuto. Non si userebbero necessariamente minuti come unità per la serie temporale; potrebbe risultare più significativo eseguire il rollup dei dati di vendita in base al giorno, alla settimana o anche al mese. Se non si è certi dell'unità di tempo da usare, è possibile creare una nuova vista origine dati per ogni aggregazione e creare modelli correlati per verificare se emergono tendenze diverse a ogni livello di aggregazione.
Per questa esercitazione, i dati sulle vendite vengono raccolti su base giornaliera nel database delle vendite transazionali, ma per il data mining, i dati sono stati preaggregati su base mensile usando una vista.
Inoltre, è consigliabile analizzare che i dati presentano il minor numero possibile di lacune. Se si prevede di analizzare più serie di dati, tutte le serie devono preferibilmente iniziare e terminare nella stessa data. Se i dati presentano lacune, ma le lacune non si trovano all'inizio o alla fine di una serie, è possibile usare il parametro MISSING_VALUE_SUBSTITUTION per riempire la serie. Analysis Services offre anche diverse opzioni per sostituire i dati mancanti con valori, ad esempio l'uso di mezzi o costanti.
Avvertimento
Gli strumenti PivotChart e PivotTable inclusi nelle versioni precedenti nella progettazione della vista origine dati non vengono più forniti. È consigliabile identificare in anticipo le lacune nei dati delle serie temporali usando strumenti come Data Profiler incluso in Integration Services.
Per identificare la chiave temporale per il modello di previsione
Nel riquadro SalesByRegion.dsv [Progettazione], fare clic con il pulsante destro del mouse sulla tabella vTimeSeries e quindi scegliere Esplora dati.
Verrà visualizzata una nuova scheda denominata Esplora tabella vTimeSeries.
Nella scheda Tabella esaminare i dati utilizzati nelle colonne TimeIndex e Data di report.
Entrambe sono sequenze con valori univoci e possono essere usate entrambe come chiave della serie temporale; Tuttavia, i tipi di dati delle colonne sono diversi. L'algoritmo Microsoft Time Series non richiede un
datetimetipo di dati, ma solo che i valori siano distinti e ordinati. Pertanto, una delle due colonne può essere usata come chiave temporale per il modello di previsione.Nell'area di progettazione della vista origine dati, selezionare la colonna Data del Report e quindi selezionare Proprietà. Fare quindi clic sulla colonna TimeIndex e selezionare Proprietà.
Il campo TimeIndex ha il tipo di dati System.Int32, mentre il campo Data report ha il tipo di dati System.DateTime. Molti data warehouse converte i valori di data/ora in numeri interi e usano la colonna integer come chiave per migliorare le prestazioni di indicizzazione. Tuttavia, se si usa questa colonna, l'algoritmo Microsoft Time Series eseguirà stime usando valori futuri, ad esempio 201014, 201014 e così via. Poiché si desidera rappresentare la previsione dei dati di vendita usando le date del calendario, si userà la colonna Data report come identificatore di serie univoco.
Per impostare la chiave nella visualizzazione della fonte dati
Nel riquadro SalesByRegion.dsv selezionare la tabella vTimeSeries.
Fare clic con il pulsante destro del mouse sulla colonna Data di segnalazione e scegliere Impostare chiave primaria logica.
Gestione dei dati mancanti (facoltativo)
Se una serie contiene dati mancanti, è possibile che venga visualizzato un errore quando si tenta di elaborare il modello. Esistono diversi modi per risolvere i dati mancanti:
È possibile inserire valori mancanti in Analysis Services, calcolando una media o usando un valore precedente. A tale scopo, impostare il parametro MISSING_VALUE_SUBSTITUTION nel modello di data mining. Per altre informazioni su questo parametro, vedere Documentazione tecnica sull'algoritmo Microsoft Time Series. Per informazioni su come modificare i parametri in un modello di data mining esistente, vedere Visualizzare o modificare i parametri dell'algoritmo.
È possibile modificare l'origine dati o filtrare la vista sottostante per eliminare la serie incompleta o sostituire i valori. È possibile eseguire questa operazione nell'origine dati relazionale oppure modificare la visualizzazione dell'origine dati creando query denominate personalizzate o calcoli con nome. Per altre informazioni, vedere Viste origine dati nei modelli multidimensionali. Un'attività successiva in questa lezione fornisce un esempio di come compilare una query denominata e un calcolo personalizzato.
Per questo scenario, alcuni dati mancano all'inizio di una serie, ovvero non sono presenti dati per la linea di prodotti T1000 fino a luglio 2007. In caso contrario, tutte le serie terminano nella stessa data e non sono presenti valori mancanti.
Il requisito dell'algoritmo Microsoft Time Series è che qualsiasi serie inclusa in un singolo modello deve avere lo stesso punto finale . Poiché il modello di bicicletta T1000 è stato introdotto nel 2007, i dati di questa serie iniziano più tardi rispetto ad altri modelli di biciclette, ma la serie termina con la stessa data; pertanto i dati sono utilizzabili.
Per chiudere la finestra di progettazione vista origine dati
- Fare clic con il pulsante destro del mouse sulla scheda Esplora tabella vTimeSeries e scegliere Chiudi.
Attività successiva nella lezione
Creazione di una struttura e di un modello di previsione (esercitazione intermedia sul data mining)