Conteúdo do modelo de mineração para modelos de série temporal (Analysis Services – Mineração de dados)
Todos os modelos de mineração usam a mesma estrutura para armazenar conteúdo. Essa estrutura é definida de acordo com o conjunto de linhas de esquema do conteúdo da mineração de dados. Entretanto, em uma estrutura padrão, os nós que contêm informações são organizados de formas diferentes para representar vários tipos de árvores. Este tópico descreve como os nós são organizados e o que cada nó significa para os modelos de mineração que têm como base o algoritmo MTS.
Para obter uma explicação sobre o conteúdo geral do modelo de mineração que se aplica a todos os tipos de modelo, consulte Conteúdo do modelo de mineração (Analysis Services - Mineração de dados).
Pode ser muito útil pesquisar os conteúdos de um modelo de série temporal ao revisar este tópico. Você criará um modelo de série temporal ao concluir o tutorial Mineração de dados básica. O modelo criado nesse tutorial é do tipo misto que treina dados usando algoritmos ARIMA e ARTxp. Para obter mais informações, consulte Criando uma estrutura e um modelo de previsão (Tutorial de mineração de dados intermediário). Para obter informações sobre como exibir o conteúdo de um modelo de mineração, consulte Exibindo um modelo de mineração de dados.
Entendendo a estrutura de um modelo de série temporal
Um modelo de série temporal tem um nó pai único que representa o modelo e seus metadados. Embaixo do nó pai, há uma ou duas árvores de série temporal dependendo do algoritmo usado para criar o modelo.
Se você criou um modelo misto, foram adicionadas duas árvores diferentes ao modelo: uma para ARIMA ou outra para ARTXP. Se optou por usar somente o algoritmo ARTxp ou o ARIMA, você terá uma árvore única que corresponde ao algoritmo escolhido. Você especifica qual algoritmo será usado configurando o parâmetro FORECAST_METHOD. Para obter mais informações sobre quando usar ARTxp, ARIMA ou um modelo misto, consulte Algoritmo MTS.
O diagrama mostra um exemplo de um modelo de mineração de dados de série temporal criado com as configurações padrão para modelo misto. Para que você possa comparar mais facilmente as diferenças entre os dois modelos, o modelo ARTxp é mostrado no lado esquerdo do diagrama e o modelo ARIMA, no lado direito. Enquanto o ARTxp é uma estrutura parecida com uma área que se divide em ramificações cada vez menores, a estrutura criada pelo algoritmo ARIMA é mais parecida com uma pirâmide criada para cima a partir de componentes menores.
Se você exibir um modelo misto usando o Visualizador de Árvore de Conteúdo Genérica da Microsoft, os nós nos modelos ARTxp e ARIMS serão mostrados como nós filho do modelo de série temporal pai. Em uma exibição genérica do modelo misto, o primeiro conjunto de nós recebe o nome de (All) e representa os resultados da análise pelo algoritmo ARTxp. O segundo conjunto de nós é chamado ARIMA e representa os resultados da análise pelo algoritmo ARIMA.
É importante lembrar que as informações são organizadas nas árvores ARIMA e ARTxp de formas completamente diferentes e você deve considerar as duas árvores relacionadas somente no nó raiz. Embora as duas representações estejam presentes em um modelo para conveniência, elas devem ser tratadas como modelos independentes. ARTxp representa uma estrutura de árvore real, mas ARIMA não.
Observação |
---|
O nome (All) na árvore ARTxp é mantido por questões de compatibilidade com versões anteriores. Antes do SQL Server 2008, o algoritmo MST usava um único algoritmo para análise, o ARTxp. |
Estrutura do modelo ARTxp
O algoritmo ARTxp cria um modelo semelhante a um modelo de árvore de decisão. Ele agrupa atributos previsíveis e os divide sempre que são localizadas diferenças significativas. Conseqüentemente, cada modelo ARTXp contém uma ramificação separada para cada atributo previsível. Por exemplo, o tutorial Mineração de dados básica cria um modelo que prevê o volume de vendas para várias regiões. Nesse caso, [Amount] é o atributo previsível e uma ramificação separada é criada para cada região. Se tivéssemos dois atributos previsíveis, [Amount] e [Quantity], seria criada uma ramificação separada para cada combinação de um atributo e uma região.
O nó superior da divisão ARTxp contém a mesma informação presente no nó raiz da árvore de decisão. Isso inclui o número de filhos de cada nó (CHILDREN_CARDINALITY), o número de casos que atendem as condições deste nó (NODE_SUPPORT) e uma variedade de estatísticas descritivas (NODE_DISTRIBUTION).
Se o nó não tiver nenhum filho, significa que nenhuma condição significativa, que justificaria a divisão dos casos em outros subgrupos, foi encontrada. A ramificação termina neste ponto e o nó é chamado de nó folha. O nó folha contém atributos, coeficientes e valores que são os blocos de construção da fórmula ARTxp.
Algumas ramificações podem ter divisões adicionais, semelhante a um modelo de árvore de decisão. Por exemplo, a ramificação da árvore que representa vendas para a região da Europa divide-se em duas ramificações. Uma divisão ocorre quando há condição que gera diferença significativa entre os dois grupos. O nó pai indica o nome do atributo que causou a divisão, como [Amount], e quantos casos existem no nó pai. O nó folha fornece mais detalhes: o valor do atributo, como Sales >10,000 vs. Sales < 10,000), o número de casos que aceitam cada condição e a fórmula ARTxp.
Observação |
---|
Caso queira exibir as fórmulas, poderá encontrar a fórmula de regressão completa no nível do nó folha, mas não em um nó intermediário ou no nó raiz. |
Estrutura do modelo ARIMA
Para cada combinação de uma série de dados (como [Region]) e um atributo previsível (como [Sales Amount]), há uma única informação—a equação que descreve a alteração do atributo previsível com o passar do tempo.
A equação básica para cada série é derivada de vários componentes, um para cada estrutura periódica que foi encontrada nos dados. Por exemplo, se você tem dados de vendas que são coletados mensalmente, o algoritmo pode detectar estruturas periódicas mensais, trimestrais ou anuais.
O algoritmo produz um conjunto separado de nós pai e filho para cada periodicidade encontrada. A periodicidade padrão é 1, para um único intervalo de tempo, e é adicionada automaticamente em todos os modelos. Você pode especificar possíveis estruturas periódicas digitando vários valores no parâmetro PERIODICITY_HINT. Porém, se o algoritmo não detectar uma estrutura periódica, não produzirá resultados para aquela dica.
Cada estrutura periódica no conteúdo do modelo contém os seguintes nós de componente: um nó para a ordem regressiva automática (AR) e um nó para a média de movimentação (MA). A ordem de diferença é representada na equação. Para obter informações sobre o significado desses temos, consulte Algoritmo MTS.
Conteúdo do modelo para série temporal
Esta seção fornece detalhes e exemplos somente das colunas do conteúdo do modelo de mineração que são relevantes para os modelos de série temporal.
Para obter informações sobre as colunas de uso general no conjunto de linhas de esquema, como MODEL_CATALOG e MODEL_NAME, ou ainda explicações relacionadas à terminologia do modelo de mineração, consulte Conteúdo do modelo de mineração (Analysis Services - Mineração de dados).
MODEL_CATALOG
Nome do banco de dados onde o modelo é armazenado.MODEL_NAME
Nome do modelo.ATTRIBUTE_NAME
O atributo previsível para a série de dados representada no nó. (O mesmo valor de MSOLAP_MODEL_COLUMN.)NODE_NAME
Nome do nó. Atualmente, esta coluna contém o mesmo valor de NODE_UNIQUE_NAME, embora isso possa mudar em versões futuras.NODE_UNIQUE_NAME
Nome exclusivo do nó. O nó pai modelo sempre recebe o nome de TS.ARTxp: cada nó é representado por TS seguido de um valor numérico hexadecimal. Por exemplo, os nós ARTxp diretamente abaixo da árvore TS podem ser numerados TS00000001-TS0000000b. A ordem dos nós não é importante.
ARIMA: cada nó em uma árvore ARIMA é representado por TA seguido de um valor numérico hexadecimal. Os nós filho contêm o nome exclusivo do nó pai, seguido de um número hexadecimal que indica a seqüência no nó.
Todas as árvores ARIMA são estruturadas exatamente da mesma forma. Cada raiz contém os nós e a convenção de nomenclatura exemplificadas na tabela a seguir:
Tipo e identificador de nó ARIMA
Exemplo de nome de nó
Raiz ARIMA (27)
TA0000000b
Estrutura periódica ARIMA (28)
TA0000000b00000000
Regressão automática ARIMA (29)
TA0000000b000000000
Média de movimentação ARIMA (30)
TA0000000b000000001
NODE_TYPE
Um modelo de série temporal gera os seguintes tipos de nós, dependendo do algoritmo:ARTxp:
Identificador do tipo de nó
Descrição
1 (Modelo)
Série temporal
3 (Interior)
Representa uma ramificação interior em uma árvore de série temporal ARTxp.
16 (Árvore de série temporal)
Raiz da árvore ARTxp que corresponde a uma série e atributo previsível.
15 (Série temporal)
Nó folha na árvore ARTxp.
ARIMA:
Identificador do tipo de nó
Descrição
27 (Raiz ARIMA)
O nó superior de uma árvore ARIMA.
28 (Estrutura periódica ARIMA)
Componente de uma árvore ARIMA que descreve uma única estrutura periódica.
29 (Regressão automática ARIMA)
Contém um coeficiente para uma única estrutura periódica.
30 (Média de movimentação ARIMA)
Contém um coeficiente para uma única estrutura periódica.
NODE_CAPTION
Um rótulo ou legenda associada ao nó. Essa propriedade é usada principalmente para exibição.ARTxp: contém a condição de divisão para o nó, exibido como uma combinação de atributo e intervalo de valor.
ARIMA: contém a equação ARIMA reduzida.
Para obter informações sobre o formato da equação ARIMA, consulte Legenda de mineração para ARIMA.
CHILDREN_CARDINALITY
Número de filhos diretos que o nó possui.PARENT_UNIQUE_NAME
Nome exclusivo do pai do nó. NULL é retornado para todos os nós em nível raiz.NODE_DESCRIPTION
Uma descrição em texto das regras, divisões ou fórmulas no nó atual.ARTxp: para obter mais informações, consulte Entendendo a árvore ARTxp.
ARIMA: para obter mais informações, consulte Entendendo a árvore ARIMA.
NODE_RULE
Uma descrição em XML das regras, divisões ou fórmulas no nó atual.ARTxp: o NODE_RULE geralmente corresponde ao NODE_CAPTION.
ARIMA: para obter mais informações, consulte Entendendo a árvore ARIMA.
MARGINAL_RULE
Uma descrição em XML da divisão ou conteúdo que é específico àquele nó.ARTxp: o MARGINAL_RULE geralmente corresponde ao NODE_DESCRIPTION.
ARIMA: sempre em branco; use NODE_RULE.
NODE_PROBABILITY
ARTxp: para nós de árvore, sempre 1. Para nós folha, a probabilidade de alcançar o nó a partir do nó raiz modelo.ARIMA: sempre 0.
MARGINAL_PROBABILITY
ARTxp: para nós de árvore, sempre 1. Para nós folha, a probabilidade de alcançar o nó a partir do nó pai imediato.ARIMA: sempre 0.
NODE_DISTRIBUTION
Um tabela que contém o histograma de probabilidade do nó. Em um modelo de série temporal, essa tabela aninhada contém todos os componentes necessários para montar a fórmula de regressão real.Para obter mais informações sobre a tabela de distribuição de nó em uma árvore ARTxp, consulte Entendendo a árvore ARTxp.
Para obter mais informações sobre a tabela de distribuição de nó em uma árvore ARIMA, consulte Entendendo a árvore ARIMA.
Se preferir verificar todas as constantes e os outros componentes em um formato legível, use o Visualizador MTS, clique no nó e abra a Legenda de Mineração.
NODE_SUPPORT
Número de casos que suportam esse nó.ARTxp: para o nó (All), indica o número total de intervalos de tempo incluído na ramificação. No caso de nós terminais, indica o número de intervalos de tempo que são incluídos no intervalo descrito pelo NODE_CAPTION. O número de intervalos de tempo nos nós terminais sempre são somados ao valor de NODE_SUPPORT do nó (All) da ramificação.
ARIMA: um cálculo dos casos que oferecem suporte à estrutura periódica atual. O valor para suporte é repetido em todos os nós da estrutura periódica atual.
MSOLAP_MODEL_COLUMN
O atributo previsível para a série de dados representada no nó. (O mesmo valor de ATTRIBUTE_NAME.)MSOLAP_NODE_SCORE
Um valor numérico que caracteriza o valor da informação da árvore ou divisão.ARTxp: o valor é sempre 0.0 para nós sem uma divisão. Para nós com uma divisão, representa a pontuação de interesse da divisão.
Para obter mais informações sobre métodos de pontuação, consulte Seleção de recursos em mineração de dados.
ARIMA: uma pontuação BIC (Bayesian Information Criterion) do modelo ARIMA. A mesma pontuação é definida em todos os nós ARIMA relacionados à equação.
MSOLAP_NODE_SHORT_CAPTION
ARTxp: mesmas informações de NODE_DESCRIPTION.ARIMA: mesmas informações de NODE_CAPTION, ou seja, uma equação ARIMA reduzida.
Entendendo a árvore ARTxp
O modelo ARTxp separa claramente as área de dados lineares das áreas de dados divididos em algum outro fator. Sempre que as alterações no atributo previsível podem ser diretamente representadas como uma função das variáveis independentes, uma fórmula de regressão é calculada para representar aquela relação. Por exemplo, se houvesse uma correlação direta entre tempo e vendas para a maioria das séries de dados, cada série estaria em uma árvore de série temporal (NODE_TYPE = 16) que não tivesse nós filhos para cada série de dados, somente uma equação de regressão. Porém, se a relação não é linear, uma árvore de série temporal ARTxp pode dividir condições em nós filho, exatamente como um modelo de árvore de decisão. Ao exibir o conteúdo do modelo no Visualizador de Árvore de Conteúdo Genérica da Microsoft, você pode ver onde as divisões ocorrem e como elas afetam a linha de tendência.
Por exemplo, revise o modelo de série temporal criado no tutorial Mineração de dados básica. Este modelo, tirado da Adventure Works, não é baseado em dados complexos. Portanto, não há muitas divisões na árvore ARTxp. Mesmo assim, até mesmo esse modelo relativamente simples ilustra três tipos diferentes de divisões:
A linha de tendência Amount para a região Pacific se divide na chave de tempo. Uma divisão na chave de tempo significa que há uma alteração de tendência em determinado momento. A linha de tendência só era linear até um certo ponto. Depois, a curva assumiu uma forma diferente. Por exemplo, uma série temporal pode continuar até 6 de agosto de 2002 e outra série temporal iniciar depois dessa data.
A linha de tendência Amount para a região North America se divide em outra variável. Nesse caso, a tendência para North America se divide com base no valor para o mesmo modelo na região Europe. Em outras palavras, o algoritmo detectou que quando o valor para Europe muda, o valor para North America A também muda.
A linha de tendência para região Europe se divide em si mesmo.
O que significa cada divisão? A interpretação das informações transmitidas pelo conteúdo do modelo é uma arte que requer profundo conhecimento dos dados e de seus significados no contexto dos negócios.
O vínculo aparente entre as tendências para as regiões North America e Europe pode significar apenas que a série de dados para Europe tem mais entropia, o que faz com que a tendência para North America pareça mais fraca. Ou pode ser que não haja diferença significativa na pontuação das duas regiões, e a correlação possa ser acidental baseada simplesmente no cálculo da região Europe antes do cálculo da região North America. Entretanto, talvez você queira revisar os dados e verificar se a correlação é falsa ou investigar se há outro fator envolvido.
A divisão na chave de tempo significa que há uma alteração estatisticamente significante no gradiente da linha. Isso pode ter siso causado por fatores matemáticos, como o suporte para cada intervalo ou os cálculos da entropia necessária para a divisão. Sendo assim, essa divisão pode não ser interessante em termos do significado do modelo no mundo real. Porém, ao revisar o período indicado na divisão, você pode encontrar correlações interessantes que não são representadas nos dados, como uma promoção ou outro evento iniciado naquele período e que pode ter afetado os dados.
Se os dados tivessem outros atributos, você provavelmente veria exemplos bem mais interessantes de ramificações na árvore. Por exemplo, se você controlasse informações sobre o clima e as usasse como um atributo para a análise, provavelmente veria várias divisões na árvore que representam uma interação complexa entre as vendas e o clima.
Em outras palavras, a mineração de dados é útil para fornecer dicas sobre onde ocorrem fenômenos potencialmente interessantes. Porém, isso deve estar aliado a outras investigações e à experiência dos usuários para interpretar de forma precisa o valor das informações no contexto.
Elementos da fórmula da série de dados ARTxp
Para exibir a fórmula completa de uma árvore ou ramificação ARTxp, recomendamos o uso da Legenda de Mineração do Visualizador MTS que apresenta todas as constantes em um formato legível.
Esta seção apresenta uma equação de exemplo e explica os termos básicos.
Legenda de mineração para fórmula ARTxp
O exemplo a seguir mostra a fórmula ARTxp para uma parte do modelo, como exibido na Legenda de Mineração. Para exibir essa fórmula, abra o modelo Forecasting criado no tutorial Mineração de dados básica no Visualizador MTS, clique na guia Modelo e selecione a árvore da série de dados R250: Europe. Depois, clique no nó que representa a série de dados em 07/05/2003 ou após essa data.
Exemplo da equação de nó de árvore:
Quantity = 21.322
-0.293 * Quantity(R250 North America,-7) + 0.069 * Quantity(R250 Europe,-1) + 0.023 *
Quantity(R250 Europe,-3) -0.142 * Quantity(R750 Europe,-8)
Neste caso, o valor 21.322 representa o valor indicado que é previsível para Quantity como uma função dos elementos da equação. Por exemplo, um elemento é Quantity(R250 North America,-7). Esta notação indica a quantidade para a região North America em t-7, ou sete intervalos de tempo antes do intervalo atual. O valor para esta série de dados é multiplicado pelo coeficiente -0.293. O coeficiente para cada elemento é derivado durante o processo de treinamento e é fundado em tendências nos dados.
Há vários elementos nessa equação, pois o modelo calculou que a quantidade do modelo R250 na região Europe depende dos valores de outras séries de dados.
Conteúdo do modelo da fórmula ARTxp
A tabela a seguir mostra as mesmas informações para o nó, como exibidas no Visualizador de árvore de conteúdo genérica da Microsoft (Designer de Mineração de Dados).
ATTRIBUTE_NAME |
ATTRIBUTE_VALUE |
SUPPORT |
PROBABILITY |
VARIANCE |
VALUETYPE |
---|---|---|---|---|---|
Quantity(R250 Europe,y-intercept) |
21.3223433563772 |
11 |
0 |
1.65508795539661 |
11 (Intercept) |
Quantity(R250 Europe,-1) |
0.0691694140876526 |
0 |
0 |
0 |
7 (Coefficient) |
Quantity(R250 Europe,-1) |
20.6363635858123 |
0 |
0 |
182.380682874818 |
9 (Statistics) |
Quantity(R750 Europe,-8) |
-0.1421203048299 |
0 |
0 |
0 |
7 (Coefficient) |
Quantity(R750 Europe,-8) |
22.5454545333019 |
0 |
0 |
104.362130048408 |
9 (Statistics) |
Quantity(R250 Europe,-3) |
0.0234095979448281 |
0 |
0 |
0 |
7 (Coefficient) |
Quantity(R250 Europe,-3) |
24.8181818883176 |
0 |
0 |
176.475304989169 |
9 (Statistics) |
Quantity(R250 North America,-7) |
-0.292914186039869 |
0 |
0 |
0 |
7 (Coefficient) |
Quantity(R250 North America,-7) |
10.36363640433 |
0 |
0 |
701.882534898676 |
9 (Statistics) |
O conteúdo do modelo de mineração tem as mesmas informações disponíveis na Legenda de Mineração, mas com colunas adicionais para variância e suporte. O valor para suporte indica a quantidade de casos em que há suporte para a tendência descrita por essa equação.
Usando a fórmula da série de dados ARTxp
Para a maioria dos usuários corporativos, o valor do conteúdo do modelo ARTxp é que ele fornece uma exibição da árvore e uma representação linear dos dados. Se as alterações no atributo previsível podem ser representadas como uma função das variáveis independentes, o algoritmo computará automaticamente a equação de regressão e apresentará aquela série em um nó separado. Porém, se outros fatores prevenirem uma correlação linear, a série temporal ramificará como uma árvore de decisão. Ao verificar o conteúdo do modelo no Visualizador MTS, você poderá ver onde a divisão ocorre e como ela afeta a linha de tendência.
Se houver uma correlação direta entre tempo e vendas em qualquer parte da série de dados, a forma mais fácil de obter a fórmula é copiando-a da Legenda de Mineração e depois a colando em um documento ou apresentação para ajudar a explicar o modelo. Como alternativo, você pode extrair a média, o coeficiente e outras informações da tabela NODE_DISTRIBUTION para aquela árvore e usá-las para computar as extensões da tendência. Se a série inteira exibe uma relação linear consistente, a equação será contida no nó (All). Se houver qualquer ramificação na árvore, a equação será contida no nó folha.
A consulta a seguir retorna todas os nós folha ARTxp de um modelo de mineração, juntamente com a tabela aninhada, NODE_DISTRIBUTION, que contém a equação.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME,
NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [VARIANCE], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 15
Entendendo a árvore ARIMA
Cada estrutura em um modelo ARIMA corresponde a uma periodicidade ou estrutura periódica. Uma estrutura periódica é um padrão de dados que se repete ao longo da série de dados. São permitidas algumas pequenas variações no padrão, dentro de limites estatísticos. A periodicidade é medida de acordo com as unidades de tempo padrão que foram usadas nos dados de treinamento. Por exemplo, se os dados de treinamento fornecem informações de vendas para cada dia, a unidade de tempo padrão é um dia e todas as estruturas periódicas são definidas como um número específico de dias.
Cada período detectado pelo algoritmo adquire seu próprio nó de estrutura. Por exemplo, se você estiver analisando dados de vendas diárias, os modelo pode detectar estruturas periódicas que representam semanas. Nesse caso, o algoritmo criará duas estruturas periódicas no modelo finalizado: uma para o período diário padrão, indicada por {1}, e uma para semanas, indicada por {7}.
Por exemplo, a consulta a seguir retorna todas as estruturas ARIMA de um modelo de mineração.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 27
Resultados do exemplo:
MODEL_NAME |
ATTRIBUTE_NAME |
NODE_NAME |
NODE_TYPE |
NODE_CAPTION |
---|---|---|---|---|
Forecasting |
M200 Europe:Quantity |
TA00000000 |
27 |
ARIMA (1,0,1) |
Forecasting |
M200 North America:Quantity |
TA00000001 |
27 |
ARIMA (1,0,4) X (1,1,4)(6) |
Forecasting |
M200 Pacific:Quantity |
TA00000002 |
27 |
ARIMA (2,0,8) X (1,0,0)(4) |
Forecasting |
M200 Pacific:Quantity |
TA00000002 |
27 |
ARIMA (2,0,8) X (1,0,0)(4) |
Forecasting |
R250 Europe:Quantity |
TA00000003 |
27 |
ARIMA (1,0,7) |
Forecasting |
R250 North America:Quantity |
TA00000004 |
27 |
ARIMA (1,0,2) |
Forecasting |
R250 Pacific:Quantity |
TA00000005 |
27 |
ARIMA (2,0,2) X (1,1,2)(12) |
Forecasting |
R750 Europe:Quantity |
TA00000006 |
27 |
ARIMA (2,1,1) X (1,1,5)(6) |
Forecasting |
T1000 Europe:Quantity |
TA00000009 |
27 |
ARIMA (1,0,1) |
Forecasting |
T1000 North America:Quantity |
TA0000000a |
27 |
ARIMA (1,1,1) |
Forecasting |
T1`000 Pacific:Quantity |
TA0000000b |
27 |
ARIMA (1,0,3) |
Nesses resultados, que também podem ser exibidos usando o Visualizador de árvore de conteúdo genérica da Microsoft (Designer de Mineração de Dados), você consegue diferenciar imediatamente quais séries são totalmente lineares, quais têm diversas estruturas periódicas e quais são as peridiocidades encontradas
Por exemplo, a equação ARIMA reduzida para a série M200 Europe indica que somente o ciclo padrão, ou diário, foi detectado. A equação reduzida é fornecida na coluna NODE_CAPTION.
Porém, para a série M200 North America, foi encontrada uma outra estrutura periódica. O nó TA00000001 tem dois nós filho, um com a equação (1,0,4) e um com a equação (1,1,4) (6). Essas equações são concatenadas e apresentadas no nó pai.
Para cada estrutura periódica, o conteúdo modelo fornece também a ordem e a média de movimentação como nós filho. Por exemplo, a consulta a seguir recupera os nós filho de um dos nós listados no exemplo anterior. Observe que a coluna PARENT_UNIQUE_NAME deve estar entre colchetes para diferenciá-la da palavra-chave reservada de mesmo nome.
SELECT *
FROM Forecasting.CONTENT
WHERE [PARENT_UNIQUE_NAME] = ' TA00000001'
Como se trata de uma árvore ARIMA, e não ARTxp, você não pode usar a função IsDescendant (DMX) para retornar nós que são um nó filho desta estrutura periódica. Em vez disso, você pode usar os tipos de nós e atributos para filtrar os resultados e retornar os nós filho que fornecem mais detalhes sobre como a equação foi criada, incluindo as médias de movimentação e a ordem de diferença.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_UNIQUE_NAME,
NODE_TYPE, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE [MSOLAP_MODEL_COLUMN] ='M200 North America:Quantity'
AND (NODE_TYPE = 29 or NODE_TYPE = 30)
Resultados do exemplo:
MODEL_NAME |
ATTRIBUTE_NAME |
NODE_UNIQUE_NAME |
NODE_TYPE |
NODE_CAPTION |
---|---|---|---|---|
Forecasting |
M200 North America:Quantity |
TA00000001000000010 |
29 |
ARIMA {1,0.961832044807041} |
Forecasting |
M200 North America:Quantity |
TA00000001000000011 |
30 |
ARIMA {1,-3.51073103693271E-02,2.15731642954099,-0.220314343327742,-1.33151478258758} |
Forecasting |
M200 North America:Quantity |
TA00000001000000000 |
29 |
ARIMA {1,0.643565911081657} |
Forecasting |
M200 North America:Quantity |
TA00000001000000001 |
30 |
ARIMA {1,1.45035399809581E-02,-4.40489283927752E-02,-0.19203901352577,0.242202497643993} |
Esses exemplos mostram que quanto mais detalhada for sua análise da árvore ARIMA, mais detalhes serão descobertos. Apesar disso, as informações importantes são combinadas e também apresentadas no nó pai.
Fórmula de série temporal para ARIMA
Para exibir a fórmula completa de qualquer nó ARIMA, recomendamos o uso da Legenda de Mineração do Visualizador MTS que apresenta todas as ordens de regressão automática, médias de movimentação e outros elementos da equação já compostos em um formato consistente.
Esta seção apresenta uma equação de exemplo e explica os termos básicos.
Legenda de mineração para fórmula ARIMA
O exemplo a seguir mostra a fórmula ARIMA para uma parte do modelo, como exibido na Legenda de Mineração. Para exibir essa fórmula, abra o modelo Forecasting usando o Visualizador MTS, clique na guia Modelo e selecione a árvore da série de dados R250: Europe. Depois, clique no nó que representa a série de dados em 07/05/2003 ou após essa data. A legenda de mineração apresenta todas as constantes em um formato legível, mostrado neste exemplo:
Equação ARIMA:
ARIMA ({1,1},0,{1,1.49791920964142,1.10640053499397,0.888873034670339,-5.05429403071953E-02,-0.905265316720334,-0.961908900643379,-0.649991020901922}) Intercept:56.8888888888889
Esta equação é o formato ARIMA completo que inclui os valores dos coeficientes e a interceptação. A mesma equação no formato reduzido seria {1,0,7}, onde 1 indica o período como um cálculo de intervalos de tempo, 0 indica a ordem da diferença do termo e 7 indica o número de coeficientes.
Observação |
---|
Uma constante é calculada pelo Analysis Services para computar a variância, mas a própria constante não é exibida na interface do usuário. Porém, você pode exibir a variância para qualquer ponto da série como uma função desta constante; basta selecionar Exibir Desvios na exibição Gráfico. A dica de ferramenta para cada série de dados mostra a variação para um ponto previsto específico. |
Conteúdo do modelo da fórmula ARIMA
Um modelo ARIMA segue uma estrutura padrão, com informações diferentes contidas em nós de tipos diferentes. Para exibir o conteúdo do modelo ARIMA, altere o visualizador para o Visualizador de Árvore de Conteúdo Genérica da Microsoft e depois expanda o nó que tem o nome do atributo R250 Europe: Quantity.
Um modelo ARIMA para uma série de dados contém a equação periódica básica em quatro formatos diferentes; você escolhe o formato de acordo com o aplicativo.
NODE_CAPTION: exibe a equação reduzida. O formato reduzido indica quantas estruturas periódicas são representas e quantos coeficientes elas têm. Por exemplo, se a equação reduzida é {4,0,6}, o nó representa uma estrutura periódica com 6 coeficientes. Se o formato reduzido for algo como {2,0,8} x {1,0,0} (4), o nó contém duas estruturas periódicas.
NODE DESCRIPTION: exibe o formato completo da equação, que também é o formato da equação que aparece na Legenda de Mineração. O formato completo da equação é parecido com o reduzido, exceto pelo fato de os valores reais dos coeficientes serem exibidos em vez de contabilizados.
NODE_RULE: exibe uma representação XML da equação. Dependendo do tipo de nó, a representação XML pode incluir uma ou várias estruturas periódicas. A tabela a seguir mostra como nós XML são acumulados até níveis mais altos do modelo ARIMA.
Tipo de nó |
Conteúdo XML |
---|---|
27 (Raiz ARIMA) |
Inclui todas as estruturas periódicas para a série de dados e o conteúdo de todos os nós filho de cada estrutura periódica. |
28 (Estrutura periódica ARIMA) |
Define uma única estrutura periódica, incluindo seu nó de termo de regressão automática e seus coeficientes de média de movimentação. |
29 (Regressão automática ARIMA) |
Lista os termos para uma única estrutura periódica. |
30 (Média de movimentação ARIMA) |
Lista os coeficientes para uma única estrutura periódica. |
NODE_DISTRIBUTION: exibe os termos da equação em uma tabela aninhada que você pode examinar para obter termos específicos. A tabela de distribuição de nó segue a mesma estrutura hierárquica das regras XML. Ou seja, o nó raiz da série ARIMA (NODE_TYPE = 27) contém o valor de interceptação e as peridiocidades da equação completa; isso pode incluir várias peridiocidades, onde os nós filho contêm somente informações especificas de uma determinada estrutura periódica ou de nós filho daquela estrutura periódica.
Tipo de nó |
Atributo |
Tipo de valor |
---|---|---|
27 (Raiz ARIMA) |
Interceptação Periodicidade |
11 |
28 (Estrutura periódica ARIMA) |
Periodicidade Ordem regressiva automática Ordem de diferença Ordem de média de movimentação |
12 13 15 14 |
29 (Regressão automática ARIMA) |
Coeficiente (complemento de coeficiente) |
7 |
30 (Média de movimentação ARIMA) |
Valor em t Valor em t-1 … Valor em t-n |
7 |
O valor da ordem de média de movimentação indica o número de médias de movimentação em uma série. Normalmente, a média de movimentação é calculada n-1 vezes se há termos n em uma série, mas o número pode ser reduzido para facilitar o cálculo.
O valor da ordem regressiva automática indica o número de séries de regressão automática.
O valor da ordem de diferença indica quantas vezes as séries são comparadas ou diferenciadas.
Para verificar uma lista dos tipos de valores possíveis, consulte MiningValueType.
Usando as informações da árvore ARIMA
Se você usa previsões com base no algoritmo ARIMA em uma solução de negócios, talvez você queira colocar a equação em um relatório para demonstrar o método usado na criação da previsão. Você pode usar a legenda ou a descrição para apresentar as fórmulas nos formatos reduzido e completo, respectivamente.
Se estiver desenvolvendo um aplicativo que usa previsões de série temporal, talvez seja útil obter a equação ARIMA do conteúdo do modelo e depois fazer suas próprias previsões. Para obter a equação ARIMA de um resultado específico, você pode consultar diretamente a raiz ARIMA daquele atributo específico como mostrado nos exemplos anteriores.
Se souber o identificador do nó que contém a série desejada, você tem duas opções para recuperar os componentes da equação:
Formato de tabela aninhada: usa uma consulta DMX ou consulta via cliente OLEDB.
Representação XML: usa uma consulta XML.
Comentários
Pode ser difícil recuperar informações de uma árvore ARTxp, pois as informações para cada divisão estão em um local diferente na árvore. Portanto, com o modelo ARTxp, você deve reunir todas as partes e depois processá-las para reconstituir a fórmula inteira. É mais fácil recuperar uma equação de um modelo ARIMA porque a fórmula foi disponibilizada ao longo da árvore. Para obter informações sobre como criar uma consulta para recuperar essas informações, consulte Consultando um modelo de série temporal (Analysis Services - Mineração de Dados).