Partilhar via


Noções básicas sobre os requisitos de um modelo de série temporal (Tutorial de mineração de dados intermediário)

Ao preparar dados para uso em um modelo de previsão, você deve garantir que seus dados contenham uma coluna que possa ser usada para identificar as etapas na série temporal. Essa coluna será designada como a Key Time coluna. Como é uma chave, a coluna deve conter valores numéricos exclusivos.

Escolher a unidade certa para a Key Time coluna é uma parte importante da análise. Por exemplo, suponha que os dados de vendas sejam atualizados minuto a minuto. Você não usaria necessariamente minutos como a unidade para a série temporal; você pode achar mais significativo acumular dados de vendas por dia, semana ou até mesmo mês. Se você não tiver certeza de qual unidade de tempo usar, poderá criar uma nova exibição de fonte de dados para cada agregação e criar modelos relacionados para ver se diferentes tendências surgem em cada nível de agregação.

Para este tutorial, os dados de vendas são coletados diariamente no banco de dados de vendas transacional, mas para mineração de dados, os dados foram pré-agregados por mês, usando uma visão.

Além disso, é desejável para análise que os dados tenham o menor número possível de lacunas. Se você planeja analisar várias séries de dados, todas as séries devem, preferencialmente, iniciar e terminar na mesma data. Se os dados tiverem lacunas, mas as lacunas não estiverem no início ou no final de uma série, você poderá usar o parâmetro MISSING_VALUE_SUBSTITUTION para preencher a série. O Analysis Services também fornece várias opções para substituir dados ausentes por valores, como usar meios ou constantes.

Aviso

As ferramentas Gráfico Dinâmico e Tabela Dinâmica que foram incluídas em versões anteriores do designer de exibição da fonte de dados não são mais fornecidas. Recomendamos que você identifique lacunas nos dados de série temporal com antecedência usando ferramentas como o Criador de Perfil de Dados incluído no Integration Services.

Para identificar a chave de tempo para o modelo de previsão

  1. No painel, SalesByRegion.dsv [Design], clique com o botão direito do mouse na tabela vTimeSeries e selecione Explorar Dados.

    Uma nova guia é aberta, intitulada Explore vTimeSeries Table.

  2. Na guia Tabela, revise os dados usados nas colunas TimeIndex e Data do Relatório.

    Ambas são sequências com valores exclusivos e podem ser usadas como a chave de série temporal; no entanto, os tipos de dados das colunas são diferentes. O algoritmo de Série Temporal da Microsoft não requer um datetime tipo de dados, apenas que os valores sejam distintos e ordenados. Portanto, qualquer coluna pode ser usada como a chave de tempo para o modelo de previsão.

  3. Na superfície de design da exibição da fonte de dados, selecione a coluna, Data do Relatório e selecione Propriedades. Em seguida, clique na coluna TimeIndex e selecione Propriedades.

    O campo TimeIndex tem o tipo de dados System.Int32, enquanto o campo Data de Relatório tem o tipo de dados System.DateTime. Muitos data warehouses convertem valores de data e hora em inteiros e usam a coluna de inteiros como chave, para aumentar a eficiência da indexação. No entanto, se você usar essa coluna, o algoritmo Microsoft Time Series fará previsões usando valores futuros, como 201014, 201014 e assim por diante. Como você deseja representar sua previsão de dados de vendas usando datas de calendário, você usará a coluna Data do Relatório como o identificador de série exclusivo.

Para definir a chave na exibição da fonte de dados

  1. No painel SalesByRegion.dsv, selecione a tabela vTimeSeries.

  2. Clique com o botão direito do mouse na coluna, Data do Relatório e selecione Definir Chave Primária Lógica.

Lidando com dados ausentes (opcional)

Se qualquer série tiver dados ausentes, você poderá receber um erro ao tentar processar o modelo. Você tem várias maneiras de contornar os dados ausentes:

  • Você pode fazer com que o Analysis Services preencha os valores ausentes, calculando uma média ou usando um valor anterior. Faça isso definindo o parâmetro MISSING_VALUE_SUBSTITUTION no modelo de mineração. Para obter mais informações sobre esse parâmetro, consulte a Referência Técnica do Algoritmo de Série Temporal da Microsoft. Para obter informações sobre como alterar parâmetros em um modelo de mineração existente, consulte Exibir ou alterar parâmetros de algoritmo.

  • Você pode alterar a fonte de dados ou filtrar a exibição subjacente para eliminar séries irregulares ou substituir valores. Você pode fazer isso na fonte de dados relacional ou modificar a exibição da fonte de dados criando consultas nomeadas personalizadas ou cálculos nomeados. Para obter mais informações, consulte Exibições da fonte de dados em modelos multidimensionais. Uma tarefa posterior nesta lição fornece um exemplo de como criar uma consulta nomeada e um cálculo personalizado.

Para esse cenário, alguns dados estão ausentes no início de uma série: ou seja, não há dados para a linha de produtos T1000 até julho de 2007. Caso contrário, todas as séries terminam na mesma data e não há valores ausentes.

O requisito do algoritmo microsoft Time Series é que qualquer série que você incluir em um único modelo deve ter o mesmo ponto final . Como o modelo de bicicleta T1000 foi introduzido em 2007, os dados desta série começam mais tarde do que para outros modelos de bicicleta, mas a série termina na mesma data; portanto, os dados são utilizáveis.

Para fechar o designer de exibição da fonte de dados

  • Clique com o botão direito do mouse na guia, Explore a Tabela vTimeSeries, e selecione Fechar.

Próxima tarefa da lição

Criando uma estrutura e um modelo de previsão (Tutorial de mineração de dados intermediário)

Consulte Também

Algoritmo de Série Temporal da Microsoft